昆仑科技发布SkyReels-A3:语音同步数字人技术
昆仑科技发布SkyReels-A3:数字人创作技术的飞跃
昆仑万维集团正式推出SkyReels-A3模型,这是一款基于Diffusion Transformer(DiT)视频扩散模型的尖端音频驱动数字人创作工具。此次发布标志着数字内容创作的重要里程碑,用户可生成任意时长、语音同步的逼真数字人。
SkyReels-A3工作原理
SkyReels-A3的核心功能围绕静态图像或视频的动态化展开。用户上传肖像图片及对应语音录音后,模型将生成与音频同步的说话或歌唱视频。该工具还支持通过结合肖像图片、语音输入和文本提示来创建全新视频内容,以控制主体的动作。

高级功能
- 动态台词替换:可通过更改现有视频中的台词,同时自动调整嘴型、表情和表演以保持连续性
- 延长视频输出:支持长达60秒的单镜头视频及不限时长的多镜头序列
- 精准镜头控制:集成基于ControlNet的镜头控制模块,提供八个预设镜头参数,强度可在0-100%间调节以实现专业级效果
针对实际应用优化
昆仑万维特别针对直播和电商等实际场景优化了SkyReels-A3,提升了视频一致性和互动动作的自然度。该模型在音乐视频、影视片段和教育内容等创意领域同样表现出色。
核心亮点
- 语音驱动动画:将静态图像转化为会说话/唱歌的数字人
- 专业级输出:提供精准镜头控制与延长视频时长功能
- 广泛适用性:适用于广告、直播、娱乐及教育领域
- 开放获取:模型可通过Hugging Face获取
SkyReels-A3的发布降低了高质量数字内容创作的门槛,为多行业提供低成本高效解决方案。随着昆仑万维持续创新,声音与图像的界限进一步模糊——为个性化互动媒体开辟了新可能。





