跳转到主要内容

字节跳动StoryMem为AI生成视频带来一致性

字节跳动新方案让AI视频更流畅

是否注意到AI生成的视频中,角色在不同场景间经常出现外貌不一致的问题?得益于字节跳动与南洋理工大学研发的新系统StoryMem,这种令人沮丧的不连贯现象可能即将成为历史。

Image

一致性挑战

Sora、Kling和Veo等主流AI视频工具擅长创作短视频片段,但将这些片段拼接成连贯叙事时往往会产生突兀的视觉变化。角色可能在镜头切换间莫名改变服装或发型,背景也会出现不可预测的变动。

"现有解决方案要么需要过量计算资源,要么牺牲连续性",StoryMem研究团队解释道:"我们想创建更智能的系统来高效保存记忆"。

StoryMem的差异化工作原理

突破点在于其选择性记忆机制:

  • 智能存储生成过程中的视觉关键帧
  • 引用这些记忆创建新场景时
  • 通过反馈存储帧维持连续性至模型中

该方法确保生成的视频中(无论是五秒短片还是长篇内容),角色与环境始终保持可识别性。

背后的技术创新

团队使用以下要素训练StoryMem:

  • 40万条视频片段(每条5秒时长)
  • 基于阿里巴巴Wan2.2-I2V模型的低秩自适应(LoRA)技术
  • 视觉相似性分组保持续集风格一致性

测试结果极具说服力:

  • 比基础模型提升28.7%一致性
  • 用户审美质量偏好得分更高
  • 更强的故事连贯性表现

当前局限与未来方向

虽然取得显著进展,但StoryMem仍有不足:

  • 处理多角色的复杂场景时存在困难
  • 偶尔会在不同主体间错误应用视觉特征

研究人员建议在提示词中添加更清晰的角色描述可暂时缓解这些问题,同时他们正在开发更稳健的解决方案。

项目官网:https://kevin-thu.github.io/StoryMem/

核心要点:

✅ 保持AI生成视频中角色/环境跨场景一致性
📈 比现有模型提升28.7%连续性表现
🔄 采用智能帧存储与引用系统
🎬 基于40万视频片段使用LoRA技术训练
⚠️ 仍面临复杂多角色场景的处理挑战

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

智谱与华为联合发布完全基于国产技术的突破性AI图像模型
News

智谱与华为联合发布完全基于国产技术的突破性AI图像模型

中国AI企业智谱与华为合作推出GLM-Image,这是一款完全基于国产硬件训练的革命性多模态模型。这一创新系统结合了文本与图像生成能力,尤其在汉字渲染和复杂视觉任务方面表现优异。现已作为开源软件发布,有望使先进的AI图像创作更加普及。

January 14, 2026
AI创新国产技术计算机视觉
News

AI赋能故事新生命:阅道与生数科技携手打造下一代影视技术

中国娱乐产业迎来技术升级,阅道集团与生数科技达成合作,彻底改变IP可视化方式。双方将生数的Vidu视频生成模型整合至阅道创作平台,实现文本到动态画面的革命性转换。除技术突破外,两家企业还通过专项教育计划解决行业人才缺口,构建从创作到生产的完整生态体系。

January 13, 2026
AIGC数字叙事AI视频生成
MIT自动化'运动工厂'赋予AI物理直觉
News

MIT自动化'运动工厂'赋予AI物理直觉

来自MIT、NVIDIA和加州大学伯克利分校的研究人员攻克了视频分析领域的一大难题——教会AI理解物理运动。他们的自动化'FoundationMotion'系统无需人工干预即可生成高质量训练数据,帮助AI系统以惊人准确度掌握轨迹与时机等概念。初期测试显示其性能超越更庞大模型,标志着机器真正理解物体运动规律的进展。

January 12, 2026
计算机视觉AI训练运动分析
Lightricks推出开源AI,数秒内生成带声音的视频
News

Lightricks推出开源AI,数秒内生成带声音的视频

以色列科技公司Lightricks发布了LTX-2,这是一款创新的AI系统,能够根据文本提示生成20秒高清视频并完美同步音频。与传统方法不同,它采用独特的双流架构同时处理视觉和声音。这款开源模型以惊人的速度超越竞争对手——每步仅需一秒多即可生成720p内容。

January 12, 2026
AI视频生成开源AILightricks
中国研究人员教会AI在图像生成中自我纠错
News

中国研究人员教会AI在图像生成中自我纠错

中国高校取得突破性进展,解决了AI的'视觉读写障碍'——图像系统能理解概念却难以正确呈现的问题。他们的UniCorn框架如同内部质检团队,能在创作过程中捕捉并修正错误。早期测试显示其在空间准确性和细节处理方面有显著提升。

January 12, 2026
AI创新计算机视觉机器学习
News

科技行业资深人士创立liko.ai,推出更智能的隐私保护家用摄像头

美团前硬件负责人李瑞安(Ryan Li)的新创企业liko.ai已获得商汤科技和科大讯飞关联公司的投资。这家初创公司旨在通过基于边缘的人工智能技术革新家用安防摄像头——该技术在本地而非云端处理视频,既解决了日益增长的隐私担忧,又增添了更智能的检测功能。他们的首批产品预计将于2026年年中面市。

January 7, 2026
智能家居计算机视觉边缘计算