TuSimple Unveils 'Ruyi' Image-to-Video Model and Ruyi-Mini-7B
TuSimple Unveils 'Ruyi' Image-to-Video Model and Ruyi-Mini-7B
北京,中国 — 在 2024 年 12 月 17 日,TuSimple Future Technology Co., Ltd. 正式宣布发布其首个大型模型,Ruyi,作为其 TuSheng Video 系列的一部分。该公司还开源了 Ruyi-Mini-7B 版本,可从 Hugging Face 平台下载。TuSimple 成立于 2015 年,总部位于加利福尼亚州圣地亚哥,专注于在多个行业中应用 AI 技术,包括 动画、游戏和 运输。
Features of the Ruyi Model
Ruyi 模型专门设计用于在消费者级显卡上运行,提供详细的部署说明和工作流程,通过 ComfyUI 实现快速设置和使用。其性能在 帧一致性、运动流畅性、色彩表现和 构图方面表现出色,使其成为视觉叙事的有前景的工具。Ruyi模特旨在迎合 动漫 和 游戏 爱好者,经过在这些领域的广泛训练。

Ruyi 支持多分辨率和多时长的视频生成,能够生成 384×384 到 1024×1024 像素的输出,具有任意宽高比。用户可以创建长达 120 帧 或 5 秒 的视频,并可以控制第一帧的生成和关键帧之间的转换。该模型还提供运动幅度控制和五种镜头控制类型。Ruyi 基于 DiT 架构构建,包含一个 Casual VAE 模块 和一个 Diffusion Transformer,总计约 71 亿参数,并在约 2 亿个视频片段上进行了训练。
Challenges and Future Improvements
尽管取得了进展,Ruyi 仍面临挑战,包括 手部扭曲、多人场景中的面部细节崩溃和 不可控的过渡 问题。TuSimple 正在积极解决这些挑战,以便在未来的更新中改善模型。
展望未来,TuSimple 计划继续关注场景需求,并在 直接 CUT 生成方面取得突破。公司计划在下一个版本中提供两种模型版本,以满足创作者的多样化需求。通过使用像 Ruyi 这样的巨大模型,TuSimple 希望减少与创建动漫和游戏内容相关的 开发周期 和 成本。Ruyi 模型已经可以通过输入关键帧或在它们之间创建过渡生成五秒的素材,显著加快开发过程。
Accessing Ruyi-Mini-7B
对 Ruyi-Mini-7B 模型感兴趣的开发者和创作者可以通过以下链接访问它:
Key Points
- TuSimple 发布了首个大型模型 'Ruyi',用于图像到视频的转换。
- Ruyi 模型与消费者级硬件兼容,促进了可获取性。
- 未来的更新将解决现有挑战并引入新功能以提升性能。




