TikTok与清华大学开源多模态视频框架HuMo欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

TikTok与清华大学开源多模态视频框架HuMo

TikTok与清华大学发布开源HuMo框架

在AI视频生成领域的重大进展中，字节跳动智能创作团队与清华大学合作开源了HuMo框架，这是一个专为以人物为中心的视频生成（HCVG）设计的多模态系统。此次合作标志着学术研究与工业级AI应用结合的重要一步。

技术能力

HuMo框架的突出之处在于其能够同时处理三种输入模态：

文本描述
参考图像
音频提示

这种多模态方法使系统能够生成连贯的视频，其中人物根据复杂提示自然地移动。当前实现可生成480P和720P分辨率的视频，最大长度为97帧，速度为每秒25帧。

创新亮点

研究团队将HuMo的卓越性能归功于两大关键创新：

一个专注于人体运动模式的精心策划的训练数据集
一种新颖的渐进式训练方法，优于传统的单阶段方法

该框架采用先进的数据处理流程，在保持帧间时间一致性的同时，允许对角色动作进行精确控制。早期基准测试显示，与现有的单模态解决方案相比，HuMo实现了15-20%的运动保真度提升。

实际应用

开发者可以利用HuMo进行多种用例开发，包括：

虚拟内容创作
教育视频制作
AI辅助的电影预可视化

开源版本包括预训练模型和全面的文档，降低了学术研究人员和商业开发者尝试该技术的门槛。

该项目已在GitHub上发布，并附有详细的技术论文发布于arXiv：https://arxiv.org/pdf/2509.08519

关键点：

首个专门针对人物视频生成优化的开源多模态框架
结合文本、图像和音频输入以产生连贯输出
渐进式训练方法在运动质量上达到新基准
实际应用涵盖娱乐、教育和专业媒体制作

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

神秘AI模型现身OpenRouter，具备万亿参数级威力

OpenRouter悄然推出两款神秘AI模型——Hunter Alpha和Healer Alpha，引发广泛猜测。Hunter Alpha拥有惊人的万亿参数，擅长复杂推理；而Healer Alpha则在多模态理解方面表现突出。两者目前均以匿名方式运营并提供免费访问权限，其来源引发诸多有趣理论。

March 12, 2026

AI模型OpenRouter多模态AI

News

阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力

阿里巴巴通义千问团队发布了一系列轻量级AI模型，这些小巧的模型蕴含着令人印象深刻的能力。新模型参数规模从0.8B到9B不等，具备多模态处理能力，同时针对智能手机和物联网设备等边缘设备进行了优化。最小型号提供闪电般的响应速度，而较大型号在能力上可与更庞大的系统媲美——且资源消耗更低。这些现已登陆主流平台的模型，或将彻底改变我们在日常设备中部署AI的方式。

March 3, 2026

边缘AI阿里巴巴通义千问轻量级模型