中国的Sora竞品:智谱清影2.0将文本转化为电影级视频
中国视频生成技术的突破
好莱坞请注意——人工智能正在改写视频制作规则。智谱AI最新发布的清影2.0,展现了中国在文本转视频这一竞争领域的生成式AI能力已取得长足进步。

工作原理
该系统基于智谱自研的CogVideoX模型架构构建。用户只需输入描述性文本——从"上海日落"到"赛博朋克街市"皆可——剩余工作由AI完成。片刻之间,它就能生成包含以下元素的1080P高清画面:
- 动态镜头运动(平移、变焦、跟踪拍摄)
- 多样化视觉风格(从传统中国水墨到未来感霓虹)
- 通过CogSound技术自动匹配音效
"这不仅仅是创造动态图像,"智谱发言人解释道,"我们提供的是完整的电影级体验,每个元素——视觉、动作、音频——都和谐统一。"
实际应用
该技术已获得广泛应用:
- 普通用户可通过清言移动应用自由尝试
- 企业用户可通过API集成制作电商产品视频或金融解说视频
- 创意专业人士可利用定制模型进行广告和电影预可视化制作
仅首月内,早期使用者就生成了超百万条视频。随着本次更新将推理成本再降30%,准入门槛持续降低。
竞争优势
虽然与OpenAI的Sora比较不可避免,但清影具备独特优势:
- 对中文提示的更优理解
- 保持质量的同时实现更快生成速度
- 竞争对手缺乏的集成化音视工作流
- 吸引亚洲市场的成本效益定价结构
该项目仍在官方demo页面开放探索。
关键点:
- 通过简单文字描述生成专业级视频
- 支持多种风格同时输出多段定制视频
- 自动添加环境音效和动作音效
- 现已推出移动应用版和企业API选项
- 较前代版本实现显著成本降低