Lightricks推出开源AI,数秒内生成带声音的视频
Lightricks凭借LTX-2 AI视频生成器开辟新天地
Lightricks将其尖端LTX-2系统开源,这一举措或将 democratize 视频创作。该AI能在短短数秒内生成带有同步音频的高质量视频。这一突破性技术通过同时而非顺序处理画面与声音,对传统方法提出了挑战。
工作原理:视听同步处理
关键在于LTX-2精密的双流架构。大多数系统会先生成画面再添加声音,而该模型通过并行处理两个数据流来模拟现实世界的感知方式。总计190亿参数(视频14亿,音频50亿)的非对称设计反映了人类自然优先处理听觉信息的特点。

开发团队解释道:“传统方法造成了人为割裂。我们的大脑不会先视觉后听觉地处理车祸——我们是瞬间同时体验两者的。”
惊人速度与实际应用
性能测试显示出惊人效率:
- 以每秒1.22步的速度生成720p内容
- 运行速度比同类系统快18倍
- 可处理20秒序列——超越谷歌基准测试 该系统在表现因果关系场景时尤为出色,比如将玻璃破碎声与画面碎裂时刻精确匹配。

开源的重要意义
创始人Ziv Faberman强调可及性:“创作者应该掌控自己的工具,而非依赖企业守门人。”公开发布LTX-2的决定与竞争对手的封闭生态系统形成鲜明对比。
该模型确实存在一些局限:
- 对罕见方言或多说话人对话偶现故障
- 超过20秒后保持同步存在挑战 但与它的变革潜力相比,这些障碍似乎微不足道。
完整框架现已在线提供,并为消费级GPU优化——这意味着任何拥有中等硬件设备的人都能尝试专业级视听内容生成。
关键要点:
- 同步处理音频与视觉数据流模拟人类感知
- 开源模式优先考虑创作者控制权而非围墙花园
- 非凡速度:比竞争对手更快生成高清片段
- 实际应用:适合需要快速高质量视频制作的内容创作者


