Lightricks推出开源AI，数秒内生成带声音的视频欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

Lightricks推出开源AI，数秒内生成带声音的视频

Lightricks凭借LTX-2 AI视频生成器开辟新天地

Lightricks将其尖端LTX-2系统开源，这一举措或将 democratize 视频创作。该AI能在短短数秒内生成带有同步音频的高质量视频。这一突破性技术通过同时而非顺序处理画面与声音，对传统方法提出了挑战。

工作原理：视听同步处理

关键在于LTX-2精密的双流架构。大多数系统会先生成画面再添加声音，而该模型通过并行处理两个数据流来模拟现实世界的感知方式。总计190亿参数（视频14亿，音频50亿）的非对称设计反映了人类自然优先处理听觉信息的特点。

开发团队解释道：“传统方法造成了人为割裂。我们的大脑不会先视觉后听觉地处理车祸——我们是瞬间同时体验两者的。”

惊人速度与实际应用

性能测试显示出惊人效率：

以每秒1.22步的速度生成720p内容
运行速度比同类系统快18倍
可处理20秒序列——超越谷歌基准测试该系统在表现因果关系场景时尤为出色，比如将玻璃破碎声与画面碎裂时刻精确匹配。

开源的重要意义

创始人Ziv Faberman强调可及性：“创作者应该掌控自己的工具，而非依赖企业守门人。”公开发布LTX-2的决定与竞争对手的封闭生态系统形成鲜明对比。

该模型确实存在一些局限：

对罕见方言或多说话人对话偶现故障
超过20秒后保持同步存在挑战但与它的变革潜力相比，这些障碍似乎微不足道。

完整框架现已在线提供，并为消费级GPU优化——这意味着任何拥有中等硬件设备的人都能尝试专业级视听内容生成。

关键要点：

同步处理音频与视觉数据流模拟人类感知
开源模式优先考虑创作者控制权而非围墙花园
非凡速度：比竞争对手更快生成高清片段
实际应用：适合需要快速高质量视频制作的内容创作者

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

阿里巴巴全新开源AI模型以编程实力惊艳亮相

阿里巴巴近日推出Qwen3.6-35B-A3B前沿AI模型，以惊人高效的资源利用率实现卓越性能。这款350亿参数模型在运行时仅激活30亿参数，却在编程任务和视觉理解方面超越更大规模的竞品。该模型已集成至阿里云服务，势将成为AI驱动编码工具和边缘计算应用开发者的变革性选择。

April 17, 2026

AI模型编程AI开源AI

News

谷歌MedGemma 1.5 AI将医学影像提升至全新维度

谷歌最新发布了开源医学AI MedGemma 1.5，这款人工智能能以惊人准确度解析复杂的三维扫描影像。此次升级突破了传统二维图像分析的局限，为医生提供了从肿瘤追踪到数字病理学的全新潜在工具。虽然尚未达到临床应用标准，该模型展现出显著改进——在保持40亿参数规模的同时，实现了两位数的准确率提升。

April 17, 2026

医疗AI谷歌研究院医疗健康AI

News

腾讯视频技术突破：生成速度提升11.8倍

腾讯混元团队通过全新DisCa技术攻克了视频生成速度慢的难题，在不损失画质的情况下实现了惊人的11.8倍速度提升。这项被顶级计算机视觉会议CVPR 2026收录的开源方案，引入了智能特征预测技术，彻底改变了AI生成视频的方式。该团队还改进了MIT的方法，使其更适用于复杂视频任务，成果已应用于其最新视频生成模型。

April 16, 2026

AI视频生成腾讯研究计算机视觉

News