Google Gemini允许创作者通过多张图片塑造视频
Google将AI视频创作推向新高度
得益于Gemini的最新更新,创作者现在可以更精细地控制AI生成的视频。用户不再仅依赖文本提示,而是可以上传多张参考图片来引导系统输出——从视觉风格到伴随音频都能进行塑造。

工作原理
该功能基于Google Flow平台首次测试的技术构建,该平台已经允许视频扩展和场景拼接。但Gemini通过更易用的界面将这种能力带给日常创作者。上传几张代表您所需美学的图片,添加描述性文本,剩下的就交给AI处理。
"我们看到创作者以各种有趣的方式使用这一功能,"一位Google产品经理解释道,"有人上传情绪板,也有人使用他们想要模仿的现有视频帧。系统对这些视觉线索的解读非常出色。"
改进背后
此次更新与10月中旬发布的Veo3.1相吻合,带来了显著提升:
- 更清晰的纹理,模拟真实世界材质
- 输入提示与最终输出之间更好的对齐
- 自然补充视觉效果的增强音频质量
对于在Flow上工作的专业创作者来说,相比面向消费者的Gemini应用仍可获得更高的视频配额。
为何重要
在日益拥挤的AI视频领域,定制化成为关键。这一功能解决了一个常见痛点——当仅靠文本提示无法捕捉细微创意愿景时的问题。通过整合多个参考点:
- 独立电影人可以保持跨场景一致的视觉风格
- 营销人员确保品牌色彩和美学贯穿始终
- 教育工作者轻松创建连贯的教学材料
该技术仍有局限性——在截然不同的参考图像之间进行复杂运动可能会产生不一致的结果。但对于许多用例来说,它代表了创意控制方面的重大飞跃。
展望未来
随着AI视频工具的成熟,预计会有更多创新桥梁连接人类创造力与机器效率。Google似乎致力于根据创作者的反馈来改进质量和可用性两方面。
问题不在于AI是否会改变视频制作——它已经做到了——而在于这些工具如何最好地放大而非取代人类的想象力。
关键点:
- 🖼️ 多图引导 - 上传多个参考而非仅依赖文本
- 🎬 增强控制 - 精确塑造视觉效果和音频输出
- 🔊 质量升级 - Veo3.1提供更清晰的细节和更好的声音
- 🚀 创意潜力 - 为多样化内容创作者开辟新可能性





