跳转到主要内容

Google Gemini允许创作者通过多张图片塑造视频

Google将AI视频创作推向新高度

得益于Gemini的最新更新,创作者现在可以更精细地控制AI生成的视频。用户不再仅依赖文本提示,而是可以上传多张参考图片来引导系统输出——从视觉风格到伴随音频都能进行塑造。

Image

工作原理

该功能基于Google Flow平台首次测试的技术构建,该平台已经允许视频扩展和场景拼接。但Gemini通过更易用的界面将这种能力带给日常创作者。上传几张代表您所需美学的图片,添加描述性文本,剩下的就交给AI处理。

"我们看到创作者以各种有趣的方式使用这一功能,"一位Google产品经理解释道,"有人上传情绪板,也有人使用他们想要模仿的现有视频帧。系统对这些视觉线索的解读非常出色。"

改进背后

此次更新与10月中旬发布的Veo3.1相吻合,带来了显著提升:

  • 更清晰的纹理,模拟真实世界材质
  • 输入提示与最终输出之间更好的对齐
  • 自然补充视觉效果的增强音频质量

对于在Flow上工作的专业创作者来说,相比面向消费者的Gemini应用仍可获得更高的视频配额。

为何重要

在日益拥挤的AI视频领域,定制化成为关键。这一功能解决了一个常见痛点——当仅靠文本提示无法捕捉细微创意愿景时的问题。通过整合多个参考点:

  • 独立电影人可以保持跨场景一致的视觉风格
  • 营销人员确保品牌色彩和美学贯穿始终
  • 教育工作者轻松创建连贯的教学材料

该技术仍有局限性——在截然不同的参考图像之间进行复杂运动可能会产生不一致的结果。但对于许多用例来说,它代表了创意控制方面的重大飞跃。

展望未来

随着AI视频工具的成熟,预计会有更多创新桥梁连接人类创造力与机器效率。Google似乎致力于根据创作者的反馈来改进质量和可用性两方面。

问题不在于AI是否会改变视频制作——它已经做到了——而在于这些工具如何最好地放大而非取代人类的想象力。

关键点:

  • 🖼️ 多图引导 - 上传多个参考而非仅依赖文本
  • 🎬 增强控制 - 精确塑造视觉效果和音频输出
  • 🔊 质量升级 - Veo3.1提供更清晰的细节和更好的声音
  • 🚀 创意潜力 - 为多样化内容创作者开辟新可能性

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

谷歌Gemini遭遇大规模AI模型黑客攻击
News

谷歌Gemini遭遇大规模AI模型黑客攻击

谷歌披露其Gemini AI聊天机器人遭受了一场复杂攻击,黑客通过发送超过10万条提示试图提取其核心算法。安全专家警告这种'模型蒸馏'技术可能广泛传播,威胁企业AI机密。该事件凸显了随着企业日益依赖定制化AI系统而增长的漏洞风险。

February 15, 2026
AI安全Google Gemini网络威胁
News

美图快拍App通过集成Seedance 2.0获得AI升级

美图旗下热门配音视频工具快拍将通过集成Seedance 2.0强大的AI能力彻底改变内容创作方式。本月晚些时候推出的更新将允许用户直接在工作流程中生成专业素材——从美妆博主需要的皮肤示意图到教育工作者所需的复杂演示文稿。此举凸显了美图将尖端AI模型与实际应用相结合的战略。

February 13, 2026
AI视频工具Seedance 2.0内容创作
苹果AI设计突破:小模型表现超越GPT-5
News

苹果AI设计突破:小模型表现超越GPT-5

苹果破解了AI驱动设计的密码。他们的研究表明,通过专业设计师的直接反馈对小型模型进行微调,能产生显著效果——优化后的Qwen3-Coder在UI设计质量上甚至超越了GPT-5。通过收集21位资深设计师的详细注释和草图,苹果创建了一种训练方法,大幅提升了美学吸引力和逻辑一致性。

February 6, 2026
AI设计人机协作创意技术
News

谷歌推出Conductor为Gemini AI增强记忆能力

谷歌发布了开源扩展Conductor,解决了AI编程中最令人头痛的问题——上下文丢失。这款巧妙工具通过将关键项目细节保存为Markdown文件,将Gemini CLI零散的建议转化为结构化工作流。遵循严格的开发周期并引入'Tracks'概念来保持AI的正确方向,Conductor为AI辅助编程带来了亟需的一致性。该工具基于Apache 2.0许可证发布,既适用于新项目也适用于复杂的现有代码库。

February 3, 2026
AI编程Google Gemini开发者工具
谷歌秘密AI项目"雪兔"曝光:即时生成代码震撼开发者
News

谷歌秘密AI项目"雪兔"曝光:即时生成代码震撼开发者

谷歌内部代号为'雪兔'的AI模型泄露,该Gemini 3.5变体号称能即时生成3000行可运行代码,或将彻底改变编程方式。据传其在基准测试中表现优于即将发布的GPT-5.2等竞争对手,并引入了设计和复杂问题解决的专用模式。这会是软件开发的未来吗?

January 29, 2026
AI开发Google Gemini代码生成
谷歌Gemini 3.5代码能力惊人泄露
News

谷歌Gemini 3.5代码能力惊人泄露

谷歌即将推出的Gemini 3.5 AI模型内部测试版(代号Snow Bunny)遭泄露,据称能根据单条提示生成多达3000行功能代码。泄露信息显示该模型针对不同任务开发了专用版本,其出色的推理能力可能超越当前竞争对手。

January 29, 2026
AI开发Google Gemini编程工具