跳转到主要内容

Google DeepMind 开源 GenAI Processors 助力 AI 工作流

Google DeepMind 开源 GenAI Processors 助力 AI 工作流

Google DeepMind 宣布开源 GenAI Processors,这是一个旨在简化异步、可组合生成式 AI 工作流开发的新 Python 库。这款轻量级工具专为提升构建复杂多模态 AI 应用的效率而设计,尤其适合那些利用 Gemini API 的应用。

Image

核心特性:模块化与异步处理

该库围绕统一的 "Processor"接口构建,使开发者能够将复杂的 AI 工作流分解为模块化单元。这些单元处理从输入预处理到模型调用及输出生成的所有环节,并支持对音频、文本和图像等多模态数据的异步流处理。AIbase编辑团队的测试显示,该库利用 Python的 asyncio机制优化并发执行,显著降低了 I/O密集型任务的延迟。这使其成为语音助手或视频处理工具等实时应用的理想选择。

GenAI Processors包含两个内置处理器:用于基于会话交互的 GenaiModel和用于实时流处理的 LiveProcessor。开发者仅需几行代码即可创建支持麦克风和摄像头输入的 AI代理。例如,结合视频和音频处理功能可快速开发实时翻译或智能助手应用。

技术核心:流式 API与并发优化

GenAI Processors的核心采用 流式 API,将所有输入和输出视为 ProcessorParts的异步数据流。每个数据单元(如音频片段或图像帧)均附带元数据,在确保数据流有序性的同时,通过内置并发优化最大程度减少"首次令牌时间"。模块化设计允许无缝集成不同处理单元,保持代码的可重用性与可维护性。

目前该库仅支持 Python,但其核心目录包含基础处理器,并通过 contrib目录欢迎社区贡献。Google DeepMind计划通过社区协作扩展功能,未来可能覆盖更多场景和编程语言。

行业影响:加速生成式 AI开发

GenAI Processors的开源为开发者提供了构建高性能 Gemini应用的强大工具,尤其在实时多模态处理领域。与传统框架相比,该库通过模块化和异步处理降低了开发复杂度,特别适合智能客服、实时翻译和多模态交互代理等低延迟应用场景。

该库仍处于早期阶段,其 GitHub仓库(https://github.com/google-gemini/genai-processors)已开放社区贡献。开发者对更广泛的语言支持和预训练模型集成表现出兴趣——这些功能可能会在 Google DeepMind的未来更新中引入。

关键点:

  • 模块化设计:将工作流分解为可重用单元。
  • 异步处理:为实时应用优化性能。
  • 流式 API:确保高效处理多模态数据。
  • 社区驱动:开源模式鼓励协作与扩展。
  • Gemini API优化:专为无缝集成 Google的 Gemini API而设计。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

NVIDIA首席执行官在CES 2026盛赞开源AI突破
News

NVIDIA首席执行官在CES 2026盛赞开源AI突破

在CES 2026上,NVIDIA的黄仁勋力推开源AI发展,将DeepSeek-R1誉为杰出成功案例,引发轰动。这位科技领袖展示了全新Vera Rubin芯片的同时,宣布了开源训练数据的计划。黄仁勋阐述了AI正在变革产业的四大关键领域,并预测这些变化将定义未来的技术范式。

January 6, 2026
AIOpen SourceNVIDIA
NVIDIA与斯坦福大学发布开源游戏AI,可精通1000款游戏
News

NVIDIA与斯坦福大学发布开源游戏AI,可精通1000款游戏

在一项突破性合作中,NVIDIA与斯坦福大学推出了NitroGen——一个经过4万小时游戏数据训练后能玩1000多款不同游戏的AI智能体。其独特之处在于?团队将所有内容开源:包括训练好的模型权重及其庞大的GameVerse-1K数据集。这不仅关乎游戏;研究人员视其为通向更通用人工智能的垫脚石,未来或将为机器人和自主系统提供动力。

December 26, 2025
Artificial IntelligenceMachine LearningVideo Games
微软全新开源语音模型:思考速度般的实时对话体验
News

微软全新开源语音模型:思考速度般的实时对话体验

微软悄然发布VibeVoice-Realtime-0.5B,这款敏捷的文本转语音模型响应时间仅300毫秒——比人类眨眼还快。这个轻量级工具能连续朗读90分钟不卡顿,同时处理四种角色声线,甚至能识别文本情绪。虽然英文表现亮眼,中文版本仍需优化。该模型已以MIT许可证登陆HuggingFace,正被快速集成到有声书应用和实时翻译工具中。

December 5, 2025
MicrosoftText-to-SpeechAI Voice
谷歌Gemini 3人工智能全球上线,覆盖数百万用户
News

谷歌Gemini 3人工智能全球上线,覆盖数百万用户

谷歌将其Gemini 3人工智能模型推向全球,扩展至120个国家的用户。这款先进AI现以更强的推理和多模态能力驱动更智能的搜索功能。虽然最初仅限美国订阅用户使用,但此次发布将尖端AI特性带给全球数百万用户,在复杂查询与快速响应间实现平衡。

December 2, 2025
Google AIGenerative AITech Expansion
谷歌以洋葱为灵感破解AI记忆难题
News

谷歌以洋葱为灵感破解AI记忆难题

谷歌研究人员开发出一项名为'嵌套学习'的突破性技术,使AI系统能像人类一样保留知识。这种受大脑在不同时间尺度形成记忆启发的'记忆洋葱'方法,让AI在学习新技能时不会遗忘旧知识。早期测试显示遗忘率降至接近零,可能彻底改变从聊天机器人到医疗诊断系统的各个领域。

November 10, 2025
AI研究机器学习Google DeepMind
News

蚂蚁集团发布灵光:搭载AGI摄像头的多模态应用

蚂蚁集团推出灵光,这是一款配备AGI摄像头的多模态应用,可实现实时场景理解。目前该应用处于内测阶段,用户可通过手机或支付宝登录。由支付宝数字科技子公司开发的灵光强调认知层面分析,被视为字节跳动豆包和阿里巴巴元宝的竞争对手。

October 24, 2025
LingguangAGI CameraAnt Group