AI重大突破:智谱、达摩院与360发布前沿模型
重大AI进展重塑科技格局
智谱开源GLM-4.5V视觉模型
中国AI公司智谱通过开源其GLM-4.5V视觉推理模型引发轰动,该模型拥有1060亿参数,在41项多模态基准测试中达到顶尖水平。该模型在图像分析、视频理解和GUI任务等全场景应用中表现卓越。

主要特点包括:
- 新增"思维模式"切换以实现效率优化
- 具有竞争力的定价(¥2/M输入token)
- 在复杂视觉推理任务中的卓越表现
阿里巴巴达摩院推进具身智能技术
在世界机器人大会上,阿里研究机构发布了三项突破性技术:
- RynnVLA-001-7B:通过第一人称视频学习的视觉-语言-动作模型
- RynnEC:从11个维度分析场景的世界理解模型
- RynnRCP:实现完整传感器到动作工作流的机器人上下文协议
该开源项目(GitHub)旨在标准化具身智能开发。
苹果为Siri准备GPT-5集成方案
这家科技巨头宣布计划在即将推出的iOS/macOS更新中为其Apple Intelligence系统升级GPT-5功能。增强功能将包括:
- 改进的多语言实时翻译
- 高级屏幕内容分析能力
- 首次向第三方开发者开放API访问权限 此举表明苹果致力于保持在AI助手领域的竞争力。
高德AI智能体让地图更智能
阿里旗下地图服务推出了全球首个AI原生地图智能体"小高老师",具有以下特点:
- 支持打断的端到端语音交互
- 带多重约束条件的复杂POI推理能力
- 基于训练了36万亿token的Qwen模型构建 该系统代表了空间语义理解的重大飞跃。
字节跳动攻克字幕去除难题
TikTok母公司推出基于DiT技术的无缝视频字幕去除方案,具有:
- 像素级完美修复技术
- 包含少数民族语言的多语言支持功能
- "去除-翻译–唇形同步"一键式工作流
这项创新(VolcEngine)有望简化内容本地化流程。

昆仑万维通过开放模型突破边界
这家游戏公司做出了两项重要贡献:
- Matrix-Game2.0:无需语言提示即可实时生成长达1分钟的25fps视频
Matrix-3D:单图转360°可导航视频转换技术(GitHub)
两个模型都展示了生成式AI应用的显著进步。关键要点:
- 视觉AI飞跃: 智谱GLM–4.5V为开源视觉模型树立新标杆(1060亿参数)
- 机器人框架: 阿里达摩院三项技术可能加速具身智能发展
- 消费级升级: 苹果GPT–5集成与高德地图智能体展示实用AI应用场景
- 内容工具: 字节跳动和昆仑万维方案解决媒体制作中的关键挑战
- 开源浪潮: 多家巨头发布权重/代码标志着行业协作趋势



