Doubao Unveils Advanced Visual Understanding Model欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

Doubao Unveils Advanced Visual Understanding Model

在火山引擎FORCE动力大会上，2024年12月18日，火山引擎宣布对Doubao大型模型家族进行全面升级，推出了一种突破性的视觉理解模型。

Tan Dai，火山引擎的总裁，强调Doubao大型模型的日常令牌使用量已达到超过4万亿令牌，自5月份推出以来，增长了33倍。这一显著增长凸显了该模型在各种应用场景中的广泛采用。

新推出的视觉理解模型使用户能够同时输入文本和图像问题。这一能力增强了模型的理解能力，使其能够提供准确的回复，简化应用程序开发过程，解锁大型模型在多种场景中的潜力。

该视觉理解模型配备了先进的内容识别能力。它可以识别图像中的基本元素，如物体类别和形状，理解物体之间的关系、空间布局以及场景的整体意义。例如，它可以识别阴影并运用自然知识有效解释视觉数据。

此外，该模型展现了更强的理解和推理能力，允许更好地进行内容识别，并基于识别的文本和图像信息进行复杂的逻辑计算。这包括图表推理和物理推理，增强了其在分析任务中的应用。

此外，视觉理解模型还具有精细的视觉描述能力，能够生成图像中呈现内容的详细描述。这一功能可以支持各种形式的创意写作，包括图像创作和图像诗歌。

视觉理解模型在教育、旅游和电子商务等多个领域具有广阔的应用前景。在教育中，例如，该模型可以帮助学生优化论文并增强他们的科学知识。在旅游中，它可以为旅客提供外国菜单的翻译和建筑遗址的解释。在电子商务领域，它可以帮助商家突出产品特点，提高广告效果。

视觉理解模型的使用成本显著低廉，定价为每千个令牌0.003元，比行业平均水平低85%。这一定价使得每花费一元钱可以处理多达284张720P的图像，标志着视觉理解技术的重大进展。此外，火山引擎为企业和开发者提供高达15,000个初始流量支持，以促进对这一创新技术的更好利用。

在大会期间，火山引擎不仅推出了视觉理解模型，还升级了其他多个模型。自5月份以来，Doubao通用模型Pro的综合任务处理能力提高了32%，在推理、指令跟随、编码和数学方面也有显著提升。此外，Doubao视频生成模型预计将在2025年1月对外服务，鼓励企业提前预约使用。

为进一步增强企业的信息获取和搜索推荐能力，火山引擎推出了一项全面的AI搜索服务。该服务旨在帮助企业有效地将信息与用户需求连接，从而促进各行业的智能化转型。

关键要点

Doubao大型模型的每日令牌使用量已达到4万亿，自5月份以来增长了33倍。
新推出的视觉理解模型支持文本和图像同时输入，应用于教育、旅游和电子商务。
使用成本仅为每千个令牌0.003元，显著低于行业平均水平。

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

机器人迎来大脑升级：ForceGPT发布改变游戏规则的人工智能模型

在机器人技术的重大飞跃中，ForceGPT推出了DM0——全球首个专为机器人设计的原生嵌入式人工智能模型。与以往对语言模型的改造不同，DM0从零开始构建，旨在赋予机器直觉和学习能力。这款拥有24亿参数的高效模型在全球性能排行榜上名列前茅，同时足够轻量级以运行在消费级硬件上。凭借完全开源的特性和配套开发工具，此次发布或将像Android对智能手机的影响一样，推动机器人开发的民主化进程。

February 11, 2026

roboticsartificial intelligencemachine learning

News

优必选Thinker模型：智能机器人的革命性突破

优必选开源了其Thinker模型，这是机器人AI领域的一项重大突破，解决了空间理解和视觉感知等关键挑战。通过将原始数据从200亿条精炼至仅1000万条，并将标注成本降低99%，Thinker有望彻底改变机器人的学习和操作方式。此举或将加速整个机器人行业的创新进程。

February 2, 2026

roboticsAImachine learning

News

机器人变得更聪明：Antlingbot的新AI让机器像人类一样思考

Antlingbot科技公司发布了开源AI模型LingBot-VA，赋予机器人类似人类的决策能力。这一突破性技术将视频生成与机器人控制相结合，使机器能够在执行动作前进行模拟。测试中，使用LingBot-VA的机器人在复杂任务（如折叠衣物和精确物体操作）中表现出卓越的适应性，超越了现有系统。该技术有望加速更具能力的服务机器人开发。

January 30, 2026

roboticsartificial intelligencemachine learning

News

蚂蚁集团LingBot-VLA为机械臂赋予类人精准度

蚂蚁集团推出突破性AI模型LingBot-VLA，使机器人获得惊人的类人灵巧性。该系统基于2万小时真实世界数据训练，能以前所未有的协调性控制不同机械臂——无论是叠积木还是穿针引线。其独特之处在于结合了视觉理解与空间推理能力，在复杂任务中超越竞争对手。更令人瞩目的是，蚂蚁集团将开源完整工具包，此举有望加速机器人技术研究进程。

January 30, 2026

roboticsAIAntGroup

News

机器人通过突破性新数据集获得触觉感知

随着Baihu-VTouch的发布，机器人技术迎来重大飞跃——这是全球首个跨机型的视觉-触觉数据集。由中国国家地方共建人形机器人创新中心与多支研究团队联合开发，这个数据宝库包含超过60,000分钟的真实机器人交互数据。其独特之处在于不仅记录机器人所见，还捕捉物体触感——使机器能够在不同硬件平台上发展类人的触觉敏感性。

January 27, 2026

roboticsAI researchtactile sensing

News

Fine-Tuning AI Models Without the Coding Headache

As AI models become ubiquitous, businesses face a challenge: generic models often miss the mark for specialized needs. Traditional fine-tuning requires coding expertise and expensive resources, but LLaMA-Factory Online changes the game. This visual platform lets anyone customize models through a simple interface, cutting costs and technical barriers. One team built a smart home assistant in just 10 hours - proving specialized AI doesn't have to be complicated or costly.

January 6, 2026

AI customizationno-code AImachine learning

Doubao Unveils Advanced Visual Understanding Model

Doubao Unveils Advanced Visual Understanding Model

喜欢这篇文章？

相关文章

机器人迎来大脑升级：ForceGPT发布改变游戏规则的人工智能模型

优必选Thinker模型：智能机器人的革命性突破

机器人变得更聪明：Antlingbot的新AI让机器像人类一样思考

蚂蚁集团LingBot-VLA为机械臂赋予类人精准度

机器人通过突破性新数据集获得触觉感知

Fine-Tuning AI Models Without the Coding Headache

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

人工客服需求在AI局限性中增长

DeepSeek V3.2-exp 通过稀疏注意力突破性技术大幅降低AI成本

Anthropic的Cowork：仅用10天由AI打造的AI助手

微信对人工智能名人冒充行为采取行动

主要页面

内容分类

其他