跳转到主要内容

Doubao Unveils Advanced Visual Understanding Model

Doubao Unveils Advanced Visual Understanding Model

在火山引擎FORCE动力大会上,2024年12月18日,火山引擎宣布对Doubao大型模型家族进行全面升级,推出了一种突破性的视觉理解模型。

image

Tan Dai,火山引擎的总裁,强调Doubao大型模型的日常令牌使用量已达到超过4万亿令牌,自5月份推出以来,增长了33倍。这一显著增长凸显了该模型在各种应用场景中的广泛采用。

image

新推出的视觉理解模型使用户能够同时输入文本和图像问题。这一能力增强了模型的理解能力,使其能够提供准确的回复,简化应用程序开发过程,解锁大型模型在多种场景中的潜力。

该视觉理解模型配备了先进的内容识别能力。它可以识别图像中的基本元素,如物体类别和形状,理解物体之间的关系、空间布局以及场景的整体意义。例如,它可以识别阴影并运用自然知识有效解释视觉数据。

image

此外,该模型展现了更强的理解和推理能力,允许更好地进行内容识别,并基于识别的文本和图像信息进行复杂的逻辑计算。这包括图表推理和物理推理,增强了其在分析任务中的应用。

image

此外,视觉理解模型还具有精细的视觉描述能力,能够生成图像中呈现内容的详细描述。这一功能可以支持各种形式的创意写作,包括图像创作和图像诗歌。

image

视觉理解模型在教育、旅游和电子商务等多个领域具有广阔的应用前景。在教育中,例如,该模型可以帮助学生优化论文并增强他们的科学知识。在旅游中,它可以为旅客提供外国菜单的翻译和建筑遗址的解释。在电子商务领域,它可以帮助商家突出产品特点,提高广告效果。

视觉理解模型的使用成本显著低廉,定价为每千个令牌0.003元,比行业平均水平低85%。这一定价使得每花费一元钱可以处理多达284张720P的图像,标志着视觉理解技术的重大进展。此外,火山引擎为企业和开发者提供高达15,000个初始流量支持,以促进对这一创新技术的更好利用。

image

在大会期间,火山引擎不仅推出了视觉理解模型,还升级了其他多个模型。自5月份以来,Doubao通用模型Pro的综合任务处理能力提高了32%,在推理、指令跟随、编码和数学方面也有显著提升。此外,Doubao视频生成模型预计将在2025年1月对外服务,鼓励企业提前预约使用。

image

为进一步增强企业的信息获取和搜索推荐能力,火山引擎推出了一项全面的AI搜索服务。该服务旨在帮助企业有效地将信息与用户需求连接,从而促进各行业的智能化转型。

关键要点

  1. Doubao大型模型的每日令牌使用量已达到4万亿,自5月份以来增长了33倍。
  2. 新推出的视觉理解模型支持文本和图像同时输入,应用于教育、旅游和电子商务。
  3. 使用成本仅为每千个令牌0.003元,显著低于行业平均水平。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

机器人迎来大脑升级:ForceGPT发布改变游戏规则的人工智能模型

在机器人技术的重大飞跃中,ForceGPT推出了DM0——全球首个专为机器人设计的原生嵌入式人工智能模型。与以往对语言模型的改造不同,DM0从零开始构建,旨在赋予机器直觉和学习能力。这款拥有24亿参数的高效模型在全球性能排行榜上名列前茅,同时足够轻量级以运行在消费级硬件上。凭借完全开源的特性和配套开发工具,此次发布或将像Android对智能手机的影响一样,推动机器人开发的民主化进程。

February 11, 2026
roboticsartificial intelligencemachine learning
优必选Thinker模型:智能机器人的革命性突破
News

优必选Thinker模型:智能机器人的革命性突破

优必选开源了其Thinker模型,这是机器人AI领域的一项重大突破,解决了空间理解和视觉感知等关键挑战。通过将原始数据从200亿条精炼至仅1000万条,并将标注成本降低99%,Thinker有望彻底改变机器人的学习和操作方式。此举或将加速整个机器人行业的创新进程。

February 2, 2026
roboticsAImachine learning
机器人变得更聪明:Antlingbot的新AI让机器像人类一样思考
News

机器人变得更聪明:Antlingbot的新AI让机器像人类一样思考

Antlingbot科技公司发布了开源AI模型LingBot-VA,赋予机器人类似人类的决策能力。这一突破性技术将视频生成与机器人控制相结合,使机器能够在执行动作前进行模拟。测试中,使用LingBot-VA的机器人在复杂任务(如折叠衣物和精确物体操作)中表现出卓越的适应性,超越了现有系统。该技术有望加速更具能力的服务机器人开发。

January 30, 2026
roboticsartificial intelligencemachine learning
蚂蚁集团LingBot-VLA为机械臂赋予类人精准度
News

蚂蚁集团LingBot-VLA为机械臂赋予类人精准度

蚂蚁集团推出突破性AI模型LingBot-VLA,使机器人获得惊人的类人灵巧性。该系统基于2万小时真实世界数据训练,能以前所未有的协调性控制不同机械臂——无论是叠积木还是穿针引线。其独特之处在于结合了视觉理解与空间推理能力,在复杂任务中超越竞争对手。更令人瞩目的是,蚂蚁集团将开源完整工具包,此举有望加速机器人技术研究进程。

January 30, 2026
roboticsAIAntGroup
News

机器人通过突破性新数据集获得触觉感知

随着Baihu-VTouch的发布,机器人技术迎来重大飞跃——这是全球首个跨机型的视觉-触觉数据集。由中国国家地方共建人形机器人创新中心与多支研究团队联合开发,这个数据宝库包含超过60,000分钟的真实机器人交互数据。其独特之处在于不仅记录机器人所见,还捕捉物体触感——使机器能够在不同硬件平台上发展类人的触觉敏感性。

January 27, 2026
roboticsAI researchtactile sensing
Fine-Tuning AI Models Without the Coding Headache
News

Fine-Tuning AI Models Without the Coding Headache

As AI models become ubiquitous, businesses face a challenge: generic models often miss the mark for specialized needs. Traditional fine-tuning requires coding expertise and expensive resources, but LLaMA-Factory Online changes the game. This visual platform lets anyone customize models through a simple interface, cutting costs and technical barriers. One team built a smart home assistant in just 10 hours - proving specialized AI doesn't have to be complicated or costly.

January 6, 2026
AI customizationno-code AImachine learning