跳转到主要内容

Doubao Unveils Advanced Visual Understanding Model

Doubao Unveils Advanced Visual Understanding Model

在火山引擎FORCE动力大会上,2024年12月18日,火山引擎宣布对Doubao大型模型家族进行全面升级,推出了一种突破性的视觉理解模型。

image

Tan Dai,火山引擎的总裁,强调Doubao大型模型的日常令牌使用量已达到超过4万亿令牌,自5月份推出以来,增长了33倍。这一显著增长凸显了该模型在各种应用场景中的广泛采用。

image

新推出的视觉理解模型使用户能够同时输入文本和图像问题。这一能力增强了模型的理解能力,使其能够提供准确的回复,简化应用程序开发过程,解锁大型模型在多种场景中的潜力。

该视觉理解模型配备了先进的内容识别能力。它可以识别图像中的基本元素,如物体类别和形状,理解物体之间的关系、空间布局以及场景的整体意义。例如,它可以识别阴影并运用自然知识有效解释视觉数据。

image

此外,该模型展现了更强的理解和推理能力,允许更好地进行内容识别,并基于识别的文本和图像信息进行复杂的逻辑计算。这包括图表推理和物理推理,增强了其在分析任务中的应用。

image

此外,视觉理解模型还具有精细的视觉描述能力,能够生成图像中呈现内容的详细描述。这一功能可以支持各种形式的创意写作,包括图像创作和图像诗歌。

image

视觉理解模型在教育、旅游和电子商务等多个领域具有广阔的应用前景。在教育中,例如,该模型可以帮助学生优化论文并增强他们的科学知识。在旅游中,它可以为旅客提供外国菜单的翻译和建筑遗址的解释。在电子商务领域,它可以帮助商家突出产品特点,提高广告效果。

视觉理解模型的使用成本显著低廉,定价为每千个令牌0.003元,比行业平均水平低85%。这一定价使得每花费一元钱可以处理多达284张720P的图像,标志着视觉理解技术的重大进展。此外,火山引擎为企业和开发者提供高达15,000个初始流量支持,以促进对这一创新技术的更好利用。

image

在大会期间,火山引擎不仅推出了视觉理解模型,还升级了其他多个模型。自5月份以来,Doubao通用模型Pro的综合任务处理能力提高了32%,在推理、指令跟随、编码和数学方面也有显著提升。此外,Doubao视频生成模型预计将在2025年1月对外服务,鼓励企业提前预约使用。

image

为进一步增强企业的信息获取和搜索推荐能力,火山引擎推出了一项全面的AI搜索服务。该服务旨在帮助企业有效地将信息与用户需求连接,从而促进各行业的智能化转型。

关键要点

  1. Doubao大型模型的每日令牌使用量已达到4万亿,自5月份以来增长了33倍。
  2. 新推出的视觉理解模型支持文本和图像同时输入,应用于教育、旅游和电子商务。
  3. 使用成本仅为每千个令牌0.003元,显著低于行业平均水平。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Fine-Tuning AI Models Without the Coding Headache
News

Fine-Tuning AI Models Without the Coding Headache

As AI models become ubiquitous, businesses face a challenge: generic models often miss the mark for specialized needs. Traditional fine-tuning requires coding expertise and expensive resources, but LLaMA-Factory Online changes the game. This visual platform lets anyone customize models through a simple interface, cutting costs and technical barriers. One team built a smart home assistant in just 10 hours - proving specialized AI doesn't have to be complicated or costly.

January 6, 2026
AI customizationno-code AImachine learning
豆包手机用户遭遇微信登录异常之谜
News

豆包手机用户遭遇微信登录异常之谜

搭载豆包系统的新款努比亚M153手机用户今晨遭遇意外——他们的微信账号不断被莫名登出。这款热门社交应用显示关于'异常登录环境'的模糊警告,让用户和技术支持人员都困惑不已。虽然微信暗示是安全协议生效所致,但豆包工程师正全力排查故障根源。

December 3, 2025
DoubaoWeChatAIphones
迪士尼教会机器人如何像表演者一样优雅跌倒
News

迪士尼教会机器人如何像表演者一样优雅跌倒

迪士尼研究人员破解了机器人跌倒的密码,教会机器像训练有素的表演者一样优雅翻滚。通过强化学习,他们开发出一套系统,让机器人在跌落过程中本能调整姿态,以预先设计的姿势安全着陆。这一突破既能防止精密机器人部件受损,又为机器人技术增添了一抹迪士尼魔力。

November 19, 2025
roboticsartificial intelligencetechnology innovation
机器人迎来突破时刻:GEN-0开创智能新纪元
News

机器人迎来突破时刻:GEN-0开创智能新纪元

Generalist推出的GEN-0模型标志着机器人技术的转折点,该模型基于前所未有的27万小时真实世界数据训练而成。这项突破使机器人能够跨平台'同步思考与行动',专家称之为机器人技术的'ChatGPT时刻'。其独特的谐波推理架构和跨平台能力或将彻底改变智能机器的部署方式。

November 7, 2025
roboticsAImachine learning
结盟AI正式登陆火山引擎,推出全新企业级API服务
News

结盟AI正式登陆火山引擎,推出全新企业级API服务

结盟AI正式在火山引擎上线其API服务,为企业提供图像、视频及数字人生成的高级工具。此次发布包括专为商业用途优化的Text-to-Image 3.0和Video 3.0等模型,功能全面升级。新用户可在九月促销期间享受折扣价格。

September 3, 2025
Jiemeng AIVolcano EngineAI APIs
小米浏览器通过整合豆包大模型增强AI能力
News

小米浏览器通过整合豆包大模型增强AI能力

小米浏览器升级了先进的AI功能,整合了豆包大模型和火山方舟AI智能体。此次更新引入了AI驱动的搜索、翻译和问题解决工具,同时小米应用商店现支持通过火山引擎的'扣子'平台DIY创建AI智能体。

August 1, 2025
XiaomiAIBrowser