Doubao Unveils Advanced Visual Understanding Model
Doubao Unveils Advanced Visual Understanding Model
在火山引擎FORCE动力大会上,2024年12月18日,火山引擎宣布对Doubao大型模型家族进行全面升级,推出了一种突破性的视觉理解模型。
![]()
Tan Dai,火山引擎的总裁,强调Doubao大型模型的日常令牌使用量已达到超过4万亿令牌,自5月份推出以来,增长了33倍。这一显著增长凸显了该模型在各种应用场景中的广泛采用。
![]()
新推出的视觉理解模型使用户能够同时输入文本和图像问题。这一能力增强了模型的理解能力,使其能够提供准确的回复,简化应用程序开发过程,解锁大型模型在多种场景中的潜力。
该视觉理解模型配备了先进的内容识别能力。它可以识别图像中的基本元素,如物体类别和形状,理解物体之间的关系、空间布局以及场景的整体意义。例如,它可以识别阴影并运用自然知识有效解释视觉数据。
![]()
此外,该模型展现了更强的理解和推理能力,允许更好地进行内容识别,并基于识别的文本和图像信息进行复杂的逻辑计算。这包括图表推理和物理推理,增强了其在分析任务中的应用。
![]()
此外,视觉理解模型还具有精细的视觉描述能力,能够生成图像中呈现内容的详细描述。这一功能可以支持各种形式的创意写作,包括图像创作和图像诗歌。
![]()
视觉理解模型在教育、旅游和电子商务等多个领域具有广阔的应用前景。在教育中,例如,该模型可以帮助学生优化论文并增强他们的科学知识。在旅游中,它可以为旅客提供外国菜单的翻译和建筑遗址的解释。在电子商务领域,它可以帮助商家突出产品特点,提高广告效果。
视觉理解模型的使用成本显著低廉,定价为每千个令牌0.003元,比行业平均水平低85%。这一定价使得每花费一元钱可以处理多达284张720P的图像,标志着视觉理解技术的重大进展。此外,火山引擎为企业和开发者提供高达15,000个初始流量支持,以促进对这一创新技术的更好利用。
![]()
在大会期间,火山引擎不仅推出了视觉理解模型,还升级了其他多个模型。自5月份以来,Doubao通用模型Pro的综合任务处理能力提高了32%,在推理、指令跟随、编码和数学方面也有显著提升。此外,Doubao视频生成模型预计将在2025年1月对外服务,鼓励企业提前预约使用。
![]()
为进一步增强企业的信息获取和搜索推荐能力,火山引擎推出了一项全面的AI搜索服务。该服务旨在帮助企业有效地将信息与用户需求连接,从而促进各行业的智能化转型。
关键要点
- Doubao大型模型的每日令牌使用量已达到4万亿,自5月份以来增长了33倍。
- 新推出的视觉理解模型支持文本和图像同时输入,应用于教育、旅游和电子商务。
- 使用成本仅为每千个令牌0.003元,显著低于行业平均水平。





