跳转到主要内容

阿里巴巴的微型LOGOS模型在科学AI领域超越微软巨无霸

阿里巴巴的科学AI突破

在一项震撼科学AI界的举措中,阿里巴巴的ATH-Token Foundry发布了LOGOS——一个效率惊人的开源模型,其表现远超其体量级别。与人民大学高强研究所合作开发的这个多领域科学模型实现了少数人认为可能的事情:通过纯序列建模在六个不同的科学任务中比肩专业方法。

Image

数据讲述了一个令人印象深刻的故事。仅有10亿参数的LOGOS-1B在核心任务上持续超越微软560亿参数的NatureLM。这就像一辆迷你库珀超越了一辆半挂卡车——而且载货量更大。

科学的统一语言

LOGOS的特殊之处不仅在于其体积(或缺乏体积)。真正的创新在于其统一的科学语法——一种科学领域的通用翻译器。团队编制了一个庞大的44.87亿token训练语料库,涵盖从生物大分子到化学相互作用的七种模态。

“想象一下尝试用七种不同的字母书写一本书,”一位熟悉该项目的研究人员解释道。“LOGOS创建了一个共享词汇表,首次让蛋白质和小分子说同一种语言。”

Image

这一突破意味着复杂的3D结构现在可以通过简单的文本序列描述和预测——无需高级数学表示。就像仅通过用语言描述建筑物就能绘制详细蓝图。

从实验室到现实世界——无烦恼

传统的AI模型在从训练到实际应用的过程中常常遇到困难,需要大量微调,从而减缓研究进度。LOGOS通过在整个流程中保持相同的数据格式完全避开了这一障碍。

“这就像每次换路都需要重建你的车与拥有一辆适应所有地形的车辆之间的区别,”一位阿里巴巴技术负责人说。“研究人员可以直接从预训练进入实际工作,无需适应层减慢速度。”

对于如此尖端技术,阿里巴巴罕见地展示了开放性,公开发布了所有模型权重、推理代码和技术文档。此举可能使先进的科学AI工具民主化,有望加速多个领域的发现。

关键点

  • 小而强大:10亿参数的LOGOS超越微软560亿参数的NatureLM
  • 科学罗塞塔石碑:统一语法处理蛋白质、化学品和相互作用
  • 创新方法:通过简单文本序列描述复杂3D结构
  • 无缝过渡:从训练到应用的一致格式消除了适应障碍
  • 完全透明:模型权重、代码和技术报告全部开源