跳转到主要内容

美团新AI模型:小巧身材蕴藏强大性能

美团紧凑型AI模型展现超预期性能

Image

在AI模型领域,庞大未必总是优势。传统混合专家(MoE)架构随着专家数量增加常面临收益递减问题。美团LongCat团队通过创新的"嵌入扩展"技术颠覆了这一现状,其LongCat-Flash-Lite模型取得了突破性成果。

重新思考模型扩展方式

研究人员发现了一个反直觉的突破点:扩展嵌入层的效果竟优于单纯增加专家数量。数据说明一切——虽然完整模型包含685亿参数,但得益于巧妙的N元嵌入层设计,每次推理仅激活29至45亿参数。

技术报告指出:"我们专门为嵌入层分配了超过300亿参数,这使我们能精准捕捉局部语义特征——对识别编程命令等专业语境至关重要。"

Image

全方位工程优化实现高效能

理论优势未必能转化为实际性能。美团通过三大关键优化攻克了这一难题:

  1. 智能参数分配:近半数(46%)参数用于嵌入层,确保计算量可控增长
  2. 定制硬件技巧:采用类似KV Cache的专用缓存与融合CUDA内核,大幅降低I/O延迟
  3. 预测性处理:三步推测性解码方法高效扩展批量处理规模

成效如何?在处理大量输入(4K token)并生成长达1K token输出时,仍能保持每秒500-700token的惊人速度——且支持长达256Ktoken的上下文窗口。

突破基准测试的表现

实测数据证明LongCat-Flash-Lite具备越级挑战能力:

  • 在τ²-Bench上擅长电信支持、零售场景等实际应用
  • 编程能力突出(SWE-Bench得分54.4%)且命令执行强劲(TerminalBench得分33.75)
  • 通用表现不遑多让(MMLU得分85.52),可与Gemini2.5Flash-Lite等更大模型比肩

整套方案——包括权重文件、技术文档及SGLang-FluentLLM推理引擎——现已通过美团LongCat API开放平台开源,并为开发者提供慷慨的每日测试额度。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

苹果的制胜秘诀:为何调优后的开源模型在UI设计上超越GPT-5

苹果研究团队在AI辅助UI开发领域取得惊人突破。通过与21位设计专家合作,通过草图与代码修改提供针对性反馈,他们证明了在AI训练中质量胜过数量。经过微调的Qwen3-Coder模型虽规模较小,却在生成应用界面时超越了GPT-5——这印证了在人工智能时代,专业的人类洞察力依然不可替代。

February 6, 2026
AI研究UI开发机器学习
AI对决:Claude重大飞跃、Qwen红包大战与腾讯漫画新动作
News

AI对决:Claude重大飞跃、Qwen红包大战与腾讯漫画新动作

今日AI领域风云变幻:Anthropic凭借Claude Opus 4.6百万级上下文窗口突破界限,阿里Qwen因春节活动火爆导致服务器崩溃,腾讯则携火龙漫画进军动态漫领域。与此同时,监管机构重拳打击AI山寨产品。从数字员工到动画自动生成,这些进展展现了AI在各行业的迅猛发展。

February 6, 2026
AI创新科技监管数字化转型
News

中国推出由3万张加速卡组成的巨型AI超级计算集群

中国在郑州国家超算互联网枢纽启用了首个3万张加速卡的超级计算集群,标志着人工智能计算能力的巨大飞跃。这个由申威团队创纪录快速开发的大型计算资源池支持万亿参数模型,有望推动各科学领域的革命性突破。该系统采用开放架构设计,在提供前所未有的可扩展性同时,还具有惊人的易用性。

February 6, 2026
AI基础设施高性能计算中国科技
News

初创公司大胆宣称:新型AI芯片性能或超NVIDIA五倍

可能撼动AI硬件市场的举措中,初创公司Positron公布了其Asimov芯片架构,承诺带来显著的能效提升。该公司宣称其专有设计在每瓦性能上比NVIDIA即将推出的Rubin平台高出五倍,瞄准了大型语言模型推理的蓬勃需求。尽管纸面数据令人印象深刻,行业观察人士质疑在没有成熟开发者工具的情况下,Positron能否挑战NVIDIA的霸主地位。

February 5, 2026
AI芯片半导体机器学习
Mistral AI全新语音模型实现近乎即时中文转录
News

Mistral AI全新语音模型实现近乎即时中文转录

法国AI初创公司Mistral AI发布了具备突破性实时转录能力的Voxtral Transcribe 2系列。其新型号将处理延迟缩短至0.2秒以内,并支持包括中文在内的多种语言,以极具竞争力的价格为开发者提供强大的语音应用工具。

February 5, 2026
语音识别AI创新实时技术
智谱AI的GLM-4.7-Flash模型两周内下载量突破百万
News

智谱AI的GLM-4.7-Flash模型两周内下载量突破百万

智谱AI推出的轻量级模型GLM-4.7-Flash在开源社区引发轰动,发布仅14天便在Hugging Face平台实现超百万次下载。这款混合思维模型在基准测试中表现优于竞品,为开发者提供了高效且经济实惠的AI应用解决方案。其快速采用标志着市场对智谱AI平衡性能与实际部署需求策略的高度认可。

February 4, 2026
AI发展开源机器学习