美团LongCat-Flash-Lite:小而精悍的AI强者
美团重新定义高效AI规则

在这个痴迷于庞大模型的行业中,美团LongCat团队另辟蹊径。他们最新发布的LongCat-Flash-Lite证明:更智能的架构能胜过蛮力扩展。"传统MoE方法带来的边际效益不断递减",团队技术负责人解释道,"于是我们思考——如果换个方式分配这些参数会怎样?"
嵌入层突破
秘诀何在?他们称之为"嵌入扩展"的技术。当多数混合专家模型不断新增专家(好比雇佣更多顾问)时,LongCat-Flash-Lite选择强化词汇理解能力(如同为现有顾问配备更好的参考手册)。
其优势在于:
- 总计685亿参数,但每次查询仅激活29-45亿
- 超300亿参数专用于N元嵌入,轻松掌握技术术语
- 针对编程命令等领域的专项理解(试试用冷门终端指令难倒它)

速度背后的工程魔法
没有实际性能支撑的理论效率毫无意义。美团工程师实现了三项精妙优化:
- 参数瘦身计划:近半数模型采用轻量级嵌入查找(O(1)复杂度——计算机科学术语中的"极速")
- 内存技巧:定制N元缓存系统与融合CUDA内核减少计算文书工作
- 预测游戏:推测解码技术让模型预判可能输出,如同棋手预判多步走法
成果如何?达到每秒500-700个token——快到能在约90秒内生成莎士比亚《哈姆雷特》,同时处理长达256K token的上下文。
跨领域基准测试霸主地位
数据不说谎:
- 代码专家:SWE-Bench(软件工程任务)得分54.4%,终端命令测试表现碾压级优势
- 数学健将:MMLU测试85.52分与Gemini2.5Flash-Lite持平,竞赛级数学问题应对自如
- 专业代理:τ²-Benchmark电信、零售和航空场景排名榜首
最惊喜的是?美团已开源全部资源——权重、技术论文乃至优化后的推理引擎。开发者现可通过LongCat API开放平台申请体验,每日提供慷慨的5000万token免费额度。毕竟有时候,最好的AI未必体型最大。



