台湾半导体制造公司（TSMC）报告季度收入创下新高，达到8685亿新台币，这主要得益于对人工智能相关硬件需求的激增。尽管技术行业和地缘政治因素面临一些市场挑战和不确定性，积极的财务结果表明2025年的前景依然强劲。

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

上海交通大学和剑桥大学的研究人员开发出Evo-0——一种新型视觉语言动作模型，显著提升了AI理解三维环境的能力。该模型无需额外传感器即可增强空间理解能力，在复杂任务中成功率最高提升31%。

机器人视觉领域重大突破：AI现在能更好地理解3D空间

DeepSeek发布了实验性V3.2-exp模型，采用创新的稀疏注意力机制，显著降低了长上下文处理成本。初步测试显示API调用费用最高可节省50%，有望彻底改变AI服务的经济模式。该开源权重模型现已在Hugging Face上开放供行业验证。

DeepSeek V3.2-exp 通过稀疏注意力突破性技术大幅降低AI成本

尽管AI在客服中迅速崛起，许多地区仍突显出对人工代表的迫切需求。专家强调在高效的AI与人类同情心之间取得平衡，以有效解决复杂的客户问题。

人工客服需求在AI局限性中增长

字节跳动和 POSTECH 研究人员开发了一种 groundbreaking 的 1.58 位量化 FLUX 模型，达到了 7.7 倍的内存使用减少，同时提高了性能。这个创新有望改善在资源受限设备上部署文本到图像模型的能力。

BytePush 发布 1.58 位 FLUX 模型以提高 AI 效率

# Hugging Face发布新一代紧凑型AI模型SmolLM3

**2025年7月9日** - 在高效AI系统的重大进展中，Hugging Face正式发布了**SmolLM3**，这款最新的开源语言模型以30亿参数的紧凑体积实现了突破性能力。

## 小身材大能量

与同类开源模型如**Llama-3.2-3B**和**Qwen2.5-3B**相比，新模型展现出更卓越的性能，同时支持惊人的**128K标记上下文窗口**。这种扩展的记忆容量使得跨英语、法语、西班牙语和德语等多语言的连贯长文本处理成为可能。

![Image](https://www.ai-damn.com/1752036213449-mwlap6.png)

## 创新的双模式架构

SmolLM3引入了新颖的**双推理系统**:
- **深度思考模式**: 适用于需要密集计算的复杂分析任务
- **标准模式**: 在深度非关键场景下提供更快响应

这种灵活架构使用户能根据具体应用需求优化性能。

## 开放式开发理念

秉承Hugging Face对开放AI开发的承诺，公司公布了:
- 完整架构规范
- 数据混合方法学
- 详细训练流程

该模型采用先进的**transformer解码器架构**，在SmolLM2设计基础上融合了Llama的关键改进。技术增强包括:
- 分组查询注意力机制 
- 文档级掩码技术 
- 优化的长上下文训练协议 

## 训练流程与技术规格 

模型通过分布式计算进行了为期**24天**的训练，配置如下:
| 参数 | 数值 |
|-----------|-------|
| 层数 | 36 |
| 优化器 | AdamW |
| 参数量 | 3.08B |

三阶段训练方案战略性地结合了:
1. 使用网络、数学和代码数据的通用能力构建阶段 
2. 通过专业数学/代码数据集强化的质量聚焦阶段 
3. 为推理优化的高级采样阶段 

## 可用性与未来潜力 

基础模型和指令调优变体现已登陆Hugging Face平台:
- [基础模型](https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base)
- [指令模型](https://huggingface.co/HuggingFaceTB/SmolLM3-3B)

行业分析师预测此次发布将加速从教育到企业解决方案等各领域的高效AI应用开发。

### 核心亮点:
1. **小巧强大**: 30亿参数实现超越更大模型的性能 
2. **扩展上下文**: 128K标记处理容量 
3. **双模切换**: 针对不同需求的灵活推理方式 
4. **完全透明**: 开放架构促进社区创新 
5. **多语种支持**: 精通主要欧洲语言

Hugging Face推出SmolLM3：小巧精悍的AI新星

Hugging Face发布新一代紧凑型AI模型SmolLM3

小身材大能量

创新的双模式架构

开放式开发理念

训练流程与技术规格

可用性与未来潜力

核心亮点:

主要页面

内容分类

其他