华为与浙江大学联合推出具备增强安全性的AI模型欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

华为与浙江大学联合推出具备增强安全性的AI模型

华为与浙江大学联合发布DeepSeek-R1-Safe AI模型

在最近的华为全球连接大会上，华为技术有限公司与浙江大学联合推出了基于华为昇腾1000计算平台构建的突破性基础模型——DeepSeek-R1-Safe。这一合作标志着在解决AI性能与安全性交叉领域关键挑战方面迈出了重要一步。

AI安全新标准

浙江大学计算机科学与技术学院院长任奎教授详细介绍了该模型的创新框架。"DeepSeek-R1-Safe代表了安全AI开发的全面方法"，他解释道。该模型包含：

高质量的安全训练语料库
针对安全训练的平衡优化技术
专有的软硬件集成方案

该框架专门针对大规模AI训练过程中的基础性安全挑战而设计。

前所未有的安全性能

测试结果展示了卓越的能力：

对14类有害内容（包括有毒言论、政治敏感性和非法活动煽动）实现100%防御率
针对越狱尝试的防御成功率超过 40%
83%的综合安全评分, 超出同类模型8-15%

值得注意的是，这些安全性提升几乎未带来性能损失。在标准基准测试（包括 MMLU, GSM8K, CEVAL)中，与非安全版本相比仅出现不到 1%的性能下降.

行业影响与开放获取

华为昇腾计算业务总裁张迪煊强调了公司对协作创新的承诺："通过ModelZoo, GitCode, GitHub和Gitee等平台开源这项技术，我们正在推动更广泛的参与来共同发展安全AI."

此次发布标志着业界日益认识到安全性是AI系统的基础要求而非事后考虑因素.

关键要点:

Ascend1000平台上首个国产基础大模型
通过创新框架实现安全性与性能的平衡
以显著优势超越竞争对手
现已通过主流开源平台提供

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

AI协议关键漏洞致20万台服务器暴露于风险之中

一份令人震惊的安全报告揭示了Anthropic广泛使用的MCP协议中存在危险漏洞，导致超过20万台AI服务器面临远程攻击风险。该设计缺陷允许执行未经验证的系统命令，影响所有主要编程语言。尽管数月前已收到通知，Anthropic对其研究人员称为架构级威胁的问题几乎未采取任何措施。

April 16, 2026

AI安全MCP漏洞网络安全

News

微软Edge通过全新管理工具加强AI安全性

微软正为其企业版Edge浏览器推出重大更新，重点控制AI工具使用以防止数据泄露。新功能允许IT团队封禁ChatGPT和Google Gemini等未授权AI平台，同时引导员工使用微软官方认可的Copilot服务。此举旨在解决日益严重的"影子AI"问题——员工使用未经审查的AI工具可能导致敏感公司信息暴露。

April 16, 2026

Microsoft EdgeAI安全企业技术

News

Anthropic机密项目Glasswing揭秘：它究竟发现了哪些漏洞？

Anthropic雄心勃勃的Project Glasswing召集了亚马逊和谷歌等科技巨头，对其AI模型进行安全漏洞测试。但项目启动数月后，其实际发现仍笼罩在迷雾中。虽然研究人员找到了40个潜在漏洞，但只有1个被明确关联到Glasswing。在我们等待Anthropic七月报告的同时，这个强大AI模型究竟能检测到什么——以及企业是否在迅速跟进其发现——这些问题仍悬而未决。

April 16, 2026

AI安全Anthropic网络安全

News

LibuLibu AI通过系统升级解决内容安全问题

LibuLibu AI针对近期关于其内容生成标准的关切做出公开回应，承认在复杂场景下部分输出未达标准。公司现已实施技术修复、封堵风险漏洞并升级审核流程。在强调内容安全为最高优先级的同时，LibuLibu欢迎公众监督——正值AI行业面临生成内容质量审查日益严格之际。

April 14, 2026

AI安全内容审核技术监管

News

Node.js因AI生成垃圾信息暂停漏洞赏金计划

Node.js项目在遭遇大量低质量AI生成报告后，已暂时停止为安全漏洞提供现金奖励。这个依赖社区志愿者的开源平台发现，自动化提交内容浪费了开发者大量时间。虽然研究人员仍可提交问题，但随着团队寻求解决这一影响全球开源项目的日益严重问题，赏金计划目前仍处于暂停状态。

April 14, 2026

Node.jsAI安全开源

News

Claude Mythos安全声明遭质疑：仅发现10个关键漏洞

Anthropic大肆宣传的Claude Mythos AI系统标榜具有'核弹级'漏洞检测能力，但可能严重夸大了其有效性。独立测试显示，在7000个软件栈中识别的600个漏洞里，仅有10个被归类为严重漏洞。行业专家质疑该模型的访问限制究竟出于安全考量，还是仅仅反映了其高昂的运营成本。此事件正值业界对AI公司利用恐惧营销手段推广产品的质疑日益增长之际。

April 13, 2026

AI安全Claude MythosAnthropic

华为与浙江大学联合推出具备增强安全性的AI模型

华为与浙江大学联合发布DeepSeek-R1-Safe AI模型

AI安全新标准

前所未有的安全性能

行业影响与开放获取

关键要点:

喜欢这篇文章？

相关文章

AI协议关键漏洞致20万台服务器暴露于风险之中

微软Edge通过全新管理工具加强AI安全性

Anthropic机密项目Glasswing揭秘：它究竟发现了哪些漏洞？

LibuLibu AI通过系统升级解决内容安全问题

Node.js因AI生成垃圾信息暂停漏洞赏金计划

Claude Mythos安全声明遭质疑：仅发现10个关键漏洞

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

Claude AI助手登陆Slack，助力团队生产力提升

中国发布2024年十大科技术语

Silicon Flow推出面向AI模型工业化的企业级MaaS平台

字节跳动发布 Trae：为中国开发者打造的新 AI IDE

主要页面

内容分类

其他