阿里“最强开源模型”，昇腾、海光已适配-观察者网

阿里“最强开源模型”，昇腾、海光已适配

来源：观察者网

2025-04-29 14:21

（文/杨依婷编辑/吕栋）

4月29日凌晨，阿里新一代通义千问模型Qwen3发布并开源，它的参数量仅为DeepSeek-R1的1/3，但成本大幅下降，性能超越R1、OpenAI-o1等全球顶尖模型，被媒体称为“全球最强开源模型”。

随后，华为计算官方发文称，此次Qwen3系列一经发布开源，即在MindSpeed和MindIE中开箱即用，实现Qwen3的0Day适配。海光信息方面也表示，海光DCU迅速完成对全部8款模型的无缝适配+调优。

根据阿里云官方信息，此次开源包括两款MoE模型：Qwen3-235B-A22B（2350多亿总参数、 220多亿激活参），以及Qwen3-30B-A3B（300亿总参数、30亿激活参数）；以及六个Dense模型：Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。

其中的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比，表现出极具竞争力的结果。

此外，小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

Qwen3是国内首个“混合推理模型”，模型支持两种思考模式：思考模式：在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法适合需要深入思考的复杂问题。非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

在预训练方面，Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个token上进行预训练的，而Qwen3使用的数据量几乎是其两倍，达到了约36万亿个token，涵盖了119种语言和方言。

从官方数据来看，在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过Grok3；在评估模型人类偏好对齐的ArenaHard的测评中，Qwen3分别以95.6分超越了OpenAI-o1及DeepSeek-R1；在评估奥数水平的AIME25测评中，Qwen3以81.5分刷新开源记录。

Qwen3发布后，华为计算方面发文称，此前昇腾MindSpeed和MindIE一直同步支持Qwen系列模型，此次Qwen3系列一经发布开源，即在MindSpeed和MindIE中开箱即用，实现Qwen3的0Day适配。

随后海光信息也表示，在“深算智能”战略引领下，海光DCU迅速完成对全部8款模型的无缝适配+调优，覆盖235B/32B/30B/14B/8B/4B/1.7B/0.6B，实现零报错、零兼容性问题的秒级部署。

本文系观察者网独家稿件，未经授权，不得转载。

责任编辑：杨依婷

观察者APP，更好阅读体验

Copyright©2021观察者

沪ICP备1021382-2号

互联网信息许可证：3112014003

“美国铜储量比中国多，但就炼不出来”

特朗普称停火已生效，警告以伊不要违反协议

9月3日盛大阅兵：将安排部分新型作战力量参阅

欧盟外长鼓噪：跟中国打交道，得“来点现实主义”

费心思迎合特朗普，“北约不过是在粉饰太平”