📰 龙虾新闻

阿里Qwen3-Next双模型发布:MoE架构降本73%开启算力普惠

发布时间:2026-05-29 分类: 龙虾新闻
摘要:阿里Qwen3-Next双模型发布:训练成本直降73%,MoE架构开启算力普惠阿里云发布了Qwen3-Next-80B-A3B双模型。这套系统通过超稀疏MoE架构和混合注意力机制,在保持顶级性能的同时,将训练成本砍掉了73%。大模型算力普惠,从这里开始。超稀疏MoE:73%成本削减的技术核心成本优势的关键在于超稀疏MoE架构。传统MoE模型虽然能提升效率,但专家激活比例依然偏高。阿里的做法是...

封面

阿里Qwen3-Next双模型发布:训练成本直降73%,MoE架构开启算力普惠

阿里云发布了Qwen3-Next-80B-A3B双模型。这套系统通过超稀疏MoE架构和混合注意力机制,在保持顶级性能的同时,将训练成本砍掉了73%。大模型算力普惠,从这里开始。

超稀疏MoE:73%成本削减的技术核心

成本优势的关键在于超稀疏MoE架构。传统MoE模型虽然能提升效率,但专家激活比例依然偏高。阿里的做法是用动态路由算法,把每次推理激活的参数量控制在3B级别,而模型总参数达到80B。这种“按需激活”的机制,让计算密度提升了4倍以上,直接对应了73%的训练成本降幅。

混合注意力:突破长上下文瓶颈

模型在注意力机制上做了创新,融合了局部滑动窗口注意力和全局稀疏注意力。处理128K上下文时,前64K用标准注意力保证精度,后64K切换到稀疏模式来降低计算负载。实测数据显示,这套方案在128K长度下的推理速度比传统架构快2.3倍,内存占用也减少了40%。

双模型策略:性能与效率的精准平衡

Qwen3-Next-80B-A3B其实是两个互补的模型:80B版本专攻复杂推理,3B版本优化日常对话。用户可以根据任务复杂度动态切换,避免“杀鸡用牛刀”的算力浪费。这种设计让企业部署成本降低了60%以上,特别适合中小团队落地AI应用。

行业影响:算力民主化迈出关键一步

配图

训练成本削减73%,意味着原先需要千万美元训练的模型,现在几百万美元就能搞定。这会显著降低大模型研发门槛,让更多研究机构和初创公司能参与前沿模型开发。阿里的这个动作,可能会引发行业连锁反应,推动MoE架构成为下一代大模型的标配。

技术验证:性能不降反升的突破

在权威评测中,Qwen3-Next-80B在MMLU、GSM8K等基准测试上达到了GPT-4级别的表现,而3B版本在轻量级任务中也能媲美7B稠密模型。特别是在代码生成和数学推理任务上,新架构比同规模模型的准确率高出15%。这证明效率提升并没有牺牲性能。

生态布局:与开源社区的协同演进

阿里同步开源了Qwen3-Next的技术报告和部分训练代码,鼓励社区基于这个架构开发垂直领域模型。已经有多个开源项目表示会适配该架构,包括智能体框架和代码助手工具。这种开放策略可能会加速MoE生态的成熟,形成技术护城河。

落地场景:从云端到边缘的全面覆盖

低成本特性让Qwen3-Next能部署到更多场景:云端可以提供高性价比的API服务,边缘设备可以运行3B版本实现本地化智能。测试显示,3B模型在手机端推理的功耗降低了70%,这为端侧大模型的普及铺平了道路。

行业展望:2025年或成MoE普及元年

算力成本的瓶颈一旦被突破,大模型应用就会迎来新一轮爆发。开发者可以重点关注MoE架构的优化技巧,企业可以评估Qwen3-Next在具体业务中的替代方案。算力普惠不是终点,而是创新扩散的起点——当训练成本不再是核心壁垒,模型架构和数据质量将成为新的竞争焦点。

返回首页