📰 龙虾新闻

阿里Qwen3-Next双模型发布：MoE架构降本73%开启算力普惠

发布时间：2026-05-29 分类：龙虾新闻

摘要：阿里Qwen3-Next双模型发布：训练成本直降73%，MoE架构开启算力普惠阿里云发布了Qwen3-Next-80B-A3B双模型。这套系统通过超稀疏MoE架构和混合注意力机制，在保持顶级性能的同时，将训练成本砍掉了73%。大模型算力普惠，从这里开始。超稀疏MoE：73%成本削减的技术核心成本优势的关键在于超稀疏MoE架构。传统MoE模型虽然能提升效率，但专家激活比例依然偏高。阿里的做法是...

阿里Qwen3-Next双模型发布：训练成本直降73%，MoE架构开启算力普惠

阿里云发布了Qwen3-Next-80B-A3B双模型。这套系统通过超稀疏MoE架构和混合注意力机制，在保持顶级性能的同时，将训练成本砍掉了73%。大模型算力普惠，从这里开始。

超稀疏MoE：73%成本削减的技术核心

成本优势的关键在于超稀疏MoE架构。传统MoE模型虽然能提升效率，但专家激活比例依然偏高。阿里的做法是用动态路由算法，把每次推理激活的参数量控制在3B级别，而模型总参数达到80B。这种“按需激活”的机制，让计算密度提升了4倍以上，直接对应了73%的训练成本降幅。

混合注意力：突破长上下文瓶颈

模型在注意力机制上做了创新，融合了局部滑动窗口注意力和全局稀疏注意力。处理128K上下文时，前64K用标准注意力保证精度，后64K切换到稀疏模式来降低计算负载。实测数据显示，这套方案在128K长度下的推理速度比传统架构快2.3倍，内存占用也减少了40%。

双模型策略：性能与效率的精准平衡

Qwen3-Next-80B-A3B其实是两个互补的模型：80B版本专攻复杂推理，3B版本优化日常对话。用户可以根据任务复杂度动态切换，避免“杀鸡用牛刀”的算力浪费。这种设计让企业部署成本降低了60%以上，特别适合中小团队落地AI应用。

行业影响：算力民主化迈出关键一步

训练成本削减73%，意味着原先需要千万美元训练的模型，现在几百万美元就能搞定。这会显著降低大模型研发门槛，让更多研究机构和初创公司能参与前沿模型开发。阿里的这个动作，可能会引发行业连锁反应，推动MoE架构成为下一代大模型的标配。

技术验证：性能不降反升的突破

在权威评测中，Qwen3-Next-80B在MMLU、GSM8K等基准测试上达到了GPT-4级别的表现，而3B版本在轻量级任务中也能媲美7B稠密模型。特别是在代码生成和数学推理任务上，新架构比同规模模型的准确率高出15%。这证明效率提升并没有牺牲性能。

生态布局：与开源社区的协同演进

阿里同步开源了Qwen3-Next的技术报告和部分训练代码，鼓励社区基于这个架构开发垂直领域模型。已经有多个开源项目表示会适配该架构，包括智能体框架和代码助手工具。这种开放策略可能会加速MoE生态的成熟，形成技术护城河。

落地场景：从云端到边缘的全面覆盖

低成本特性让Qwen3-Next能部署到更多场景：云端可以提供高性价比的API服务，边缘设备可以运行3B版本实现本地化智能。测试显示，3B模型在手机端推理的功耗降低了70%，这为端侧大模型的普及铺平了道路。

行业展望：2025年或成MoE普及元年

算力成本的瓶颈一旦被突破，大模型应用就会迎来新一轮爆发。开发者可以重点关注MoE架构的优化技巧，企业可以评估Qwen3-Next在具体业务中的替代方案。算力普惠不是终点，而是创新扩散的起点——当训练成本不再是核心壁垒，模型架构和数据质量将成为新的竞争焦点。

返回首页