📰 龙虾新闻

阿里Qwen3-Next超稀疏MoE架构解析:80B参数推理成本直降60%

发布时间:2026-05-23 分类: 龙虾新闻
摘要:阿里Qwen3-Next双模型首发:80B参数+超稀疏MoE,推理成本降60%阿里云发布了Qwen3-Next-80B-A3B系列模型。它采用超稀疏MoE架构和混合注意力机制,用架构设计换效率,在80B参数规模下将推理成本降低了60%,为国产大模型探索出一条降本增效的路径。架构创新:超稀疏MoE如何实现效率突破Qwen3-Next的核心是超稀疏混合专家(MoE)架构。和传统Dense模型或常...

封面

阿里Qwen3-Next双模型首发:80B参数+超稀疏MoE,推理成本降60%

阿里云发布了Qwen3-Next-80B-A3B系列模型。它采用超稀疏MoE架构和混合注意力机制,用架构设计换效率,在80B参数规模下将推理成本降低了60%,为国产大模型探索出一条降本增效的路径。

架构创新:超稀疏MoE如何实现效率突破

Qwen3-Next的核心是超稀疏混合专家(MoE)架构。和传统Dense模型或常规MoE不同,这个架构总参数80B,但每次推理只激活3B参数,激活比例只有3.75%。处理每个token时,模型只调用极少数专家网络,计算量大幅减少。

混合注意力机制进一步优化了效率。模型在不同层采用不同注意力策略:一些层用全局注意力捕捉长距离依赖,一些层用局部注意力降低计算复杂度。这种分层设计在保持能力的同时,显著减少了内存占用和计算开销。

实用性突破:60%成本降低的落地意义

推理成本降低60%对开发者是实质性利好。以企业级API调用为例,原来每月10万元的推理成本能降到4万元,更多中小企业能负担得起大模型服务。成本下降直接降低了AI应用的试错门槛,加速创新迭代。

超长上下文处理是另一大亮点。模型支持128K token上下文窗口,结合稀疏注意力机制,能高效处理长文档分析、代码库理解等复杂任务。这对AI Agent应用很关键——Agent需要长期记忆和复杂推理,超长上下文提供了必要的技术基础。

行业信号:国产模型的架构优化路径

Qwen3-Next的发布标志着国产大模型开始从“参数竞赛”转向“效率竞赛”。在算力受限的背景下,通过架构创新而非单纯扩大参数规模来提升性能,成为更具可持续性的路径。这和全球AI行业“降本增效”的主流趋势一致。

模型采用双版本策略:Qwen3-Next-80B-A3B-Base和Qwen3-Next-80B-A3B-Instruct分别针对预训练和指令跟随场景,给开发者提供了更灵活的选择。这种精细化设计体现了对实际应用场景的深入思考。

技术细节:稀疏激活的实际运作

配图

实际推理时,模型通过门控网络动态选择激活哪些专家。每个token只激活前k个最相关的专家(k值通常为2-4),其余专家保持静默。这种稀疏激活让80B参数的模型能以接近3B Dense模型的计算成本运行。

混合注意力包含三个关键组件:滑动窗口注意力处理局部信息,全局注意力捕捉长程依赖,稀疏注意力降低计算复杂度。三者协同工作,在128K上下文长度下仍能保持稳定的推理速度。

生态影响:对AI Agent开发的支撑

对AI Agent开发者来说,Qwen3-Next是理想的基础模型。低成本推理让Agent能进行更频繁的推理和决策,超长上下文支持Agent维护更复杂的状态和记忆。这有助于开发出更智能、更自主的AI助手。

模型在工具调用和代码生成方面的表现也值得期待。80B参数规模提供了足够的知识容量,而稀疏激活保证了响应速度,这种平衡特别适合需要实时交互的Agent应用场景。

行业展望:效率优先的新阶段

Qwen3-Next发布后,大模型竞争正式进入效率优先的新阶段。未来可能会看到更多通过架构创新实现性能突破的模型,而不是简单的参数堆砌。这种趋势将推动AI技术更快速地渗透到各个行业。

对开发者来说,现在是评估和迁移的好时机。建议技术团队开始测试Qwen3-Next在具体业务场景中的表现,特别是那些对成本敏感或需要长上下文处理的应用。早期采用者将获得显著的技术和成本优势。


龙虾AI快讯 | 2025年9月12日
关注龙虾官网(yitb.com),获取最新AI模型动态与深度技术解析

返回首页