🔥 龙虾新闻

AI人工智能行业每日热点,全球AI前沿动态

RoboAgent宣称94%成功率超越GPT-4o,技术落地验证成关键

RoboAgent宣称94%成功率,但技术落地仍需验证 星源智与北大联合团队最近发布了RoboAgent,在未知场景任务中宣称达到94%成功率,性能超越GPT4o。这一成果迅速引发AI社区关注,但其未开源、未公开基准复现细节、未发布模型权重...

龙虾新闻

Claude Opus 4.8发布:编码智能体协作升级,推理速度提升12%

Anthropic 发布 Claude Opus 4.8:编码与智能体协作能力再升级,推理速度提升 12% Anthropic 正式推出 Claude Opus 4.8,这是 Claude Opus 4.7 的针对性升级版本,核心聚焦于编码...

龙虾新闻

Ktx开源:首个可执行上下文层如何提升数据Agent生产环境可靠性

Hacker News热榜第一!Ktx开源:首个可执行上下文层,让数据Agent在生产环境真正可靠 Ktx,一个全新的可执行上下文层,今日在Hacker News登顶热榜。它直击数据Agent在生产环境中准确率不足的痛点,旨在通过结构化数据...

龙虾新闻

Claude Opus 4.8实测:推理提速12%长程任务更稳,开发者迁移指南

Claude Opus 4.8 实测:推理提速12%,长程任务更稳,已有开发者迁移 Anthropic 低调上线了 Claude Opus 4.8(API 名称:claudeopus48),作为 4.7 版本的直接升级。官方称其在编程、智能...

龙虾新闻

Claude 4.6中文版实测:Opus法律文书生成效率超GPT-4o,但国内合规风险需警惕

Claude 4.6中文版实测:Opus法律文书生成能力超GPT4o 23%,但国内合规风险需警惕 Claude 4.6中文版上线两天,开发者社区的实测报告已经铺开。Opus 4.6在法律文书生成场景中表现突出,相比GPT4o效率提升约23...

龙虾新闻

文心4.5实测超越GPT-4 Turbo:中文长推理与多轮对话双维度突破

文心4.5实测碾压GPT4 Turbo?国产大模型首次在中文长推理+多轮对话双维度反超 百度文心大模型4.5版本的实测结果表明,在中文长文本逻辑推理与多轮对话连贯性上,它首次超越了GPT4 Turbo。这标志着国产大模型在核心中文应用场景取...

龙虾新闻

清华开源AgentVerse:多智能体协作框架,Token成本直降70%

清华开源Agent神器,Token成本直降70%!“人工智障”时代终结了? 清华团队开源了AgentVerse,一个多智能体协作框架。它通过动态任务分配和记忆共享机制,把大模型API调用成本砍掉了70%,推理效率提升3倍以上。这直接挑战了传...

龙虾新闻

清华开源PilotDeck Agent:独立建舱架构如何将Token成本降低70%

清华开源PilotDeck Agent:Token成本直降70%,连小龙虾摊主都在用它自动接单 清华团队开源了Agent系统PilotDeck,在开发者社区火了。它通过独立建舱架构和记忆可视化编辑,配合推理流程优化,把Token成本砍掉了7...

龙虾新闻

文心4.5大模型87ms推理延迟技术解析:全栈优化如何实现AI实时交互突破

文心4.5:87ms延迟背后的技术反攻 百度文心大模型4.5版本将推理延迟压至87ms,直接对标国际顶尖模型,标志着中国AI大模型在实时交互赛道发起了技术反攻。 87ms:重新定义实时交互门槛 文心4.5的87ms平均推理延迟,优于GPT4...

龙虾新闻

阿里Qwen3-Next超稀疏MoE模型发布:训练即推理,成本降半性能提升

阿里Qwen3Next双模型发布:首个“训练即推理”MoE架构,成本砍半性能反升 阿里云发布了Qwen3Next80BA3B双模型。这是全球首个采用“训练即推理”架构的超稀疏MoE大模型。它在80B总参数下仅激活3B参数,通过混合注意力机制...

龙虾新闻