• 元宇宙:本站分享元宇宙相关资讯,资讯仅代表作者观点与平台立场无关,仅供参考.

Agent 最全 Playbook:场景、记忆和交互创新

  • 2025年1月03日 00:31

编译:Jiayu,Cage

AIAgent是我们紧密追踪的范式变化,Langchain的一系列文章对理解Agent的发展趋势很有帮助。在本篇编译中,第一部分是Langchain团队发布的StateofAIAgent报告。他们采访了1,300多位从业者,包含开发者、产品经理、公司高管,揭示了Agent在今年的现状和落地瓶颈:九成公司都对AIAgent有计划和需求,但Agent能力的局限让用户只能在少数流程和场景中落地。比起成本和latency,大家更在乎Agent能力的提升,和对其行为的可观测和可控性。

第二部分我们编译了LangChain官网的IntheLoop系列文章中对AIAgent关键要素的分析:规划能力、UI/UX交互创新和记忆机制。文中分析了5种LLM-native产品的交互方式,类比了3种人类的复杂记忆机制,对理解AIAgent,对理解这些关键要素有所启发。在这一部分我们还加入了一些有代表性的Agent公司casestudy,如ReflectionAI创始人的访谈,来展望接下来2025年AIAgent的关键突破口。

在这个分析框架下,我们期待2025年AIAgent应用开始涌现,步入人机协作的新范式。对于AIAgent的规划能力,以o3为首的模型正在展现出很强的反思和推理能力,模型公司的进展正在从reasoner逼近到Agent阶段。随着推理能力持续提升,Agent的“最后一公里”会是产品交互和记忆机制,这更可能是创业公司突破的机会。关于交互,我们一直期待AI时代的“GUI时刻“;关于记忆,我们相信Context会成为Agent落地的关键词,个人层面的context个性化、企业层面的context统一都会让Agent的产品体验得到大幅提升。

01. Agent使用趋势:

每个公司都在计划部署Agent

Agent领域的竞争正在变激烈。在过去一年中,许多Agent框架变得普及:例如使用ReAct结合LLM进行推理和行动、使用multi-agent框架进行编排,或者是使用类似LangGraph这样更可控的框架。

关于Agent的讨论并不全是Twitter上的炒作。大约51%的受访者目前正在生产中使用Agent。根据Langchain按公司规模的数据,100-2000员工的中型公司在Agent投入生产方面最为积极,比例达到63%。

此外,78%的受访者有在近期内将采用将Agent投入生产的计划。很明显,大家对AIAgent有很强烈的兴趣,但实际要做好一个production-ready的Agent对许多人来说仍然是一个难题。

监控:Agent应用需要可观测和可控性

随着Agent实现功能变得更加强大,就需要管理和监控Agent的方法。追踪和可观测性工具位列必备清单之首,帮助开发人员了解Agent的行为和性能。很多公司还使用guardrail(防护控制)以防止Agent偏离轨道。

将Agent投入生产的障碍和挑战

保证LLM 的高质量performance 很难,回答需要有高准确性,还要符合正确的风格。这是Agent开发使用者们最关心的问题——比成本、安全等其他因素的重要性高出两倍多。

LLMAgent是概率式的内容输出,意味着较强的不可预测性。这引入了更多的错误可能性,使得团队难以确保其Agent始终如一地提供准确、符合上下文的回应。

其他新兴主题

在开放性问题中,大家对AIAgent展示出的这些能力有很多称赞:

管理多步骤任务:AIAgent能够进行更深入的推理和上下文管理,使它们能够处理更复杂的任务;

自动化重复性任务:AIAgent继续被视为处理自动化任务的关键,这可以为用户解放时间,让他们去解决更有创造性的问题;

任务规划和协作:更好的任务规划确保正确的Agent在正确的时间处理正确的问题,特别是在Multi-agent系统中;

类似人类的推理:与传统LLM不同,AIAgent可以追溯其决策,包括根据新信息回顾并修改过去的决策。

此外大家还有两个最期待的进展:

对开源AIAgent的期待:人们对开源AIAgent的兴趣明显,许多人提到集体智慧可以加速Agent的创新;

对更强大的模型的期待:许多人正在期待由更大、更强大的模型驱动的AIAgent的下一次飞跃—在那时,Agent能够以更高的效率和自主性处理更复杂的任务。

问答中很多人也提到了Agent开发时最大的挑战:如何理解Agent的行为。一些工程师提到他们在向公司stakeholder解释AIAgent的能力和行为时会遇到困难。部分时候可视化插件可以帮助解释Agent的行为,但在更多情况下LLM仍然是一个黑箱。额外的可解释性负担留给了工程团队。

02.AIAgent中的核心要素

什么是Agentic系统

在StateofAIAgent报告发布之前,Langchain团队已经在Agent领域写了自己的Langraph框架,并通过IntheLoop博客讨论了很多AIAgent中的关键组件,接下来就是我们对其中关键内容的编译。

首先每个人对AIAgent的定义都略有不同,LangChain创始人HarrisonChase给出的定义如下:

AIAgent是一个用LLM来做程序的控制流决策的系统。

AnAIagentisasystemthatusesanLLMtodecidethecontrolflowofanapplication.

对其实现方式,文章中引入了Cognitivearchitecture(认知架构)的概念,认知架构是指Agent如何进行思考、系统如何去编排代码/promptLLM:

Cognitive:Agent使用LLM来语义推理该如何编排代码/PromptLLM;

Architecture:这些Agent系统仍然涉及大量类似于传统系统架构的工程。

下面这张图展示了不同层次Cognitivearchitecture的例子:

CaseStudy:

ReflectionAI创始人 Laskin 对Agent未来的愿景

在红杉资本对ReflectionAI创始人MishaLaskin的访谈中,Misha提到他正在开始实现他的愿景:即通过将RL的SearchCapability与LLM相结合,在他的新公司ReflectionAI中构建最佳的Agent模型。他和联合创始人IoannisAntonoglou(AlphaGo、AlphaZero、GeminiRLHF负责人)正在训练为AgenticWorkflows设计的模型,访谈中的主要观点如下:

深度是AIAgent中缺失的部分。虽然当前的语言模型在广度方面表现出色,但它们缺乏可靠完成任务所需的深度。Laskin认为,解决“深度问题”对于创建真正有能力的AIAgent至关重要,这里的能力是指:Agent可以通过多个步骤规划和执行复杂的任务;

将Learn和Search相结合是实现超人性能的关键。借鉴AlphaGo的成功,Laskin强调AI中最深刻的理念是Learn(依靠LLM)和Search(找到最优路径)的结合。这种方法对于创建在复杂任务中可以胜过人类的Agent至关重要;

Post-training和Rewardmodeling带来了重大挑战。与具有明确奖励的游戏不同,现实世界的任务通常缺乏真实奖励。开发可靠的rewardmodel,是创建可靠的AIAgent的关键挑战

UniversalAgents可能比我们想象的更接近。Laskin估计,我们可能只用三年时间就可以实现“digitalAGI”,即同时具有广度和深度的AI系统。这一加速的时间表凸显了在能力发展的同时解决安全性和可靠性问题的紧迫性

通往UniversalAgents的道路需要一种的方法。ReflectionAI专注于扩展Agent功能,从一些特定的环境开始,如浏览器、coding和计算机操作系统。他们的目标是开发UniversalAgents,使其不局限于特定任务。

UI/UX交互

在未来几年,人机交互会成为research的一个关键领域:Agent系统与过去的传统计算机系统不同,因为延迟、不可靠性和自然语言界面带来了新的挑战。因此,与这些Agent应用程序交互的新UI/UX范式将出现。Agent系统仍处于早期阶段,但已经出现多种新兴的UX范式。下面分别进行讨论:

1.对话式交互(ChatUI)

聊天一般分为两种:流式聊天(streamingchat)、非流式聊天(non-streamingChat)。

流式聊天是目前最常见的UX。它是一个Chatbot,以聊天格式将其思想和行为流回——ChatGPT是最受欢迎的例子。这种交互模式看起来很简单,但也有不错的效果,因为:其一,可以使用自然语言与LLM进行对话,这意味着客户和LLM没有任何障碍;其二,LLM可能需要一段时间才能工作,流式处理使用户能够准确了解后台发生的事情;其三,LLM常常会出错,Chat提供了一个很好的界面来自然地纠正和指导它,大家已经非常习惯于在聊天中进行后续对话和迭代讨论事情。

但流式聊天也有其缺点。首先,流式聊天是一种相对较新的用户体验,因此我们现有的聊天平台(iMessage、FacebookMessenger、Slack等)没有这种方式;其次,对于运行时间较长的任务来说,这有点尴尬—用户只是要坐在那里看着Agent工作吗;第三,流式聊天通常需要由人类触发,这意味着还需要大量humanintheloop。

非流式聊天的最大区别在于响应是分批返回的,LLM在后台工作,用户并不急于让LLM立刻回答,这意味着它可能更容易集成到现有的工作流程中。人们已经习惯了给人类发短信——为什么他们不能适应用AI发短信呢?非流式聊天将使得与更复杂的Agent系统交互变得更加容易—这些系统通常需要一段时间,如果期望即时响应,这可能会令人沮丧。非流式聊天通常会消除这种期望,从而更轻松地执行更复杂的事情。

这两种聊天方式有以下优缺点:

3.电子表格(SpreadsheetUX)

4.生成式UI(GenerativeUI)

“生成式UI”有两种不同的实现方式。

一种方式是由模型自行生成需要的的原始组件。这类似于Websim等产品。在后台,Agent主要编写原始HTML,使其能够完全控制显示的内容。但是这种方法允许生成的webapp质量有很高的不确定性,因此最终结果可能看起来波动较大。

5.协作式UX(CollaborativeUX)

当Agent和人类一起工作时会发生什么?想想GoogleDocs,客户可以在其中与团队成员协作编写或编辑文档,但倘如协作者之一是Agent呢?

GeoffreyLitt和Ink&Switch合作的Patchwork项目是人类-Agent合作的一个很好的例子。(译者注:这可能是最近penAICanvas产品更新的灵感来源)。

1.程序记忆(ProceduralMemory):有关如何执行任务的长期记忆,类似于大脑的核心指令集

人类的程序记忆:记住如何骑自行车。

Agent的程序记忆:CoALA论文将程序记忆描述为LLM权重和Agent代码的组合,它们从根本上决定了Agent的工作方式。

在实践中,Langchain团队还没有看到任何Agent系统会自动更新其LLM或重写其代码,但是确实存在一些Agent更新其systemprompt的例子。

2.语义记忆(SemanticMemory):长期知识储备

人类的语义记忆:它由信息片段组成,例如在学校学到的事实、概念以及它们之间的关系。

Agent的语义记忆:CoALA论文将语义记忆描述为事实存储库。

在实践中上,常常是通过使用LLM从Agent的对话或交互中提取信息来实现的。此信息的确切存储方式通常是特定于应用程序的。然后这些信息在将来的对话中检索并插入到SystemPrompt中以影响Agent的响应。

3.情景记忆(EpisodicMemory):回忆特定的过去事件

人类的情景记忆:当一个人回忆起过去经历的特定事件(或“情节”)时。

Agent中的情景记忆:CoALA论文将情景记忆定义为存储Agent过去动作的序列。

这主要用于让Agent按预期执行动作。在实践中,情景记忆的更新通过Few-ShotsPrompt的方法实现。如果相关更新的Few-ShotsPrompt足够多,那么接下来的更新就通过DynamicFew-ShotsPrompt来完成。

如果一开始就有指导Agent正确完成操作的办法,后面面对同样的问题就可以直接使用这种办法;相反,如果不存在正确的操作方式,或者如果Agent不断做新的事情,那么语义记忆就会更重要,反而在前面的例子中,语义记忆不会有太大帮助。

除了考虑要在Agent中更新的记忆类型外,开发人员还要考虑如何更新Agent的记忆:

更新Agent记忆的第一种方法是“inthehotpath”。在这种情况下,Agent系统会在响应之前记住事实(通常通过工具调用),ChatGPT采取这种方法更新其记忆;

更新Agent记忆的另一种方法是“inthebackground”。在这种情况下,后台进程会在会话之后运行以更新记忆。

比较这两种方法,“inthehotpath”方法的缺点是在传递任何响应之前会有一些延迟,它还需要将memorylogic与agentlogic相结合。

但是,“inthebackground”可以避免这些问题-不会增加延迟,并且memorylogic保持独立。但是“inthebackground”也有其自身的缺点:记忆不会立即更新,并且需要额外的logic来确定何时启动后台进程。

更新记忆的另一种方法涉及用户反馈,这与情景记忆特别相关。例如,如果用户对某次交互标评分较高(PostiveFeedback),Agent可以保存该反馈以备将来调用。

基于以上编译内容,我们期待规划、交互、记忆三个组件的同时进步,会让我们在2025年看到更多可用的AIAgent,进入人机协同工作的新时代。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM