多智能体AI的潜力

几十年来，“智能体”这个概念已经深植于人机交互的方方面面，从微软Office中那只有些“憨”的Clippy助手，到Google Docs的智能推荐，再到视频游戏里的NPC（ Non-Player Character的缩写，指的是游戏中由电脑控制的角色），这些早期智能体为个性化、目标导向的交互铺平了道路。然而，这些智能体的能力有限，难以胜任高层次任务。随着大语言模型（LLM）的崛起，智能体真正的潜力才初现端倪。

如今，LLM驱动的智能体已从实验室走向实际应用，为消费者和企业带来了越来越复杂的功能。然而，即使是最先进的单一智能体，仍然在多步骤任务、不同环境间的切换、以及依赖关系管理方面遇到难题。

此时，多智能体系统应运而生。通过将复杂问题分解成由各个专门智能体完成的子任务，这类系统提供了一种模块化、灵活且稳健的方式，自动化那些曾被视为“软件无能为力”的任务。微软开源的AutoGen就是领先的多智能体框架之一，已在数据生成、代码生成和制药数据科学等学术与企业应用中广泛使用。

为深入了解多智能体系统的潜力和局限性，我采访了微软首席研究员、AutoGen的创造者Chi Wang。以下是从这次交流中收获的关键见解。

ICYMI：本文是我新系列《现实世界中的AI》的一部分，在这个系列中，我深入探讨了领先AI研究人员关于AI在企业中的应用现状。查看我们之前的对话内容。

为什么多个智能体往往优于单一智能体

构建可靠的单一智能体本身就是一个难题，那么引入更多智能体又有何意义呢？

让我们回顾一下多智能体认知的起源。1986年，Marvin Minsky在《心智社会》一书中提出了“心智社会”理论。他认为人类认知源于无数简单“智能体”的互动——这些智能体每一个都专注于特定功能，比如识别形状或处理情绪。这些智能体通过特定的组合（即“社会”）便可生成智能行为。Minsky的核心观点是，数以千计的模块化“微型心智”协同工作，其效率远超一个单一、庞大的心智。

Marvin Minsky: <em>The Society of Mind.</em>

Marvin Minsky: The Society of Mind.

当下的多智能体系统，能够学习、适应和协调，正是Minsky愿景的现实延续。通过训练智能体团队在追求共同目标中协作与竞争，开发者得以创建远超单一智能体能力的系统，实现1+1>3的效果。

正如Chi所解释的那样，多智能体系统带来三大主要优势：

模块化 将复杂任务分配给专门的智能体，使整个系统更加模块化。模块化简化了开发、测试和维护工作，因为可以在不重新构建整个系统的情况下添加或调整功能。此外，故障排查也更加简便，因为问题通常可以隔离到特定智能体。
专门化 多智能体系统就像一个专家团队，每个智能体都贡献其独特的知识和能力，以合力解决复杂问题。任务被分解为若干部分，并分配给最适合的智能体来处理。每个智能体处理其任务部分后，将信息传递给下一个智能体，从而逐步精炼并改进输出。通过这种专门化，系统可以实现单一通用智能体难以企及的效果。
这种方法在概念上类似于“提示链”技术，即人类用户将复杂任务拆解成一系列子任务，并通过与模型的对话逐步接近理想结果。
Chi举了一个多智能体系统的例子，该系统负责分析数据并提供见解和建议。在这种情况下，各智能体专注于任务的不同方面：有的专门负责数据检索和展示，有的深入分析和生成洞见，还有的负责规划和决策。这样的分工让每个智能体专注于自己的强项，从而带来更快、更准确的结果。
协作学习 在多智能体系统中，智能体之间的互动往往能产生超越单一智能体所能实现的解决方案。通过允许智能体协同工作、互相批判并分享见解，系统可以对问题形成更全面的理解。对于处理复杂的多方面问题，这一特性尤为宝贵，因为单一智能体通常无法具备足够的知识或技能来完全解决这些问题。
协作学习的精妙之处在于其能够生成可能在更单一的系统中难以获得的创新解决方案。随着智能体相互讨论并在彼此的思维基础上不断拓展，它们可以探索更广泛的可能性，并发现单个智能体可能忽视的方法。这种协同效应是解锁多智能体系统全部潜力的关键。随着推理技术的进步，这种智能体之间的交流将会变得更快速、高效。
为了进一步说明这个概念，Chi描述了一个包含一个GPT-4智能体和若干GPT-3.5智能体的多智能体框架。在这个框架中，GPT-4智能体充当“导师”或“指导者”的角色，而GPT-3.5智能体则是“学生”。通过与更高级的智能体互动，GPT-3.5智能体可以迅速掌握特定任务，而无需单独的全面训练。随着每个智能体在协作学习过程中不断提升，整个系统的能力也在增长。

构建多智能体系统的最佳实践

如何设计多智能体系统应用？Chi提出了一些建设性建议。

匹配架构与问题 选择合适的架构至关重要，因为多智能体系统带来了许多单一智能体系统无法规避的协调性、一致性和连贯性复杂问题。对于简单且定义明确的任务，单一智能体可能是更简单高效的选择。响应速度、决策频率、智能体间通信需求、延迟和带宽等因素都会影响单智能体和多智能体架构的选择。
从简入手，逐步迭代 先以简单的方式开始，然后逐步扩展。通过最初部署一个或两个智能体并逐步增加，开发者可以在增加复杂性之前验证核心设计和交互模式。这种方法还简化了调试和优化，因为可以更轻松地将问题追溯到个别智能体。
定义清晰的角色和职责 在多智能体系统中，专门化可以带来优势。开发者应采取分而治之的方法，让每个智能体专注于其专业领域。这不仅是简单的提示工程：智能体还可以配备特定任务所需的资源和工具，如数据库访问权限、专用软件，以及明确的规则和限制，以便引导它们达到预期结果。有效的设计涉及到绘制实现整体目标所需的子任务，理解它们的相互依赖关系，并根据智能体的专长和系统不断演变的需求来分配任务。
实现灵活的智能体间通信 流畅的智能体间通信至关重要，静态和动态拓扑都有各自的优点。在静态设置中，智能体之间的通信通道是预定义且不变的。这种方式优先考虑简单性和可预测性，使系统更易于理解、分析和调试。
相比之下，动态拓扑允许智能体根据需要随时创建和调整通信链路，从而使它们能够适应不断变化的情况和需求。设想在灾害响应场景中，智能体代表不同的应急服务。在动态拓扑中，这些智能体可以根据实时数据（如事件位置和资源需求）进行灵活连接和协调。这种适应性使系统能够更有效地应对危机中的变化情况，但也增加了系统分析和监控的难度。
平衡自主性与控制 在智能体的自主性和控制之间取得平衡是一个持续的挑战。过少的自主性会导致系统僵化和局限，而过多的自主性则可能导致不稳定或意外的行为。可调的自主性，即允许在动态环境中根据情境变化调整对智能体的控制力度，是一个活跃的研究领域。
设计人机互动 大多数多智能体系统都涉及人类用户，因此创新的交互设计至关重要。智能体需要有效的机制来向人类利益相关者传递相关信息，在需要时征求输入和指导，并根据反馈调整其行为。
一个主要的设计考虑是，是否将多智能体系统呈现为一个统一的整体实体，或作为一组独立、互相作用的智能体呈现给用户。在前者情况下，用户可能通过单一接口与系统互动，而不考虑系统背后的智能体数量和多样性。而在后者情况下，用户可能需要分别与多个智能体进行交流，并可能为每个智能体使用不同的接口和交互模式。
新兴的人机交互（HCI）范式正在探索人机协作的各种可能性。有些设想将多智能体系统作为执行定义明确任务的工具，而人类提供指导。另一些则视智能体为主动的合作者：动态的、自主的伙伴，可以在解决问题中与人类并肩协作。
持续评估和改进 由于多智能体系统是模块化的，其各个组件可以独立进行隔离、评估和优化，使开发者能够不断优化系统的性能。为了支持这一过程，Chi鼓励构建者实现智能体性能监控、问题识别和系统设计迭代的机制。一种方法是使用专门智能体，其唯一任务是评估和基准测试系统中其他智能体的性能。这些专用智能体可以分析操作数据（如日志），提取相关的评估标准，并自动对其他智能体的表现进行评分。
积极识别和缓解风险 多智能体系统带来了独特的安全性和可靠性挑战。智能体之间的高度互相依赖意味着系统中一个部分的失效或漏洞可能迅速蔓延。
一种常见的失效模式是不同智能体“世界模型”之间的冲突：每个智能体依赖的核心假设、信念和表示用于理解其环境和目标。如果这些世界模型不同步，系统可能会失稳，因为智能体会出现相互矛盾的行为。例如，在多智能体零售预测系统中，如果一个智能体假设需求上升而另一个预期需求下降，可能导致错误的库存决策。
多智能体系统的分布式结构也扩大了对恶意行为者的攻击面。每个智能体都是潜在的入口，可能被攻破并用于操纵整个系统，通过高度互联的结构迅速传播攻击。被入侵的智能体可能向其同伴提供虚假数据，扰乱它们的世界模型并触发破坏性的反馈循环。设想一群自主无人机突然收到被入侵智能体的矛盾位置信息，导致它们在空中相撞。
为了防御这些威胁，多智能体系统需要在智能体级别和网络级别上都部署健全的安全措施。多因素认证、端到端加密和基于硬件的可信执行环境等技术可以帮助增强智能体的防入侵能力。异常检测系统可以识别可能表明正在进行的攻击的可疑行为模式。

未来展望

多智能体系统具有巨大潜力，可以支持更复杂、功能更强大的AI应用。随着该领域的持续进展，研究者们正专注于多个关键领域，以更充分地实现这一令人兴奋的范式的潜力。

高级推理、规划和问题解决：通过为智能体配备更高级的认知技能——例如分解多方面问题的能力、探索新颖解决方案空间和适应变化的环境——我们可以扩大其能够处理的任务范围和复杂性。链式思维提示和多智能体辩论等技术是这一方向的早期尝试。
多模态交互：随着智能体逐渐具备在多种模态下感知、处理和生成内容的能力，它们将能够以更加自然、直观和上下文相关的方式协作。基于AutoGen构建的项目如DALLE和GPT-4V的智能体聊天展示了这种方法的潜力。
将智能体锚定于现实世界：为了让多智能体系统真正发挥潜力，它们需要在现实世界中扎根，而不是独立运作。通过将智能体连接到物理工具和传感器、真实虚拟环境和实时数据流，我们可以将智能体的智能锚定于它们将部署的实际环境中。
智能体编排自动化：随着多智能体系统的规模和复杂性增长，手动设计和调整单个智能体的角色和交互模式将迅速变得不可行。为了解决这一挑战，Adam Fourney及其微软研究AI前沿团队正在开发自适应架构和学习技术，利用LLM自动配置和优化基于智能体的系统。随着这些系统的日益复杂，此类更强大的编排方法至关重要。
安全性和一致性：随着多智能体AI的进步，确保这些日益强大的系统与人类价值观和优先事项保持一致是一个关键的考量。奖励作弊（智能体发现奖励机制中的漏洞）和目标错设（智能体追求与设计者真实意图不一致的目标）等风险随着多智能体架构能力和复杂性的提升而不断加剧。

幸运的是，积极的研究努力已经在这个关键领域取得了进展。诸如多智能体辩论之类的技术让智能体彼此对抗以测试想法和揭示潜在的缺陷，而递归奖励建模则通过迭代的人类反馈来改进智能体目标，这些技术正显示出有希望的结果。

随着像Chi这样的研究者继续推进多智能体AI的边界，我们显然只是刚刚触及了这一技术的表面。从自动化复杂任务到解决长期困扰传统软件方法的多面性问题，多智能体系统的应用前景广阔。

敬请关注“现实世界中的AI”系列的后续内容，我们将继续探索生成式AI的前沿领域，包括替代模型架构、推理策略和软硬件协同设计。