AI智能体自主性的核心卡点

2026-04-02 15:55:35 来源： 《环球》杂志

2025年8月7日，OpenAI发布了GPT-5模型。这款全新旗舰人工智能模型，将为下一代ChatGPT聊天机器人提供技术支撑

文/《环球》杂志记者胡艳芬郭丹（发自北京）褚怡（发自柏林）

编辑/吴美娜

　　《环球》杂志：能自主思考、自主行动的AI智能体（Agent），需具备哪些核心能力？目前全球技术研发的核心卡点是什么？

　　曹涛：从架构层面，我将Agent的核心能力归纳为：感知和规划、记忆、行动和信任。

　　感知和规划，即读懂复杂世界。Agent需具备多模态感知能力，不只是文本，还包括图像、结构化数据、代码、音频乃至物理传感器数据。这是Agent“眼睛与耳朵”的能力层。

　　记忆，即跨时间的上下文管理。Agent必须有四类记忆：工作记忆（当前任务上下文）、情节记忆（历史交互记录）、语义记忆（领域知识库）和程序记忆（操作技能）。当前大多数Agent的记忆管理仍然粗糙，是能力瓶颈之一。

　　行动，即真实的系统接入。Agent需具备落地执行的实际能力，能真实调用应用程序编程接口（API）、执行代码、操控用户界面、与其他Agent通信，并对行动结果进行验证反馈，形成完整的执行闭环。

　　信任，即可解释、可审计、可干预。这是Agent实现大规模落地最关键的能力。若没有可信赖的行为边界，企业不敢真正放权给Agent。

　　当前全球AI智能体研发，最核心的三大技术卡点如下：

　　一是长期规划与多步推理的可靠性。当任务执行链达到几十步，当前Agent的错误率会显著上升，“幻觉传导”问题尚未得到有效解决。

　　二是记忆架构的工程化实现。如何在有限的上下文窗口外，构建长期、高效、可检索的记忆体系，是当前智能体领域的重要工程挑战。

　　三是跨Agent的信任与协调协议。在多Agent系统中，各Agent如何安全地传递任务、验证彼此可信度、防范“欺骗性中间Agent”，目前尚无成熟标准。这也是我认为未来2年至3年内智能体领域最关键的技术突破方向。

　　王强：一个真正有用的智能体，至少要具备六类核心能力：理解目标、规划分解、工具使用、记忆与状态管理、反馈纠错，以及像开源AI智能体OpenClaw（“龙虾”）一样，具备类似心跳机制，可以定时完成任务或执行周期性任务。

　　当前全球研发的核心卡点，主要不在“会不会说”，而在“能不能稳定做成”。具体看有三大难点：一是复杂场景下的可靠性，智能体在长链条任务中容易出现一步错、步步错的情况；二是环境交互的不确定性，真实世界的软件界面、业务规则、权限体系很复杂，远不是实验室里的标准题；三是评估与安全机制不足，还缺少足够成熟的方法来判断一个智能体是否真的可信、可控、可审计，也尚未建立起标准化的安全评估体系。

　　金坚敏：AI智能体最核心的能力是自主性，且自主性与代理主体有着本质区别。单一的模型并不具备自主性，它只能被动回答问题，或按照指令执行操作；而真正的自主性是形成感知、判断、推理、设计、执行、验收的完整逻辑闭环。

　　主体性是一个社会问题，不是技术问题。核心在于社会是否允许智能体作为代理主体。这涉及是否赋予其购物、支付等操作的权限，也与各国的制度、法律、伦理、哲学等层面密切相关。比如部分欧洲国家就明确要求支付主体必须是人，而非机器；而“若向智能体下达故意伤害他人等类型的指令，其是否会执行，执行后责任该由谁承担”等问题，也必须高度重视。

　　智能体的泛化能力也备受关注。所谓泛化能力，是指智能体经过一段时间培训后，能够通过推理、推演完成未被专门培训的任务，甚至掌握超出人类训练范围的能力。

　　这一能力的重要性在实际场景中尤为明显，比如引入家庭的人形机器人：若机器人仅能执行单一任务，完成家务便需要配备多款机器人，操作起来很繁琐。而在泛化能力提升后，只需为其设定核心目标和大框架，它就可以自主执行相关操作。例如仅设定“保持家庭清洁”一个目标，机器人便能自主识别脏污并打扫、主动整理床铺，无需人工逐一下达指令。

　　亚历山大·措恩：要让智能体自主行动，可信性与明确的边界约束（“护栏”）非常关键，即严格监控和限制其权限。此前已出现过因智能体权限过大，误删整个数据库及全部备份的情况，最终引发了系统失控的混乱。

　　也正因如此，这一研究方向的重要性不言而喻，例如德国弗劳恩霍夫智能分析和信息系统研究所就设有“可信赖AI”部门，专门研究此类问题。当前，围绕安全与边界约束的技术挑战，是限制智能体安全、可靠执行长周期任务的关键瓶颈。