AI智能体自主性的核心卡点

2026-04-02 15:55:35 来源: 《环球》杂志

2025年8月7日,OpenAI发布了GPT-5模型。这款全新旗舰人工智能模型,将为下一代ChatGPT聊天机器人提供技术支撑

/《环球》杂志记者 胡艳芬 郭丹(发自北京)褚怡(发自柏林)

编辑/吴美娜

 

  《环球》杂志:能自主思考、自主行动的AI智能体(Agent),需具备哪些核心能力?目前全球技术研发的核心卡点是什么?

  曹涛:从架构层面,我将Agent的核心能力归纳为:感知和规划、记忆、行动和信任。

  感知和规划,即读懂复杂世界。Agent需具备多模态感知能力,不只是文本,还包括图像、结构化数据、代码、音频乃至物理传感器数据。这是Agent“眼睛与耳朵”的能力层。

  记忆,即跨时间的上下文管理。Agent必须有四类记忆:工作记忆(当前任务上下文)、情节记忆(历史交互记录)、语义记忆(领域知识库)和程序记忆(操作技能)。当前大多数Agent的记忆管理仍然粗糙,是能力瓶颈之一。

  行动,即真实的系统接入。Agent需具备落地执行的实际能力,能真实调用应用程序编程接口(API)、执行代码、操控用户界面、与其他Agent通信,并对行动结果进行验证反馈,形成完整的执行闭环。

  信任,即可解释、可审计、可干预。这是Agent实现大规模落地最关键的能力。若没有可信赖的行为边界,企业不敢真正放权给Agent

  当前全球AI智能体研发,最核心的三大技术卡点如下:

  一是长期规划与多步推理的可靠性。当任务执行链达到几十步,当前Agent的错误率会显著上升,“幻觉传导”问题尚未得到有效解决。

  二是记忆架构的工程化实现。如何在有限的上下文窗口外,构建长期、高效、可检索的记忆体系,是当前智能体领域的重要工程挑战。

  三是跨Agent的信任与协调协议。在多Agent系统中,各Agent如何安全地传递任务、验证彼此可信度、防范“欺骗性中间Agent”,目前尚无成熟标准。这也是我认为未来2年至3年内智能体领域最关键的技术突破方向。

  王强:一个真正有用的智能体,至少要具备六类核心能力:理解目标、规划分解、工具使用、记忆与状态管理、反馈纠错,以及像开源AI智能体OpenClaw(“龙虾”)一样,具备类似心跳机制,可以定时完成任务或执行周期性任务。

  当前全球研发的核心卡点,主要不在“会不会说”,而在“能不能稳定做成”。具体看有三大难点:一是复杂场景下的可靠性,智能体在长链条任务中容易出现一步错、步步错的情况;二是环境交互的不确定性,真实世界的软件界面、业务规则、权限体系很复杂,远不是实验室里的标准题;三是评估与安全机制不足,还缺少足够成熟的方法来判断一个智能体是否真的可信、可控、可审计,也尚未建立起标准化的安全评估体系。

  金坚敏:AI智能体最核心的能力是自主性,且自主性与代理主体有着本质区别。单一的模型并不具备自主性,它只能被动回答问题,或按照指令执行操作;而真正的自主性是形成感知、判断、推理、设计、执行、验收的完整逻辑闭环。

  主体性是一个社会问题,不是技术问题。核心在于社会是否允许智能体作为代理主体。这涉及是否赋予其购物、支付等操作的权限,也与各国的制度、法律、伦理、哲学等层面密切相关。比如部分欧洲国家就明确要求支付主体必须是人,而非机器;而“若向智能体下达故意伤害他人等类型的指令,其是否会执行,执行后责任该由谁承担”等问题,也必须高度重视。

  智能体的泛化能力也备受关注。所谓泛化能力,是指智能体经过一段时间培训后,能够通过推理、推演完成未被专门培训的任务,甚至掌握超出人类训练范围的能力。

  这一能力的重要性在实际场景中尤为明显,比如引入家庭的人形机器人:若机器人仅能执行单一任务,完成家务便需要配备多款机器人,操作起来很繁琐。而在泛化能力提升后,只需为其设定核心目标和大框架,它就可以自主执行相关操作。例如仅设定“保持家庭清洁”一个目标,机器人便能自主识别脏污并打扫、主动整理床铺,无需人工逐一下达指令。

  亚历山大·措恩:要让智能体自主行动,可信性与明确的边界约束(“护栏”)非常关键,即严格监控和限制其权限。此前已出现过因智能体权限过大,误删整个数据库及全部备份的情况,最终引发了系统失控的混乱。

  也正因如此,这一研究方向的重要性不言而喻,例如德国弗劳恩霍夫智能分析和信息系统研究所就设有“可信赖AI”部门,专门研究此类问题。当前,围绕安全与边界约束的技术挑战,是限制智能体安全、可靠执行长周期任务的关键瓶颈。

手机版