智能体“自主”了，人还能控制吗

2026-04-02 15:50:59 来源： 《环球》杂志

文/《环球》杂志记者胡艳芬（发自北京）褚怡（发自柏林）

编辑/马琼

　　《环球》杂志：AI智能体（Agent）的“自主性”边界该如何界定？当它能自主做决策，甚至自主优化目标时，人类还能实现有效控制吗？

　　亚历山大·措恩：要让人类对智能体保持有意义的控制，智能体系统完全可以，也应当始终在高度结构化的框架下被使用。以软件开发场景为例，这意味着你可以强制要求智能体编写每一段测试代码，同时对所采用的系统架构进行清晰、规范的文档记录。

　　有意识地为智能体引入结构化约束，一是为了保障其工作输出的质量，二是确保人类始终能对智能体保持有意义且行之有效的控制。

　　王强：我认为，智能体的自主性必须建立在一个核心前提下：它可以自主执行任务，但不能脱离人类授权边界去自主定义根本目标。也就是说，人类可以允许它在既定目标下自主规划执行路径、优化操作步骤、提高效率，但不应让它在关键价值判断上自我扩权。特别是在涉及资金流转、隐私保护、法律责任认定、人身安全保障、组织核心决策等高风险领域，必须为智能体设置明确的人类确认节点。

　　人类能不能实现有效控制？答案是可以，但前提是控制方式要升级。过去我们习惯于每一步都人工操作，而未来，控制方式需转向设定清晰的权限边界、保证过程全程可追溯、实现关键动作可随时中止、确保结果可审计。

　　有效的控制，不是限制智能体的能力发挥，而是建立分层治理体系。未来行业的核心比拼，不在于谁的智能体自主性更强，而在于谁能更好地平衡智能体的自主性、工作效率和运行安全性。

　　曹涛：这是我认为整个智能体时代最核心也最容易被技术乐观主义忽视的问题。我认为企业在部署Agent时，可采用一套清晰的权限框架——按决策后果的风险等级与不可逆性，将Agent的自主权分为三个层级：

　　L1完全自主：可自主执行、无需审批，适用于检索信息、生成文稿草稿、内部数据汇总等低风险、后果可逆的场景。

　　L2人工确认后执行：Agent提出方案，人类一键确认后再落地，比如发送邮件、提交常规报告、更新非核心数据库等，核心是引入人类决策环节。

　　L3人工主导：Agent仅承担辅助分析的角色，最终决策权完全由人类掌握，这类场景包括财务审批、医疗诊断建议输出、法律合同签署等高风险、后果不可逆的事项。

　　真正危险的不是Agent执行任务，而是它在未经人类授权的情况下修改自己的目标函数。这在学术上被称为“目标漂移”或“价值对齐失败”。

　　从技术架构层面，有效的防控手段包括：搭建不可变的约束层、留存完整的行为审计日志、设置越权行为自动中断机制，以及建立定期人工校验的“目标审查周期”。

　　我认为，有效控制的关键不是限制Agent的能力，而是为其能力建立边界清晰、可解释、可审计的运行框架。控制是能力的前提，而非能力的对立面。