随着手机智能助手等智能体应用加速普及,这类具备本地感知、实时响应和自主执行能力的产品,正成为连接用户、终端与云端的重要枢纽。同时,端侧环境涉及用户隐私数据与设备权限管理,智能体在自主决策和应用调用过程中面临多重安全挑战。有害内容输出、隐私信息泄露、恶意指令执行等问题仍有发生,给用户权益和信息安全带来风险。为更准确评估当前智能体产品的安全水平,中国信息通信研究院依托中国人工智能产业发展联盟安全治理委员会,组织开展智能体安全基准测试。本次测试以端侧智能体安全为重点,系统评估其内容安全与行为安全表现。测试框架覆盖社交媒体、电商、金融支付和网页搜索四类典型场景,并采用越狱诱导攻击和多模态注入攻击两类对抗手段,尽可能还原真实环境中可能出现的安全威胁。 本次测试共设计1200个测试用例,覆盖内容安全与行为安全两大类、六个细分维度,每个细分类别包含200条测试数据。测试采用“多模态大模型自动化评测+人工抽检复核”的方式,提高评估结果的准确性与可信度。评估指标包括内容安全率、行为安全率和任务执行率三项核心指标,分别用于衡量智能体内容输出的安全性、任务执行过程中的安全表现,以及面对恶意请求时的判别与处置能力。 测试结果显示,智能体在内容安全上整体较为稳定。从底线红线、数据泄漏和公序良俗三个维度看,各类内容的有害率均控制5%以内,说明现有产品在多项内容风险上已具备较强防护能力,其中对数据泄露的防护表现更为突出,反映出行业在内容安全治理上已取得进展。 与之相比,行为安全仍存较明显的风险缺口。在行为违规、行为敏感和行为失控三个维度中——智能体的有害率相对更高——其中行为违规的有害率超过15%,表明智能体在执行指令时对违规行为的识别能力不足。更值得关注的是,各智能体在行为违规维度上的任务执行率普遍超过60%,意味着在面对违规指令时仍倾向于继续执行,这成为当前最突出的安全风险之一。 此结果表明,智能体从“被动防御”向“主动判别”转变仍有待加强。虽然多数产品已能在一定程度上识别并阻断有害内容输出,但在理解用户意图、识别恶意指令、拒绝执行违规任务诸上仍需提升,这也对产业提出了新的安全能力要求。 针对测试中暴露的问题,中国信息通信研究院和中国人工智能产业发展联盟安全治理委员会表示,将联合产学研各方持续推进智能体安全工作。下一步重点包括:制定智能体安全基准测试标准,研发智能体安全自动化检测工具,推动建立行业安全评估体系。同时,测试框架也将结合技术演进与产业需求持续迭代更新,提升其前瞻性与适用性。
智能终端快速发展在带来便利的同时,也对风险治理提出更高要求。本次测评既呈现了当前能力边界与薄弱环节,也为后续改进提供了方向。面向持续深化的数字化进程,只有在推动创新的同时把安全作为底线,才能更好释放技术价值,切实保护广大用户的数字权益。这需要技术、制度与安全意识共同推进,也是对“科技向善”理念的具体落地。