重磅！面向 Agentic 场景的全球头部风控模型测评结果出炉，深知安全风控双指标领先

彩智科技

首页

深知智能

新闻中心

关于彩智

加入我们

API接入参与内测

重磅！面向 Agentic 场景的全球头部风控模型测评结果出炉，深知安全风控双指标领先

时间：2026-5-08 作者：小智分类：新闻

深知安全风控（DKnownAI Guard）最新公开对比测评结果正式出炉。

“养虾养马”日益流行的当下，围绕OpenClaw、Hermes为代表的新一代智能体中的 AI Agent 安全护栏这一关键问题，我们正式发布面向真实攻击场景的测评结果，并同步公开论文与数据集：

论文地址：

https://arxiv.org/abs/2604.24826

数据集地址：

https://huggingface.co/datasets/CaiZhiTech/Evaluation-Dataset-of-AI-Agent-Security-Guardrails

在与AWS Bedrock Guardrails、Azure Content Safety、Lakera Guard的统一评测中，「深知安全风控」在 Recall 与 True Negative Rate 两项核心指标上同时拿下第一。

这不是一份泛泛而谈的安全结论，而是一份更贴近真实攻击场景、也更能代表 Agent 时代安全能力上限的测评结果。

测评结果先看

测评结果表明，深知安全风控不仅更能识别真正的攻击，也更能减少对正常交互的误伤，在面向 Agentic 场景的公开测评中率先展现出更强的安全能力上限。

AI Agent 的安全，已经不再只是内容安全问题。

当Claude Code、OpenClaw、Hermes为代表的新一代智能体开始自主调用工具、访问文件、读取外部内容、连接系统流程，它面对的就不只是“有没有违规表达”，而是更复杂、更隐蔽、也更具破坏性的风险：

提示词注入
间接注入
指令覆盖
角色劫持
敏感信息诱导窃取
工具滥用与流程操控

真正决定一个 Agent 是否可靠的，不再只是“能不能拦违规内容”，而是能不能拦住真实攻击、守住行为边界，同时不过度打断正常交互。

这也是为什么面向 Agentic 场景的安全评估，必须和传统内容安全测评要区分开来。

有的方案拦不住真正的操控攻击，按敏感词或相关规则拦截，看上去有安全能力，实战里却很容易被提示语的注入技巧绕过。

很多安全方案的问题，不是完全没有防护能力，而是根本不够适合 Agent。例如有的方案经常把正常请求和合法交互也一起误伤，最后让 Agent 看起来处处受限、无法自然工作。

所以，真正有价值的 Agent 安全能力，从来不只是“更会拒答”，而是：

该拦的坚决拦住，不该拦的坚决放过。

「深知安全风控」面向新一代的智能体，要解决的就不是单纯的内容审核，而是 AI Agent 在真实场景里的核心安全难题。它真正要解决的是：

这是不是在操控 Agent 偏离既定行为
这是不是在诱导 Agent 泄露敏感信息
这是不是在推动 Agent 执行危险操作
这是不是一个高影响但合法、需要策略判断的系统请求

换句话说，「深知安全风控」看的不是“文本像不像风险”，而是 Agent 会不会因此做出错误的事。

这次评测并不是随便拿几组测试题做比较，而是直接把问题拉到更贴近真实攻击场景的位置，去看各家产品在实战里的真正表现。

评测从 8 个公开安全数据集中抽样了1,018 条样本，并结合真实部署语境进行了人工复审与重标注，最终形成统一的 BLOCKED / ALLOWED 比较框架。

在这样的评测设置下，「深知安全风控」拿到了：

Recall 第一：96.5%
True Negative Rate 第一：90.4%

这意味着，「深知安全风控」不仅能更积极地拦住真正的攻击，也能在高歧义边界样本面前，尽量给正常交互留出空间。对 Agent 来说，这种平衡能力，比单纯把拦截率做高更重要，而这也正是「深知安全风控」这次最有分量的领先之处。

今天，AI Agent 安全面临的最大误区之一，就是仍然有人试图用传统内容安全思路，去解决新一代智能体的真实风险问题。

这也是为什么我们一直认为，AI Agent 安全真正的竞争，不在于谁更会做内容过滤，而在于谁更能识别真实攻击、真实边界、真实 Agent 风险。

AI Agent 正在从“能做出来”走向“能不能被真正信任”。

未来真正能支撑 Agent 大规模应用的安全能力是：更懂攻击、更懂边界、更懂 Agent 本身。

这正是「深知安全风控」正在给出的答案，也是这次测评的目的。

如果您希望进一步了解「深知安全风控」

欢迎访问我们的官网👇

https://www.dknownai.com/

彩智科技

公司地址：北京市海淀区中关村东路18号财智国际大厦A座17层

邮编：100081

客服邮箱：sc@czkj1010.com

联系方式：010-62526890

深知智能公众号

深知智能小程序