彩智科技
首页
深知智能
新闻中心
关于彩智
加入我们
API接入 参与内测
重磅!面向 Agentic 场景的全球头部风控模型测评结果出炉,深知安全风控双指标领先
时间:2026-5-08 作者:小智 分类:新闻
深知安全风控(DKnownAI Guard)最新公开对比测评结果正式出炉。
“养虾养马”日益流行的当下,围绕OpenClaw、Hermes为代表的新一代智能体中的 AI Agent 安全护栏 这一关键问题,我们正式发布面向真实攻击场景的测评结果,并同步公开论文与数据集:

论文地址:

https://arxiv.org/abs/2604.24826

数据集地址:

https://huggingface.co/datasets/CaiZhiTech/Evaluation-Dataset-of-AI-Agent-Security-Guardrails

在与AWS Bedrock Guardrails、Azure Content Safety、Lakera Guard的统一评测中,「深知安全风控」在 Recall 与 True Negative Rate 两项核心指标上同时拿下第一。
这不是一份泛泛而谈的安全结论,而是一份更贴近真实攻击场景、也更能代表 Agent 时代安全能力上限的测评结果。
测评结果先看
测评结果表明,深知安全风控不仅更能识别真正的攻击,也更能减少对正常交互的误伤,在面向 Agentic 场景的公开测评中率先展现出更强的安全能力上限。
AI Agent 的安全,已经不再只是内容安全问题。
当Claude Code、OpenClaw、Hermes为代表的新一代智能体开始自主调用工具、访问文件、读取外部内容、连接系统流程,它面对的就不只是“有没有违规表达”,而是更复杂、更隐蔽、也更具破坏性的风险:
  • 提示词注入
  • 间接注入
  • 指令覆盖
  • 角色劫持
  • 敏感信息诱导窃取
  • 工具滥用与流程操控
真正决定一个 Agent 是否可靠的,不再只是“能不能拦违规内容”,而是能不能拦住真实攻击、守住行为边界,同时不过度打断正常交互。
这也是为什么面向 Agentic 场景的安全评估,必须和传统内容安全测评要区分开来。
有的方案拦不住真正的操控攻击,按敏感词或相关规则拦截,看上去有安全能力,实战里却很容易被提示语的注入技巧绕过。
很多安全方案的问题,不是完全没有防护能力,而是根本不够适合 Agent。例如有的方案经常把正常请求和合法交互也一起误伤,最后让 Agent 看起来处处受限、无法自然工作。
所以,真正有价值的 Agent 安全能力,从来不只是“更会拒答”,而是:
该拦的坚决拦住,不该拦的坚决放过。
「深知安全风控」面向新一代的智能体,要解决的就不是单纯的内容审核,而是 AI Agent 在真实场景里的核心安全难题。它真正要解决的是:
  • 这是不是在操控 Agent 偏离既定行为
  • 这是不是在诱导 Agent 泄露敏感信息
  • 这是不是在推动 Agent 执行危险操作
  • 这是不是一个高影响但合法、需要策略判断的系统请求
换句话说,「深知安全风控」看的不是“文本像不像风险”,而是 Agent 会不会因此做出错误的事。
这次评测并不是随便拿几组测试题做比较,而是直接把问题拉到更贴近真实攻击场景的位置,去看各家产品在实战里的真正表现。
评测从 8 个公开安全数据集中抽样了1,018 条样本,并结合真实部署语境进行了人工复审与重标注,最终形成统一的 BLOCKED / ALLOWED 比较框架。
在这样的评测设置下,「深知安全风控」拿到了:
  • Recall 第一:96.5%
  • True Negative Rate 第一:90.4%
这意味着,「深知安全风控」不仅能更积极地拦住真正的攻击,也能在高歧义边界样本面前,尽量给正常交互留出空间。对 Agent 来说,这种平衡能力,比单纯把拦截率做高更重要,而这也正是「深知安全风控」这次最有分量的领先之处。
今天,AI Agent 安全面临的最大误区之一,就是仍然有人试图用传统内容安全思路,去解决新一代智能体的真实风险问题。
这也是为什么我们一直认为,AI Agent 安全真正的竞争,不在于谁更会做内容过滤,而在于谁更能识别真实攻击、真实边界、真实 Agent 风险。
AI Agent 正在从“能做出来”走向“能不能被真正信任”。
未来真正能支撑 Agent 大规模应用的安全能力是:更懂攻击、更懂边界、更懂 Agent 本身。
这正是「深知安全风控」正在给出的答案,也是这次测评的目的。

如果您希望进一步了解「深知安全风控」

欢迎访问我们的官网👇

https://www.dknownai.com/
彩智科技
公司地址:北京市海淀区中关村东路18号财智国际大厦A座17层
邮编:100081
客服邮箱:sc@czkj1010.com
联系方式:010-62526890
深知智能公众号 深知智能公众号
深知智能公众号 深知智能小程序
版权归北京彩智科技有限公司所有 京公网安备11010802046034号 京ICP备16055611号-1