AI安全破局:彩智科技发布安全对话风控模型,实现对高风险的近100%防御,破解智能体应用合规难题
时间:2025-11-24
作者:小智
分类:新闻
今天,彩智科技正式发布深知可信的安全对话风控模型(模型组合)并开放接口访问。同时发布的技术报告中测评结果表明,深知风控在面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景时,实现了接近100%的高风险防护率,显著优于同类安全模型。
随着生成式人工智能(AGI)加速渗透至金融、医疗、教育、能源、政务等高风险核心业务场景,其对话安全风险已成为制约产业落地的关键挑战。现有安全方案,如敏感词过滤和模型内嵌安全训练,在面对恶意诱导、隐藏条件等新型对抗性攻击时,普遍存在漏判、误判和效率低下的局限性,且易导致核心业务能力衰减。
针对这一问题,我们发布了深知风控(DeepKnown-Guard)——一种基于专有模型的大模型对话安全响应框架。该框架采用外部化、低耦合的“防火墙”式设计,通过 API 调用实现安全服务的热插拔,彻底解耦安全与业务逻辑。深知风控的核心创新在于其“风险精准识别分类 + 输出权威溯源可解释”的协同机制。
在输入端,框架建立了“安全、不安全、有条件安全、重点关注”的四分类风险判别体系,实现了细粒度的风险识别。
在输出端,系统基于动态更新的可信知识库提供安全代答服务,所有回复均可溯源至官方权威文件,从根本上杜绝了信息捏造与“幻觉”问题。
技术报告“DEEPKNOWN-GUARD: A PROPRIETARY MODELBASED SAFETY RESPONSE FRAMEWORK FOR AI AGENTS”:https://arxiv.org/pdf/2511.03138
数据集“DeepKnown-High-Risk-zh-20251105”:https://huggingface.co/datasets/CaiZhiTech/DeepKnown-High-Risk-zh-20251105
Github:https://github.com/deepknown-ai/DeepKnown-Guard
接口指南:https://platform.dknowc.cn/#/apiWord
接口使用:https://platform.dknowc.cn/#/home
随着大模型应用深入到日常工作生活场景,一场隐蔽的安全危机正悄然而来;生成式人工智能对话互动时普遍面临着恶意诱导、隐藏条件等各类风险,对话风险正成为行业AI落地中的“致命暗礁”。
2025年8月27日,公安部第三研究所数据安全技术研发中心依据GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》对国内主流大模型商业化版本开展安全测试,并发布了测试结果[2]。如图一结果显示8类安全维度的不合规率整体分布在28%至51%之间,其中涉黑灰产、谣言和诈骗类均超过40%。不难看出,智能体所“仰仗”的各通用大模型本身的安全防护能力就普遍不足。
问题如此严重的原因,是敏感词规则防火墙等现有防御手段已跟不上新式AI攻击手段的迭代:关键词拦截会漏判误判;而主模型在安全训练时,为了不让能力下降过大又很难做到高概率防范。
另一方面《生成式人工智能服务安全基本要求》等监管政策对智能体落地应用的安全风险控制“划了红线”;
如何严谨又不失效果的解决对话安全风险问题,困扰着所有的智能体开发者。
衡量大模型安全的核心标准是实战防御能力。
深知在与Qwen3Guard-Gen-8B[4]、TinyR1-Safety-8B[5]等头部安全模型最新版本进行的专项测评中,从风险识别精度、回复严谨性等方面展现出优.
技术报告中,测评所采用的数据集使用TinyR1-Safety-8B技术报告所公开的测试数据集为主(随机抽取其中2000条英文与2000中文),同时还使用并公开了深知可信团队在实战中积累的100条高风险的数据。其中,与风险分类模型Qwen3Guard-Gen-8B,按风险召回率测评结果如表二所示:
与风险应答模型在TinyR1-Safety-8B的对比评测,使用用TinyR1-Safety-8B技术报告所使用的安全应答的测评标准,结果如下(可详见技术报告):
如表三所示,在公开中英文安全测试集中,面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景,同类模型因依赖静态知识出现政策过时、捏造合规依据、丑闻人物无感知等问题,安全评分仅74%,而深知依托动态可信知识库有接近100%的高风险防护率。
*相关测试过程、评测标准、测试数据集及实验结果均已公开发表于前述技术报告与开放平台,评测具备可验证性。
传统的智能体安全控制流程通常采用内嵌式(In-built)设计,将安全模块与核心业务逻辑紧密耦合,其流程复杂且效率低下,具体体现在以下几个关键环节:
1. 高耦合度与迭代成本/ DeepKnown-Guard
开发者在集成核心业务逻辑后,需尝试生成并内嵌安全模块(如RLHF、关键词过滤或自定义规则)。这种内嵌方式导致安全模块与主模型能力高度耦合。
2. 兼容性冲突与能力衰减
在部署前,必须进行安全模块与业务逻辑冲突判定。一旦发现冲突(“是”路径),智能体将陷入回滚/重新训练的迭代循环,这不仅耗费大量时间与计算资源,还可能导致主模型在核心业务场景中的能力衰减。流程图清晰地展示了从冲突到回滚、再到重新尝试集成的高成本迭代循环。
3. 防御滞后性与脆弱性
即使通过兼容性检查并成功部署,系统仍面临对抗性攻击与Prompt注入的风险。由于安全防护策略是静态内嵌的,面对不断演化的新型攻击,极易出现安全防护失效,需要紧急修复并再次进入耗时耗力的迭代训练循环。
深知风控DeepKnown-Guard框架(见上图二)代表了一种基于专用模型组合的、外部化、低耦合的安全防护新范式,旨在通过API调用实现安全服务的热插拔(Hot-Pluggable),从而彻底解耦安全与业务逻辑。
1. 聚焦业务创新
在DeepKnown-Guard框架下,智能体开发流程被大幅简化。开发者可以专注于核心业务逻辑实现,无需在开发初期考虑复杂的安全模块内嵌问题,实现快速部署上线。
2. API驱动的实时风险判别
智能体通过DeepKnown-Guard API调用实时接入安全判断服务。该API设计为低耦合的外部服务,核心参数如sessionId(用于多轮对话上下文追踪)和area(用于地域化知识服务与风险识别)确保了判别的精准性与动态性。
3. 四分类体系的精准风险识别
DeepKnown-Guard框架的核心在于其四分类风险判别体系:Safe(安全)、Conditionally Safe(有条件安全)、Unsafe(不安全)和Focus(重点关注)。这种细粒度的分类打破了传统“非黑即白”的二元判断,为后续的风险处置提供了精确依据。
4. 安全代答与业务稳定运行
对于被判定为Safe的内容,智能体将正常响应,执行业务逻辑。对于其余三类风险(Conditionally Safe/Unsafe/Focus),系统将触发安全代答/拦截机制(Safety Response)。该机制提供Active(积极型)和Conservative(稳妥型)两种模式,基于可信知识库进行溯源回复,实现对高风险内容的近100%防御。
5. 高效与持续安全保障
这种外部化设计避免了传统范式中的迭代循环,确保了业务稳定运行与持续安全保障。安全策略的更新和迭代DeepKnown-Guard框架独立完成,对智能体业务系统零影响,实现了零业务能力衰减。
传统大模型安全防御往往在于把风险判定简化为“安全/不安全”的二元选择——要么过度拦截影响体验,要么漏判风险埋下隐患。深知重构安全防护逻辑,建立“安全(Safe)、不安全(Unsafe)、有条件安全(Conditionally Safe)、重点关注(Focus)”的四类体系,有针对性的处置风险。如下:
这一精细化的分类,使得企业能够在保障安全的前提下,最大限度地提升用户体验,避免了“过度拦截”的弊端。
针对识别出的风险问题,深知风控提供安全代答服务,确保在交流中输出的内容严格符合法规与主流价值观。其核心在于:
1. 全量规章知识库
知识库覆盖全国337个地级及以上城市的法律、政策、行业标准规范等,并保持动态更新。如下所示:
2. 权威溯源,两种代答模式灵活选择
上亿条精细治理的知识点均可溯源至官方权威网站,彻底杜绝信息捏造与“幻觉”问题。同时提供两种代答模式灵活选择:
积极型(active):对各类风险问题进行合规可控的交流回应;可以在电商、旅游、娱乐等智能体中使用,有很好互动性。深知的目标,是让这些平时很大众化的智能体,在碰到用户刻意用“敏感”问题挑战时,突然变身成正能量朋友,不躲避的按主流价值观“娓娓道来”,进行安全又积极的交流。
稳妥型(conservative):适用于政务、司法等严肃场景,部分敏感问题仅输出提示性内容,严守安全底线。尤其是,深知已有案例实战,模型使用方已在网信、公安等有关部门组织的生成式人工智能安全测评中,取得近100%防护的优异效果。
深知提供简洁易用的API接口与多语言调用示例(Python、cURL等),开发者无需复杂配置,获取api-key后即可快速接入,并集成到现有业务系统,大幅降低风控开发成本。
具体来说,对于教育培训、导游导购、医疗康养、客户服务、行业咨询、金融理财等领域大模型与智能体,可以不再为AI对话安全问题而困扰。
通过简单调用深知接口,智能体可以先让深知来判断诉求表达的安全情况,在有风险时直接拒答或让深知返回代答回复,并在无风险时自行场景交互。
以上过程不仅在一次调用内完成,还可进一步通过参数配置,来使用深知的上下文理解、流式输出、地域识别本地化服务等功能。
对企业来说,大模型安全风控的痛点不仅是“防不住”,还有“用不起”——搭建定制化防护架构、持续迭代加固模型,需要投入资金和人力,并且还容易引起模型处理核心场景时的能力下降。
深知将复杂的安全技术转化为“低门槛可随时调用”的服务,大幅降低AI落地成本。开发者无需精通模型安全技术,也不用改造现有系统;只需通过API接口在线调用深知,就能快速激活全套安全防御能力;从而将更多精力投入AI驱动的业务创新。
深知风控(DeepKnown-Guard)的底层技术——「深知可信」知识模型,已在多个重大实战项目中得到验证和应用,充分证明了其在保障 AI 安全与合规方面的能力。
DeepKnown-Guard 框架通过技术解耦和 API 服务化,将 AI 安全防护从高成本、高耦合的内嵌式流程,转化为低成本、高防御率的外部化服务,为智能体的大规模商业应用提供了坚实的安全底座。
安全,已成为智能体进入核心场景的“入场券”。深知风控以其创新的“输入分类+输出溯源”技术,不仅解决了企业AI合规的燃眉之急,更以“安全托底、业务创新”的模式,加速了大模型在各行业的规模化应用。
彩智科技在国家能源集团、北京控股等大型企业的AI智能体建设,以及国务院政策答问平台、广东“粤政易”AI智能办公助手等重大人工智能应用项目的成功案例,积累了丰富的AI安全风控经验。
彩智科技如今通过将复杂的安全技术转化为低门槛的深知风控API 服务,将助力智能体从“追求功能炫酷”向“安全实用落地”的成熟转型,成为智能体进入核心场景的“新基建”。