新闻详细
如果 AI 也知道什么时候该说「我不知道」,世界会更安全吗?
  • 2026.01.29
  • 3910

当我们讨论 AI 风险时,常常聚焦在一个表象问题:AI 会不会“胡说八道”?
 

 

但一个更深层、也更危险的问题是:AI 并不知道,什么时候它应该闭嘴。

这并不是语言能力的问题,而是一个被低估的——风险管理问题


 

AI 并不缺少“不确定性语言”,缺的是“认知自律”

 

今天的大模型非常擅长使用不确定性措辞:“我不确定”  “这个结论可能不准确”  “建议进一步验证”

问题在于,这些表达往往是被要求之后的表演,而不是模型自身对“证据是否充分”的真实判断。

 

你可以让 AI:

  • 给出推理过程
  • 解释结论来源
  • 附上置信度

 

但这些并不意味着:

模型真的在持续追踪:「我是否有足够的理由支持这个结论?」

 

在工程层面,大模型确实存在 token 级概率,但这并不等同于对结论整体可靠性的判断或对推理链强弱的评估。

一个由“高概率词”组成的段落,依然可能是整体错误的。


 

这不是小瑕疵,而是结构性安全风险

 

AI 幻觉并不只是“编造事实”。

更准确的说法是:在缺乏充分依据的情况下,给出了确定性判断。

 

模型会像“相信某件事是真的”一样输出结论,却缺乏稳定能力去区分:

  • 我有强证据支持
  • 我只是在模式中填补空白

 

人类也会犯这种错误。
 

 

但 AI 的问题在于:规模化、自动化、无疲劳地放大这种偏差

这正是为什么,这个问题必须被放在安全与治理的语境中讨论。


 

人类其实早已给出过答案:显性标注“认知状态”

 

一个被忽视的事实是: 人类社会已经用 25 年,在维基百科上构建了一套“显性认知标注系统”。

 

维基百科内联清理标签(又称认识论标签)
 

例如:

  • 【需要引用】
  • 【来源存疑】
  • 【存在争议】
  • 【推理不成立】

 

这些标记并不是否定内容本身,而是在回答一个更重要的问题:“我们凭什么这样说?”

 

 

在维基百科的讨论页中,人们会公开争论:证据是否充分、推理是否跳步、结论是否被过度外推。

这些过程并不完美,但有一个关键价值:理由是可见的

而这,正是当前 AI 系统中最稀缺的能力。


 

为什么“推理链的不确定性”最难被管理?

 

事实是否成立,通常是可验证的。

 

但推理链并非如此:

因为 A
 → 推出 B
 → 再推出 C
 → 所以应该做 X

 

每一步都可能“看起来合理”,但整条链依然可能是错的。

真正困难的是:不确定性到底藏在哪一步?

 

 

即使 AI 能写出完整推理过程,也很难稳定地评估:哪一步证据最弱、哪一步只是外推、哪一步风险最大。

而这,恰恰是安全决策中最关键的能力。


 

风险管理真正需要的,不是“更客气的 AI”

 

风险管理并不需要更多“听起来谦虚”的表达。

 

它真正需要的是:

  • 当证据不足时,不输出结论
  • 当关键假设无法验证时,明确停下

 

理想状态下,AI 应该能说出类似这样的话:

  • “我无法用足够可靠的来源支撑这一判断”
  • “这个结论依赖一个我无法验证的前提”
  • “这里存在多种解释路径,目前无法区分”

 

这不是对话礼仪,而是情报分析与安全决策的基本要求


 

“事后加一层校验”有用,但不够

 

当前行业正在通过多种方式缓解这一问题:

  • 检索增强
  • 校验模型
  • 策略与合规层
  • 多模型交叉验证

 

这些手段非常必要,但它们无法替代一个事实:如果模型本身不具备基本的认知自律能力, 所有外部校验都只是补偿,而不是根治。

否则,风险只会被推到更高一层系统中。


 

一个必须被正视的开放问题

 

AI 是否有可能学会真正追踪“我为什么相信这件事”?

还是说,推理链的不确定性,本身就比事实更难被机器掌握?

这是一个尚无答案的问题。
 

但可以确定的是:随着 AI 开始执行多步行动、自动协作、参与安全与治理决策——识别 AI 的“不知道”,将和利用它的“知道”一样重要。


 

写在最后:这正是我们需要共同讨论的议题

 

如何让 AI 在关键场景中具备更可靠的判断边界?

如何在安全、治理与自动化之间取得平衡?

如何让“可解释性”真正服务于风险管理,而不是形式化输出?

 

这些问题,已经不再是单纯的技术问题,而是整个安全行业必须共同面对的挑战

 

值得一提的是,本文的英文原版的撰写正是采用了一种“捕捉推理过程”的方法——通过与多个 AI 针对论点进行反复辩论与迭代,而不仅仅是生成结论。我们认为,这种“过程”数据正是AI训练中最紧缺的养料。

 

在即将举办的第九届 CSA 大中华区大会·前沿人工智能安全峰会上,我们也将围绕 AI 安全、治理、自动化风险与未来安全形态 等议题,与来自产业、技术与研究领域的专家展开深入讨论。

 

如果你也在思考这些问题,欢迎来到现场,和更多同行一起交流、碰撞与验证。

 

扫码报名CSA GCR大会


原文链接:

https://cloudsecurityalliance.org/blog/2026/01/21/what-if-ai-knew-when-to-say-i-don-t-know

 

本文翻译来自CSA翻译组:

审校:崔崟,CSA大中华区专家

本网站使用Cookies以使您获得最佳的体验。为了继续浏览本网站,您需同意我们对Cookies的使用。想要了解更多有关于Cookies的信息,或不希望当您使用网站时出现cookies,请阅读我们的Cookies声明隐私声明
全 部 接 受
拒 绝