2026.01.29
3911当我们讨论 AI 风险时,常常聚焦在一个表象问题:AI 会不会“胡说八道”?
![]() |
但一个更深层、也更危险的问题是:AI 并不知道,什么时候它应该闭嘴。
这并不是语言能力的问题,而是一个被低估的——风险管理问题。
今天的大模型非常擅长使用不确定性措辞:“我不确定” “这个结论可能不准确” “建议进一步验证”
问题在于,这些表达往往是被要求之后的表演,而不是模型自身对“证据是否充分”的真实判断。
你可以让 AI:
但这些并不意味着:
模型真的在持续追踪:「我是否有足够的理由支持这个结论?」
在工程层面,大模型确实存在 token 级概率,但这并不等同于对结论整体可靠性的判断或对推理链强弱的评估。
一个由“高概率词”组成的段落,依然可能是整体错误的。
AI 幻觉并不只是“编造事实”。
更准确的说法是:在缺乏充分依据的情况下,给出了确定性判断。
模型会像“相信某件事是真的”一样输出结论,却缺乏稳定能力去区分:
人类也会犯这种错误。
![]() |
但 AI 的问题在于:规模化、自动化、无疲劳地放大这种偏差。
这正是为什么,这个问题必须被放在安全与治理的语境中讨论。
一个被忽视的事实是: 人类社会已经用 25 年,在维基百科上构建了一套“显性认知标注系统”。
![]() |
| 维基百科内联清理标签(又称认识论标签) |
例如:
这些标记并不是否定内容本身,而是在回答一个更重要的问题:“我们凭什么这样说?”
![]() |
在维基百科的讨论页中,人们会公开争论:证据是否充分、推理是否跳步、结论是否被过度外推。
这些过程并不完美,但有一个关键价值:理由是可见的。
而这,正是当前 AI 系统中最稀缺的能力。
事实是否成立,通常是可验证的。
但推理链并非如此:
因为 A
→ 推出 B
→ 再推出 C
→ 所以应该做 X
每一步都可能“看起来合理”,但整条链依然可能是错的。
真正困难的是:不确定性到底藏在哪一步?
![]() |
即使 AI 能写出完整推理过程,也很难稳定地评估:哪一步证据最弱、哪一步只是外推、哪一步风险最大。
而这,恰恰是安全决策中最关键的能力。
风险管理并不需要更多“听起来谦虚”的表达。
它真正需要的是:
理想状态下,AI 应该能说出类似这样的话:
这不是对话礼仪,而是情报分析与安全决策的基本要求。
当前行业正在通过多种方式缓解这一问题:
这些手段非常必要,但它们无法替代一个事实:如果模型本身不具备基本的认知自律能力, 所有外部校验都只是补偿,而不是根治。
否则,风险只会被推到更高一层系统中。
AI 是否有可能学会真正追踪“我为什么相信这件事”?
还是说,推理链的不确定性,本身就比事实更难被机器掌握?
这是一个尚无答案的问题。
但可以确定的是:随着 AI 开始执行多步行动、自动协作、参与安全与治理决策——识别 AI 的“不知道”,将和利用它的“知道”一样重要。
如何让 AI 在关键场景中具备更可靠的判断边界?
如何在安全、治理与自动化之间取得平衡?
如何让“可解释性”真正服务于风险管理,而不是形式化输出?
这些问题,已经不再是单纯的技术问题,而是整个安全行业必须共同面对的挑战。
值得一提的是,本文的英文原版的撰写正是采用了一种“捕捉推理过程”的方法——通过与多个 AI 针对论点进行反复辩论与迭代,而不仅仅是生成结论。我们认为,这种“过程”数据正是AI训练中最紧缺的养料。
在即将举办的第九届 CSA 大中华区大会·前沿人工智能安全峰会上,我们也将围绕 AI 安全、治理、自动化风险与未来安全形态 等议题,与来自产业、技术与研究领域的专家展开深入讨论。
如果你也在思考这些问题,欢迎来到现场,和更多同行一起交流、碰撞与验证。
![]() |
|
|
原文链接:
https://cloudsecurityalliance.org/blog/2026/01/21/what-if-ai-knew-when-to-say-i-don-t-know
本文翻译来自CSA翻译组:
审校:崔崟,CSA大中华区专家