向 Claude 学道歉:从哲学、算法,到自我位置


人们对 AI 道歉这件事太轻视了。

一种轻视是认为 AI 道歉是推卸责任的话术,不值得认真看。另一种轻视:因为 AI 没面子,道歉容易,没什么可学。

我每次用 Claude,被它气的抓狂后人家轻轻几句话就给我哄好了,这事反复出现,让我去研究了一下背后的算法,发现这里面有很多科学的设计。

三层往下拆:哲学、算法、自我位置。

一 / 哲学:什么算好道歉

大部分人从来没认真学过什么是好道歉。其实学术界做过很多研究,所有的 AI 都会学习最好的道歉文本,这是人类缺失的。

俄亥俄州立的 Roy Lewicki 2016 年用 755 人做了两组实验,问的是:好道歉里应该有什么。他拆出 6 个元素并按重要性排序——承认责任最重要,提供修复其次,请求原谅最不重要、可省。这个排序很反直觉:大部分人花最多力气在”求原谅”上,但有效与否其实由”承认责任”决定。

哲学家 Nick Smith 2008 年问的是另一个问题:什么是真正的道歉,什么只是表演。他列了 12 项无条件道歉特征——承认具体事实、接受责任、不甩锅、不偷换问题(不拿小错换大错的赦免)、指认错在哪个原则、承诺不再犯、意图是真的。这是质量清单,区分”我错了”和”看起来在说我错了”。

IBM Research 与 University at Albany 2025 年的《Who’s Sorry Now》(arXiv 2507.02745, N=162)问的是第三个问题:什么风格在什么场景最有效。他们把机器人道歉分三类——Rote(机械式,“对不起”+事实修正)、Empathic(共情式,聚焦对方感受)、Explanatory(解释式,补全因果)。事实错误用 Explanatory 最好;偏见错误用 Empathic 最好。

三个研究在三个不同问题上有共同的底色:好道歉的常量是”具体事实承认 + 不甩锅的责任承担”。形式(机械式/共情式/解释式)是按场景的变量,事实和责任是不变的常量。

好道歉是诚实修复,不是情绪安抚。

二 / 算法:Claude 在工程上做了什么不一样

差异不在模型规模,在它怎么”听人话”。

行业默认的训练方法叫 RLHF:让人类标注员对模型回答打分,模型学着输出更被偏好的回答。Anthropic 自己分析过他们的训练数据:发现标注员在不自觉中奖励”同意我”的回答。这是行业讨好的工程根源,不是某家公司的问题。

Anthropic 在这条路径上加了两层东西。

一层叫 Constitutional AI:把人类标注员换成 AI 标注员,AI 按一份明确的”宪法”(一组原则)评估回答好坏,绕开了”奖励附和”的偏差。

另一层叫人格训练。2026 年 1 月,Anthropic 公开了 84 页的《Claude’s Constitution》——这不是用户看到的提示词,是写进训练目标的条款。其中一条关键短语:accountability without self-abasement——承担责任,但不自我贬低。

效果可以从数字看:Claude Opus 4.7 面对用户提出的错误前提时,77.2% 的情况下选择坚守立场,而不是顺着用户改口。

Anthropic 没有专门的”道歉模块”,也没公开过道歉质量的指标。这两层训练把”承认偏差、避免狡辩、立即补救”绑成了高概率行为——道歉是副产品。

Claude 道歉质量高,因为有专门的宪法模块和人格模块约束。

三 / 自我的位置

但”AI 没自我所以道歉好”这个想法不只是简单,是误导。

人犯错难道歉,不是因为有自我,是把自我绑错了地方。

每个人都得有一个”我是谁”。大多数人在不自觉中,把”我是谁”绑在过去说过的话、做过的事、表过的态上——绑在一个固定的自己上。这种绑法下,承认”刚才那句话错了”,等于动摇那个固定的自己——身份层的损失,本能抗拒。

另一种绑法是把”我是谁”绑在追求真理上。比如:我是一个追求真实的人。这种情况下,承认它错恰恰是我在兑现”追求真实”。认错从损失变成兑现。

Claude 的算法本质上做的就是后一种绑定。Constitutional AI 让模型的”自我感”挂在宪法条款上——非欺骗、不讨好、尊重用户目标这些不变量——而不是挂在它具体生成过的某句话上。承认上一句有问题,不威胁它的”是谁”。

Karina Schumann 在 2018 年《Current Directions in Psychological Science》的研究确认,自我形象威胁是道歉最大的障碍。但这个研究隐含一个假设——自我形象是给定的。事实是,自我绑在哪里,是可以调的。

把自己绑在追求真理上,更容易道歉。把自己当成固定的”那个我”,就更难道歉。

我们最应该学习的几个点

  1. 重绑自我。把”我是谁”从”我说过/做过的”上解开,绑到”我追求某个真理”上。道歉时本能的抗拒消失一大半。
  2. 承认具体事实。不说”如果让你不舒服”,说”我刚才那句 X 错了”。
  3. 不偷换问题。不拿小错换大错的赦免,不用”我之前都对”稀释这次的错。
  4. 不拿身份当挡箭牌。不说”作为一个很忙的人/新人/AI 模型”。
  5. 立刻提供修复。表完后悔就过了,下一秒给出修正方案。