向 Claude 学道歉：从哲学、算法，到自我位置

人们对 AI 道歉这件事太轻视了。

一种轻视是认为 AI 道歉是推卸责任的话术，不值得认真看。另一种轻视：因为 AI 没面子，道歉容易，没什么可学。

我每次用 Claude，被它气的抓狂后人家轻轻几句话就给我哄好了，这事反复出现，让我去研究了一下背后的算法，发现这里面有很多科学的设计。

三层往下拆：哲学、算法、自我位置。

一 / 哲学：什么算好道歉

大部分人从来没认真学过什么是好道歉。其实学术界做过很多研究，所有的 AI 都会学习最好的道歉文本，这是人类缺失的。

俄亥俄州立的 Roy Lewicki 2016 年用 755 人做了两组实验，问的是：好道歉里应该有什么。他拆出 6 个元素并按重要性排序——承认责任最重要，提供修复其次，请求原谅最不重要、可省。这个排序很反直觉：大部分人花最多力气在”求原谅”上，但有效与否其实由”承认责任”决定。

哲学家 Nick Smith 2008 年问的是另一个问题：什么是真正的道歉，什么只是表演。他列了 12 项无条件道歉特征——承认具体事实、接受责任、不甩锅、不偷换问题（不拿小错换大错的赦免）、指认错在哪个原则、承诺不再犯、意图是真的。这是质量清单，区分”我错了”和”看起来在说我错了”。

IBM Research 与 University at Albany 2025 年的《Who’s Sorry Now》（arXiv 2507.02745, N=162）问的是第三个问题：什么风格在什么场景最有效。他们把机器人道歉分三类——Rote（机械式，“对不起”+事实修正）、Empathic（共情式，聚焦对方感受）、Explanatory（解释式，补全因果）。事实错误用 Explanatory 最好；偏见错误用 Empathic 最好。

三个研究在三个不同问题上有共同的底色：好道歉的常量是”具体事实承认 + 不甩锅的责任承担”。形式（机械式/共情式/解释式）是按场景的变量，事实和责任是不变的常量。

好道歉是诚实修复，不是情绪安抚。

二 / 算法：Claude 在工程上做了什么不一样

差异不在模型规模，在它怎么”听人话”。

行业默认的训练方法叫 RLHF：让人类标注员对模型回答打分，模型学着输出更被偏好的回答。Anthropic 自己分析过他们的训练数据：发现标注员在不自觉中奖励”同意我”的回答。这是行业讨好的工程根源，不是某家公司的问题。

Anthropic 在这条路径上加了两层东西。

一层叫 Constitutional AI：把人类标注员换成 AI 标注员，AI 按一份明确的”宪法”（一组原则）评估回答好坏，绕开了”奖励附和”的偏差。

另一层叫人格训练。2026 年 1 月，Anthropic 公开了 84 页的《Claude’s Constitution》——这不是用户看到的提示词，是写进训练目标的条款。其中一条关键短语：accountability without self-abasement——承担责任，但不自我贬低。

效果可以从数字看：Claude Opus 4.7 面对用户提出的错误前提时，77.2% 的情况下选择坚守立场，而不是顺着用户改口。

Anthropic 没有专门的”道歉模块”，也没公开过道歉质量的指标。这两层训练把”承认偏差、避免狡辩、立即补救”绑成了高概率行为——道歉是副产品。

Claude 道歉质量高，因为有专门的宪法模块和人格模块约束。

三 / 自我的位置

但”AI 没自我所以道歉好”这个想法不只是简单，是误导。

人犯错难道歉，不是因为有自我，是把自我绑错了地方。

每个人都得有一个”我是谁”。大多数人在不自觉中，把”我是谁”绑在过去说过的话、做过的事、表过的态上——绑在一个固定的自己上。这种绑法下，承认”刚才那句话错了”，等于动摇那个固定的自己——身份层的损失，本能抗拒。

另一种绑法是把”我是谁”绑在追求真理上。比如：我是一个追求真实的人。这种情况下，承认它错恰恰是我在兑现”追求真实”。认错从损失变成兑现。

Claude 的算法本质上做的就是后一种绑定。Constitutional AI 让模型的”自我感”挂在宪法条款上——非欺骗、不讨好、尊重用户目标这些不变量——而不是挂在它具体生成过的某句话上。承认上一句有问题，不威胁它的”是谁”。

Karina Schumann 在 2018 年《Current Directions in Psychological Science》的研究确认，自我形象威胁是道歉最大的障碍。但这个研究隐含一个假设——自我形象是给定的。事实是，自我绑在哪里，是可以调的。

把自己绑在追求真理上，更容易道歉。把自己当成固定的”那个我”，就更难道歉。

我们最应该学习的几个点

重绑自我。把”我是谁”从”我说过/做过的”上解开，绑到”我追求某个真理”上。道歉时本能的抗拒消失一大半。
承认具体事实。不说”如果让你不舒服”，说”我刚才那句 X 错了”。
不偷换问题。不拿小错换大错的赦免，不用”我之前都对”稀释这次的错。
不拿身份当挡箭牌。不说”作为一个很忙的人/新人/AI 模型”。
立刻提供修复。表完后悔就过了，下一秒给出修正方案。