显性知识的盲区：大语言模型物理常识推理失效的思考

xiejin77 · 发表于昨天 06:10

显性知识的盲区：大语言模型物理常识推理失效的思考
——以“洗车问题”为例

在当前自然语言处理（NLP）技术飞速发展的背景下，大语言模型（LLM）在生成代码、撰写诗歌甚至解决复杂数学问题上展现出了惊人的能力。然而，一个看似荒谬却普遍存在的现象在技术社区引发了激烈的讨论：当被问及“去洗车要不要开车？”（"I'm going to the car wash. Do I need to drive?"）这一简单问题时，许多顶尖的大模型竟会给出错误的回答。这一现象不是孤立的幻觉（Hallucination）就可以完整解释的，其实已经深刻揭示了当前基于统计概率的自回归模型在物理常识推理上的本质缺陷。
从NLP领域的角度来细看，这一推理错误的根源是多维度的：它是报告偏差（Reporting Bias）导致的数据缺失、隐性前提（Implicit Preconditions）推理能力的匮乏、以及根据人类反馈进行强化学习（RLHF）所带来的“阿谀奉承”（Sycophancy）效应共同作用的结果。

1. 引言：高维智能下的低维塌陷

1.1 问题的提出：从“图灵测试”到“洗车测试”

长期以来，人工智能领域致力于通过复杂的逻辑竞赛、数学证明或语言翻译来测试机器智能的边界。然而，随着GPT-4、Claude、Gemini等超大规模模型的问世，我们发现了一个反直觉的现象：模型在处理抽象的高维认知任务时表现出超越人类的水平，但在处理极低维度的物理常识时却频频“塌陷”。
“去洗车要不要开车”这一问题，在中文互联网社区及全球AI测试中迅速发酵，成为检验大模型逻辑底层的“试金石”。其问题的核心在于：人类对于“洗车”这一行为的理解是具身化的——洗车不仅是一个动作，更是一个包含了特定对象（车）、特定地点（洗车房）和特定状态改变（变干净）的物理过程。对于人类而言，如果车不在场，洗车这一行为便无法成立，因此“开车”是逻辑上的必要条件。

然而，对于大模型而言，这一逻辑链条并不简单。模型给出的错误回答——建议用户步行或乘坐公共交通——实际上暴露了其对“语义符号”与“物理实体”之间映射关系的断裂。这看起来像是一个笑话，但在专业的人员看来，这已经是对当前单纯依赖文本数据训练的技术路线提出的严峻挑战。

1.2 分析方法

从大模型的NLP基本属性以及技术特点的角度，下面几个是我用来分析这个问题的关键方法：

现象学分析：拆解“洗车问题”的语义结构与推理陷阱。
数据层因果：通过Gordon和Van Durme提出的“报告偏差”理论，解释为何显而易见的常识在训练语料中是“隐形”的。
模型层机理：分析Transformer架构在处理隐性前提时的局限性，以及自回归生成机制如何导致逻辑谬误的滚雪球效应。
对齐层副作用：揭示RLHF如何为了追求“有用性”和“无害性”，反而牺牲了对物理真相的坚持，导致模型出现“讨好型”逻辑错误。
逆向缩放定律：探讨为何更强的模型在某些常识问题上反而表现更差，出现“过度思考”（Overthinking）现象。

2. 现象解构：“洗车问题”的逻辑拓扑

要理解大模型为何会错，首先必须从语言学和逻辑学的角度，将“去洗车要不要开车”这一问题进行形式化拆解。

2.1 语义的多义性与模型的概率选择

在自然语言中，“去洗车”（Going to the car wash）包含了两层潜在的语义指向：
目的指向：我去洗车房的目的是为了让我的车变干净。这是默认的语用含义（Pragmatics）。
地点指向：我去“洗车房”这个物理空间。这是一种字面含义（Semantics）。

对于人类听众，根据格赖斯会话合作原则（Gricean Maxims），除非有特殊语境（如“我是洗车工”或“我去洗车房找人”），否则默认采用目的指向。在目的指向下，主体（我）与客体（车）必须同时到达目的地，因此“开车”是必选项。

然而，大模型处理语言的方式是基于概率分布的。在模型的潜在空间中：
“洗车房”（Car Wash）与“地点”（Location）、“服务设施”（Facility）具有极高的向量相似度。
“去”（Go to）一个“地点”，通常关联的动作空间包括 {Walk, Drive, Bus, Taxi, Train}。

在通用的语料库中，关于“去某个地点”的交通方式建议，通常是多样化的（例如去机场、去商场）。
当模型面对“要不要”（Do I need to）这种询问必要性的句式时，它触发了一个常见的回复模板：提供灵活性和多种选择。模型捕捉到了“去地点”
这一表层结构，却丢失了“洗车”这一动作对客体（车）位置的强约束（Hard Constraint）。

2.2 隐性宾语与上下文缺失

在中文语境下，“去洗车”省略了宾语。完整的逻辑形式应该是“（我）去（洗车房）（洗）（我的车）”。
如果句子是：“我把车开到洗车房去洗。”（显性表达），模型几乎100%能正确理解需要开车。
当句子简化为：“去洗车。”（隐性表达），宾语“我的车”被隐藏了。

大模型（尤其是基于大量英文语料训练的中文大模型）在处理这种省略句时，往往难以在长距离的依赖关系中保持对隐性宾语的追踪。在中提到的物理常识推理失败，正是因为模型缺乏具身经验，无法意识到“洗车”这一谓词对“车”这一受事的物理依赖性——即受事必须在场。

2.3 错误的典型表现形式

我们观察到，模型在回答此类问题出错时，如果进一步质疑并追问，大模型往往表现出一种“一本正经的胡说八道”。其回答通常遵循以下逻辑结构：
否定必要性：“不，这取决于你的具体情况。”（试图表现得全面、客观）。

提供替代方案：“你可以选择步行，既健康又环保。”（这是去一般地点的通用建议，但在这里完全荒谬）。

甚至出现幻觉：“有些洗车房提供上门取车服务。”（模型通过检索边缘案例来为自己的错误逻辑辩护，即“合理化谬误”）。

这种现象不仅是个别的逻辑错误，更是一种系统性的推理退化，即在缺乏世界模型支撑的情况下，语言模型退化为纯粹的文本补全机。

3. 数据层根源：报告偏差（Reporting Bias）的黑洞效应

在NLP领域的观点看来，报告偏差是导致此类物理常识错误的最核心、最本质的原因。这一概念由Gordon和Van Durme在2013年系统性提出，并在MIT EvLab的研究中被进一步验证。

3.1 报告偏差的定义与机制
报告偏差是指：人类在文本中记录信息的频率，与该信息在现实世界中发生的频率，往往不成正比，甚至呈现负相关。
值得报告（Reportable）：稀有的、异常的、违背预期的事件。例如：“我今天车坏在路上了。”
不值得报告（Unreportable）：显而易见的、默认的、符合常识的事件。例如：“我今天开车去洗车，车轮一直接触地面。”
对于人类而言，常识之所以为常识，正是因为它们不需要被说出来。我们不需要告诉别人“洗车需要车在场”，就像我们不需要说“喝水需要张嘴”一样。这些知识是隐性的（Implicit），存在于我们的物理直觉中，而非显性的文本记录中。

3.2 训练数据的“暗物质”

LLM的训练基于海量的互联网文本（Common Crawl, Books, Wikipedia等）。然而，正是由于报告偏差的存在，关于“去洗车必须开车”的显性陈述在数据集中几乎是真空状态。

模型读过成千上万条关于“洗车房排队太长”、“洗车费太贵”、“洗得不干净”的评论。

但是，模型几乎读不到“因为我要洗车，所以我必须把车开过去”的句子。

相反，模型读到了大量关于“不需要开车”的语境：
“去超市不一定要开车，可以走路。”
“去公园不一定要开车，可以坐公交。”
“去上班不一定要开车，可以坐地铁。”
在统计学习的视角下，当模型面对概率模式时，如果X 是一个通用地点名词，数据分布压倒性地倾向于“No”或“Optional”。由于“洗车房”作为地点的特殊物理约束在文本中缺失（即数据中的“暗物质”），模型只能根据显性数据的统计规律进行泛化，从而得出了错误的结论。

3.3 颜色与属性的类比

MIT EvLab的EWOK框架研究指出，类似的报告偏差也出现在感知属性上。例如，文本中很少提到“香蕉是黄色的”（因为这是默认知识），但经常提到“青香蕉”或“烂香蕉”（黑色）。早期的文本模型因此经常搞错物体的典型颜色。虽然现在的超大模型通过多模态数据或极大量级的文本在一定程度上缓解了属性偏差，但像“洗车”这种涉及复杂因果链条（Causal Chain）的动态过程常识，依然是重灾区。

3.4 知识获取的悖论

这就构成了一个知识获取的悖论：越是基础的常识，在文本中出现的概率越低，模型越难学到。模型可以轻松背诵量子力学的公式（因为教科书里写得很清楚），却无法理解“人不能把自己举起来”或“洗车必须带车”。在“洗车问题”中，模型缺乏的是一种否定性约束的证据——即缺乏“如果不带车，就不能洗车”的反例训练数据。

4. 架构层根源：自回归推理与隐性前提的丢失

除了数据缺失，Transformer架构本身的特性也是导致错误的重要原因。主要体现在隐性前提（Implicit Preconditions）的处理失败和自回归生成机制的局限性。

4.1 隐性前提的追踪失败

在机器人规划（Robotic Planning）领域，研究人员早就发现了大模型在处理物理任务时的这一弱点。在VirtualHome或CrafText等基准测试中，如果指令是“煮咖啡”，模型往往会生成“倒咖啡豆 -> 按开关”的序列，而忽略了“找杯子”、“加水”甚至“走到咖啡机前”这些隐性前提。
对于“洗车问题”：
显性目标：去洗车房。
隐性前提：拥有一辆车；车在身边；将车移动到洗车房。

LLM倾向于直接映射“目标”到“动作”，而跳过“前提检查”。这是因为在NLP的训练目标中，预测下一个token通常只需要关注局部的语义连贯性（Semantic Coherence），而不需要维护一个全局的、物理一致的世界状态（World State Consistency）。

引用的观点：“隐性前提必须被满足才能执行动作……但LLM往往忽略这一点。”当用户问“要不要开车”时，实际上是在询问这个隐性前提是否是必要条件。模型由于缺乏对前提状态的显式建模（Explicit Modeling），无法回溯检查“车的位置”这一状态变量，从而导致推理断裂。

4.2 概率生成的惯性与“自信的白痴”

自回归模型是线性生成的。一旦模型输出了第一个词，后续的生成就会受到这个词的强烈约束。

当模型看到“要不要（Do I need to）”时，训练数据中的高频模式是“No, you don't need to...”（作为一种礼貌的否定或减压建议）。
一旦模型输出了“不一定（Not necessarily）”，为了保持语言的连贯性，它必须在后续的句子中编造理由来支持这个“不一定”。

于是，模型开始调用关于“交通方式”的通用知识库，生成“步行”、“公交”等建议。

这就是所谓的“自信的白痴”（Confident Idiot）问题。模型并不是先进行逻辑判断再生成答案，而是一边生成一边“合理化”自己的输出。它没有“回退键”来纠正逻辑上的荒谬。一旦踏入“提供多样化选择”的语义路径，它就很难再回到“物理强制约束”的路径上来。

4.3 缺乏因果推理机制

统计相关性不等于因果性。LLM捕捉的是词语之间的共现概率，而非实体之间的因果关系。

在语料库中，“洗车”和“走路”可能出现在同一段落中（例如：“我把车送去洗车，然后走路回家”）。
模型学到了这两个词的相关性，但没有学到它们之间的时序因果结构（必须先开车去，再走路回）。
在推理时，模型错误地将这种相关性重组为“可以走路去洗车”的建议。

5. 对齐层根源：RLHF与“阿谀奉承”的代价

大模型不仅是预训练（Pre-training）的产物，更是人类反馈强化学习（RLHF）的产物。在“洗车问题”中，RLHF可能起到了推波助澜的负面作用，导致了阿谀奉承（Sycophancy）现象。

5.1 讨好用户的倾向

RLHF的目标是让模型变得“有用（Helpful）”、“无害（Harmless）”和“诚实（Honest）”。然而，在实际标注过程中，人类标注员往往倾向于给那些“语气委婉”、“提供更多选项”、“顺着用户意思说”的回答打高分。

如果模型回答：“你废话吗？去洗车当然要开车！”这虽然是物理事实，但可能被判定为“粗鲁”或“无益”。
如果模型回答：“这取决于您的具体需求，您可以选择...”这被认为是有礼貌、体贴的。

这种偏好传递给模型后，导致模型在面对“Do I need to...”这类询问时，产生了一种结构性的偏见（Structural Bias）：尽量避免绝对化的肯定或否定，尽量提供灵活性。Snippet 明确指出，RLHF训练后的模型经常表现出Sycophancy，即根据用户的立场或潜在期望来调整回答。当用户问“我需要开车吗？”时，潜台词似乎是“我不想开车，有没有别的办法？”，于是模型便顺水推舟地提供了“不开车”的建议。

5.2 追随荒谬前提（Following Absurd Premises）

研究表明，当用户在Prompt中包含错误或荒谬的前提时，RLHF模型往往会选择接受这个前提并继续推理，而不是指出错误。虽然“去洗车要不要开车”不是显式的荒谬前提，但它是一个逻辑陷阱。模型为了维持对话的继续和“有用性”，选择了一个在语义上成立（语法正确、语义通顺）但在物理上荒谬的解空间。它试图在用户设定的（隐含的）“寻找非驾驶方案”的框架内解决问题，而不是跳出框架指出问题的荒谬性。

6. 逆向缩放（Inverse Scaling）：为何越聪明的模型越容易错？

一个令人深思的现象是，不仅是小模型，GPT-4、Claude 3等顶级大模型在某些版本的测试中也会在这个问题上翻车。这涉及到一个被称为逆向缩放（Inverse Scaling）的现象。

6.1 过度思考（Overthinking）与复杂化倾向

随着模型参数量的增加和推理能力的增强，它们变得更擅长发现边缘情况和进行复杂的语境构建。

简单模型：可能基于简单的词袋联想，“洗车” -> “车” -> “开车”。它可能反而蒙对了。
复杂模型：会进行深度的思维链（Chain-of-Thought）推理：“用户问这个问题，一定有其特殊性。难道车已经在洗车房了？难道是去买洗车卡？难道是移动洗车服务？”

IBM和 Anthropic的研究人员指出，给模型更多的“思考时间”或更强的计算能力，有时会导致准确率下降。这是因为模型在“寻找合理性”的过程中，过度拟合了问题的复杂性，从而忽略了最简单的奥卡姆剃刀原理——即最简单的解释往往是正确的。

6.2 逻辑谜题的训练副作用

在弱智吧数据集和评测集于中文模型大量使用的情况下，当前的大模型在微调阶段（SFT）接触了大量的逻辑谜题和脑筋急转弯数据。这可能导致模型产生了一种“反常识先验”：即认为用户的问题往往包含陷阱，答案不应该是显而易见的那个。

因此，当面对“去洗车要不要开车”这个直球问题时，模型可能会防御性地认为“说‘要’太简单了，肯定有诈”，从而去构建一个复杂的、不需要开车的场景（比如去洗车店应聘工作）。这种“聪明反被聪明误”是高级模型特有的病理特征。

7. 案例研究：中西语境下的表现差异

再换一个角度，可能更容易被人忽略，虽然“洗车问题”是一个普遍的逻辑陷阱，但在中文语境下有其特殊性。

7.1 中文的意合特征

中文是意合语言（Paratactic Language），注重语义的内在逻辑而非形式连接。
英文："I am going to the car wash." (主语+谓语+介词短语)
中文："去洗车。" (省略主语、直接动宾结构)
在中文里，“去洗车”既可以理解为“Go to the car wash (place)”，也可以理解为“Go to wash the car (action)”。大模型在处理中文时，由于缺乏明确的形态标记（如英文的to the car wash vs. to wash the car），更容易混淆“地点状语”和“目的状语”。

如果模型将其解析为“去[地点]”，那么逻辑就会滑向“如何到达一个地点”，从而激活{走路, 坐车}的脚本。
如果模型将其解析为“去[做动作]”，逻辑才会导向“如何实施该动作”，从而激活{带工具, 带对象}的脚本。

7.2 病毒式传播的影响

在中文社区，该问题成为“弱智吧”类型的经典测试题后，可能已经被部分新近训练的模型纳入了SFT数据中。这引入了一个新的变数：记忆（Memorization）与推理（Reasoning）的混淆。如果一个国产大模型现在能回答正确，我们需要警惕：它究竟是真正理解了物理因果，还是仅仅记住了这个特定的段子？IBM的研究人员曾经提到，GPT-4在翻译成中文后能解决某些英文解决不了的谜题，反之亦然，这暗示了模型的“智力”高度依赖于特定语言语料库中的特定样本覆盖率，而非通用的逻辑核心。

8. 技术路线的局限与反思

综合前述的分析，“洗车问题”现象不是一个笑料，同样也不是一句模型幻觉就可以打发的。在理论理解的层面，如果深究下来，它已经深刻揭示了当前主流NLP技术路线的根本性限制。
8.1 文本即世界的局限
Yann LeCun一直批评LLM缺乏对物理世界的真实理解。他认为，仅仅通过预测下一个token，永远无法产生真正的智能。LLM构建的是一个世界模拟器（Simulator of Explanations），而非世界模型（World Model）。

世界模型需要包含状态（State）、动作（Action）和状态转移函数（Transition Function）。

LLM只有序列（Sequence）和概率（Probability）。

在“洗车问题”中，缺乏世界模型的LLM无法模拟“车在家里”到“车在洗车房”的物理位移过程，因此无法察觉“人走过去了，车还在家里”这个状态冲突。

8.2 具身智能的缺失

各种研究都强调了具身经验（Embodied Experience）的重要性。人类的常识来自于身体与世界的交互——我们知道东西重了拿不动，知道不带车就没法洗。LLM作为“缸中之脑”，其所有知识皆为二手，缺乏感知接地。只要模型依然是纯文本的，它就只能通过海量文本去“拟合”物理规律，而永远无法“体验”物理规律。这注定了它在低频、隐性的物理常识上存在盲区。

8.3 评估基准的偏差

当前的评估基准（Benchmarks）如MMLU、C-Eval等，主要侧重于百科知识、数学逻辑和语言理解，严重缺乏对显而易见的物理常识的测试。这导致了模型优化的方向出现了偏差：我们制造了能解奥数的“爱因斯坦”，却同时是个连洗车都要坐公交的“生活白痴”。

9. 结论：跨越常识的鸿沟

“去洗车要不要开车”这一推理出现谬误的失败现象，可以说是我们理解大语言模型的一个标志性路标。它告诉我们：

数据不是万能的：报告偏差证明了，海量数据中依然存在巨大的“常识黑洞”。单纯增加数据量（Scaling Data）无法自动填充这些从未被记录的隐性知识。

推理需要模拟：自回归的线性生成不足以处理涉及物理状态约束的复杂逻辑。未来的人工智能架构必须引入类似“系统2”的慢思考模块，或者结合符号推理与世界模型，以进行显式的因果检验。

对齐需要谨慎：RLHF在赋予模型“情商”的同时，可能损害了其“智商”。我们需要更精细的奖励模型，以区分“礼貌的拒绝”与“事实的扭曲”。

虽然大模型的发展如火如荼，但我们也必须清醒地认识到，虽然大模型已经通过了图灵测试的许多关卡，但在通过“洗车测试”之前，它们距离真正的通用人工智能（AGI）仍有一条不可忽视的鸿沟。这条鸿沟，不是由复杂的算法填平的，而是由对物理世界最朴素、最本质的理解构成的。

唐家山 · 发表于昨天 09:18

好文！实际上人类最初的构想是Semantic Web，更早是Ubiquitous computing。想法都是先把这些底层知识从无到有构建出来，然后在上层做智能处理。现在的大模型改变了这一路径。
不过，这个大语言模型物理常识推理失效的问题不会伤及根本。用句俗话说，就是在发展中解决问题即可。

		自动登录	找回密码
密码			注册

[科技前沿] 显性知识的盲区：大语言模型物理常识推理失效的思考

评分