/ `; M, t, p; k! t d综合前述的分析,“洗车问题”现象不是一个笑料,同样也不是一句模型幻觉就可以打发的。在理论理解的层面,如果深究下来,它已经深刻揭示了当前主流NLP技术路线的根本性限制。0 M% ~9 i6 B: i: V8 i0 A
8.1 文本即世界的局限 2 h u2 \: ]! ]" s5 nYann LeCun一直批评LLM缺乏对物理世界的真实理解。他认为,仅仅通过预测下一个token,永远无法产生真正的智能。LLM构建的是一个世界模拟器(Simulator of Explanations),而非世界模型(World Model)。( e, f4 {2 ]# x( b& K
8 J2 m% K, E+ B+ k/ T2 P+ M U
世界模型需要包含状态(State)、动作(Action)和状态转移函数(Transition Function)。 - i' ?1 h, y; k3 H/ g4 o; L; s 4 z: i$ S1 J; Z, q T( tLLM只有序列(Sequence)和概率(Probability)。 0 W5 t% X% @- O+ R1 _ ( Q6 y# A5 F* w) X7 j在“洗车问题”中,缺乏世界模型的LLM无法模拟“车在家里”到“车在洗车房”的物理位移过程,因此无法察觉“人走过去了,车还在家里”这个状态冲突。 $ u' C! x0 }( i+ R3 _; l" D3 Z. f# }
8.2 具身智能的缺失0 i0 S- l7 _3 ?
* @5 a7 I0 n& e4 ]; z
各种研究都强调了具身经验(Embodied Experience)的重要性。人类的常识来自于身体与世界的交互——我们知道东西重了拿不动,知道不带车就没法洗。LLM作为“缸中之脑”,其所有知识皆为二手,缺乏感知接地。 只要模型依然是纯文本的,它就只能通过海量文本去“拟合”物理规律,而永远无法“体验”物理规律。这注定了它在低频、隐性的物理常识上存在盲区。2 C- y0 f6 T( r* z# z7 W5 z
7 h( f* S: C+ R0 i z8.3 评估基准的偏差 4 K# V4 m i1 g* [* r- S. _, m ' O% | ~6 A S3 G当前的评估基准(Benchmarks)如MMLU、C-Eval等,主要侧重于百科知识、数学逻辑和语言理解,严重缺乏对显而易见的物理常识的测试。这导致了模型优化的方向出现了偏差:我们制造了能解奥数的“爱因斯坦”,却同时是个连洗车都要坐公交的“生活白痴”。6 @6 i1 d8 r8 d9 s. U