|
|
: g9 W' g/ r2 H0 ]3 c
- s. P8 W( G# {3 R$ g5 r' V8 r9 l这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
- G; V) S' g0 l' U, Y! O. ^5 e: g, S4 ]4 H8 q- O7 G& x7 y) P
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
% i2 `- u6 @0 @& s9 c* T9 Q. `. Y. {( ~. Q0 i+ y# |' W! i( E) o
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
$ q& |( b% @! {5 y( n1 w5 Q8 h
- B' _ `& Z- _6 d3 k/ F8 G+ W# BAI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
8 N) I! C% W' }, z8 I1 W$ a- R我: A/ d6 _" X' M" _& |% l# A
AI: B
; y0 A/ ?; `& \, e% L, V我: B
. _8 z2 ], x7 s# R9 AAI: C
$ b9 d* B/ f% H* L4 T, v/ h我:X# d: a* g) X: I! t2 C/ b7 w
- U1 c* x1 j2 A+ N这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
* f4 a6 L/ O# f! C8 d0 k+ ^' U' a$ [+ J0 P
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:+ q0 w; Z, X+ A9 E1 u* \' k
我:Z
7 @9 A, o( ~& i; Z+ a' g
, C$ l3 j6 y- t9 E8 e- q& ^这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
) A" P, K# p% @
3 a6 r4 }/ K* Q G7 |/ @1 T5 n而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。9 F8 }" z3 A6 ^
- Y- Z+ {: P$ |3 b( B" V
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。, ]! I; D9 d5 |! C+ z
* G2 T# x2 H* w+ W7 P1 J
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:3 U0 z; J6 w: e- j- f' L) g
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。1 O& A2 e# c7 m+ W3 d; W
- N$ q/ v a7 T, @1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
9 G7 L. a" E: l% ^5 Y
~$ C( o( d# ~, u3 n2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。4 C2 z) r7 u2 b% o' L3 U+ Q
9 a W+ U$ P- f2 X总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
7 e I4 a/ S3 ]6 G4 C' @ |
|