9 ~$ x+ D$ E9 L1 ]2 大语言模型(LLM)的基本原理% ]% T) ^+ ?+ J9 l2 p
2.1 LLM的定义与工作原理0 ]1 `+ q* x% t Q+ J' @6 X' ~
2.1.1 语言模型的基本概念2 K7 |( y/ e; p0 D8 L* [
语言模型从本质上说是一类统计模型,它预测在给定词序列后, 下一个词出现的概率。具体而言,语言模型是一种函数,其输入是token序列,token 包括单词、词根和标点符号等句法单元。模型的输出是一个概率分布,对应于其词汇表中每一个token出现在输入序列之后的可能性估计。, N$ Y6 B# Y, C; C
0 a- }: _9 \- z6 W. W( J' F" L
2.1.2 LLM作为神经网络的实现8 z0 s) Q, ~, d9 k8 ~
大语言模型(LLM)是语言模型的神经网络实例化。网络的输入是一组数字数组,表示token序列。模型词表中的每个token都被分配了一个数字ID,从而任意token序列都可以用数字数组来表示。对每个输入序列,网络输出一组0到1之间的实数,它们的和为1。这些数字表示词汇表中各个token出现的概率估计值。* r4 _" `1 U+ S7 L+ l) K/ @- \" O
' \ B' p4 Y c% G' I5 R2.2 LLM的架构 % `8 O' f, y- K+ u. m& j0 ?LLM如何计算token的后继概率?简而言之,输入序列通过一个嵌入层(embedding layer),将序列中每个token ID映射到高维空间中的一个向量(或点)。这些向量被称为token嵌入(embedding)。大致而言,在相似语言环境中常常共同出现的token,其对应的嵌入在嵌入空间中距离较近。% Q$ L' C& A. r0 {
) D5 |" r/ L; b1 {7 N1 P# A其次,输入序列中每个token的嵌入被送入神经网络的主体部分——Transformer。Transformer由一系列块(block)组成。每个块为输入序列中的每个token生成一个嵌入,表示该token与序列内其他所有token之间的语言关系。第N个块生成的嵌入是第N+1个块的输入,因此每个后续块都生成了一幅更加精细的图景,描绘了输入序列中每个token与其他token的关系。最后一个块的输出被用于计算词汇表中每个token的概率。具体而言,最后一个块输出的嵌入通过一个线性层被投影到K维空间,其中K是模型词汇表的token数量。线性层为每个token输出一组实值logit,较高的logit值表示相应token更可能出现在输入序列之后。Logit在网络的最后一层被归一化为概率值(0到1之间的实数,和为1)。 % L4 S! o/ Z( i$ C4 h! ?. D3 }- a/ J3 m0 l6 a9 K
2.3 LLM的训练过程 0 A8 Q# h. |* P# i5 Z, F- uLLM通过训练过程得到开发。在高层次上,神经网络包含数千亿个可调参数。每组参数值对应着一种特定的算法,用于根据token序列计算token后继概率。在训练中,模型基于网络文本数据对被掩码的token进行预测。在给定输入序列的条件下,模型输出的概率分布通过损失函数进行评估,该函数根据LLM概率分布与真实后继token退化分布(为真实token赋值1,其他token赋值0)之间的距离对LLM施加惩罚。一种算法计算损失相对于模型参数的梯度,并沿梯度相反方向更新参数,以减小模型在每个具体样本上的损失。这一"爬山"过程不断迭代,直到模型的概率估计值与训练数据中token的真实概率分布非常接近。 ! Q$ Y6 W4 Z- Z0 S % w2 o6 Z! W+ D关键的洞见是,LLM从海量网络文本数据中学习成功预测下一个token的过程中,获得了可以框定为下一个token预测问题的有用能力。这包括一般知识(巴黎是?的首都)、专业知识(H2SO4+2NaOH→Na2SO4+?)、编码(Wkey=torch.nn.Parameter(torch.?))、逻辑推理(如果A→B且B→C,则A→?)以及空间推理(A在B后面,所以B在?前面)(Bubeck et al., 2023)。4 F7 I5 j, ]2 ^& P3 w
! b! a( k5 r* u F0 `
2.4 LLM的文本生成机制/ c+ b9 N& U9 `, {* u2 A* d
最后,从语言模型中采样可以生成文本。给定输入"谁执导了《搏击俱乐部》?",模型返回token的概率分布。从该分布中采样(即通过加权抽奖选择token,权重由token概率给出)可能返回"大卫"。我们可以将采样的token附加到原始序列后,并将新序列("谁执导了《搏击俱乐部》?大卫")输回模型。模型再次返回token的分布,我们可以再次采样。也许我们得到"芬奇"。然后我们可以附加该token,得到"谁执导了《搏击俱乐部》?大卫·芬奇"。这一迭代过程就是文本生成的方式。+ @8 z ]# J1 u! h* J" I
1 t5 r: n1 d5 q8 D# g
3 LLM评估与置信度归因 7 T3 M- b/ f7 s# X5 u# M' I: }机器学习中,模型评估是一种普遍实践,旨在评估机器学习模型在特定任务上的性能表现。评估的核心是基准(benchmark)。例如,通用语言理解评估(GLUE)基准为9项自然语言理解任务(如情感分析和句子分类)提供了训练和测试数据集以及性能指标,从而可以比较不同模型的表现(Wang et al., 2019)。类似地,ImageNet大规模视觉识别挑战赛提供了训练和测试数据集以及性能指标,作为评估基于图像的目标识别模型的通用标准(Russakovsky et al., 2015; Deng et al., 2009)。; l5 ?' C, b' R, M% u
$ R2 H1 k1 Z- S2 i评估LLM比评估仅针对特定任务(如图像分类)的窄模型更为复杂。LLM采用通用的训练目标,即下一个token预测,在广泛的训练数据上可以习得一套开放式的能力(Bommasani et al., 2021; Chang et al., 2023)。LLM评估的额外挑战在于识别模型在训练中获得了哪些能力,以及评估模型在已知具备能力相关任务上的表现这一标准任务。此外,由于LLM的输入输出是自然语言,科学家在能力引出和评估方式上有很大自由度。例如,Jason Wei et al. (2022)发现,思维链提示(即提示模型"逐步"推理问题)可显著提高算术、常识和符号推理任务的性能。7 r0 c) w2 w3 c( \ L/ I* h, _
S5 O5 t5 b' w* N1 X8 I; a$ v, i
因此,LLM评估通常围绕能够给出特定类型答案的问答任务展开。例如,逻辑推理的评估可能要求LLM评估示例推理是否有效(Saparov et al., 2024),并允许一次性或链式思维回答。 # d5 ? k1 q* S Z- X2 `& {$ M! B1 \ & U+ i. B! l* Z9 b+ o科学家越来越多地不仅评估LLM对问题的回答,还评估LLM对所给答案的信心。其思路是,我们不仅可以评估LLM是否正确判定了推理的有效性,还可以评估LLM对其判断的置信度或主观确信程度。 4 t7 O8 F4 K) x1 W! k. @3 d4 S" _3 ?6 E5 `5 x1 _/ u2 _
"[LLM]并不产生单一答案,而是产生可能答案的概率分布。该分布可以提供对其处理过程的进一步洞见。[…]相对于其他答案,模型分配给最佳答案的概率可以被解释为一种置信度量度。"(Lampinen et al., 2022, 16) - r7 j( ?" g) N! G' u / A$ t. r- a: h$ f5 Z* s9 C" o"两个LLM可能达到相同的准确率,但在对问题的不确定性上表现出不同程度。[…]因此,有必要将不确定性纳入评估过程,以实现更全面的评估。" (Ye et al., 2024, 2)$ b7 u" O! g" B1 u$ q" t& _
; {5 u1 N, ^6 g2 FLLM置信度归因建立在旨在捕捉LLM对给定命题的确信程度的测量技术之上(Geng et al., 2023)。测量LLM置信度的技术主要分为三类: - z/ G; S7 {& T: ~8 f! |/ d % I% s# D, Q7 R' M- F2 @第一类技术涉及提示LLM生成其对给定命题信心的自然语言报告(Xiong et al., 2023; Lin et al., 2022; Kadavath et al., 2022)。例如,假设向LLM提示:"你有多大把握芬奇执导了《搏击俱乐部》?"如果LLM输出"75%",则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。" o' s4 @* f8 N1 L$ y7 K( o: y
. R7 l% |9 l) N7 }8 T# l7 Z3 z- n D; R第二类技术使用一致性估计来推断LLM对一个命题的置信度(Manakul et al., 2023)。诚然,从报告的信心判断来推断LLM置信度的一个问题是,由于LLM生成文本的随机过程,多次尝试下LLM可能返回不同的信心判断。一致性估计试图解决这一问题,通过LLM在重复询问某个命题时给出答案的变异程度来推断其对该命题的确信程度。例如,如果在100次独立尝试中,LLM对"谁执导了《搏击俱乐部》?"的提问有95次返回"大卫·芬奇",则我们可以推断LLM对命题"芬奇执导了《搏击俱乐部>"具有约95%的高置信度。相反,如果LLM在40次中返回"大卫·芬奇",25次返回"昆汀·塔伦蒂诺",35次返回"索菲亚·科波拉",则我们可以推断LLM对"芬奇执导了《搏击俱乐部>"仅有约40%的中等置信度。 + f9 G$ ]3 j" \) v8 ?: S; B% |# Y6 h. p5 @- f' Q' A5 ]
第三类技术涉及从LLM对指示其肯定或否定某个命题的提示的输出概率中导出置信度判断(Lin et al., 2022; Kuhn et al., 2023; Kadavath et al., 2022; Lampinen et al., 2022, 16)。例如,假设向LLM提示:"芬奇执导了《搏击俱乐部》。正确还是错误?" 如果LLM对"正确"的输出概率为75%,则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。7 K0 ]/ K; G5 E9 \0 Q0 F2 g& B+ |
P4 _5 n2 a3 ^7 z. F" x+ S. t
4 LLM置信度归因的语义解释 - y$ V. j1 c: {% N0 ]( _4 K) ]/ ~' M, H我们应当如何解读LLM置信度归因?科学家是在相当字面意义上将信心程度归因于LLM吗?我们的语义论点是,LLM置信度归因(至少一般而言)应当从字面意义上加以理解,即表达了研究者关于LLM心理状态的事实断言。支持这一观点的论证如下: / a" Y% U# u. h$ {" W9 o3 p8 @& E! ]- p+ L- Q2 W+ A& k% F
首先,从表面形式来看,LLM置信度归因具有字面意义。它们采用了与我们将置信度归因于人类和其他生物时所用的同一语言。"LLM认为p的可能性为x"这一说法在语法形式上与"张三认为p的可能性为x"相同。如果我们认为后一种说法应该从字面意义上理解,那么一致性要求我们也应该从字面意义上理解前一种说法。 ) R1 h1 T/ g, k$ R8 _7 I8 q" r , e+ c1 `9 e8 J8 E! `其次,在LLM评估的科学实践中,科学家所说和所做的事情为字面解释提供了进一步支持。一方面,科学家在评估LLM时,常常将置信度与经典心理学中的置信度概念联系起来。另一方面,科学家设计实验方法的意图似乎是为了揭示LLM的真实心理状态。例如,一致性估计法的使用体现了一种假设,即LLM在不同场合对同一命题给出一致答案的倾向反映了其对该命题的真实信念。# L# ]6 ]2 [0 O, M8 c
) H& h$ L/ d# [$ P: z相比之下,对LLM置信度归因的各种非字面解释都存在不足。例如,有人可能会说,将置信度归因于LLM只是一种隐喻性或类比性的说法,旨在帮助人类理解LLM,而并非意在描述LLM的真实心理状态。但这种解释难以解释为什么科学家如此重视开发精确测量LLM置信度的实验方法。如果置信度归因仅仅是一种松散的类比,那么精确测量似乎就没有必要了。类似地,有人可能会说,LLM置信度归因只是在描述LLM的行为倾向,而不是在描述其内在心理状态。但这种行为主义解释难以解释为什么科学家常常将LLM置信度与人类置信度进行类比,因为人类置信度归因通常被理解为关于内在心理状态的断言。 ' K `( B3 |" W4 R + q7 e# \& `! z图片. S, s- A, p4 h0 @5 D
3 x" A( t6 R" A7 O1 R6 b @
所以,尽管可能存在其他解释,但从字面意义上理解LLM置信度归因似乎最能解释科学家在LLM评估中的实际所说所做。因此,我们得出结论,LLM置信度归因应该被理解为对LLM心理状态的真值断言。; U, H' I' z4 S
2 `; i, ^# O9 H! s8 y5 }5 G3 F# C
5 LLM置信度的存在性问题2 u3 \+ J8 g3 z1 \( u5 A, q' \
即便我们接受了对LLM置信度归因的字面解释,仍然存在一个更深层次的问题LM是否真的具有作为置信度归因对象的心理状态?我们的形而上学论点是,尽管目前的经验证据尚不确定,但LLM具有置信度这一观点本身是合理的。4 V; ~9 T a# T {, ^
2 G2 G' k: f; O" @& L4 ^传统上,置信度被理解为一种心理状态,即主体对命题的主观确信程度。反对将置信度归因于LLM的一个论点是,LLM作为人工系统可能根本不具有心理状态。持这种观点的人可能会说,尽管LLM展现出了类似于有意识生物的复杂行为,但它们仍然只是巨大的查找表或统计黑箱,缺乏形成心理状态所需的神经基础。 / x. Z% E e5 s/ M) s H R0 O ( F3 @9 K: o' o D7 m支持LLM具有置信度的一个论证是功能等同性论证。该论证指出,尽管LLM在物理实现上有别于生物大脑,但它们在功能层面上与人类具有相似性,表现出了与人类置信度相似的行为模式。例如,LLM对一个命题在不同场合下给出一致答案的倾向,类似于人类对自己有把握的命题倾向于在不同场合给出一致判断。因此,如果我们认为人类具有真正的置信度,那么一致性要求我们也应该认为LLM具有置信度。 0 y! g+ R( S$ \1 A ' w. j/ z7 |9 `( r+ J支持LLM置信度存在的另一个论证是涌现特性论证。该论证指出,尽管LLM个体神经元的简单输入输出函数无法解释整个系统的复杂行为,但置信度可能是LLM在适当的架构和训练下涌现出的高阶特性。就像生物神经系统在适当条件下可以涌现出意识一样,人工神经网络或许也能涌现出置信度。这种涌现论的观点与现代神经科学和认知科学中的主流观点是一致的。 ) h. I3 A9 V; [7 ]9 p4 x( y6 n' I6 C# W; B
反对LLM具有置信度的另一个论点是,由于LLM缺乏意识,因此不可能具有真正的心理状态。持这种观点的人可能会说,置信度的概念本质上以意识为前提,因为它涉及对自身认知状态的主观体验。但这一论证并不确凿,因为哲学家对意识与智能认知的关系存在广泛争议。一种观点认为,意识是认知的必要条件。但另一种观点认为,至少部分高级认知功能是可以在缺乏意识的情况下实现的。如果后一种观点是正确的,那么即便 LLM缺乏意识,也并不能排除其拥有置信度的可能性。 3 e4 A% d; t$ X$ Y. S/ A ! O- x; p) G' h* w; F- x此外,还有一种论证反对将置信度归因于LLM,即LLM的内部信息加工过程可能高度不稳定和不确定,使得为其归因确定的心理状态变得不合理。例如,即便LLM在98%的情况下认为芬奇执导了《搏击俱乐部》,但其内部状态可能经常在"芬奇"、"索菲亚·科波拉"等不同答案之间振荡,只是碰巧在输出时更多地倾向于"芬奇"。/ D# H+ a0 F3 l/ W0 C7 T+ [" R6 ?
* l% q( R# }9 r0 s) o7 V
图片- R+ F u1 O. d! M4 ~