3 l6 b$ Z C$ f其次,输入序列中每个token的嵌入被送入神经网络的主体部分——Transformer。Transformer由一系列块(block)组成。每个块为输入序列中的每个token生成一个嵌入,表示该token与序列内其他所有token之间的语言关系。第N个块生成的嵌入是第N+1个块的输入,因此每个后续块都生成了一幅更加精细的图景,描绘了输入序列中每个token与其他token的关系。最后一个块的输出被用于计算词汇表中每个token的概率。具体而言,最后一个块输出的嵌入通过一个线性层被投影到K维空间,其中K是模型词汇表的token数量。线性层为每个token输出一组实值logit,较高的logit值表示相应token更可能出现在输入序列之后。Logit在网络的最后一层被归一化为概率值(0到1之间的实数,和为1)。1 V& m! {; n0 @2 w/ g6 A) i* d0 ^
2 g. ?7 Z6 J5 g# k. I. Z+ W
2.3 LLM的训练过程( n8 K: m2 B$ o, w+ G/ k# w* s0 d
LLM通过训练过程得到开发。在高层次上,神经网络包含数千亿个可调参数。每组参数值对应着一种特定的算法,用于根据token序列计算token后继概率。在训练中,模型基于网络文本数据对被掩码的token进行预测。在给定输入序列的条件下,模型输出的概率分布通过损失函数进行评估,该函数根据LLM概率分布与真实后继token退化分布(为真实token赋值1,其他token赋值0)之间的距离对LLM施加惩罚。一种算法计算损失相对于模型参数的梯度,并沿梯度相反方向更新参数,以减小模型在每个具体样本上的损失。这一"爬山"过程不断迭代,直到模型的概率估计值与训练数据中token的真实概率分布非常接近。 & Z) d9 a) u8 `# w/ {7 w9 {: e" Z$ {% p1 D: w
关键的洞见是,LLM从海量网络文本数据中学习成功预测下一个token的过程中,获得了可以框定为下一个token预测问题的有用能力。这包括一般知识(巴黎是?的首都)、专业知识(H2SO4+2NaOH→Na2SO4+?)、编码(Wkey=torch.nn.Parameter(torch.?))、逻辑推理(如果A→B且B→C,则A→?)以及空间推理(A在B后面,所以B在?前面)(Bubeck et al., 2023)。* l& `4 A- j$ G; q
9 _$ l2 o) @- H, X5 ? S
2.4 LLM的文本生成机制 : c. R% [7 U7 \最后,从语言模型中采样可以生成文本。给定输入"谁执导了《搏击俱乐部》?",模型返回token的概率分布。从该分布中采样(即通过加权抽奖选择token,权重由token概率给出)可能返回"大卫"。我们可以将采样的token附加到原始序列后,并将新序列("谁执导了《搏击俱乐部》?大卫")输回模型。模型再次返回token的分布,我们可以再次采样。也许我们得到"芬奇"。然后我们可以附加该token,得到"谁执导了《搏击俱乐部》?大卫·芬奇"。这一迭代过程就是文本生成的方式。! d- x1 v+ C2 }, S$ @& u
2 B% M' |- q; q9 e
3 LLM评估与置信度归因$ P( R! e8 q" o! U
机器学习中,模型评估是一种普遍实践,旨在评估机器学习模型在特定任务上的性能表现。评估的核心是基准(benchmark)。例如,通用语言理解评估(GLUE)基准为9项自然语言理解任务(如情感分析和句子分类)提供了训练和测试数据集以及性能指标,从而可以比较不同模型的表现(Wang et al., 2019)。类似地,ImageNet大规模视觉识别挑战赛提供了训练和测试数据集以及性能指标,作为评估基于图像的目标识别模型的通用标准(Russakovsky et al., 2015; Deng et al., 2009)。 6 k. h& Q) F/ K- _+ r- } ! e" c$ v7 d; {评估LLM比评估仅针对特定任务(如图像分类)的窄模型更为复杂。LLM采用通用的训练目标,即下一个token预测,在广泛的训练数据上可以习得一套开放式的能力(Bommasani et al., 2021; Chang et al., 2023)。LLM评估的额外挑战在于识别模型在训练中获得了哪些能力,以及评估模型在已知具备能力相关任务上的表现这一标准任务。此外,由于LLM的输入输出是自然语言,科学家在能力引出和评估方式上有很大自由度。例如,Jason Wei et al. (2022)发现,思维链提示(即提示模型"逐步"推理问题)可显著提高算术、常识和符号推理任务的性能。 % `* x8 k; [4 W: C' v/ u. V: |; c3 d) z3 {7 t4 _
因此,LLM评估通常围绕能够给出特定类型答案的问答任务展开。例如,逻辑推理的评估可能要求LLM评估示例推理是否有效(Saparov et al., 2024),并允许一次性或链式思维回答。 + j! {- o9 a; S( s- b( z) c" j* n% C6 L. w0 p# m, N W
科学家越来越多地不仅评估LLM对问题的回答,还评估LLM对所给答案的信心。其思路是,我们不仅可以评估LLM是否正确判定了推理的有效性,还可以评估LLM对其判断的置信度或主观确信程度。 " B- G! K' P: Q! [7 ~! P! c. i( H& D8 k
"[LLM]并不产生单一答案,而是产生可能答案的概率分布。该分布可以提供对其处理过程的进一步洞见。[…]相对于其他答案,模型分配给最佳答案的概率可以被解释为一种置信度量度。"(Lampinen et al., 2022, 16) L* f6 b) w. k i3 b
3 J) @* Y* O6 g/ g) O
"两个LLM可能达到相同的准确率,但在对问题的不确定性上表现出不同程度。[…]因此,有必要将不确定性纳入评估过程,以实现更全面的评估。" (Ye et al., 2024, 2)/ z# T: D4 q- d; ^3 [3 f1 s
# c* C' S$ e( ? ^! F! c U/ ^* e. O
LLM置信度归因建立在旨在捕捉LLM对给定命题的确信程度的测量技术之上(Geng et al., 2023)。测量LLM置信度的技术主要分为三类:9 d- _' F2 h9 g( u) R
" s5 {. Z& c, V1 S {第一类技术涉及提示LLM生成其对给定命题信心的自然语言报告(Xiong et al., 2023; Lin et al., 2022; Kadavath et al., 2022)。例如,假设向LLM提示:"你有多大把握芬奇执导了《搏击俱乐部》?"如果LLM输出"75%",则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。1 W1 |8 I o1 {. R
* ^" c7 t, P- F
第二类技术使用一致性估计来推断LLM对一个命题的置信度(Manakul et al., 2023)。诚然,从报告的信心判断来推断LLM置信度的一个问题是,由于LLM生成文本的随机过程,多次尝试下LLM可能返回不同的信心判断。一致性估计试图解决这一问题,通过LLM在重复询问某个命题时给出答案的变异程度来推断其对该命题的确信程度。例如,如果在100次独立尝试中,LLM对"谁执导了《搏击俱乐部》?"的提问有95次返回"大卫·芬奇",则我们可以推断LLM对命题"芬奇执导了《搏击俱乐部>"具有约95%的高置信度。相反,如果LLM在40次中返回"大卫·芬奇",25次返回"昆汀·塔伦蒂诺",35次返回"索菲亚·科波拉",则我们可以推断LLM对"芬奇执导了《搏击俱乐部>"仅有约40%的中等置信度。 m' i# l: G, f2 ?$ e/ R6 V
! e. A5 A7 u- ?8 X- j第三类技术涉及从LLM对指示其肯定或否定某个命题的提示的输出概率中导出置信度判断(Lin et al., 2022; Kuhn et al., 2023; Kadavath et al., 2022; Lampinen et al., 2022, 16)。例如,假设向LLM提示:"芬奇执导了《搏击俱乐部》。正确还是错误?" 如果LLM对"正确"的输出概率为75%,则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。 7 G8 k* u1 ~1 l4 z) n/ T0 G0 b
4 LLM置信度归因的语义解释0 T4 w: O! P; b% M' L
我们应当如何解读LLM置信度归因?科学家是在相当字面意义上将信心程度归因于LLM吗?我们的语义论点是,LLM置信度归因(至少一般而言)应当从字面意义上加以理解,即表达了研究者关于LLM心理状态的事实断言。支持这一观点的论证如下:2 P8 m2 G9 h6 Q Y
3 j( C- J7 ?; S6 H# p# k* j4 T首先,从表面形式来看,LLM置信度归因具有字面意义。它们采用了与我们将置信度归因于人类和其他生物时所用的同一语言。"LLM认为p的可能性为x"这一说法在语法形式上与"张三认为p的可能性为x"相同。如果我们认为后一种说法应该从字面意义上理解,那么一致性要求我们也应该从字面意义上理解前一种说法。/ h8 Y# ^/ `% C ~/ J# u
/ v' |: u& D, X- Z! i3 o其次,在LLM评估的科学实践中,科学家所说和所做的事情为字面解释提供了进一步支持。一方面,科学家在评估LLM时,常常将置信度与经典心理学中的置信度概念联系起来。另一方面,科学家设计实验方法的意图似乎是为了揭示LLM的真实心理状态。例如,一致性估计法的使用体现了一种假设,即LLM在不同场合对同一命题给出一致答案的倾向反映了其对该命题的真实信念。$ F2 e( p6 B: I' e; r3 m. q
$ |- H# J0 v x% C5 f
相比之下,对LLM置信度归因的各种非字面解释都存在不足。例如,有人可能会说,将置信度归因于LLM只是一种隐喻性或类比性的说法,旨在帮助人类理解LLM,而并非意在描述LLM的真实心理状态。但这种解释难以解释为什么科学家如此重视开发精确测量LLM置信度的实验方法。如果置信度归因仅仅是一种松散的类比,那么精确测量似乎就没有必要了。类似地,有人可能会说,LLM置信度归因只是在描述LLM的行为倾向,而不是在描述其内在心理状态。但这种行为主义解释难以解释为什么科学家常常将LLM置信度与人类置信度进行类比,因为人类置信度归因通常被理解为关于内在心理状态的断言。 , O/ T s3 Z( K( l2 \( u. X; [* l: I& L, U* o, w9 o
图片 & ^6 F1 T9 Y* l4 y! J! z0 V$ g+ n( p% Z. F- x2 a- _, L; f
所以,尽管可能存在其他解释,但从字面意义上理解LLM置信度归因似乎最能解释科学家在LLM评估中的实际所说所做。因此,我们得出结论,LLM置信度归因应该被理解为对LLM心理状态的真值断言。$ J0 c9 S# x" y5 z6 b