|
本帖最后由 晨枫 于 2025-1-28 17:57 编辑 ) T1 U# ~: K; q" S( X# C
8 P8 c$ e+ p: d& W8 B
DeepSeek在12月推出v3,已经够惊艳,超出预期。一个月后,推出R1,直接掀翻了AI的世界。
9 j$ H9 _+ k/ V5 a, @% ^0 H7 ?
$ y" \0 e( ]2 p$ P6 B当然,肯定有人要急着为DeepSeek找爹,“蒸馏说”就是这样产生的。
# U* Y# D1 E( R$ k1 w( T) N; K$ c: U, Q
如果理解没有错误,“蒸馏说”是指DeepSeek以Chat GPT为参照模型,首先用大量的输入数据激励ChatGPT,得到输出,然后把这作为数据集,用于训练DeepSeek。
& t0 F9 M) V2 U! P7 k- @" Q) V4 I4 r, i q1 F* f8 j
这节约了海量搜取原始数据的难题,也大大简化了语言信息的数据化工作。" r- w7 C9 | D. Y# [+ E
+ u5 i0 T3 d: X
这样的抄近路是有可能的。在工程上,模型降阶常常就是这么做的,但也是有条件的。
& B$ J% y; A" {. X/ u
' S# a! I7 k4 n; o2 T! I: m# Q这些都是小模型,输入的性质和数值范围都很明确,不管是“打格子”还是随机产生输入数据,都容易。而且有足够的数值方法可以保证“数据密度”,不会出现过分的疏漏。
- \: b0 E7 s6 g& U4 Y- A( X5 t" Y9 U5 U9 c% {
但通用大模型没法这么做。首先是不可能确定ChatGPT的输入范围。或者说,那就是整个“已知人类公域知识”,有本事把这样的输入集搞齐全了,已经把Chat GPT的data scrubbing做完了。data scrubbing不知道怎么翻译,这是把公域数据全部梳理一遍,吸收进来,包括公开出版物和网络数据。
$ k7 D# r& _6 r, S
! S1 m) A- o3 F7 B1 B" f也就是说,DeepSeek可以把自己的大模型“蒸馏”成小模型,但没法把别人的大模型“蒸馏”成自己的模型。
. i) ~5 Z1 b( u8 s+ F4 Y+ V: [! t) Z2 ?! B9 y- N g) K( r+ K
第二点是推理过程,这是DeepSeek有别于几乎所有主流大模型的地方,肯定是ChatGPT没有的地方。“蒸馏”只能是降低分辨率的复现,原来的模型没有的数据,“蒸馏”是变不出来的。做习题时直接抄答案,但老师要求写中间步骤,就抓瞎了。一样的道理。" o) z0 Q/ A) |
% Z% k' L4 h# D8 N第三点:DeepSeek在一些方面超过ChatGPT,这就更不可能从“蒸馏”中得到了。针对性加强可以解释,但如何确定针对性的范围又是一个问题。6 K/ F+ C* `. v$ R/ z" }$ ?
! D5 ?7 a9 r! j3 S# m1 p. { Q
最基本的一点还是第一点:DeepSeek不可能获得ChatGPT的原始输入集,没法“蒸馏”。 |
评分
-
查看全部评分
|