设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 7|回复: 0
打印 上一主题 下一主题

[转贴] AI鄙視鏈

[复制链接]
跳转到指定楼层
楼主
 楼主| 发表于 2024-7-4 09:08:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
AI創業產品的鄙視鏈

卓克

2024年6月25日,OpenAI給所有開發者都發去了官方電子郵件,裡面通知——從7月9日開始,阻止來自非支援國家和地區的API流量。

其次,阻止API流量並不等於技術封鎖,而是拒絕銷售的意思。相當於某個公司拒絕把產品賣給某個客戶。

這件事是好是壞呢?對中國的AI創業企業來說,有一大批公司非常沮喪,還有一小批大公司拍手叫好。而這兩類公司往往在激烈的競爭中都會被指為“套殼”公司。

我們就來說說AI套殼產品的鄙視鏈,和OpenAI拒絕提供API服務的影響。

要給“套殼”下一個定義,我們需要理解大語言模型的歷史。

今天所有大語言模型的DNA都起源于2017年谷歌發佈的Transformer模型。因為在此之前,人們處理語言使用的主要是循環神經網路(RNN)和卷積神經網路(CNN),但效果都不理想。

Transformer模型的原始結構裡包含兩個核心元件——編碼器、解碼器。編碼器用於理解輸入的文本,解碼器用於一個字一個字往下續寫生成文本。

但是後續生成的各種工具,在Transformer模型上做了一些修改,主要分為三大流派——只用編碼器、只用解碼器、編碼器和解碼器都用。只用編碼器的,就是後來谷歌的BERT;只用解碼器的,就是後來OpenAI的GPT;都用的,就是谷歌的T5。

今天來看,只用編碼器的這一支演化的歷史終結在2021年,之後就沒有後代了;編碼器和解碼器都用的這一支今天還有後代,但不多,唯一大家聽說過的就是谷歌的Gemini,不知道這個流派後續還會不會壯大;而只用解碼器的這一支是目前最人丁興旺的,我們用過的絕大部分大語言模型幾乎都是這一支的後代,比如GPT、Claude、LLaMa、Palm、Bard等等。

在這個層級上,如果你說,不發明出Transformer模型就都不算原創的話,谷歌、Anthropic、OpenAI、微軟、Meta等公司做出的產品就都得算套殼產品了。

唯一在性能上還不錯,還沒有用Transformer模型的,可以算得上原創的就只有一個Mamba模型,它使用的不是Transformer構架,而是一種稱為“結構化狀態空間”的模型,簡稱S4。它的優勢是,在處理長序列時,計算複雜度增加得很慢,記憶體瓶頸也比Tranformer小很多。但多年後的語言處理模型會不會沿著這一支漲起來,還要繼續觀察。

所以,今天業界並沒有人把這個級別的改動和優化叫做套殼,否則全球所有頂尖科技公司都是套殼,“套殼”這個詞就沒有意義了。

鄙視鏈再往下一級,就是在模型構架已經定下來後,以是不是自己做的預訓練來劃定是不是套殼。

我們知道,一個幾百上千億參數規模的大語言模型,儘管構架已經敲定,但訓練起來壓力也是巨大的。想要獲得和GPT-4第一版類似的性能,不找來大幾千到一萬張H100計算卡,不花費幾個月時間,是無法完成預訓練的。最低成本也要幾十億人民幣,外加3-4個月的訓練時長。這種事即便是OpenAI自己,一年也頂多做2-3次。

但畢竟模型構架有了,剩下的主要難點是錢,所以國內還是有幾個公司有實力自己做預訓練的。但如果要求性能接近第一版GPT-4模型的話,在國內這些公司加起來應該不到10個。最著名的,比如百度的文心一言、阿裡的千問、騰訊的混元、智譜的GLM。於是,這個檔次的公司有時會評論,除它們之外的其他AI創業項目是“套殼”。

鄙視鏈再往下延伸——即便是自己做預訓練,錢也足夠,計算卡也都買了,也還是有很多問題。比如說資料來源的問題。

因為今天全球自己做預訓練的公司,能拿到的公開資料,其實各家都是大同小異的。那些真正能大幅提高模型性能的高品質資料只有少數幾家公司才有,通常都是那些擁有大內容平臺的公司,比如谷歌有Youtube、Meta有自己的社交平臺等等。

不是谷歌、Meta的話,怎麼獲取優質資料呢?今天業界一個心照不宣但又違規的做法,就是去薅OpenAI的羊毛。OpenAI背靠微軟,財大氣粗,很早就搞定了GPT-4版本的高品質資料,於是先有一批科學家通過數學原理驗證了一件事——知識蒸餾這件事是可行的,接著大家就都開始把手伸向了OpenAI。

什麼是知識蒸餾?就是把大型複雜模型裡的知識轉移到另外一個較小模型中的方法。薅羊毛的具體動作就是,從GPT-4的輸出中獲取大量回答,把這些回答過濾篩選清洗之後,作為高品質資料,用來給自己的模型做預訓練,提高性能。

比如,2023年12月,OpenAI就把位元組跳動的API帳戶封了,原因就是被人家發現在薅羊毛,主要是量太大太明顯了。

其實,業內很多公司都在這麼做,甚至連公認不缺資料的谷歌也一度被列為薅OpenAI羊毛的嫌疑犯。今天有很多高校也推出過這類薅羊毛的模型,但OpenAI對這些高校是網開一面的。因為它們都公開聲明,這些模型的訓練資料來自ChatGPT,這些模型也都禁止用於商業用途。

除了自己完成預訓練外,還有很多事情可做。比如2023年下半年中國AI圈所謂的“百模大戰”,這裡90%的模型都不是由創業公司自己預訓練的,它們只是對已經完成預訓練的模型做微調。通常使用的就是LLaMa2這個開源模型的不同版本——7B、13B、70B等。

微調的計算量就要遠遠低於預訓練了,大約只有預訓練的1%。預訓練如果需要3個多月的時間,微調可能只需要1天或者幾天就完成了。

但只微調的局限性也很大。比如,LLaMa2如果不更新了,或者美國對ENFORCE法案批准了,AI相關的硬體、軟體、模型和參數值都不得流入外國競爭對手的話,像LLaMa2框架的性能其實是有上限的,於是再怎麼微調都永遠不可能超越GPT-4第一版的性能。

所以,這一檔次創業公司的產品非常依賴於別家模型的進步,經常被稱為套殼產品。

而實際上,還有很多連微調都不做的套殼產品,這些產品之間還可以再出分三六九等。

最高檔次使用的是Embedding特定資料集的方式,雖然最終的產品形態也是回答使用者問題,但卻能回答ChatGPT無法準確給出答案的那些問題。

這個方法其實還是有一定技術門檻的——首先要收集資料,就是那些你打算嵌入的資料,比如技術文檔、產品描述、醫療、法律、金融領域的專業知識、術語,然後使用選定的大語言模型,比如說LLaMa2 70B,把這些資料轉換為向量表示,之後把所有這些向量存到資料庫裡,對向量進行索引,以便今後快速查詢。對於用戶這一側來說,也會把他們的問題轉化為向量表示。用戶得到的答案是什麼呢?就是之前資料庫裡的向量中和使用者問題的向量最相似的那個。

這個方法不用微調大模型,而且更多時候,比如說GPT-4模型,你一個創業公司也不可能拿到這個模型,所以也就談不上微調它,最終卻可以實現一個微調的效果。

比如,今天最著名的AI搜索產品Perplexity,用的就是這種技術的代表。我就在專欄裡隆重推薦過,因為確實好用,已經有好幾百個用戶在我的推薦下付費使用了。但很多業內人士也會把Perplexity稱為套殼產品。

比Embedding特定資料集還不如的套殼,就是構建Prompt。

Prompt就是給大語言模型提問的問題內容,只不過你構建的問題更完善,更有角色代入感,更全面。

比如,你體檢查出了高血壓,你想瞭解怎麼辦,沒有經驗的你會直接問,我體檢有輕微高血壓,該怎麼辦?這樣的問題得到的結果頂多是個及格分。

但如果你有Prompt技巧的話,就知道先給大語言模型設定一個角色,然後再問,通常會有更好的效果。所以,改進版的Prompt就是這樣:如果你是一個家庭醫生,現在我體檢時的血壓是多少多少,我多少歲,我想控制住血壓,請你給我全方面的建議。這個方法如果系統化、規模化,把使用者的問題都做更全面完整的自動優化,然後再輸入給大模型,最後再把結果返回給用戶,就是構建Prompt的方法。

當然,最Low的就是,直接引用OpenAI或者Anthropic、微軟Azure這些公司的API介面,自己只做一個使用者介面,作為中間商,幫用戶傳遞問題和答案。沒有比這個套殼的檔次更低的了。

那麼,OpenAI對中國完全關閉了API後,哪些產品受益?哪些產品受損呢?

其實,只有我最後說的那兩類套殼產品,就是構建Prompt的產品和直接調用API的產品會受損。因為畢竟OpenAI提供的生成式服務品質好、價格低,現在突然不讓用了,只好改用其他公司的,性能會下降一些,費用還會漲上去了。

但生成式AI的產品發展了兩年,其實這兩類產品還活著的已經不多,這兩類產品絕大部分在2023年下半年就被淘汰掉了。

而只要是在Embedding特定資料集這個檔次和之上套殼的,影響都不太大。

比如,就以Perplexity來說,你就可以在介面裡選擇大語言模型你打算用哪個,比如我就喜歡用Claude3 opus,我覺得這個幫我搜索的答案更精准,這時候,OpenAI假如禁止Perplexity繼續調用API了,我是一點也不會受影響的。

在Embedding特定資料集層級之上的AI創業公司,至少都要手握著一個完整的模型,所以它們的產品是好是壞,和OpenAI是否提供API介面關係就不大了,最多就是不方便薅羊毛了。

更多曾經的國內使用者會湧入到國產模型上來,這對自研的國產模型廠商來說是件大好事,因為畢竟今天很多國產模型的素質已經不錯了。

雖然鄙視鏈上有高低,但最終還是市場上見輸贏。雖然Perplexity這樣的產品處於鄙視鏈下端,但一個擁有200萬使用者的套殼產品,顯然比擁有一個自研模型但零使用者得產品要好上萬倍。

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-6-28 22:34 , Processed in 0.028190 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表