设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 12|回复: 1
打印 上一主题 下一主题

[转贴] Transformer

[复制链接]
跳转到指定楼层
楼主
 楼主| 发表于 2024-4-3 08:50:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Transformer模型誕生的故事

卓克

2024年3月18日,英偉達舉辦了今年的開發者大會,這次會議的主題就是AI,參展商200多家,演講20多場。哪怕是黃仁勳親自登場的演講很多也都是商業互吹,但唯獨有一場討論乾貨密集,那就是黃仁勳和7個人的對聊。

這7個人就是Transformer模型這篇論文8個作者中的7個。這個模型當年是以論文的形式發表的,論文名稱叫《Attention is All You Need》,它並不是“只需要全神貫注”的意思,而應該翻譯成“只需要關注自注意力機制”。

如果說今天所有的人工智慧只有一個最近的共同祖先,這個祖先就是這篇論文。而黃仁勳把這篇論文全部8位元作者中的7位邀請來一起聊天,實在是抓人眼球。

我們之前提到谷歌衰落時也說到過,Transformer模型的8位作者,如今全都從谷歌出走了,谷歌創造了這麼重要的思想,但卻留不住人才。這8位作者都分別去哪兒了呢?

咱們邊說Transformer的故事,邊聊這些人的動向。

13年前的2011年10月29日,蘋果在iPhone4S上推出了效果驚豔的Siri。當時很多人在社交媒體上秀自己和Siri的聊天記錄。當年還流傳了一幅圖,就是蘋果的客服部門雇了幾百上千個印度人正在扮演Siri為用戶回答問題。

谷歌當時就被Siri的功能震撼到了。他們擔心Siri會搶走搜尋引擎的流量,而這個流量是谷歌最主要的廣告收入來源。於是在2012年谷歌組建了一個團隊,開發一種可以和使用者直接對話的模組,通過生成答案跳轉到使用者希望看到的頁面。

當然,事後看,谷歌搜索的流量一點都沒有被Siri搶走,這個針對性的研發團隊也並沒有開發出可用的產品,卻孕育出了今天所有大語言模型的共同祖先。

谷歌最初使用遞迴神經網路(RNN)構建這個對話工具。因為那一年,六十多歲的老辛頓帶領著兩個關門弟子伊利亞和阿列克斯參加了斯坦福大學的圖片識別競賽ImageNet,結果他們開發的RNN演算法獲得了冠軍,錯誤率一下比上一年減少了15%。而此前,這項競賽每年的冠軍只會比上一年進步1%-2%。

谷歌經過兩年的努力,谷歌發現RNN演算法只能處理短的句子,幾句話之前提到的內容,處理的效果就非常糟糕。當然,這時谷歌也早已確認,Siri根本沒有和谷歌搜尋引擎搶流量。

到了2014年,小組中的雅各·烏斯科雷特(Jokob Uszkoreit),也就是論文的第4作者,我們之後就稱他為“老四”,其他作者我們也都用老幾老幾來稱呼。咱們接著說。老四提出了“自注意力機制”,就是把每個詞和這段話中所有元素的關聯度都算出來的模式。他這個創新式想法當年沒人看好,連他爸爸都很反對。當然,他爸爸不是一般老頭,而是德國著名的電腦語言學家。

後來,老四還是說服了3位谷歌的同事跟他一起爭取到一些資源,和老八(Illia Polosukhin伊利亞·波洛蘇欣,並不是OpenAI那個伊利亞)一起用自注意力機制訓練出了一個小模型。

老四在2010年讀碩士期間,就在谷歌實習過,當時在翻譯組。不過後來因為打算接任家族企業,博士讀到一半就退學了。而家族企業最終也沒能接手,他又回到了谷歌。他回到谷歌時,正好趕上蘋果的Siri推出,谷歌要構築護城河。

老八和老四前後腳進入谷歌,又都在一個組,一起在飯廳吃午飯時就討論到最近不太順利的開發過程。老四不斷向老八安利自注意力機制,老八聽懂後終於認同了,又拽來了老大,一個印度小哥(Ashish Vaswani 阿什什·瓦斯瓦尼),最初就是這三個人一起搞自注意力機制。

三個人都是80後,受到動畫片的薰陶,決定把自注意力機制的模型起一個響亮的名字——Transformer。這個名字既有“模型會改變接收到的資訊”的意思,也是著名動畫片“變形金剛”的意思。

半年後,印度小哥又把他的師妹拉進來,也就是老三(Niki Parmar)。

老五來自英國,2009年在伯明罕大學碩士畢業,但畢業後有半年時間沒找到工作,一直靠領救濟金過日子,2012年才加入了YouTube團隊,然後轉入谷歌研究院。老五第一次聽說Transformer這個名字時,是在一次批判和聲討中聽說的,當時聽說Transformer模型怎麼怎麼不如貝葉斯演算法等等。結果等他自己去瞭解的時候,覺得Transformer還不錯,於是加入其中。

老六(Aidan N. Gomez)是8位作者中最年輕的,但他出自多倫多大學辛頓實驗室,所以算是神經網路祖師爺親傳的。他讀本科的時候就經常給谷歌寫各種研究想法。谷歌大腦的一位研究員(Łukasz Kaiser),其實也就是論文的老七,看到老六的想法非常有意思,就邀請他進來谷歌實習。老六高高興興地開始在谷歌實習,結果實習了一段時間才發現,老七當初招的實習生其實是針對博士生的,而他那時才是本科大三。老六當然早就知道這一點,但他看中的是能力,學歷放在其次。

老二(Noam Shazeer,諾姆·沙澤爾)是最後一個加入的。老二也是8個人中資歷最老的,他2000年在谷歌只有200人的時候就入職了。2017年,他經過走廊的時候,聽到老七和老大正吵得不可開交,內容不是什麼職責上的扯皮,而是關於自注意力機制,旁邊還有老三興致盎然地在圍觀。老二也就湊過去聽聽,覺得他們說的東西還挺有前景的,於是老七也沒顧及老二是副總裁級別的人,把他也拉入了團隊。老二別看級別很高,但那篇論文的代碼差不多是他一個人重新整理和編排敲出來的。

他們的目標是,在2017年神經資訊處理系統大會(NeurIPS)上展示成果,於是8個人從2017年2月份起每天工作14小時以上,連續加班了兩個多月,終於在論文截止日期之前的五分鐘提交上了內容和測試。

這個論文的第一版草稿,老二的名字排在首位。一個是因為他在谷歌的職級很高,其次是大部分代碼都是他親手敲的。

不過老二看了之後不同意,因為從時間上看,從創意上看,他加入的時間點都太晚了。於是大家重新排了一次作者順序,這就是今天這篇論文的順序了。我把這篇文章截了一張圖放在了下文,你感興趣可以看看。你會發現,每個人名字後面都有一個“*”,意思是作者排名完全隨機沒有按任何順序。

圖 創世論文首頁8位作者
圖 Transformer模型工作原理

這篇文章附帶了兩個版本的模型:在後來的NeurIPS挑戰賽中,65M基礎版的就已經超過了所有對手,213M的升級版還打破了挑戰賽的記錄。

論文的名字也很有意思,最初打算用老五提出的《All You Need Is Love》。老五來自英國,《All You Need Is Love》是英國樂隊Beetles的著名歌曲。不過後來大家覺得,挑戰賽上起了一個這麼浪漫的名字容易引起誤解,所以論文題目最後改成了《Attention is All You Need》。

以上大約就是這篇創世論文誕生的小故事。

不過還沒完。因為老二(Noam Shazeer)在谷歌的職級比較高,又深度參與了Transformer的開發,瞭解了其中的價值,於是2017年5月份就給谷歌的高管們發了郵件,建議公司放棄當前搜尋引擎的邏輯,開始使用Transformer模型訓練一個巨大的神經網路,重新建立搜索功能。

這個建議不要說谷歌當時的高層,哪怕是Transformer模型團隊中的另外幾個人聽了,都覺得太不可思議。大家這種反應也是正常的,畢竟谷歌的全部利益、全部硬體和軟體都構建在那個傳統的PageRank演算法上,把這個改成Transformer相當於重建一個谷歌。這種大升級只能由創業公司去做,本身已經變成巨頭了,就沒有機會做變更了。

而就在這篇論文發表後的第一天,OpenAI的首席科學家伊利亞(Ilya Sutskever)就意識到了其中的含金量,馬上停掉了OpenAI當時在做的一切亂七八糟的嘗試,什麼玩DOTA遊戲的機器人啊,什麼AI控制機械手臂啊——把一切研發力量和算力都集中在GPT-2的模型開發上,接著就是GPT-3和GPT-4的故事了。

谷歌的高管在2023年時候評論OpenAI的崛起,都認為自己其實如果當年重視自己創造出的Transformer模型的話,很可能在2019年就已經做出GPT-3.5了。

而這8個人的陸續離職也伴隨著谷歌的衰落。2019年,最年輕的老六創辦了Cohery,這個公司為企業提供大模型解決方案,目前估值是22億美元。接著在2021年到2023年,另外7位作者先後離職——

老大和老三(Ashish Vaswani 和 Niki Parmar)一起創業做出了Essential AI

老二(Noam Shazeer)創業做出了Character AI

老四(Jakob Uskhoreit)創業做出了 Inceptive AI

老五(Llion Jones)創業做出了Sakana AI

老八(Illia Polosukhin)創業做出了 Near Protocol,一個區塊鏈公司

只有老七(Łukasz Kaiser)例外,他沒有自己創業,而是去了OpenAI 。他在這次對聊中一度還說出了Q*計畫,嚇得OpenAI公關部經理趕緊沖上臺制止他繼續往下說。

他們在談話中還提到了,Transformer模型之後,下一個里程碑的模型將會是一個能從小資料中學習的模型,這個模型將會替代Transformer,至於這個模型會用到什麼演算法,相信未來幾年我們就會看到。

從Transformer模型的誕生我們能體會到什麼呢?

1. 創新來自於開放和包容。

這8個人,有的來自德國,有的來自英國,有的來自印度,有的來自烏克蘭;有的剛剛本科,有的是碩士,有的是博士,有的是副總裁。他們所在的公司沒有嚴格的戒律,全部新想法都是在飯廳和走廊上碰撞得到的。

2. 創新來自於土壤,而不來自於特定的、若干某幾個菁英。

當我們把視線從這8個人身上挪開,就會注意到,當年在谷歌研究院和谷歌大腦所有的研究員們,其實都擁有大致類似的天份和實力,哪個演算法會成就今天的AI,這事兒沒人知道。也許在另一個平行宇宙中,勝出的將是另外8子,而不是當下這8個人。

一個人的生命長度是有限的,他只能歷遍比如3種選擇,而全部選擇有1億種,其中只有100種是行得通的,行得通的將會成就巨大的成功。無論這個菁英多麼天才,能利用全部人生的3種選擇、壓中那1億中的100種成功模式嗎?那實在是一種運氣。

如果你只有1000個菁英,只能提高一點點成功的概率而已。而如果這裡是一個吸引菁英、培養菁英的土壤,那麼只要給足時間,這裡上百萬的菁英會幫你歷遍全部1億種可能性中的所有成功模式。
沙发
 楼主| 发表于 2024-4-3 08:50:49 | 只看该作者

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-6-29 03:08 , Processed in 0.031968 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表