设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 7|回复: 0
打印 上一主题 下一主题

[转贴] 高品質數據

[复制链接]
跳转到指定楼层
楼主
 楼主| 发表于 2024-4-19 10:49:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
高品質數據堪比黃金

卓克

有人問,《紐約時報》起訴OpenAI的事情有沒有什麼新的進展呢?

具體到這個案件,並沒有新的進展,但是這類糾紛在以更劇烈的方式演化著。

在3月29日,《紐約時報》又發了一份新的聲明,不止瞄準了OpenAI,也把矛頭指向了谷歌和Meta。這件事情馬上會引發幾個行業規則的變革,都和高品質數據的版權有關。

《紐約時報》這份報告中說,OpenAI使用了一款名為Whisper的語音辨識工具。其實我平時也用這個工具去扒視頻字幕,只是為了看字幕快一點,看視頻太浪費時間。

《紐約時報》說,OpenAI用Whisper轉錄了大量YouTube視頻中的語音部分,然後生成文字,作為文本來訓練GPT-4。而且OpenAI也承認這種做法,還補充說,已經轉錄了超過100萬小時的視頻內容。

《紐約時報》說,現在大公司訓練AI模型時使用小偷小摸的手段已經非常普遍了,儘管這些公司都有數據來源合法性的要求,但實際上沒有人執行。這件事谷歌本身也在做,他們也是把YouTube視頻內容轉成文字訓練大模型。

有些人可能會有疑問,YouTube和谷歌不是一碼事嗎?不。因為它們轉錄的內容並不完全歸屬於自己,它們也侵犯了視頻作者、出版社、電視臺和新聞機構的利益。

從這個態勢上我們也能發現,現在的矛盾已經不局限在《紐約時報》和OpenAI之間了,矛盾核心是AI公司應該怎麼獲取、怎麼使用高品質數據。這些數據的價值堪比黃金。而矛盾方也從《紐約時報》PK OpenAI,變成了任何一個高品質內容的擁有者PK任何一個大的AI公司。當然,還有AI公司之間為了高品質數據互相PK的問題。

儘管現在大火還沒有燒起來,但離打成一鍋粥也已經很近了。

比如說,Photobuchet是一個提供網盤服務的網站,主要針對使用者提供照片的存儲和分享。十年前,在雲存儲創業大熱的時候,因為手裡錢多,為了爭奪市場,為用戶提供了相當大的免費圖片空間和免費的外鏈服務。

不過在2017年的時候,錢見底了,於是開始對圖片外鏈功能收費,每年399美元,相當於人民幣2900多元。於是很多用戶就棄用了,用戶數量從7000萬大幅下降到200萬,而超過一年沒有使用的帳戶就會被回收。

在這個網站註冊時,有一些使用者協定和隱私政策也支援Photobucket對使用者上傳的圖片擁有使用權,可以用於開發AI技術。又因為美國在數據隱私保護上相比歐洲還是太不嚴格了,於是已經奄奄一息的Photobucket公司竟然在2023年迴光返照。很多科技公司找上門來,圖片一張出價5-10美分,視頻一段出價1美元,向它購買數據訓練AI。

他們這些年一共保留了130億張照片和幾千萬段視頻。CEO粗略估計了一下,大約值十億美元。而且這些東西不是零散地賣,買家都是財大氣粗,一出手就是一次全買走。現在CEO正在幾個買家間考慮。有一個買家最初提的需求是,想要10億段視頻,不過Photobucket遠沒有那麼多的視頻可以賣。而今天全球最大的視頻數據庫就是YouTube上的內容。

數據爭奪戰一觸即發的跡象還有一個,就是Google馬上要對AI驅動的搜索收費了。

其實谷歌的搜尋引擎伺服器裡也保存著大量內容,甚至可以說是自從21世紀以來所有互聯網頁面上出現過的內容谷歌都保存著。AI驅動的搜索儘管不是拿這些數據做訓練,卻也是用這些搜索到的數據做進一步加工。比如我給大家推薦過的Perplexity、Kimi助手和秘塔搜索,都是這樣的。這也是谷歌歷史上第一次對它的主要服務——搜索——進行直接收費。

最近還有一個挺讓人意外的消息,由中科院下屬幾個機構參與的研究中,出現了百度弱智吧。

這個研究是為了解決中文大語言模型的一些問題。類似GPT-4這樣的模型,在訓練時使用的中文占比是非常少的,大約只有千分之幾。其他開源的大語言模型最初的訓練語料裡中文比例也差不多是這樣的。於是在我們自己研發創新時,勢必要對大模型做微調,才能更好地回答中文用戶的問題。

用什麼做微調呢?就是用一些高品質的中文數據。這個研究就對比了不同來源的數據對微調效果的影響,比如各種考試、中文維琪,還有常見的邏輯問答,另外就是豆瓣、小紅書、知乎這些網站上的數據。其中,數據品質最高的是GOIG數據集。這裡集合了知乎、豆瓣、百科、小紅書上的數據,再經過嚴格的清洗和人工審核,屬於好上加好的精挑細選。結果最終得分81.2分,排名第三。

排名第二的得分81.3分。這是哪個數據集優化出來的呢?就是用百度弱智吧裡的數據。

得分排名第一的是GOIG數據集的一個子集,可以算精挑細選二次方後的結果。

這麼高大上的研究隊伍竟然把測試範圍都已經擴展到弱智吧上了,也說明今天的AI訓練對高品質數據有多迫切的需求,每一個能想到的方面都不會遺漏。

當然,你要是看看弱智吧,其實還真挺好玩的,有很多富有邏輯和哲學的玩笑還有思考。弱智頂多是那些聰明人認為自己不夠智慧的一種自嘲罷了。

關於高品質數據的匱乏,最權威的解讀來自於EPOCH(EPOCH官網連結)。機器學習和AI圈內人經常會訪問這個網站,因為它提供了不同模型的演算法細節和詳細的系統資訊,還提供了很多優質的數據庫。

他們曾經在2022年11月發佈了一份報告《機器學習的數據會用完嗎》(報告連結)。這篇文章是根據2022年機器學習對數據的使用和新數據的生成情況,再考慮計算資源的增長,結論是高品質語音數據大約會在2023年2月到2025年3月用盡,圖像數據會晚很多,也寬泛了很多,會在2032年到2049年間用盡。

而高品質的語言數據是不是真的用光了呢?畢竟預測中最近的時間點其實已經過去一年了。

現在看來,好像真有可能。2023年11月OpenAI內鬥中扯進來的Q*專案,還有GTC2024大會上黃仁勳約7位元Transformer模型的作者聊天時,其中一個作者當時在OpenAI工作,這個人剛剛提到了Q*,公關經理就沖上臺來捂嘴。好像這些跡象都讓人看到了一絲端倪——OpenAI在努力搞定高品質數據的自我合成、然後自我訓練,這條路上好像也無比艱難,遠不如去買現成的高品質數據便宜。

當然,這篇文章自己也說,這個估測局限性很大。比如說,今後的演算法對數據的利用效率大大提高,或者找到了高品質數據的自我合成方法,這個預測就失效了。

從今天數據這麼好賣的態勢上看,免費獲取的數據肯定已經用盡了。於是各大AI巨頭冒著被起訴的風險到處買數據,不管是陳舊的聊天記錄,還是多年前被遺忘的照片,只要規模過億,都成了AI巨頭眼中的香餑餑。如果不趁著各種版權價格飛漲起來之前把數據搞到,今後訓練出一個性能可靠的模型,獲取數據的費用可能還會超過今天已經非常昂貴的晶片的費用。

今天還有一種新的生意,就是為AI製作真實且高品質的數據。採用的方式和前幾年亞馬遜在網上用極低的價格雇傭世界各地的人,幫他們給圖片打標籤是一樣的。很多公司用這種方式低成本地、用有監督的學習訓練出來了性能出色的神經網路。今天,這樣的雇傭關係又會再次開啟。

Defined.ai就是一家為AI公司提供定制化真實高品質數據的公司。具體是怎麼經營呢?首先是AI公司根據自己的模型之前預訓練的情況,摸清優質數據的特點。大面上來講,對圖片會有一些共通的要求,比如解析度達到多少以上、噪點儘量少、避免模糊、避免過曝、內容真實不能是PS的。

但實際上,更大多數公司買數據是用作微調的,於是針對性就更強了。比如說,就是需要夜裡的照片、夜裡的錐桶、夜裡的停車場、夜裡的指示牌,為的就是提高AI在夜景下的識別率。這樣的照片徵集令發佈在網站上,任何人都可以領任務,領回去自己拍,拍完上傳,由公司審核,然後把符合要求的部分按張數結算。最後把嚴格審核過的高品質夜景圖片1億張打包賣,比如說賣2億美元。

大約就是這樣一個經營模式。今天真實的價格大約是一張高品質的圖片1-2美元,一個十幾秒的短片5-7美元,一部10分鐘以上的高品質影片100-300美元,文本是千字1美元。領分包任務的人可以得到其中20%左右的費用。

現在矛盾在加劇,同時新的數據生意在開拓。之後會出現什麼情況呢?

首先,那些多年前已經被廢棄的帳號留給平臺的數據會被濫用,而用戶本人不一定知道。

其次,會有大批的數據生產者誕生。我們也可以把他們統稱為內容生產者,只不過這次生成的內容不服務於使用者,所以不一定有情節,不一定抓眼球,不追求流量。內容出產者的門檻大幅降低,普通人只要帶上符合要求的設備,拍拍走路、做飯、打球、做家務的視頻,也能有不錯的收入。

還有,各大傳統內容平臺就要規劃一下在什麼時間、接受怎樣的價格賣出自己的數據。時間點很重要。

首先是要趕在大批隱私被侵犯的案件爆發前趕緊以一個合適的價格賣出去。

其次是要賭一個未來,AI巨頭們可千萬別把什麼Q*項目修煉出來,否則AI哪天擁有了自我生成高品質數據的能力,今天一切真實的數據又要大降價了。

最後,比如某個平臺,一個典型的擁有高品質數據的單位,按說它如果要賣數據的話,應該會被重視,價格也不會低。但現實中,可能會有十幾萬、幾十萬搞盜版、薅羊毛的人已經磨刀霍霍了,先花十幾萬塊錢把所有文章都買下來,再把所有數據和使用者評論也扒下來,然後再向國內AI企業以這個平臺1/10或幾十分之一的價格兜售,這些數據就可以用於微調大模型。而國內的AI企業會拒絕這樣的誘惑嗎?於是,之後也會有一大堆訓練AI數據的版權糾紛出現。

之前那些根本不可能作為內容出版賣錢的數據,在AI時代,都能展現出自己作為資訊的價值,這不知道是好事還是壞事。

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-6-29 02:21 , Processed in 0.028282 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表