您的位置:首頁 >熱訊 > 聚焦 >

焦點滾動:天下再無免費數據?“美版貼吧”向AI公司收取數據使用費

《科創板日報》4月19日訊(編輯 鄭遠方)AIGC熱潮下,數據重要性愈發凸顯。以ChatGPT為首的人工智能,由龐大數據集訓練而成。如今,已有公司“揭竿而起”要求收費,不再甘于被微軟、谷歌等科技巨頭免費用數據。


(資料圖片)

當地時間周二,Reddit宣布,將向使用其API訓練AI聊天機器人的公司收取數據使用費,其中便包含微軟、谷歌、OpenAI等。

之前這些公司都通過應用程序編程接口(API)下載并處理論壇上的聊天內容,并將聊天內容當做免費訓練工具,用于開發新AI系統。例如,谷歌聊天機器人Bard的底層算法之一便是用Reddit聊天數據訓練而來;OpenAI的ChatGPT也將Reddit數據納入大型語言模型的訓練內容。

Reddit是美國訪問量最大的網站之一,用戶可以在其中創建并分享內容,還有人將其稱為“美國版百度貼吧”。

公司創始人兼首席執行官Steve Huffman表示,“Reddit比互聯網上任何其他地方都更適合聊天,平臺上很多內容是用戶只會私下說的、或壓根不會說的東西。Reddit的數據庫確實很有價值,我們沒有必要免費提供這些價值給世界上最大的公司?!?/p>

這也是首次有社交媒體公司明確向OpenAI等收取費用,開放訪問權用于開發人工智能系統。

目前,Reddit暫未公布具體收費標準,但其表示,將會給出不同的等級,根據使用者的規模和需求來收費。此外,這一舉措不會影響那些使用API來創建和維護內容審核工具的人,Reddit會為他們提供專門的iOS和Android應用程序。

實際上,眼下已意識到數據價值的公司并不止Reddit——圖片托管服務商Shutterstock已把圖像數據出售給OpenAI,幫助開發了DALL-E;許多公司也在使用API追蹤推特上的聊天內容,推特計劃針對API使用收取幾萬到幾十萬美元不等的費用。

▌數據已成“AI發展的勝負手”

為了不斷改進AI模型,有兩個關鍵因素不可或缺:強大的計算能力和大量可用的數據。一些大型AI開發公司通常擁有足夠的算力,但仍會在互聯網上尋找改進算法所需的數據,數據來源包括維基百科、各種數字化書籍、學術文章和Reddit論壇上的聊天內容等。

OpenAI就曾透露,訓練ChatGPT使用了45TB的數據、近1萬億個單詞,大概是1351萬本牛津詞典所包含的單詞數量。

知乎在日前發布大模型“知海圖AI”,其倚仗的一大有力支撐便是中文互聯網大量問答內容。知乎創始人、董事長兼CEO周源表示,AI時代,生產力的三要素分別是應用場景、專有數據和基礎模型。其中,知乎以問答為基礎的討論場景是天然的應用場景,構成了獨一無二的專有數據。

彭博的BloomberGPT訓練數據總量約為5300億次,其中金融行業數據約為2720億次,約占所有訓練數據的54.2%,來源包括網絡、新聞、公司公告與財務報表以及彭博自己的新聞庫。

海量數據為基礎的大模型訓練產生了突現能力(Emergent Ability),帶來AI研究范式轉變。只有在訓練數據量足夠大時,量變才能引起質變。而GPT相比于此前模型所具備的“泛化能力”,就是以海量數據為基礎產生的。

在這種情況下,數據更有了“AI發展的勝負手”之稱——算法、算力和數據是AI發展的三大重要基礎。東吳證券指出,對于我國而言,算法和算力都可以通過挖掘優質人才、引進優秀工程實踐,或者直接購買海外優質資產追趕。而培養中文環境的優質數據集、語料庫卻必須長期自我積累沉淀,未來數據將成為AI發展的勝負手,并有望為中國訓練自己的大模型,走出差異化道路提供重要基礎。

關鍵詞:

圖賞

在线看成人片,性感美女在线,91视频在线看,青柠电影在线看