您的位置:首頁 >熱訊 > 股票 >

每日看點!攻堅AI大模型網絡,騰訊云出新招


(資料圖片僅供參考)

北京日報客戶端 | 記者 袁璐

AIGC的爆發除了帶來算力上的挑戰,對網絡的要求也達到了前所未有的高度。

6月26日,騰訊云首次對外完整披露自研星脈高性能計算網絡:星脈網絡具備3.2T通信帶寬,能提升40%的GPU利用率,節省30%至60%的模型訓練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計算規模。

“星脈網絡是為大模型而生?!彬v訊云副總裁王亞晨表示,該網絡所提供的大帶寬、高利用率以及零丟包的高性能網絡服務,將助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業大模型的訓練效率,在云上加速大模型技術的迭代升級和落地應用?!?/p>

記者注意到,AIGC的火爆帶來AI大模型參數量從億級到萬億級的飆升。為支撐海量數據的大規模訓練,大量服務器通過高速網絡組成算力集群,互聯互通,共同完成訓練任務。但大集群不等于大算力,相反,GPU(圖形處理器)集群越大,產生的額外通信損耗越多。大帶寬、高利用率、信息無損,是AI大模型時代網絡面臨的核心挑戰。

據了解,千億、萬億參數規模的大模型,訓練過程中通信占比最大可達50%,傳統低速網絡的帶寬遠遠無法支撐。同時,傳統網絡協議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。

AI大模型催生了巨大的算力需求,當前,A100是大模型應用的“主力芯片”,價格大約為1萬美元。OpenAI表示,AI大模型要持續取得突破,所需消耗的計算資源每3至4個月就要翻一倍,資金也需要通過指數級增長獲得匹配。英偉達的研究表明,GPT3最大規模的模型需要使用175 Billions的參數量,需要使用512顆V100顯卡訓練7個月時間,或者使用1024顆A100芯片訓練一個月時間。測算下來,大模型訓練每月成本在數百萬美元以上量級。

目前大模型開發和訓練為何十分昂貴?業內專家表示,首先,大模型需要大量的計算資源,包括CPU(中央處理器)、GPU、FPGA(現場可編程門陣列)、ASIC(專用集成芯片)等硬件設備,以及支持大規模并行計算的軟件平臺和框架。這些設備和平臺的成本非常高昂,而且不斷更新換代,需要不斷投入新的資金和人力進行維護和升級。其次,大模型的訓練和開發涉及大量的數據存儲和數據傳輸,這也需要相應的網絡和存儲資源,成本同樣不低。最后,大模型的開發和訓練需要大量的人力和時間投入,同時也需要成熟的算法設計和調優技術來保證其效率和準確性。

關鍵詞:

資訊

在线看成人片,性感美女在线,91视频在线看,青柠电影在线看