電廠|英偉達(dá)再推「中國特供版」AI芯片:人工智能競(jìng)爭(zhēng)中的貓鼠游戲
記者 肖余林編輯 高宇雷在中美人工智能的激烈競(jìng)爭(zhēng)中,英偉達(dá)成為了游弋在政治和商業(yè)中尋找利益最大化的「鯊魚」。美國商務(wù)部產(chǎn)業(yè)與安全局(BIS) 1017 新規(guī)已經(jīng)在 11 月 16 日生效,英偉達(dá)針對(duì)中國市場(chǎng)推出的「特供版」 A800 和 H800 芯片遭到出口合規(guī)限制,無法向中國客戶出售。然而,11 月 9 日有消息透露,英偉達(dá)將推出三款針對(duì)中國市場(chǎng)的 AI 芯片,包括 H20、L20 和 L2 三款,并列出了詳細(xì)規(guī)格。隨后,英偉達(dá)在業(yè)績會(huì)上確認(rèn),將努力爭(zhēng)取高性能產(chǎn)品在中國市場(chǎng)的銷售許可,也會(huì)研發(fā)更多合規(guī)的數(shù)據(jù)中心產(chǎn)品組合?!肝覀冋谂U(kuò)展我們的數(shù)據(jù)中心產(chǎn)品組合,以提供不需要許可證的新法規(guī)合規(guī)解決方案,這些產(chǎn)品可能會(huì)在未來幾個(gè)月內(nèi)上市?!?1月 24 日,據(jù)路透社報(bào)道,兩位消息人士透露,英偉達(dá)已告知中國客戶,H20 發(fā)布時(shí)間將推遲到明年第一季度。L20 芯片不會(huì)延期,并將按照原定計(jì)劃推出。消息人士無法分享有關(guān) L2 狀態(tài)的信息。1017新規(guī)是 BIS 推出的第二個(gè)版本的限制措施,這一版本比第一個(gè)版本更加嚴(yán)格,根據(jù)芯片的總處理性能(TPP)和性能密度劃出限制條件,符合任一條件即認(rèn)為處于管制范圍。特供版如何突破封鎖根據(jù) Semianalysis 透露的規(guī)格參數(shù),H20、L20 和 L2 三款芯片的性能被大幅壓縮。以 H20 為例,這款芯片的峰值算力最大理論值僅為 296 TFLOPs,數(shù)字上還不如消費(fèi)級(jí)的游戲顯卡。作為比較,熱門的 H100 芯片的這一數(shù)值為 1979 TFLOPs,消費(fèi)級(jí)的 RTX 4090 顯卡為 661 TFLOPs。這樣的壓縮顯然是為了限制總處理性能和性能密度,以避開精心設(shè)計(jì)的封鎖條件:- H20的總處理性能為2368,性能密度僅為 2.9,小于 3.2 的管制許可值;- L20的總處理性能為1912,但性能密度為 3.1,小于 3.2 的管制許可值;- L2的性能密度為 5.2,但總處理性能僅為1544,小于 1600 的管制許可值。大幅壓縮參數(shù)之后,三款芯片仍然有眾多耐人尋味的地方。H20有比 H100 更高的緩存和帶寬,支持英偉達(dá)第四代 NVLink 連接,連接速度保留了 900 GB/s 滿速。這保證了多卡增強(qiáng)效果的實(shí)現(xiàn),在實(shí)際多卡互聯(lián)環(huán)境中,H20 組合性能接近 H100 的 50%。不過,H20 的側(cè)重點(diǎn)在模型推理環(huán)節(jié),不需要承擔(dān) H100 那樣的預(yù)訓(xùn)練任務(wù)。由于采用了與英偉達(dá)下一代 GPU 相似的核心,Semianalysis 推算,H20 在大模型推理運(yùn)算中比 H100 還要快 20%,這將極大提高大模型產(chǎn)品在應(yīng)用端的表現(xiàn)。比如,運(yùn)行 Meta 700 億參數(shù)的 LLAMA 模型需要兩個(gè) H100,但只需要一個(gè) H20。L20和 L2 分別替代此前遭到管制的 L40 和 L4,更適合用于工作站等領(lǐng)域。L20 和 L2 采用了跟 RTX 4090 同樣的 Ada Lovelace 架構(gòu),其中,L20 使用的是 RTX 4090 同款的 AD102 GPU 核心。此前國內(nèi)有 RTX 4090 顯卡 DIY 工廠被曝出,買家大量囤積 RTX 4090,通過拆解出 GPU 核心,再外置鼓風(fēng)機(jī)風(fēng)冷的方式,讓多卡組合適配 AI 服務(wù)器工作??紤]到國內(nèi)客戶的 DIY 能力,且由于 L20 在生產(chǎn)中不涉及產(chǎn)能受限的 CoWoS 封裝環(huán)節(jié),因此能夠短時(shí)間內(nèi)推向市場(chǎng),緩解很多買家的算力慌。誰還需要「特供版」聯(lián)想集團(tuán)董事長兼 CEO 楊元慶曾表示,目前大多數(shù)大模型都在算力較強(qiáng)的公有云上訓(xùn)練。未來,大模型的計(jì)算負(fù)載將逐漸由云端向邊緣側(cè)和端側(cè)下沉。越來越多的人工智能的推理任務(wù)將會(huì)在邊緣和設(shè)備端進(jìn)行。英偉達(dá)的第一代「特供版」芯片 A800 和 H800 有 11 個(gè)月的出口窗口期,平臺(tái)公司利用這一窗口期大量采購。市場(chǎng)上有消息稱,百度、字節(jié)跳動(dòng)、騰訊和阿里已向英偉達(dá)訂購了價(jià)值 10 億美元的共約 10 萬張 A800 芯片,將于年內(nèi)交付,另外價(jià)值 40 億美元的芯片將于 2024 年交付。騰訊曾發(fā)布公開聲明稱,儲(chǔ)備了大量的 A800 和 H800 芯片,足夠支持好幾套 AI 大模型的訓(xùn)練??梢灶A(yù)見,第一代「特供版」將成為公有云算力的重要來源,承擔(dān)大模型的預(yù)訓(xùn)練任務(wù)。第二代「特供版」把重點(diǎn)放在了大模型推理運(yùn)算環(huán)節(jié)上,這一環(huán)節(jié)更靠近應(yīng)用端,對(duì)算力要求相對(duì)于模型預(yù)訓(xùn)練更低,更多的要求是在短時(shí)間內(nèi)處理大量的輸入數(shù)據(jù)。AI大模型訓(xùn)練涉及到眾多環(huán)節(jié),從 OpenAI 到創(chuàng)業(yè)公司,普遍面臨缺少訓(xùn)練數(shù)據(jù)的情況,特別是垂直領(lǐng)域當(dāng)中與業(yè)務(wù)有關(guān)的數(shù)據(jù)。電廠記者從業(yè)內(nèi)人士那里了解到,很多行業(yè)在上一輪數(shù)字化轉(zhuǎn)型當(dāng)中沒能做好,導(dǎo)致在 AI 落地方面缺少數(shù)據(jù)。低數(shù)據(jù)量會(huì)造成應(yīng)用端表現(xiàn)差,直接影響前端的表現(xiàn),進(jìn)而無法沉淀更多數(shù)據(jù)出來。因此,中小企業(yè)和個(gè)體創(chuàng)業(yè)者急需大模型落地,用相對(duì)不高的算力啟動(dòng),用時(shí)間把數(shù)據(jù)跑出來。這次的三款特供版芯片,也針對(duì)這一趨勢(shì),面向更多「邊緣」客戶。英偉達(dá)此前就有布局,為了幫助更多沒有拿到足夠算力的中小企業(yè)和個(gè)體創(chuàng)業(yè)者。英偉達(dá)在 10 月份針對(duì) Windows 平臺(tái)推出了 TensorRT-LLM,這個(gè)模型可以幫助運(yùn)行在 Windows 設(shè)備的大模型更好地利用 RTX 顯卡和 GPU 的性能。根據(jù)英偉達(dá)的說法,這樣的設(shè)備超過 1 億臺(tái)?!柑毓┌妗惯€是「煙霧彈」美國商務(wù)部 1017 新規(guī)的生效時(shí)間是 11 月 16 日,正是傳言中 H20 的發(fā)布日期。H20 「原計(jì)劃」將在 11 月 16 日發(fā)布,在 12 月量產(chǎn),但后來推遲到明年一季度。黃仁勛在業(yè)績會(huì)上也提到,「我們將確保與美國政府充分討論我們?cè)谶@些產(chǎn)品上的意圖?!购茱@然,英偉達(dá)要留出時(shí)間窗口,等待監(jiān)管方的反應(yīng)。那么,H20 首先是一枚煙霧彈。從 BIS 1017 新規(guī)中表現(xiàn)出的「哪里漏了補(bǔ)哪里」的特點(diǎn)來看,英偉達(dá)在與 BIS 的這場(chǎng)貓鼠游戲中占有主動(dòng)權(quán),有更豐富的技術(shù)儲(chǔ)備和應(yīng)對(duì)思路。一旦 H20 進(jìn)入安全通道,更多「特供版」也會(huì)陸續(xù)到來。可另一方面,即便英偉達(dá)主動(dòng)推出「特供版」,也要考慮市場(chǎng)容量和產(chǎn)能。英偉達(dá) H100 還在消化訂單,H200 排隊(duì)到明年二季度,整個(gè)供應(yīng)瓶頸卡在臺(tái)積電的 CoWoS 封裝環(huán)節(jié)。H20 同樣使用臺(tái)積電的 CoWoS 封裝,這意味著 H20 即便繞過監(jiān)管,交付時(shí)間也可能比傳聞更長。由于出口限制措施,英偉達(dá)沒有在算力上實(shí)現(xiàn)突破,但 H20 在中國市場(chǎng)仍然是一款一魚多吃的產(chǎn)品。H20 買家將更依賴 NVLink 技術(shù),英偉達(dá)也能借此鞏固自己 CUDA 軟件平臺(tái)的護(hù)城河。相應(yīng)的,H20 買家在后續(xù)考慮國產(chǎn)替代時(shí),就要承擔(dān)額外的遷移成本。等待時(shí)間越久,這枚「特供版」芯片的命運(yùn)也會(huì)愈發(fā)撲朔迷離。
11-30