7 月 11 日,英特爾宣布正式面向中國(guó)市場(chǎng)推出第二代深度學(xué)習(xí)加速器——Habana Gaudi2,該產(chǎn)品可用于加速 AI 訓(xùn)練及推理,合作方名單上包括了浪潮信息、新華三、超聚變等中國(guó)的主要服務(wù)器廠商。
“在過去六個(gè)月,AI 加速芯片因?yàn)榇竽P偷年P(guān)系忽然又再火了一把,接下來我們會(huì)有更多的資源投入,利用本土團(tuán)隊(duì)讓這些中國(guó)定制版的產(chǎn)品能夠加速落地。”英特爾公司執(zhí)行副總裁、數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理 Sandra Rivera 對(duì)第一財(cái)經(jīng)表示,未來會(huì)在合法合規(guī)的情況下推出更多針對(duì)中國(guó)市場(chǎng)的定制產(chǎn)品。
Habana Gaudi 2 作為英特爾 AI 戰(zhàn)略的關(guān)鍵產(chǎn)品之一,有望打破目前芯片市場(chǎng)的固有格局。
Habana Labs 成立于 2016 年,主要研發(fā)方向?yàn)槿斯ぶ悄堋⑸疃葘W(xué)習(xí)計(jì)算等,創(chuàng)業(yè)初期就得到了英特爾的投資,而后在 2019 年 12 月以 20 億美元被其正式收購。
根據(jù)英特爾官方信息,Habana 的第二代加速器 Gaudi2 主要解決了大規(guī)模語言模型、生成式 AI 模型的強(qiáng)算力需求問題。從參數(shù)看,該芯片采用臺(tái)積電 7nm 工藝制造,集成 24 個(gè)可編程的 Tenor 張量核心(TPC)、48MB SRAM 緩存、21 個(gè) 10 萬兆內(nèi)部互連以太網(wǎng)接口(ROCEv2 RDMA)、96GB HBM2E 高帶寬內(nèi)存(總帶寬 2.4TB/s)、多媒體引擎等,支持 PCIe 4.0 x16,最高功耗 800W。
在性能上,根據(jù)機(jī)器學(xué)習(xí)與人工智能開放產(chǎn)業(yè)聯(lián)盟 MLCommons 在六月底公布的 AI 性能基準(zhǔn)測(cè)試 MLPerf Training 3.0 結(jié)果顯示,Gaudi2 是除了英偉達(dá)產(chǎn)品外,唯一能把 MLPerf GPT 3.0 模型跑起來的芯片。
在發(fā)布會(huì)上,英特爾更是毫不避諱將產(chǎn)品與英偉達(dá)的同類產(chǎn)品進(jìn)行比較,官方展出的 PPT 顯示,Gaudi2 運(yùn)行 ResNet-50 的每瓦性能約是英偉達(dá) A100 的 2 倍,運(yùn)行 1760 億參數(shù) BLOOMZ 模型的每瓦性能約達(dá) A100 的 1.6 倍。
“英特爾正在降低人工智能的準(zhǔn)入門檻,并強(qiáng)化客戶在云端通過網(wǎng)絡(luò)和智能邊緣部署這一關(guān)鍵業(yè)務(wù)技術(shù)的能力,從而幫助構(gòu)建中國(guó)人工智能的未來。”Sandra Rivera 表示,雖然是定制版本,但是在性能上沒有打折,網(wǎng)速和國(guó)際版相比從 24 個(gè)網(wǎng)口變成 21 個(gè)網(wǎng)口,但整個(gè)性能還是基本一致的。
“在 4 月份的時(shí)候,看到了各種人工智能帶來的芯片需求,包括 Gaudi 在內(nèi),需求至少翻了兩倍以上。”Sandra 透露,英特爾在 2025 年將會(huì)把 Gaudi 的 AI 芯片跟 GPU 路線圖合二為一,推出一個(gè)更整合的 GPU 產(chǎn)品,以構(gòu)造可持續(xù)的軟件生態(tài)。
伴隨著大模型的火熱,目前全球各大芯片公司都在積極進(jìn)行 AI 芯片的布局。除了英偉達(dá)、英特爾等海外芯片廠商外,初創(chuàng)公司如 Wave Computing、Groq、寒武紀(jì)、比特大陸等也加入了競(jìng)爭(zhēng)的行列,陸續(xù)推出了針對(duì) AI 的芯片和硬件系統(tǒng)。
在此前舉行的世界人工智能大會(huì)(WAIC)上,包括昆侖芯、登臨、瀚博、天數(shù)智芯、燧原、墨芯、沐曦在內(nèi)的芯片廠商也展示了各自 AI 芯片的能力。據(jù)不完全統(tǒng)計(jì),目前與大模型“沾邊”的 AI 芯片廠商已經(jīng)超過三十家。
在業(yè)內(nèi)人士看來,以 GPU、FPGA、ASIC 為代表的 AI 芯片是目前可規(guī)模商用 AI 芯片的主要陣地,這類芯片主要基于傳統(tǒng)芯片架構(gòu),對(duì)某類特定算法或者場(chǎng)景進(jìn)行 AI 計(jì)算加速。此外,還有偏向于前沿技術(shù)的類腦芯片、可重構(gòu)通用 AI 芯片等,但距離大規(guī)模商用還有較長(zhǎng)距離。
文章來源:http://www.codekj.com/html/news/xwdt/2023_07/13/3023940.html