微軟已花費多年時間設計自家的人工智能芯片,部分原因是希望減少對英偉達的依賴。然而,這一計劃的進展并不順利。
微軟AI芯片延期,存在三大致命硬傷
按照年收入計算,微軟是英偉達最大的客戶之一,但其最新一代AI芯片的設計進展遠遠落后于預期。這意味著,當這些芯片投入量產(chǎn)時,可能會遠遠落后于英偉達的同類產(chǎn)品,缺乏足夠的競爭力。
微軟面臨的困境凸顯了一個問題:隨著AI技術的飛速發(fā)展,企業(yè)在開發(fā)專用AI芯片時,面臨的挑戰(zhàn)愈發(fā)嚴峻。而英偉達的通用處理器以其卓越的性能主導著整個行業(yè)。
芯片開發(fā)通常需要至少兩年的時間,但隨著AI領域的快速突破,專用AI芯片需要應對不斷變化的技術需求,面臨著隨時過時的風險,特別是在AI模型的構建和運行方式發(fā)生重大變化時。
據(jù)知情人士透露,微軟的下一代AI芯片代號為Braga,計劃推遲至少六個月才能進入量產(chǎn)。這意味著,量產(chǎn)時間將從2025年推遲至2026年。即使Braga芯片投產(chǎn),預計其性能也將遠遜于英偉達的旗艦芯片Blackwell,后者在2024年底發(fā)布。
微軟原計劃今年將Braga芯片部署到其數(shù)據(jù)中心。但項目負責人表示,Braga芯片的推遲主要由于設計發(fā)生預料之外的變化、研發(fā)團隊人員不足以及員工流動性過高等因素。微軟發(fā)言人拒絕對此發(fā)表評論。
微軟AI路線圖:三年發(fā)三款推理芯片
微軟從2019年開始開發(fā)其首款AI芯片,并于2023年發(fā)布了Maia 100芯片。當時,微軟將Maia 100宣傳為“顛覆性”產(chǎn)品,稱其能夠支持Copilot等AI助手和ChatGPT等AI服務。OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)也高度評價了這款芯片,表示它為訓練更多模型、降低運行成本打開了大門。
然而,實際情況卻并非如此。微軟主要將Maia 100用于內(nèi)部測試,而非實際生產(chǎn)環(huán)境。根據(jù)多位在職及離職的微軟員工透露,Maia 100并未為微軟的任何AI服務提供支持,主要原因是該芯片最初于2019年設計,正好發(fā)生在OpenAI發(fā)布ChatGPT之前,其設計重點是圖像處理,而非生成式AI。
在2024年Maia 100發(fā)布后,微軟啟動了一個雄心勃勃的計劃,計劃在2025年、2026年和2027年分別發(fā)布三款后續(xù)芯片,代號分別為Braga、Braga-R和Clea,并將它們部署到數(shù)據(jù)中心。然而,Braga芯片推遲至2026年,這引發(fā)了人們對微軟是否能夠按時推出剩余兩款芯片的擔憂。
據(jù)三位微軟芯片團隊成員透露,這三款芯片均為推理芯片,主要用于將訓練好的模型應用到新數(shù)據(jù)上,以生成回應或做出決策。微軟原計劃設計一款用于訓練AI模型的芯片,但在2024年初取消了這一計劃。
在Braga芯片開發(fā)的過程中,微軟要求對其設計進行更改,以滿足OpenAI提出的新功能需求。這使得芯片在模擬測試中變得不穩(wěn)定,工程師不得不花費幾個月時間來解決問題。
盡管Braga芯片的設計經(jīng)歷了重大變化,但微軟高層依然堅持要求在年底前完成設計。這一最后期限給芯片團隊帶來了極大的壓力,導致有五分之一的團隊成員離開了項目。多位參與者表示,微軟的芯片團隊人員流動性較高。
據(jù)知情人士透露,微軟的AI芯片在至少Maia 300(代號Clea)問世之前,將難以與英偉達的產(chǎn)品競爭。Clea將采用全新設計,與Braga相比,其性能將大幅提升。但在此之前,Maia系列芯片的電力消耗較高,性能也大幅落后于英偉達的同類產(chǎn)品。
針對日益增多的競爭性自主芯片項目,英偉達也做出了回應。據(jù)參與該項目的人員透露,英偉達為了使客戶難以用其它芯片替代其產(chǎn)品,已為其旗艦AI硬件系統(tǒng)GB200設定了極為激進的性能目標。
微軟/谷歌/亞馬遜集體造芯,卻還是干不過英偉達!
微軟并不是唯一一家計劃開發(fā)自家AI芯片的大型科技公司。亞馬遜也在研發(fā)其第三代AI芯片——Trainium 3,預計將在今年年底前交付客戶。亞馬遜發(fā)言人表示,項目進展順利,Trainium 3將提供比前一代Trainium 2高出兩倍的計算能力。
與此同時,谷歌已經(jīng)花費約十年時間自研AI芯片,稱為TPU(張量處理單元)。因此,谷歌無需依賴英偉達的芯片來訓練或運行大多數(shù)AI模型。據(jù)知情人士透露,谷歌的下一代TPU芯片代號為Ironwood,預計將在今年底開始小規(guī)模生產(chǎn),并于明年大規(guī)模量產(chǎn)。
不過,谷歌依然是英偉達的重要客戶,因為它租賃搭載英偉達芯片的服務器供云計算客戶使用,同時也使用英偉達芯片來支持一些不適合由谷歌TPU處理的AI服務。
谷歌也面臨著其他問題。去年,谷歌與聯(lián)發(fā)科合作設計下一代TPU芯片,但該合作遭遇了挫折。負責TPU網(wǎng)絡技術的聯(lián)發(fā)科核心團隊多位成員離職,轉(zhuǎn)而加入英偉達。這項技術對于AI至關重要,因為它能讓多個芯片協(xié)同工作。
英偉達CEO黃仁勛6月初在開發(fā)者大會上表示,大多數(shù)大型科技公司正在推進的競爭性芯片項目最終會被放棄。他還質(zhì)問道:“如果你做的ASIC(特定應用集成電路)不比現(xiàn)有的更好,那還有什么意義?”