【人工智能芯片競賽已經(jīng)開始 新型芯片領(lǐng)域應(yīng)如何發(fā)展?】多年以來,半導(dǎo)體世界似乎陷入了一種穩(wěn)定的平衡:除了IBM的POWER系列之外,英特爾在服務(wù)器領(lǐng)域擊敗了幾乎所有RISC處理器。而在其他領(lǐng)域,英偉達(Nvidia)是GPU領(lǐng)域的后起之秀,淘汰了大部分競爭對手,只剩下ATI(現(xiàn)屬于AMD),但ATI擁有的市場份額僅為英偉達之前所占市場份額的一半。在較新的移動端,這個近乎壟斷的故事似乎重演了一遍:ARM統(tǒng)治了整個世界。盡管英特爾在Atom處理器上進行了大量嘗試,但卻屢戰(zhàn)屢敗,并最終在2015年選擇放棄。
隨后風(fēng)水輪流轉(zhuǎn),一切又都發(fā)生了變化。AMD重新成為有力的x86競爭對手;適用于大數(shù)據(jù)等專門任務(wù)的現(xiàn)場可編程門陣列(FieldGateProgrammableArray,F(xiàn)PGA)處理器的出現(xiàn)創(chuàng)造了新的利基市場。但實際上,芯片產(chǎn)業(yè)的巨大轉(zhuǎn)變是伴隨著人工智能(AI)和機器學(xué)習(xí)(ML)技術(shù)的出現(xiàn)而來的。隨著這些新興技術(shù)的出現(xiàn),涌現(xiàn)了大量新型處理器,并且這些新型處理器來自人們之前想不到的來源。
英特爾于2016年通過收購初創(chuàng)企業(yè)NervanaSystems進入這一市場,其隨后收購了第二家公司Movidius用于開發(fā)處理圖像的人工智能。
微軟正在為其虛擬現(xiàn)實/增強現(xiàn)實頭戴設(shè)備HoloLens研發(fā)人工智能芯片,并且該芯片有望在其他設(shè)備上應(yīng)用。
谷歌有一個用于神經(jīng)網(wǎng)絡(luò)的特殊人工智能芯片,名為張量處理器(TensorProcessingUnit,TPU),可用于Google云端平臺上的人工智能應(yīng)用程序。
據(jù)報道,亞馬遜正在為其Alexa家庭助理開發(fā)人工智能芯片。
蘋果正在開發(fā)一款名為神經(jīng)引擎(NeuralEngine)的人工智能處理器,該處理器可為Siri和FaceID提供支持。
ARM公司最近推出了兩款新處理器,即ARM機器學(xué)習(xí)(ML)處理器和ARM物體檢測(OD)處理器。兩款處理器都專注于圖像識別。
IBM正在開發(fā)專門的人工智能處理器,該公司還從英偉達獲得了NVLink的許可,以便提供專門用于人工智能和機器學(xué)習(xí)技術(shù)的高速數(shù)據(jù)吞吐量。
即使是像特斯拉這樣的非傳統(tǒng)科技公司也希望進入這一領(lǐng)域,其首席執(zhí)行官埃隆·馬斯克(ElonMusk)于2017年承認,前AMD和蘋果公司芯片工程師吉姆·凱勒(JimKeller)將為這家汽車公司構(gòu)建硬件。
這一宏觀觀察還沒有將初創(chuàng)企業(yè)考慮在內(nèi)?!都~約時報》表示,據(jù)不完全統(tǒng)計,專注于人工智能的芯片初創(chuàng)企業(yè)(而不是單純的軟件公司或芯片公司)已達到45家,并且這一數(shù)字還在繼續(xù)增長。
那么,在芯片制造業(yè)的發(fā)展停滯多年后,為什么硬件會突然出現(xiàn)爆發(fā)式增長呢?畢竟,人們普遍認為英偉達的GPU非常適合人工智能且其已被廣泛使用。為什么我們現(xiàn)在需要更多的芯片,并且還是那么多不同的芯片呢?
答案有點復(fù)雜,就像人工智能本身。
(1)以資金、使用場景和效率為導(dǎo)向
雖然x86目前仍然是用于計算機信息處理的主導(dǎo)芯片架構(gòu),但它對于像人工智能這樣的高度專業(yè)化任務(wù)來說還是太普通了,Intersect360Research(位于美國的咨詢與服務(wù)公司,其業(yè)務(wù)涵蓋高性能計算和人工智能問題)的首席執(zhí)行官艾迪生·斯內(nèi)爾(AddisonSnell)表示。
“x86是以通用服務(wù)器平臺為目標構(gòu)建的。因此,它必須什么都很擅長,”他說道?!岸鴮τ谄渌酒骷夜緲?gòu)建的是專門針對一個應(yīng)用程序的架構(gòu),無需將基礎(chǔ)架構(gòu)的其他部分考慮在內(nèi)。因此,可將操作系統(tǒng)和基礎(chǔ)架構(gòu)的運行任務(wù)留給x86主機,同時將其他任務(wù)分包給各種協(xié)同處理器和加速器。”
處理人工智能的實際任務(wù)是與標準計算或GPU處理完全不同的流程,因此,需要專門的芯片來完成這一任務(wù)。x86CPU可以完成人工智能任務(wù),但對于實際只需三個步驟即可完成的任務(wù),它會執(zhí)行十二個步驟來完成;GPU在某些情況下還可能會被大材小用。
一般而言,科學(xué)計算是以確定的方式進行的。例如,如果您想知道2加3等于5并計算所有小數(shù)位,那么x86和GPU就可以做得很好。但人工智能的本質(zhì)是,在沒有實際運行計算的情況下,表示幾乎在所有情況下都能觀察到2.5加3.5等于6。對于當(dāng)今的人工智能而言,重要的是從數(shù)據(jù)中識別模式,而不是確定性計算。
簡而言之,界定人工智能和機器學(xué)習(xí)的是它們從過去的經(jīng)驗中學(xué)習(xí)并加以改進的能力。著名的阿爾法狗(AlphaGo)就是通過模擬大量圍棋比賽來提高自己的棋藝的。另一個大家都熟悉的例子是Facebook的面部識別人工智能,經(jīng)過多年的訓(xùn)練,它已經(jīng)能夠準確地標記用戶的照片。
人工智能一旦學(xué)會,就不再需要重新學(xué)習(xí)。這是機器學(xué)習(xí)的標志,也是人工智能更廣泛定義的一部分。究其本質(zhì),機器學(xué)習(xí)是一種使用算法解析數(shù)據(jù)、從中進行學(xué)習(xí),然后根據(jù)這些數(shù)據(jù)作出判斷或預(yù)測的實踐。這是一種模式識別機制,例如,機器學(xué)習(xí)軟件會記住2加3等于5,讓整個人工智能系統(tǒng)都得以使用這一信息。
另一個示例是用于無人駕駛汽車的人工智能。它不會通過確定的事物來判斷所處環(huán)境中其他物體的活動路徑,而只是利用過往的經(jīng)驗,表示曾經(jīng)有一輛車在此處這樣行駛,而且當(dāng)我在其他所有時間觀察到這樣一輛車時,它都是這樣行駛的。因此,系統(tǒng)可以預(yù)期特定類型的行動。
這種預(yù)測性問題解決方法的結(jié)果是,人工智能計算可以通過單精度計算完成。因此,雖然CPU和GPU能夠很好地完成此類計算,但它們對于這項任務(wù)而言實際上是殺雞焉用牛刀的存在。單精度芯片就可以完成這個任務(wù),并且能夠以低得多的功耗完成。
毫無疑問,功耗和尺寸對于芯片而言很重要,尤其是對于人工智能而言,因為單一尺寸并不能適用于這個領(lǐng)域的所有情況。人工智能包含機器學(xué)習(xí),而機器學(xué)習(xí)則包含深度學(xué)習(xí),并且所有這些技術(shù)都可通過不同的設(shè)置針對不同的任務(wù)進行部署?!安⒎敲總€人工智能芯片都是一樣的,”英特爾子公司Movidius的營銷總監(jiān)加里·布朗(GaryBrown)說道。Movidius專門針對深度學(xué)習(xí)流程制作了定制芯片,因為所涉及的步驟在CPU方面受到高度限制?!懊總€芯片可以在不同的時候處理不同的智能信息。我們的芯片是視覺智能,因此算法使用攝像頭輸入內(nèi)容進行學(xué)習(xí),得出所見內(nèi)容代表的意義。”
布朗表示,甚至需要并且有必要在網(wǎng)絡(luò)邊緣以及數(shù)據(jù)中心進行區(qū)分,身處這一領(lǐng)域的公司已經(jīng)察覺自己需要在這些不同的位置使用不同的芯片。
“邊緣芯片不會與數(shù)據(jù)中心芯片競爭,”他說道?!跋馲eon至強這樣的數(shù)據(jù)中心芯片必須具備針對這類人工智能的高性能功能,但對于智能手機中使用的人工智能則沒有這樣的要求。智能手機中的人工智能必須將功耗保持在1瓦以下。所以問題在于,‘原生處理器的哪方面不夠好以至于用戶需要輔助芯片?’”
畢竟,如果想在智能手機或增強現(xiàn)實頭戴設(shè)備中使用人工智能,那么功耗會是個問題。英偉達的Volta處理器是人工智能處理領(lǐng)域的佼佼者,但其功耗高達300瓦。用戶是不會想要在智能手機中硬塞進去這么一個處理器的。
肖恩·斯特森(SeanStetson)是工業(yè)無人駕駛車輛制造商Seegrid的技術(shù)研發(fā)總監(jiān),他也認為人工智能和機器學(xué)習(xí)技術(shù)的發(fā)展到目前為止一直被普通處理器拖累?!盀榱俗屓魏嗡惴ǘ寄苓\行,無論是機器學(xué)習(xí)、圖像處理還是圖形處理,都有非常具體的工作流程,”他說道。“如果您沒有針對這些模式進行設(shè)置的計算核心,那么您會執(zhí)行大量無意義的數(shù)據(jù)加載和傳輸操作。而當(dāng)您移動數(shù)據(jù)時,就是您效率最低下的時候,此時會產(chǎn)生大量信號傳輸功耗和瞬態(tài)功耗。處理器的效率是根據(jù)每條指令消耗的能量進行衡量的?!?/p>
當(dāng)然,對更高的專業(yè)化程度和能源效率的追求并不是這些新型人工智能芯片存在的全部原因。IBM研究員兼IBMPower系統(tǒng)開發(fā)副總裁布拉德·麥克雷迪(BradMcCredie)表示,大家一窩蜂加入進來的更大原因在于回報十分豐厚,“整個轉(zhuǎn)折點就在于大家預(yù)期會有大量新資金注入IT行業(yè),而且這些新資金全都與人工智能有關(guān),這導(dǎo)致大量風(fēng)險資本涌入人工智能領(lǐng)域。毫無疑問,人們看到了淘金潮?!?/p>
(2)全新的生態(tài)系統(tǒng)
專注于人工智能的芯片并不是憑空設(shè)計出來的。伴隨它們而來的是應(yīng)對人工智能和機器學(xué)習(xí)處理的高度并行特質(zhì)的新吞吐方法。如果您構(gòu)建人工智能協(xié)同處理器,但使用標準計算機甚或服務(wù)器的過時技術(shù),那就會像是將法拉利引擎放入大眾甲殼蟲汽車一樣。
“當(dāng)人們談?wù)撊斯ぶ悄芎陀糜谌斯ぶ悄艿男酒瑫r,需要注意的是構(gòu)建人工智能解決方案需要相當(dāng)多的非人工智能技術(shù),”英特爾人工智能產(chǎn)品事業(yè)部副總裁兼首席技術(shù)官及Nervana聯(lián)合創(chuàng)始人阿米爾·霍斯勞沙希(AmirKhosrowshahi)說道:“它涉及CPU、內(nèi)存、SSD和互連。讓所有這些因素都發(fā)揮作用非常關(guān)鍵?!崩?,IBM在針對任務(wù)關(guān)鍵型系統(tǒng)設(shè)計其Power9處理器時使用了英偉達的高速NVLink(用于核心互連)、第四代PCIExpress及其自己的接口OpenCAPI(CoherentAcceleratorProcessorInterface,一致性加速處理器接口)。OpenCAPI是一種新的連接類型,它為內(nèi)存、加速器、網(wǎng)絡(luò)、存儲和其他芯片提供高帶寬、低延遲的連接。
麥克雷迪表示,x86生態(tài)系統(tǒng)并沒有跟上節(jié)奏。他指出了第三代PCIExpress已經(jīng)上市七年但卻沒有進行過重大更新這一事實(第一次更新還是最近才發(fā)布的),而IBM是最先采用該接口的公司之一。x86服務(wù)器仍然配備的是第三代PCIe,其帶寬僅為第四代PCIe的一半。“計算功能的這一爆炸式增長將需要數(shù)量級的計算能力提升,”他說道?!拔覀冃枰幚砥魍瓿善淞λ芗暗囊磺腥蝿?wù),然后在此基礎(chǔ)上完成更多任務(wù)。該行業(yè)終于開始關(guān)注內(nèi)存帶寬和I/O帶寬性能。這些方面正在成為系統(tǒng)性能受到的第一級約束。我認為加速器的規(guī)模將會出現(xiàn)增長,將會有更多的工作負載需要更多的加速。我們甚至?xí)剡^頭去加速數(shù)據(jù)庫和ERP(企業(yè)資源規(guī)劃)等常見工作負載。我認為,我們正在見證這個行業(yè)穩(wěn)步轉(zhuǎn)變的開端,我們將更加注重加速,并且市場上的加速產(chǎn)品會變得更多。”
但只靠硬件并不能完成機器學(xué)習(xí)中的學(xué)習(xí)部分,軟件的作用舉足輕重。在這一新型芯片淘金熱浪潮中,幾乎沒有人提及與之相伴的軟件。幸運的是,這是因為軟件在很大程度上已經(jīng)做好準備,它正在等待芯片迎頭趕上,金融分析和人工智能開發(fā)公司OTASTechnologies的首席執(zhí)行官湯姆·多里斯(TomDoris)如此表示。“我認為,如果您看一下更加久遠的歷史,就會發(fā)現(xiàn)所有發(fā)展都是靠硬件驅(qū)動的,”他說道?!八惴ú]有出現(xiàn)太大的變化。發(fā)展都是靠硬件領(lǐng)域的進步推動的。這對于離開這一領(lǐng)域多年的我來說是一個驚喜。自二十世紀九十年代末以來,軟件和算法并沒有太多變化,基本上都是計算能力在變。”
彭博(Bloomberg)首席技術(shù)官辦公室的數(shù)據(jù)科學(xué)家戴維·羅森堡(DavidRosenberg)也認為軟件的發(fā)展狀況良好。“有些領(lǐng)域的軟件發(fā)展還有很長的路要走,這與分布式計算相關(guān),與分布式神經(jīng)計算科學(xué)相關(guān),”他說道?!暗珜τ谖覀円呀?jīng)知道該怎么做的事情,軟件已經(jīng)得到了很好的改進?,F(xiàn)在的問題是硬件是否能夠足夠快速、高效地執(zhí)行軟件?!?/p>
事實上,在目前的一些使用場景中,硬件和軟件是并行開發(fā)的,目的在于支持這一人工智能芯片和使用場景的新浪潮。英偉達人工智能工作負責(zé)人伊恩·巴克(IanBuck)指出,在英偉達,軟件和硬件團隊的規(guī)模大致相當(dāng)。巴克開發(fā)了CUDA編程語言,借助CUDA,開發(fā)人員能夠?qū)?yīng)用程序編寫為使用英偉達的GPU進行并行處理,而不使用CPU。他表示:“我們在協(xié)同開發(fā)針對系統(tǒng)軟件、庫、人工智能框架和編譯器的新架構(gòu),這些全都是為了利用不斷涌現(xiàn)的新方法和神經(jīng)網(wǎng)絡(luò)。在人工智能領(lǐng)域取得成功的唯一途徑不僅僅是構(gòu)建出色的芯片,同時還需要在整個軟件堆棧中進行緊密集成,以實施和優(yōu)化這些不斷被發(fā)明出來的新網(wǎng)絡(luò)。”
因此,對于巴克而言,人工智能代表新計算類型的原因之一在于,他認為人工智能確實構(gòu)成了硬件和軟件之間的一種新型關(guān)系?!拔覀儾恍枰紤]向后兼容性,我們正在重新發(fā)明擅長處理此類任務(wù)的處理器,并同時開發(fā)在這些處理器上運行的軟件?!?/p>
(3)這場芯片競賽的未來
盡管目前有很多家潛在的人工智能芯片開發(fā)公司,但圍繞所有這些舉措提出的最大問題之一是,有多少芯片將會推向市場、有多少芯片將會專屬于供應(yīng)商以及有多少芯片將被徹底淘汰。如今的大部分人工智能芯片仍然只是幻影。
至于那些設(shè)計人工智能芯片的非CPU制造商(例如谷歌、Facebook和微軟),您會發(fā)現(xiàn)這些公司似乎都在制作供自己使用的定制芯片,并且很可能永遠不會將這些芯片推向市場。此類公司可以將數(shù)十億美元的收入投入定制芯片的研發(fā),且無需立即得到明確的投資回報。因此,雖然用戶可以通過Google云端平臺服務(wù)使用谷歌的張量處理單元,但谷歌卻不會直接銷售該芯片。這也是Facebook和微軟期望實現(xiàn)的模式。
其他芯片則肯定會進入市場。英偉達最近宣布推出三款面向人工智能的芯片:專為智能機器人設(shè)計的JetsonXavier片上系統(tǒng);專為自動駕駛出租車設(shè)計的DrivePegasus;以及專為半自動駕駛汽車設(shè)計的DriveXavier。為所有這些芯片提供動力的是IsaacSim模擬環(huán)境,開發(fā)人員可將該環(huán)境用于訓(xùn)練機器人及使用JetsonXavier進行測試。
與此同時,英特爾承諾其首款基于Nervana(英特爾于2016年收購)技術(shù)的機器學(xué)習(xí)處理器將在2019年以SpringCrest的代號進入市場。該公司目前還有一款名為LakeCrest的Nervana芯片,可供開發(fā)人員作涉足人工智能領(lǐng)域之用。英特爾表示,SpringCrest的性能最終將達到LakeCrest性能的三倍到四倍。
所有參與者都能存活下來嗎?“我認為在未來,我們將看到人工智能自我顯現(xiàn)的演變過程,”Movidius的布朗表示。“如果您想要將其用于數(shù)據(jù)中心,那么您需要提供數(shù)據(jù)中心芯片。如果您想要將其用于頭戴式設(shè)備,那么您也需要為其找到合適的芯片。這將是人工智能芯片的發(fā)展趨勢,我們可能會看到擁有不同功能的不同芯片,并且這些功能可能會合并到CPU中。我們還可能會看到具有多個功能的芯片?!?/p>
如果一切都有點似曾相識,那么現(xiàn)實可能就是這樣的。人工智能芯片的發(fā)展在某些方面可能與過去的芯片演變過程相似:一切從高度專業(yè)化和眾多競爭對手開始,但最終一些產(chǎn)品會越來越受歡迎,且少數(shù)市場領(lǐng)導(dǎo)者會提供多種功能。三十年前,80386是首屈一指的桌面芯片,如果您要在Lotus1-2-3中進行大量計算,那么您可以為自己的IBMPC-AT購買一臺80387數(shù)學(xué)協(xié)同處理器。接下來是80486,英特爾就將數(shù)學(xué)協(xié)同處理器集成到CPU中進行了各種嘗試。隨后,CPU慢慢獲得了安全擴展、內(nèi)存控制器和GPU等功能。
因此,就和其他所有技術(shù)一樣,這一新興人工智能芯片行業(yè)也無法將存在眾多競爭對手的局面維持太久。例如,OTAS的多里斯指出,許多沒有進入市場的內(nèi)部芯片會成為高級技術(shù)人員的個人愛好項目,而制度的改變通常意味著采用行業(yè)標準。Intersect360的斯內(nèi)爾指出,如今的人工智能芯片初創(chuàng)企業(yè)大軍也會縮水。正如他所說,“這個行業(yè)目前有太多競爭對手,因而需要進行整合。”其中許多公司可能只是想要開辟出一個利基市場,以此吸引大公司來收購它們。
IBM的麥克雷迪說道:“我同意,這將是一場艱難的競賽,但規(guī)模必須縮小?!庇幸惶?,這可能意味著這一新型芯片領(lǐng)域看起來會和過往的芯片領(lǐng)域并無兩樣:x86、英偉達GPU、ARM世界之類的。但就目前而言,這場人工智能芯片競賽只是剛剛開始,并且眾多參賽者都打算繼續(xù)奮勇向前。