如果說2016年3月份AlphaGo與李世石的那場人機大戰(zhàn)只在科技界和圍棋界產(chǎn)生較大影響的話,那么2017年5月其與排名第一的世界圍棋冠軍柯潔的對戰(zhàn)則將人工智能技術(shù)推向了公眾視野。阿爾法狗(AlphaGo)是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能程序,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜的團隊開發(fā),其主要工作原理是“深度學(xué)習(xí)”。
其實早在2012年,深度學(xué)習(xí)技術(shù)就已經(jīng)在學(xué)術(shù)界引起了廣泛地討論。在這一年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽ILSVRC中,采用5個卷積層和3個全連接層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)AlexNet,取得了top-5(15.3%)的歷史最佳錯誤率,而第二名的成績僅為26.2%。從此以后,就出現(xiàn)了層數(shù)更多、結(jié)構(gòu)更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如ResNet、GoogleNet、VGGNet和MaskRCNN等,還有去年比較火的生成式對抗網(wǎng)絡(luò)GAN。
不論是贏得視覺識別挑戰(zhàn)賽的AlexNet,還是擊敗圍棋冠軍柯潔的AlphaGo,它們的實現(xiàn)都離不開現(xiàn)代信息技術(shù)的核心——處理器,不論這個處理器是傳統(tǒng)的CPU,還是GPU,還是新興的專用加速部件NNPU(NNPU是NeuralNetworkProcessingUnit的簡稱)。
在計算機體系結(jié)構(gòu)國際頂級會議ISCA2016上有個關(guān)于體系結(jié)構(gòu)2030的小型研討會,名人堂成員UCSB的謝源教授就對1991年以來在ISCA收錄的論文進行了總結(jié),專用加速部件相關(guān)的論文收錄是在2008年開始,而在2016年達到了頂峰,超過了處理器、存儲器以及互聯(lián)結(jié)構(gòu)等三大傳統(tǒng)領(lǐng)域。而在這一年,來自中國科學(xué)院計算技術(shù)研究所的陳云霽、陳天石研究員課題組提交的《一種神經(jīng)網(wǎng)絡(luò)指令集》論文,更是ISCA2016最高得分論文。
在具體介紹AI芯片國內(nèi)外之前,看到這里有部分讀者或許會產(chǎn)生這樣的疑惑:這不都是在說神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)嗎?那么我覺得有必要對人工智能和神經(jīng)網(wǎng)絡(luò)的概念進行闡述,特別是2017年工信部發(fā)布的《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》中,對發(fā)展目標的描述很容易讓人覺得人工智能就是神經(jīng)網(wǎng)絡(luò),AI芯片就是神經(jīng)網(wǎng)絡(luò)芯片。
人工智能整體核心基礎(chǔ)能力顯著增強,智能傳感器技術(shù)產(chǎn)品實現(xiàn)突破,設(shè)計、代工、封測技術(shù)達到國際水平,神經(jīng)網(wǎng)絡(luò)芯片實現(xiàn)量產(chǎn)并在重點領(lǐng)域?qū)崿F(xiàn)規(guī)?;瘧?yīng)用,開源開發(fā)平臺初步具備支撐產(chǎn)業(yè)快速發(fā)展的能力。
其實則不然。人工智能是一個很老很老的概念,而神經(jīng)網(wǎng)絡(luò)只不過是人工智能范疇的一個子集。早在1956年,被譽為“人工智能之父”的圖靈獎得主約翰·麥卡錫就這樣定義人工智能:創(chuàng)造智能機器的科學(xué)與工程。而在1959年,ArthurSamuel給出了人工智能的一個子領(lǐng)域機器學(xué)習(xí)的定義,即“計算機有能力去學(xué)習(xí),而不是通過預(yù)先準確實現(xiàn)的代碼”,這也是目前公認的對機器學(xué)習(xí)最早最準確的定義。而我們?nèi)粘K熘纳窠?jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等都屬于機器學(xué)習(xí)的范疇,都是受大腦機理啟發(fā)而發(fā)展得來的。另外一個比較重要的研究領(lǐng)域就是脈沖神經(jīng)網(wǎng)絡(luò),國內(nèi)具有代表的單位和企業(yè)是清華大學(xué)類腦計算研究中心和上海西井科技等。
好了,現(xiàn)在終于可以介紹AI芯片國內(nèi)外的發(fā)展現(xiàn)狀了,當然這些都是我個人的一點觀察和愚見,管窺之見權(quán)當拋磚引玉。
國外技術(shù)寡頭,優(yōu)勢明顯
由于具有得天獨厚的技術(shù)和應(yīng)用優(yōu)勢,英偉達和谷歌幾乎占據(jù)了人工智能處理領(lǐng)域80%的市場份額,而且在谷歌宣布其CloudTPU開放服務(wù)和英偉達推出自動駕駛處理器Xavier之后,這一份額占比在2018年有望進一步擴大。其他廠商,如英特爾、特斯拉、ARM、IBM以及Cadence等,也在人工智能處理器領(lǐng)域占有一席之地。
當然,上述這些公司的專注領(lǐng)域卻不盡相同。比如英偉達主要專注于GPU和無人駕駛領(lǐng)域,而谷歌則主要針對云端市場,英特爾則主要面向計算機視覺,Cadence則以提供加速神經(jīng)網(wǎng)絡(luò)計算相關(guān)IP為主。如果說前述這些公司還主要偏向處理器設(shè)計等硬件領(lǐng)域,那么ARM公司則主要偏向軟件,致力于針對機器學(xué)習(xí)和人工智能提供高效算法庫。
注:上述表格中所給為截止到2017年各研制單位公開可查的最新數(shù)據(jù)。
1、獨占鰲頭——英偉達
在人工智能領(lǐng)域,英偉達可以說是目前涉及面最廣、市場份額最大的公司,旗下產(chǎn)品線遍布自動駕駛汽車、高性能計算、機器人、醫(yī)療保健、云計算、游戲視頻等眾多領(lǐng)域。其針對自動駕駛汽車領(lǐng)域的全新人工智能超級計算機Xavier,用NVIDIA首席執(zhí)行官黃仁勛的話來說就是“這是我所知道的SoC領(lǐng)域非常了不起的嘗試,我們長期以來一直致力于開發(fā)芯片?!?/p>
Xavier是一款完整的片上系統(tǒng)(SoC),集成了被稱為Volta的全新GPU架構(gòu)、定制8核CPU架構(gòu)以及新的計算機視覺加速器。該處理器提供20TOPS(萬億次運算/秒)的高性能,而功耗僅為20瓦。單個Xavier人工智能處理器包含70億個晶體管,采用最前沿的16nmFinFET加工技術(shù)進行制造,能夠取代目前配置了兩個移動SoC和兩個獨立GPU的DRIVEPX2,而功耗僅僅是它的一小部分。
而在2018年拉斯維加斯CES展會上,NVIDIA又推出了三款基于Xavier的人工智能處理器,包括一款專注于將增強現(xiàn)實(AR)技術(shù)應(yīng)用于汽車的產(chǎn)品、一款進一步簡化車內(nèi)人工智能助手構(gòu)建和部署的DRIVEIX和一款對其現(xiàn)有自主出租車大腦——Pegasus的修改,進一步擴大自己的優(yōu)勢。
2、產(chǎn)學(xué)研的集大成者——谷歌
如果你只是知道谷歌的AlphaGo、無人駕駛和TPU等這些人工智能相關(guān)的產(chǎn)品,那么你還應(yīng)該知道這些產(chǎn)品背后的技術(shù)大牛們:谷歌傳奇芯片工程師JeffDean、谷歌云計算團隊首席科學(xué)家、斯坦福大學(xué)AI實驗室主管李飛飛、Alphabet董事長JohnHennessy和谷歌杰出工程師DavidPatterson。
時至今日,摩爾定律遇到了技術(shù)和經(jīng)濟上的雙重瓶頸,處理器性能的增長速度越來越慢,然而社會對于計算能力的需求增速卻并未減緩,甚至在移動應(yīng)用、大數(shù)據(jù)、人工智能等新的應(yīng)用興起后,對于計算能力、計算功耗和計算成本等提出了新的要求。與完全依賴于通用CPU及其編程模型的傳統(tǒng)軟件編寫模式不同,異構(gòu)計算的整個系統(tǒng)包含了多種基于特定領(lǐng)域架構(gòu)(Domain-SpecificArchitecture,DSA)設(shè)計的處理單元,每一個DSA處理單元都有負責(zé)的獨特領(lǐng)域并針對該領(lǐng)域做優(yōu)化,當計算機系統(tǒng)遇到相關(guān)計算時便由相應(yīng)的DSA處理器去負責(zé)。而谷歌就是異構(gòu)計算的踐行者,TPU就是異構(gòu)計算在人工智能應(yīng)用的一個很好例子。
2017年發(fā)布的第二代TPU芯片,不僅加深了人工智能在學(xué)習(xí)和推理方面的能力,而且谷歌是認真地要將它推向市場。根據(jù)谷歌的內(nèi)部測試,第二代芯片針對機器學(xué)習(xí)的訓(xùn)練速度能比現(xiàn)在市場上的圖形芯片(GPU)節(jié)省一半時間;第二代TPU包括了四個芯片,每秒可處理180萬億次浮點運算;如果將64個TPU組合到一起,升級為所謂的TPUPods,則可提供大約11500萬億次浮點運算能力。
3、計算機視覺領(lǐng)域的攪局者——英特爾
英特爾作為世界上最大的計算機芯片制造商,近年來一直在尋求計算機以外的市場,其中人工智能芯片爭奪成為英特爾的核心戰(zhàn)略之一。為了加強在人工智能芯片領(lǐng)域的實力,不僅以167億美元收購FPGA生產(chǎn)商Altera公司,還以153億美元收購自動駕駛技術(shù)公司Mobileye,以及機器視覺公司Movidius和為自動駕駛汽車芯片提供安全工具的公司Yogitech,背后凸顯這家在PC時代處于核心位置的巨頭面向未來的積極轉(zhuǎn)型。
MyriadX就是英特爾子公司Movidius在2017年推出的視覺處理器(VPU,visionprocessingunit),這是一款低功耗的系統(tǒng)芯片(SoC),用于在基于視覺的設(shè)備上加速深度學(xué)習(xí)和人工智能——如無人機、智能相機和VR/AR頭盔。MyriadX是全球第一個配備專用神經(jīng)網(wǎng)絡(luò)計算引擎的片上系統(tǒng)芯片(SoC),用于加速設(shè)備端的深度學(xué)習(xí)推理計算。該神經(jīng)網(wǎng)絡(luò)計算引擎是芯片上集成的硬件模塊,專為高速、低功耗且不犧牲精確度地運行基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)而設(shè)計,讓設(shè)備能夠?qū)崟r地看到、理解和響應(yīng)周圍環(huán)境。引入該神經(jīng)計算引擎之后,MyriadX架構(gòu)能夠為基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)推理提供1TOPS的計算性能。
4、執(zhí)“能效比”之牛耳——學(xué)術(shù)界
除了工業(yè)界和廠商在人工智能領(lǐng)域不斷推出新產(chǎn)品之外,學(xué)術(shù)界也在持續(xù)推進人工智能芯片新技術(shù)的發(fā)展。
比利時魯汶大學(xué)的BertMoons等在2017年頂級會議IEEEISSCC上面提出了能效比高達10.0TOPs/W的針對卷積神經(jīng)網(wǎng)絡(luò)加速的芯片ENVISION,該芯片采用28nmFD-SOI技術(shù)。該芯片包括一個16位的RISC處理器核,1D-SIMD處理單元進行ReLU和Pooling操作,2D-SIMDMAC陣列處理卷積層和全連接層的操作,還有128KB的片上存儲器。
韓國科學(xué)技術(shù)院KAIST的DongjooShin等人在ISSCC2017上提出了一個針對CNN和RNN結(jié)構(gòu)可配置的加速器單元DNPU,除了包含一個RISC核之外,還包括了一個針對卷積層操作的計算陣列CP和一個針對全連接層RNN-LSTM操作的計算陣列FRP,相比于魯汶大學(xué)的Envision,DNPU支持CNN和RNN結(jié)構(gòu),能效比高達8.1TOPS/W。該芯片采用了65nmCMOS工藝。
相比較于魯汶大學(xué)和韓國科學(xué)技術(shù)院都針對神經(jīng)網(wǎng)絡(luò)推理部分的計算操作來說,普渡大學(xué)的VenkataramaniS等人在計算機體系結(jié)構(gòu)頂級會議ISCA2017上提出了針對大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的人工智能處理器SCALLDEEP。
該論文針對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練部分進行針對性優(yōu)化,提出了一個可擴展服務(wù)器架構(gòu),且深入分析了深度神經(jīng)網(wǎng)絡(luò)中卷積層,采樣層,全連接層等在計算密集度和訪存密集度方面的不同,設(shè)計了兩種處理器core架構(gòu),計算密集型的任務(wù)放在了comHeavy核中,包含大量的2D乘法器和累加器部件,而對于訪存密集型任務(wù)則放在了memHeavy核中,包含大量SPM存儲器和tracker同步單元,既可以作為存儲單元使用,又可以進行計算操作,包括ReLU,tanh等。而一個SCALEDEEPChip則可以有不同配置下的兩類處理器核組成,然后再組成計算簇。
論文中所用的處理平臺包括7032個處理器tile。論文作者針對深度神經(jīng)網(wǎng)絡(luò)設(shè)計了編譯器,完成網(wǎng)絡(luò)映射和代碼生成,同時設(shè)計了設(shè)計空間探索的模擬器平臺,可以進行性能和功耗的評估,性能則得益于時鐘精確級的模擬器,功耗評估則從DC中提取模塊的網(wǎng)表級的參數(shù)模型。該芯片僅采用了Intel14nm工藝進行了綜合和性能評估,峰值能效比高達485.7GOPS/W。
國內(nèi)百家爭鳴,各自為政
可以說,國內(nèi)各個單位在人工智能處理器領(lǐng)域的發(fā)展和應(yīng)用與國外相比依然存在很大的差距。由于我國特殊的環(huán)境和市場,國內(nèi)人工智能處理器的發(fā)展呈現(xiàn)出百花齊放、百家爭鳴的態(tài)勢,這些單位的應(yīng)用領(lǐng)域遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領(lǐng)域,催生了大量的人工智能芯片創(chuàng)業(yè)公司,如地平線、深鑒科技、中科寒武紀等。盡管如此,國內(nèi)起步較早的中科寒武紀卻并未如國外大廠一樣形成市場規(guī)模,與其他廠商一樣,存在著各自為政的散裂發(fā)展現(xiàn)狀。
除了新興創(chuàng)業(yè)公司,國內(nèi)研究機構(gòu)如北京大學(xué)、清華大學(xué)、中國科學(xué)院等在人工智能處理器領(lǐng)域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發(fā)布。
注:上述表格中所給為截止到2017年各研制單位公開可查的最新數(shù)據(jù)。
1、全球AI芯片界首個獨角獸——寒武紀
2017年8月,國內(nèi)AI芯片初創(chuàng)公司寒武紀宣布已經(jīng)完成1億美元A輪融資,戰(zhàn)略投資方可謂陣容豪華,阿里巴巴、聯(lián)想、科大訊飛等企業(yè)均參與投資。而其公司也成為全球AI芯片界首個獨角獸,受到國內(nèi)外市場廣泛關(guān)注。
寒武紀科技主要負責(zé)研發(fā)生產(chǎn)AI芯片,公司最主要的產(chǎn)品為2016年發(fā)布的寒武紀1A處理器(Cambricon-1A),是一款可以深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)專用處理器,面向智能手機、無人機、安防監(jiān)控、可穿戴設(shè)備以及智能駕駛等各類終端設(shè)備,在運行主流智能算法時性能功耗比全面超越傳統(tǒng)處理器。目前已經(jīng)研發(fā)出1A、1H等多種型號。與此同時,寒武紀也推出了面向開發(fā)者的寒武紀人工智能軟件平臺CambriconNeuWare,包含開發(fā)、調(diào)試和調(diào)優(yōu)三大部分。
2、軟硬件協(xié)同發(fā)展的典范——深鑒科技
深鑒科技的聯(lián)合創(chuàng)始人韓松在不同場合曾多次提及軟硬件協(xié)同設(shè)計對人工智能處理器的重要性,而其在FPGA領(lǐng)域頂級會議FPGA2017最佳論文ESE硬件架構(gòu)就是最好的證明。該項工作聚焦于使用LSTM進行語音識別的場景,結(jié)合深度壓縮(DeepCompression)、專用編譯器以及ESE專用處理器架構(gòu),在中端的FPGA上即可取得比PascalTitanXGPU高3倍的性能,并將功耗降低3.5倍。
在2017年10月的時候,深鑒科技推出了六款A(yù)I產(chǎn)品,分別是人臉檢測識別模組、人臉分析解決方案、視頻結(jié)構(gòu)化解決方案、ARISTOTLE架構(gòu)平臺,深度學(xué)習(xí)SDKDNNDK、雙目深度視覺套件。而在人工智能芯片方面,公布了最新的芯片計劃,由深鑒科技自主研發(fā)的芯片“聽濤”、“觀?!睂⒂?018年第三季度面市,該芯片采用臺積電28nm工藝,亞里士多德架構(gòu),峰值性能3.7TOPS/W。
3、對標谷歌TPU——比特大陸算豐
作為比特幣獨角獸的比特大陸,在2015年開始涉足人工智能領(lǐng)域,其在2017年發(fā)布的面向AI應(yīng)用的張量處理器算豐SophonBM1680,是繼谷歌TPU之后,全球又一款專門用于張量計算加速的專用芯片(ASIC),適用于CNN/RNN/DNN的訓(xùn)練和推理。
BM1680單芯片能夠提供2TFlops單精度加速計算能力,芯片由64NPU構(gòu)成,特殊設(shè)計的NPU調(diào)度引擎(SchedulingEngine)可以提供強大的數(shù)據(jù)吞吐能力,將數(shù)據(jù)輸入到神經(jīng)元核心(NeuronProcessorCores)。BM1680采用改進型脈動陣列結(jié)構(gòu)。2018年比特大陸將發(fā)布第2代算豐AI芯片BM1682,計算力將有大幅提升。
4、百家爭鳴——百度、地平線及其他
在2017年的HotChips大會上,百度發(fā)布了XPU,這是一款256核、基于FPGA的云計算加速芯片,用于百度的人工智能、數(shù)據(jù)分析、云計算以及無人駕駛業(yè)務(wù)。在會上,百度研究員歐陽劍表示,百度設(shè)計的芯片架構(gòu)突出多樣性,著重于計算密集型、基于規(guī)則的任務(wù),同時確保效率、性能和靈活性的最大化。
歐陽劍表示:“FPGA是高效的,可以專注于特定計算任務(wù),但缺乏可編程能力。傳統(tǒng)CPU擅長通用計算任務(wù),尤其是基于規(guī)則的計算任務(wù),同時非常靈活。GPU瞄準了并行計算,因此有很強大的性能。XPU則關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù),希望提高效率和性能,并帶來類似CPU的靈活性。
在2018年百度披露更多關(guān)于XPU的相關(guān)信息。
2017年12月底,人工智能初創(chuàng)企業(yè)地平線發(fā)布了中國首款全球領(lǐng)先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0處理器和面向智能攝像頭的旭日(Sunrise)1.0處理器,還有針對智能駕駛、智能城市和智能商業(yè)三大應(yīng)用場景的人工智能解決方案?!靶袢?.0”和“征程1.0”是完全由地平線自主研發(fā)的人工智能芯片,具有全球領(lǐng)先的性能。
為了解決應(yīng)用場景中的問題,地平線將算法與芯片做了強耦合,用算法來定義芯片,提升芯片的效率,在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數(shù)尚無公開數(shù)據(jù)。
除了百度和地平線,國內(nèi)研究機構(gòu)如中國科學(xué)院、北京大學(xué)和清華大學(xué)也有人工智能處理器相關(guān)的成果發(fā)布。
北京大學(xué)聯(lián)合商湯科技等提出一種基于FPGA的快速Winograd算法,可以大幅降低算法復(fù)雜度,改善FPGA上的CNN性能。論文中的實驗使用當前最優(yōu)的多種CNN架構(gòu)(如AlexNet和VGG16),從而實現(xiàn)了FPGA加速之下的最優(yōu)性能和能耗。在XilinxZCU102平臺上達到了卷積層平均處理速度1006.4GOP/s,整體AlexNet處理速度854.6GOP/s,卷積層平均處理速度3044.7GOP/s,整體VGG16的處理速度2940.7GOP/s。
中國科學(xué)院計算機體系結(jié)構(gòu)國家重點實驗室在頂級會議HPCA2017上提出了一種基于數(shù)據(jù)流的神經(jīng)網(wǎng)絡(luò)處理器架構(gòu),以便適應(yīng)特征圖、神經(jīng)元和突觸等不同層級的并行計算,為了實現(xiàn)這一目標,該團隊對單個處理單元PE進行重新設(shè)計,使得操作數(shù)可以直接通過橫向或縱向的總線從片上存儲器獲取,而非傳統(tǒng)PE只能從上至下或從左至右由相鄰單元獲取。該芯片采用了TMSC65nm工藝,峰值性能為490.7GOPs/W。
清華大學(xué)微納電子系魏少軍等2017年的VLSI國際研討會上提出了基于可重構(gòu)多模態(tài)混合的神經(jīng)計算芯片Thinker。Thinker芯片基于該團隊長期積累的可重構(gòu)計算芯片技術(shù),采用可重構(gòu)架構(gòu)和電路技術(shù),突破了神經(jīng)網(wǎng)絡(luò)計算和訪存的瓶頸,實現(xiàn)了高能效多模態(tài)混合神經(jīng)網(wǎng)絡(luò)計算。
Thinker芯片具有高能效的突出優(yōu)點,其能量效率相比目前在深度學(xué)習(xí)中廣泛使用的GPU提升了三個數(shù)量級。Thinker芯片支持電路級編程和重構(gòu),是一個通用的神經(jīng)網(wǎng)絡(luò)計算平臺,可廣泛應(yīng)用于機器人、無人機、智能汽車、智慧家居、安防監(jiān)控和消費電子等領(lǐng)域。該芯片采用了TSMC65nm工藝,片上存儲為348KB,峰值性能為5.09TOPS/W。
5、新架構(gòu)新技術(shù)——憶阻器
2017年清華大學(xué)微電子所錢鶴、吳華強課題組在《自然通訊》(NatureCommunications)在線發(fā)表了題為“運用電子突觸進行人臉分類”(“FaceClassificationusingElectronicSynapses”)的研究成果,將氧化物憶阻器的集成規(guī)模提高了一個數(shù)量級,首次實現(xiàn)了基于1024個氧化物憶阻器陣列的類腦計算。該成果在最基本的單個憶阻器上實現(xiàn)了存儲和計算的融合,采用完全不同于傳統(tǒng)“馮·諾依曼架構(gòu)”的體系,可以使芯片功耗降低到原千分之一以下。憶阻器被認為是最具潛力的電子突觸器件,通過在器件兩端施加電壓,可以靈活地改變其阻值狀態(tài),從而實現(xiàn)突觸的可塑性。此外,憶阻器還具有尺寸小、操作功耗低、可大規(guī)模集成等優(yōu)勢。因此,基于憶阻器所搭建的類腦計算硬件系統(tǒng)具有功耗低和速度快的優(yōu)勢,成為國際研究熱點。
在神經(jīng)形態(tài)處理器方面,最為著名的就是IBM在2014年推出的TrueNorth芯片,該芯片包括4096個核心和540萬個晶體管,功耗70mW,模擬了一百萬個神經(jīng)元和2.56億個突觸。而在2017年,英特爾也推出一款能模擬大腦工作的自主學(xué)習(xí)芯片Loihi,Loihi由128個計算核心構(gòu)成,每個核心集成了1024個人工神經(jīng)元,整個芯片擁有超過個13萬個神經(jīng)元與1.3億個突觸連接,與人腦超過800億個神經(jīng)元相比,簡直是小巫見大巫,Loihi的運算規(guī)模僅比蝦腦復(fù)雜一點點而已。英特爾認為該芯片適用于無人機與汽車自動駕駛,紅綠燈自適應(yīng)路面交通狀況,用攝像頭尋找失蹤人口等任務(wù)。
而在神經(jīng)形態(tài)芯片研究領(lǐng)域,清華大學(xué)類腦計算研究中心施路平等在2015年就推出了首款類腦芯片—“天機芯”,該芯片世界首次將人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANNs)和脈沖神經(jīng)網(wǎng)絡(luò)(SpikingNeuralNetworks,SNNs)進行異構(gòu)融合,同時兼顧技術(shù)成熟并被廣泛應(yīng)用的深度學(xué)習(xí)模型與未來具有巨大前景的計算神經(jīng)科學(xué)模型,可用于諸如圖像處理、語音識別、目標跟蹤等多種應(yīng)用開發(fā)。在類腦“自行”車演示平臺上,集成32個天機一號芯片,實現(xiàn)了面向視覺目標探測、感知、目標追蹤、自適應(yīng)姿態(tài)控制等任務(wù)的跨模態(tài)類腦信息處理實驗。據(jù)悉,基于TSMC28nm工藝的第二代天機芯片也即將推出,性能將會得到極大提升。
從ISSCC2018看人工智能芯片發(fā)展趨勢
在剛剛結(jié)束的計算機體系結(jié)構(gòu)頂級會議ISSCC2018,“DigitalSystems:DigitalArchitecturesandSystems”分論壇主席Byeong-GyuNam對人工智能芯片,特別是深度學(xué)習(xí)芯片的發(fā)展趨勢做了概括。深度學(xué)習(xí)依然今年大會最為熱門的話題。相比較于去年大多數(shù)論文都在討論卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)問題,今年則更加關(guān)注兩個問題:其一,如果更高效地實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò),特別是針對手持終端等設(shè)備;其二,則是關(guān)于全連接的非卷積神經(jīng)網(wǎng)絡(luò),如RNN和LSTM等。
同時,為了獲得更高的能效比,越來越多的研究者把精力放在了低精度神經(jīng)網(wǎng)絡(luò)的設(shè)計和實現(xiàn),如1bit的神經(jīng)網(wǎng)絡(luò)。這些新型技術(shù),使得深度學(xué)習(xí)加速器的能效比從去年的幾十TOPS/W提升到了今年的上百TOPS/W。有些研究者也對數(shù)字+模擬的混合信號處理實現(xiàn)方案進行了研究。對數(shù)據(jù)存取具有較高要求的全連接網(wǎng)絡(luò),有些研究者則借助3-D封裝技術(shù)來獲得更好的性能。
正如前文所述,在人工智能芯片領(lǐng)域,國外芯片巨頭占據(jù)了絕大部分市場份額,不論是在人才聚集還是公司合并等方面,都具有絕對的領(lǐng)先優(yōu)勢。而國內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭鳴、各自為政的紛亂局面;特別是每個初創(chuàng)企業(yè)的人工智能芯片都具有自己獨特的體系結(jié)構(gòu)和軟件開發(fā)套件,既無法融入英偉達和谷歌建立的生態(tài)圈,又不具備與之抗衡的實力。
國產(chǎn)人工智能芯片的發(fā)展,一如早年間國產(chǎn)通用處理器和操作系統(tǒng)的發(fā)展,過份地追求完全獨立、自主可控的怪圈,勢必會如眾多國產(chǎn)芯片一樣逐漸退出歷史舞臺。借助于X86的完整生態(tài),短短一年之內(nèi),兆芯推出的國產(chǎn)自主可控x86處理器,以及聯(lián)想基于兆芯CPU設(shè)計生產(chǎn)的國產(chǎn)計算機、服務(wù)器就獲得全國各地黨政辦公人員的高度認可,并在黨政軍辦公、信息化等國家重點系統(tǒng)和工程中已獲批量應(yīng)用。
當然,投身于X86的生態(tài)圈對于通用桌面處理器和高端服務(wù)器芯片來說無可厚非,畢竟創(chuàng)造一個如Wintel一樣的生態(tài)鏈已絕非易事,我們也不可能遇見第二個喬布斯和蘋果公司。而在全新的人工智能芯片領(lǐng)域,對眾多國產(chǎn)芯片廠商來說,還有很大的發(fā)展空間,針對神經(jīng)網(wǎng)絡(luò)加速器最重要的就是找到一個具有廣闊前景的應(yīng)用領(lǐng)域,如華為海思麒麟處理器之于中科寒武紀的NPU;否則還是需要融入一個合適的生態(tài)圈。另外,目前大多數(shù)國產(chǎn)人工智能處理器都針對于神經(jīng)網(wǎng)絡(luò)計算進行加速,而能夠提供單芯片解決方案的很少;微控制器領(lǐng)域的發(fā)展,ARM的Cortex-A系列和Cortex-M系列占據(jù)主角,但是新興的開源指令集架構(gòu)RISC-V也不容小覷,完全值得眾多國產(chǎn)芯片廠商關(guān)注。