91亚洲午夜精品久久久久久一区,久久久久久国产A免费观看

【比利時(shí)機(jī)構(gòu)正研發(fā)采用單位元精度的深度學(xué)習(xí)推論芯片原型】比利時(shí)研究機(jī)構(gòu)Imec在近日舉行的年度技術(shù)論壇(ITFBELGIUM2018)上透露，該機(jī)構(gòu)正在打造一款采用單位元精度的深度學(xué)習(xí)推論(inference)芯片原型；Imec并期望在明年收集采用創(chuàng)新數(shù)據(jù)型態(tài)與架構(gòu)──采用內(nèi)存內(nèi)處理器(processor-in-memory，PIM)，或是模擬內(nèi)存結(jié)構(gòu)(analogmemoryfabric)──的客戶端裝置有效性數(shù)據(jù)。

學(xué)術(shù)界已經(jīng)研究PIM架構(gòu)數(shù)十年，而該架構(gòu)越來越受到數(shù)據(jù)密集的機(jī)器算法歡迎，例如新創(chuàng)公司Mythic以及IBMResearch都有相關(guān)開發(fā)成果。許多學(xué)術(shù)研究機(jī)構(gòu)正在實(shí)驗(yàn)1~4位的數(shù)據(jù)型別(datatype)，以減輕深度學(xué)習(xí)所需的沉重內(nèi)存需求；到目前為止，包括Arm等公司的AI加速器商用芯片設(shè)計(jì)都集中在8位或更大容量的數(shù)據(jù)型別，部分原因是編程工具例如Google的TensorFlow缺乏對較小數(shù)據(jù)型別的支持。

Imec擁有在一家晶圓代工廠制作的40奈米制程加速器邏輯部份，而現(xiàn)在是要在自家晶圓廠添加一個(gè)MRAM層；該機(jī)構(gòu)利用SRAM仿真此設(shè)計(jì)的性能，并且評估5奈米節(jié)點(diǎn)的設(shè)計(jì)規(guī)則。此研究是Imec與至少兩家匿名IDM業(yè)者伙伴合作、仍在開發(fā)階段的項(xiàng)目，從近兩年前展開，很快制作了采用某種電阻式內(nèi)存(ReRAM)的65奈米PIM設(shè)計(jì)原型。

該65奈米芯片并非鎖定深度學(xué)習(xí)算法，雖然Imec展示了利用它啟動(dòng)一段迷人的計(jì)算機(jī)合成音樂；其學(xué)習(xí)模式是利用了根據(jù)以音樂形式呈現(xiàn)、從傳感器所串流之?dāng)?shù)據(jù)的時(shí)間序列分析(time-seriesanalysis)。而40奈米低功耗神經(jīng)網(wǎng)絡(luò)加速器(Low-EnergyNeuralNetworkAccelerator，LENNA)則會(huì)鎖定深度學(xué)習(xí)，在相對較小型的MRAM單元中運(yùn)算與儲存二進(jìn)制權(quán)重。

Imec技術(shù)團(tuán)隊(duì)的杰出成員DiederikVerkest接受EETimes采訪時(shí)表示：「我們的任務(wù)是定義出我們應(yīng)該利用新興內(nèi)存為機(jī)器學(xué)習(xí)開發(fā)什么樣的半導(dǎo)體技術(shù)──或許我們會(huì)需要制程上的調(diào)整，」以取得優(yōu)化結(jié)果。該機(jī)構(gòu)半導(dǎo)體技術(shù)與系統(tǒng)部門執(zhí)行副總裁AnSteegen則表示：「AI會(huì)是制程技術(shù)藍(lán)圖演化的推手，因此Imec會(huì)在AI(以及PIM架構(gòu))方面下很多功夫──這方面的工作成果將會(huì)非常重要。」

Imec聲稱其LENNA芯片在推論任務(wù)上的表現(xiàn)將超越現(xiàn)有的CPU與GPU（來源：Imec）

確實(shí)，如來自英國的新創(chuàng)公司Graphcore執(zhí)行長NigelToon所言，AI標(biāo)志著「運(yùn)算技術(shù)的根本性轉(zhuǎn)變」；該公司將于今年稍晚推出首款芯片。Toon在Imec年度技術(shù)論壇上發(fā)表專題演說時(shí)表示：「今日的硬件限制了我們，我們需要某種更靈活的方案…我們想看到能根據(jù)經(jīng)驗(yàn)調(diào)整的(神經(jīng)網(wǎng)絡(luò))模型；」他舉例指出，兩年前Google實(shí)習(xí)生總共花了25萬美元電費(fèi)，只為了在該公司采用傳統(tǒng)x86處理器或NvidiaGPU的數(shù)據(jù)中心嘗試優(yōu)化神經(jīng)網(wǎng)絡(luò)模型。

實(shí)現(xiàn)復(fù)雜的折衷平衡

Imec希望LENNA能在關(guān)于PIM或模擬內(nèi)存架構(gòu)能比需要存取外部內(nèi)存的傳統(tǒng)架構(gòu)節(jié)省多少能量方面提供經(jīng)驗(yàn)；此外該機(jī)構(gòu)的另一個(gè)目標(biāo)，是量化采用二進(jìn)制方案在精確度、成本與處理量方面的折衷(tradeoff)。

加速器芯片通常能在一些熱門的測試上提供約90%的精確度，例如ImageNet競賽；Verkest表示，單位元數(shù)據(jù)型別目前有10%左右的精度削減，「但如果你調(diào)整你的神經(jīng)網(wǎng)絡(luò)，可以達(dá)到最高85%~87%的精確度?！顾矩?fù)責(zé)督導(dǎo)Imec的邏輯制程微縮技術(shù)藍(lán)圖，在Apple挖腳該機(jī)構(gòu)的第一個(gè)AI項(xiàng)目經(jīng)理之后，又兼管AI項(xiàng)目。

Verkest表示，理論上模擬內(nèi)存單元應(yīng)該能以一系列數(shù)值來儲存權(quán)重(weights)，但是「那些內(nèi)存組件的變異性有很多需要考慮之處；」他指出，Imec的開發(fā)項(xiàng)目將嘗試找出能提供優(yōu)化精度、處理量與可靠度之間優(yōu)化平衡的精度水平。

而Toon則認(rèn)為聚焦于資料型別是被誤導(dǎo)了：「低精度并沒有某些人想得那么嚴(yán)重，內(nèi)存存取是我們必須修正之處；」他并未詳細(xì)介紹Graphcore的解決方案，但聲稱該公司技術(shù)可提供比目前采用HBM2內(nèi)存的最佳GPU高40倍的內(nèi)存帶寬。

在芯片架構(gòu)方面，Imec的研究人員還未決定他們是要設(shè)計(jì)PIM或采用模擬內(nèi)存結(jié)構(gòu)；后者比較像是一種模擬SoC，計(jì)算是在模擬區(qū)塊處理，可因此減少或免除數(shù)字-模擬轉(zhuǎn)換。不同種類的神經(jīng)網(wǎng)絡(luò)會(huì)有更適合的不同架構(gòu)，例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)會(huì)儲存與重復(fù)使用權(quán)重，通常能以傳統(tǒng)GPU妥善運(yùn)作；歸遞神經(jīng)網(wǎng)絡(luò)(RNN)以及長短期記憶模型(longshort-termmemories，LSTMs)則傾向于在使用過后就拋棄權(quán)重，因此更適合表達(dá)式內(nèi)存結(jié)構(gòu)

Imec可能會(huì)以內(nèi)存結(jié)構(gòu)來打造LENNA，讓運(yùn)算留在模擬功能區(qū)塊（來源：Imec）

新的平行架構(gòu)非常難編程，因此大多數(shù)供貨商正在嘗試建立在TensorFlow等現(xiàn)有架構(gòu)中攝取程序代碼的途徑。而Graphcore則是打造了一種名為Poplar的軟件層，旨在以C++或Python語言來完成這項(xiàng)工作；Toon表示：「我們把在處理器中映像圖形(graphs)的復(fù)雜性推到編譯程序(也就是扮演該角色的Poplar)。」

Graphcore的客戶很快就會(huì)發(fā)現(xiàn)該程序會(huì)有多簡單或是多困難；這家新創(chuàng)公司預(yù)計(jì)在年中將第一款產(chǎn)品出貨給一線大客戶，預(yù)期他們會(huì)在今年底采用該款芯片執(zhí)行大型云端供貨商的服務(wù)。Toon聲稱，其加速器芯片將能把CNN的速度提升五至十倍，同時(shí)間采用RNN或LSTM的更復(fù)雜模型則能看到100倍的效能提升。