在加速人工智能的競(jìng)賽中,硅谷公司 Cerebras 采取了一個(gè)不同尋常的戰(zhàn)略:做大。
典型的計(jì)算機(jī)芯片只有指甲蓋那么大,Cerebras的芯片是餐盤大小。
深度學(xué)習(xí)是為語(yǔ)音助手、自動(dòng)駕駛汽車和圍棋冠軍提供動(dòng)力的一種人工智能技術(shù),它依賴于分層排列的復(fù)雜“神經(jīng)網(wǎng)絡(luò)”軟件。深度學(xué)習(xí)系統(tǒng)可以在一臺(tái)計(jì)算機(jī)上運(yùn)行,但最大的系統(tǒng)分布在連接在一起的數(shù)千臺(tái)機(jī)器上,這些機(jī)器有時(shí)位于大型數(shù)據(jù)中心,比如由谷歌操作的數(shù)據(jù)中心。在一個(gè)大集群中,多達(dá)48個(gè)披薩盒大小的服務(wù)器滑進(jìn)一個(gè)人高的機(jī)架;這些貨架成排排列著,裝滿了倉(cāng)庫(kù)那么大的建筑物。這些系統(tǒng)中的神經(jīng)網(wǎng)絡(luò)可以解決令人生畏的問(wèn)題,但它們也面臨著明顯的挑戰(zhàn)。在一個(gè)集群中擴(kuò)散的網(wǎng)絡(luò)就像一個(gè)分散在房間里并連接在一起的大腦。電子移動(dòng)得很快,但即便如此,跨芯片通信還是很慢,并且消耗大量的能量。
舊金山風(fēng)險(xiǎn)投資公司Benchmark的普通合伙人埃里克·維什里亞(Eric Vishria)在2016年春天聽一家名為Cerebras Systems的新電腦芯片公司的演講時(shí),第一次意識(shí)到這個(gè)問(wèn)題。Benchmark以早期投資Twitter、優(yōu)步(Uber)和ebay等公司而聞名——也就是說(shuō),投資的是軟件,而不是硬件。該公司每年會(huì)考察大約200個(gè)創(chuàng)業(yè)項(xiàng)目,并投資其中一個(gè)?!拔覀?cè)谕孢@種吻一千只青蛙的游戲,” Vishria告訴我。演講一開始,他就決定把青蛙扔回去?!拔揖拖耄覟槭裁匆膺@么做?”我們不會(huì)進(jìn)行硬件投資,”他回憶當(dāng)時(shí)的想法。“這太蠢了?!?/p>
Cerebras的聯(lián)合創(chuàng)始人安德魯·費(fèi)爾德曼(Andrew Feldman)從幻燈片封面開始,到他的團(tuán)隊(duì)幻燈片,引起了Vishria的注意:他的才華令人印象深刻。然后費(fèi)爾德曼比較了兩種電腦芯片。首先,他研究了圖形處理單元或GPU——專為創(chuàng)建 3D 圖像而設(shè)計(jì)的芯片。由于各種原因,今天的機(jī)器學(xué)習(xí)系統(tǒng)依賴于這些圖形芯片。接下來(lái),他研究了中央處理單元(簡(jiǎn)稱CPU)——在典型計(jì)算機(jī)上完成大部分工作的通用芯片?!暗谌龔埢脽羝闹黝}是‘GPU’它實(shí)際上對(duì)深度學(xué)習(xí)來(lái)說(shuō)很糟糕——只是碰巧比CPU好上一百倍?!盋erebras公司提出了一種新型芯片,這種芯片不是為圖像設(shè)計(jì)的,而是專門為人工智能設(shè)計(jì)的。
Vishria已經(jīng)習(xí)慣聽那些計(jì)劃將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全、醫(yī)療成像、聊天機(jī)器人和其他應(yīng)用的公司的推銷。在Cerebras演講之后,他與Benchmark資助的一些公司的工程師進(jìn)行了交談,包括Zillow、Uber和Stitch Fix;他們告訴他,他們?cè)谌斯ぶ悄芊矫嬗龅搅死щy,因?yàn)椤坝?xùn)練”神經(jīng)網(wǎng)絡(luò)花費(fèi)了太長(zhǎng)時(shí)間。谷歌已經(jīng)開始使用超快的“張量處理單元”,即為人工智能設(shè)計(jì)的特殊芯片TPU。Vishria知道一場(chǎng)淘金熱正在進(jìn)行,必須有人來(lái)制造鎬頭和鐵鍬。
那一年,Benchmark和另一家風(fēng)險(xiǎn)投資公司Foundation Capital領(lǐng)投了一輪對(duì)Cerebras的2700萬(wàn)美元的投資,該公司已經(jīng)籌集了近5億美元。其他公司也在制造所謂的人工智能加速器;Cerebras的競(jìng)爭(zhēng)對(duì)手groq、Graphcore和sambanova總共籌集了超過(guò)20億美元的資本。但Cerebras的方法是獨(dú)一無(wú)二的,該公司不是用通常的方法——在一塊大的硅片上印刷幾十個(gè)晶片,然后將它們從硅片上切下來(lái),然后彼此連接,而是制造了一種巨大的“晶圓級(jí)”芯片。一個(gè)典型的計(jì)算機(jī)芯片只有指甲大小,Cerebras的大小和餐盤差不多,它是世界上最大的計(jì)算機(jī)芯片。
即使是競(jìng)爭(zhēng)對(duì)手也覺(jué)得這一壯舉令人印象深刻?!斑@是全新的科學(xué),”Graphcore的首席執(zhí)行官兼聯(lián)合創(chuàng)始人奈杰爾·圖恩(Nigel Toon)告訴我?!斑@是一項(xiàng)令人難以置信的工程,是一項(xiàng)杰作。”與此同時(shí),另一位與我交談過(guò)的工程師把它描述為一個(gè)科學(xué)項(xiàng)目——為了大而大。過(guò)去,公司曾試圖制造巨型芯片,但以失敗告終;Cerebras的計(jì)劃相當(dāng)于打賭克服工程挑戰(zhàn)是可能的,而且是值得的?!袄蠈?shí)講,對(duì)我來(lái)說(shuō),無(wú)知是一種優(yōu)勢(shì),” Vishria說(shuō)?!拔也恢?,如果我知道做他們做的事情有多難,我就會(huì)有勇氣投資。”
計(jì)算機(jī)變得越來(lái)越快,這是一個(gè)很容易被認(rèn)為是理所當(dāng)然的事情。人們通常用摩爾定律來(lái)解釋這一現(xiàn)象:1965年,半導(dǎo)體先驅(qū)戈登摩爾在 1965 年確定的模式,根據(jù)該模式,芯片上的晶體管數(shù)量每年或每?jī)赡攴环?。?dāng)然,摩爾定律并不是一個(gè)真正的定律,工程師們孜孜不倦地縮小晶體管,同時(shí)也改進(jìn)每個(gè)芯片的“架構(gòu)”,創(chuàng)造出更高效、更強(qiáng)大的設(shè)計(jì)。
芯片建筑師們一直想知道,單一的、大規(guī)模的計(jì)算機(jī)芯片是否可能比一堆較小的芯片更高效,就像一個(gè)資源集中、區(qū)塊密集的城市比郊區(qū)更高效一樣。這個(gè)想法在20世紀(jì)60年代首次嘗試,當(dāng)時(shí)德州儀器有限地生產(chǎn)了幾英寸寬的芯片。但該公司的工程師遇到了良率的問(wèn)題。在任何給定的硅片上,制造缺陷不可避免地危及一定數(shù)量的電路。如果晶圓片含有50個(gè)芯片,公司可以扔掉壞的,把其余好的賣掉。但是,如果每個(gè)成功的芯片都依賴于一個(gè)晶圓的工作電路,那么許多昂貴的晶圓將會(huì)被丟棄。德州儀器找到了解決辦法,但技術(shù)和需求都還沒(méi)有到位。
20世紀(jì)80年代,一位名叫吉恩·阿姆達(dá)爾(Gene Amdahl)的工程師又一次嘗試解決這個(gè)問(wèn)題,他創(chuàng)立了一家名為Trilogy Systems的公司。它成為了硅谷有史以來(lái)最大的初創(chuàng)公司,獲得了大約2.5億美元的投資。為了解決成品率問(wèn)題,Trilogy公司在芯片上印制了冗余組件。這種方法提高了產(chǎn)量,但降低了芯片的速度。與此同時(shí),Trilogy在其他方面也舉步維艱。Amdahl 開著他的勞斯萊斯撞死了一名摩托車手,引發(fā)了法律糾紛;公司總裁患腦瘤去世;大雨延誤了工廠的建設(shè),空調(diào)系統(tǒng)也生銹了,芯片上也積滿了灰塵。1984年,Trilogy 放棄了。Amdahl 的兒子告訴《泰晤士報(bào)》說(shuō):“當(dāng)時(shí)根本沒(méi)有意識(shí)到這有多難?!?/p>
如果 Trilogy 的技術(shù)成功了,它現(xiàn)在可能會(huì)被用于深度學(xué)習(xí)。相反,GPU(用于視頻游戲的芯片)正在國(guó)家實(shí)驗(yàn)室解決科學(xué)問(wèn)題。將 GPU 重新用于 AI 取決于這樣一個(gè)事實(shí),即神經(jīng)網(wǎng)絡(luò)雖然非常復(fù)雜,但依賴于大量的乘法和加法。當(dāng)網(wǎng)絡(luò)中的“神經(jīng)元”相互激活時(shí),它們會(huì)放大或減少彼此的信號(hào),將它們乘以稱為連接權(quán)重的系數(shù)。一個(gè)高效的 AI 處理器將并行計(jì)算許多激活;它將它們組合成一系列的數(shù)字,稱為向量,或者是數(shù)字網(wǎng)格,稱為矩陣,或者是高維的塊,稱為張量。理想情況下,您想一下子將一個(gè)矩陣或張量乘以另一個(gè)矩陣或張量。GPU 旨在完成類似的工作:
“Trilogy的陰影如此之大,”費(fèi)爾德曼最近告訴我,“人們停止思考,開始說(shuō),‘這是不可能的?!卑ㄓミ_(dá)在內(nèi)的GPU公司抓住了這個(gè)機(jī)會(huì),為深度學(xué)習(xí)定制了芯片。2015年,費(fèi)爾德曼和一些計(jì)算機(jī)架構(gòu)師開始討論更大芯片的想法,他們之前共同創(chuàng)立了一家計(jì)算機(jī)服務(wù)器制造商seamicro,以3.34億美元的價(jià)格將這家公司賣給了芯片制造商AMD。他們?cè)谝婚g從風(fēng)投公司借來(lái)的辦公室里研究了這個(gè)問(wèn)題四個(gè)月。當(dāng)他們有了一個(gè)可行的解決方案的大綱后,他們與8家公司進(jìn)行了交談;獲得Benchmark、Foundation Capital和Eclipse的投資,并開始招聘。
Cerebras的第一個(gè)任務(wù)是解決困擾大型芯片的制造難題。芯片最初是一個(gè)圓柱形的結(jié)晶硅錠,直徑約為一英尺,鋼錠被切成不到一毫米厚的圓晶片。然后,通過(guò)一種光刻的工藝把電路“印”到晶圓上。對(duì)紫外線敏感的化學(xué)物質(zhì)被小心地沉積在表面,然后紫外線光束通過(guò)稱為光罩(掩膜版)的詳細(xì)模板投射,這些化學(xué)物質(zhì)發(fā)生反應(yīng),形成電路。
通常情況下,通過(guò)掩膜版投射的光線覆蓋的區(qū)域?qū)⒊蔀橐粋€(gè)芯片。然后晶片移動(dòng),光線再次投射。在數(shù)十個(gè)或數(shù)百個(gè)芯片被打印出來(lái)后,它們會(huì)從晶圓上進(jìn)行激光切割。“最簡(jiǎn)單的方法是,你的媽媽拿出一個(gè)圓的曲奇面團(tuán),”費(fèi)爾德曼說(shuō), “她有一個(gè)餅干模子,她會(huì)小心翼翼地把餅干刻出來(lái)?!备鶕?jù)物理和光學(xué)定律,做一個(gè)更大的餅干切割機(jī)是不可能的。因此, “我們發(fā)明了一種技術(shù),這樣你就可以通過(guò)兩塊餅干之間的小面團(tuán)進(jìn)行交流。”
在Cerebras與制造芯片的公司臺(tái)積電合作開發(fā)的打印系統(tǒng)中,餅干的邊緣會(huì)重疊,這樣它們的電線就會(huì)連起來(lái)。結(jié)果是一個(gè)單一的“晶圓片大小”的晶片,銅色的方形,邊長(zhǎng)21厘米。(最大的GPU直徑略小于3厘米。)Cerebras公司于2019年生產(chǎn)了其首個(gè)芯片 Wafer-Scale Engine 1。今年推出的WSE-2采用了更密集的電路,包含2.6萬(wàn)億個(gè)晶體管,這些晶體管被集中到85萬(wàn)個(gè)處理單元(或稱“核心”)中。(頂級(jí)的GPU只有幾千個(gè)核心,而大多數(shù)的CPU不到10個(gè)。)
Synopsys公司董事長(zhǎng)兼聯(lián)席首席執(zhí)行官Aart de Geus表示:“2.6萬(wàn)億晶體管令人震驚?!盨ynopsys提供了一些軟件,Cerebras和其他芯片制造商用來(lái)制作和驗(yàn)證他們的芯片設(shè)計(jì)。de Geus說(shuō),在設(shè)計(jì)芯片時(shí),工程師首先要考慮兩個(gè)核心問(wèn)題:“數(shù)據(jù)從哪里來(lái)?”在哪里處理?”當(dāng)芯片還比較簡(jiǎn)單的時(shí)候,設(shè)計(jì)師們可以在制圖桌上拿著鉛筆回答這些問(wèn)題;在處理當(dāng)今更加復(fù)雜的芯片時(shí),輸入代碼來(lái)描述他們想要?jiǎng)?chuàng)建的架構(gòu),然后繼續(xù)使用可視化和編碼工具。de Geus說(shuō):“想想從屋頂看房子的感覺(jué)。“車庫(kù)靠近廚房嗎?”還是離臥室很近?你想讓它靠近廚房——否則,你將不得不帶著食品雜貨經(jīng)過(guò)房子的每一個(gè)角落?!彼忉屨f(shuō),在設(shè)計(jì)了平面圖之后,“你可以用方程式來(lái)描述房間里發(fā)生的事情。”
芯片的設(shè)計(jì)復(fù)雜度令人難以置信。de Geus說(shuō):“這里有很多層,”電路縱橫交錯(cuò),層層疊疊,就像主要的高速公路立交橋一樣。對(duì)于“Cerebras”的工程師來(lái)說(shuō),在晶圓的規(guī)模上工作,復(fù)雜性被提高了。Synopsys的軟件以人工智能的形式提供幫助:模式匹配算法識(shí)別常見問(wèn)題并提出解決方案;優(yōu)化程序?qū)⒎块g推向更快、更有效的安排。如果太多的車道試圖擠在兩個(gè)街區(qū)的建筑之間,該軟件可以讓工程師扮演羅伯特·摩西(Robert Moses),移動(dòng)街區(qū)。
最后,費(fèi)爾德曼說(shuō),超大芯片設(shè)計(jì)有幾個(gè)優(yōu)點(diǎn)。當(dāng)核心在同一個(gè)芯片上時(shí),它們的通信速度更快:計(jì)算機(jī)的大腦現(xiàn)在集中在一個(gè)頭骨中,而不是分散在一個(gè)房間里。大芯片處理內(nèi)存的能力也更好。通常情況下,準(zhǔn)備處理文件的小芯片必須首先從位于電路板上其他地方的共享內(nèi)存芯片獲取文件;只有最常用的數(shù)據(jù)才會(huì)被緩存到離家更近的地方。在描述晶圓級(jí)芯片的效率時(shí),費(fèi)爾德曼做了一個(gè)類比:他讓我想象一群室友(核心)住在一個(gè)宿舍(芯片),他們想看足球比賽(做計(jì)算工作)。費(fèi)爾德曼說(shuō),為了觀看比賽,室友們需要把啤酒儲(chǔ)存在冰箱里(數(shù)據(jù)存儲(chǔ)在內(nèi)存中);Cerebras在每個(gè)房間都放了一個(gè)冰箱,這樣室友們就不用冒險(xiǎn)去宿舍的公共廚房或Safeway了。這樣做的額外好處,即允許每個(gè)核心更快地處理不同的數(shù)據(jù)?!八栽谖业乃奚崂镂铱梢杂邪偷?,”費(fèi)爾德曼說(shuō)?!霸谀愕乃奚崂?,你可以享用舒立茲?!?/p>
最后,Cerebras 必須克服產(chǎn)量問(wèn)題。該公司的工程師使用 Trilogy 的技巧:冗余。但在這里,他們比他們的前輩有優(yōu)勢(shì)。Trilogy 試圖制造具有許多不同組件的通用芯片,因此圍繞單個(gè)故障元件的布線可能需要連接到遠(yuǎn)處的替代品。在 Cerebras 的芯片上,所有內(nèi)核都是相同的。如果一塊餅干出問(wèn)題了,它周圍的餅干也一樣好。
今年6月,在《自然》雜志上發(fā)表的一篇論文中,谷歌的開發(fā)人員報(bào)告說(shuō),他們第一次完全自動(dòng)化了一個(gè)叫做“芯片布局規(guī)劃”的過(guò)程。一個(gè)典型的芯片可以包含數(shù)千個(gè)內(nèi)存塊、數(shù)千萬(wàn)個(gè)邏輯門和數(shù)萬(wàn)公里的微型線路。他們使用的技術(shù)與DeepMind的同事用來(lái)教神經(jīng)網(wǎng)絡(luò)贏得圍棋比賽的技術(shù)相同,他們訓(xùn)練了一個(gè)人工智能來(lái)規(guī)劃張量處理單元,在安排這些元素的同時(shí)防止數(shù)據(jù)擁塞;當(dāng)他們將人工智能的TPU與一組專家花了幾個(gè)月時(shí)間創(chuàng)造的TPU進(jìn)行測(cè)試時(shí),他們發(fā)現(xiàn)這臺(tái)電腦的設(shè)計(jì)只用了大約幾個(gè)小時(shí)就完成了,在對(duì)面積、電力和電線長(zhǎng)度的有效利用方面,與人類不相上下,甚至超過(guò)了人類。谷歌目前正在使用該算法設(shè)計(jì)下一個(gè)TPU。
人工智能領(lǐng)域的人都在談?wù)撨@個(gè)奇點(diǎn)——在這個(gè)點(diǎn)上,技術(shù)將開始以超出人類控制的速度自我改進(jìn)。我問(wèn) de Geus,他的軟件是否幫助設(shè)計(jì)了他現(xiàn)在用來(lái)設(shè)計(jì)芯片的任何芯片。他說(shuō)有,并給我看了他最近做的一個(gè)幻燈片; 最后以 MC Escher 的兩只手互相畫畫的插圖結(jié)束,de Geus 將其標(biāo)記為“Silicon(硅)”和“Smarts(智慧)”。當(dāng)我告訴費(fèi)爾德曼我迫不及待地想看他用Cerebras芯片來(lái)設(shè)計(jì)Cerebras芯片時(shí),他笑稱“這就像給雞喂雞塊?!?/p>
結(jié)果證明,設(shè)計(jì)和制造芯片只是挑戰(zhàn)的一半。大腦消耗大量的能量——人類的大腦占我們體重的2%,卻消耗了我們攝入的20%的熱量,而硅也是如此。一個(gè)典型的大型計(jì)算機(jī)芯片可能需要350瓦的功率,但Cerebras的巨型芯片需要15千瓦的功率——足夠運(yùn)行一間小房子。費(fèi)爾德曼說(shuō):“從來(lái)沒(méi)有人給芯片提供過(guò)這么大的能量?!薄皬膩?lái)沒(méi)有人需要像這樣冷卻芯片?!?/p>
最后,由Cerebras公司圍繞其WSE-1芯片構(gòu)建的CS-1計(jì)算機(jī),有四分之三的部分致力于防止主板熔化。大多數(shù)計(jì)算機(jī)使用風(fēng)扇將冷空氣吹過(guò)處理器,但CS-1使用水,導(dǎo)熱性更好;與管道相連的硅片頂部是一個(gè)水冷板,由定制的銅合金制成,加熱時(shí)不會(huì)膨脹太多,并拋光至完美,以免刮傷芯片。在大多數(shù)芯片上,數(shù)據(jù)和電力通過(guò)邊緣的電線流入,其方式大致與到達(dá)郊區(qū)住宅的方式相同;對(duì)于更城市化的晶圓引擎來(lái)說(shuō),它們需要垂直地從下面進(jìn)入。工程師們必須發(fā)明一種新的連接材料,能夠承受超大芯片環(huán)境的高溫和壓力?!斑@花了我們一年多的時(shí)間,”Feldman說(shuō)。
最終的結(jié)果是一個(gè)設(shè)計(jì)精美的盒子,正面是一個(gè)復(fù)雜的幾何網(wǎng)格,邊緣的剛性三角形鑲嵌在中心變成一種地質(zhì)的,幾乎是生物的混亂,在那里它們與橙色的垂直條紋相交。這臺(tái)電腦看起來(lái)就像你在商店買的除濕機(jī)一樣;在數(shù)據(jù)中心的機(jī)架中,它占用的空間相當(dāng)于十五個(gè)由GPU驅(qū)動(dòng)的披薩盒。定制的機(jī)器學(xué)習(xí)軟件工程任務(wù)以最有效的方式分配給芯片,為了防止冷點(diǎn)分配工作,從而使晶片不會(huì)破裂。。
這個(gè)系統(tǒng)有多快?最接近全行業(yè)機(jī)器學(xué)習(xí)性能度量的是一組稱為MLPerf的基準(zhǔn)測(cè)試,由一個(gè)名為MLCommons的工程聯(lián)盟組織。許多得分最高的系統(tǒng)都是由圖形公司英偉達(dá)(Nvidia)生產(chǎn)的使用GPU的系統(tǒng)。Cerebras還沒(méi)有參加比賽。費(fèi)爾德曼說(shuō):“你絕對(duì)不想走到歌利亞面前,邀請(qǐng)他來(lái)一場(chǎng)劍戰(zhàn)?!薄八麄儠?huì)分配比我們公司更多的人來(lái)調(diào)優(yōu)基準(zhǔn)?!痹谌魏吻闆r下,基準(zhǔn)測(cè)試只是系統(tǒng)的一部分。一臺(tái)計(jì)算機(jī)的性能可能優(yōu)于另一臺(tái),但它也可能有更多的芯片,或使用更多的電力,或成本更高,或缺乏靈活性,或不能很好地?cái)U(kuò)展,或設(shè)置起來(lái)很麻煩。
費(fèi)爾德曼認(rèn)為,更好的表現(xiàn)來(lái)自于客戶滿意度??紤]到CS-1約200萬(wàn)美元的價(jià)格,顧客群相對(duì)較小。據(jù)Cerebras稱,CS-1已經(jīng)被一些世界級(jí)的實(shí)驗(yàn)室使用,包括勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室、匹茲堡超級(jí)計(jì)算中心和愛(ài)丁堡大學(xué)的e.p.c.超級(jí)計(jì)算中心,也被制藥公司、工業(yè)公司和“軍事和情報(bào)客戶”使用。今年早些時(shí)候,制藥公司阿斯利康(AstraZeneca)的一名工程師在一篇博客文章中寫道,該公司使用CS-1訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以從研究論文中提取信息;這臺(tái)計(jì)算機(jī)在兩天內(nèi)完成了“大型GPU”需要兩周的工作。美國(guó)國(guó)家能源技術(shù)實(shí)驗(yàn)室(U.S. National Energy Technology Laboratory)報(bào)告稱,其CS-1系統(tǒng)解方程組的速度比其超級(jí)計(jì)算機(jī)快200多倍,而耗電量?jī)H為超級(jí)計(jì)算機(jī)的“一小部分”。研究人員寫道:“據(jù)我們所知,這是有史以來(lái)第一個(gè)能夠在真實(shí)的流體動(dòng)力學(xué)模型中實(shí)時(shí)模擬數(shù)百萬(wàn)個(gè)細(xì)胞的系統(tǒng)?!彼麄兊慕Y(jié)論是,由于規(guī)模的低效率,他們的超級(jí)計(jì)算機(jī)不可能有一個(gè)版本大到足以擊敗CS-1。
勞倫斯·利弗莫爾運(yùn)行著許多世界上最快的超級(jí)計(jì)算機(jī)。該實(shí)驗(yàn)室已經(jīng)將CS-1集成到其中一個(gè)裝置中,以幫助進(jìn)行包括模擬核聚變?cè)趦?nèi)的實(shí)驗(yàn)。利弗莫爾計(jì)算機(jī)公司(Livermore Computing)的首席技術(shù)官布羅尼斯·德·蘇平斯基(Bronis de Supinski)告訴我,在最初的測(cè)試中,CS-1每個(gè)晶體管的神經(jīng)網(wǎng)絡(luò)運(yùn)行速度是一組GPU的五倍,而且網(wǎng)絡(luò)訓(xùn)練速度更快。
葛蘭素史克 AI 團(tuán)隊(duì)負(fù)責(zé)人 Kim Branson 表示,作為與伯克利生物化學(xué)家 Jennifer Doudna 合作的一部分,該公司已經(jīng)使用 CS-1 完成了許多任務(wù),包括分析 DNA 序列和預(yù)測(cè)突變結(jié)果。去年因其在crispr 方面的工作而獲得諾貝爾獎(jiǎng). 布蘭森發(fā)現(xiàn),在 DNA 測(cè)序工作中,CS-1 的速度大約是他一直使用的 16 節(jié)點(diǎn) GPU 集群的 80 倍。他還指出了其他優(yōu)勢(shì),其中一個(gè)是,作為一臺(tái)單一的機(jī)器,它更容易安裝。他回憶起自己第一次拜訪Cerebras位于加州森尼維爾的辦公室的情景。他的團(tuán)隊(duì)喜歡使用“銀翼殺手”命名的會(huì)議室。當(dāng)費(fèi)爾德曼啟動(dòng)CS-1時(shí),屏幕上出現(xiàn)了“我們來(lái)玩?zhèn)€游戲吧?”——指的是1983年的電影《戰(zhàn)爭(zhēng)游戲》,這部電影講述的是一臺(tái)智能電腦威脅要發(fā)動(dòng)一場(chǎng)核戰(zhàn)爭(zhēng)。他告訴我,他很期待今年CS-2的發(fā)布,它將擁有兩倍的晶體管和內(nèi)存。
最近,摩爾定律開始放緩。隨著晶體管越來(lái)越小,它們開始觸及物理極限——很難構(gòu)建比幾個(gè)原子更小的結(jié)構(gòu)。芯片制造商開始拿摩爾第二定律開玩笑:芯片制造廠的成本似乎也在呈指數(shù)級(jí)增長(zhǎng)。臺(tái)積電目前正計(jì)劃建造一座耗資超過(guò)100億美元的晶圓廠;為了用更小的晶體管制造芯片,該公司正在考慮建造一座成本可能高達(dá)250億美元的工廠。20年前,有25家公司可以制造尖端芯片。如今,這一領(lǐng)域已經(jīng)縮小到臺(tái)積電、三星(Samsung)和英特爾(Intel)。
像WSE-1和WSE-2這樣的加速器芯片填補(bǔ)了這一空白。它們并不需要每平方毫米包含更多的晶體管,但它們優(yōu)化了特定應(yīng)用的排列。“設(shè)計(jì)芯片和設(shè)計(jì)汽車沒(méi)有什么不同,”Feldman說(shuō)。你想要一輛運(yùn)磚的小貨車嗎?一輛接送孩子的小貨車?周日開一輛跑車?“我們?cè)谛酒戏诺亩际侨斯ぶ悄艿臇|西,” 目前,進(jìn)展將通過(guò)專業(yè)化來(lái)實(shí)現(xiàn)。
風(fēng)險(xiǎn)投資家維什里亞(Vishria)用“工作量”來(lái)描述芯片行業(yè)的歷史。在他看來(lái),到目前為止已經(jīng)有四次了。粗略地說(shuō),在20世紀(jì)80年代,個(gè)人電腦需要通用芯片,英特爾成為了這個(gè)市場(chǎng)的領(lǐng)導(dǎo)者。然后,在20世紀(jì)90年代,電子游戲和CGI的發(fā)展推動(dòng)了具有并行處理功能的強(qiáng)大的GPU的發(fā)展,英偉達(dá)最終占據(jù)了主導(dǎo)地位?;ヂ?lián)網(wǎng)和計(jì)算機(jī)網(wǎng)絡(luò)的興起要求更快的響應(yīng)時(shí)間,博通贏得了巨大的勝利。在2000年,移動(dòng)需要電力效率,我們有高通和ARM。維什里亞說(shuō):“我認(rèn)為第五項(xiàng)工作量是深度學(xué)習(xí),它將與前四項(xiàng)工作量一樣大?!睋?jù)Synopsys說(shuō),“世界已經(jīng)明白,人工智能和人工智能芯片現(xiàn)在是基礎(chǔ)設(shè)施。它是使人類在未來(lái)20年發(fā)生根本變化的核心?!?/p>
Cerebras 的晶片級(jí)方法只是一種可能性。業(yè)內(nèi)人士描述了人工智能芯片設(shè)計(jì)的寒武紀(jì)大爆發(fā)。微處理器分析師林利·格溫納普(Linley Gwennap)表示,“人工智能帶走了所有的規(guī)則?!蓖ㄓ眯酒脑O(shè)計(jì)者必須考慮與舊軟件的兼容性?!皩?duì)于人工智能來(lái)說(shuō),這就像是把所有這些都拋棄了,因?yàn)槿斯ぶ悄艿囊磺卸际菐啄昵暗氖铝?,”格溫納普說(shuō)。超過(guò)200家初創(chuàng)公司正在設(shè)計(jì)人工智能芯片,據(jù)估計(jì),到2025年,這個(gè)市場(chǎng)的規(guī)模將接近1000億美元。并非所有的芯片都是為數(shù)據(jù)中心設(shè)計(jì)的,其中一些將被安裝在助聽器、門鈴攝像頭或自動(dòng)駕駛汽車上。(特斯拉和大眾都在設(shè)計(jì)自己的汽車。)
地球上幾乎每一種生命形式,從鷹到珊瑚到大腸桿菌,都填補(bǔ)了自己的生態(tài)位,并經(jīng)過(guò)優(yōu)化在特定的條件下茁壯成長(zhǎng)。同樣,芯片將繼續(xù)進(jìn)化和多樣化,以滿足特定的需求。Cerebras Wafer-Scale engine可能不會(huì)取代Nvidia的GPU,即使是在數(shù)據(jù)中心,不是每個(gè)人都需要200萬(wàn)美元的超級(jí)大腦。這里有容納多種神經(jīng)系統(tǒng)的空間,包括自然神經(jīng)系統(tǒng)和人工神經(jīng)系統(tǒng)。盡管如此,我們似乎已經(jīng)達(dá)到了一個(gè)里程碑。
“大腦瓜”來(lái)了。