時(shí)間:2023-10-26 15:21:14來(lái)源:國(guó)產(chǎn)FPGA之家
1ChatGPT和后摩爾時(shí)代
2023年,人工智能領(lǐng)域發(fā)生了一件里程碑式的事件:OpenAI發(fā)布了基于大型語(yǔ)言模型的聊天機(jī)器人ChatGPT,這是一個(gè)可以響應(yīng)人類指令的聊天機(jī)器人,可以完成從寫文章、做數(shù)學(xué)題到調(diào)試代碼的各種任務(wù)。ChatGPT的發(fā)布刷新了人們對(duì)AI的認(rèn)知,標(biāo)志著生成式人工智能的商業(yè)化啟動(dòng),它不僅改變了AI研究和技術(shù)開(kāi)發(fā)的方式,還對(duì)社會(huì)產(chǎn)生了深遠(yuǎn)影響。然而,人工智能并不是一項(xiàng)新興的技術(shù),而是起源于20世紀(jì)60年代,經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,經(jīng)歷了符號(hào)主義、連接主義和行為主體三次浪潮的相互交織,現(xiàn)階段大家普遍認(rèn)為,人工智能 = 深度學(xué)習(xí) + 大規(guī)模計(jì)算 + 大數(shù)據(jù)。深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí),它需要以大量的數(shù)據(jù)為基礎(chǔ),通過(guò)“訓(xùn)練”得到各種參數(shù)(模型),然后使用訓(xùn)練得到的模型進(jìn)行推理,得到最終的結(jié)果。因此,模型的參數(shù)越多,訓(xùn)練和推理所需要的算力就越大。隨著深度學(xué)習(xí)的發(fā)展,AI領(lǐng)域?qū)λ懔Φ男枨笠悦磕瓿^(guò)10倍的速度增長(zhǎng),以ChatGPT為例,其初版基于的大模型GPT-3是一個(gè)有著1750億個(gè)參數(shù)的巨型模型,而最新版基于的GPT-4,其參數(shù)量竟然達(dá)到了喪心病狂的1.76萬(wàn)億(網(wǎng)傳)。
人工智能的實(shí)現(xiàn)需要算力,而算力的的實(shí)現(xiàn)則需要芯片的支撐,這是人工智能進(jìn)行發(fā)展并實(shí)現(xiàn)產(chǎn)業(yè)化的關(guān)鍵。仍以GPT-3為例,1750億參數(shù),1000億詞匯語(yǔ)料庫(kù),需要1000塊英偉達(dá)A100 GPU訓(xùn)練一個(gè)月。2023年,在芯片領(lǐng)域同樣發(fā)生了一件大事,3月24日,摩爾定律的提出者,戈登·摩爾先生與世長(zhǎng)辭,享年94歲。摩爾曾在1965年對(duì)集成電路的發(fā)展做出了著名的預(yù)測(cè):集成電路上可以容納的晶體管數(shù)目大約每經(jīng)18到24個(gè)月便會(huì)增加一倍,即處理器的性能大約每?jī)赡攴槐?,同時(shí)價(jià)格降為原來(lái)的一半,這便是大名鼎鼎的摩爾定律。
雖然摩爾定律并不是正式定義的科學(xué)定律,而是摩爾對(duì)他所觀察到的趨勢(shì)的歸納總結(jié),但是在提出后的半個(gè)世紀(jì)中,成功預(yù)測(cè)了集成電路的發(fā)展趨勢(shì)。以英特爾為例,從1971年到2008年,在過(guò)去的幾十年里,英特爾微處理器芯片上最大晶體管的數(shù)量每?jī)赡攴环姨卣鞒叽缫悦磕?5%的速度縮減,每5年縮減一半。受益于特征尺寸的縮減,即使保持硬件架構(gòu)不變,時(shí)鐘頻率也能獲得大幅度的提升。仍以英特爾為例,從1990年到2002年,其微處理器的時(shí)鐘頻率不到兩年就翻一番,當(dāng)然這其中也包含架構(gòu)升級(jí)帶來(lái)的提升。
如果照這個(gè)趨勢(shì)發(fā)展下去,那么2008年時(shí),處理器的時(shí)鐘頻率就會(huì)提升到30GHz,然而實(shí)際上,2002年后,英特爾處理器時(shí)鐘頻率的增長(zhǎng)就逐步放緩,并且在2005年達(dá)到頂峰。2004年11月,英特爾宣布取消時(shí)鐘頻率4GHz奔騰處理器的計(jì)劃,轉(zhuǎn)而研究多核架構(gòu)。是的,雖然半個(gè)多世紀(jì)以來(lái),摩爾定律為集成電路的發(fā)展描繪了美好的藍(lán)圖,但是由于物理效應(yīng)、功耗等多方面的限制,摩爾定律不可能一直延續(xù)下去。物理效應(yīng)方面,隨著工藝節(jié)點(diǎn)不斷縮小,晶體管的尺寸已經(jīng)接近原子尺度,一些量子效應(yīng)和噪聲效應(yīng)會(huì)影響晶體管的正常工作。例如,當(dāng)閘極長(zhǎng)度足夠短時(shí),就會(huì)發(fā)生量子隧穿效應(yīng),導(dǎo)致漏電流增加,同時(shí)也會(huì)增加功耗和溫度。
另外,由于晶體管中原子的數(shù)量越來(lái)越少,雜質(zhì)漲落、界面粗糙度、晶格不匹配等因素也會(huì)造成晶體管之間的性能差異。功耗方面,隨著集成度的提高,芯片上的晶體管數(shù)量和時(shí)鐘頻率也相應(yīng)增加,這會(huì)導(dǎo)致芯片的功耗和散熱問(wèn)題變得更加嚴(yán)重。功耗主要包括靜態(tài)功耗和動(dòng)態(tài)功耗兩部分。
靜態(tài)功耗是指晶體管在關(guān)閉狀態(tài)下仍然存在的漏電流所消耗的功率,它與量子隧穿效應(yīng)有關(guān)。動(dòng)態(tài)功耗是指晶體管在開(kāi)關(guān)狀態(tài)下由于電容充放電所消耗的功率,它與時(shí)鐘頻率和電壓有關(guān)。除此之外,經(jīng)濟(jì)效益也是需要考慮的一個(gè)方面,隨著工藝節(jié)點(diǎn)的進(jìn)步,制造芯片所需的設(shè)備、材料和人力成本也不斷增加,這會(huì)影響芯片的價(jià)格和市場(chǎng)競(jìng)爭(zhēng)力。
早在摩爾先生去世之前十幾年,業(yè)界就認(rèn)識(shí)到摩爾定律的發(fā)展逐漸放緩甚至將要被打破,于是提出后摩爾時(shí)代這個(gè)概念,力求以后的集成電路發(fā)展尋找新的技術(shù)路線。目前,業(yè)界提出了延續(xù)摩爾(More Moore)、擴(kuò)展摩爾(More than Moore)、超越摩爾(Beyond Moore)和豐富摩爾(Much Moore)等四種主要的發(fā)展方向。由于芯片的時(shí)鐘頻率不能繼續(xù)提升,因此處理器的設(shè)計(jì)從單核超頻逐漸向多核并行轉(zhuǎn)變,通過(guò)提供多個(gè)相同的核心,將計(jì)算任務(wù)分解到不同的核心上同時(shí)計(jì)算,從而提高處理性能。然而,隨著處理器面臨的場(chǎng)景和處理的任務(wù)越來(lái)越復(fù)雜,不同的任務(wù)可能具有不同的性能和能效限制。
沒(méi)有任何處理器架構(gòu)適合所有的場(chǎng)景,因此,多核處理器的設(shè)計(jì)從多核同構(gòu)逐漸向多核異構(gòu)轉(zhuǎn)變,即處理器中的核心具有不同的架構(gòu),比如一些是高性能的、一些是低功耗的,或者一些是通用的、一些是專用的。
2后摩爾時(shí)代下的AI芯片
如前所述,以ChatGPT為代表的AI應(yīng)用需要極大的算力作為支撐,而算力作為人工智能的三大要素之一,需要AI芯片的支撐。雖然,從廣義上來(lái)說(shuō),所有面向AI應(yīng)用的芯片都可以稱為AI芯片,但是人們普遍認(rèn)為,AI芯片是針對(duì)AI算法做了特殊加速設(shè)計(jì)的芯片。由于深度學(xué)習(xí)需要很高的并行計(jì)算能力,而CPU的架構(gòu)往往無(wú)法充分滿足人工智能高性能并行計(jì)算需求,因此需要發(fā)展適合AI算法的專屬芯片。
目前常見(jiàn)的AI加速芯片按照技術(shù)路線可以分為GPU、FPGA和ASIC三類:1)GPU:由數(shù)以千計(jì)的更小、更高效的核心組成大規(guī)模并行計(jì)算架構(gòu),適合用于大量并行計(jì)算。2)FPGA:一種半定制芯片,靈活性強(qiáng)集成度高,但運(yùn)算量小且量產(chǎn)成本高,適用于算法更新頻繁的專用領(lǐng)域3)ASIC:領(lǐng)域?qū)S眯酒?,專用性非常?qiáng),開(kāi)發(fā)周期較長(zhǎng)且難度極高,適合市場(chǎng)需求量大的專用領(lǐng)域。下表更詳細(xì)的對(duì)比了三者的優(yōu)缺點(diǎn):
雖然說(shuō)CPU不能滿足AI算法的性能要求,因此不能作為AI專用芯片,但是實(shí)際上真正的AI應(yīng)用場(chǎng)景都需要CPU的參與才能完成。這是因?yàn)镃PU具有其他AI專用芯片所不具備的通用處理能力,而在AI應(yīng)用中,數(shù)據(jù)的前處理、計(jì)算過(guò)程的流程控制以及計(jì)算結(jié)果的后處理等等,都需要CPU的通用處理能力才能完成。如前所述,在后摩爾時(shí)代,處理器的設(shè)計(jì)多以多核異構(gòu)為主,各個(gè)處理單元充分發(fā)揮自己所長(zhǎng),大家相互配合從而高效地完成計(jì)算。而AI處理器作為后摩爾時(shí)代芯片設(shè)計(jì)中的代表,自然也需要采用這種異構(gòu)多核的設(shè)計(jì)方式。當(dāng)然,不同的AI處理器面向的場(chǎng)景不同,具體的異構(gòu)設(shè)計(jì)也不相同。
以邊緣端的AI處理器為例,其面向的場(chǎng)景需要低功耗、高性能以及數(shù)據(jù)處理的實(shí)時(shí)性,因此可以采用傳統(tǒng)的SoC設(shè)計(jì)外加專用的AI處理器(ASIC),其中SoC中的CPU和外設(shè)分別提供了通用處理和IO交互等能力,而專用AI處理器則為AI算法進(jìn)行加速,二者結(jié)合兼顧了在AI計(jì)算場(chǎng)景中的高性能和低功耗。然而,美中不足的是,AI專用處理器雖然性能高,但是靈活性不足,其所支持的算法在設(shè)計(jì)完成時(shí)便已確定,后期無(wú)法靈活的添加;而AI算法的發(fā)展日新月異,新算子層出不窮,只靠AI處理器恐怕難以招架。
如果能夠在這套系統(tǒng)中再添加一片F(xiàn)PGA,那么靈活性則會(huì)極大的提高。如果遇到不支持的算法或者不能滿足的(IO)性能需求,只需要通過(guò)FPGA的可編程邏輯進(jìn)行現(xiàn)場(chǎng)定制開(kāi)發(fā),就能輕易的支持。3FPAI = FPGA + SOC + AI如上所述,對(duì)于邊緣端的AI處理器,采用FPFA、SoC和專用AI處理器相結(jié)合的設(shè)計(jì),便能兼顧通用性、靈活性和能效,我們不妨將以上架構(gòu)命名為FPAI,即 FPAI = FPGA + SoC + AI。以上架構(gòu)雖然好,但是由于涉及到FPGA的集成,因此實(shí)際設(shè)計(jì)和生產(chǎn)的難度都比較大。萬(wàn)幸的是,某國(guó)內(nèi)廠商敢為人先,已經(jīng)率先推出了采用FPAI架構(gòu)的AI處理器。該芯片的架構(gòu)如下圖所示:
該芯片主要包含了以下三部分:
1)處理器系統(tǒng):對(duì)應(yīng)FPAI架構(gòu)中的SoC,主要包含多核CPU/GPU/VPU等處理器、總線、存儲(chǔ)單元、一些通用接口和其他功能
2)AI引擎:對(duì)應(yīng)FPAI架構(gòu)中的AI專用處理器,包含矩陣處理引擎(MPE)、向量處理引擎(VPE)、片上存儲(chǔ)和一些其他計(jì)算引擎。其中MPE主要用于乘累加的計(jì)算,其主要計(jì)算單元是一個(gè)32×32的MAC陣列;VPE主要用于向量的線性計(jì)算以及激活和池化等操作;片上存儲(chǔ)用于緩存中間數(shù)據(jù),緩解帶寬壓力。3)可編程邏輯:對(duì)應(yīng)FPAI架構(gòu)中的FPGA,包含可編程邏輯資源(BRAM, LUT, DSP),高速接口(GTH, ETH, PCIE)和DDR等。
該AI處理器支持INT8和INT16兩種計(jì)算精度,分別提供27.5TOPS和6.9TOPS的算力。運(yùn)行Yolov5s網(wǎng)絡(luò),耗時(shí)6.28ms,浮點(diǎn)精度為0.568,量化后的INT8精度為0.547,INT16精度為0.561。
處理器的多核異構(gòu)設(shè)計(jì)會(huì)給編程帶來(lái)很大的復(fù)雜度,因此一款好的AI處理器不僅要有好的性能和能效,還要提供好用的編譯器來(lái)將上層AI應(yīng)用便捷地部署到AI處理器上加速運(yùn)行。上述FPAI架構(gòu)的處理器就提供了功能強(qiáng)大且靈活的AI編譯器“Icraft”,其整體架構(gòu)如下:
Icraft主要有以下組件:
1)前端解析:將AI框架中的模型解析到Icraft的中間層,支持的前端框架:Pytorch、Tensorflow、ONNX、Caffe、Darknet
2)量化&優(yōu)化:對(duì)框架中解析出來(lái)的中間層網(wǎng)絡(luò)進(jìn)行量化和一系列優(yōu)化,一步步適配到AI處理器3)指令生成:將算子轉(zhuǎn)換成AI引擎的指令序列4)仿真&運(yùn)行:對(duì)中間層網(wǎng)絡(luò)進(jìn)行仿真,或者將編譯好的網(wǎng)絡(luò)部署到AI處理器上運(yùn)行5)分析評(píng)估:對(duì)網(wǎng)絡(luò)的運(yùn)行速度、效率等情況進(jìn)行分析評(píng)估,為性能優(yōu)化提供參考。Icraft對(duì)于FPAI架構(gòu)中的FPGA部分提供了強(qiáng)有力的支持,用戶可以在FPGA編程定制自己所需要的加速邏輯,并通過(guò)Icraft的自定義算子接口加入到編譯流程中,這樣用戶可以選擇將任何算子通過(guò)FPGA編程進(jìn)行加速,從而靈活的滿足不同場(chǎng)景的需求。由于篇幅限制,具體的自定義算子流程后面將專門撰文講述。
戰(zhàn)術(shù)總結(jié)
今天主要給大家講述了在后摩爾時(shí)代,處理器異構(gòu)多核設(shè)計(jì)的重要性。同時(shí),針對(duì)邊緣端AI處理器的設(shè)計(jì)介紹了FPAI (FPGA + SOC + AI) 架構(gòu)的優(yōu)勢(shì),并且具體介紹了一款已經(jīng)上市的FPAI架構(gòu)的加速器的硬件和軟件設(shè)計(jì)。各位老鐵,如果對(duì)這款FPAI芯片感興趣的話,歡迎私信一起交流,小編我會(huì)第一時(shí)間邀請(qǐng)技術(shù)大拿答疑解惑!
中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.surachana.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
產(chǎn)品新聞
更多>2025-06-09
從外觀到內(nèi)核的「超進(jìn)化」!NK550M五軸...
2025-06-06
2025-05-19
2025-04-30
性能躍升20%!維宏NK300CX Plus數(shù)控系統(tǒng)...
2025-04-11