影音先锋熟女少妇av资源,国产精品52页,2021精品国产自在现线看,亚洲高清中文字幕在线

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

主流芯片架構(gòu)即將變天!

作者:本站收錄
來(lái)源:CSDN
日期:2018-09-18 09:19:06
摘要:隨著設(shè)備擴(kuò)展帶來(lái)的效益越來(lái)越少,人們開(kāi)始設(shè)計(jì)內(nèi)置AI的系統(tǒng),以在本地處理更多數(shù)據(jù)。芯片制造商正在研究一種新的結(jié)構(gòu),這種結(jié)構(gòu)能夠顯著增加每能耗和每個(gè)時(shí)鐘周期上可以處理的數(shù)據(jù)量,并為未來(lái)幾十年內(nèi)芯片架構(gòu)的重大改變打下基礎(chǔ)。
關(guān)鍵詞:AI標(biāo)簽芯片
主流芯片架構(gòu)即將變天!

  所有主要的芯片廠商和系統(tǒng)廠商都在改變方向

  所有主要的芯片廠商和系統(tǒng)廠商都在改變方向,他們引發(fā)了一場(chǎng)架構(gòu)方面的競(jìng)賽,包括了從向內(nèi)存中讀取數(shù)據(jù)的方法到數(shù)據(jù)的處理和管理方式,以及最終各種元素如何打包到單個(gè)芯片中等方方面面。盡管節(jié)點(diǎn)的縮小依然會(huì)持續(xù),但沒(méi)有人會(huì)為了應(yīng)對(duì)隨著各種傳感器和越來(lái)越多的機(jī)器間通信的爆炸式數(shù)據(jù)增長(zhǎng)而把一切賭在擴(kuò)展性上。

  在這些改變之中,有一些值得我們注意:

  新的處理器架構(gòu)專注于在每個(gè)時(shí)鐘周期內(nèi)處理大塊數(shù)據(jù),根據(jù)應(yīng)用程序的不同需要,有時(shí)可以選擇較低的精確度,或讓一些操作有更高的優(yōu)先級(jí)。

  新的內(nèi)存架構(gòu)正在開(kāi)發(fā),它將改變數(shù)據(jù)的存儲(chǔ)、讀取、寫(xiě)入和訪問(wèn)方式。

  更多定向的處理元素被分散到系統(tǒng)中的各個(gè)部分,以配置到距離內(nèi)存最近的地方。以后會(huì)根據(jù)數(shù)據(jù)類型和應(yīng)用程序來(lái)選擇加速器。

  AI方面也有許多研究,以期將不同數(shù)據(jù)類型混合在一起組成模式,從而有效地增加數(shù)據(jù)密度,并將數(shù)據(jù)間的差異降低到最低。

  封裝(packaging)現(xiàn)在是架構(gòu)中的核心組成部分,而且越來(lái)越強(qiáng)調(diào)修改設(shè)計(jì)的方便性。

  Rambus的杰出發(fā)明家Steven Woo說(shuō):“有幾個(gè)趨勢(shì)促使人們希望從已有方案中獲得最大的收益。在數(shù)據(jù)中心,人們希望壓榨硬件和軟件的一切性能。這使得人們重新認(rèn)識(shí)數(shù)據(jù)中心的經(jīng)濟(jì)模式。創(chuàng)新的代價(jià)非常高。但技術(shù)切換才是瓶頸,所以我們才會(huì)看到專用芯片,才會(huì)看到許多提高計(jì)算效率的方式。如果能減少內(nèi)存和輸入輸出之間的數(shù)據(jù)交換,就能帶來(lái)重大影響。”

  邊緣設(shè)備的改變尤為明顯

  這種改變?cè)谶吘壴O(shè)備上尤為明顯,而系統(tǒng)廠商們突然發(fā)現(xiàn),幾百億的設(shè)備會(huì)將它們生成的一切數(shù)據(jù)都發(fā)到云端處理,這數(shù)據(jù)量顯然太大了。但在邊緣設(shè)備上處理巨大的數(shù)據(jù)量又提出了新的難題,必須在不顯著提高能量消耗的前提下提高處理性能。

  Nvidia的Tesla產(chǎn)品線的首席平臺(tái)架構(gòu)師Robert Ober說(shuō),“現(xiàn)在的關(guān)注點(diǎn)是降低精確度。這不僅僅是要求更多的計(jì)算周期,而且要求在內(nèi)存中放入更多數(shù)據(jù),而且只能使用16比特的指令格式。因此并不能通過(guò)將數(shù)據(jù)放到緩存中的方式來(lái)提高效率。從統(tǒng)計(jì)上來(lái)說(shuō),兩種方式的結(jié)果是一樣的。”

  Ober預(yù)測(cè),通過(guò)一系列架構(gòu)上的優(yōu)化,在可預(yù)見(jiàn)的未來(lái),完全可能做到每?jī)赡晏幚硭俣忍岣咭槐丁?ldquo;我們會(huì)看到最尖端的變化,”他說(shuō)。

  “為做到這一點(diǎn),我們需要解決突破三個(gè)瓶頸。第一是計(jì)算。第二是內(nèi)存。某些型號(hào)中是內(nèi)存訪問(wèn),其他型號(hào)則是計(jì)算問(wèn)題。第三就是宿主帶寬和I/O帶寬。我們需要做很多工作來(lái)優(yōu)化存儲(chǔ)和網(wǎng)絡(luò)。”

  其中一些已經(jīng)實(shí)現(xiàn)了。在Hot Chips 2018會(huì)議上的一次演說(shuō)中,三星Austin研發(fā)中心的核心架構(gòu)師Jeff Rupley指出了三星的M3處理器的幾個(gè)主要架構(gòu)變化。其中之一可以在每個(gè)時(shí)鐘周期中執(zhí)行更多指令,與它的前身M2的四條相比,M3能執(zhí)行六條。再加上分支預(yù)測(cè)功能(大致是幾個(gè)神經(jīng)網(wǎng)絡(luò)像執(zhí)行搜索中的預(yù)讀取一樣的功能),以及一個(gè)兩倍深的指令隊(duì)列,已經(jīng)有望解決這些問(wèn)題。

  從另一個(gè)角度來(lái)看,這些改變將創(chuàng)新的重心從制造和處理技術(shù)上轉(zhuǎn)移到前端架構(gòu)和設(shè)計(jì),以及后端的制造后的封裝過(guò)程上。盡管處理技術(shù)上依然會(huì)有創(chuàng)新,但每個(gè)新的節(jié)點(diǎn)增加15%~20%的性能是非常復(fù)雜的,而且很難跟得上目前飛速增長(zhǎng)的數(shù)據(jù)的速度。

  Xilinx的總裁和CEO Victor Peng在Hot Chips的一次演講中說(shuō),“變化正在以指數(shù)的速度出現(xiàn)。每年都會(huì)產(chǎn)生10ZB(1021字節(jié))的數(shù)據(jù),其中絕大部分是無(wú)結(jié)構(gòu)的數(shù)據(jù)。”

  內(nèi)存的新方法

  處理這么多數(shù)據(jù)需要重新思考系統(tǒng)中從處理數(shù)據(jù)的方式到存儲(chǔ)方式的每個(gè)組件。

  eSilicon EMEA的高級(jí)創(chuàng)新總監(jiān)Carlos Maciàn說(shuō),“在建立新的內(nèi)存架構(gòu)方面有過(guò)虛度歐嘗試。問(wèn)題是,你需要讀取所有行,并從每行中選出一個(gè)比特。一種可選的方式是建立一種可以從左到右、從上到下讀取的內(nèi)存。還可以更進(jìn)一步,將計(jì)算分布在距離各個(gè)內(nèi)存最近的地方。”

  這些改變包括改變內(nèi)存的讀取方式、內(nèi)存的位置、處理元素的類型,以及使用AI來(lái)優(yōu)化整個(gè)系統(tǒng)中數(shù)據(jù)的存儲(chǔ)方式、位置、處理和移動(dòng)的方法。

  “如果對(duì)于稀疏數(shù)據(jù)的情況,我們能從內(nèi)存陣列中一次只讀取一個(gè)字節(jié),或者從同一個(gè)字節(jié)的通道中一次讀取連續(xù)的8個(gè)字節(jié),而不用將能量耗費(fèi)在其他我們不感興趣的字節(jié)或字節(jié)通道上,會(huì)怎么樣?”Cadence的產(chǎn)品市場(chǎng)總監(jiān)Marc Greenberg說(shuō)。

  “未來(lái)可能對(duì)這種改變更感興趣。拿HBM2的架構(gòu)作例子,HBM2的晶圓堆疊組織為16個(gè)虛擬通道,每個(gè)通道為16比特寬,這樣不論訪問(wèn)哪個(gè)通道,只需要拿到4個(gè)連續(xù)的64比特字即可。所以完全有可能構(gòu)建1024比特寬的數(shù)據(jù)陣列并水平寫(xiě)入,同時(shí)在垂直方向上一次讀取四個(gè)64比特的字。”

  內(nèi)存是馮諾依曼架構(gòu)中的核心部件之一,但也成了最大的試驗(yàn)領(lǐng)域。AMD的客戶產(chǎn)品首席架構(gòu)師Dan Bouvier說(shuō),“最大的報(bào)應(yīng)之一就是虛擬內(nèi)存系統(tǒng),它用許多不正常的方式移動(dòng)數(shù)據(jù)。你需要不斷進(jìn)行地址轉(zhuǎn)換。而我們?cè)缫蚜?xí)慣了這一點(diǎn)。但如果能在DRAM中消除bank沖突,就能進(jìn)行更有效的數(shù)據(jù)傳輸。所以,離散的GPU能將DRAM利用到90%的有效范圍,這已經(jīng)非常不多了。但如果數(shù)據(jù)傳輸能更流暢,那么APU和CPU也能達(dá)到80%~85%的有效范圍。”

  IBM在研究另一種類型的內(nèi)存架構(gòu),本質(zhì)上是一種現(xiàn)代版的磁盤(pán)分割(disk striping)。這種架構(gòu)不再限制于單一內(nèi)存,而是利用一種連接技術(shù)適時(shí)地利用一切可以利用的內(nèi)存。

  這種連接技術(shù)被IBM的系統(tǒng)硬件架構(gòu)師Jeff Stuecheli稱為連通性的“瑞士軍刀”。這種方法的有點(diǎn)是能使用不同種類的數(shù)據(jù)。

  Stuecheli說(shuō),“CPU更像是坐鎮(zhèn)中央的高性能信號(hào)接口。如果修改了微架構(gòu),那么無(wú)需提高時(shí)鐘頻率,核心就能在每個(gè)時(shí)鐘周期內(nèi)做更多事情。”

  連通性和吞吐量對(duì)于這些架構(gòu)處理不斷生成的數(shù)據(jù)極其重要。Rambus的Woo說(shuō),“現(xiàn)在的瓶頸位于數(shù)據(jù)移動(dòng)中。整個(gè)行業(yè)在計(jì)算方面做得很出色。但如果不得不等待數(shù)據(jù),或等待某種數(shù)據(jù)模式,那內(nèi)存的速度就得加快。所以,對(duì)于DRAM和NVM來(lái)說(shuō),性能取決于數(shù)據(jù)流動(dòng)的模式。對(duì)于流式訪問(wèn),內(nèi)存的效率就非常高。而跳來(lái)跳去的隨機(jī)訪問(wèn)就沒(méi)那么快了。而且不論如何,隨著數(shù)據(jù)量越來(lái)越大,我們能做的只有提高速度。”

  更多計(jì)算,更少移動(dòng)

  更復(fù)雜的問(wèn)題是,邊緣設(shè)備會(huì)生成多種不同類型的數(shù)據(jù),這些數(shù)據(jù)以不同的速度和頻率生成。為了讓數(shù)據(jù)能在各種處理元素之間更流暢地移動(dòng),數(shù)據(jù)就必須以更有效的方式管理。

  Arteris IP的主席兼CEO Charlie Janac說(shuō),“有四種主要的配置——多對(duì)多,內(nèi)存子系統(tǒng),低功耗輸入輸出,以及網(wǎng)格和環(huán)狀拓?fù)?。這四個(gè)部分可以放在同一個(gè)芯片內(nèi),這就是在制造物聯(lián)網(wǎng)芯片時(shí)的做法?;蛘?,可以增加一個(gè)高吞吐量的HBM子系統(tǒng)。但復(fù)雜度會(huì)大大提高,因?yàn)橐徊糠重?fù)載依賴于具體的芯片,而每種芯片都會(huì)有多種特別的負(fù)載和針腳。比如一些物聯(lián)網(wǎng)芯片能處理海量的數(shù)據(jù),特別是比如汽車(chē)中的雷達(dá)和LiDAR芯片。沒(méi)有某種特別的高級(jí)連通功能,這些芯片就不可能實(shí)現(xiàn)。”

  其中的難題是要盡可能減少數(shù)據(jù)移動(dòng),同時(shí)在不得不進(jìn)行數(shù)據(jù)移動(dòng)時(shí),將數(shù)據(jù)的流量最大化,還要在本地處理和中央處理之間達(dá)成平衡,又不能消耗太多能量。

  NetSpeed Systems的產(chǎn)品市場(chǎng)經(jīng)理Rajesh Ramanujam說(shuō),“一方面是帶寬問(wèn)題。你會(huì)盡一切可能不移動(dòng)數(shù)據(jù),所以會(huì)將數(shù)據(jù)移動(dòng)到盡量靠近處理器的位置。但如果必須移動(dòng)數(shù)據(jù),你會(huì)盡可能亞索數(shù)據(jù)。但這一切都不是天上掉下來(lái)的。這一切都要從系統(tǒng)的高度去審視。每一步都要從多個(gè)角度考慮,并要決定是按照傳統(tǒng)的讀寫(xiě)方式使用內(nèi)存,還是使用更新的內(nèi)存科技。一些情況下,你必須改變存儲(chǔ)數(shù)據(jù)的方式本身。如果想要更快的性能,那這通常意味著更高的區(qū)域開(kāi)銷(xiāo),這會(huì)影響到能耗。接下來(lái)就得考慮安全性,還得考慮數(shù)據(jù)過(guò)載的問(wèn)題。”

  這也是為什么許多人關(guān)心在邊緣設(shè)備上進(jìn)行處理以及多種處理元素之間的吞吐量問(wèn)題。AI引擎可以在固態(tài)存儲(chǔ)上自行進(jìn)行分析。

  Marvell的主工程師Ned varnica說(shuō),“你可以在SSD控制器上直接將模型加載到硬件中,并進(jìn)行硬件處理。今天,云服務(wù)中的主機(jī)就在這么做。如果每個(gè)驅(qū)動(dòng)器都要向云端發(fā)送數(shù)據(jù),就會(huì)造成大量的網(wǎng)絡(luò)流量。所以最好讓邊緣設(shè)備自行處理數(shù)據(jù),這樣主機(jī)只需要發(fā)送包含元數(shù)據(jù)的命令即可。這樣,存儲(chǔ)設(shè)備越多,處理能力就越強(qiáng)大。降低網(wǎng)絡(luò)流量帶來(lái)的好處是巨大的。”

  這種方式中非常值得一提的是,它強(qiáng)調(diào)了不同應(yīng)用程序的數(shù)據(jù)移動(dòng)的靈活性。因此,主機(jī)可以產(chǎn)生任務(wù)并發(fā)送給存儲(chǔ)設(shè)備記性處理,之后只返回元數(shù)據(jù)或計(jì)算結(jié)果。還有一種場(chǎng)合是,存儲(chǔ)設(shè)備可以存儲(chǔ)數(shù)據(jù)、預(yù)處理數(shù)據(jù)并生成元數(shù)據(jù)、標(biāo)簽和索引,這些數(shù)據(jù)由主機(jī)獲取,用于未來(lái)的分析。

  這只是其中一種選項(xiàng)。還有其他選擇。三星的Rupley特別強(qiáng)調(diào)了亂序執(zhí)行和混合慣用指令方式,后者可以一次解碼兩條指令,并混合為一個(gè)操作。

  AI監(jiān)管和優(yōu)化

  貫穿這一切的就是人工智能,它是芯片架構(gòu)領(lǐng)域中的最新特性。功能不再由操作系統(tǒng)和中間件管理,而是在系統(tǒng)層次上分布在芯片內(nèi)各個(gè)地方,以及分布在不同的芯片之間。某些情況下還可以在芯片內(nèi)部?jī)?nèi)置神經(jīng)網(wǎng)絡(luò)。

  eSilicon的市場(chǎng)副總裁Mike Gianfagna說(shuō),“實(shí)際上我們要做的就是把更多東西封裝在一起,改變傳統(tǒng)的方式。通過(guò)AI和機(jī)器學(xué)習(xí),我們可以把這一切分散在系統(tǒng)各個(gè)地方,獲得更有效、更可預(yù)測(cè)的處理。一些情況下可以使用系統(tǒng)中獨(dú)立的不同芯片,另一些情況下可以使用同一個(gè)封裝。”

  Arm發(fā)布了它的第一個(gè)機(jī)器學(xué)習(xí)芯片,計(jì)劃于今年晚些時(shí)候在多個(gè)市場(chǎng)上發(fā)售。Arm的接觸工程師Ian Bratt說(shuō),“這是一種新的處理器。它有個(gè)基礎(chǔ)模塊,是一個(gè)計(jì)算引擎、MAC引擎和DMA引擎,再加上一個(gè)控制和廣播網(wǎng)絡(luò)。整體上一共有16個(gè)這樣的計(jì)算引擎,利用7納米技術(shù),能以1GHz的頻率處理4萬(wàn)億條指令。”

  由于Arm與生態(tài)系統(tǒng)合作伙伴合作,因此與仍在開(kāi)發(fā)中的其他AI/ML芯片相比,它的芯片更具通用性和可配置性。

  Arm并沒(méi)有將一切都放到宏內(nèi)核架構(gòu)中,它按照功能將處理分類,這樣各個(gè)計(jì)算引擎可以負(fù)責(zé)不同的功能。Bratt說(shuō)有四個(gè)關(guān)鍵功能,分別是靜態(tài)任務(wù)調(diào)度、有效卷積、帶寬減少機(jī)制和為應(yīng)對(duì)未來(lái)的設(shè)計(jì)而出現(xiàn)的可編程機(jī)制。

  同時(shí),Nvidia采用了不同的路徑,他們?cè)贕PU旁邊建立了一個(gè)獨(dú)立的深度學(xué)習(xí)引擎,來(lái)優(yōu)化處理圖像和視頻時(shí)的流量。

  結(jié)論

  通過(guò)實(shí)現(xiàn)這些方法中的一部分或全部,芯片廠商說(shuō)他們可以每?jī)赡陮⑿酒男阅芴岣咭槐?,從而跟上?shù)據(jù)的爆炸式增長(zhǎng),同時(shí)保持芯片的功耗在一定范圍之內(nèi)。

  這實(shí)現(xiàn)絕不僅僅是更多的計(jì)算機(jī)。它是整個(gè)芯片設(shè)計(jì)和系統(tǒng)工程的改變的起點(diǎn),從此芯片開(kāi)始跟隨數(shù)據(jù)的增長(zhǎng),而不是受限于硬件和軟件。

  Synopsys的主席和副CEO Aart de Geus說(shuō):“當(dāng)計(jì)算機(jī)進(jìn)入公司時(shí),許多人感到整個(gè)世界發(fā)展得太快了。他們當(dāng)時(shí)還在一摞紙上進(jìn)行會(huì)計(jì)工作。從那時(shí)就開(kāi)始了指數(shù)級(jí)別的增長(zhǎng),而現(xiàn)在我們又會(huì)見(jiàn)到同樣的事情。

  現(xiàn)在發(fā)展的東西,你可以認(rèn)為就是當(dāng)年由會(huì)計(jì)賬本向穿孔卡片的演化。在農(nóng)田里,你必須在正確的日期、氣溫上升的時(shí)候澆水施肥,這就是為什么以前機(jī)器學(xué)習(xí)沒(méi)有帶來(lái)明顯進(jìn)步的原因。”

  并不只他一個(gè)人給出了這種評(píng)價(jià)。西門(mén)子的子公司Mentor的總裁和CEOWally Rhines說(shuō),“人們最終會(huì)接受新架構(gòu)。新架構(gòu)最終會(huì)被設(shè)計(jì)出來(lái)。多數(shù)情況下這些架構(gòu)會(huì)包含機(jī)器學(xué)習(xí),就像你的大腦能從經(jīng)驗(yàn)中學(xué)習(xí)一樣。我見(jiàn)過(guò)20多家公司利用他們自己特質(zhì)的AI處理器,每一種都有特定的用途。但你現(xiàn)在會(huì)在越來(lái)越多的應(yīng)用中看到他們,最終他們會(huì)挑戰(zhàn)傳統(tǒng)的馮諾依曼架構(gòu)。神經(jīng)元計(jì)算會(huì)成為主流,這是我們?cè)谔岣哂?jì)算效率、降低成本并提高移動(dòng)性和互聯(lián)性方面的一大步。”

人物訪談