具有結(jié)合的cpu和gpu的芯片器件，相應(yīng)的主板和計(jì)算機(jī)系統(tǒng)的制作方法

文檔序號(hào)：6643212閱讀：173來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

具有結(jié)合的cpu和gpu的芯片器件，相應(yīng)的主板和計(jì)算機(jī)系統(tǒng)的制作方法
【專(zhuān)利摘要】本實(shí)用新型大體上涉及一種計(jì)算機(jī)系統(tǒng)，具體地說(shuō)，涉及一種具有結(jié)合的CPU和GPU的芯片器件，一種包括配置成與具有結(jié)合的CPU和GPU的芯片器件連接的芯片插口的相應(yīng)主板和一種包括結(jié)合的CPU和GPU的計(jì)算機(jī)系統(tǒng)。
【專(zhuān)利說(shuō)明】具有結(jié)合的CPU和GPU的芯片器件，相應(yīng)的主板和計(jì)算機(jī)系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本實(shí)用新型大體上涉及一種計(jì)算機(jī)系統(tǒng)，具體地說(shuō)，涉及一種具有結(jié)合的CPU(中央處理單元)和GPU(圖形處理單元)的芯片器件，一種包括配置成與具有結(jié)合的CPU和GPU的芯片器件連接的芯片插口的相應(yīng)主板和一種包括結(jié)合的CPU和GPU的計(jì)算機(jī)系統(tǒng)。

【背景技術(shù)】
[0002]計(jì)算機(jī)長(zhǎng)期以來(lái)就包含CPU，其設(shè)計(jì)用于運(yùn)行常規(guī)的編程任務(wù)。但是，計(jì)算機(jī)系統(tǒng)典型地也包括其他處理元件，最普通的是GPU，其最初設(shè)計(jì)用于并行地執(zhí)行專(zhuān)業(yè)的圖形計(jì)算。隨著時(shí)間的推移，GPU已經(jīng)變得更加強(qiáng)大和用途廣泛，進(jìn)而允許將它們以非常優(yōu)異的功效應(yīng)用于處理通用的并行計(jì)算任務(wù)。
[0003]今天，越來(lái)越多的主流應(yīng)用程序要求僅僅通過(guò)高度并行計(jì)算就能夠?qū)崿F(xiàn)高性能和高效率。但是，現(xiàn)在的CPU和GPU被設(shè)計(jì)成獨(dú)立的處理單元，不能高效地協(xié)同工作，并且編程起來(lái)非常繁瑣。它們每個(gè)都具有單獨(dú)的內(nèi)存空間，進(jìn)而需要應(yīng)用程序明確地將數(shù)據(jù)從CPU復(fù)制到GPU，然后再返回來(lái)。
[0004]在CPU上運(yùn)行的程序通過(guò)設(shè)備驅(qū)動(dòng)器堆棧利用系統(tǒng)調(diào)用來(lái)使得針對(duì)GPU的任務(wù)列隊(duì)等待，所述設(shè)備驅(qū)動(dòng)器堆棧通過(guò)完全獨(dú)立的調(diào)度程序來(lái)管理。這導(dǎo)致明顯的具有系統(tǒng)開(kāi)銷(xiāo)(overhead)的調(diào)度延遲，所述系統(tǒng)開(kāi)銷(xiāo)只有在應(yīng)用程序需要的并行計(jì)算量非常大的時(shí)候才使得這種處理過(guò)程是合算的。此外，如果在GPU上運(yùn)行的程序想要直接產(chǎn)生工作條目的話，不管是針對(duì)它本身還是針對(duì)CPU，這在今天都是不能實(shí)現(xiàn)的。
[0005]同時(shí)，現(xiàn)有的計(jì)算系統(tǒng)通常包括多個(gè)處理設(shè)備。例如，一些計(jì)算系統(tǒng)包括處于單獨(dú)的芯片上的CPU和GPU(例如，CPU可以位于主板上，而GPU可以位于顯卡上)或者處于單個(gè)芯片封裝中的CPU和GPU。
[0006]這種分散的芯片布局使得系統(tǒng)和軟件設(shè)計(jì)師需要使用芯片到芯片接口，以便每個(gè)處理器訪問(wèn)內(nèi)存。這些外部的接口(例如芯片到芯片的接口)對(duì)使異構(gòu)處理器協(xié)同工作的內(nèi)存延遲和功率消耗都具有負(fù)面影響，單獨(dú)的內(nèi)存系統(tǒng)(例如單獨(dú)的尋址空間)和驅(qū)動(dòng)器管理的共享內(nèi)存使得系統(tǒng)開(kāi)銷(xiāo)變得不可接受。
[0007]不僅分散的芯片布局而且單個(gè)的芯片布局都可能限制能夠被發(fā)送給GPU用于執(zhí)行的命令的類(lèi)型。這種基于性能的限制存在是因?yàn)镃PU可以相對(duì)快速地請(qǐng)求由這些計(jì)算命令所生成的操作的結(jié)果。但是，由于現(xiàn)有系統(tǒng)中GPU上的調(diào)度工作的系統(tǒng)開(kāi)銷(xiāo)大并且這些命令可能不得不排隊(duì)等待以便其他先前發(fā)起的命令先被執(zhí)行，所以由于將計(jì)算命令發(fā)送給GPU所導(dǎo)致的延遲通常是不可接受的。
實(shí)用新型內(nèi)容
[0008]為了解決這些缺陷和其他缺點(diǎn)，本實(shí)用新型提供一種改善的計(jì)算機(jī)系統(tǒng)，其將CPU與GPU結(jié)合在一起并且使得它們能夠共同地高效工作。所述改善的計(jì)算機(jī)系統(tǒng)具有增強(qiáng)的浮點(diǎn)數(shù)據(jù)處理和計(jì)算能力，并且同時(shí)降低了功耗，并且使得所述系統(tǒng)的性能、可編程性和可移植性得到改善。
[0009]為了實(shí)現(xiàn)所述改善的計(jì)算機(jī)系統(tǒng)，提出了異構(gòu)系統(tǒng)架構(gòu)(HSA)。所述HSA是一種系統(tǒng)架構(gòu)，其允許加速器(例如圖形處理器)在與系統(tǒng)的CPU相同的處理水平上運(yùn)行。利用HSA，應(yīng)用程序可以在單個(gè)統(tǒng)一的尋址空間內(nèi)創(chuàng)建數(shù)據(jù)結(jié)構(gòu)，并且能夠以最高效的方式針對(duì)所分配的任務(wù)在硬件上發(fā)起工作條目。在計(jì)算單元之間共享數(shù)據(jù)就像發(fā)送指針一樣簡(jiǎn)單。多個(gè)計(jì)算任務(wù)可以在相同的相干(coherent)內(nèi)存區(qū)域上運(yùn)行，能夠根據(jù)需要使用分界線和原子內(nèi)存(barriers and atomic memory)操作以便保持?jǐn)?shù)據(jù)同步。
[0010]在實(shí)施本實(shí)用新型的第一方面的示例性實(shí)施方式中，提供了一種芯片器件。所述芯片器件包括:CPU，其具有多個(gè)內(nèi)核；GPU，其具有多個(gè)計(jì)算單元；系統(tǒng)內(nèi)存，其連接至所述CPU和所述GPU ;內(nèi)存管理單元(MMU)，其連接至所述系統(tǒng)內(nèi)存并且由所述CPU和所述GPU共享；其中，所述CPU和所述GPU集成在一起并且在共享的內(nèi)存中以相干的方式運(yùn)行。
[0011]作為本實(shí)用新型的一個(gè)方面，提供統(tǒng)一的尋址空間供所述CPU和所述GPU使用，以避免數(shù)據(jù)復(fù)制。所述統(tǒng)一的尋址空間允許包含指針的數(shù)據(jù)結(jié)構(gòu)，所述指針能夠由所述CPU和所述GPU自由使用。這使得在所述CPU與所述GPU之間共享資源變得更加容易，并且消除了通信延遲和瓶頸，否則的話這些通信延遲和瓶頸可能會(huì)使得GPU卸載沒(méi)必要復(fù)雜化的事務(wù)。
[0012]在實(shí)施本實(shí)用新型的第二方面的示例性實(shí)施方式中，提供了一種主板。所述主板包括至少一個(gè)配置成連接至芯片器件的芯片插口，所述芯片器件包括:CPU，其具有多個(gè)內(nèi)核；GPU，其具有多個(gè)計(jì)算單元；系統(tǒng)內(nèi)存，其連接至所述CPU和所述GPU;內(nèi)存管理單元(MMU)，其連接至所述系統(tǒng)內(nèi)存并且由所述CPU和所述GPU共享；其中，所述CPU和所述GPU集成在一起并且在共享的內(nèi)存中以相干的方式運(yùn)行。
[0013]在實(shí)施本實(shí)用新型的第三方面的示例性實(shí)施方式中，提供了一種計(jì)算機(jī)系統(tǒng)。所述計(jì)算機(jī)系統(tǒng)包括:CPU，其具有多個(gè)內(nèi)核；GPU，其具有多個(gè)計(jì)算單元；系統(tǒng)內(nèi)存，其連接至所述CPU和所述GPU;內(nèi)存管理單元(MMU)，其連接至所述系統(tǒng)內(nèi)存并且由所述CPU和所述GPU共享；其中，所述CPU和所述GPU集成在一起并且在共享的內(nèi)存中以相干的方式運(yùn)行。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0014]參考附圖通過(guò)舉例的方式(但并不限于此)闡述本實(shí)用新型，其中:
[0015]圖1示出現(xiàn)有技術(shù)中一種包括CPU和GPU的簡(jiǎn)化的計(jì)算機(jī)系統(tǒng)的示意性方框圖，所述CPU和GPU均具有單獨(dú)的內(nèi)存；
[0016]圖2示出一種包括CPU和GPU的經(jīng)改善的簡(jiǎn)化的計(jì)算機(jī)系統(tǒng)的示意性方框圖，所述CPU和GPU具有共享的系統(tǒng)內(nèi)存；
[0017]圖3示出一種根據(jù)本實(shí)用新型的示例性實(shí)施方式的經(jīng)改善的簡(jiǎn)化的計(jì)算機(jī)系統(tǒng)的示意性方框圖；以及
[0018]圖4示出一種根據(jù)本實(shí)用新型的示例性實(shí)施方式的典型系統(tǒng)的示意性方框圖。

【具體實(shí)施方式】
[0019]結(jié)合附圖在考慮下面的詳細(xì)描述的情況下更好地理解本實(shí)用新型。在下面的說(shuō)明書(shū)中，許多具體細(xì)節(jié)都是用來(lái)提供對(duì)本實(shí)用新型的完全理解。但是，對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)顯而易見(jiàn)的是，本實(shí)用新型能夠以不帶有一些或全部具體細(xì)節(jié)的方式實(shí)施。在其他情況下，公知的步驟和/或結(jié)構(gòu)并未進(jìn)行詳細(xì)闡述，以免不必要地造成本實(shí)用新型難于理解。
[0020]在一些實(shí)施方式中，計(jì)算機(jī)系統(tǒng)在單個(gè)集成電路或者主板上實(shí)現(xiàn)，所述集成電路或者主板的元件可以包括一個(gè)或多個(gè)CPU內(nèi)核以及一個(gè)或多個(gè)統(tǒng)一的GPU計(jì)算單元，如下面還將詳細(xì)介紹的那樣。與CPU和GPU通常是獨(dú)立的(例如位于單獨(dú)的卡或板上或者位于單獨(dú)的封裝中)傳統(tǒng)計(jì)算環(huán)境相比，改善的計(jì)算機(jī)系統(tǒng)創(chuàng)造了一種現(xiàn)有的和新型的編程框架、語(yǔ)言和工具都能夠在上面應(yīng)用的基礎(chǔ)。
[0021]所述改善的計(jì)算機(jī)系統(tǒng)的統(tǒng)一環(huán)境可以使得編程人員編寫(xiě)相應(yīng)的應(yīng)用程序，所述應(yīng)用程序流暢連貫地或者說(shuō)無(wú)縫地在CPU與GPU之間轉(zhuǎn)移數(shù)據(jù)，進(jìn)而從每個(gè)設(shè)備必須要提供的最佳屬性中獲益。統(tǒng)一的單個(gè)編程平臺(tái)可以提供強(qiáng)大的基礎(chǔ)，以便開(kāi)發(fā)采用并行方式的語(yǔ)言、框架和應(yīng)用程序。
[0022]在下面的詳細(xì)描述中，對(duì)“一種實(shí)施方式”、“一個(gè)實(shí)施方式”、“一種不例性實(shí)施方式”等的參考指示出所描述的實(shí)施方式可以包括特定特征、結(jié)構(gòu)或特點(diǎn)，但是每個(gè)實(shí)施方式可以不必包括所述特定特征、結(jié)構(gòu)或特點(diǎn)。此外，這類(lèi)短語(yǔ)沒(méi)有必要是指同一實(shí)施方案。另夕卜，當(dāng)結(jié)合一個(gè)實(shí)施方式描述特定特征、結(jié)構(gòu)或特點(diǎn)時(shí)，所主張的是本領(lǐng)域技術(shù)人員知道結(jié)合無(wú)論是否被明確描述的其它實(shí)施方式對(duì)這種特征、結(jié)構(gòu)或特點(diǎn)的影響。
[0023]圖1以簡(jiǎn)單的方式示出現(xiàn)有技術(shù)中簡(jiǎn)化的傳統(tǒng)計(jì)算機(jī)系統(tǒng)。如圖1中所示，在簡(jiǎn)化的傳統(tǒng)計(jì)算機(jī)系統(tǒng)中，具有多個(gè)內(nèi)核107的CPUlOl和具有多個(gè)計(jì)算單元108的GPU 102被設(shè)計(jì)成單獨(dú)的處理元件并且具有單獨(dú)的內(nèi)存103、104。CPU內(nèi)存103通過(guò)第一內(nèi)存總線105連接至CPU 101，而GPU內(nèi)存104通過(guò)第二內(nèi)存總線106連接至GPU102。在所示的例子中，CPU 101和GPU 102通過(guò)通信鏈路110連接。在所示的例子中，省略了所述傳統(tǒng)計(jì)算機(jī)系統(tǒng)的公知的元件，以免造成對(duì)本實(shí)用新型的相關(guān)細(xì)節(jié)的描述難于理解。
[0024]由于單獨(dú)的內(nèi)存，每個(gè)CPU和GPU都具有單獨(dú)的內(nèi)存空間，需要應(yīng)用程序明確地將數(shù)據(jù)從CPU復(fù)制到GPU，然后返回。具體地說(shuō)，CPU 101明確地將數(shù)據(jù)復(fù)制到GPU內(nèi)存104，GPU 102完成計(jì)算，然后將計(jì)算結(jié)果明確地復(fù)制返回給CPU內(nèi)存103。僅僅只有數(shù)據(jù)組可以被復(fù)制，因?yàn)镚PU不能跟隨(follow)嵌入式數(shù)據(jù)結(jié)構(gòu)鏈接。CPU內(nèi)存與GPU內(nèi)存之間的路徑是相當(dāng)耗時(shí)費(fèi)力的，并且沒(méi)有用于CPU和GPU訪問(wèn)相同的內(nèi)存區(qū)域的簡(jiǎn)潔的方式。
[0025]所述傳統(tǒng)的計(jì)算機(jī)系統(tǒng)包括具有自己的本地內(nèi)存的CPU和具有自己的本地內(nèi)存的GPU，其支持非統(tǒng)一內(nèi)存訪問(wèn)(NUMA)。在NUMA下，與非本地內(nèi)存(對(duì)其他處理器來(lái)說(shuō)是本地的內(nèi)存或者在處理器之間共享的內(nèi)存)相比，處理器可以更加快速地訪問(wèn)它自己的本地內(nèi)存。NUMA的優(yōu)點(diǎn)限于特定的工作負(fù)荷，這一點(diǎn)在服務(wù)器上尤其明顯，在那里數(shù)據(jù)通常與某些任務(wù)或者用戶緊密相關(guān)。
[0026]圖2以簡(jiǎn)單的方式示出根據(jù)本實(shí)用新型的改善的計(jì)算機(jī)系統(tǒng)的一種示例性實(shí)施方式。CPU 201具有多個(gè)內(nèi)核207并且通過(guò)第一內(nèi)存總線205連接至統(tǒng)一的內(nèi)存203。GPU202具有多個(gè)計(jì)算單元208并且通過(guò)第二內(nèi)存總線206連接至所述統(tǒng)一的內(nèi)存203。CPU201和GPU202通過(guò)處理器間通信鏈路210以通信方式連接。在一種實(shí)施方式中，所述處理器間通信鏈路210是超級(jí)傳輸(HyperTransport)鏈路。如圖2中所示，CPU和GPU共享著被稱(chēng)為GPU/GPU統(tǒng)一內(nèi)存的相同的系統(tǒng)內(nèi)存。其優(yōu)點(diǎn)包括更加簡(jiǎn)單的編程模式和數(shù)據(jù)在單獨(dú)的內(nèi)存池之間的較少?gòu)?fù)制。在一種實(shí)施方式中，每個(gè)CPU 201和GPU 202都具有自己的高速緩存(未示出)。
[0027]包括具有相同內(nèi)存的CPU和GPU的所述改善的計(jì)算機(jī)系統(tǒng)支持統(tǒng)一內(nèi)存訪問(wèn)(UMA)。在UMA模式下，所有的處理器統(tǒng)一地共享物理內(nèi)存。在一種UMA架構(gòu)中，對(duì)存儲(chǔ)位置的訪問(wèn)時(shí)間不依賴(lài)于哪個(gè)處理器發(fā)出請(qǐng)求或者哪個(gè)內(nèi)存芯片包含所轉(zhuǎn)交的數(shù)據(jù)。統(tǒng)一內(nèi)存訪問(wèn)計(jì)算機(jī)架構(gòu)通常與非統(tǒng)一內(nèi)存訪問(wèn)(NUMA)架構(gòu)不同。在UMA架構(gòu)中，每個(gè)處理器都可以使用自己的高速緩存。外圍設(shè)備也以某種方式共享。所述UMA模式適用于通用目的和多用戶分時(shí)操作應(yīng)用程序。它可以被用于在對(duì)時(shí)間要求苛刻的應(yīng)用程序中使單個(gè)大型程序的執(zhí)行得以加速。
[0028]在這種改善的計(jì)算機(jī)系統(tǒng)種，CPU簡(jiǎn)單地將指針傳遞給GPU，GPU完成計(jì)算，然后(PU就可以直接讀取結(jié)果。不需要復(fù)制。指針是一種保持著內(nèi)存地址的命名變量。它使得通過(guò)命名來(lái)引用數(shù)據(jù)或者代碼段變得容易，并且不需要開(kāi)發(fā)人員知道內(nèi)存中的確切地址。指針可以由被用于在任何其他的變量上運(yùn)行的相同表達(dá)式所操作。在所述改善的計(jì)算機(jī)系統(tǒng)中，存在用于兩個(gè)計(jì)算元件訪問(wèn)相同的內(nèi)存區(qū)域的簡(jiǎn)潔的方式。相干的內(nèi)存確保了 CPU和GPU高速緩存都能查看更新的數(shù)據(jù)。GPU可以流暢連貫地訪問(wèn)還沒(méi)有存在于物理內(nèi)存中的虛擬內(nèi)存地址。CPU和GPU都可以訪問(wèn)和配置系統(tǒng)的虛擬內(nèi)存中的任何位置。CPU和GPU都可以讀取和修改內(nèi)存的相同區(qū)域，而不用一個(gè)等待另一個(gè)處理任務(wù)。這使得它們兩個(gè)之間的資源共享更加簡(jiǎn)單，其消除了通信延遲和瓶頸，否則的話這些通信延遲和瓶頸可能會(huì)使得GPU卸載沒(méi)必要復(fù)雜化的事務(wù)。
[0029]在一個(gè)例子中，每個(gè)GPU計(jì)算單元都可以包括一個(gè)或多個(gè)標(biāo)量和/或向量浮點(diǎn)單元和/或算術(shù)邏輯單元(ALU)。GPU計(jì)算單元也可以包括專(zhuān)用處理單元(未示出)，如反平方根單元和正弦/余弦單元。
[0030]圖3示出根據(jù)本實(shí)用新型的經(jīng)改善的簡(jiǎn)化的計(jì)算機(jī)系統(tǒng)的一種示例性實(shí)施方式。所述改善的計(jì)算機(jī)系統(tǒng)包括具有異構(gòu)系統(tǒng)架構(gòu)的加速處理單元(HSA APU)APU 300和系統(tǒng)內(nèi)存303。所述APU 300和系統(tǒng)內(nèi)存303通過(guò)內(nèi)存總線310以通信的方式連接。APU 300使得具有多個(gè)內(nèi)核307的CPU模塊301、具有多個(gè)計(jì)算單元308的GPU模塊302和HSA內(nèi)存管理單元(HMMU) 305結(jié)合在一起。這些部件都通過(guò)內(nèi)存總線310與相干的和不相干的系統(tǒng)內(nèi)存303通信。所述系統(tǒng)內(nèi)存303包括相干部分和不相干部分。
[0031 ] 在這種計(jì)算機(jī)系統(tǒng)中，為CPU和GPU提供了統(tǒng)一的尋址空間，并因此CPU和GPU可以訪問(wèn)具有相同地址空間的內(nèi)存?，F(xiàn)在，指針可以在CPU與GPU之間自由傳遞。還提供了CPU與GPU之間完全相干的內(nèi)存。GPU現(xiàn)在可以訪問(wèn)和緩存來(lái)自系統(tǒng)內(nèi)存的相干內(nèi)存區(qū)域中的數(shù)據(jù)，并且可以引用來(lái)自CPU高速緩存(未示出)的數(shù)據(jù)。高速緩存相干性得以保持。此外，GPU通過(guò)CPU指針使用可分頁(yè)的系統(tǒng)內(nèi)存，并因此GPU可以利用CPU與GPU之間共享的虛擬內(nèi)存，并且可分頁(yè)的系統(tǒng)內(nèi)存現(xiàn)在可以由GPU直接引用，而不用在訪問(wèn)之前進(jìn)行復(fù)制或者鎖定(pinned)。
[0032]下面結(jié)合在圖4中所示的典型系統(tǒng)來(lái)描述根據(jù)本實(shí)用新型的改善的計(jì)算機(jī)系統(tǒng)的一種示例性實(shí)施方式。如下面詳細(xì)闡述的那樣，所述典型系統(tǒng)包括利用處理器間通信鏈路連接至其他元件的HSA APU、連接至所述APU的附加板，所述附加板具有專(zhuān)用的APD (加速處理設(shè)備)和本地內(nèi)存。這種示例性系統(tǒng)可以構(gòu)成在單個(gè)硅片或者封裝上，進(jìn)而使得CPU和GPU結(jié)合在一起，以提供一種統(tǒng)一的編程和運(yùn)行環(huán)境。這種環(huán)境確保了針對(duì)某些編程任務(wù)可以像使用CPU那樣流暢地使用GPU。此外，專(zhuān)用的APD可以包含在這個(gè)系統(tǒng)中。雖然GPU、加速處理單元(APU)以及通用用途的圖形處理單元(GPU)是這個(gè)領(lǐng)域中常用的術(shù)語(yǔ)，但是表述“加速處理設(shè)備(APD) ”被認(rèn)為是更廣義的表述。例如，APD是指硬件和/或軟件的任何配合集合，與常規(guī)CPU、常規(guī)GPU、軟件和/或其組合相比，所述任何配合集合以加速方式完成與加速圖形處理任務(wù)、數(shù)據(jù)并行任務(wù)或嵌套數(shù)據(jù)并行任務(wù)相關(guān)的那些功能和計(jì)算。
[0033]這個(gè)示例性系統(tǒng)用來(lái)說(shuō)明各種特征、特性和能力，所述各種特征、特性和能力可以加以使用，從而更為有效地利用系統(tǒng)的計(jì)算資源。如本領(lǐng)域技術(shù)人員將了解的那樣，具有不同配置和布置的替代實(shí)施方式也是意料之中的。
[0034]圖4是一種說(shuō)明性計(jì)算機(jī)系統(tǒng)的框圖并且闡明了不同的元件和/或子系統(tǒng)。本實(shí)用新型并不限于圖4的說(shuō)明性實(shí)施方式，并且應(yīng)注意到，本實(shí)用新型的實(shí)施方式以類(lèi)似方式包括帶有一個(gè)以上或者帶有一個(gè)APU插槽的較大和較小平臺(tái)設(shè)計(jì)。本文所描述的實(shí)施方式是出于說(shuō)明性目的，并且應(yīng)了解，根據(jù)本實(shí)用新型的其它實(shí)施方式也是可能的。根據(jù)本實(shí)用新型的特定平臺(tái)設(shè)計(jì)的詳細(xì)實(shí)施特性可以是不同的。
[0035]參考圖4，系統(tǒng)元件被分解為多個(gè)方框，每個(gè)方框都可以包含不同的特征、特性、互連和/或?qū)傩?。軟?更小程度上來(lái)說(shuō)包括應(yīng)用軟件)列舉了這些特征、特性、互連和/或?qū)傩?，并且將這些方面并入到代碼操作中。
[0036]根據(jù)本實(shí)用新型的計(jì)算機(jī)系統(tǒng)40包括APU 400和系統(tǒng)內(nèi)存403。APU 400和系統(tǒng)內(nèi)存403通過(guò)第一內(nèi)存總線410以通信的方式連接。在一種實(shí)施方式中，APU 400可以通過(guò)處理器間通信鏈路例如外圍元件互連裝置(PCIe) 414和/或超級(jí)傳輸鏈路416連接至其他APU。APU 400包括具有多個(gè)內(nèi)核407的CPU模塊401、具有多個(gè)計(jì)算單元408的GPU模塊402和HSA內(nèi)存管理單元HMMU 305。
[0037]所述計(jì)算機(jī)系統(tǒng)40還包括通過(guò)第一內(nèi)存總線410連接至APU400的系統(tǒng)內(nèi)存403。所述系統(tǒng)內(nèi)存403包括相干部分和不相干部分。所述計(jì)算機(jī)系統(tǒng)40還包括附加板420。所述附加板420通過(guò)PCIe總線412連接至所述APU 400。在各種可供選擇的實(shí)施方式中，附加板420的一些或所有物理元件和/或軟件、固件或微代碼設(shè)置在帶有一個(gè)或多個(gè)APU的共同襯底(例如，印刷電路板)上。
[0038]所述附加板420包括專(zhuān)用的APD 421和本地內(nèi)存422，所述本地內(nèi)存422通過(guò)第二內(nèi)存總線423連接至所述專(zhuān)用的APD 421。所述本地內(nèi)存422包括相干的第一部分和不相干的第二部分。所述本地內(nèi)存422典型地在物理上實(shí)施為易失性存儲(chǔ)器，但是這種實(shí)施方式并不是本實(shí)用新型的要求。所述專(zhuān)用的APD 421可以包括它自己的計(jì)算單元，如但不限于一個(gè)或多個(gè)SMD (單指令多數(shù)據(jù))處理內(nèi)核。如本文所提及，SMD是流水線或編程模型，其中核心程序(kernel)在多個(gè)處理元件上同時(shí)執(zhí)行，所述處理元件中的每一個(gè)都具有自己的數(shù)據(jù)和共享的程序計(jì)數(shù)器。所有處理元件執(zhí)行一個(gè)完全相同的指令集。預(yù)測(cè)的使用使得工作項(xiàng)目能夠參與或不參與每個(gè)所發(fā)出的命令。在一個(gè)實(shí)施例中，每個(gè)APD 421計(jì)算單元都可以包括一個(gè)或多個(gè)標(biāo)量和/或向量浮點(diǎn)單元和/或算術(shù)邏輯單元(ALU)。所述APD計(jì)算單元還可以包括專(zhuān)用處理單元(未示出)，如反平方根單元和正弦/余弦單元。
[0039]組合式CPU/GPU體系結(jié)構(gòu)系統(tǒng)的具體特征表現(xiàn)為含有依從于CPU/GPU體系結(jié)構(gòu)的一個(gè)或多個(gè)處理單元，其中至少一個(gè)是APU (即，含有CPU計(jì)算單元和APD-SMD執(zhí)行單元兩者)。每個(gè)處理單元大致上通過(guò)其物理表示(例如，“APU插槽”、APD “適配器” /裝置)來(lái)定義，并且具有可發(fā)現(xiàn)的內(nèi)部子元件和特性，如但不限于CPU計(jì)算單元和高速緩存(可選地，可以在組合式體系結(jié)構(gòu)依從性離散APD設(shè)備中不表達(dá)任何內(nèi)容)、APD SIMD和高速緩存(如果表達(dá)傳統(tǒng)的CPU特性，則是可選的)、存儲(chǔ)控制器和連接裝置、1MMU(可選地，可以針對(duì)組合式體系結(jié)構(gòu)依從性離散APD不表達(dá)任何內(nèi)容)以及1連接接口(例如，PCIe、HyperTransport、DM1、內(nèi)部或其它接口)。
[0040]在計(jì)算機(jī)系統(tǒng)中，通信基礎(chǔ)設(shè)施視需要互連系統(tǒng)的部件。通信基礎(chǔ)設(shè)施可以包括(未示出)外圍部件互連(PCI)總線、擴(kuò)展的PCI (PC1-E)總線、高級(jí)微控制器總線體系結(jié)構(gòu)(AMBA)總線、高級(jí)圖形端口(AGP)或其它此類(lèi)通信基礎(chǔ)設(shè)施中的一個(gè)或多個(gè)。通信基礎(chǔ)設(shè)施還可以包括以太網(wǎng)，或類(lèi)似網(wǎng)絡(luò)，或滿足應(yīng)用程序的數(shù)據(jù)傳輸速率要求的任何適當(dāng)物理通信基礎(chǔ)設(shè)施。通信基礎(chǔ)設(shè)施包括用以互連包括計(jì)算系統(tǒng)元件在內(nèi)的元件的功能性。
[0041]本文所示出和描述的示例性系統(tǒng)至少可以在計(jì)算設(shè)備(包括但不限于筆記本計(jì)算機(jī)、桌上型計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式計(jì)算機(jī)、移動(dòng)計(jì)算機(jī)和平板計(jì)算機(jī)、機(jī)頂盒、媒體服務(wù)器、電視機(jī)和類(lèi)似設(shè)備)、圖形處理和異構(gòu)型計(jì)算資源的統(tǒng)一編程環(huán)境等領(lǐng)域中找到應(yīng)用。
[0042]應(yīng)了解，本實(shí)用新型并不限于上文所述的說(shuō)明性實(shí)施方式，而是涵蓋屬于所附權(quán)利要求和其等效方案的范圍內(nèi)的任何和所有實(shí)施方案。
[0043]對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)，顯而易見(jiàn)的是，可以針對(duì)這里所描述的實(shí)施方式實(shí)現(xiàn)大量的改進(jìn)方案和變形方案，而它們并未離開(kāi)要求保護(hù)的主題的實(shí)質(zhì)和范圍。因此，本說(shuō)明書(shū)的用意在于，涵蓋這里所描述的不同實(shí)施方式的改進(jìn)方案和變形方案，并且所述改進(jìn)方案和變形方案處于附加的權(quán)利要求和它們的等效方案的范圍之內(nèi)。
【權(quán)利要求】
1.一種芯片器件，其包括: CPU，其具有多個(gè)內(nèi)核； GPU，其具有多個(gè)計(jì)算單元；系統(tǒng)內(nèi)存，其連接至所述CPU和所述GPU ；內(nèi)存管理單元(MMU)，其連接至所述系統(tǒng)內(nèi)存并且由所述CPU和所述GPU共享；其中，所述CPU和所述GPU集成在一起并且在共享的內(nèi)存中以相干的方式運(yùn)行。
2.一種主板，其包括配置成連接至芯片器件的芯片插口，所述芯片器件包括: CPU，其具有多個(gè)內(nèi)核； GPU，其具有多個(gè)計(jì)算單元；系統(tǒng)內(nèi)存，其連接至所述CPU和所述GPU ；內(nèi)存管理單元(MMU)，其連接至所述系統(tǒng)內(nèi)存并且由所述CPU和所述GPU共享；其中，所述CPU和所述GPU集成在一起并且在共享的內(nèi)存中以相干的方式運(yùn)行。
3.根據(jù)權(quán)利要求2所述的主板，其中，所述主板還包括加速處理設(shè)備(APD)。
4.根據(jù)權(quán)利要求3所述的主板，其中，所述主板還包括加速處理設(shè)備本地內(nèi)存，其通過(guò)內(nèi)存總線連接至所述加速處理設(shè)備(APD)。
5.一種計(jì)算機(jī)系統(tǒng)，其包括: CPU，其具有多個(gè)內(nèi)核； GPU，其具有多個(gè)計(jì)算單元；系統(tǒng)內(nèi)存，其連接至所述CPU和所述GPU ；內(nèi)存管理單元(MMU)，其連接至所述系統(tǒng)內(nèi)存并且由所述CPU和所述GPU共享；其中，所述CPU和所述GPU集成在一起并且在共享的內(nèi)存中以相干的方式運(yùn)行。
6.根據(jù)權(quán)利要求5所述的計(jì)算機(jī)系統(tǒng)，其中，所述計(jì)算機(jī)系統(tǒng)還包括加速處理設(shè)備(APD)。
7.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng)，其中，所述計(jì)算機(jī)系統(tǒng)還包括加速處理設(shè)備本地內(nèi)存，其通過(guò)內(nèi)存總線連接至所述加速處理設(shè)備(APD)。
【文檔編號(hào)】G06F15/16GK203930824SQ201420188170
【公開(kāi)日】2014年11月5日申請(qǐng)日期:2014年4月17日優(yōu)先權(quán)日:2014年4月17日
【發(fā)明者】謝銘, 李有生申請(qǐng)人:超威半導(dǎo)體產(chǎn)品（中國(guó)）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝銘;李有生
技術(shù)所有人：超威半導(dǎo)體產(chǎn)品（中國(guó)）有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：觸控面板結(jié)構(gòu)的制作方法
上一篇：一種基于芯片lm3s8962的實(shí)時(shí)時(shí)鐘的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>