用于混合gpu/cpu數(shù)據(jù)處理的方法
【專利說明】用于混合GPU/CPU數(shù)據(jù)處理的方法 相關申請的交叉引用 本申請是一個PCT國際申請,其要求序列號為61/743, 607、題目為Methods for Hybrid GPU/CPU Data Processing的于2012年9月7日提交的美國臨時申請的權(quán)益,該美國臨時 申請的全部內(nèi)容通過引用合并于本申請中。 技術領域 此發(fā)明涉及數(shù)據(jù)處理的領域。更具體地,此發(fā)明涉及用來在并行處理器平臺上執(zhí)行大 規(guī)模圖形遍歷的方法。 【背景技術】 近年來,對于計算機而言具有多核進程和許多核進程已經(jīng)變得更加普遍,通過以并行 方式橫跨不同處理核執(zhí)行復雜的計算任務顯著地增加了可以執(zhí)行這樣的任務的速度。然而 對于一些復雜的計算任務而言,這樣的處理器受到它們存儲器容量的限制。例如,許多核圖 形處理單元(GPU)具有2-8千兆字節(jié)(GB)的存儲器的限制。對于包括許多數(shù)百萬計的弧 和模型的圖形結(jié)構(gòu)的這樣的大規(guī)模圖形遍歷的計算可能在規(guī)模上處于GB的100s的量級或 者更大量級的任務而言,此存儲器呈現(xiàn)出極限。 因而,存在對通過有效地支持異類并行計算核有效地在并行處理器平臺上執(zhí)行大規(guī)模 圖形遍歷的方法的需要。 需要這樣的改進的方法的一個領域是大詞匯連續(xù)語音識別(large vocabulary continuous speech recognition, LVCSR)領域。作為這樣的需要的一個示例,話音用戶接 口作為用于下一代智能設備的核心技術正在不斷發(fā)展。為了確保吸引用戶體驗,關鍵的是 用在這些系統(tǒng)內(nèi)的語音識別引擎是魯棒的、快速的、具有低延遲并且在系統(tǒng)可能遇到的極 其大的詞匯上提供充足的覆蓋性。為了獲得高的識別準確性,用于諸如廣播新聞手稿[1,2] 或者話音搜索[3, 4]之類的任務的現(xiàn)有技術水平的語音識別系統(tǒng)可以在大詞匯(>1百萬個 詞)、大聲學模型(數(shù)百萬的模型參數(shù))以及極其大的語言模型(數(shù)十億的n-gram個條目) 的情況下執(zhí)行識別。在可以把這些模型應用在離線語音識別任務中時,對于實時語音識別 而言由于在解碼期間需要大的計算成本的原因它們是不可實施的。 使用靜態(tài)編制的加權(quán)有限狀態(tài)轉(zhuǎn)換機(Weighted Finite State Transducer,WFST)網(wǎng) 絡,其中,WFST表示隱馬爾可夫模型(Hidden Markov Model, HMM),聲學模型H、上下文模 型C、發(fā)音詞典L、和語言模型G被組成為一個單個網(wǎng)絡,通常稱為H級WFST,這使得它可以 非常有效地執(zhí)行語音識別[5]。然而,當使用大模型時這樣的搜索網(wǎng)絡的構(gòu)成和優(yōu)化變得不 可行。 聯(lián)機構(gòu)成是用來在單個完全構(gòu)成的WFST的情況下執(zhí)行語音識別的一個實踐選擇。聯(lián) 機構(gòu)成涉及順序地應用兩個或更多個子WFST的組,在解碼期間按需要對它們進行構(gòu)成。一 個通常方案是在解碼之前對HoCoL進行預構(gòu)成,然后利用語法網(wǎng)絡G對此進行聯(lián)機構(gòu)成。在 存儲器方面聯(lián)機構(gòu)成已經(jīng)顯示出是經(jīng)濟的,但是解碼顯著慢于靜態(tài)編制WFST[6]。 用于有效WFST解碼的一個可選方案是執(zhí)行假設再評分[3]而不是在搜索期間進行構(gòu) 成。在此方案中,Viterbi搜索使用H〇C〇Gmi來執(zhí)行,而另一 WFST網(wǎng)絡GWtH僅僅用于對 以聯(lián)機方式從Viterbi搜索過程生成的假設進行再評分。由于此算法從搜索開始允許所有 的知識源都是可用的,所以對于選擇正確的路徑和修剪假設這二者而言這是有效的。 現(xiàn)在在許多核的圖形處理單元(GPU)的情況下,對于許多計算任務而言商品資源、混 合GPU/CPU計算架構(gòu)是一個實際的解決方案。對于每個計算子任務而言,通過支持最適合 的架構(gòu)比通過單獨使用任一平臺能夠取得顯著更高的吞吐量?,F(xiàn)有工作[7, 8]已經(jīng)例證了 對于語音識別而言使用GPU處理器的有效性,并且對于有限的詞匯任務而言在吞吐量方面 獲得了顯著的改進[7]。然而,當在識別期間以及還對于其它大規(guī)模圖形遍歷計算而言應 用大聲學和語言模型時,關于這些架構(gòu)的有限的存儲器成為一個顯著瓶頸。對于這樣的計 算的最顯著的挑戰(zhàn)是處理在現(xiàn)代寬域語音識別系統(tǒng)中使用的極其大的語言模型[1,2, 4]。 這些模型可能包含數(shù)百萬的唯一詞匯條目,數(shù)十億的n-gram上下文,并且可能輕易地要求 20GB或者更多以便存儲在存儲器中。即使當被顯著地修剪時,這些模型也不能適于在GPU 平臺上可用的有限的存儲器內(nèi)。為了在大聲學模型和語言模型的情況下高效地執(zhí)行語音識 另IJ,我們已經(jīng)開發(fā)了混合GPU/CPU架構(gòu),該架構(gòu)在GPU架構(gòu)的計算吞吐量的情況下支持大的 存儲器和CPU的局部高速緩沖。
【發(fā)明內(nèi)容】
本發(fā)明描述了用于在并行處理器平臺上執(zhí)行大規(guī)模圖形遍歷計算的方法。本發(fā)明描述 了用于聯(lián)機假設再評分的方法,其利用圖形處理單元(GPU)結(jié)合利用計算設備的中央處理 單元(CPU)。在應用到大詞匯連續(xù)語音識別任務的一個實施例中描述了本發(fā)明。本領域技 術人員將意識到本發(fā)明的方法可適用于其它大規(guī)模圖形遍歷計算。 【附圖說明】 圖1示出了如應用到大規(guī)模圖形遍歷任務的本發(fā)明的實現(xiàn)方式結(jié)構(gòu)的示意圖。 圖2示出了所實施方案的示意圖,所實施方案用來從大模型中來子選擇條目(即,來自 標志序列的馬爾可夫模型的概率)以包括在加權(quán)有限狀態(tài)轉(zhuǎn)換機(WFST)構(gòu)成期間將應用 的小模型中。所得到的完全構(gòu)成的WFST搜索圖將足夠小以在圖形處理單元(GPU)上執(zhí)行 搜索; 圖3示出了用來構(gòu)成適合于在圖形處理單元(GPU)上執(zhí)行搜索的小WFST搜索圖的所 實現(xiàn)方案的示意圖。 圖4示出了包含在WFST搜索圖中的狀態(tài)和相鄰弧內(nèi)的信息的示意圖。這些包括 statelD、進入弧列表、外出弧列表以及輸入和輸出符號。每個弧包含弧特定權(quán)重。輸入符 號匹配于由"觀測模型"產(chǎn)生的概率。輸出符號匹配于由對過程進行搜索所產(chǎn)生的標志。例 如,對于語音識別任務而言,這些標志會映射至詞; 圖5示出了適合于在圖形處理單元(GPU)上進行搜索的小WFST搜索圖的示例。該示 例示出了應用在用于非常簡單任務的語音識別中的搜索圖,該搜索圖包括以任何次序出現(xiàn) 的三個詞("nice (好的)","recognize (識別)",和 "speech (語音)"); 圖6示出了一個示例語言模型,其中針對當前詞、給定的已知詞歷史列出了語言模型 的概率; 圖7示出了適合于當編制用在圖形處理單元(GPU)上的基于WFST的搜索圖時在構(gòu)成 期間使用的小語言模型的示例。此語言模型是在語言模型可能性的情況下使用〇. 05的語 言模型閾限〇YM)從圖6中的更大的語言模型中子選擇而來; 圖8示出了對于自動語音識別的任務而言分別使用圖6和圖7中示出的大語言模 型和小語言模型的部分假設再評分的示例。在再評分之前,短語"識別海灘recognize a beach…"具有最高概率,然而在利用大語言模型進行再評分之后,具有最高概率的部分假 設是"識別語音recognize speech"。 圖9示出了例證假設組合和假設修剪的本發(fā)明的示意圖; 圖10示出了在5000個詞的詞匯大小的情況下應用到大詞匯連續(xù)語音識別的使用現(xiàn) 有技術方案的準確性和解碼速度與本發(fā)明的準確性和解碼精度的數(shù)據(jù)比較。Eval. set:WSJ 5Knov' 92 (330個句子)),nL3=9,mL3= 1,n2.3= 3,m2.3= 4,lbw2.3= 7)。 圖11示出了在1百萬的詞匯大小的情況下應用到大詞匯連續(xù)語音識別的使用現(xiàn)有技 術方案的準確性和解碼速度與本發(fā)明的準確性和解碼精度的數(shù)據(jù)比較。1M詞匯評估結(jié)果 (Eval.set:WSJ 5K nov'92+WSJ 20k nov' 93(543 個句子),n2.3=n3.4= 3,m2.3= m3.4 = 24); 圖12示出了在把本發(fā)明應用到大詞匯連續(xù)語音識別的任務的實驗中關于處理時間每 計算短語的比率的數(shù)據(jù)。(說詞匯,%4=3,1113.4=24) ; 圖13示出了用于如在本發(fā)明中所使用的"并行原子合并和排序"方法的輸入和輸出。 輸入包括L個排序列表(Si,…,SJ,而輸出是單個排序列表(T); 圖14示出了用來在如本發(fā)明中所使用的"原子合并和排序"方法中存儲部分假設信息 的數(shù)據(jù)結(jié)構(gòu); 圖15示出了用在如本發(fā)明中所使用的"原子合并和排序"方法中的數(shù)據(jù)結(jié)構(gòu)和函數(shù)的 概覽。函數(shù)"merge-and-sort(〈sourcelist〉,〈targetlist〉)"針對需要合并的所有 L個 排序列表以,…,SJ ; 圖16示出了如在本發(fā)明中所使用的"并行原子合并和排序"方法的示意圖; 圖17示出了如在本發(fā)明中所使用的轉(zhuǎn)變?yōu)?快速和存儲器高效查找"架構(gòu)的語言模型 的示例; 圖18示出了在如本發(fā)明中所使用的"快速和存儲器高效查找"架構(gòu)的情況下提取概率 (針對給定歷史和輸出標志)的過程的示意圖; 圖19示出了通過在如本發(fā)明中所使用的"快速和存儲器高效查找"架構(gòu)中選擇最適當 的數(shù)據(jù)結(jié)構(gòu)(HASH-MAP, STATIC ARRAY, BINARY SEARCH TREE, single INTEGER)來產(chǎn)生存儲 器高效模型的過程的示意圖; 圖20示出了在"快速和存儲器高效查找"架構(gòu)中在存儲器優(yōu)化之前外出弧和狀態(tài)數(shù)目 的數(shù)據(jù)比較,其中是在1百萬字詞匯大小的情況下被應用到大詞匯連續(xù)語音識別的任務; 圖21示出了存儲器足跡與外出弧數(shù)目的數(shù)據(jù)比較以在"快速和存儲器高效查找"架構(gòu) 中使用二進制搜索樹,如被應用到達詞匯連續(xù)語音識別的任務; 圖22示出了應用到大詞匯連續(xù)語音識別任務的現(xiàn)有技術方案(即,KenL