用于混合gpu/cpu數(shù)據(jù)處理的方法

文檔序號：8926973閱讀：944來源：國知局

用于混合gpu/cpu數(shù)據(jù)處理的方法
【專利說明】用于混合GPU/CPU數(shù)據(jù)處理的方法相關申請的交叉引用本申請是一個PCT國際申請，其要求序列號為61/743, 607、題目為Methods for Hybrid GPU/CPU Data Processing的于2012年9月7日提交的美國臨時申請的權(quán)益，該美國臨時申請的全部內(nèi)容通過引用合并于本申請中。技術領域此發(fā)明涉及數(shù)據(jù)處理的領域。更具體地，此發(fā)明涉及用來在并行處理器平臺上執(zhí)行大規(guī)模圖形遍歷的方法。【背景技術】近年來，對于計算機而言具有多核進程和許多核進程已經(jīng)變得更加普遍，通過以并行方式橫跨不同處理核執(zhí)行復雜的計算任務顯著地增加了可以執(zhí)行這樣的任務的速度。然而對于一些復雜的計算任務而言，這樣的處理器受到它們存儲器容量的限制。例如，許多核圖形處理單元（GPU)具有2-8千兆字節(jié)（GB)的存儲器的限制。對于包括許多數(shù)百萬計的弧和模型的圖形結(jié)構(gòu)的這樣的大規(guī)模圖形遍歷的計算可能在規(guī)模上處于GB的100s的量級或者更大量級的任務而言，此存儲器呈現(xiàn)出極限。因而，存在對通過有效地支持異類并行計算核有效地在并行處理器平臺上執(zhí)行大規(guī)模圖形遍歷的方法的需要。需要這樣的改進的方法的一個領域是大詞匯連續(xù)語音識別（large vocabulary continuous speech recognition, LVCSR)領域。作為這樣的需要的一個示例，話音用戶接口作為用于下一代智能設備的核心技術正在不斷發(fā)展。為了確保吸引用戶體驗，關鍵的是用在這些系統(tǒng)內(nèi)的語音識別引擎是魯棒的、快速的、具有低延遲并且在系統(tǒng)可能遇到的極其大的詞匯上提供充足的覆蓋性。為了獲得高的識別準確性，用于諸如廣播新聞手稿[1，2] 或者話音搜索[3, 4]之類的任務的現(xiàn)有技術水平的語音識別系統(tǒng)可以在大詞匯（>1百萬個詞）、大聲學模型（數(shù)百萬的模型參數(shù)）以及極其大的語言模型（數(shù)十億的n-gram個條目）的情況下執(zhí)行識別。在可以把這些模型應用在離線語音識別任務中時，對于實時語音識別而言由于在解碼期間需要大的計算成本的原因它們是不可實施的。使用靜態(tài)編制的加權(quán)有限狀態(tài)轉(zhuǎn)換機（Weighted Finite State Transducer，WFST)網(wǎng) 絡，其中，WFST表示隱馬爾可夫模型（Hidden Markov Model, HMM)，聲學模型H、上下文模型C、發(fā)音詞典L、和語言模型G被組成為一個單個網(wǎng)絡，通常稱為H級WFST，這使得它可以非常有效地執(zhí)行語音識別[5]。然而，當使用大模型時這樣的搜索網(wǎng)絡的構(gòu)成和優(yōu)化變得不可行。聯(lián)機構(gòu)成是用來在單個完全構(gòu)成的WFST的情況下執(zhí)行語音識別的一個實踐選擇。聯(lián) 機構(gòu)成涉及順序地應用兩個或更多個子WFST的組，在解碼期間按需要對它們進行構(gòu)成。一個通常方案是在解碼之前對HoCoL進行預構(gòu)成，然后利用語法網(wǎng)絡G對此進行聯(lián)機構(gòu)成。在存儲器方面聯(lián)機構(gòu)成已經(jīng)顯示出是經(jīng)濟的，但是解碼顯著慢于靜態(tài)編制WFST[6]。用于有效WFST解碼的一個可選方案是執(zhí)行假設再評分[3]而不是在搜索期間進行構(gòu) 成。在此方案中，Viterbi搜索使用H〇C〇Gmi來執(zhí)行，而另一 WFST網(wǎng)絡GWtH僅僅用于對以聯(lián)機方式從Viterbi搜索過程生成的假設進行再評分。由于此算法從搜索開始允許所有的知識源都是可用的，所以對于選擇正確的路徑和修剪假設這二者而言這是有效的。現(xiàn)在在許多核的圖形處理單元（GPU)的情況下，對于許多計算任務而言商品資源、混合GPU/CPU計算架構(gòu)是一個實際的解決方案。對于每個計算子任務而言，通過支持最適合的架構(gòu)比通過單獨使用任一平臺能夠取得顯著更高的吞吐量?，F(xiàn)有工作[7, 8]已經(jīng)例證了對于語音識別而言使用GPU處理器的有效性，并且對于有限的詞匯任務而言在吞吐量方面獲得了顯著的改進[7]。然而，當在識別期間以及還對于其它大規(guī)模圖形遍歷計算而言應用大聲學和語言模型時，關于這些架構(gòu)的有限的存儲器成為一個顯著瓶頸。對于這樣的計算的最顯著的挑戰(zhàn)是處理在現(xiàn)代寬域語音識別系統(tǒng)中使用的極其大的語言模型[1，2, 4]。這些模型可能包含數(shù)百萬的唯一詞匯條目，數(shù)十億的n-gram上下文，并且可能輕易地要求 20GB或者更多以便存儲在存儲器中。即使當被顯著地修剪時，這些模型也不能適于在GPU 平臺上可用的有限的存儲器內(nèi)。為了在大聲學模型和語言模型的情況下高效地執(zhí)行語音識另IJ，我們已經(jīng)開發(fā)了混合GPU/CPU架構(gòu)，該架構(gòu)在GPU架構(gòu)的計算吞吐量的情況下支持大的存儲器和CPU的局部高速緩沖。
【發(fā)明內(nèi)容】
本發(fā)明描述了用于在并行處理器平臺上執(zhí)行大規(guī)模圖形遍歷計算的方法。本發(fā)明描述了用于聯(lián)機假設再評分的方法，其利用圖形處理單元（GPU)結(jié)合利用計算設備的中央處理單元（CPU)。在應用到大詞匯連續(xù)語音識別任務的一個實施例中描述了本發(fā)明。本領域技術人員將意識到本發(fā)明的方法可適用于其它大規(guī)模圖形遍歷計算。【附圖說明】圖1示出了如應用到大規(guī)模圖形遍歷任務的本發(fā)明的實現(xiàn)方式結(jié)構(gòu)的示意圖。圖2示出了所實施方案的示意圖，所實施方案用來從大模型中來子選擇條目（即，來自標志序列的馬爾可夫模型的概率）以包括在加權(quán)有限狀態(tài)轉(zhuǎn)換機（WFST)構(gòu)成期間將應用的小模型中。所得到的完全構(gòu)成的WFST搜索圖將足夠小以在圖形處理單元（GPU)上執(zhí)行搜索；圖3示出了用來構(gòu)成適合于在圖形處理單元（GPU)上執(zhí)行搜索的小WFST搜索圖的所實現(xiàn)方案的示意圖。圖4示出了包含在WFST搜索圖中的狀態(tài)和相鄰弧內(nèi)的信息的示意圖。這些包括 statelD、進入弧列表、外出弧列表以及輸入和輸出符號。每個弧包含弧特定權(quán)重。輸入符號匹配于由"觀測模型"產(chǎn)生的概率。輸出符號匹配于由對過程進行搜索所產(chǎn)生的標志。例如，對于語音識別任務而言，這些標志會映射至詞；圖5示出了適合于在圖形處理單元（GPU)上進行搜索的小WFST搜索圖的示例。該示例示出了應用在用于非常簡單任務的語音識別中的搜索圖，該搜索圖包括以任何次序出現(xiàn) 的三個詞（"nice (好的）"，"recognize (識別）"，和 "speech (語音）"）；圖6示出了一個示例語言模型，其中針對當前詞、給定的已知詞歷史列出了語言模型的概率；圖7示出了適合于當編制用在圖形處理單元（GPU)上的基于WFST的搜索圖時在構(gòu)成期間使用的小語言模型的示例。此語言模型是在語言模型可能性的情況下使用〇. 05的語言模型閾限〇YM)從圖6中的更大的語言模型中子選擇而來；圖8示出了對于自動語音識別的任務而言分別使用圖6和圖7中示出的大語言模型和小語言模型的部分假設再評分的示例。在再評分之前，短語"識別海灘recognize a beach…"具有最高概率，然而在利用大語言模型進行再評分之后，具有最高概率的部分假設是"識別語音recognize speech"。圖9示出了例證假設組合和假設修剪的本發(fā)明的示意圖；圖10示出了在5000個詞的詞匯大小的情況下應用到大詞匯連續(xù)語音識別的使用現(xiàn) 有技術方案的準確性和解碼速度與本發(fā)明的準確性和解碼精度的數(shù)據(jù)比較。Eval. set:WSJ 5Knov' 92 (330個句子）），nL3=9,mL3= 1，n2.3= 3,m2.3= 4,lbw2.3= 7)。圖11示出了在1百萬的詞匯大小的情況下應用到大詞匯連續(xù)語音識別的使用現(xiàn)有技術方案的準確性和解碼速度與本發(fā)明的準確性和解碼精度的數(shù)據(jù)比較。1M詞匯評估結(jié)果 (Eval.set:WSJ 5K nov'92+WSJ 20k nov' 93(543 個句子），n2.3=n3.4= 3，m2.3= m3.4 = 24)；圖12示出了在把本發(fā)明應用到大詞匯連續(xù)語音識別的任務的實驗中關于處理時間每計算短語的比率的數(shù)據(jù)。（說詞匯，％4=3，1113.4=24) ; 圖13示出了用于如在本發(fā)明中所使用的"并行原子合并和排序"方法的輸入和輸出。輸入包括L個排序列表（Si，…，SJ，而輸出是單個排序列表（T); 圖14示出了用來在如本發(fā)明中所使用的"原子合并和排序"方法中存儲部分假設信息的數(shù)據(jù)結(jié)構(gòu)；圖15示出了用在如本發(fā)明中所使用的"原子合并和排序"方法中的數(shù)據(jù)結(jié)構(gòu)和函數(shù)的概覽。函數(shù)"merge-and-sort(〈sourcelist〉，〈targetlist〉）"針對需要合并的所有 L個排序列表以，…，SJ ; 圖16示出了如在本發(fā)明中所使用的"并行原子合并和排序"方法的示意圖；圖17示出了如在本發(fā)明中所使用的轉(zhuǎn)變?yōu)?快速和存儲器高效查找"架構(gòu)的語言模型的示例；圖18示出了在如本發(fā)明中所使用的"快速和存儲器高效查找"架構(gòu)的情況下提取概率 (針對給定歷史和輸出標志）的過程的示意圖；圖19示出了通過在如本發(fā)明中所使用的"快速和存儲器高效查找"架構(gòu)中選擇最適當的數(shù)據(jù)結(jié)構(gòu)（HASH-MAP, STATIC ARRAY, BINARY SEARCH TREE, single INTEGER)來產(chǎn)生存儲器高效模型的過程的示意圖；圖20示出了在"快速和存儲器高效查找"架構(gòu)中在存儲器優(yōu)化之前外出弧和狀態(tài)數(shù)目的數(shù)據(jù)比較，其中是在1百萬字詞匯大小的情況下被應用到大詞匯連續(xù)語音識別的任務；圖21示出了存儲器足跡與外出弧數(shù)目的數(shù)據(jù)比較以在"快速和存儲器高效查找"架構(gòu) 中使用二進制搜索樹，如被應用到達詞匯連續(xù)語音識別的任務；圖22示出了應用到大詞匯連續(xù)語音識別任務的現(xiàn)有技術方案（即，KenL

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：伊恩·萊恩;杰克·沖;金貞碩;
技術所有人：卡內(nèi)基·梅隆大學;
我是此專利的發(fā)明人

上一篇：用于滑動窗口編碼算法的指令的制作方法
上一篇：向用戶設備路由通知的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

混合氣過濃的處理方法相關技術

高壓混合頭kelongpu相關技術

混合頭kelongpu相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于混合gpu/cpu數(shù)據(jù)處理的方法