用于進(jìn)行語音識別的方法和裝置的制造方法

文檔序號：9371984閱讀：460來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于進(jìn)行語音識別的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息技術(shù)領(lǐng)域，尤其涉及一種用于進(jìn)行語音識別的方法和裝置。
【背景技術(shù)】
[0002]語音識別技術(shù)是將語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。目前，隨著智能設(shè)備日新月異的發(fā)展，語音識別已成為智能設(shè)備必備的功能之一。
[0003]然而，現(xiàn)有的語音識別技術(shù)對個(gè)別群體的語音的識別不夠準(zhǔn)確。例如，由于不同方言地區(qū)的用戶受方言發(fā)音的影響對某些字、詞發(fā)音不準(zhǔn)，例如，受方言發(fā)音的影響，大多數(shù)湖南人會將“湖南”說成“fu nan” ;大多數(shù)福建人會將“福建”說成“hu jian” ；又例如，有聽力障礙的用戶由于受自身聽力的限制，導(dǎo)致說話時(shí)發(fā)音不準(zhǔn)。這些情況都會導(dǎo)致現(xiàn)有的語音識別系統(tǒng)對用戶發(fā)出的語音識別不準(zhǔn)。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是提供一種用于進(jìn)行語音識別的方法和裝置。
[0005]根據(jù)本發(fā)明的一個(gè)方面，提供一種用于進(jìn)行語音識別的方法，其中，該方法包括以下步驟:接收用戶輸入的待識別語音信息；對所述待識別語音信息進(jìn)行特征提取，以獲取所述待識別語音信息的特征信息；將所述特征信息在所述用戶對應(yīng)的個(gè)人語音特征庫中進(jìn)行匹配，以獲取所述待識別語音信息的識別結(jié)果，其中，所述用戶對應(yīng)的個(gè)人語音特征庫用于專門針對該用戶的語音信息進(jìn)行識別；輸出所述待識別語音信息的識別結(jié)果。
[0006]根據(jù)本發(fā)明的另一個(gè)方面，還提供了一種用于進(jìn)行語音識別的裝置，其中，該裝置包括以下裝置:用于接收用戶輸入的待識別語音信息的裝置；用于對所述待識別語音信息進(jìn)行特征提取，以獲取所述待識別語音信息的特征信息的裝置；用于將所述特征信息在所述用戶對應(yīng)的個(gè)人語音特征庫中進(jìn)行匹配，以獲取所述待識別語音信息的識別結(jié)果的裝置，其中，所述用戶對應(yīng)的個(gè)人語音特征庫用于專門針對該用戶的個(gè)人語音信息進(jìn)行識別；用于輸出所述待識別語音信息的識別結(jié)果的裝置。
[0007]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn):根據(jù)本實(shí)施例的方案，在對用戶輸入的待識別語音信息進(jìn)行語音識別過程中，基于專門針對所述用戶的語音信息進(jìn)行識別的個(gè)人語音特征庫進(jìn)行識別，能夠提高語音識別準(zhǔn)確率。
【附圖說明】
[0008]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
[0009]圖1為本發(fā)明一個(gè)實(shí)施例的用于進(jìn)行語音識別的方法的流程示意圖；
[0010]圖2為本發(fā)明一個(gè)實(shí)施例的將所述特征信息在所述用戶對應(yīng)的個(gè)人語音特征庫中進(jìn)行匹配，以獲取所述待識別語音信息的識別結(jié)果的步驟的流程示意圖；
[0011]圖3為本發(fā)明另一個(gè)實(shí)施例的用于進(jìn)行語音識別的方法的流程示意圖；
[0012]圖4為根據(jù)本發(fā)明另一個(gè)實(shí)施例的建立所述用戶對應(yīng)的個(gè)人語音特征庫的步驟的流程示意圖；
[0013]圖5為本發(fā)明又一個(gè)實(shí)施例的用于進(jìn)行語音識別的方法的流程示意圖；
[0014]圖6為本發(fā)明再一個(gè)實(shí)施例的用于進(jìn)行語音識別的方法的流程示意圖；
[0015]圖7為本發(fā)明又再一個(gè)實(shí)施例的用于進(jìn)行語音識別的方法的流程示意圖；
[0016]圖8為本發(fā)明一個(gè)實(shí)施例的用于進(jìn)行語音識別的裝置的結(jié)構(gòu)示意圖；
[0017]圖9為本發(fā)明實(shí)施例的第一匹配裝置的結(jié)構(gòu)示意圖；
[0018]圖10為本發(fā)明另一個(gè)實(shí)施例的用于進(jìn)行語音識別的裝置示意圖；
[0019]圖11為根據(jù)本發(fā)明一個(gè)實(shí)施例的建立裝置的結(jié)構(gòu)示意圖；
[0020]圖12為本發(fā)明又一個(gè)實(shí)施例的用于進(jìn)行語音識別的裝置示意圖；
[0021]圖13為本發(fā)明再一個(gè)實(shí)施例的用于進(jìn)行語音識別的裝置示意圖；
[0022]圖14為本發(fā)明又再一個(gè)實(shí)施例的用于進(jìn)行語音識別的裝置示意圖。
[0023]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0024]在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是，一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作描述成順序的處理，但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外，各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止，但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0025]在上下文中所稱“計(jì)算機(jī)設(shè)備”，也稱為“電腦”，是指可以通過運(yùn)行預(yù)定程序或指令來執(zhí)行數(shù)值計(jì)算和/或邏輯計(jì)算等預(yù)定處理過程的智能電子設(shè)備，其可以包括處理器與存儲器，由處理器執(zhí)行在存儲器中預(yù)存的存續(xù)指令來執(zhí)行預(yù)定處理過程，或是由ASIC、FPGA、DSP等硬件執(zhí)行預(yù)定處理過程，或是由上述二者組合來實(shí)現(xiàn)。計(jì)算機(jī)設(shè)備包括但不限于服務(wù)器、個(gè)人電腦、筆記本電腦、平板電腦、智能手機(jī)等。
[0026]所述計(jì)算機(jī)設(shè)備包括用戶設(shè)備與網(wǎng)絡(luò)設(shè)備。其中，所述用戶設(shè)備包括但不限于電腦、智能手機(jī)、PDA、智能手表、智能手環(huán)等；所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(Cloud Computing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云，其中，云計(jì)算是分布式計(jì)算的一種，由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級虛擬計(jì)算機(jī)。其中，所述計(jì)算機(jī)設(shè)備可單獨(dú)運(yùn)行來實(shí)現(xiàn)本發(fā)明，也可接入網(wǎng)絡(luò)并通過與網(wǎng)絡(luò)中的其他計(jì)算機(jī)設(shè)備的交互操作來實(shí)現(xiàn)本發(fā)明。其中，所述計(jì)算機(jī)設(shè)備所處的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)等。
[0027]需要說明的是，所述用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和網(wǎng)絡(luò)等僅為舉例，其他現(xiàn)有的或今后可能出現(xiàn)的計(jì)算機(jī)設(shè)備或網(wǎng)絡(luò)如可適用于本發(fā)明，也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)，并以引用方式包含于此。
[0028]后面所討論的方法(其中一些通過流程圖示出)可以通過硬件、軟件、固件、中間件、微代碼、硬件描述語言或者其任意組合來實(shí)施。當(dāng)用軟件、固件、中間件或微代碼來實(shí)施時(shí)，用以實(shí)施必要任務(wù)的程序代碼或代碼段可以被存儲在機(jī)器或計(jì)算機(jī)可讀介質(zhì)(比如存儲介質(zhì))中。(一個(gè)或多個(gè))處理器可以實(shí)施必要的任務(wù)。
[0029]這里所公開的具體結(jié)構(gòu)和功能細(xì)節(jié)僅僅是代表性的，并且是用于描述本發(fā)明的示例性實(shí)施例的目的。但是本發(fā)明可以通過許多替換形式來具體實(shí)現(xiàn)，并且不應(yīng)當(dāng)被解釋成僅僅受限于這里所闡述的實(shí)施例。
[0030]應(yīng)當(dāng)理解的是，雖然在這里可能使用了術(shù)語“第一”、“第二”等等來描述各個(gè)單元，但是這些單元不應(yīng)當(dāng)受這些術(shù)語限制。使用這些術(shù)語僅僅是為了將一個(gè)單元與另一個(gè)單元進(jìn)行區(qū)分。舉例來說，在不背離示例性實(shí)施例的范圍的情況下，第一單元可以被稱為第二單元，并且類似地第二單元可以被稱為第一單元。這里所使用的術(shù)語“和/或”包括其中一個(gè)或更多所列出的相關(guān)聯(lián)項(xiàng)目的任意和所有組合。
[0031]應(yīng)當(dāng)理解的是，當(dāng)一個(gè)單元被稱為“連接”或“耦合”到另一單元時(shí)，其可以直接連接或耦合到所述另一單元，或者可以存在中間單元。與此相對，當(dāng)一個(gè)單元被稱為“直接連接”或“直接耦合”到另一單元時(shí)，則不存在中間單元。應(yīng)當(dāng)按照類似的方式來解釋被用于描述單元之間的關(guān)系的其他詞語(例如“處于...之間”相比于“直接處于...之間”，“與...鄰近”相比于“與...直接鄰近”等等)。
[0032]這里所使用的術(shù)語僅僅是為了描述具體實(shí)施例而不意圖限制示例性實(shí)施例。除非上下文明確地另有所指，否則這里所使用的單數(shù)形式“一個(gè)”、“一項(xiàng)”還意圖包括復(fù)數(shù)。還應(yīng)當(dāng)理解的是，這里所使用的術(shù)語“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在，而不排除存在或添加一個(gè)或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
[0033]還應(yīng)當(dāng)提到的是，在一些替換實(shí)現(xiàn)方式中，所提到的功能/動作可以按照不同于附圖中標(biāo)示的順序發(fā)生。舉例來說，取決于所涉及的功能/動作，相繼示出的兩幅圖實(shí)際上可以基本上同時(shí)執(zhí)行或者有時(shí)可以按照相反的順序來執(zhí)行。
[0034]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0035]圖1為本發(fā)明一個(gè)實(shí)施例的用于進(jìn)行語音識別的方法的流程示意圖。
[0036]其中，本實(shí)施例的方法可通過用戶設(shè)備或網(wǎng)絡(luò)設(shè)備來實(shí)現(xiàn)；其中，所述用戶設(shè)備包括但不限于PC機(jī)、平板電腦、智能手機(jī)、PDA等。所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(Cloud Computing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云。
[0037]根據(jù)本實(shí)施例的方法包括步驟S110、步驟S120、步驟S130和步驟S140。
[0038]在步驟SI 10中，接收用戶輸入的待識別語音信息。
[0039]其中，所述待識別語音信息可以由用戶在用戶設(shè)備中輸入，并由用戶設(shè)備對接收到的待識別語音信息進(jìn)行識別?；蛘?，所述待識別語音信息可以由用戶在用戶設(shè)備中輸入，網(wǎng)絡(luò)設(shè)備通過用戶設(shè)備接收該用戶輸入的待識別語音信息并進(jìn)行語音識別。所述待識別語首?目息可以為首頻?目息或視頻?目息。
[0040]在步驟S120中，對所述待識別語音信息進(jìn)行特征提取，以獲取所述待識別語音信息的特征信息。
[0041]對待識別語音信息進(jìn)行特征提取就是去除待識別語音信息中對于語音識別無用的冗余信息，保留能夠反映語音本質(zhì)特征的信息，并用一定的形式表示出來。具體而言，可以提取出語音信息中反映語音信息特征的特征參數(shù)，并形成特征矢量序列作為所述待識別語音信息的特征信息，以便用于后續(xù)處理。提取的語音信息的特征可以包括時(shí)域和頻域兩種。其中，時(shí)域特征例如可以包括:短時(shí)平均能量、短時(shí)平均過零率、共振峰、基音周期等；頻域特征例如可以包括:線性預(yù)測系數(shù)(LPC)、LP倒譜系數(shù)(LPCC)、線譜對參數(shù)(LSP)、短時(shí)頻譜、Mel頻率倒譜系數(shù)(MFCC)等。
[0042]需要說明的是，上述特征信息僅為舉例，本領(lǐng)域技術(shù)人員應(yīng)該理解，任何能夠反映語音信息特征的信息均應(yīng)包含在本發(fā)明所述的特征信息的范圍內(nèi)。
[0043]在步驟S130中，將所述特征信息在所述用戶對應(yīng)的個(gè)人語音特征庫中進(jìn)行匹配，以獲取所述待識別語音信息的識別結(jié)果。
[0044]其中，所述用戶對應(yīng)的個(gè)人語音特征庫用于專門針對該用戶個(gè)人的語音信息進(jìn)行識別。
[0045]圖2為本發(fā)明一個(gè)實(shí)施例的將所述特征信息在所述用戶對應(yīng)的個(gè)人語音特征庫中進(jìn)行匹配，以獲取所述待識別語音信息的識別結(jié)果的步驟的流程示意圖。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5