基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)系統(tǒng)及方法,屬于 智能語音識(shí)別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 語音識(shí)別技術(shù)作為智能識(shí)別領(lǐng)域的重要研究領(lǐng)域,已經(jīng)有60多年的發(fā)展歷史。語 音識(shí)別是將聲音識(shí)別成文字的過程,中文語音識(shí)別是根據(jù)說話人的發(fā)音將語音轉(zhuǎn)換成中文 文字。但是由于個(gè)人發(fā)音差異,不規(guī)范的中文拼音發(fā)音會(huì)造成語音識(shí)別的正確率大大降低, 如果能夠智能的對(duì)語音識(shí)別后的中文文本進(jìn)行分析,查找出錯(cuò)詞并進(jìn)行糾正,必將極大地 提高語音識(shí)別精確程度。
[0003] 近今年,國內(nèi)外不斷涌現(xiàn)出對(duì)語音識(shí)別后文本的解決方法。東北大學(xué)李晶皎等人 通過總結(jié)語音識(shí)別漢字序列錯(cuò)誤的種類,寫出詞法、句法和語義規(guī)則,利用"詞匯語義驅(qū)動(dòng)" 找出漢字序列中的錯(cuò)誤并校正;北京郵電大學(xué)的龍麗霞提出了一種基于實(shí)例語境的語音識(shí) 別后文本糾錯(cuò)方法,綜合語法、語義、語境等多種信息對(duì)語音識(shí)別后的文本進(jìn)行糾錯(cuò);中科 院的韋向風(fēng)等人提出了一種基于語句語義分析和混淆音矩陣的語音識(shí)別糾錯(cuò)方法,在糾正 語義搭配錯(cuò)誤方面有比較好的表現(xiàn)。但上述研究都沒有針對(duì)語音識(shí)別后文本的漢語發(fā)音規(guī) 則給出定量的中文文本校驗(yàn)方法。
【發(fā)明內(nèi)容】
[0004] 發(fā)明目的:針對(duì)現(xiàn)有中文語音識(shí)別后文本校驗(yàn)技術(shù)的不足,本發(fā)明提出一種基于 漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)系統(tǒng)及方法,將漢語語法規(guī)則和拼音模糊發(fā)音規(guī) 則引入文本校驗(yàn)中,顯著提高了語音識(shí)別后的中文文本校驗(yàn)的正確率。
[0005] 本發(fā)明的思路是:采用音頻編碼技術(shù)對(duì)錄制語音進(jìn)行壓縮以減少網(wǎng)絡(luò)傳輸耗時(shí), 并通過語音降噪技術(shù)對(duì)語音進(jìn)行降噪以提高語音識(shí)別率,利用訊飛語音識(shí)別器進(jìn)行多語言 的語音識(shí)別,通過總結(jié)漢語語法規(guī)則找出錯(cuò)詞,并根據(jù)漢語模糊發(fā)音規(guī)則給出糾錯(cuò)候選集, 調(diào)用郵件發(fā)送和QQ接口實(shí)現(xiàn)文本跨平臺(tái)分享,有效降低經(jīng)語音識(shí)別后的中文文本的錯(cuò)誤 率。
[0006] 技術(shù)方案:一種基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)系統(tǒng),包括如下模 塊:
[0007] 語音采集與處理模塊,用于獲取手機(jī)麥克風(fēng)采集的音頻,并對(duì)音頻進(jìn)行降噪處理 和壓縮上傳;
[0008] 語音識(shí)別模塊,用于解壓縮音頻并將長時(shí)段音頻識(shí)別成文本;
[0009] 文本校驗(yàn)與分享模塊,用于對(duì)音頻識(shí)別結(jié)果進(jìn)行中文錯(cuò)誤校驗(yàn),并支持文本編輯 與文本分享功能;
[0010] 所述語音采集與處理模塊,包含音頻采集單元、音頻編碼處理單元和語音降噪單 元;其中音頻采集單元利用手機(jī)麥克風(fēng)采集音頻;音頻編碼處理單元將音頻在上傳到語音 識(shí)別服務(wù)器前進(jìn)行編碼壓縮;語音降噪單元采用speex語音降噪技術(shù)對(duì)音頻進(jìn)行降噪處 理,以提高語音識(shí)別的精確度;
[0011] 所述語音識(shí)別模塊,包括音頻解碼單元、內(nèi)存分片單元和訊飛語音識(shí)別單元;其中 音頻解碼單元,用于對(duì)編碼壓縮后的音頻進(jìn)行解壓縮處理;內(nèi)存分片單元用于將長時(shí)段音 頻在系統(tǒng)服務(wù)器中切分成短時(shí)段語音片段;訊飛語音識(shí)別單元采用訊飛接口將音頻識(shí)別成 對(duì)應(yīng)的文本;
[0012] 所述文本校驗(yàn)與分享模塊,包括文本校驗(yàn)單元、文本編輯單元和文本分享單元;其 中文本校驗(yàn)單元,用于糾正識(shí)別結(jié)果中錯(cuò)誤的內(nèi)容,并給出候選糾錯(cuò)集合;文本編輯單元, 用于對(duì)語音識(shí)別結(jié)果進(jìn)行修改編輯;所述文本分享單元,通過郵件和QQ將編輯與校驗(yàn)后的 文本分享給其他人。
[0013] -種基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)方法,包含如下步驟:
[0014] S-ι :采用訊飛分詞器對(duì)語音識(shí)別后的中文文本進(jìn)行分詞,并將分詞結(jié)果按原先在 文本中的順序加入待校驗(yàn)集;
[0015] S-2:根據(jù)中文判錯(cuò)規(guī)則判斷待校驗(yàn)集中的詞語是否為錯(cuò)詞,若是,將錯(cuò)詞加入錯(cuò) 詞集,具體包含如下步驟:
[0016] 步驟S-2-1 :獲取當(dāng)前待校檢集合中的詞語和詞性信息;
[0017] 步驟S-2-2 :對(duì)照判錯(cuò)規(guī)則表中的判錯(cuò)規(guī)則,判斷該詞的詞性與判錯(cuò)規(guī)則的第一 部分詞性是否想匹配,若匹配,則轉(zhuǎn)向步驟S-2-1,否則,轉(zhuǎn)向步驟S-2-3,本系統(tǒng)總結(jié)出得 中文判錯(cuò)規(guī)則有如下5種:動(dòng)詞+動(dòng)詞、名詞+副詞、副詞+數(shù)詞、副詞+量詞、副詞+代詞;
[0018] 步驟S-2-3 :根據(jù)判錯(cuò)規(guī)則判斷錯(cuò)詞的詞性和鄰接詞的詞性組合是否符合判錯(cuò)規(guī) 貝1J,若符合,將該詞加入錯(cuò)詞集合;否則,轉(zhuǎn)向步驟S-2-1 ;
[0019] S-3 :查找漢語字典表,獲取錯(cuò)詞的發(fā)音拼音;
[0020] S-4 :將錯(cuò)詞的拼音按字拆分,并拆分每個(gè)字拼音的聲母和韻母部分,具體包含如 下步驟:
[0021] 步驟S-4-1 :將錯(cuò)詞按照每個(gè)漢字拆分成對(duì)應(yīng)的單字拼音,并臨時(shí)存儲(chǔ);
[0022] 步驟S-4-2 :判斷拼音是否由聲母和韻母組成,若是,轉(zhuǎn)向S-4-3,否則,直接轉(zhuǎn)向 步驟S-4-4 ;
[0023] 步驟S-4-3 :將該拼音按照聲母和韻母進(jìn)行劃分;
[0024] 步驟S-4-4 :查詢模糊發(fā)音表,判斷聲母或韻母是否符合模糊發(fā)音規(guī)則,若是,轉(zhuǎn) 向步驟S-4-5,否則,轉(zhuǎn)向步驟S-4-6 ;
[0025] 步驟S-4-5 :獲取模糊發(fā)音匹配結(jié)果并與原聲母重新組合成新的單字拼音;
[0026] 步驟S-4-6 :對(duì)錯(cuò)詞的所有模糊單字拼音按照笛卡爾乘積方式進(jìn)行重新組合,獲 得該錯(cuò)詞的所有模糊發(fā)音拼音。
[0027] S-5:結(jié)合漢語的聲母和韻母發(fā)音特點(diǎn),獲得易錯(cuò)韻母的模糊發(fā)音,構(gòu)建模糊發(fā)音 表,將錯(cuò)詞每個(gè)字的模糊拼音做笛卡爾積,得到錯(cuò)詞對(duì)應(yīng)的所有模糊發(fā)音拼音,易混淆的韻 母發(fā)音規(guī)則如下:
[0028] 表1韻母模糊發(fā)音規(guī)則 [0029]
[0030] S-6 :根據(jù)錯(cuò)詞的模糊發(fā)音拼音查詢漢語詞典表,獲得所有模糊拼音對(duì)應(yīng)的詞語候 選集合;
[0031] S-7:對(duì)所有候選集中詞語按詞頻進(jìn)行排序,根據(jù)排序結(jié)果選取糾錯(cuò)候選集。
[0032] 本發(fā)明采用上述技術(shù)方案,具有以下有益效果:采用編解碼技術(shù)對(duì)音頻進(jìn)行壓縮, 減少音頻在網(wǎng)絡(luò)的傳輸耗時(shí);通過語音降噪處理提高語音的識(shí)別精確度;采用訊飛語音識(shí) 別引擎提供多種語音的語音識(shí)別;基于漢語語法規(guī)則的判錯(cuò)方法能夠迅速定位錯(cuò)詞;結(jié)合 漢語拼音的模糊發(fā)音特性,能夠有效提高語音識(shí)別后的中文文本校驗(yàn)正確率。
【附圖說明】
[0033] 圖1為本發(fā)明實(shí)施例的基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)系統(tǒng)功能 豐吳塊圖;
[0034] 圖2為本發(fā)明實(shí)施例的基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)方法流程 圖;
[0035] 圖3為本發(fā)明實(shí)施例的模糊發(fā)音錯(cuò)詞糾錯(cuò)算法流程圖。
【具體實(shí)施方式】
[0036] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0037] 如圖1所示,基于漢語模糊發(fā)音和語音識(shí)別的中文文本校驗(yàn)系統(tǒng)由語音采集與處 理模塊、語音識(shí)別模塊和文本校驗(yàn)與分享模塊組成。
[0038] 語音采集與處理模塊,包括音頻采集單元、音頻編碼處理單元和語音降噪單元。音 頻采集單元通過調(diào)用手機(jī)的麥克風(fēng)采集用戶的錄音內(nèi)容,音頻采樣頻率越大,采樣點(diǎn)之間 的間隔就越小,數(shù)據(jù)量就越大,而對(duì)于人的說話8000Hz已經(jīng)足夠,因此,系統(tǒng)采用8000Hz的 頻率進(jìn)行音頻采樣;音頻采集完成后通過音頻編碼處理單元進(jìn)行音頻編碼壓縮。經(jīng)測試,壓 縮前錄制一分鐘語音所產(chǎn)生的文件大小為1M,壓縮后音頻大小為60KB,通過壓縮處理極大 地縮短了語音傳輸耗時(shí)。
[0039] 為了提高語音識(shí)別的準(zhǔn)確率,在語音識(shí)別采用第三方開放平臺(tái)的前提下,系統(tǒng)經(jīng) 語音降噪單元采用音頻降噪處理,語音降噪單元采用speex語音降噪技術(shù)對(duì)音頻進(jìn)行降噪 處理。在對(duì)speex編解碼技術(shù)進(jìn)行調(diào)研時(shí)發(fā)現(xiàn),speex提供音頻降噪接口,因此系統(tǒng)的語音 降噪采用speex的開源方法。對(duì)一篇2000多字的文本進(jìn)行測試發(fā)現(xiàn),采用語音降噪和未采 用語音降噪的識(shí)別準(zhǔn)確率分別是:96. 3%和98. 6%,也就驗(yàn)證了 speex的語音降噪方法能 夠提高語音識(shí)別的準(zhǔn)確率。
[0040] 語音識(shí)別模塊,包括音頻解碼單元、內(nèi)存分片單元和語音識(shí)別單元。語音識(shí)別單元 采用訊飛語音提供的識(shí)別方法,經(jīng)測試發(fā)現(xiàn)訊飛語音識(shí)別提供的語音識(shí)別方法僅支持短時(shí) 連續(xù)語音識(shí)別,對(duì)于長時(shí)段的語音連續(xù)識(shí)別并不支持,為了解決長時(shí)段的語音識(shí)別問題引 入內(nèi)存分片方法。內(nèi)存分片單元在語音識(shí)別之前,首先在系統(tǒng)服務(wù)器內(nèi)存中對(duì)音頻進(jìn)行切 片處理,每15秒切成一片,分片將語音上傳至訊飛語音識(shí)別服務(wù)器進(jìn)行識(shí)別。
[0041] 文本校驗(yàn)與分享模塊,包括文本校驗(yàn)單元、文本編輯單元和文本分享單元。該模塊 的功能是對(duì)校驗(yàn)后的文本進(jìn)行修改并分享給他人。其中文本校驗(yàn)單元,用于糾正識(shí)別結(jié)果 中錯(cuò)誤的內(nèi)容,并給出候選糾錯(cuò)集合;文本編輯單元,用于對(duì)語音識(shí)別結(jié)果進(jìn)行修改編輯, 用戶能夠?qū)ξ谋具M(jìn)行基本的添加、刪除、復(fù)制、剪切和粘貼等操作,編輯完成后用戶選擇保 存或者放棄保存。
[0042] 文本分享單元目前支持郵件發(fā)送和QQ好友分享兩種途徑。通過QQ鏈接進(jìn)行分享, 鏈接的地址是利用文本在后臺(tái)形成的一張網(wǎng)頁,該網(wǎng)頁在系統(tǒng)服務(wù)器中生成并保存好友點(diǎn) 擊鏈接可打開該網(wǎng)頁查看文本內(nèi)容。表2是對(duì)兩篇30分鐘左右的