一種數(shù)字電視語音識別人機交互系統(tǒng)及方法

文檔序號：2823934閱讀：279來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種數(shù)字電視語音識別人機交互系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音處理和語義識別技術(shù)領(lǐng)域，以及計算機智能分析、處理并采集語音的技術(shù)，具體涉及一種數(shù)字電視語音識別人機交互系統(tǒng)及方法。
背景技術(shù)：
語音識別技術(shù)主要是讓機器通過識別和理解把語音信號變成相應(yīng)的文本或者命令的技術(shù)。語音識別技術(shù)通過語音的采集輸入，提取出語音的特征，再運用模型數(shù)據(jù)庫的語音信息特征進行模式匹配，得到語音所包含的信息轉(zhuǎn)換為文字或者命令。根據(jù)語音識別的對象不同，在語音識別人物中大體可分為孤立詞識別、關(guān)鍵詞識別和連續(xù)語音識別三類。孤立語音識別運用在識別事先已知的詞匯，關(guān)鍵詞識別運用在連續(xù)的語音當(dāng)中，但是它并不識別全部文字，而只檢測已知的若干關(guān)鍵詞的出現(xiàn)，連續(xù)語音識別用于識別連續(xù)的一個句子或一段話。在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，噪聲所造成的語音識別影響比較大。在現(xiàn)實家庭生活中，語音識別的限制主要在于噪聲的影響和互動語音的不規(guī)范性和任意性。簡單地說，由于噪聲對用戶的語音采樣和輸入造成影響，在語音識別中會發(fā)生理解錯誤或者用戶語音的丟失。用戶互動語音的不規(guī)范性和任意性在語音識別中的匹配帶來的隨機的不確定性，在匹配語音當(dāng)中可能因為語音的不規(guī)范性和任意性和匹配錯誤造成語音的語語義解錯誤。解決在家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，在用戶互動語音不規(guī)范性和任意性的情況下，關(guān)鍵詞語音識別對這種環(huán)境下的連續(xù)語音識別有更好的應(yīng)用。在用戶的連續(xù)語音命令中，關(guān)鍵詞識別能夠匹配出已知的關(guān)鍵詞所在的位置，并根據(jù)關(guān)鍵詞的位置和組合，解釋出需要執(zhí)行的命令。因此，本發(fā)明提出了一種數(shù)字電視語音識別人機交互系統(tǒng)及方法，目的在于在數(shù)字電視的環(huán)境下，提供先進的數(shù)字電視語音語言交互方式。

發(fā)明內(nèi)容
本發(fā)明的目的在于在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，解決互動語音的不規(guī)范性和任意性問題，提供一種數(shù)字電視語音識別人際交互系統(tǒng)及方法。本發(fā)明數(shù)字電視語音識別人際交互系統(tǒng)是由目標(biāo)語音采集模塊、語音分析模塊、語義計算模塊以及智能控制模塊所組成。所述目標(biāo)語音采集模塊是一個或者多個用于采集語音信息的麥克風(fēng)或其他錄入系統(tǒng)，實現(xiàn)語音信息的自動采集，以及模擬的語音信息向數(shù)字語音信息的轉(zhuǎn)換，包括信號放大模塊、向前濾波模塊、信號采樣模塊，數(shù)據(jù)壓縮編碼模塊；所述的語音分析模塊用于處理語音信息，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué) 環(huán)境下提取出有用的語音信息，去除噪聲雜音，然后得出語音信息數(shù)據(jù)，轉(zhuǎn)換成為文字信息，包括噪聲去除模塊、特征提取模塊、解碼模塊；
所述的語義計算模塊，用于理解語音分析模塊得出的文字信息的含義，通過模糊信息搜索和漢語口語理解，對語音進行特征抽取，把語音信息解釋為能夠執(zhí)行的命令。首先根據(jù)命令信息庫在文字信息中搜索所有與命令相關(guān)的文字進行語義計算，再根據(jù)命令文字的位置和順序以及命令文字的上下文語句，判斷出所需要執(zhí)行的命令。語義計算模塊通過對識別出來的關(guān)鍵文字信息進行解釋，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境中設(shè)定語音與命令對應(yīng)轉(zhuǎn)換關(guān)系，從而把關(guān)鍵文字信息轉(zhuǎn)化為命令。所述的智能控制模塊，用于接收語義計算模塊的命令，當(dāng)命令能夠正確執(zhí)行時，執(zhí)行所獲得的命令并對用戶進行聲音、圖像和視頻的提示和交互，然后繼續(xù)返回目標(biāo)語音采集模塊對用戶進行交互。當(dāng)命令無效時，向用戶提示命令無效，然后返回目標(biāo) 語音采集模塊等待用戶的交互語音信息。上述技術(shù)方案中，所述目標(biāo)語音采集模塊還包括數(shù)據(jù)壓縮編碼模塊，壓縮編碼后能夠使傳輸速度加快，減少系統(tǒng)的延時。上述技術(shù)方案中，所述目標(biāo)語音采集模塊中的信號采樣模塊使用單片機作控制兼數(shù)據(jù)處理，也就是CPU控制讀入采樣數(shù)據(jù)，繼而自行進行數(shù)據(jù)壓縮，在速度可以達到要求的同時成本相對較低。本發(fā)明中所述語音分析模塊設(shè)置有存放漢語口語信息的數(shù)據(jù)庫模塊。在建立關(guān) 鍵詞時，采用音節(jié)建模，在聲學(xué)模型和語言模型基礎(chǔ)上的隱馬爾可夫模型(HMM)拓撲結(jié)構(gòu)，先進行分割，再對每一段進行解碼。所述語義計算模塊設(shè)置有存放執(zhí)行命令和提取信息策略的數(shù)據(jù)庫模塊，所述數(shù) 據(jù)庫模塊設(shè)置有人工智能自學(xué)習(xí)機制，并設(shè)置有人工控制接口。在語義分析中設(shè)置人工選擇歧義信息，并對數(shù)據(jù)庫的信息提取策略進行人工智能學(xué)習(xí)，增強語義識別的準(zhǔn)確性。上述方案中，所述的語義計算模塊融合了中文模糊信息檢索、漢語口語理解技術(shù)，利用中文模糊信息檢索找出包含命令的關(guān)鍵詞語，再利用漢語口語理解技術(shù)對關(guān)鍵詞語進行理解和解釋，從而獲得所須要實行的命令。所述的智能控制模塊能夠根據(jù)命令直接控制數(shù)字電視，智能控制模塊能夠根據(jù) 命令對機頂盒進行操作，從而達到控制數(shù)字電視與人交互的效果。此外，一種數(shù)字電視語音識別人機交互方法，其步驟如下所述1)起始步驟，用于啟動本語音識別人際交互系統(tǒng)；2)采集語音信息，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，如果用戶想要通過語音與數(shù)字電視進行交互，則通過目標(biāo)語音采集模塊采集用戶的語音信息。首先利用測量放大器把語音信號放大，然后采用5階巴特沃斯低通和5階巴特沃斯高通級聯(lián)進行向前濾波，再根據(jù)奈奎斯特準(zhǔn)則利用AD采樣芯片進行4k和8k采樣速率的信號采樣。最后進行數(shù)據(jù)壓縮編碼，使數(shù)據(jù)變成數(shù)字語音信息；3)語音信息的轉(zhuǎn)換，目標(biāo)語音采集模塊所采集的語音信息包含噪聲，通過語音分析模塊的處理，把用戶的語音信息提取出來，并解釋成為文字信息。參照所有數(shù)字電視的執(zhí)行命令，定義與命令相關(guān)的關(guān)鍵詞，通過語音分析模塊，在用戶的連續(xù)語音輸入中匹配識別出關(guān)鍵詞的位置，并把關(guān)鍵詞映射為文字信息；4)語義理解，根據(jù)所得出的文字信息，通過語義計算模塊，得出將要被執(zhí)行的命令。根據(jù)命令信息庫在文字信息中搜索所有與命令相關(guān)的文字，再根據(jù)命令文字的位置和順序以及命令文字的上下文語句進行語義計算，判斷出所需要執(zhí)行的命令；5)通過在語義計算模塊所得出的命令，當(dāng)命令能夠被正確執(zhí)行的時候，智能控制模塊執(zhí)行命令并對用戶進行聲音、圖像和視頻的交互，并返回目標(biāo)語音采集模塊對用戶進行下一步交互，當(dāng)命令無效時，智能控制模塊向用戶提示命令無效，然后返回目標(biāo) 語音采集模塊等待用戶的交互語音信息。本發(fā)明的有益效果如下1、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法，實現(xiàn)數(shù)字電視語音語言的交互。本發(fā)明在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，提供用戶與先進的數(shù)字電視語音語言的交互，實現(xiàn)面向數(shù)字家庭的應(yīng)用。2、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法，在建立關(guān)鍵詞時，采用音節(jié)建模，在聲學(xué)模型和語言模型基礎(chǔ)上的隱馬爾可夫模型(HMM)拓撲結(jié) 構(gòu)，先進行分割，再對每一段進行解碼，能夠使語音識別更加準(zhǔn)確。3、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法，在語義理解中，運用交互操作和人工智能學(xué)習(xí)方法，根據(jù)命令信息庫在文字信息中搜索所有與命令相關(guān)的文字，再根據(jù)命令文字的位置和順序以及命令文字的上下文語句進行語義計算，使語義判斷更加準(zhǔn)確和快速。4、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境中設(shè)定語音與命令對應(yīng)轉(zhuǎn)換關(guān)系，能夠在更好地適應(yīng)語音的不規(guī)范性和任意性。

圖1為本發(fā)明系統(tǒng)整體模塊框圖；圖2為本發(fā)明方法的操作流程圖；圖3為本發(fā)明語音采集流程圖；圖4為本發(fā)明語音分析流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明進行詳細描述。如圖1所示，一種數(shù)字電視語音識別人機交互系統(tǒng)，它包括目標(biāo)語音采集模塊、語音分析模塊、語義計算模塊以及智能控制模塊；所述目標(biāo)語音采集模塊包括信號放大模塊、向前濾波模塊、信號采樣模塊、數(shù)據(jù)壓縮編碼模塊；所述語音分析模塊包括噪聲去除模塊、特征提取模塊、解碼模塊。各模塊的功能描述如下1、目標(biāo)語音采集模塊一個或者多個用于采集語音信息的麥克風(fēng)或其他錄入系統(tǒng)，實現(xiàn)語音信息的自動采集，以及模擬的語音信息向數(shù)字語音信息的轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換后傳輸?shù)秸Z音分析模塊進行語音的識別處理。1)信號放大模塊因為在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，話筒采集的聲音信號較為弱小，須要對小信號進行隔離放大來增強語音信號。
2)向前濾波模塊利用濾波處理聲音，能夠去除噪音，突出語音信號。3)信號采樣模塊對模擬的語音信號進行信號采樣和轉(zhuǎn)換處理，利用單片機進行運算，把模擬語音信息轉(zhuǎn)換成數(shù)字語音信息。4)數(shù)據(jù)壓縮編碼模塊把采樣后的數(shù)字語音信息進行壓縮編碼，方便存儲和傳輸，提高傳輸?shù)乃俣取?、語音分析模塊在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下提取出有用的語音信息，去除噪聲雜音，然后得出語音信息數(shù)據(jù)，轉(zhuǎn)換成為文字信息。參照所有數(shù)字電視的執(zhí)行命令，定義與命令相關(guān)的關(guān)鍵詞，通過語音分析模塊，在用戶的連續(xù)語音輸入中匹配識別出關(guān)鍵詞的位置，并把關(guān)鍵詞映射為文字信息傳遞給語義計算模塊。1)噪聲去除模塊在數(shù)字語音信息中，運用維納濾波去除噪聲，使數(shù)字語音信息能夠不受噪聲影響，并使數(shù)字語音信息表達得更為準(zhǔn)確。2)特征提取模塊在數(shù)字語音信息中提取語音特征，根據(jù)語音的不同組合對語音進行不用意思的分割。3)解碼模塊對分割出來的語音信息進行語音識別解碼，解碼完成后把語音信息轉(zhuǎn)換成文字信息。3、語義計算模塊理解語音分析模塊得出的文字信息的含義，通過模糊信息搜索和漢語口語理解，然后對語音進行特征抽取，把語音信息解釋為能夠被執(zhí)行的命令。把所解釋出來的命令傳輸?shù)街悄芸刂颇K進行執(zhí)行處理。4、智能控制模塊接收語義計算模塊的命令，當(dāng)命令能夠被正確執(zhí)行時，執(zhí)行所獲得的命令并對用戶進行聲音、圖像和視頻的提示和交互，然后繼續(xù)返回目標(biāo)語音采集模塊對用戶進行交互。當(dāng)命令無效時，向用戶提示命令無效，然后返回目標(biāo)語音采集模塊等待用戶的交互語音信息。如圖2所示為一種數(shù)字電視語音識別人機交互系統(tǒng)的操作流程圖。操作過程分如下幾個步驟1)起始步驟，用于啟動本語音識別人際交互系統(tǒng)；2)采集語音信息，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，如果用戶想要通過語音與數(shù)字電視進行交互，則通過目標(biāo)語音采集模塊采集用戶的語音信息。首先在信號放大模塊中利用測量放大器把語音信號放大，然后在向前濾波模塊中采用5階巴特沃斯低通和5階巴特沃斯高通級聯(lián)進行向前濾波，再根據(jù)奈奎斯特準(zhǔn)則利用信號采樣模塊中的AD采樣芯片進行4k和8k采樣速率的信號采樣。最后咋數(shù)據(jù)壓縮編碼模塊中進行數(shù)據(jù)壓縮編碼，使數(shù)據(jù)變成數(shù)字語音信息；3)語音信息的轉(zhuǎn)換，目標(biāo)語音采集模塊所采集的語音信息包含噪聲，通過語音分析模塊的處理，把用戶的語音信息提取出來，并解釋成為文字信息。首先噪聲去除模塊去除數(shù)字語音噪聲，參照所有數(shù)字電視的執(zhí)行命令，定義與命令相關(guān)的關(guān)鍵詞，通過特征提取模塊，在用戶的連續(xù)語音輸入中匹配識別出關(guān)鍵詞的位置，并通過解碼模塊把關(guān)鍵詞映射為文字信息；4)語義理解，根據(jù)所得出的文字信息，通過語義計算模塊，得出將要被執(zhí)行的命令。根據(jù)命令信息庫在文字信息中搜索所有與命令相關(guān)的文字，再根據(jù)命令文字的位置和順序以及命令文字的上下文語句進行語義計算，判斷出所需要執(zhí)行的命令；
5)通過在語義計算模塊所得出的命令，當(dāng)命令能夠被正確執(zhí)行的時候，智能控制模塊執(zhí)行命令并對用戶進行聲音、圖像和視頻的交互，并返回目標(biāo)語音采集模塊對用戶進行下一步交互，當(dāng)命令無效時，智能控制模塊向用戶提示命令無效，然后返回目標(biāo) 語音采集模塊等待用戶的交互語音信息。如圖3所示為一種數(shù)字電視語音識別人機交互系統(tǒng)中的語音采集流程圖。當(dāng)本發(fā)明進行語音采集時，輸入的模擬語音信息首先利用測量放大器把語音信號放大，然后采用5階巴特沃斯低通和5階巴特沃斯高通級聯(lián)進行向前濾波，再根據(jù)奈奎斯特準(zhǔn)則利用 AD采樣芯片進行4k和8k采樣速率的信號采樣。最后進行數(shù)據(jù)壓縮編碼，使數(shù)據(jù)變成數(shù)
字語音信息。如圖4所示為一種數(shù)字電視語音識別人機交互系統(tǒng)中的語音分析流程圖。當(dāng)本發(fā)明進行語音分析時，輸入的語音數(shù)據(jù)首先運用維納濾波去除噪聲，得出準(zhǔn)確的用戶語音信息，利用漢語口語的特點提取聲學(xué)特征，利用聲學(xué)特征通過Viterbi算法利用預(yù)先訓(xùn) 練好的語音模型集對特征進行解碼，最后把解碼后的信息與文字進行匹配，生成文字信息。
權(quán)利要求
1.一種數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于包括實現(xiàn)語音信息的自動采集，以及模擬的語音信息向數(shù)字語音信息的轉(zhuǎn)換的目標(biāo)語音采集模塊；負責(zé)處理語音信息，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下提取出有用的語音信息，去除噪聲雜音，然后得出語音信息數(shù)據(jù)，轉(zhuǎn)換成為文字信息的語音分析模塊；用于理解語音分析模塊得出的文字信息的含義，把語音信息解釋為能夠被執(zhí)行的命令的語義計算模塊；用于接收語義計算模塊的命令，執(zhí)行命令信息的智能控制模塊。
2.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述目標(biāo)語音采集模塊還包括信號放大模塊、向前濾波模塊、信號采樣模塊，數(shù)據(jù)壓縮編碼模塊。
3.根據(jù)權(quán)利要求2所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述的信號采樣模塊使用單片機作控制兼數(shù)據(jù)處理。
4.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述語音分析模塊還包括噪聲去除模塊、特征提取模塊、解碼模塊。
5.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述語音分析模塊設(shè)置有存放漢語口語信息的數(shù)據(jù)庫模塊。
6.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述語義計算模塊設(shè)置有存放執(zhí)行命令和提取信息策略的數(shù)據(jù)庫模塊，所述數(shù)據(jù)庫模塊設(shè)置有人工智能自學(xué)習(xí)機制，并設(shè)置有人工控制接口。
7.根據(jù)權(quán)利要求1或5所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述的語義計算模塊融合了中文模糊信息檢索、漢語口語理解技術(shù)。
8.根據(jù)權(quán)利1要求所述的數(shù)字電視語音識別人機交互系統(tǒng)，其特征在于所述的智能控制模塊能夠根據(jù)命令直接控制數(shù)字電視。
9.一種數(shù)字電視語音識別人機交互的方法，其特征在于包括以下步驟1)起始步驟，用于啟動本語音識別人際交互系統(tǒng)；2)采集語音信息，在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下，如果用戶想要通過語音與數(shù)字電視進行交互，則通過目標(biāo)語音采集模塊采集用戶的語音信息；3)語音信息的轉(zhuǎn)換，目標(biāo)語音采集模塊所采集的語音信息包含噪聲，通過語音分析模塊的處理，把用戶的語音信息提取出來，并解釋成為文字信息；4)語義理解，根據(jù)所得出的文字信息，通過語義計算模塊，得出將要被執(zhí)行的命令；5)通過在語義計算模塊所得出的命令，當(dāng)命令能夠被正確執(zhí)行的時候，智能控制模塊執(zhí)行命令并對用戶進行聲音、圖像和視頻的交互，并返回目標(biāo)語音采集模塊對用戶進行下一步交互，當(dāng)命令無效時，智能控制模塊向用戶提示命令無效，然后返回目標(biāo)語音采集模塊等待用戶的交互語音信息。
全文摘要
本發(fā)明公開了一種數(shù)字電視語音識別人機交互系統(tǒng)及方法，系統(tǒng)包括目標(biāo)語音采集模塊、語音分析模塊、語義計算模塊以及智能控制模塊；所述目標(biāo)語音采集模塊包括信號放大模塊、向前濾波模塊、信號采樣模塊，數(shù)據(jù)壓縮編碼模塊；所述語音分析模塊包括噪聲去除模塊、特征提取模塊、解碼模塊；方法包括目標(biāo)語音采集、語音噪聲消除、語音識別處理、命令識別轉(zhuǎn)換、智能控制處理過程；本發(fā)明通過各模塊的協(xié)同工作，完成對數(shù)字家庭生后的數(shù)字電視混響聲學(xué)環(huán)境下的抗干擾語音智能識別和語音分析與互動的數(shù)字電視人機交互技術(shù)，提供先進的數(shù)字電視語音語言交互方式。
文檔編號G10L15/26GK102013254SQ20101054995
公開日2011年4月13日申請日期2010年11月17日優(yōu)先權(quán)日2010年11月17日
發(fā)明者劉寧, 羅笑南, 蘇嘉偉, 薛凱軍, 陳健民申請人:東莞市聚川電子科技有限公司, 廣東中大訊通信息有限公司

完整全部詳細技術(shù)資料下載