欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)字電視語音識別人機交互系統(tǒng)及方法

文檔序號:2823934閱讀:279來源:國知局
專利名稱:一種數(shù)字電視語音識別人機交互系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音處理和語義識別技術(shù)領(lǐng)域,以及計算機智能分析、處理并采集 語音的技術(shù),具體涉及一種數(shù)字電視語音識別人機交互系統(tǒng)及方法。
背景技術(shù)
語音識別技術(shù)主要是讓機器通過識別和理解把語音信號變成相應(yīng)的文本或者命 令的技術(shù)。語音識別技術(shù)通過語音的采集輸入,提取出語音的特征,再運用模型數(shù)據(jù)庫 的語音信息特征進行模式匹配,得到語音所包含的信息轉(zhuǎn)換為文字或者命令。根據(jù)語音識別的對象不同,在語音識別人物中大體可分為孤立詞識別、關(guān)鍵詞 識別和連續(xù)語音識別三類。孤立語音識別運用在識別事先已知的詞匯,關(guān)鍵詞識別運用 在連續(xù)的語音當(dāng)中,但是它并不識別全部文字,而只檢測已知的若干關(guān)鍵詞的出現(xiàn),連 續(xù)語音識別用于識別連續(xù)的一個句子或一段話。在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,噪聲所造成的語音識別影響比較 大。在現(xiàn)實家庭生活中,語音識別的限制主要在于噪聲的影響和互動語音的不規(guī)范性和 任意性。簡單地說,由于噪聲對用戶的語音采樣和輸入造成影響,在語音識別中會發(fā)生 理解錯誤或者用戶語音的丟失。用戶互動語音的不規(guī)范性和任意性在語音識別中的匹配 帶來的隨機的不確定性,在匹配語音當(dāng)中可能因為語音的不規(guī)范性和任意性和匹配錯誤 造成語音的語語義解錯誤。解決在家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,在用戶互動語音不規(guī)范性和任意 性的情況下,關(guān)鍵詞語音識別對這種環(huán)境下的連續(xù)語音識別有更好的應(yīng)用。在用戶的連 續(xù)語音命令中,關(guān)鍵詞識別能夠匹配出已知的關(guān)鍵詞所在的位置,并根據(jù)關(guān)鍵詞的位置 和組合,解釋出需要執(zhí)行的命令。因此,本發(fā)明提出了一種數(shù)字電視語音識別人機交互系統(tǒng)及方法,目的在于在 數(shù)字電視的環(huán)境下,提供先進的數(shù)字電視語音語言交互方式。

發(fā)明內(nèi)容
本發(fā)明的目的在于在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,解決互動語音 的不規(guī)范性和任意性問題,提供一種數(shù)字電視語音識別人際交互系統(tǒng)及方法。本發(fā)明數(shù)字電視語音識別人際交互系統(tǒng)是由目標(biāo)語音采集模塊、語音分析模 塊、語義計算模塊以及智能控制模塊所組成。所述目標(biāo)語音采集模塊是一個或者多個用于采集語音信息的麥克風(fēng)或其他錄入 系統(tǒng),實現(xiàn)語音信息的自動采集,以及模擬的語音信息向數(shù)字語音信息的轉(zhuǎn)換,包括信 號放大模塊、向前濾波模塊、信號采樣模塊,數(shù)據(jù)壓縮編碼模塊;所述的語音分析模塊用于處理語音信息,在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué) 環(huán)境下提取出有用的語音信息,去除噪聲雜音,然后得出語音信息數(shù)據(jù),轉(zhuǎn)換成為文字 信息,包括噪聲去除模塊、特征提取模塊、解碼模塊;
所述的語義計算模塊,用于理解語音分析模塊得出的文字信息的含義,通過模 糊信息搜索和漢語口語理解,對語音進行特征抽取,把語音信息解釋為能夠執(zhí)行的命 令。首先根據(jù)命令信息庫在文字信息中搜索所有與命令相關(guān)的文字進行語義計算,再根 據(jù)命令文字的位置和順序以及命令文字的上下文語句,判斷出所需要執(zhí)行的命令。語義 計算模塊通過對識別出來的關(guān)鍵文字信息進行解釋,在現(xiàn)實家庭生活的數(shù)字電視混響聲 學(xué)環(huán)境中設(shè)定語音與命令對應(yīng)轉(zhuǎn)換關(guān)系,從而把關(guān)鍵文字信息轉(zhuǎn)化為命令。所述的智能控制模塊,用于接收語義計算模塊的命令,當(dāng)命令能夠正確執(zhí)行 時,執(zhí)行所獲得的命令并對用戶進行聲音、圖像和視頻的提示和交互,然后繼續(xù)返回目 標(biāo)語音采集模塊對用戶進行交互。當(dāng)命令無效時,向用戶提示命令無效,然后返回目標(biāo) 語音采集模塊等待用戶的交互語音信息。上述技術(shù)方案中,所述目標(biāo)語音采集模塊還包括數(shù)據(jù)壓縮編碼模塊,壓縮編碼 后能夠使傳輸速度加快,減少系統(tǒng)的延時。上述技術(shù)方案中,所述目標(biāo)語音采集模塊中的信號采樣模塊使用單片機作控制 兼數(shù)據(jù)處理,也就是CPU控制讀入采樣數(shù)據(jù),繼而自行進行數(shù)據(jù)壓縮,在速度可以達到 要求的同時成本相對較低。本發(fā)明中所述語音分析模塊設(shè)置有存放漢語口語信息的數(shù)據(jù)庫模塊。在建立關(guān) 鍵詞時,采用音節(jié)建模,在聲學(xué)模型和語言模型基礎(chǔ)上的隱馬爾可夫模型(HMM)拓撲 結(jié)構(gòu),先進行分割,再對每一段進行解碼。所述語義計算模塊設(shè)置有存放執(zhí)行命令和提取信息策略的數(shù)據(jù)庫模塊,所述數(shù) 據(jù)庫模塊設(shè)置有人工智能自學(xué)習(xí)機制,并設(shè)置有人工控制接口。在語義分析中設(shè)置人 工選擇歧義信息,并對數(shù)據(jù)庫的信息提取策略進行人工智能學(xué)習(xí),增強語義識別的準(zhǔn)確 性。上述方案中,所述的語義計算模塊融合了中文模糊信息檢索、漢語口語理解技 術(shù),利用中文模糊信息檢索找出包含命令的關(guān)鍵詞語,再利用漢語口語理解技術(shù)對關(guān)鍵 詞語進行理解和解釋,從而獲得所須要實行的命令。所述的智能控制模塊能夠根據(jù)命令直接控制數(shù)字電視,智能控制模塊能夠根據(jù) 命令對機頂盒進行操作,從而達到控制數(shù)字電視與人交互的效果。此外,一種數(shù)字電視語音識別人機交互方法,其步驟如下所述1)起始步驟,用于啟動本語音識別人際交互系統(tǒng);2)采集語音信息,在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,如果用戶想要 通過語音與數(shù)字電視進行交互,則通過目標(biāo)語音采集模塊采集用戶的語音信息。首先利 用測量放大器把語音信號放大,然后采用5階巴特沃斯低通和5階巴特沃斯高通級聯(lián)進行 向前濾波,再根據(jù)奈奎斯特準(zhǔn)則利用AD采樣芯片進行4k和8k采樣速率的信號采樣。最 后進行數(shù)據(jù)壓縮編碼,使數(shù)據(jù)變成數(shù)字語音信息;3)語音信息的轉(zhuǎn)換,目標(biāo)語音采集模塊所采集的語音信息包含噪聲,通過語音 分析模塊的處理,把用戶的語音信息提取出來,并解釋成為文字信息。參照所有數(shù)字電 視的執(zhí)行命令,定義與命令相關(guān)的關(guān)鍵詞,通過語音分析模塊,在用戶的連續(xù)語音輸入 中匹配識別出關(guān)鍵詞的位置,并把關(guān)鍵詞映射為文字信息;4)語義理解,根據(jù)所得出的文字信息,通過語義計算模塊,得出將要被執(zhí)行的命令。根據(jù)命 令信息庫在文字信息中搜索所有與命令相關(guān)的文字,再根據(jù)命令文字的位 置和順序以及命令文字的上下文語句進行語義計算,判斷出所需要執(zhí)行的命令;5)通過在語義計算模塊所得出的命令,當(dāng)命令能夠被正確執(zhí)行的時候,智能控 制模塊執(zhí)行命令并對用戶進行聲音、圖像和視頻的交互,并返回目標(biāo)語音采集模塊對用 戶進行下一步交互,當(dāng)命令無效時,智能控制模塊向用戶提示命令無效,然后返回目標(biāo) 語音采集模塊等待用戶的交互語音信息。本發(fā)明的有益效果如下1、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法,實現(xiàn)數(shù)字電視 語音語言的交互。本發(fā)明在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,提供用戶與先進 的數(shù)字電視語音語言的交互,實現(xiàn)面向數(shù)字家庭的應(yīng)用。2、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法,在建立關(guān)鍵 詞時,采用音節(jié)建模,在聲學(xué)模型和語言模型基礎(chǔ)上的隱馬爾可夫模型(HMM)拓撲結(jié) 構(gòu),先進行分割,再對每一段進行解碼,能夠使語音識別更加準(zhǔn)確。3、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法,在語義理解 中,運用交互操作和人工智能學(xué)習(xí)方法,根據(jù)命令信息庫在文字信息中搜索所有與命令 相關(guān)的文字,再根據(jù)命令文字的位置和順序以及命令文字的上下文語句進行語義計算, 使語義判斷更加準(zhǔn)確和快速。4、本發(fā)明所提出的一種數(shù)字電視語音識別人機交互系統(tǒng)及方法,在現(xiàn)實家庭生 活的數(shù)字電視混響聲學(xué)環(huán)境中設(shè)定語音與命令對應(yīng)轉(zhuǎn)換關(guān)系,能夠在更好地適應(yīng)語音的 不規(guī)范性和任意性。


圖1為本發(fā)明系統(tǒng)整體模塊框圖;圖2為本發(fā)明方法的操作流程圖;圖3為本發(fā)明語音采集流程圖;圖4為本發(fā)明語音分析流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明進行詳細描述。如圖1所示,一種數(shù)字電視語音識別人機交互系統(tǒng),它包括目標(biāo)語音采集模 塊、語音分析模塊、語義計算模塊以及智能控制模塊;所述目標(biāo)語音采集模塊包括信號 放大模塊、向前濾波模塊、信號采樣模塊、數(shù)據(jù)壓縮編碼模塊;所述語音分析模塊包括 噪聲去除模塊、特征提取模塊、解碼模塊。各模塊的功能描述如下1、目標(biāo)語音采集模塊一個或者多個用于采集語音信息的麥克風(fēng)或其他錄入系 統(tǒng),實現(xiàn)語音信息的自動采集,以及模擬的語音信息向數(shù)字語音信息的轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換 后傳輸?shù)秸Z音分析模塊進行語音的識別處理。1)信號放大模塊因為在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,話筒采集 的聲音信號較為弱小,須要對小信號進行隔離放大來增強語音信號。
2)向前濾波模塊利用濾波處理聲音,能夠去除噪音,突出語音信號。3)信號采樣模塊對模擬的語音信號進行信號采樣和轉(zhuǎn)換處理,利用單片機進 行運算,把模擬語音信息轉(zhuǎn)換成數(shù)字語音信息。4)數(shù)據(jù)壓縮編碼模塊把采樣后的數(shù)字語音信息進行壓縮編碼,方便存儲和傳 輸,提高傳輸?shù)乃俣取?、語音分析模塊在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下提取出有用的語 音信息,去除噪聲雜音,然后得出語音信息數(shù)據(jù),轉(zhuǎn)換成為文字信息。參照所有數(shù)字電 視的執(zhí)行命令,定義與命令相關(guān)的關(guān)鍵詞,通過語音分析模塊,在用戶的連續(xù)語音輸入 中匹配識別出關(guān)鍵詞的位置,并把關(guān)鍵詞映射為文字信息傳遞給語義計算模塊。1)噪聲去除模塊在數(shù)字語音信息中,運用維納濾波去除噪聲,使數(shù)字語音信 息能夠不受噪聲影響,并使數(shù)字語音信息表達得更為準(zhǔn)確。2)特征提取模塊在數(shù)字語音信息中提取語音特征,根據(jù)語音的不同組合對語 音進行不用意思的分割。3)解碼模塊對分割出來的語音信息進行語音識別解碼,解碼完成后把語音信 息轉(zhuǎn)換成文字信息。3、語義計算模塊理解語音分析模塊得出的文字信息的含義,通過模糊信息搜 索和漢語口語理解,然后對語音進行特征抽取,把語音信息解釋為能夠被執(zhí)行的命令。 把所解釋出來的命令傳輸?shù)街悄芸刂颇K進行執(zhí)行處理。4、智能控制模塊接收語義計算模塊的命令,當(dāng)命令能夠被正確執(zhí)行時,執(zhí)行 所獲得的命令并對用戶進行聲音、圖像和視頻的提示和交互,然后繼續(xù)返回目標(biāo)語音采 集模塊對用戶進行交互。當(dāng)命令無效時,向用戶提示命令無效,然后返回目標(biāo)語音采集 模塊等待用戶的交互語音信息。如圖2所示為一種數(shù)字電視語音識別人機交互系統(tǒng)的操作流程圖。操作過程分如下幾個步驟1)起始步驟,用于啟動本語音識別人際交互系統(tǒng);2)采集語音信息,在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,如果用戶想要 通過語音與數(shù)字電視進行交互,則通過目標(biāo)語音采集模塊采集用戶的語音信息。首先在 信號放大模塊中利用測量放大器把語音信號放大,然后在向前濾波模塊中采用5階巴特 沃斯低通和5階巴特沃斯高通級聯(lián)進行向前濾波,再根據(jù)奈奎斯特準(zhǔn)則利用信號采樣模 塊中的AD采樣芯片進行4k和8k采樣速率的信號采樣。最后咋數(shù)據(jù)壓縮編碼模塊中進 行數(shù)據(jù)壓縮編碼,使數(shù)據(jù)變成數(shù)字語音信息;3)語音信息的轉(zhuǎn)換,目標(biāo)語音采集模塊所采集的語音信息包含噪聲,通過語音 分析模塊的處理,把用戶的語音信息提取出來,并解釋成為文字信息。首先噪聲去除模 塊去除數(shù)字語音噪聲,參照所有數(shù)字電視的執(zhí)行命令,定義與命令相關(guān)的關(guān)鍵詞,通過 特征提取模塊,在用戶的連續(xù)語音輸入中匹配識別出關(guān)鍵詞的位置,并通過解碼模塊把 關(guān)鍵詞映射為文字信息;4)語義理解,根據(jù)所得出的文字信息,通過語義計算模塊,得出將要被執(zhí)行的 命令。根據(jù)命令信息庫在文字信息中搜索所有與命令相關(guān)的文字,再根據(jù)命令文字的位 置和順序以及命令文字的上下文語句進行語義計算,判斷出所需要執(zhí)行的命令;
5)通過在語義計算模塊所得出的命令,當(dāng)命令能夠被正確執(zhí)行的時候,智能控 制模塊執(zhí)行命令并對用戶進行聲音、圖像和視頻的交互,并返回目標(biāo)語音采集模塊對用 戶進行下一步交互,當(dāng)命令無效時,智能控制模塊向用戶提示命令無效,然后返回目標(biāo) 語音采集模塊等待用戶的交互語音信息。如圖3所示為一種數(shù)字電視語音識別人機交互系統(tǒng)中的語音采集流程圖。當(dāng)本 發(fā)明進行語音采集時,輸入的模擬語音信息首先利用測量放大器把語音信號放大,然后 采用5階巴特沃斯低通和5階巴特沃斯高通級聯(lián)進行向前濾波,再根據(jù)奈奎斯特準(zhǔn)則利用 AD采樣芯片進行4k和8k采樣速率的信號采樣。最后進行數(shù)據(jù)壓縮編碼,使數(shù)據(jù)變成數(shù)
字語音信息。如圖4所示為一種數(shù)字電視語音識別人機交互系統(tǒng)中的語音分析流程圖。當(dāng)本 發(fā)明進行語音分析時,輸入的語音數(shù)據(jù)首先運用維納濾波去除噪聲,得出準(zhǔn)確的用戶語 音信息,利用漢語口語的特點提取聲學(xué)特征,利用聲學(xué)特征通過Viterbi算法利用預(yù)先訓(xùn) 練好的語音模型集對特征進行解碼,最后把解碼后的信息與文字進行匹配,生成文字信 息。
權(quán)利要求
1.一種數(shù)字電視語音識別人機交互系統(tǒng),其特征在于包括實現(xiàn)語音信息的自動采集,以及模擬的語音信息向數(shù)字語音信息的轉(zhuǎn)換的目標(biāo)語音 采集模塊;負責(zé)處理語音信息,在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下提取出有用的語音 信息,去除噪聲雜音,然后得出語音信息數(shù)據(jù),轉(zhuǎn)換成為文字信息的語音分析模塊;用于理解語音分析模塊得出的文字信息的含義,把語音信息解釋為能夠被執(zhí)行的命 令的語義計算模塊;用于接收語義計算模塊的命令,執(zhí)行命令信息的智能控制模塊。
2.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述目標(biāo)語音 采集模塊還包括信號放大模塊、向前濾波模塊、信號采樣模塊,數(shù)據(jù)壓縮編碼模塊。
3.根據(jù)權(quán)利要求2所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述的信號采 樣模塊使用單片機作控制兼數(shù)據(jù)處理。
4.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述語音分析 模塊還包括噪聲去除模塊、特征提取模塊、解碼模塊。
5.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述語音分析 模塊設(shè)置有存放漢語口語信息的數(shù)據(jù)庫模塊。
6.根據(jù)權(quán)利要求1所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述語義計算 模塊設(shè)置有存放執(zhí)行命令和提取信息策略的數(shù)據(jù)庫模塊,所述數(shù)據(jù)庫模塊設(shè)置有人工智 能自學(xué)習(xí)機制,并設(shè)置有人工控制接口。
7.根據(jù)權(quán)利要求1或5所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述的語 義計算模塊融合了中文模糊信息檢索、漢語口語理解技術(shù)。
8.根據(jù)權(quán)利1要求所述的數(shù)字電視語音識別人機交互系統(tǒng),其特征在于所述的智能控 制模塊能夠根據(jù)命令直接控制數(shù)字電視。
9.一種數(shù)字電視語音識別人機交互的方法,其特征在于包括以下步驟1)起始步驟,用于啟動本語音識別人際交互系統(tǒng);2)采集語音信息,在現(xiàn)實家庭生活的數(shù)字電視混響聲學(xué)環(huán)境下,如果用戶想要通過 語音與數(shù)字電視進行交互,則通過目標(biāo)語音采集模塊采集用戶的語音信息;3)語音信息的轉(zhuǎn)換,目標(biāo)語音采集模塊所采集的語音信息包含噪聲,通過語音分析 模塊的處理,把用戶的語音信息提取出來,并解釋成為文字信息;4)語義理解,根據(jù)所得出的文字信息,通過語義計算模塊,得出將要被執(zhí)行的命令;5)通過在語義計算模塊所得出的命令,當(dāng)命令能夠被正確執(zhí)行的時候,智能控制模 塊執(zhí)行命令并對用戶進行聲音、圖像和視頻的交互,并返回目標(biāo)語音采集模塊對用戶進 行下一步交互,當(dāng)命令無效時,智能控制模塊向用戶提示命令無效,然后返回目標(biāo)語音 采集模塊等待用戶的交互語音信息。
全文摘要
本發(fā)明公開了一種數(shù)字電視語音識別人機交互系統(tǒng)及方法,系統(tǒng)包括目標(biāo)語音采集模塊、語音分析模塊、語義計算模塊以及智能控制模塊;所述目標(biāo)語音采集模塊包括信號放大模塊、向前濾波模塊、信號采樣模塊,數(shù)據(jù)壓縮編碼模塊;所述語音分析模塊包括噪聲去除模塊、特征提取模塊、解碼模塊;方法包括目標(biāo)語音采集、語音噪聲消除、語音識別處理、命令識別轉(zhuǎn)換、智能控制處理過程;本發(fā)明通過各模塊的協(xié)同工作,完成對數(shù)字家庭生后的數(shù)字電視混響聲學(xué)環(huán)境下的抗干擾語音智能識別和語音分析與互動的數(shù)字電視人機交互技術(shù),提供先進的數(shù)字電視語音語言交互方式。
文檔編號G10L15/26GK102013254SQ20101054995
公開日2011年4月13日 申請日期2010年11月17日 優(yōu)先權(quán)日2010年11月17日
發(fā)明者劉寧, 羅笑南, 蘇嘉偉, 薛凱軍, 陳健民 申請人:東莞市聚川電子科技有限公司, 廣東中大訊通信息有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
信阳市| 海口市| 蒲城县| 邮箱| 静乐县| 阿尔山市| 安达市| 芮城县| 福州市| 宁化县| 股票| 手游| 西充县| 丽水市| 青海省| 铜川市| 江山市| 镇安县| 体育| 吴江市| 湟源县| 营山县| 延长县| 英吉沙县| 南宫市| 乌鲁木齐市| 通化市| 巴东县| 桐庐县| 乌鲁木齐县| 九台市| 通州区| 亳州市| 洪泽县| 双流县| 彰化市| 湖州市| 丹凤县| 阳朔县| 玉环县| 临洮县|