本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,特別是涉及一種語(yǔ)音識(shí)別方法及裝置。
背景技術(shù):
語(yǔ)音識(shí)別通常支持命令詞匹配和在線語(yǔ)音識(shí)別兩種模式。其中,命令詞匹配指用戶預(yù)先定義幾個(gè)詞作為命令詞,當(dāng)終端接收到用戶輸入的語(yǔ)音數(shù)據(jù)時(shí),從預(yù)先定義的多個(gè)命令詞中匹配出與該語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的詞。可以看出,命令詞匹配僅能匹配出預(yù)先定義的幾個(gè)命令詞,其主要用于喚醒、觸發(fā)終端上的特定功能。而在線語(yǔ)音識(shí)別則是由終端將接收到的語(yǔ)音數(shù)據(jù)上傳至網(wǎng)絡(luò)側(cè),利用網(wǎng)絡(luò)側(cè)的聲音模型對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別。因此,在線語(yǔ)音識(shí)別可識(shí)別出任意的詞,識(shí)別結(jié)果可用于終端執(zhí)行搜索、書(shū)寫(xiě)、人機(jī)對(duì)話等操作。
現(xiàn)有的語(yǔ)音助手類軟件或者含有語(yǔ)音輸入功能的軟件中,都只單方面支持上述兩種模式中的一種模式,而不支持另一種模式。即將命令詞匹配和在線語(yǔ)音識(shí)別分開(kāi)使用。用戶在使用這類軟件輸入語(yǔ)音數(shù)據(jù)時(shí),要么切換到命令詞場(chǎng)景中,要么切換到在線語(yǔ)音聽(tīng)寫(xiě)場(chǎng)景中。例如,用戶想要通過(guò)語(yǔ)音輸入功能觸發(fā)終端上的某一特定功能,則需首先將終端的語(yǔ)音識(shí)別模式切換到命令詞場(chǎng)景中;當(dāng)成功觸發(fā)該特定功能后,假如用戶又想通過(guò)語(yǔ)音輸入的方式向好友打電話,則需將終端的語(yǔ)音識(shí)別模式從命令詞場(chǎng)景中切換到語(yǔ)音撥號(hào)場(chǎng)景(即在線語(yǔ)音識(shí)別場(chǎng)景)中。顯然,上述語(yǔ)音識(shí)別方式需要用戶來(lái)回在不同場(chǎng)景間切換,操作起來(lái)十分麻煩,極大地降低了用戶使用語(yǔ)音識(shí)別功能的體驗(yàn)度。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的語(yǔ)音識(shí)別方法及裝置。
依據(jù)本發(fā)明的一個(gè)方面,提供了一種語(yǔ)音識(shí)別方法,應(yīng)用于客戶端,所述方法包括:
接收語(yǔ)音數(shù)據(jù);
判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,所述命令詞類包括由詞或詞的組合構(gòu)成的多個(gè)命令詞;
當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
當(dāng)所述語(yǔ)音數(shù)據(jù)不屬于所述命令詞類時(shí),將包含所述語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由所述網(wǎng)絡(luò)側(cè)識(shí)別出所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)所述操作指令執(zhí)行相應(yīng)操作。
可選地,判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,包括:
獲取所述客戶端預(yù)設(shè)的命令詞類;
將所述語(yǔ)音數(shù)據(jù)與所述命令詞類進(jìn)行匹配,以判斷出所述命令詞類中是否包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞;
當(dāng)所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),確定所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類。
可選地,將所述語(yǔ)音數(shù)據(jù)與所述命令詞類進(jìn)行匹配,以判斷出所述命令詞類中是否包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞,包括:
利用所述客戶端預(yù)存的語(yǔ)言模型確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字;
計(jì)算所述語(yǔ)言文字與所述命令詞類中的各命令詞之間相匹配的置信度;
當(dāng)置信度最高值大于或等于預(yù)設(shè)閾值時(shí),確定所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞。
可選地,在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,包括:
將所述置信度最高值對(duì)應(yīng)的命令詞確定為所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。
可選地,當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),所述方法還包括:
判斷所述語(yǔ)音數(shù)據(jù)是否為具有語(yǔ)義的詞或詞的組合;
當(dāng)所述語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),將所述語(yǔ)音數(shù)據(jù)上傳至所述網(wǎng)絡(luò)側(cè)進(jìn)行識(shí)別,并從所述網(wǎng)絡(luò)側(cè)獲取識(shí)別出的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
顯示用于選擇的多個(gè)選項(xiàng),所述多個(gè)選項(xiàng)包括所述命令詞對(duì)應(yīng)的選項(xiàng)以及所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng);
當(dāng)接收到針對(duì)所述多個(gè)選項(xiàng)中任一選項(xiàng)的選擇操作時(shí),根據(jù)所述選擇操作執(zhí)行相應(yīng)操作。
可選地,根據(jù)所述選擇操作執(zhí)行相應(yīng)操作,包括:
當(dāng)接收到用戶對(duì)所述命令詞對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
當(dāng)接收到用戶對(duì)所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),根據(jù)所述文字內(nèi)容執(zhí)行相應(yīng)的操作。
可選地,觸發(fā)所述命令詞對(duì)應(yīng)的特定功能,包括:
根據(jù)所述命令詞類中各命令詞和所述客戶端的特定功能之間的對(duì)應(yīng)關(guān)系,確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞所對(duì)應(yīng)的特定功能;
觸發(fā)所述確定的特定功能。
可選地,當(dāng)所述操作指令包括在搜索引擎中的輸入指令時(shí),所述方法還包括:
接收由所述網(wǎng)絡(luò)側(cè)返回的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
將所述文字內(nèi)容輸入至所述搜索引擎中的輸入框內(nèi)并進(jìn)行搜索。
依據(jù)本發(fā)明的另一個(gè)方面,提供了一種語(yǔ)音識(shí)別裝置,應(yīng)用于客戶端,所述裝置包括:
第一接收模塊,適于接收語(yǔ)音數(shù)據(jù);
第一判斷模塊,適于判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,所述命令詞類包括由詞或詞的組合構(gòu)成的多個(gè)命令詞;
觸發(fā)模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
第一上傳模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)不屬于所述命令詞類時(shí),將包含所述語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由所述網(wǎng)絡(luò)側(cè)識(shí)別出所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)所述操作指令執(zhí)行相應(yīng)操作。
可選地,所述第一判斷模塊還適于:
獲取所述客戶端預(yù)設(shè)的命令詞類;
將所述語(yǔ)音數(shù)據(jù)與所述命令詞類進(jìn)行匹配,以判斷出所述命令詞類中是否包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞;
當(dāng)所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),確定所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類。
可選地,所述第一判斷模塊還適于:
利用所述客戶端預(yù)存的語(yǔ)言模型確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字;
計(jì)算所述語(yǔ)言文字與所述命令詞類中的各命令詞之間相匹配的置信度;
當(dāng)置信度最高值大于或等于預(yù)設(shè)閾值時(shí),確定所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞。
可選地,所述觸發(fā)模塊還適于:
將所述置信度最高值對(duì)應(yīng)的命令詞確定為所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。
可選地,所述裝置還包括:
第二判斷模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),判斷所述語(yǔ)音數(shù)據(jù)是否為具有語(yǔ)義的詞或詞的組合;
第二上傳模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),將所述語(yǔ)音數(shù)據(jù)上傳至所述網(wǎng)絡(luò)側(cè)進(jìn)行識(shí)別,并從所述網(wǎng)絡(luò)側(cè)獲取識(shí)別出的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
顯示模塊,適于顯示用于選擇的多個(gè)選項(xiàng),所述多個(gè)選項(xiàng)包括所述命令詞對(duì)應(yīng)的選項(xiàng)以及所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng);
執(zhí)行模塊,適于當(dāng)接收到針對(duì)所述多個(gè)選項(xiàng)中任一選項(xiàng)的選擇操作時(shí),根據(jù)所述選擇操作執(zhí)行相應(yīng)操作。
可選地,所述執(zhí)行模塊還適于:
當(dāng)接收到用戶對(duì)所述命令詞對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
當(dāng)接收到用戶對(duì)所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),根據(jù)所述文字內(nèi)容執(zhí)行相應(yīng)的操作。
可選地,所述觸發(fā)模塊還適于:
根據(jù)所述命令詞類中各命令詞和所述客戶端的特定功能之間的對(duì)應(yīng)關(guān)系,確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞所對(duì)應(yīng)的特定功能;
觸發(fā)所述確定的特定功能。
可選地,所述裝置還包括:
第二接收模塊,適于當(dāng)所述操作指令包括在搜索引擎中的輸入指令時(shí),接收由所述網(wǎng)絡(luò)側(cè)返回的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
輸入模塊,適于將所述文字內(nèi)容輸入至所述搜索引擎中的輸入框內(nèi)并進(jìn)行搜索。
采用本發(fā)明實(shí)施例提供的技術(shù)方案,能夠在接收到語(yǔ)音數(shù)據(jù)后判斷該語(yǔ)音數(shù)據(jù)是否屬于用戶觸發(fā)客戶端的特定功能的命令詞類,當(dāng)屬于命令詞類時(shí)從命令詞類中確定出與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)命令詞對(duì)應(yīng)的特定功能,當(dāng)不屬于命令詞類時(shí)將包含語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)操作指令執(zhí)行相應(yīng)操作,使得客戶端能夠在接收到語(yǔ)音數(shù)據(jù)后自動(dòng)判斷出語(yǔ)音數(shù)據(jù)是否屬于命令詞類,從而確定出用戶輸入語(yǔ)音數(shù)據(jù)的意圖是觸發(fā)客戶端的特定功能還是通過(guò)網(wǎng)絡(luò)側(cè)進(jìn)行其他操作,進(jìn)而根據(jù)用戶輸入語(yǔ)音數(shù)據(jù)的意圖選擇本地識(shí)別語(yǔ)音數(shù)據(jù)或者在線識(shí)別語(yǔ)音數(shù)據(jù),避免了用戶連續(xù)輸入不同類型的語(yǔ)音數(shù)據(jù)時(shí)需在不同語(yǔ)音識(shí)別方式(即不同的語(yǔ)音識(shí)別場(chǎng)景)之間來(lái)回切換的情況,極大地提升了用戶對(duì)客戶端語(yǔ)音識(shí)別功能的使用體驗(yàn)。此外,該技術(shù)方案在接收到語(yǔ)音數(shù)據(jù)時(shí)優(yōu)先判斷語(yǔ)音數(shù)據(jù)是否屬于命令詞類,這是由于通過(guò)網(wǎng)絡(luò)側(cè)在線識(shí)別語(yǔ)音數(shù)據(jù)時(shí)需要連網(wǎng),有可能出現(xiàn)因網(wǎng)絡(luò)不好或者網(wǎng)絡(luò)丟包等問(wèn)題導(dǎo)致無(wú)法在線識(shí)別語(yǔ)音數(shù)據(jù)的情況,使得語(yǔ)音數(shù)據(jù)的識(shí)別效率大大降低,因此,優(yōu)先判斷是否屬于命令詞類的方案能夠使客戶端優(yōu)先選用本地識(shí)別的方式,僅在語(yǔ)音數(shù)據(jù)不屬于命令詞類時(shí)再使用在線識(shí)別方式,在一定程度上提高了語(yǔ)音識(shí)別的效率。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
根據(jù)下文結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會(huì)更加明了本發(fā)明的上述以及其他目的、優(yōu)點(diǎn)和特征。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別方法的示意性流程圖;
圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別方法中客戶端的界面示意圖;
圖3是根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別方法中客戶端的界面示意圖;
圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別裝置的示意性框圖;
圖5是根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別裝置的示意性框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別方法的示意性流程圖。如圖1所示,該方法應(yīng)用于客戶端,其一般性地可包括以下步驟S101-S104:
步驟S101,接收語(yǔ)音數(shù)據(jù)。
步驟S102,判斷語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)客戶端的特定功能的命令詞類。當(dāng)語(yǔ)音數(shù)據(jù)屬于命令詞類時(shí),執(zhí)行步驟S103;當(dāng)語(yǔ)音數(shù)據(jù)不屬于命令詞類時(shí),執(zhí)行步驟S104。
其中,命令詞類包括由詞或詞的組合構(gòu)成的多個(gè)命令詞。例如,命令詞“開(kāi)啟”用于觸發(fā)客戶端啟動(dòng)進(jìn)程,命令詞“清理垃圾”用于觸發(fā)客戶端執(zhí)行清理垃圾功能。命令詞類中的多個(gè)命令詞可預(yù)先設(shè)定并存儲(chǔ)在客戶端中,且與各自用于觸發(fā)的特定功能對(duì)應(yīng)存儲(chǔ)。命令詞可以是任意詞或詞的組合,包括有意義的詞或詞的組合,例如“清理垃圾”,也包括無(wú)意義的詞或詞的組合,例如“清拉”。
步驟S103,在命令詞類中確定出與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)命令詞對(duì)應(yīng)的特定功能。
步驟S104,將包含語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)操作指令執(zhí)行相應(yīng)操作。
采用本發(fā)明實(shí)施例提供的技術(shù)方案,能夠在接收到語(yǔ)音數(shù)據(jù)后判斷該語(yǔ)音數(shù)據(jù)是否屬于用戶觸發(fā)客戶端的特定功能的命令詞類,當(dāng)屬于命令詞類時(shí)從命令詞類中確定出與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)命令詞對(duì)應(yīng)的特定功能,當(dāng)不屬于命令詞類時(shí)將包含語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)操作指令執(zhí)行相應(yīng)操作,使得客戶端能夠在接收到語(yǔ)音數(shù)據(jù)后自動(dòng)判斷出語(yǔ)音數(shù)據(jù)是否屬于命令詞類,從而確定出用戶輸入語(yǔ)音數(shù)據(jù)的意圖是觸發(fā)客戶端的特定功能還是通過(guò)網(wǎng)絡(luò)側(cè)進(jìn)行其他操作,進(jìn)而根據(jù)用戶輸入語(yǔ)音數(shù)據(jù)的意圖選擇本地識(shí)別語(yǔ)音數(shù)據(jù)或者在線識(shí)別語(yǔ)音數(shù)據(jù),避免了用戶連續(xù)輸入不同類型的語(yǔ)音數(shù)據(jù)時(shí)需在不同語(yǔ)音識(shí)別方式(即不同的語(yǔ)音識(shí)別場(chǎng)景)之間來(lái)回切換的情況,極大地提升了用戶對(duì)客戶端語(yǔ)音識(shí)別功能的使用體驗(yàn)。此外,該技術(shù)方案在接收到語(yǔ)音數(shù)據(jù)時(shí)優(yōu)先判斷語(yǔ)音數(shù)據(jù)是否屬于命令詞類,這是由于通過(guò)網(wǎng)絡(luò)側(cè)在線識(shí)別語(yǔ)音數(shù)據(jù)時(shí)需要連網(wǎng),有可能出現(xiàn)因網(wǎng)絡(luò)不好或者網(wǎng)絡(luò)丟包等問(wèn)題導(dǎo)致無(wú)法在線識(shí)別語(yǔ)音數(shù)據(jù)的情況,使得語(yǔ)音數(shù)據(jù)的識(shí)別效率大大降低,因此,優(yōu)先判斷是否屬于命令詞類的方案能夠使客戶端優(yōu)先選用本地識(shí)別的方式,僅在語(yǔ)音數(shù)據(jù)不屬于命令詞類時(shí)再使用在線識(shí)別方式,在一定程度上提高了語(yǔ)音識(shí)別的效率。
在接收到語(yǔ)音數(shù)據(jù)之后,可按照如下步驟判斷語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)客戶端的特定功能的命令詞類(即步驟S102):首先,獲取客戶端預(yù)設(shè)的命令詞類;其次,將語(yǔ)音數(shù)據(jù)與命令詞類進(jìn)行匹配,以判斷出命令詞類中是否包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞;然后,當(dāng)命令詞類中包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),確定語(yǔ)音數(shù)據(jù)屬于命令詞類。
上述實(shí)施例中,在將語(yǔ)音數(shù)據(jù)與命令詞類進(jìn)行匹配時(shí),需將語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字與命令詞類進(jìn)行匹配,具體實(shí)施步驟如下:首先,利用客戶端預(yù)存的語(yǔ)言模型確定語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字;其中,客戶端預(yù)存的語(yǔ)言模型中包括語(yǔ)音數(shù)據(jù)與語(yǔ)言文字的對(duì)應(yīng)關(guān)系,利用該對(duì)應(yīng)關(guān)系,可準(zhǔn)確確定出用戶輸入的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字。其次,計(jì)算語(yǔ)言文字與命令詞類中的各命令詞之間相匹配的置信度,當(dāng)置信度最高值大于或等于預(yù)設(shè)閾值時(shí),確定命令詞類中包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞。并且,置信度最高值對(duì)應(yīng)的命令詞即確定為語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。反之,當(dāng)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字與各命令詞之間相匹配的置信度均小于預(yù)設(shè)閾值,則確定命令詞類中不包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞,該語(yǔ)音數(shù)據(jù)不屬于命令詞類。其中,置信度即為可靠度,其允許語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字與命令詞匹配時(shí)存在一定范圍的誤差,通常情況下,該誤差值較小,不會(huì)對(duì)語(yǔ)音數(shù)據(jù)是否屬于命令詞類的判斷結(jié)果產(chǎn)生影響。因此,預(yù)設(shè)閾值可設(shè)置為一個(gè)較高的值,例如將預(yù)設(shè)閾值設(shè)為95%,即允許有5%的匹配誤差。例如,命令詞類中包括三個(gè)命令詞,語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字與各命令詞之間相匹配的置信度分比為50%、20%、99%,由于置信度最高值(即99%)大于預(yù)設(shè)閾值95%,因此,可確定命令詞類中包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞。此外,將語(yǔ)言文字與命令詞進(jìn)行匹配的方法為現(xiàn)有技術(shù),在此不再贅述。
以下通過(guò)一具體實(shí)施例說(shuō)明如何判斷語(yǔ)音數(shù)據(jù)是否屬于命令詞類。在該具體實(shí)施例中,客戶端預(yù)設(shè)的命令詞類包括“清理垃圾”、“退出”、“體檢”等命令詞,且命令詞“清理垃圾”與客戶端的特定功能“清理系統(tǒng)垃圾”相對(duì)應(yīng),命令詞“退出”與客戶端的特定功能“退出進(jìn)程”相對(duì)應(yīng),命令詞“體檢”與客戶端的特定功能“立即體檢”相對(duì)應(yīng)。將語(yǔ)音數(shù)據(jù)與命令詞類進(jìn)行匹配時(shí),首先利用客戶端預(yù)存的語(yǔ)言模型確定出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字,假設(shè)確定出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字為“體檢”;然后計(jì)算語(yǔ)言文字與命令詞類中的各命令詞之間相匹配的置信度,當(dāng)語(yǔ)言文字為“體檢”時(shí),與各命令詞之間相匹配的置信度分別為:與命令詞“清理垃圾”之間相匹配的置信度為0%,與命令詞“退出”之間相匹配的置信度為0%,與命令詞“體檢”之間相匹配的置信度為100%;由各置信度可看出,語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字與命令詞“體檢”之間完全匹配,其匹配的置信度必然大于預(yù)設(shè)閾值。因此,可確定語(yǔ)音數(shù)據(jù)屬于命令詞類,并且,命令詞“體檢”即被確定為語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。
當(dāng)確定出語(yǔ)音數(shù)據(jù)屬于命令詞類、且在命令詞類中確定出與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞之后,觸發(fā)命令詞對(duì)應(yīng)的特定功能。在一個(gè)實(shí)施例中,可按照如下步驟觸發(fā)命令詞對(duì)應(yīng)的特定功能:首先,根據(jù)命令詞類中各命令詞和客戶端的特定功能之間的對(duì)應(yīng)關(guān)系,確定語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞所對(duì)應(yīng)的特定功能;其次,觸發(fā)確定的特定功能。例如,命令詞“清理垃圾”與客戶端的特定功能“清理系統(tǒng)垃圾”相對(duì)應(yīng),命令詞“退出”與客戶端的特定功能“退出進(jìn)程”相對(duì)應(yīng),命令詞“體檢”與客戶端的特定功能“立即體檢”相對(duì)應(yīng),等等。當(dāng)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞為“退出”時(shí),根據(jù)各命令詞和客戶端的特定功能之間的對(duì)應(yīng)關(guān)系可確定出命令詞“退出”對(duì)應(yīng)的特定功能為“退出進(jìn)程”,因此,客戶端根據(jù)命令詞“退出”執(zhí)行退出進(jìn)程的操作。
當(dāng)命令詞類中不包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),可確定語(yǔ)音數(shù)據(jù)不屬于命令詞類,此時(shí)采取在線識(shí)別方式來(lái)識(shí)別語(yǔ)音數(shù)據(jù)。即,將包含語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)操作指令執(zhí)行相應(yīng)操作。其中,操作指令可包括輸入指令、查詢指令、人機(jī)對(duì)話指令等等。輸入指令即為在客戶端當(dāng)前顯示的界面或輸入框內(nèi)輸入語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容的指令,查詢指令即為通過(guò)網(wǎng)絡(luò)側(cè)查詢語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的相關(guān)問(wèn)題的指令。以下分別針對(duì)各操作指令說(shuō)明網(wǎng)絡(luò)側(cè)如何執(zhí)行相應(yīng)操作。
當(dāng)操作指令包括輸入指令時(shí),例如,操作指令為在搜索引擎中的輸入指令,此時(shí),網(wǎng)絡(luò)側(cè)根據(jù)該輸入指令,將識(shí)別出的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容返回至客戶端,客戶端接收由網(wǎng)絡(luò)側(cè)返回的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并將該文字內(nèi)容輸入至搜索引擎中的輸入框內(nèi)并進(jìn)行搜索。例如,網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容為“北京旅游”,并根據(jù)輸入指令將文字內(nèi)容“北京旅游”返回至客戶端,客戶端接收到該文字內(nèi)容時(shí),就會(huì)在搜索引擎的輸入框內(nèi)輸入文字內(nèi)容“北京旅游”,并以“北京旅游”為關(guān)鍵詞進(jìn)行搜索,將搜索到的有關(guān)北京旅游的相關(guān)信息顯示在搜索結(jié)果頁(yè)面上。此外,輸入指令還可以是在客戶端中的書(shū)寫(xiě)板上進(jìn)行書(shū)寫(xiě)的指令,此時(shí),網(wǎng)絡(luò)側(cè)將識(shí)別出的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容返回至客戶端,客戶端接收到該文字內(nèi)容后,將該文字內(nèi)容輸入至?xí)鴮?xiě)板上。
當(dāng)操作指令包括查詢指令(即通過(guò)網(wǎng)絡(luò)側(cè)查詢語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的相關(guān)問(wèn)題的指令)時(shí),網(wǎng)絡(luò)側(cè)根據(jù)識(shí)別出的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,在網(wǎng)絡(luò)側(cè)的數(shù)據(jù)庫(kù)中查詢文字內(nèi)容對(duì)應(yīng)的相關(guān)問(wèn)題,并將相關(guān)問(wèn)題的答案返回至客戶端。例如,網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容為“北京天氣怎么樣”,則網(wǎng)絡(luò)側(cè)在數(shù)據(jù)庫(kù)中查詢到有關(guān)北京天氣的相關(guān)信息,然后將有關(guān)北京天氣的相關(guān)信息返回至客戶端,由客戶端在本地輸出接收到的相關(guān)信息。其中,信息輸出方式包括多種,例如將有關(guān)北京天氣的相關(guān)信息采用文字輸出方式輸出在當(dāng)前界面的預(yù)設(shè)位置,或者將有關(guān)北京天氣的相關(guān)信息采用語(yǔ)音輸出方式進(jìn)行播報(bào),等等。
當(dāng)操作指令包括人機(jī)對(duì)話指令時(shí),網(wǎng)絡(luò)側(cè)根據(jù)識(shí)別出的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并對(duì)文字內(nèi)容進(jìn)行語(yǔ)義識(shí)別,然后根據(jù)識(shí)別到的語(yǔ)義將文字內(nèi)容的對(duì)話內(nèi)容返回至客戶端,由客戶端輸出對(duì)話內(nèi)容,對(duì)話內(nèi)容的輸出方式通常采用語(yǔ)音輸出方式進(jìn)行播報(bào),也可采用語(yǔ)音輸出方式和文字輸出方式結(jié)合的方式。
以上列舉了三種不同操作方式下網(wǎng)絡(luò)側(cè)所執(zhí)行的相應(yīng)操作,需要說(shuō)明的是,操作指令并不僅限于上述三種,操作指令可以是客戶端所具有的任一語(yǔ)音輸入功能能夠執(zhí)行的操作指令。
在一個(gè)實(shí)施例中,當(dāng)確定出語(yǔ)音數(shù)據(jù)屬于命令詞類時(shí),還可執(zhí)行以下步驟:首先判斷語(yǔ)音數(shù)據(jù)是否為具有語(yǔ)義的詞或詞的組合;其中,判斷語(yǔ)音數(shù)據(jù)是否為具有與語(yǔ)義的詞或詞的組合時(shí),可利用本地預(yù)存的語(yǔ)言模型確定語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字,并判斷語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字是否為具有語(yǔ)義(即具有邏輯性)的詞或詞的組合,當(dāng)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字為具有語(yǔ)義的詞或詞的組合時(shí),確定語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合。其次,當(dāng)語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),將語(yǔ)音數(shù)據(jù)上傳至網(wǎng)絡(luò)側(cè)進(jìn)行識(shí)別,并從網(wǎng)絡(luò)側(cè)獲取識(shí)別出的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容。然后,顯示用于選擇的多個(gè)選項(xiàng),多個(gè)選項(xiàng)包括命令詞對(duì)應(yīng)的選項(xiàng)以及文字內(nèi)容對(duì)應(yīng)的選項(xiàng)。最后,當(dāng)接收到針對(duì)多個(gè)選項(xiàng)中任一選項(xiàng)的選擇操作時(shí),根據(jù)選擇操作執(zhí)行相應(yīng)操作。
具體地,當(dāng)接收到用戶對(duì)命令詞對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),觸發(fā)命令詞對(duì)應(yīng)的特定功能;當(dāng)接收到用戶對(duì)文字內(nèi)容對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),根據(jù)文字內(nèi)容執(zhí)行相應(yīng)的操作。
舉例而言,假設(shè)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容為“清理垃圾”。圖2示出了客戶端顯示多個(gè)選項(xiàng)的界面示意圖,在圖2中,客戶端界面20上顯示有以下三個(gè)選項(xiàng):本地識(shí)別命令詞“清理垃圾”、在線識(shí)別文字內(nèi)容“清理垃圾”以及取消選項(xiàng)。當(dāng)用戶選擇本地識(shí)別命令詞“清理垃圾”選項(xiàng)時(shí),客戶端根據(jù)用戶的選擇操作觸發(fā)命令詞“清理垃圾”對(duì)應(yīng)的特定功能;當(dāng)用戶選擇在線識(shí)別文字內(nèi)容“清理垃圾”選項(xiàng)時(shí),客戶端根據(jù)用戶的選擇操作執(zhí)行與文字內(nèi)容相應(yīng)的操作,例如在搜索引擎的輸入框內(nèi)輸入文字“清理垃圾”并搜索;當(dāng)用戶選擇取消選項(xiàng)時(shí),客戶端根據(jù)用戶的選擇操作取消當(dāng)前語(yǔ)音識(shí)別的操作。
此外,命令詞對(duì)應(yīng)的選項(xiàng)以及文字內(nèi)容對(duì)應(yīng)的選項(xiàng)還可以按照其各自對(duì)應(yīng)的執(zhí)行操作來(lái)顯示。仍以圖2所示的實(shí)施例為例,圖3示出了按照不同識(shí)別方式所執(zhí)行的不同操作來(lái)顯示選項(xiàng)的界面示意圖,在圖3中,客戶端的界面30上顯示有以下三個(gè)選項(xiàng):清理系統(tǒng)垃圾、在輸入框內(nèi)輸入“清理垃圾”以及取消選項(xiàng),其中,清理系統(tǒng)垃圾選項(xiàng)即為本地識(shí)別命令詞對(duì)應(yīng)的選項(xiàng),在輸入框內(nèi)輸入“清理垃圾”選項(xiàng)即為在線識(shí)別文字內(nèi)容對(duì)應(yīng)的選項(xiàng)。當(dāng)用戶選擇清理系統(tǒng)垃圾時(shí),客戶端根據(jù)用戶的選擇操作清理系統(tǒng)垃圾;當(dāng)用戶選擇在輸入框內(nèi)輸入“清理垃圾”選項(xiàng)時(shí),客戶端根據(jù)用戶的選擇操作在輸入框內(nèi)輸入文字“清理垃圾”并搜索;當(dāng)用戶選擇取消選項(xiàng)時(shí),客戶端根據(jù)用戶的選擇操作取消當(dāng)前語(yǔ)音識(shí)別的操作。
該實(shí)施例中,能夠在語(yǔ)音數(shù)據(jù)屬于命令詞、且該語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),同時(shí)執(zhí)行本地識(shí)別及在線識(shí)別兩種方式,并將兩種識(shí)別方式的識(shí)別結(jié)果顯示給用戶,由用戶選擇執(zhí)行哪種操作,從而使客戶端所執(zhí)行的操作能夠符合用戶當(dāng)前輸入語(yǔ)音數(shù)據(jù)的需求,避免執(zhí)行錯(cuò)誤操作時(shí)給用戶帶來(lái)的不便。
圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的一種語(yǔ)音識(shí)別裝置的示意性框圖。如圖4所示,該裝置應(yīng)用于客戶端,包括:
第一接收模塊410,適于接收語(yǔ)音數(shù)據(jù);
第一判斷模塊420,與第一接收模塊410相耦合,適于判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,所述命令詞類包括由詞或詞的組合構(gòu)成的多個(gè)命令詞;
觸發(fā)模塊430,與第一判斷模塊420相耦合,適于當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
第一上傳模塊440,與第一判斷模塊420相耦合,適于當(dāng)所述語(yǔ)音數(shù)據(jù)不屬于所述命令詞類時(shí),將包含所述語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由所述網(wǎng)絡(luò)側(cè)識(shí)別出所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)所述操作指令執(zhí)行相應(yīng)操作。
可選地,第一判斷模塊420還適于:
獲取客戶端預(yù)設(shè)的命令詞類;
將語(yǔ)音數(shù)據(jù)與命令詞類進(jìn)行匹配,以判斷出命令詞類中是否包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞;
當(dāng)命令詞類中包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),確定語(yǔ)音數(shù)據(jù)屬于命令詞類。
可選地,第一判斷模塊420還適于:
利用客戶端預(yù)存的語(yǔ)言模型確定語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字;
計(jì)算語(yǔ)言文字與命令詞類中的各命令詞之間相匹配的置信度;
當(dāng)置信度最高值大于或等于預(yù)設(shè)閾值時(shí),確定命令詞類中包含與語(yǔ)音數(shù)據(jù)相匹配的命令詞。
可選地,觸發(fā)模塊430還適于:
將置信度最高值對(duì)應(yīng)的命令詞確定為語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。
可選地,如圖5所示,上述裝置還包括:
第二判斷模塊450,與第一判斷模塊420相耦合,適于當(dāng)語(yǔ)音數(shù)據(jù)屬于命令詞類時(shí),判斷語(yǔ)音數(shù)據(jù)是否為具有語(yǔ)義的詞或詞的組合;
第二上傳模塊460,與第二判斷模塊450相耦合,適于當(dāng)語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),將語(yǔ)音數(shù)據(jù)上傳至網(wǎng)絡(luò)側(cè)進(jìn)行識(shí)別,并從網(wǎng)絡(luò)側(cè)獲取識(shí)別出的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
顯示模塊470,與第二上傳模塊460相耦合,適于顯示用于選擇的多個(gè)選項(xiàng),多個(gè)選項(xiàng)包括命令詞對(duì)應(yīng)的選項(xiàng)以及文字內(nèi)容對(duì)應(yīng)的選項(xiàng);
執(zhí)行模塊480,與顯示模塊470相耦合,適于當(dāng)接收到針對(duì)多個(gè)選項(xiàng)中任一選項(xiàng)的選擇操作時(shí),根據(jù)選擇操作執(zhí)行相應(yīng)操作。
可選地,執(zhí)行模塊480還適于:
當(dāng)接收到用戶對(duì)命令詞對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),觸發(fā)命令詞對(duì)應(yīng)的特定功能;
當(dāng)接收到用戶對(duì)文字內(nèi)容對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),根據(jù)文字內(nèi)容執(zhí)行相應(yīng)的操作。
可選地,觸發(fā)模塊430還適于:
根據(jù)命令詞類中各命令詞和客戶端的特定功能之間的對(duì)應(yīng)關(guān)系,確定語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞所對(duì)應(yīng)的特定功能;
觸發(fā)確定的特定功能。
可選地,上述裝置還包括:
第二接收模塊,與第一上傳模塊440相耦合,適于當(dāng)操作指令包括在搜索引擎中的輸入指令時(shí),接收由網(wǎng)絡(luò)側(cè)返回的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
輸入模塊,與第二接收模塊相耦合,適于將文字內(nèi)容輸入至搜索引擎中的輸入框內(nèi)并進(jìn)行搜索。
采用本發(fā)明實(shí)施例提供的裝置,能夠在接收到語(yǔ)音數(shù)據(jù)后判斷該語(yǔ)音數(shù)據(jù)是否屬于用戶觸發(fā)客戶端的特定功能的命令詞類,當(dāng)屬于命令詞類時(shí)從命令詞類中確定出與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)命令詞對(duì)應(yīng)的特定功能,當(dāng)不屬于命令詞類時(shí)將包含語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由網(wǎng)絡(luò)側(cè)識(shí)別出語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)操作指令執(zhí)行相應(yīng)操作,使得客戶端能夠在接收到語(yǔ)音數(shù)據(jù)后自動(dòng)判斷出語(yǔ)音數(shù)據(jù)是否屬于命令詞類,從而確定出用戶輸入語(yǔ)音數(shù)據(jù)的意圖是觸發(fā)客戶端的特定功能還是通過(guò)網(wǎng)絡(luò)側(cè)進(jìn)行其他操作,進(jìn)而根據(jù)用戶輸入語(yǔ)音數(shù)據(jù)的意圖選擇本地識(shí)別語(yǔ)音數(shù)據(jù)或者在線識(shí)別語(yǔ)音數(shù)據(jù),避免了用戶連續(xù)輸入不同類型的語(yǔ)音數(shù)據(jù)時(shí)需在不同語(yǔ)音識(shí)別方式(即不同的語(yǔ)音識(shí)別場(chǎng)景)之間來(lái)回切換的情況,極大地提升了用戶對(duì)客戶端語(yǔ)音識(shí)別功能的使用體驗(yàn)。此外,該技術(shù)方案在接收到語(yǔ)音數(shù)據(jù)時(shí)優(yōu)先判斷語(yǔ)音數(shù)據(jù)是否屬于命令詞類,這是由于通過(guò)網(wǎng)絡(luò)側(cè)在線識(shí)別語(yǔ)音數(shù)據(jù)時(shí)需要連網(wǎng),有可能出現(xiàn)因網(wǎng)絡(luò)不好或者網(wǎng)絡(luò)丟包等問(wèn)題導(dǎo)致無(wú)法在線識(shí)別語(yǔ)音數(shù)據(jù)的情況,使得語(yǔ)音數(shù)據(jù)的識(shí)別效率大大降低,因此,優(yōu)先判斷是否屬于命令詞類的方案能夠使客戶端優(yōu)先選用本地識(shí)別的方式,僅在語(yǔ)音數(shù)據(jù)不屬于命令詞類時(shí)再使用在線識(shí)別方式,在一定程度上提高了語(yǔ)音識(shí)別的效率。
本領(lǐng)域的技術(shù)人員應(yīng)可理解,圖4和圖5中的語(yǔ)音識(shí)別裝置能夠用來(lái)實(shí)現(xiàn)前文所述的語(yǔ)音識(shí)別方案,其中的細(xì)節(jié)描述應(yīng)與前文方法部分描述類似,為避免繁瑣,此處不另贅述。
在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的語(yǔ)音識(shí)別裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
至此,本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識(shí)到,雖然本文已詳盡示出和描述了本發(fā)明的多個(gè)示例性實(shí)施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開(kāi)的內(nèi)容直接確定或推導(dǎo)出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應(yīng)被理解和認(rèn)定為覆蓋了所有這些其他變型或修改。
本發(fā)明實(shí)施例公開(kāi)了A1.一種語(yǔ)音識(shí)別方法,應(yīng)用于客戶端,所述方法包括:
接收語(yǔ)音數(shù)據(jù);
判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,所述命令詞類包括由詞或詞的組合構(gòu)成的多個(gè)命令詞;
當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
當(dāng)所述語(yǔ)音數(shù)據(jù)不屬于所述命令詞類時(shí),將包含所述語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由所述網(wǎng)絡(luò)側(cè)識(shí)別出所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)所述操作指令執(zhí)行相應(yīng)操作。
A2.根據(jù)A1所述的方法,其中,判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,包括:
獲取所述客戶端預(yù)設(shè)的命令詞類;
將所述語(yǔ)音數(shù)據(jù)與所述命令詞類進(jìn)行匹配,以判斷出所述命令詞類中是否包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞;
當(dāng)所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),確定所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類。
A3.根據(jù)A2所述的方法,其中,將所述語(yǔ)音數(shù)據(jù)與所述命令詞類進(jìn)行匹配,以判斷出所述命令詞類中是否包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞,包括:
利用所述客戶端預(yù)存的語(yǔ)言模型確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字;
計(jì)算所述語(yǔ)言文字與所述命令詞類中的各命令詞之間相匹配的置信度;
當(dāng)置信度最高值大于或等于預(yù)設(shè)閾值時(shí),確定所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞。
A4.根據(jù)A3所述的方法,其中,在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,包括:
將所述置信度最高值對(duì)應(yīng)的命令詞確定為所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。
A5.根據(jù)A1-A4中任一項(xiàng)所述的方法,其中,當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),所述方法還包括:
判斷所述語(yǔ)音數(shù)據(jù)是否為具有語(yǔ)義的詞或詞的組合;
當(dāng)所述語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),將所述語(yǔ)音數(shù)據(jù)上傳至所述網(wǎng)絡(luò)側(cè)進(jìn)行識(shí)別,并從所述網(wǎng)絡(luò)側(cè)獲取識(shí)別出的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
顯示用于選擇的多個(gè)選項(xiàng),所述多個(gè)選項(xiàng)包括所述命令詞對(duì)應(yīng)的選項(xiàng)以及所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng);
當(dāng)接收到針對(duì)所述多個(gè)選項(xiàng)中任一選項(xiàng)的選擇操作時(shí),根據(jù)所述選擇操作執(zhí)行相應(yīng)操作。
A6.根據(jù)A5所述的方法,其中,根據(jù)所述選擇操作執(zhí)行相應(yīng)操作,包括:
當(dāng)接收到用戶對(duì)所述命令詞對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
當(dāng)接收到用戶對(duì)所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),根據(jù)所述文字內(nèi)容執(zhí)行相應(yīng)的操作。
A7.根據(jù)A1-A6中任一項(xiàng)所述的方法,其中,觸發(fā)所述命令詞對(duì)應(yīng)的特定功能,包括:
根據(jù)所述命令詞類中各命令詞和所述客戶端的特定功能之間的對(duì)應(yīng)關(guān)系,確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞所對(duì)應(yīng)的特定功能;
觸發(fā)所述確定的特定功能。
A8.根據(jù)A1-A6中任一項(xiàng)所述的方法,其中,當(dāng)所述操作指令包括在搜索引擎中的輸入指令時(shí),所述方法還包括:
接收由所述網(wǎng)絡(luò)側(cè)返回的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
將所述文字內(nèi)容輸入至所述搜索引擎中的輸入框內(nèi)并進(jìn)行搜索。
本發(fā)明實(shí)施例還公開(kāi)了B9.一種語(yǔ)音識(shí)別裝置,應(yīng)用于客戶端,所述裝置包括:
第一接收模塊,適于接收語(yǔ)音數(shù)據(jù);
第一判斷模塊,適于判斷所述語(yǔ)音數(shù)據(jù)是否屬于用于觸發(fā)所述客戶端的特定功能的命令詞類,所述命令詞類包括由詞或詞的組合構(gòu)成的多個(gè)命令詞;
觸發(fā)模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),在所述命令詞類中確定出與所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞,并觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
第一上傳模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)不屬于所述命令詞類時(shí),將包含所述語(yǔ)音數(shù)據(jù)的操作指令上傳至網(wǎng)絡(luò)側(cè),由所述網(wǎng)絡(luò)側(cè)識(shí)別出所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,并根據(jù)所述操作指令執(zhí)行相應(yīng)操作。
B10.根據(jù)B9所述的裝置,其中,所述第一判斷模塊還適于:
獲取所述客戶端預(yù)設(shè)的命令詞類;
將所述語(yǔ)音數(shù)據(jù)與所述命令詞類進(jìn)行匹配,以判斷出所述命令詞類中是否包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞;
當(dāng)所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞時(shí),確定所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類。
B11.根據(jù)B10所述的裝置,其中,所述第一判斷模塊還適于:
利用所述客戶端預(yù)存的語(yǔ)言模型確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)言文字;
計(jì)算所述語(yǔ)言文字與所述命令詞類中的各命令詞之間相匹配的置信度;
當(dāng)置信度最高值大于或等于預(yù)設(shè)閾值時(shí),確定所述命令詞類中包含與所述語(yǔ)音數(shù)據(jù)相匹配的命令詞。
B12.根據(jù)B11所述的裝置,其中,所述觸發(fā)模塊還適于:
將所述置信度最高值對(duì)應(yīng)的命令詞確定為所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞。
B13.根據(jù)B9-B12中任一項(xiàng)所述的裝置,其中,所述裝置還包括:
第二判斷模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)屬于所述命令詞類時(shí),判斷所述語(yǔ)音數(shù)據(jù)是否為具有語(yǔ)義的詞或詞的組合;
第二上傳模塊,適于當(dāng)所述語(yǔ)音數(shù)據(jù)為具有語(yǔ)義的詞或詞的組合時(shí),將所述語(yǔ)音數(shù)據(jù)上傳至所述網(wǎng)絡(luò)側(cè)進(jìn)行識(shí)別,并從所述網(wǎng)絡(luò)側(cè)獲取識(shí)別出的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
顯示模塊,適于顯示用于選擇的多個(gè)選項(xiàng),所述多個(gè)選項(xiàng)包括所述命令詞對(duì)應(yīng)的選項(xiàng)以及所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng);
執(zhí)行模塊,適于當(dāng)接收到針對(duì)所述多個(gè)選項(xiàng)中任一選項(xiàng)的選擇操作時(shí),根據(jù)所述選擇操作執(zhí)行相應(yīng)操作。
B14.根據(jù)B13所述的裝置,其中,所述執(zhí)行模塊還適于:
當(dāng)接收到用戶對(duì)所述命令詞對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),觸發(fā)所述命令詞對(duì)應(yīng)的特定功能;
當(dāng)接收到用戶對(duì)所述文字內(nèi)容對(duì)應(yīng)的選項(xiàng)的選擇操作時(shí),根據(jù)所述文字內(nèi)容執(zhí)行相應(yīng)的操作。
B15.根據(jù)B9-B14中任一項(xiàng)所述的裝置,其中,所述觸發(fā)模塊還適于:
根據(jù)所述命令詞類中各命令詞和所述客戶端的特定功能之間的對(duì)應(yīng)關(guān)系,確定所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的命令詞所對(duì)應(yīng)的特定功能;
觸發(fā)所述確定的特定功能。
B16.根據(jù)B9-B15中任一項(xiàng)所述的裝置,其中,所述裝置還包括:
第二接收模塊,適于當(dāng)所述操作指令包括在搜索引擎中的輸入指令時(shí),接收由所述網(wǎng)絡(luò)側(cè)返回的所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;
輸入模塊,適于將所述文字內(nèi)容輸入至所述搜索引擎中的輸入框內(nèi)并進(jìn)行搜索。