欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種解析語音內(nèi)容的方法及裝置的制造方法

文檔序號(hào):10552881閱讀:567來源:國知局
一種解析語音內(nèi)容的方法及裝置的制造方法
【專利摘要】本發(fā)明提供一種解析語音內(nèi)容的方法及裝置。該方法包括:將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,根據(jù)第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得語料中的詞組;統(tǒng)計(jì)語料中每個(gè)的詞組在語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整概率或頻數(shù),使得特定領(lǐng)域中的詞組在語料中的詞組中出現(xiàn)的概率或頻數(shù)增加;將語料中的詞組和調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得語音內(nèi)容中的詞組;根據(jù)語法文件對語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。應(yīng)用本發(fā)明使得特定領(lǐng)域中的詞組在機(jī)器所有詞組中出現(xiàn)的概率增大,從而提高機(jī)器解析語音內(nèi)容語義的準(zhǔn)確率。
【專利說明】
一種解析語音內(nèi)容的方法及裝置
技術(shù)領(lǐng)域
[0001]本申請涉及信息處理領(lǐng)域,尤其涉及一種解析語音內(nèi)容的方法及裝置。
【背景技術(shù)】
[0002]自然語言處理技術(shù)可以幫助人與機(jī)器之間更好的交流,例如,計(jì)算機(jī)中的語音識(shí)別模塊在識(shí)別用戶發(fā)出的語音內(nèi)容后,并對該語音內(nèi)容進(jìn)行解析,獲得該語音內(nèi)容對應(yīng)的語義,最后計(jì)算機(jī)根據(jù)解析出的語義執(zhí)行相關(guān)操作。
[0003]目前,機(jī)器解析用戶發(fā)送的語音內(nèi)容的一般方法是:第一步:建立語言模型,通常在建立語言模型前,需要人為地對常用的一些語料進(jìn)行標(biāo)記,例如,用戶針對“我想看劉德華的演唱會(huì)”這句語料進(jìn)行標(biāo)記,其中,“我”可以標(biāo)記成人稱代詞,“劉德華”標(biāo)記成明星名字等,然后根據(jù)標(biāo)記的內(nèi)容對語料中的詞組進(jìn)行分類,例如人稱代詞為一類,明星名字為一類等,完成詞組的分類,即完成語言模型的建立;第二步:根據(jù)建立的語言模型中的詞組對用戶輸入的語音內(nèi)容進(jìn)行切詞,通常采用CRF(Condit1nal Random Field)切詞方法,例如,用戶向計(jì)算機(jī)輸入的語音內(nèi)容為“什么時(shí)候有劉德華的演唱會(huì)”,這時(shí)計(jì)算機(jī)根據(jù)語音模型中的詞組對這句語料進(jìn)行切詞,例如,假如在語言模型中明星名字類別里有“劉德華”一詞,在動(dòng)詞類別里有“演唱” 一詞,在名詞類別里有“時(shí)候”和“演唱會(huì)”對應(yīng)的詞組等,根據(jù)這些詞組可以將該語料切成“什么/時(shí)候/有/劉德華/的/演唱會(huì)”,也可以切成“什么/時(shí)候/有/劉德華/的/演唱/會(huì)”,因?yàn)檎Z言模型中有“演唱”和“演唱會(huì)”這兩個(gè)詞組,在這種情況下,就要比較這兩詞在語料中出現(xiàn)的概率,例如,“演唱”比“演唱會(huì)”在語料中出現(xiàn)的概率大,那么就優(yōu)先的將上述語料切成“什么/時(shí)候/有/劉德華/的/演唱/會(huì)”;第三步:將切好的詞組與機(jī)器中的語法文件進(jìn)行匹配,從而解析出用戶發(fā)送語音內(nèi)容的語義,其中BNF(Backus-Naur Form)是用戶經(jīng)常使用的語法。
[0004]隨著信息的不斷發(fā)展和更新,某些特定領(lǐng)域中的詞組的數(shù)量也逐漸增大,但是機(jī)器包含這些特定領(lǐng)域詞組的語料卻有限,因此在建立的語言模型時(shí),可能會(huì)導(dǎo)致某些特定領(lǐng)域的詞組在語言模型所有詞組中出現(xiàn)的概率相對較小。當(dāng)機(jī)器根據(jù)語言模型對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞時(shí),可能會(huì)由于某些特定領(lǐng)域的詞組出現(xiàn)的概率小的問題,將用戶發(fā)送的語音內(nèi)容進(jìn)行錯(cuò)誤的切詞,從而造成機(jī)器錯(cuò)誤的解析用戶輸入的語音內(nèi)容,例如,在上述例子中,如果“演唱”比“演唱會(huì)”在語料中出現(xiàn)的概率大,那么就優(yōu)先的將上述語料切成“什么/時(shí)候/有/劉德華/的/演唱/會(huì)”,顯然,這不符合用戶發(fā)送的語音內(nèi)容的語義。

【發(fā)明內(nèi)容】

[0005]鑒于上述問題,本發(fā)明實(shí)施例提供了一種解析語音內(nèi)容的方法及裝置,用來解決在建立語言模型時(shí)由于特定領(lǐng)域的語料少而導(dǎo)致機(jī)器錯(cuò)誤解析用戶輸入的語音內(nèi)容的問題。
[0006]本發(fā)明實(shí)施例提供了一種解析語音內(nèi)容的方法,該方法包括:將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中的詞組;統(tǒng)計(jì)所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整所述概率或頻數(shù),使得特定領(lǐng)域中的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù)增加;將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得所述語音內(nèi)容中的詞組;根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。
[0007]優(yōu)選地,所述將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典具體包括:
[0008]根據(jù)特定領(lǐng)域的詞組對所述機(jī)器存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中特定領(lǐng)域的詞組;
[0009]統(tǒng)計(jì)所述語料中的每個(gè)特定領(lǐng)域的詞組在所述語料中特定領(lǐng)域的詞組中出現(xiàn)的概率或頻數(shù);
[0010]根據(jù)所述概率或頻數(shù)的排名,從所述語料中特定領(lǐng)域的詞組中選出預(yù)設(shè)數(shù)量的詞組,并將選出的詞組與非特定領(lǐng)域中的詞組組合生成第一切詞詞典。
[0011]優(yōu)選地,所述根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞具體包括:
[0012]根據(jù)所述第二切詞詞典,使用后向最大切詞和前向最小切詞的方式分別對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,如果所述兩種切詞方式得到的詞組不同,則在所述第二切詞詞典中查找所述不同詞組對應(yīng)的的概率或頻數(shù),選取概率或頻數(shù)較大的詞組作為最終切詞詞組。
[0013]優(yōu)選地,所述第二切詞詞典包括:
[0014]地址區(qū)域和詞組區(qū)域;其中,
[0015]所述地址區(qū)域,引導(dǎo)機(jī)器查找所述用戶發(fā)送的切詞后的語音內(nèi)容中的詞組在所述第二切詞詞典中的位置;
[0016]所述詞組區(qū)域,存儲(chǔ)所述地址區(qū)域中對應(yīng)的詞組。
[0017]優(yōu)選地,所述根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析具體包括:
[0018]將所述語音內(nèi)容中的詞組與所述語法文件中的詞組進(jìn)行匹配,如果所述語音內(nèi)容中的詞組與語法文件中的詞組完全匹配,則解析成功;如果全匹配失敗,則進(jìn)行關(guān)鍵詞匹配。
[0019]優(yōu)選地,所述關(guān)鍵詞匹配具體包括:
[0020]將所述語音內(nèi)容中的詞組與所述語法文件中的關(guān)鍵詞進(jìn)行匹配,如果匹配成功,則解析成功;如果匹配不成功,則解析失敗。
[0021]優(yōu)選地,所述特定領(lǐng)域的詞組包括以下至少一種:
[0022]漢字;英文字母;數(shù)字。
[0023]—種解析語音內(nèi)容的裝置,該裝置包括:組合單元、統(tǒng)計(jì)單元、切詞單元和解析單元;其中,
[0024]所述組合單元,用于將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中的詞組;
[0025]所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整所述概率或頻數(shù),使得特定領(lǐng)域中的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù)增加;
[0026]所述切詞單元,用于將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得所述語音內(nèi)容中的詞組;
[0027]所述解析單元,用于根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。
[0028]優(yōu)選地,所述組合單元包括:切詞子單元、統(tǒng)計(jì)子單元和組合子單元;其中,
[0029]所述切詞子單元,用于根據(jù)特定領(lǐng)域的詞組對所述機(jī)器存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中特定領(lǐng)域的詞組;
[0030]所述統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)所述語料中的每個(gè)特定領(lǐng)域的詞組在所述語料中特定領(lǐng)域的詞組中出現(xiàn)的概率或頻數(shù);
[0031]所述組合子單元,用于根據(jù)所述概率或頻數(shù)的排名,從所述語料中特定領(lǐng)域的詞組中選出預(yù)設(shè)數(shù)量的詞組,并將選出的詞組與非特定領(lǐng)域中的詞組組合生成第一切詞詞典。
[0032]優(yōu)選地,所述切詞單元包括:
[0033]組合子單元、切詞子單元和查找子單元;其中,
[0034]組合子單元,用于將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典;
[0035]所述切詞子單元,用于根據(jù)所述第二切詞詞典,使用后向最大切詞和前向最小切詞的方式分別對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞;
[0036]所述查找子單元,用于當(dāng)所述兩種切詞方式得到的詞組不同時(shí),在所述第二切詞詞典中查找所述不同詞組對應(yīng)的的概率或頻數(shù),選取概率或頻數(shù)較大的詞組作為最終切詞詞組。
[0037]應(yīng)用本發(fā)明實(shí)施例在訓(xùn)練語言模型時(shí),通過調(diào)整機(jī)器中存儲(chǔ)語料中每個(gè)的詞組在所有詞組中出現(xiàn)的概率或頻數(shù),使得特定領(lǐng)域中的詞組在所有詞組中出現(xiàn)的概率或頻數(shù)增大,從而提高機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率。
【附圖說明】
[0038]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0039]圖1為本發(fā)明實(shí)施例1提供的一種解析語音內(nèi)容的方法的具體流程示意圖;
[0040]圖2為本發(fā)明實(shí)施例1提供的語言模型自適應(yīng)的具體流程示意圖;
[0041]圖3為本發(fā)明實(shí)施例1提供的第二切詞詞典中地址區(qū)域部分的示意圖;
[0042]圖4為本發(fā)明實(shí)施例1提供的第二切詞詞典中詞組區(qū)域部分的示意圖;
[0043]圖5為本發(fā)明實(shí)施例1提供的米用后向最大切詞和前向最小切詞的聯(lián)合方式對用戶語音內(nèi)容進(jìn)行切詞的具體流程示意圖;
[0044]圖6為本發(fā)明實(shí)施例1提供的采用語法樹編寫的語法的示意圖;
[0045]圖7為本發(fā)明實(shí)施例1提供的根據(jù)語法文件對用戶發(fā)送的語音內(nèi)容進(jìn)行匹配的具體流程示意圖;
[0046]圖8為本發(fā)明實(shí)施例1提供的完整的解析語音內(nèi)容的方法的具體流程示意圖;
[0047]圖9為本發(fā)明實(shí)施例2提供的一種解析語音內(nèi)容的裝置的具體結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0048]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0049]鑒于【背景技術(shù)】中提到的目前機(jī)器在解析用戶發(fā)送的語音內(nèi)容時(shí)存在的問題,本發(fā)明實(shí)施例提供了一種解析語音內(nèi)容的方法及裝置,用來解決在建立語言模型時(shí)由于特定領(lǐng)域的語料少而導(dǎo)致機(jī)器錯(cuò)誤解析用戶輸入的語音內(nèi)容的問題。
[0050]實(shí)施例1
[0051]本發(fā)明實(shí)施例提供了一種解析語音內(nèi)容的方法,用來提高機(jī)器解析用戶語音內(nèi)容中語義的準(zhǔn)確率。圖1為本發(fā)明實(shí)施例提供的一種解析語音內(nèi)容的方法的具體流程示意圖。該方法如下所述:
[0052]步驟11:將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中的詞組。
[0053]在本步驟中,首先篩選特定領(lǐng)域的詞典,并將這些特定領(lǐng)域的詞典組合生成全詞典,例如,將計(jì)算機(jī)、機(jī)械、娛樂等領(lǐng)域中的詞組,組合成的特定領(lǐng)域詞典,并將特定領(lǐng)域詞典作為全詞典;然后根據(jù)全詞典中的詞組對機(jī)器中的存儲(chǔ)的語料進(jìn)行CRF切詞(如圖2的步驟21),獲得該語料中特定領(lǐng)域中的詞組;再統(tǒng)計(jì)該特定領(lǐng)域中的每個(gè)詞組在獲得的該語料中所有特定領(lǐng)域詞組中出現(xiàn)的概率或頻數(shù),并根據(jù)概率或頻數(shù)的排名,按照預(yù)設(shè)的數(shù)量選取詞組作為動(dòng)態(tài)詞典(如圖2的步驟22),例如,在切詞后的語料中選取概率排名前五萬的特定領(lǐng)域詞組,組合成為動(dòng)態(tài)詞典,其中,這五萬詞組中可以包含很多特定領(lǐng)域中用戶經(jīng)常用的詞組;最后將生成的動(dòng)態(tài)詞典與非特定領(lǐng)域中的詞組中的詞組進(jìn)行組合(如圖2的步驟23),生成離線切詞詞典,即第一切詞詞典,這里的非特定領(lǐng)域中的詞組是指用戶經(jīng)常用到的詞組,且不包括特定領(lǐng)域中的詞組,例如,非特定領(lǐng)域中的詞組可以包括人稱代詞,比如你、我、他等;非特定領(lǐng)域中的詞組也可以包括常用的動(dòng)詞,比如打、想、要、拿等。
[0054]在生成第一切詞詞典后,根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞(如圖2的步驟24),獲得所述語料中的所有詞組,并作為語言模型中的訓(xùn)練語料,這里的詞組中既包含特定領(lǐng)域中的詞組,又包含非特定領(lǐng)域中的詞組,其中,對語料進(jìn)行切詞的方式有很多種,這里示例性的對其中一種方式進(jìn)行說明,例如,機(jī)器中存儲(chǔ)的一句語料是:我想看劉德華的演唱會(huì),然后根據(jù)第一切詞詞典對這一句語料進(jìn)行CRF切詞,例如,第一切詞詞典中的詞組有:我、想、看、想看、劉德華、的、演唱會(huì),這時(shí)根據(jù)第一切詞詞典中的詞組可以將該語料切成:我/想/看/劉德華/的/演唱會(huì),或者切成:我/想看/劉德華/的/演唱會(huì),這時(shí)需要通過比較“想”和“想看”兩詞組在語料中出現(xiàn)的概率或頻數(shù),如果后者的概率或頻數(shù)更大,則就將“我、想看、劉德華、的、演唱會(huì)”這些詞組作為語言模型的訓(xùn)練語料。
[0055]步驟12:統(tǒng)計(jì)所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整所述概率或頻數(shù),使得特定領(lǐng)域中的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù)增加。
[0056]在步驟11中獲得了語言模型中的訓(xùn)練語料,即獲得了機(jī)器中所有語料中的詞組,在本步驟中,需要對語言模型進(jìn)行訓(xùn)練(如圖2的步驟25),這里可以使用SRILM工具進(jìn)行語言模型的訓(xùn)練,具體可以包括但不限于:統(tǒng)計(jì)機(jī)器所有語料中每個(gè)詞組在所有詞組中出現(xiàn)的概率或頻數(shù),這里SRILM語言模型訓(xùn)練工具只是示例性的說明,還可以是其他訓(xùn)練方式,不作具體限定。
[0057]在對語言模型訓(xùn)練后,用戶需要檢驗(yàn)訓(xùn)練結(jié)果,例如,檢驗(yàn)每個(gè)詞組出現(xiàn)的概率,在檢查詞組對應(yīng)的概率時(shí),可能發(fā)現(xiàn)有些特定語料中的詞組雖然在語料中經(jīng)常出現(xiàn),但是相對非特定領(lǐng)域中的某些相近詞組出現(xiàn)的概率較小,這樣在對相關(guān)語料進(jìn)行切詞時(shí),這些特定語料中的詞組可能被其他某些相近詞組煙沒,造成切詞錯(cuò)誤,使得機(jī)器無法正確解析用戶的語音內(nèi)容。例如,針對用戶在計(jì)算機(jī)輸入“打狗棒”這句語音內(nèi)容,假如“打”為非特定領(lǐng)域中的詞組,“打狗棒”是特定領(lǐng)域中的詞組,且“打”在所有語料中詞組出現(xiàn)的概率大于“打狗棒”的概率,這樣計(jì)算機(jī)就會(huì)把“打狗棒”切成“打/狗棒”,導(dǎo)致計(jì)算機(jī)沒有正確解析用戶的語義。
[0058]解決上述問題的方法有很多種,例如,可以采取重新分配每個(gè)特定領(lǐng)域的詞組在語料中出現(xiàn)的概率或頻數(shù),使機(jī)器更加準(zhǔn)確的對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞。這里具體針對一種重新分配概率的方式進(jìn)行說明:首先,分別統(tǒng)計(jì)非特定領(lǐng)域詞組和特定領(lǐng)域詞組在所有語料中詞組出現(xiàn)的概率和,分別表示為Psunil和P _2;然后將每個(gè)非特定領(lǐng)域詞組出現(xiàn)的概率除以Psunil獲得P i,同理,將每個(gè)特定領(lǐng)域詞組出現(xiàn)的概率除以Psuni2獲得P 2;最后將?:乘以權(quán)重系數(shù)k i,匕乘以權(quán)重系數(shù)k2,從而分別獲得非特定領(lǐng)域詞組和特定領(lǐng)域詞組中的每個(gè)詞組在所有語料中詞組出現(xiàn)的最終概率,其中,用戶可以根據(jù)個(gè)人需要自行設(shè)定kl和k2的值,但是kjP k2的和為1,且要使動(dòng)態(tài)詞典中每個(gè)詞組出現(xiàn)的最終概率大于非特定領(lǐng)域中每個(gè)詞組出現(xiàn)的最終概率,權(quán)重系數(shù)Ic1要小于P sunlo通過對非特定領(lǐng)域詞組和特定領(lǐng)域詞組出現(xiàn)的概率重新分配,使得特定領(lǐng)域詞組出現(xiàn)的概率增大,從而使得機(jī)器更加準(zhǔn)確的對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,提高解析用戶語音內(nèi)容的語義的準(zhǔn)確性。
[0059]步驟13:將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得所述語音內(nèi)容中的詞組。
[0060]在重新分配每個(gè)詞組出現(xiàn)的概率或頻數(shù)后,也就完成了語言模型的自適應(yīng)過程(如圖2的步驟26),這時(shí)機(jī)器可輸出自適應(yīng)后的語言模型(如圖2的步驟27)。該自適應(yīng)后的語言模型中既有訓(xùn)練后獲得的詞組,還有每個(gè)詞組對應(yīng)的重新分配后的概率和頻數(shù)。然后需要將自適應(yīng)后的語言模型轉(zhuǎn)換成第二切詞詞典,第二切詞詞典的結(jié)構(gòu)有很多種,這里第二切詞詞典的主要目的是幫助機(jī)器更快、更準(zhǔn)確對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞。
[0061 ] 這里示例性的對其中一種第二切詞詞典的結(jié)構(gòu)進(jìn)行說明,該第二切詞詞典的結(jié)構(gòu)包括兩部分,即地址區(qū)域和詞組區(qū)域。地址區(qū)域中地址信息幫助機(jī)器根據(jù)用戶切詞后的詞組找到該詞組在第二切詞詞典中對應(yīng)的位置;詞組區(qū)域中存儲(chǔ)的詞組是地址區(qū)域?qū)?yīng)的詞組。
[0062]具體地,在地址區(qū)域中可以包含10個(gè)阿拉伯?dāng)?shù)字(即O?9)、26個(gè)大寫字母或小寫字母(即A?Z或a?z)和常用漢字組成詞組對應(yīng)的地址信息。這里數(shù)字和字母都是全角格式,且每個(gè)數(shù)字或字母本身占用兩個(gè)字節(jié),每個(gè)數(shù)字、字母或者漢字對應(yīng)的地址信息均占用四個(gè)字節(jié),假設(shè)在第二切詞詞典中的常用漢字有6768個(gè),則數(shù)字、字母和漢字對應(yīng)的地址信息共占(10+26+6768)*4 = 27216,假如首地址為uniDict,那么詞組區(qū)域的首地址為uniDict+27216,如圖3所示為地址區(qū)域中地址信息的示意圖:詞組區(qū)域的首地址為uniDict+27216,該地址保存以數(shù)字“O”為首的詞組;字母區(qū)域“A”對應(yīng)的地址為uniDict+40,該地址保存以字母“A”為首的詞組的地址;常用漢字“啊”對應(yīng)的地址為uniDict+144,該地址保存以漢字“啊”為首的詞組的地址。
[0063]具體地,在詞組區(qū)域中,以全角數(shù)字“O”為例,如圖4所示為詞組區(qū)域中詞組的示意圖:“0”對應(yīng)的首地址為uniDict+27216,可以看到,以“O”為首字的詞組可以是“05毫米”,如果用戶想查找以“O”為首字的詞組時(shí),從首地址uniDict+27216向下查找即可,直到遇到guard標(biāo)記為止,這里的guard標(biāo)記是指第二切詞詞典中以“O”為首字的詞組已經(jīng)到達(dá)最后一個(gè)。通過利用詞組的首字將切詞詞典中的詞組區(qū)域進(jìn)行劃分,提高了機(jī)器在切詞詞典中查找詞組的效率。為了節(jié)約切詞詞典的空間,可以在詞組部分中不存儲(chǔ)首字,例如,圖4所示的“05毫米”在字典存儲(chǔ)的形式為“5毫米”。
[0064]在詞組區(qū)域除了存儲(chǔ)詞組以外,還可以有其他參數(shù),這里示例性的列舉幾個(gè):
[0065]wordlen:表示的是詞組的長度;
[0066]buf:表示去掉首字的詞組內(nèi)容,貝Ij sizeof (buf) = wordlen-2,表示去掉首字后詞組的長度;
[0067]frequency:表示在語言模型中重新分配后的詞組對應(yīng)的頻數(shù),則sizeof (frequency) = 2字節(jié),表示頻數(shù)所占的長度;
[0068]reclen:表示存儲(chǔ)一個(gè)詞組所占用的空間,sizeof (reclen) = I字節(jié),這里reclen=sizeof(reclen)+sizeof(frequency)+sizeof (buf)+sizeof (wordlen);
[0069]guard:表示每個(gè)分區(qū)的結(jié)束,sizeof (guard) = I字節(jié)。
[0070]上述第二切詞詞典中可以包含數(shù)字、字母和漢字,這樣可以提高機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率,例如,用戶輸入的語音內(nèi)容為“什么時(shí)候演西游記2啊”,如果切詞詞典中只有“西游記”,沒有數(shù)字“2”,可能將上述語音內(nèi)容切成“什么/時(shí)候/演/西游記/2/啊”,這樣可能導(dǎo)致機(jī)器解析錯(cuò)誤。
[0071]在本步驟中,根據(jù)第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞的方式有很種,例如,可以采用后向最大切詞的方式進(jìn)行切詞,也可以采用前向最小切詞的方式進(jìn)行切詞。這里列舉一種后向最大切詞和前向最小切詞聯(lián)合的切詞方式:例如,針對用戶發(fā)送的“少年包青天在衛(wèi)視播出的時(shí)間”這句語音內(nèi)容進(jìn)行切詞,如圖5所示,假如規(guī)定搜索的最大長度maxLen = 5,最小長度minLen = 2,在后向最大切詞中,先搜索“播出的時(shí)間”,在切詞詞典中沒有找到對應(yīng)的詞組,則減去一個(gè)字變?yōu)椤俺龅臅r(shí)間”進(jìn)行重新搜索,搜索后在切詞詞典還是沒有找到對應(yīng)的詞組,再對“的時(shí)間”進(jìn)行搜索,這樣通過減字的方式依次進(jìn)行搜索,最后到達(dá)最小長度時(shí),即“時(shí)間”,在切詞詞典中找到對應(yīng)的詞組;然后再用上述的方法對“時(shí)間”以前的詞組進(jìn)行搜索,最終完成對語音內(nèi)容的切詞。在前向最小切詞中,首先對語音內(nèi)容前面的詞組進(jìn)行搜索,例如,先對“少年” 一詞在切詞詞典中進(jìn)行搜索,發(fā)現(xiàn)有對應(yīng)的詞組,則再對“少年”后面的詞組進(jìn)行搜索,即對“包青”進(jìn)行搜索,發(fā)現(xiàn)在切詞詞典中沒有對應(yīng)的詞組,則多一字進(jìn)行重新搜索,即對“包青天”進(jìn)行搜索,采用同樣的方法最終完成語音內(nèi)容的切詞。
[0072]采用上述后向最大切詞和前向最小切詞聯(lián)合的切詞方式對用戶的語音內(nèi)容切詞后,如果獲得的切詞結(jié)果不同,即獲得的詞組不相同時(shí),通過比較不同詞組在切詞字典中的概率或頻數(shù),決定最終的切詞結(jié)果。如圖5所示,假如針對“少年包青天在衛(wèi)視播出的時(shí)間”這句語音內(nèi)容分別進(jìn)行后向最大切詞和前向最小切詞,后向最大切詞后的結(jié)果為“少年/包青/天在/衛(wèi)視/播出/的/時(shí)間”,而在采用前向最小切詞后的結(jié)果為“少年/包青天/在/衛(wèi)視/播出/的/時(shí)間”,這時(shí)候可以通過比較“天在”和“包青天”在切詞詞典中出現(xiàn)的概率或頻數(shù),發(fā)現(xiàn)“包青天”的概率或頻數(shù)較大,則最終的切詞結(jié)果為“少年/包青天/在/衛(wèi)視/播出/的/時(shí)間”。這里采用向最大切詞和前向最小切詞聯(lián)合的切詞方式使得切詞的結(jié)果更加準(zhǔn)確。
[0073]步驟14:根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。
[0074]語法文件中采用的語法有很多種,這里以BNF語法為例,BNF語法的基本規(guī)則包含但不限于以下幾個(gè)方面:
[0075]〈>:內(nèi)包含的內(nèi)容為必選項(xiàng),是語法必須進(jìn)一步解釋的非終結(jié)節(jié)點(diǎn);
[0076][]:內(nèi)包含的內(nèi)容為可選項(xiàng),表示其內(nèi)容可以跳過;
[0077]1:表示在其左右兩邊任選一項(xiàng),相當(dāng)于〃或〃的意思;
[0078]():表示組合;
[0079]但是在實(shí)際應(yīng)用中,有時(shí)這些語法規(guī)則滿足不了用戶的需求,本發(fā)明實(shí)施例在BNF語法規(guī)則的基礎(chǔ)上進(jìn)行了擴(kuò)展,增加了以下規(guī)則:
[0080]#:表示注釋;
[0081]::非終結(jié)節(jié)點(diǎn)與其解釋的分隔符;
[0082];:表示語法中語句的結(jié)束;
[0083]“”:表示引用外部詞典文件;
[0084]&root ?name?:寫在語法的開始部分,表示該語法名字為name ;
[0085]&keyword (textFrag, key, defaultValue, showValue):該函數(shù)是用來提取輸入文本的關(guān)鍵詞。該函數(shù)具體表示:假設(shè)輸入為inputTextFrag,如果inputTextFrag與textFrag成功匹配,那么key = showValue,否則key = defaultValue ;且該函數(shù)可以不對 showValue 進(jìn)行定義,即該函數(shù)可以定義為:&keyword(textFrag, key, defaultValue),這時(shí)如果輸入的inputTextFrag與textFrag成功匹配,貝丨』直接賦值為textFrag,即key =textFrag。
[0086]具體對上述函數(shù)的作用進(jìn)行舉例說明,例如,機(jī)器中定義函數(shù)為:&keyword(北京I天津I上海,place,本地);&keyword(下雨|下雪,weather,未定義,天氣);&keyword(明天|今天|后天,date,今天)。假如用戶輸入的文本內(nèi)容為“明天下雨嗎”,此時(shí)機(jī)器在定義的函數(shù)中查找是否存在該關(guān)鍵詞,首先用戶輸入的內(nèi)容中沒有具體地址,因此與函數(shù)“&keyWOrd (北京I天津I上海,place,本地)”中的關(guān)鍵詞匹配失敗,這時(shí)將自動(dòng)給用戶輸入的內(nèi)容賦值,具體賦值為該函數(shù)的defaultValue,這里的defaultValue為“本地”;然后再將用戶輸入的“明天”與函數(shù)“&keyw0rd(明天I今天I后天,date,今天)”中的關(guān)鍵詞進(jìn)行匹配,則與該函數(shù)中的“明天”成功匹配,因?yàn)樵摵瘮?shù)中沒有定義showValue,所以將用戶輸入的時(shí)間直接賦值為“明天”;最后再將用戶輸入的“下雨”與“&keyWOrd(下雨I下雪,weather,未定義,天氣)”中的關(guān)鍵詞進(jìn)行匹配,則與該函數(shù)中的“下雨”成功匹配,因?yàn)樵摵瘮?shù)定義了 showValue,且該函數(shù)的showValue為“天氣”,所以將用戶輸入的“下雨”用“天氣”替換。則機(jī)器根據(jù)該函數(shù)將用戶輸入的“明天下雨嗎”匹配成“本地明天天氣”,并進(jìn)行相關(guān)操作。且上述例子中對用戶輸入的內(nèi)容進(jìn)行匹配的順序只是示例性的說明,這里并沒有對匹配順序作具體限定,例如,上述例子中對用戶輸入的“明天”和“下雨”兩詞匹配的順序,可以先對“明天”進(jìn)行匹配,或者先對“下雨”進(jìn)行匹配,再或者可以對這兩詞同時(shí)進(jìn)行匹配。
[0087]&duplicate (TextFrag, least, most):這個(gè)函數(shù)表不把 TextFrag 重復(fù) m 遍,m 的取值范圍是:least ^ n ^ most,例如,定義函數(shù):&duplicate (TextFrag, I, 3),此時(shí)輸出的內(nèi)容為:TextFrag[TextFrag] [TextFrag];
[0088]&comb (textFragl, textFrag2,…,textFragN):該函數(shù)表不把語法片段TextFragl, TextFrag2,…,textFragN做排列組合,例如,定義函數(shù):&comb (TextFragl, TextFrag2);此時(shí)輸出的內(nèi)容為:(TextFraglTextFrag2) | (TextFrag2TextFragl)。
[0089]對于對BNF語法規(guī)則的擴(kuò)展方式有多種,以上只是示例性的說明,例如,上述對于符號(hào)的定義,可以換成其他符號(hào);或者同一符號(hào),可能表示其他含義,這里不做具體限定。另夕卜,為了更清楚的說明上述語法,下面針對基于上述語法規(guī)則編寫的語法文件進(jìn)行舉例,文件內(nèi)容具體如下:
[0090]&root ? 影視點(diǎn)播 >);
[0091]#key words:
[0092]#type:影視類別
[0093]SmoviNamee:影視名
[0094]Uyear:年份
[0095]根據(jù)上述定義的語法規(guī)則,對上述語法文件進(jìn)行解析:該語法的文件的名字為“影視點(diǎn)播”,且該語法文件中有三個(gè)關(guān)鍵詞:type、movie和year。具體地,假如針對文本內(nèi)容“播放2002年的電影無間道”,定義的語法文件可以是:
[0096]#例:播放2002年的電影無間道
[0097]<影視點(diǎn)播 >:[播放][〈年份 >][的]&comb ([<類別列表 >],< 影視列表>)
[0098]〈類別列表>:&keyword (電影 | 電視劇,type, unspecified);
[0099]< 影視列表 >:&keyword("movieList.die", movieName, unspecified);
[0100]〈年份>:&keyword ((〈時(shí)間 > 年),year, unspecified);
[0101]〈時(shí)間>:&(1即1化&七6(〈數(shù)字>,2,4);
[0102]〈數(shù)字>:0|1|2|3|4|5|6|7|8|9;
[0103]另外,為了方便機(jī)器根據(jù)定義的語法規(guī)則解析用戶輸入的文本內(nèi)容,可以將每個(gè)語法編寫成語法樹的形式,最終將一個(gè)語法文件寫成一個(gè)“語法森林”的形式。以上述“播放2002年的電影無間道”編寫的語法文件為例,編寫的語法樹如圖6所示:在語法樹的第一級中,顯示的是文件名影視點(diǎn)播”;第二級中,包含四部分:第一部分為“播放”,第二部分為“年份”,第三部分為“的”,第四部分為“影視列表”和“類別列表”,其中,“影視列表”可以是電影或電視劇。這樣通過語法樹的形式將語法文件中內(nèi)容層次化,便于機(jī)器解析用戶輸入的語音內(nèi)容。
[0104]上述在完成相關(guān)語法定義后,機(jī)器就可以根據(jù)語法文件對用戶發(fā)送的語音內(nèi)容進(jìn)行匹配,匹配的方式包含兩種:全匹配和關(guān)鍵詞匹配。具體匹配的流程示意圖如圖7所示:先根據(jù)語法文件對用戶輸入的語音內(nèi)容進(jìn)行全匹配(如圖7中的步驟71),這里的語音內(nèi)容是經(jīng)過切詞后的語音內(nèi)容;判斷匹配結(jié)果(如圖7中的步驟72),如果全匹配成功,則打印匹配結(jié)果(如圖7中的步驟73);如果全匹配失敗,則進(jìn)行關(guān)鍵詞匹配(如圖7中的步驟74),具體是指:從語法文件中的關(guān)鍵詞列表中搜索相應(yīng)的關(guān)鍵詞,如果匹配成功,則打印匹配結(jié)果。
[0105]針對上述匹配過程中,通過舉例詳細(xì)說明:例如,用戶輸入的語音內(nèi)容為“我想播放2002年的電影無間道”,機(jī)器將該語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文本內(nèi)容,并將該文本內(nèi)容進(jìn)行切詞,切詞后的結(jié)果為“我想/播放/2002年/的/電影/無間道”。然后根據(jù)語法文件對該文本內(nèi)容進(jìn)行匹配:首先,“我想”在語法文件中沒有相應(yīng)的詞進(jìn)行覆蓋,即全匹配失?。蝗缓笤龠M(jìn)行關(guān)鍵詞匹配,具體如下:type =電影;movieName =無間道;year = 2002年;在關(guān)鍵詞匹配過程中,只要輸入文本中的關(guān)鍵詞能夠與語法文件中關(guān)鍵詞列表中的關(guān)鍵詞匹配成功即可,因此相對于全匹配的方式,采用關(guān)鍵詞匹配的方式會(huì)更加的靈活,且對輸入的文本內(nèi)容的約束更小,提高匹配成功的幾率。
[0106]通過上述根據(jù)語法文件對用戶輸入的語音內(nèi)容進(jìn)行解析過程中,可以發(fā)現(xiàn):要使得機(jī)器快速、準(zhǔn)確地解析出用戶語音內(nèi)容的語義,那么用戶在編寫機(jī)器中的語法文件時(shí)要盡可能的規(guī)范,這里針對語法文件的編寫規(guī)范和編寫技巧進(jìn)行舉例說明:
[0107]1、語法盡可能的覆蓋全面,這里可以在編寫的語法規(guī)則中編寫例子,具體流程為:首先設(shè)計(jì)用戶場景;然后書寫例句;最后根據(jù)編寫的語法對例句進(jìn)行覆蓋。
[0108]2、根據(jù)語法場景,關(guān)鍵詞要清晰,便于機(jī)器在進(jìn)行關(guān)鍵詞匹配時(shí)的準(zhǔn)確率。
[0109]3、編寫語法文件時(shí),要盡量避免過產(chǎn)生,例如,語法文件中的語法片段為“[今天][的][廣州][的][天氣]”,根據(jù)該文法片段可以覆蓋“的/的/天氣”的文本內(nèi)容,顯然,該文本內(nèi)容不符合人類的語言習(xí)慣,且這種嚴(yán)重的過產(chǎn)生會(huì)降低語法文件結(jié)構(gòu)的優(yōu)勢。為減少這種過產(chǎn)生的情況,可以將語法文件拆成若干子條目,例如,針對上述語法語法片段,可以編寫成:一級子條目為:“[今天][的]〈廣州 > [的][天氣]”;二級子條目為[今天][的廣州][的][天氣]”,三級子條目為:“[今天][的][廣州的][天氣]”,這樣就可以減少語法文件中的過產(chǎn)生的情況。
[0110]4、在編寫語法文件時(shí),盡量采用分級的編寫的方法,使得語法文件具有好的可讀性。例如,上述提到的語法樹規(guī)則。
[0111]5、語法文件中的詞組盡量與切詞詞典中的詞組一致,這樣使得機(jī)器更加準(zhǔn)確的解析用戶的語音內(nèi)容。例如,“我想知道”可以根據(jù)切詞詞典切成“我想/知道”,這時(shí)的語法文件中的詞組也應(yīng)保持一致,可以是“[我想] < 知道 >”而不是“[我][想]〈知道〉”等。
[0112]這里在解析語音內(nèi)容時(shí),需要考慮切詞的影響,例如,用戶發(fā)送的語音內(nèi)容為“我想打電話”,機(jī)器將該語音內(nèi)容可能切成“我想/打/電話”,這時(shí)雖然機(jī)器切詞出現(xiàn)錯(cuò)誤,但語法文件中應(yīng)按照“打電話”這種方式對用戶發(fā)送的語音內(nèi)容進(jìn)行解析,這樣可以減少機(jī)器由于切詞錯(cuò)誤,而造成解析錯(cuò)誤。
[0113]6、在采用語法樹編寫語法文件時(shí),根節(jié)點(diǎn)中中至少包括一個(gè)必選項(xiàng),否則輸入的文本都被該語法覆蓋,造成機(jī)器的錯(cuò)誤解析。例如,語法文件中的語法片段為“[今天][的][廣州][的][天氣]”,因?yàn)檎Z法片段中的詞組都為可選項(xiàng),假如用戶輸入的語音內(nèi)容為“今天的上海的天氣”,這時(shí)候也能夠與語法文件中的詞組進(jìn)行匹配,顯然,這樣會(huì)導(dǎo)致機(jī)器解析錯(cuò)誤。
[0114]7、在采用語法樹編寫語法文件時(shí),如果根節(jié)點(diǎn)中的必選項(xiàng)詞組同時(shí)也是關(guān)鍵詞,這時(shí)可以設(shè)置:defaultValue = error。當(dāng)用戶發(fā)送的語音內(nèi)容與根節(jié)點(diǎn)中的必選項(xiàng)不能匹配時(shí),直接輸出error,避免機(jī)器再進(jìn)行關(guān)鍵詞匹配操作,浪費(fèi)機(jī)器的資源。
[0115]為了更清楚的理解本發(fā)明實(shí)施例,對上述提供的解析語音內(nèi)容的方法進(jìn)行系統(tǒng)的說明,如圖8所示:第一步:語言模型的自適應(yīng)過程(如圖8中的步驟81),具體是指:調(diào)整所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),使得特定領(lǐng)域中的詞組在機(jī)器中語料中詞組中出現(xiàn)的概率和頻數(shù)增大;第二步:根據(jù)切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞(如圖8中的步驟82);第三步:根據(jù)語法文件對切詞后的語音內(nèi)容進(jìn)行全匹配(如圖8中的步驟83),這時(shí)機(jī)器判斷全匹配是否成功(如圖8中的步驟84),如果匹配成功,則打印匹配結(jié)果(如圖8中的步驟85),這里的語法文件可以采用語法樹的形式;第四步:如果全匹配失敗,則進(jìn)行關(guān)鍵詞匹配(如圖8中的步驟86),關(guān)鍵詞匹配成功后打印匹配結(jié)果。完成匹配的過程,就是機(jī)器對用戶語音內(nèi)容進(jìn)行解析的過程。
[0116]應(yīng)用本發(fā)明實(shí)施例提供的解析語音內(nèi)容的方法,獲得的有益效果如下:
[0117]1、在對語言模型進(jìn)行訓(xùn)練時(shí),調(diào)整機(jī)器中存儲(chǔ)語料中每個(gè)的詞組在所有詞組中出現(xiàn)的概率或頻數(shù),使得特定領(lǐng)域中的詞組在所有詞組中出現(xiàn)的概率或頻數(shù)增大,從而提高機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率。
[0118]2、本發(fā)明實(shí)施例中的切詞詞典包含地址區(qū)域和詞組區(qū)域,且在詞組區(qū)域中采用首字分區(qū),便于機(jī)器在切詞詞典中快速的找到對應(yīng)詞組的位置。另外,詞組區(qū)域中的詞組包含數(shù)字、字母和漢字,提高機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率。
[0119]3、本發(fā)明實(shí)施例在現(xiàn)有BNF語法規(guī)則的基礎(chǔ)上進(jìn)行了擴(kuò)展,并提供了語法規(guī)則的編寫技巧,提高了語法文件的可讀性,并且提高了機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率。
[0120]4、在根據(jù)語法文件對用戶發(fā)送的語音內(nèi)容進(jìn)行匹配時(shí),采用全匹配和關(guān)鍵詞匹配,使得匹配更加全面,進(jìn)而提高機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率。
[0121]實(shí)施例2
[0122]實(shí)施例1中提供了一種解析語音內(nèi)容的方法,相應(yīng)的,本發(fā)明實(shí)施例提供了一種解析語音內(nèi)容的裝置,用來提高機(jī)器解析用戶語音內(nèi)容中語義的準(zhǔn)確率。
[0123]一種解析語音內(nèi)容的裝置,該裝置包括:組合單元91、統(tǒng)計(jì)單元92、切詞單元93和解析單元94 ;其中,
[0124]組合單元91,可以用于將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,并根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中的詞組;
[0125]統(tǒng)計(jì)單元92,可以用于統(tǒng)計(jì)所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整所述概率或頻數(shù),使得特定領(lǐng)域中的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù)增加;
[0126]切詞單元93,可以用于將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得所述語音內(nèi)容中的詞組;
[0127]解析單元94,可以用于根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。
[0128]上述裝置實(shí)施例的工作過程是:第一步:組合單元91將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,并根據(jù)該第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得該語料中的詞組;第二步:統(tǒng)計(jì)單元92統(tǒng)計(jì)該語料中每個(gè)的詞組在該語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整概率或頻數(shù),使得特定領(lǐng)域中的詞組在該語料中的詞組中出現(xiàn)的概率或頻數(shù)增加;第三步:切詞單元93將該語料中的詞組和調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)該第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得該語音內(nèi)容中的詞組;第四步:解析單元94根據(jù)語法文件對該語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。
[0129]上述裝置實(shí)施例提高機(jī)器解析用戶語音內(nèi)容中語義的準(zhǔn)確率的實(shí)施方式有很多種,例如,在一種實(shí)施方式中,所述組合單元91包括:切詞子單元、統(tǒng)計(jì)子單元和組合子單元;其中,
[0130]切詞子單元,可以用于根據(jù)特定領(lǐng)域的詞組對所述機(jī)器存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中特定領(lǐng)域的詞組;相比于現(xiàn)有技術(shù)采用人為標(biāo)記的方式獲得特定領(lǐng)域的詞組的方式,這里采用機(jī)器切詞的方式獲得特定領(lǐng)域詞組更加便捷。
[0131]統(tǒng)計(jì)子單元,可以用于統(tǒng)計(jì)所述語料中的每個(gè)特定領(lǐng)域的詞組在所述語料中特定領(lǐng)域的詞組中出現(xiàn)的概率或頻數(shù);
[0132]組合子單元,可以用于根據(jù)所述概率或頻數(shù)的排名,從所述語料中特定領(lǐng)域的詞組中選出預(yù)設(shè)數(shù)量的詞組,并將選出的詞組與非特定領(lǐng)域中的詞組組合生成第一切詞詞典。選取特定領(lǐng)域中的詞組的概率或頻數(shù)排名靠前的詞組,即將語料中經(jīng)常出現(xiàn)的詞組生成第一切詞詞典,可以提高機(jī)器切詞效率。
[0133]在另一種實(shí)施方式中,所述切詞單元93包括:
[0134]組合子單元、切詞子單元和查找子單元;其中,
[0135]組合子單元,可以用于將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典;這里調(diào)整所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),使得特定領(lǐng)域中的詞組在機(jī)器中語料中詞組中出現(xiàn)的概率和頻數(shù)增大,從而提高機(jī)器解析用戶語音內(nèi)容的語義的準(zhǔn)確率。
[0136]切詞子單元,可以用于根據(jù)所述第二切詞詞典,使用后向最大切詞和前向最小切詞的方式分別對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞;
[0137]查找子單元,可以用于當(dāng)所述兩種切詞方式得到的詞組不同時(shí),在所述第二切詞詞典中查找所述不同詞組對應(yīng)的的概率或頻數(shù),選取概率或頻數(shù)較大的詞組作為最終切詞詞組。
[0138]上述采用切詞子單元和查找子單元,通過采用后向最大切詞和前向最小切詞聯(lián)合的切詞方式將用戶的語音內(nèi)容進(jìn)行切詞,使得切詞的結(jié)果更加準(zhǔn)確。
[0139]上述裝置實(shí)施例獲得的有益效果與前述的方法實(shí)施例獲得的有益效果相同或者類似,為避免重復(fù),這里不做贅述。
[0140]以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0141]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0142]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種解析語音內(nèi)容的方法,其特征在于,該方法包括: 將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中的詞組; 統(tǒng)計(jì)所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整所述概率或頻數(shù),使得特定領(lǐng)域中的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù)增加; 將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得所述語音內(nèi)容中的詞組; 根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典具體包括: 根據(jù)特定領(lǐng)域的詞組對所述機(jī)器存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中特定領(lǐng)域的詞組; 統(tǒng)計(jì)所述語料中的每個(gè)特定領(lǐng)域的詞組在所述語料中特定領(lǐng)域的詞組中出現(xiàn)的概率或頻數(shù); 根據(jù)所述概率或頻數(shù)的排名,從所述語料中特定領(lǐng)域的詞組中選出預(yù)設(shè)數(shù)量的詞組,并將選出的詞組與非特定領(lǐng)域中的詞組組合生成第一切詞詞典。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞具體包括: 根據(jù)所述第二切詞詞典,使用后向最大切詞和前向最小切詞的方式分別對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,如果所述兩種切詞方式得到的詞組不同,則在所述第二切詞詞典中查找所述不同詞組對應(yīng)的的概率或頻數(shù),選取概率或頻數(shù)較大的詞組作為最終切詞詞組。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二切詞詞典包括: 地址區(qū)域和詞組區(qū)域;其中, 所述地址區(qū)域,引導(dǎo)機(jī)器查找所述用戶發(fā)送的切詞后的語音內(nèi)容中的詞組在所述第二切詞詞典中的位置; 所述詞組區(qū)域,存儲(chǔ)所述地址區(qū)域中對應(yīng)的詞組。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析具體包括: 將所述語音內(nèi)容中的詞組與所述語法文件中的詞組進(jìn)行匹配,如果所述語音內(nèi)容中的詞組與語法文件中的詞組完全匹配,則解析成功;如果全匹配失敗,則進(jìn)行關(guān)鍵詞匹配。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述關(guān)鍵詞匹配具體包括: 將所述語音內(nèi)容中的詞組與所述語法文件中的關(guān)鍵詞進(jìn)行匹配,如果匹配成功,則解析成功;如果匹配不成功,則解析失敗。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述特定領(lǐng)域的詞組包括以下至少一種: 漢字;英文字母;數(shù)字。8.一種解析語音內(nèi)容的裝置,其特征在于,該裝置包括:組合單元、統(tǒng)計(jì)單元、切詞單元和解析單元;其中, 所述組合單元,用于將特定領(lǐng)域中的詞組和非特定領(lǐng)域中的詞組組合生成第一切詞詞典,根據(jù)所述第一切詞詞典對機(jī)器中存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中的詞組; 所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述語料中每個(gè)的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù),并按照預(yù)定規(guī)則調(diào)整所述概率或頻數(shù),使得特定領(lǐng)域中的詞組在所述語料中的詞組中出現(xiàn)的概率或頻數(shù)增加; 所述切詞單元,用于將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典,并根據(jù)所述第二切詞詞典對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞,獲得所述語音內(nèi)容中的詞組; 所述解析單元,用于根據(jù)語法文件對所述語音內(nèi)容中的詞組進(jìn)行解析,獲得相應(yīng)的語義。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述組合單元包括:切詞子單元、統(tǒng)計(jì)子單元和組合子單元;其中, 所述切詞子單元,用于根據(jù)特定領(lǐng)域的詞組對所述機(jī)器存儲(chǔ)的語料進(jìn)行切詞,獲得所述語料中特定領(lǐng)域的詞組; 所述統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)所述語料中的每個(gè)特定領(lǐng)域的詞組在所述語料中特定領(lǐng)域的詞組中出現(xiàn)的概率或頻數(shù); 所述組合子單元,用于根據(jù)所述概率或頻數(shù)的排名,從所述語料中特定領(lǐng)域的詞組中選出預(yù)設(shè)數(shù)量的詞組,并將選出的詞組與非特定領(lǐng)域中的詞組組合生成第一切詞詞典。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述切詞單元包括: 組合子單元、切詞子單元和查找子單元;其中, 組合子單元,用于將所述語料中的詞組和所述調(diào)整后的概率或頻數(shù)組合生成第二切詞詞典; 所述切詞子單元,用于根據(jù)所述第二切詞詞典,使用后向最大切詞和前向最小切詞的方式分別對用戶發(fā)送的語音內(nèi)容進(jìn)行切詞; 所述查找子單元,用于當(dāng)所述兩種切詞方式得到的詞組不同時(shí),在所述第二切詞詞典中查找所述不同詞組對應(yīng)的的概率或頻數(shù),選取概率或頻數(shù)較大的詞組作為最終切詞詞組。
【文檔編號(hào)】G06F17/27GK105912521SQ201510995231
【公開日】2016年8月31日
【申請日】2015年12月25日
【發(fā)明人】周蕾蕾
【申請人】樂視致新電子科技(天津)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
武安市| 东山县| 祁阳县| 广昌县| 连山| 白玉县| 吉林市| 昆山市| 绥芬河市| 盐边县| 万宁市| 东山县| 化州市| 射洪县| 安达市| 麻阳| 永清县| 波密县| 黄山市| 宜良县| 山东| 遂昌县| 石屏县| 阳城县| 江北区| 阳城县| 华坪县| 襄樊市| 华宁县| 桑植县| 涟源市| 德兴市| 分宜县| 长治市| 宜州市| 阿图什市| 阳泉市| 望奎县| 鄂尔多斯市| 凌源市| 南京市|