本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,尤其涉及一種用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法及裝置。
背景技術(shù):
人機(jī)交互是研究系統(tǒng)與用戶之間的交互關(guān)系的科學(xué)。系統(tǒng)可以是各種各樣的機(jī)器,也可以是計(jì)算機(jī)化的系統(tǒng)和軟件。例如,通過人機(jī)交互可以實(shí)現(xiàn)各種人工智能系統(tǒng),例如,智能客服系統(tǒng)、語音控制系統(tǒng)等等。人工智能語義識(shí)別是人機(jī)交互的基礎(chǔ),其能夠?qū)θ祟愓Z言進(jìn)行識(shí)別,以轉(zhuǎn)換成機(jī)器能夠理解的語言。
智能問答系統(tǒng)是人機(jī)交互的一種典型應(yīng)用,其中當(dāng)用戶提出問題后,智能問答系統(tǒng)給出該問題的答案。為此,智能問答系統(tǒng)中有一套知識(shí)庫,里面有大量的問題和與每個(gè)問題相對(duì)應(yīng)的答案。智能問答系統(tǒng)首先需要識(shí)別用戶所提出的問題,即從知識(shí)庫中找到與該用戶問題所對(duì)應(yīng)的問題,然后找出與該問題相匹配的答案。
因此,如何高效地維護(hù)知識(shí)庫至關(guān)重要。
技術(shù)實(shí)現(xiàn)要素:
以下給出一個(gè)或多個(gè)方面的簡要概述以提供對(duì)這些方面的基本理解。此概述不是所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個(gè)或多個(gè)方面的一些概念以為稍后給出的更加詳細(xì)的描述之序。
根據(jù)本發(fā)明的一方面,提供了一種用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法,該知識(shí)庫包括多個(gè)標(biāo)準(zhǔn)問,每個(gè)標(biāo)準(zhǔn)問具有相關(guān)聯(lián)的多個(gè)相似問句,該方法包括:
數(shù)據(jù)獲取步驟,針對(duì)每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)相似問句相應(yīng)的多個(gè)相似問句分詞結(jié)果,其中每個(gè)相似問句分詞結(jié)果由對(duì)應(yīng)相似問句的各單詞所屬的詞類組成;
語義表達(dá)式創(chuàng)建步驟,針對(duì)每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)語義表達(dá)式,每個(gè)詞組由預(yù)定數(shù)目個(gè)詞類組成;
檢測步驟,針對(duì)所有標(biāo)準(zhǔn)問的所有相似問句,執(zhí)行標(biāo)準(zhǔn)問匹配處理,對(duì)于為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建的每個(gè)語義表達(dá)式,判斷該語義表達(dá)式是否被匹配至其標(biāo)準(zhǔn)問的至少一個(gè)相似問句,若是,則該語義表達(dá)式被標(biāo)記為第一狀態(tài),否則被標(biāo)記為第二狀態(tài);以及
刪除步驟,刪除所有狀態(tài)為第二狀態(tài)的語義表達(dá)式。
根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,該處理器執(zhí)行該計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。
根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
根據(jù)本發(fā)明的另一方面,提供了一種用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的裝置,該知識(shí)庫包括多個(gè)標(biāo)準(zhǔn)問,每個(gè)標(biāo)準(zhǔn)問具有相關(guān)聯(lián)的多個(gè)相似問句,該裝置包括:
數(shù)據(jù)獲取模塊,針對(duì)每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)相似問句相應(yīng)的多個(gè)相似問句分詞結(jié)果,其中每個(gè)相似問句分詞結(jié)果由對(duì)應(yīng)相似問句的各單詞所屬的詞類組成;
語義表達(dá)式創(chuàng)建模塊,針對(duì)每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)語義表達(dá)式,每個(gè)詞組由預(yù)定數(shù)目個(gè)詞類組成;
檢測模塊,針對(duì)所有標(biāo)準(zhǔn)問的所有相似問句,執(zhí)行標(biāo)準(zhǔn)問匹配處理,對(duì)于為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建的每個(gè)語義表達(dá)式,判斷該語義表達(dá)式是否被匹配至其標(biāo)準(zhǔn)問的至少一個(gè)相似問句,若是,則該語義表達(dá)式被標(biāo)記為第一狀態(tài),否則被標(biāo)記為第二狀態(tài);以及
編輯模塊,刪除所有狀態(tài)為第二狀態(tài)的語義表達(dá)式。
根據(jù)本發(fā)明的方案,可以從普通的相似問句中自動(dòng)生成語義表達(dá)式,語義表達(dá)式在語義匹配時(shí)具有較高的效率和準(zhǔn)確率,提高了智能問答系統(tǒng)的性能。同時(shí)由于不無需要手工編寫語義表達(dá)式,顯著提高了語義表達(dá)式的生成效率,為高效、便捷地建立知識(shí)庫提供了基礎(chǔ)。
附圖說明
在結(jié)合以下附圖閱讀本公開的實(shí)施例的詳細(xì)描述之后,能夠更好地理解本發(fā)明的上述特征和優(yōu)點(diǎn)。在附圖中,各組件不一定是按比例繪制,并且具有類似的相關(guān)特性或特征的組件可能具有相同或相近的附圖標(biāo)記。
圖1是示出了根據(jù)本發(fā)明的一方面的用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法100的流程圖;以及
圖2示出了根據(jù)本發(fā)明的具體實(shí)施例的用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法的流程圖。
圖3是示出了根據(jù)本發(fā)明的一方面的用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的裝置300的框圖。
具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作詳細(xì)描述。注意,以下結(jié)合附圖和具體實(shí)施例描述的諸方面僅是示例性的,而不應(yīng)被理解為對(duì)本發(fā)明的保護(hù)范圍進(jìn)行任何限制。
知識(shí)庫中的基本知識(shí)點(diǎn)最原始和最簡單的形式就是平時(shí)常用的faq,一般的形式是“問-答”對(duì)。在本發(fā)明中,“標(biāo)準(zhǔn)問”是用來表示某個(gè)知識(shí)點(diǎn)的文字,主要目標(biāo)是表達(dá)清晰,便于維護(hù)。例如,“彩鈴的資費(fèi)”就是表達(dá)清晰的標(biāo)準(zhǔn)問描述。這里的“問”不應(yīng)被狹義地理解為“詢問”,而應(yīng)廣義地來理解一“輸入”,該“輸入”具有對(duì)應(yīng)的“輸出”。例如,對(duì)于用于控制系統(tǒng)的語義識(shí)別而言,用戶的一個(gè)指令,例如“打開收音機(jī)”也應(yīng)可以被理解為是一個(gè)“問”,此時(shí)對(duì)應(yīng)的“答”可以是用于執(zhí)行相應(yīng)控制的控制程序的調(diào)用。
用戶在向機(jī)器輸入時(shí),最理想的情況是使用標(biāo)準(zhǔn)問,則機(jī)器的智能語義識(shí)別系統(tǒng)馬上能夠理解用戶的意思。然而,用戶往往并非使用的是標(biāo)準(zhǔn)問,而是標(biāo)準(zhǔn)問的一些變形的形式。例如,若對(duì)于收音機(jī)的電臺(tái)切換的標(biāo)準(zhǔn)問形式是“換一個(gè)電臺(tái)”,那么用戶可能使用的命令是“切換一個(gè)電臺(tái)”,機(jī)器也需要能夠識(shí)別用戶表達(dá)的是同一個(gè)意思。
因此,對(duì)于智能語義識(shí)別而言,知識(shí)庫里需要有標(biāo)準(zhǔn)問的擴(kuò)展問,該擴(kuò)展問與標(biāo)準(zhǔn)問表達(dá)形式有略微差異,但是表達(dá)相同的含義。在用戶輸入用戶問句后,主要依靠擴(kuò)展問來實(shí)現(xiàn)用戶問句與標(biāo)準(zhǔn)問的匹配。
作為示例,可以將用戶問句與知識(shí)庫中所有標(biāo)準(zhǔn)問的所有擴(kuò)展問執(zhí)行語義相似度計(jì)算,找出與該用戶問句具有最高語義相似度的擴(kuò)展問,若該最高語義相似度高出系統(tǒng)所設(shè)的閾值,則該擴(kuò)展問所對(duì)應(yīng)的標(biāo)準(zhǔn)問被認(rèn)為是與該用戶問句相匹配的標(biāo)準(zhǔn)問,進(jìn)而將該標(biāo)準(zhǔn)問所對(duì)應(yīng)的知識(shí)點(diǎn)中的答案反饋給用戶。另一方面,若計(jì)算出的該最高語義相似度低于系統(tǒng)所設(shè)的該閾值,則認(rèn)為標(biāo)準(zhǔn)問匹配失敗。此時(shí),可向用戶反饋語義識(shí)別失敗,提示用戶可再次輸入。
實(shí)踐中,擴(kuò)展問的一個(gè)形式是普通問句形式的相似問句。技術(shù)人員在不需要作特別的相關(guān)培訓(xùn)的情況下即可人工編寫。相似問句在標(biāo)準(zhǔn)問匹配上效果較差,需要人工編寫大量的相似問句,效率低下。
擴(kuò)展問的另一種形式是語義表達(dá)式。一個(gè)標(biāo)準(zhǔn)問可以由若干語義表達(dá)式來表征。采用語義表達(dá)式進(jìn)行標(biāo)準(zhǔn)問匹配效果較好,但是對(duì)編輯人員要求較高,效率也需要進(jìn)一步提高。通過相似問句自動(dòng)生成語義表達(dá)式,一直是個(gè)發(fā)展方向,但相似問句存在大量冗余信息,根據(jù)現(xiàn)有自動(dòng)生成語義表達(dá)式技術(shù)得到的語義表達(dá)式難以直接使用,還需要人工修改,實(shí)際效率沒有明顯提高。
語義表達(dá)式主要由詞、詞類以及他們的“或”關(guān)系構(gòu)成,其核心依賴于“詞類”,詞類簡單的理解即為一組有共性的詞,這些詞在語義上可以相似也可以不相似,這些詞也可以被標(biāo)注為重要或不重要。詞類是對(duì)一組相關(guān)詞的匯總,詞類由詞類名和一組相關(guān)詞所組成。詞類名是在這組相關(guān)詞中具有標(biāo)簽作用的詞,即詞類的代表。一個(gè)詞類中至少包含一個(gè)詞(即詞類本身)。
語義表達(dá)式與用戶問句關(guān)系與傳統(tǒng)的模板匹配有了很大的不同,在傳統(tǒng)模板匹配中,模板和用戶問句只是匹配與未匹配的關(guān)系,而語義表達(dá)式與用戶問句之間關(guān)系是通過量化的值(相似度)來表示,同時(shí)這個(gè)量化的值與相似問句和用戶問句之間的相似度是可以互相比較的。以下說明語義表達(dá)式的具體組成和符號(hào)的表示。
詞類的表示([])
為區(qū)分表達(dá)式中的詞與詞類,規(guī)定詞類必須出現(xiàn)在方括號(hào)“[]”中,方括號(hào)中出現(xiàn)的詞類一般為“狹義詞類”,但是也可通過配置系統(tǒng)參數(shù)以支持“廣義詞類”。詞類是按照詞的語義進(jìn)行劃分的,把一組相關(guān)的詞組織在一起形成一個(gè)樹狀結(jié)構(gòu)的詞類庫,在這個(gè)樹狀結(jié)構(gòu)中的任意一個(gè)非葉子結(jié)點(diǎn)都稱作一個(gè)詞類(廣義詞類),其中直接包含詞的第一級(jí)詞類稱為狹義詞類。
下面是一些簡單表達(dá)式的示例:
[飛信][如何][開通]
[介紹][彩信][業(yè)務(wù)]
[飛信]的[登錄][方法]
[來電提醒][如何][收費(fèi)]
或關(guān)系的表示(|)
在方括號(hào)中的詞類可以通過“或”關(guān)系出現(xiàn)多次,這些“或”關(guān)系的詞類會(huì)在計(jì)算相似度的時(shí)候以“展開”的方式單獨(dú)計(jì)算?!罢归_”主要是根據(jù)“或”的意義將語義表達(dá)式展開成多個(gè)簡單表達(dá)式的過程。如:[彩鈴][開通]的[方法|步驟]可展開成“[彩鈴][開通]的[步驟]”和“[彩鈴][開通]的[方法]”兩個(gè)簡單的語義表達(dá)式。
這類語義表達(dá)式的示例如下:
[彩鈴][開通]的[方法|步驟]
[怎樣][查詢|知道][puk碼]
[退訂|撤銷|關(guān)閉|停用][ip|17951][國內(nèi)長途優(yōu)惠包]
[來電提醒][功能費(fèi)|月租費(fèi)|信息費(fèi)|通信費(fèi)]
非必要的表示(?)
在方括號(hào)中的詞類可以在結(jié)尾加入“?”表示可出現(xiàn)也可以不出現(xiàn),即非必要的關(guān)系,這種非必要關(guān)系的詞類也同樣會(huì)在計(jì)算相似度的時(shí)候以“展開”的方式單獨(dú)計(jì)算。“展開”主要是將語義表達(dá)式中含有非必要的詞類(或詞類的“或組合”)展開成包含和不包含這個(gè)詞類的兩個(gè)簡單語義表達(dá)式的過程。如:[介紹][手機(jī)視頻][軍事欄目][內(nèi)容][什么?]可展開成“[介紹][手機(jī)視頻][軍事欄目][內(nèi)容]”和“[介紹][手機(jī)視頻][軍事欄目][內(nèi)容][什么]”兩個(gè)簡單語義表達(dá)式。
這類語義表達(dá)式的示例如下:
[彩鈴][取消]的[方法|步驟?]
[介紹][手機(jī)視頻][軍事欄目][內(nèi)容][什么?]
[介紹][12580?][生活播報(bào)][品質(zhì)生活版][免費(fèi)][業(yè)務(wù)?]
[怎樣][開通][移動(dòng)數(shù)據(jù)|流量|上網(wǎng)][100元][套餐?][短信]
在本發(fā)明中,通過比較多個(gè)普通相似問句的分詞結(jié)果,取交集的方式,獲取最短語義表達(dá)式;通過跑錯(cuò),驗(yàn)證語義表達(dá)式的有效性,并以語義表達(dá)式的有效性,篩選繼續(xù)生成加長語義表達(dá)式所用的普通相似問句,并淘汰無效的語義表達(dá)式;通過多次反復(fù)循環(huán),最終獲得可實(shí)用的語義表達(dá)式。
圖1是示出了根據(jù)本發(fā)明的一方面的用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法100的流程圖。如圖1所示,方法100可包括如下步驟:
步驟110:數(shù)據(jù)獲取步驟
在該步驟中,針對(duì)每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)相似問句相應(yīng)的多個(gè)相似問句分詞結(jié)果,其中每個(gè)相似問句分詞結(jié)果由對(duì)應(yīng)相似問句的各單詞所屬的詞類組成。
數(shù)據(jù)獲取步驟可包括兩個(gè)部分,首先是對(duì)每個(gè)標(biāo)準(zhǔn)問的每個(gè)相似問句執(zhí)行分詞處理,如前所述,每個(gè)標(biāo)準(zhǔn)問具有與之相關(guān)聯(lián)的多個(gè)相似問句,對(duì)每個(gè)相似問句執(zhí)行分詞處理。這里的分詞處理可采用任何已知的分詞算法來完成,對(duì)此不再贅述。
分詞后,每個(gè)標(biāo)準(zhǔn)問的每個(gè)相似問句被分為多個(gè)單詞,然后每個(gè)單詞由該單詞所屬的詞類替換。由此,標(biāo)準(zhǔn)問的每個(gè)相似問句對(duì)應(yīng)有一個(gè)分詞結(jié)果,由此每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)相似問句相應(yīng)的多個(gè)相似問句分詞結(jié)果。
作為示例,一個(gè)標(biāo)準(zhǔn)問的6個(gè)相似問句的6個(gè)分詞結(jié)果可以為:
[a][b][c][d][e][f][g]
[a][b][k][j][l][m]
[a][c][m][q]
[d][k][m][q]
[a][b][c][d]
[a][b][d]
其中的[a]、[b]、[c]、[d]、[e]、[f]、[g]、[h]、[j]、[k]都是分詞結(jié)果中的詞類。
步驟120:語義表達(dá)式創(chuàng)建步驟
在該步驟中,針對(duì)每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)語義表達(dá)式,每個(gè)詞組由預(yù)定數(shù)目個(gè)詞類組成。
在一實(shí)例中,針對(duì)每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組作為該標(biāo)準(zhǔn)問的一個(gè)語義表達(dá)式,然后從該標(biāo)準(zhǔn)問的未包括該詞組的相似問句分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組繼續(xù)作為該標(biāo)準(zhǔn)問的一個(gè)語義表達(dá)式,重復(fù)此過程直至該標(biāo)準(zhǔn)問下沒有其余的相似問句分詞結(jié)果或者剩余的相似問句分詞結(jié)果之間沒有達(dá)到該預(yù)定數(shù)目個(gè)詞類的交集。
剩余的相似問句分詞結(jié)果之間沒有達(dá)到該預(yù)定數(shù)目個(gè)詞類的交集,也就不再作為語義表達(dá)式的生成原料,這些相似問句分詞結(jié)果對(duì)應(yīng)的相似問句直接作為擴(kuò)展問在后續(xù)使用。
上述組成詞組的詞類的預(yù)定數(shù)目可以大于等于1。即,詞組也可以本身就是一個(gè)詞類。
以上述標(biāo)準(zhǔn)問的6個(gè)相似問句的6個(gè)分詞結(jié)果為例,假設(shè)組成每個(gè)詞組的詞類的預(yù)定數(shù)目為1,則該標(biāo)準(zhǔn)問的6個(gè)分詞結(jié)果的交集中:[a]出現(xiàn)5次,[b]出現(xiàn)4次,[c]出現(xiàn)3次,[d]出現(xiàn)3次……
則詞類[a]作為該標(biāo)準(zhǔn)問的語義表達(dá)式被保存。同時(shí),未包括[a]的分詞結(jié)果僅為[d][k][m][q]。由于僅剩余一個(gè)分詞結(jié)果,也就不可能再存在交集,所以生成語義表達(dá)式的過程結(jié)束。
再假設(shè)該組成每個(gè)詞組的詞類的預(yù)定數(shù)目為2,則該標(biāo)準(zhǔn)問的6個(gè)分詞結(jié)果的交集中,[a][b]出現(xiàn)頻率最高,則將[a][b]作為該標(biāo)準(zhǔn)問的一個(gè)語義表達(dá)式。未包括[a][b]的兩個(gè)分詞結(jié)果為[a][c][m][q]和[d][k][m][q],它們之間的交集為[m][q],則[m][q]也被保存作為該標(biāo)準(zhǔn)問的語義表達(dá)式。即,在該預(yù)定數(shù)目為2的情況下,生成了兩個(gè)語義表達(dá)式[a][b]、和[m][q]。
依照上述過程針對(duì)每個(gè)標(biāo)準(zhǔn)問生成語義表達(dá)式。較優(yōu)地是,在該語義表達(dá)式創(chuàng)建步驟中,按照復(fù)雜度由低到高的順序?yàn)楦鳂?biāo)準(zhǔn)問創(chuàng)建語義表達(dá)式,在創(chuàng)建過程中,若為在后的標(biāo)準(zhǔn)問生成的語義表達(dá)式與在前的標(biāo)準(zhǔn)問的已生成語義表達(dá)式重復(fù),則該重復(fù)的語義表達(dá)式不作為該在后的標(biāo)準(zhǔn)問的語義表達(dá)式保存。
假設(shè)針對(duì)前一個(gè)標(biāo)準(zhǔn)問創(chuàng)建的語義表達(dá)式包括[a][b],若在針對(duì)后續(xù)標(biāo)準(zhǔn)問生成的語義表達(dá)式也包括[a][b],則后續(xù)標(biāo)準(zhǔn)問的該語義表達(dá)式[a][b]不被保存。
實(shí)踐中,復(fù)雜度基于標(biāo)準(zhǔn)問的字?jǐn)?shù),字?jǐn)?shù)越少復(fù)雜度越低。字?jǐn)?shù)相同時(shí),帶有“介紹”字樣,或“介紹”同義詞的標(biāo)準(zhǔn)問優(yōu)先。
步驟130:檢測步驟
在此步驟中,針對(duì)所有標(biāo)準(zhǔn)問的所有相似問句,執(zhí)行標(biāo)準(zhǔn)問匹配處理,對(duì)于為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建的每個(gè)語義表達(dá)式,判斷該語義表達(dá)式是否被匹配至其標(biāo)準(zhǔn)問的至少一個(gè)相似問句,若是,則該語義表達(dá)式被標(biāo)記為第一狀態(tài),例如狀態(tài)true,否則被標(biāo)記為第二狀態(tài),例如狀態(tài)false。
實(shí)例中,針對(duì)每個(gè)相似問句,該執(zhí)行標(biāo)準(zhǔn)問匹配處理包括將該相似問句與針對(duì)所有標(biāo)準(zhǔn)問生成的所有語義表達(dá)式執(zhí)行語義相似度計(jì)算,并將該相似問句匹配至具有最高語義相似度且該最高語義相似度高于閾值的語義表達(dá)式。
此檢測步驟是對(duì)上述初步建立的各標(biāo)準(zhǔn)問的語義表達(dá)式進(jìn)行“跑錯(cuò)”的過程。此跑錯(cuò)的核心就是以每個(gè)標(biāo)準(zhǔn)問自身相關(guān)聯(lián)的相似問句為測試樣例來測試先前為該標(biāo)準(zhǔn)問創(chuàng)建的語義表達(dá)式是否可行,換言之,就是標(biāo)準(zhǔn)問的相似問句是否能夠匹配至先前自動(dòng)創(chuàng)建的語義表達(dá)式,進(jìn)而由此匹配至該標(biāo)準(zhǔn)問。
如果標(biāo)準(zhǔn)問的至少一個(gè)相似問句能夠匹配至先前為該標(biāo)準(zhǔn)問創(chuàng)建的一個(gè)語義表達(dá)式,則認(rèn)為該語義表達(dá)式是可用的,該語義表達(dá)式可被標(biāo)記為狀態(tài)true。注意,針對(duì)某一標(biāo)準(zhǔn)問的某個(gè)相似問句的標(biāo)準(zhǔn)問匹配是在為所有標(biāo)準(zhǔn)問生成的所有語義表達(dá)式的范圍內(nèi)來執(zhí)行的,即將該相似問句不僅與該標(biāo)準(zhǔn)問的所有語義表達(dá)式執(zhí)行語義相似度計(jì)算,而且還與其他標(biāo)準(zhǔn)問的所有語義表達(dá)式執(zhí)行語義相似度計(jì)算。由此,對(duì)于某個(gè)標(biāo)準(zhǔn)問的某個(gè)相似問句而言,該相似問句可能會(huì)被定位匹配至其他標(biāo)準(zhǔn)問的某個(gè)語義表達(dá)式,換言之,對(duì)于某個(gè)標(biāo)準(zhǔn)問的某個(gè)語義表達(dá)式而言,該語義表達(dá)式可能與其他標(biāo)準(zhǔn)問的相似問句相匹配。
如果一個(gè)標(biāo)準(zhǔn)問的先前創(chuàng)建的某一個(gè)語義表達(dá)式,該標(biāo)準(zhǔn)問的所有的相似問句都未能與該語義表達(dá)式相匹配,則即使有其他標(biāo)準(zhǔn)問的相似問句定位匹配至該語義表達(dá)式也,認(rèn)為該語義表達(dá)式是無效的。所有被認(rèn)為無效的語義表達(dá)式可被標(biāo)記為狀態(tài)false。
另一方面,在上述標(biāo)準(zhǔn)問匹配過程中,對(duì)于某個(gè)標(biāo)準(zhǔn)問的某個(gè)相似問句而言,若該相似問句被定位匹配至該標(biāo)準(zhǔn)問的任何一個(gè)語義表達(dá)式,則在一實(shí)例中可將這樣的相似問句記為第四狀態(tài),例如狀態(tài)false;否則若該相似問句未被定位匹配至該標(biāo)準(zhǔn)問的任何一個(gè)語義表達(dá)式,例如匹配失敗(即未找到與之具有高于閾值語義相似度的語義表達(dá)式)或者被定位至其他標(biāo)準(zhǔn)問的某一個(gè)語義表達(dá)式(即與其他標(biāo)準(zhǔn)問的某一個(gè)語義表達(dá)式具有最大語義相似度,也稱之為被其他標(biāo)準(zhǔn)問的該語義表達(dá)式“搶”),則將該相似問句記為第三狀態(tài),例如狀態(tài)true。
步驟140:刪除步驟
在此步驟中,刪除所有狀態(tài)為第二狀態(tài),例如狀態(tài)false的語義表達(dá)式。
由此,為標(biāo)準(zhǔn)問所生成的語義表達(dá)式經(jīng)刪除后剩余的語義表達(dá)式即為該標(biāo)準(zhǔn)問的有效的語義表達(dá)式。
在一實(shí)施例中,在執(zhí)行步驟140刪除步驟之后,還包括步驟150:可再次針對(duì)所有標(biāo)準(zhǔn)問的所有相似問句,執(zhí)行標(biāo)準(zhǔn)問匹配處理,然后若是有狀態(tài)為第三狀態(tài)的相似問句被匹配至與之相關(guān)聯(lián)的標(biāo)準(zhǔn)問所屬的語義表達(dá)式,則該相似問句的狀態(tài)由第三狀態(tài)改為第四狀態(tài)。這是因?yàn)橄惹盃顟B(tài)為false(即只會(huì)“搶”其他相似問句)的語義表達(dá)式被刪除之后,有可能一些標(biāo)記為第三狀態(tài)(即被“搶”)的相似問句有可能被觸發(fā)到自己對(duì)應(yīng)的標(biāo)準(zhǔn)問下。
較優(yōu)地,可循環(huán)執(zhí)行所述語義表達(dá)式創(chuàng)建步驟、所述檢測步驟、和所述刪除步驟預(yù)定次數(shù),其中在語義表達(dá)式創(chuàng)建步驟中用于組成詞組的詞類的所述預(yù)定數(shù)目隨著循環(huán)依次遞增,且在后續(xù)循環(huán)中只有狀態(tài)為true的相似問句參與語義表達(dá)式創(chuàng)建。
換言之,在下一次循環(huán)中,在執(zhí)行語義表達(dá)式創(chuàng)建時(shí),使用比上一次循環(huán)中加1的詞類數(shù)目來構(gòu)建語義表達(dá)式。例如,假設(shè)循環(huán)執(zhí)行3次,在第一次循環(huán)中,構(gòu)成語義表達(dá)式的詞組由1個(gè)詞類組成;則在第二次循環(huán)中,構(gòu)成語義表達(dá)式的詞組由2個(gè)詞類組成,在第三次循環(huán)中,構(gòu)成語義表達(dá)式的詞組由3個(gè)詞類組成。
而且,后續(xù)循環(huán)中只有狀態(tài)為true的相似問句參與語義表達(dá)式創(chuàng)建。例如在第一次循環(huán)中,從一個(gè)標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)語義表達(dá)式。但是如前所述,在第一次循環(huán)中經(jīng)過檢測步驟之后,該標(biāo)準(zhǔn)問的一些相似問句的狀態(tài)為true,另一些狀態(tài)為false,則在第二次循環(huán)中,在執(zhí)行語義表達(dá)式創(chuàng)建步驟時(shí),僅使用狀態(tài)為true的相似問句創(chuàng)建語義表達(dá)式。具體而言,從該標(biāo)準(zhǔn)問的狀態(tài)為true的那些相似問句分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的語義表達(dá)式。
經(jīng)過預(yù)訂次數(shù)的這種循環(huán),每次循環(huán)語義表達(dá)式的長度逐漸增加,為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建出越來越準(zhǔn)確、完善的語義表達(dá)式。圖2示出了根據(jù)本發(fā)明的具體實(shí)施例的用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法的流程圖。
較佳地,如果以上述預(yù)訂次數(shù)的循環(huán)為一個(gè)例程,可重復(fù)執(zhí)行此例程若干次,后續(xù)每次例程中,只有狀態(tài)為true的相似問句參與語義表達(dá)式創(chuàng)建。換言之,只有第一個(gè)例程的第一次循環(huán)中的語義表達(dá)式創(chuàng)建步驟是所有的相似問句參與語義表達(dá)式創(chuàng)建,在第一個(gè)例程的后續(xù)所有循環(huán)中以及在后續(xù)例程的所有循環(huán)中都是只有狀態(tài)為true的相似問句參與語義表達(dá)式創(chuàng)建。
最后,標(biāo)記為true的相似問句可被加到對(duì)應(yīng)標(biāo)準(zhǔn)問的“普通問句形式的擴(kuò)展問”參與標(biāo)準(zhǔn)問匹配過程中的相似度計(jì)算。
上述循環(huán)和例程的執(zhí)行如下:
步驟120~步驟140循環(huán)
i=i+1
}
k=k+1
}
其中,m為語義表達(dá)式長度下限;n為語義表達(dá)式長度上限;i為循環(huán)索引;j為例程執(zhí)行次數(shù),k為例程索引。
示例:
3條標(biāo)準(zhǔn)問:
開通彩鈴;取消彩鈴;介紹彩鈴,其對(duì)應(yīng)的相似問句如下:
“開通彩鈴”的相似問句
我想用彩鈴
如何開通彩鈴
如何啟用彩鈴
幫我開通彩鈴
幫我啟用彩鈴
介紹一下如何開通彩鈴
介紹彩鈴的開通方法
“取消彩鈴”的相似問句
如何取消彩鈴
如何關(guān)閉彩鈴
幫我取消彩鈴
幫我關(guān)閉彩鈴
介紹一下如何取消彩鈴
介紹彩鈴的取消方法
我不想用彩鈴了
“介紹彩鈴”的相似問句
彩鈴是什么
幫我介紹一下彩鈴
介紹一下彩鈴
彩鈴?
設(shè)m=1,n=3,j=2
循環(huán)開始,i從下限1開始執(zhí)行。
執(zhí)行步驟120,生成語義表達(dá)式時(shí),設(shè)定生成長度1,每條標(biāo)準(zhǔn)問都會(huì)生成語義表達(dá)式[彩鈴],因?yàn)閳?zhí)行時(shí)帶有“介紹”的標(biāo)準(zhǔn)問優(yōu)先,所以,只有“介紹彩鈴”能夠保存模板[彩鈴],其他幾條因?yàn)楸4鏁r(shí)出現(xiàn)沖突,都不能保存語義表達(dá)式。這里的沖突即是指先前以有其他標(biāo)準(zhǔn)問保存了[彩鈴]作為其語義表達(dá)式,后續(xù)的標(biāo)準(zhǔn)問則不能再將已被保存為其他標(biāo)準(zhǔn)問的語義表達(dá)式保存作為自己的語義表達(dá)式。
執(zhí)行步驟130,“介紹彩鈴”中相似問句“彩鈴?”能夠匹配語義表達(dá)式“[彩鈴]”,相似問句“彩鈴?”由此標(biāo)記為“false”,語義表達(dá)式“[彩鈴]”標(biāo)記為“true”。其他標(biāo)準(zhǔn)問下的相似問句都標(biāo)記為“true”。
執(zhí)行步驟140,沒有語義表達(dá)式被刪除,結(jié)果和上一步一樣。另一方面,如果沒有相似問句“彩鈴?”,則執(zhí)行這一步時(shí),語義表達(dá)式“[彩鈴]”會(huì)被刪掉。
第二次循環(huán),i加1變成2
執(zhí)行步驟120,三個(gè)標(biāo)準(zhǔn)問分別生成語義表達(dá)式:
“[開通][彩鈴]”、“[啟用][彩鈴]”
“[取消][彩鈴]”、“[關(guān)閉][彩鈴]”
“[介紹][彩鈴]”;
執(zhí)行步驟130,“開通彩鈴”的相似問句“我想用彩鈴”、“介紹一下如何開通彩鈴”、“介紹彩鈴的開通方法”沒有匹配任何一個(gè)語義表達(dá)式,標(biāo)記為“true”,其他相似問句標(biāo)記為“false”,語義表達(dá)式“[開通][彩鈴]”、“[啟用][彩鈴]”標(biāo)記為“true”;
“取消彩鈴”的相似問句“我不想用彩鈴了”、“介紹一下如何取消彩鈴”、“介紹彩鈴的取消方法”沒有匹配任何一個(gè)語義表達(dá)式,標(biāo)記為“true”,其他相似問句標(biāo)記為“false”,語義表達(dá)式“[取消][彩鈴]”、“[關(guān)閉][彩鈴]”標(biāo)記為“true”;
“介紹彩鈴”的相似問句“彩鈴是什么”沒有匹配任何一個(gè)語義表達(dá)式,標(biāo)記為“true”,其他相似問句標(biāo)記為“false”,語義表達(dá)式“[介紹][彩鈴]”、“彩鈴”標(biāo)記為true。
執(zhí)行步驟140,沒有語義表達(dá)式被刪除,結(jié)果和上一步一樣。
第三次循環(huán),i=3
執(zhí)行120:“開通彩鈴”新增語義表達(dá)式[介紹][開通][彩鈴];
“取消彩鈴”新增語義表達(dá)式[介紹][取消][彩鈴];
“介紹彩鈴”沒有生成新模板。
執(zhí)行步驟130:“我想用彩鈴”、“我不想用彩鈴了”、“彩鈴是什么”3個(gè)相似問句皆未能匹配各自的任何一個(gè)語義表達(dá)式,因此狀態(tài)還是“true”,其他相似問句都是“false”,所有語義表達(dá)式也都被各自標(biāo)準(zhǔn)問下的某一個(gè)或多個(gè)相似問句所匹配,所以狀態(tài)都是“true”。
執(zhí)行步驟140,沒有語義表達(dá)式被刪除,結(jié)果和上一步一樣。
三次循環(huán)作為一個(gè)例程執(zhí)行完畢后,執(zhí)行下一個(gè)例程,直至j=2個(gè)例程執(zhí)行完畢。最終,為這三個(gè)標(biāo)準(zhǔn)問分別生成了語義表達(dá)式如下:
“開通彩鈴”的語義表達(dá)式:“[開通][彩鈴]”、“[啟用][彩鈴]”、[介紹][開通][彩鈴];
“取消彩鈴”的語義表達(dá)式:“[取消][彩鈴]”、“[關(guān)閉][彩鈴]”、“[介紹][取消][彩鈴]”;
“介紹彩鈴”的語義表達(dá)式:“[介紹][彩鈴]”、“[彩鈴]”
另外,相似問句“我想用彩鈴”、“我不想用彩鈴了”、“彩鈴是什么”3可作為各自標(biāo)準(zhǔn)問的普通擴(kuò)展問使用。此時(shí)利用所有相似問句作為測試樣例跑錯(cuò)的正確率達(dá)到100%。
盡管為使解釋簡單化將上述方法圖示并描述為一系列動(dòng)作,但是應(yīng)理解并領(lǐng)會(huì),這些方法不受動(dòng)作的次序所限,因?yàn)楦鶕?jù)一個(gè)或多個(gè)實(shí)施例,一些動(dòng)作可按不同次序發(fā)生和/或與來自本文中圖示和描述或本文中未圖示和描述但本領(lǐng)域技術(shù)人員可以理解的其他動(dòng)作并發(fā)地發(fā)生。
圖3是示出了根據(jù)本發(fā)明的一方面的用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的裝置300的框圖,該知識(shí)庫包括多個(gè)標(biāo)準(zhǔn)問,每個(gè)標(biāo)準(zhǔn)問具有相關(guān)聯(lián)的多個(gè)相似問句。
該裝置300可包括數(shù)據(jù)獲取模塊310、語義表達(dá)式創(chuàng)建模塊320、檢測模塊330、以及編輯模塊340。數(shù)據(jù)獲取模塊310可用于針對(duì)每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)相似問句相應(yīng)的多個(gè)相似問句分詞結(jié)果,其中每個(gè)相似問句分詞結(jié)果由對(duì)應(yīng)相似問句的各單詞所屬的詞類組成。
語義表達(dá)式創(chuàng)建模塊320可針對(duì)每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)語義表達(dá)式,每個(gè)詞組由預(yù)定數(shù)目個(gè)詞類組成。該預(yù)定數(shù)目可大于等于1
作為實(shí)例,語義表達(dá)式創(chuàng)建模塊320可針對(duì)每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)相似問句分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組作為該標(biāo)準(zhǔn)問的一個(gè)語義表達(dá)式,然后從該標(biāo)準(zhǔn)問的未包括該詞組的相似問句分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組繼續(xù)作為該標(biāo)準(zhǔn)問的一個(gè)語義表達(dá)式,重復(fù)此過程直至該標(biāo)準(zhǔn)問下沒有其余的相似問句分詞結(jié)果或者剩余的相似問句分詞結(jié)果之間沒有達(dá)到所述預(yù)定數(shù)目個(gè)詞類的交集。
剩余的相似問句分詞結(jié)果之間沒有達(dá)到所述預(yù)定數(shù)目個(gè)詞類的交集,也就不再作為語義表達(dá)式的生成原料,這些相似問句分詞結(jié)果對(duì)應(yīng)的相似問句直接作為擴(kuò)展問在后續(xù)使用。
作為示例,該復(fù)雜度可基于標(biāo)準(zhǔn)問的字?jǐn)?shù),字?jǐn)?shù)越少復(fù)雜度越低。
較優(yōu)地,語義表達(dá)式創(chuàng)建模塊320可按照復(fù)雜度由低到高的順序?yàn)楦鳂?biāo)準(zhǔn)問創(chuàng)建語義表達(dá)式,在創(chuàng)建過程中,若為在后的標(biāo)準(zhǔn)問生成的語義表達(dá)式與在前的標(biāo)準(zhǔn)問的已生成語義表達(dá)式重復(fù),則該重復(fù)的語義表達(dá)式不作為該在后的標(biāo)準(zhǔn)問的語義表達(dá)式保存。
檢測模塊330可針對(duì)所有標(biāo)準(zhǔn)問的所有相似問句,執(zhí)行標(biāo)準(zhǔn)問匹配處理,對(duì)于為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建的每個(gè)語義表達(dá)式,判斷該語義表達(dá)式是否被匹配至其標(biāo)準(zhǔn)問的至少一個(gè)相似問句,若是,則該語義表達(dá)式被標(biāo)記為第一狀態(tài),例如狀態(tài)true,否則被標(biāo)記為第二狀態(tài),例如狀態(tài)false。
作為實(shí)例,檢測模塊330可包括語義相似度計(jì)算單元331,針對(duì)每個(gè)相似問句,語義相似度計(jì)算單元331可將該相似問句與針對(duì)所有標(biāo)準(zhǔn)問生成的所有語義表達(dá)式執(zhí)行語義相似度計(jì)算,并將該相似問句匹配至具有最高語義相似度且該最高語義相似度高于閾值的語義表達(dá)式。
檢測模塊330的檢測步驟是對(duì)上述初步建立的各標(biāo)準(zhǔn)問的語義表達(dá)式進(jìn)行“跑錯(cuò)”的過程。此跑錯(cuò)的核心就是以每個(gè)標(biāo)準(zhǔn)問自身相關(guān)聯(lián)的相似問句為測試樣例來測試先前為該標(biāo)準(zhǔn)問創(chuàng)建的語義表達(dá)式是否可行,換言之,就是標(biāo)準(zhǔn)問的相似問句是否能夠匹配至先前自動(dòng)創(chuàng)建的語義表達(dá)式,進(jìn)而由此匹配至該標(biāo)準(zhǔn)問。
如果標(biāo)準(zhǔn)問的至少一個(gè)相似問句能夠匹配至先前為該標(biāo)準(zhǔn)問創(chuàng)建的一個(gè)語義表達(dá)式,則認(rèn)為該語義表達(dá)式是可用的,該語義表達(dá)式可被標(biāo)記為狀態(tài)true。注意,針對(duì)某一標(biāo)準(zhǔn)問的某個(gè)相似問句的標(biāo)準(zhǔn)問匹配是在為所有標(biāo)準(zhǔn)問生成的所有語義表達(dá)式的范圍內(nèi)來執(zhí)行的,即將該相似問句不僅與該標(biāo)準(zhǔn)問的所有語義表達(dá)式執(zhí)行語義相似度計(jì)算,而且還與其他標(biāo)準(zhǔn)問的所有語義表達(dá)式執(zhí)行語義相似度計(jì)算。由此,對(duì)于某個(gè)標(biāo)準(zhǔn)問的某個(gè)相似問句而言,該相似問句可能會(huì)被定位匹配至其他標(biāo)準(zhǔn)問的某個(gè)語義表達(dá)式,換言之,對(duì)于某個(gè)標(biāo)準(zhǔn)問的某個(gè)語義表達(dá)式而言,該語義表達(dá)式可能與其他標(biāo)準(zhǔn)問的相似問句相匹配。
如果一個(gè)標(biāo)準(zhǔn)問的先前創(chuàng)建的某一個(gè)語義表達(dá)式,該標(biāo)準(zhǔn)問的所有的相似問句都未能與該語義表達(dá)式相匹配,則即使有其他標(biāo)準(zhǔn)問的相似問句定位匹配至該語義表達(dá)式也,認(rèn)為該語義表達(dá)式是無效的。所有被認(rèn)為無效的語義表達(dá)式可被標(biāo)記為狀態(tài)false。
最后,編輯模塊340可刪除所有狀態(tài)為false的語義表達(dá)式。剩余的語義表達(dá)式即為獲得的有效語義表達(dá)式。
進(jìn)一步地,檢測模塊330還可包括狀態(tài)標(biāo)記單元332,用于在語義相似度計(jì)算單元331執(zhí)行標(biāo)準(zhǔn)問匹配處理之后,對(duì)于每個(gè)標(biāo)準(zhǔn)問的每個(gè)相似問句,判斷該相似問句是否被匹配至與之相關(guān)聯(lián)的標(biāo)準(zhǔn)問所屬的語義表達(dá)式,若是將該相似問句標(biāo)記為第四狀態(tài),例如狀態(tài)false,否則若該相似問句未被定位匹配至該標(biāo)準(zhǔn)問的任何一個(gè)語義表達(dá)式,例如匹配失敗(即未找到與之具有高于閾值語義相似度的語義表達(dá)式)或者被定位至其他標(biāo)準(zhǔn)問的某一個(gè)語義表達(dá)式(即與其他標(biāo)準(zhǔn)問的某一個(gè)語義表達(dá)式具有最大語義相似度,也稱之為被其他標(biāo)準(zhǔn)問的該語義表達(dá)式“搶”),將該相似問句標(biāo)記為第三狀態(tài),例如狀態(tài)true。
在此實(shí)例中,語義表達(dá)式創(chuàng)建模塊320、檢測模塊330、和編輯模塊340依次循環(huán)執(zhí)行所述語義表達(dá)式創(chuàng)建、所述檢測、和所述刪除的步驟預(yù)定次數(shù),其中,語義表達(dá)式創(chuàng)建模塊330用來組成所述詞組的詞類的所述預(yù)定數(shù)目隨著循環(huán)依次遞增,換言之,在下一次循環(huán)中,在執(zhí)行語義表達(dá)式創(chuàng)建時(shí),使用比上一次循環(huán)中加1的詞類數(shù)目來構(gòu)建語義表達(dá)式。例如,假設(shè)循環(huán)執(zhí)行3次,在第一次循環(huán)中,構(gòu)成語義表達(dá)式的詞組由1個(gè)詞類組成;則在第二次循環(huán)中,構(gòu)成語義表達(dá)式的詞組由2個(gè)詞類組成,在第三次循環(huán)中,構(gòu)成語義表達(dá)式的詞組由3個(gè)詞類組成。且在后續(xù)循環(huán)中只有狀態(tài)為true的相似問句被所述語義表達(dá)式創(chuàng)建模塊用來參與語義表達(dá)式創(chuàng)建。
經(jīng)過預(yù)訂次數(shù)的這種循環(huán),每次循環(huán)語義表達(dá)式的長度逐漸增加,為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建出越來越準(zhǔn)確、完善的語義表達(dá)式。
在每個(gè)循環(huán)周期中,在編輯模塊340執(zhí)行刪除的步驟之后,檢測模塊330可立即再次針對(duì)所有標(biāo)準(zhǔn)問的所有相似問句,執(zhí)行標(biāo)準(zhǔn)問匹配處理,然后若是有狀態(tài)為第三狀態(tài)的相似問句被匹配至與之相關(guān)聯(lián)的標(biāo)準(zhǔn)問所屬的語義表達(dá)式,則其狀態(tài)被所述狀態(tài)標(biāo)記單元由第三狀態(tài)改為第四狀態(tài)。這是因?yàn)橄惹盃顟B(tài)為false(即只會(huì)“搶”其他相似問句)的語義表達(dá)式被刪除之后,有可能一些標(biāo)記為第三狀態(tài)(即被“搶”)的相似問句有可能被觸發(fā)到自己對(duì)應(yīng)的標(biāo)準(zhǔn)問下。
在一進(jìn)一步的實(shí)例中,以該預(yù)定次數(shù)的循環(huán)為一個(gè)例程,語義表達(dá)式創(chuàng)建模塊320、檢測模塊330、和編輯模塊340重復(fù)執(zhí)行所述例程若干次,后續(xù)每次例程中,只有狀態(tài)為true的相似問句參與語義表達(dá)式創(chuàng)建。
本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,該處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法中的步驟。
本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法中的步驟。
其中,計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的裝置的具體實(shí)現(xiàn)方式和技術(shù)效果均可參見上述用于為知識(shí)庫中的標(biāo)準(zhǔn)問生成語義表達(dá)式的方法的實(shí)施例,在此不再贅述。
根據(jù)本發(fā)明的方案,可以從普通的相似問句中自動(dòng)生成語義表達(dá)式,語義表達(dá)式在語義匹配時(shí)具有較高的效率和準(zhǔn)確率,提高了智能問答系統(tǒng)的性能。同時(shí)由于不無需要手工編寫語義表達(dá)式,顯著提高了語義表達(dá)式的生成效率,為高效、便捷地建立知識(shí)庫提供了基礎(chǔ)。
本領(lǐng)域技術(shù)人員將進(jìn)一步領(lǐng)會(huì),結(jié)合本文中所公開的實(shí)施例來描述的各種解說性邏輯板塊、模塊、電路、和算法步驟可實(shí)現(xiàn)為電子硬件、計(jì)算機(jī)軟件、或這兩者的組合。為清楚地解說硬件與軟件的這一可互換性,各種解說性組件、框、模塊、電路、和步驟在上面是以其功能性的形式作一般化描述的。此類功能性是被實(shí)現(xiàn)為硬件還是軟件取決于具體應(yīng)用和施加于整體系統(tǒng)的設(shè)計(jì)約束。技術(shù)人員對(duì)于每種特定應(yīng)用可用不同的方式來實(shí)現(xiàn)所描述的功能性,但這樣的實(shí)現(xiàn)決策不應(yīng)被解讀成導(dǎo)致脫離了本發(fā)明的范圍。
結(jié)合本文所公開的實(shí)施例描述的各種解說性邏輯模塊、和電路可用通用處理器、數(shù)字信號(hào)處理器(dsp)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或其它可編程邏輯器件、分立的門或晶體管邏輯、分立的硬件組件、或其設(shè)計(jì)成執(zhí)行本文所描述功能的任何組合來實(shí)現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但在替換方案中,該處理器可以是任何常規(guī)的處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器還可以被實(shí)現(xiàn)為計(jì)算設(shè)備的組合,例如dsp與微處理器的組合、多個(gè)微處理器、與dsp核心協(xié)作的一個(gè)或多個(gè)微處理器、或任何其他此類配置。
結(jié)合本文中公開的實(shí)施例描述的方法或算法的步驟可直接在硬件中、在由處理器執(zhí)行的軟件模塊中、或在這兩者的組合中體現(xiàn)。軟件模塊可駐留在ram存儲(chǔ)器、閃存、rom存儲(chǔ)器、eprom存儲(chǔ)器、eeprom存儲(chǔ)器、寄存器、硬盤、可移動(dòng)盤、cd-rom、或本領(lǐng)域中所知的任何其他形式的存儲(chǔ)介質(zhì)中。示例性存儲(chǔ)介質(zhì)耦合到處理器以使得該處理器能從/向該存儲(chǔ)介質(zhì)讀取和寫入信息。在替換方案中,存儲(chǔ)介質(zhì)可以被整合到處理器。處理器和存儲(chǔ)介質(zhì)可駐留在asic中。asic可駐留在用戶終端中。在替換方案中,處理器和存儲(chǔ)介質(zhì)可作為分立組件駐留在用戶終端中。
在一個(gè)或多個(gè)示例性實(shí)施例中,所描述的功能可在硬件、軟件、固件或其任何組合中實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn)為計(jì)算機(jī)程序產(chǎn)品,則各功能可以作為一條或更多條指令或代碼存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上或藉其進(jìn)行傳送。計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)兩者,其包括促成計(jì)算機(jī)程序從一地向另一地轉(zhuǎn)移的任何介質(zhì)。存儲(chǔ)介質(zhì)可以是能被計(jì)算機(jī)訪問的任何可用介質(zhì)。作為示例而非限定,這樣的計(jì)算機(jī)可讀介質(zhì)可包括ram、rom、eeprom、cd-rom或其它光盤存儲(chǔ)、磁盤存儲(chǔ)或其它磁存儲(chǔ)設(shè)備、或能被用來攜帶或存儲(chǔ)指令或數(shù)據(jù)結(jié)構(gòu)形式的合意程序代碼且能被計(jì)算機(jī)訪問的任何其它介質(zhì)。任何連接也被正當(dāng)?shù)胤Q為計(jì)算機(jī)可讀介質(zhì)。例如,如果軟件是使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(dsl)、或諸如紅外、無線電、以及微波之類的無線技術(shù)從web網(wǎng)站、服務(wù)器、或其它遠(yuǎn)程源傳送而來,則該同軸電纜、光纖電纜、雙絞線、dsl、或諸如紅外、無線電、以及微波之類的無線技術(shù)就被包括在介質(zhì)的定義之中。如本文中所使用的盤(disk)和碟(disc)包括壓縮碟(cd)、激光碟、光碟、數(shù)字多用碟(dvd)、軟盤和藍(lán)光碟,其中盤(disk)往往以磁的方式再現(xiàn)數(shù)據(jù),而碟(disc)用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。上述的組合也應(yīng)被包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
提供對(duì)本公開的先前描述是為使得本領(lǐng)域任何技術(shù)人員皆能夠制作或使用本公開。對(duì)本公開的各種修改對(duì)本領(lǐng)域技術(shù)人員來說都將是顯而易見的,且本文中所定義的普適原理可被應(yīng)用到其他變體而不會(huì)脫離本公開的精神或范圍。由此,本公開并非旨在被限定于本文中所描述的示例和設(shè)計(jì),而是應(yīng)被授予與本文中所公開的原理和新穎性特征相一致的最廣范圍。