本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,尤其涉及用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的方法和裝置。
背景技術(shù):
人機(jī)交互是研究系統(tǒng)與用戶之間的交互關(guān)系的科學(xué)。系統(tǒng)可以是各種各樣的機(jī)器,也可以是計(jì)算機(jī)化的系統(tǒng)和軟件。例如,通過人機(jī)交互可以實(shí)現(xiàn)各種人工智能系統(tǒng),例如,智能客服系統(tǒng)、語音控制系統(tǒng)等等。人工智能語義識別是人機(jī)交互的基礎(chǔ),其能夠?qū)θ祟愓Z言進(jìn)行識別,以轉(zhuǎn)換成機(jī)器能夠理解的語言。
智能問答系統(tǒng)是人機(jī)交互的一種典型應(yīng)用,其中當(dāng)用戶提出問題后,智能問答系統(tǒng)給出該問題的答案。為此,智能問答系統(tǒng)中有一套知識庫,里面有大量的問題和與每個(gè)問題相對應(yīng)的答案。智能問答系統(tǒng)首先需要識別用戶所提出的問題,即從知識庫中找到與該用戶問題所對應(yīng)的問題,然后找出與該問題相匹配的答案。
知識庫中的基本知識點(diǎn)最原始和最簡單的形式就是平時(shí)常用的faq,一般的形式是“問-答”對。在本發(fā)明中,“標(biāo)準(zhǔn)問”是用來表示某個(gè)知識點(diǎn)的文字,主要目標(biāo)是表達(dá)清晰,便于維護(hù)。例如,“彩鈴的資費(fèi)”就是表達(dá)清晰的標(biāo)準(zhǔn)問描述。這里的“問”不應(yīng)被狹義地理解為“詢問”,而應(yīng)廣義地來理解一“輸入”,該“輸入”具有對應(yīng)的“輸出”。例如,對于用于控制系統(tǒng)的語義識別而言,用戶的一個(gè)指令,例如“打開收音機(jī)”也應(yīng)可以被理解為是一個(gè)“問”,此時(shí)對應(yīng)的“答”可以是用于執(zhí)行相應(yīng)控制的控制程序的調(diào)用。
用戶在向機(jī)器輸入時(shí),最理想的情況是使用標(biāo)準(zhǔn)問,則機(jī)器的智能語義識別系統(tǒng)馬上能夠理解用戶的意思。然而,用戶往往并非使用的是標(biāo)準(zhǔn)問,而是標(biāo)準(zhǔn)問的一些變形的形式。例如,若對于收音機(jī)的電臺切換的標(biāo)準(zhǔn)問形式是“換一個(gè)電臺”,那么用戶可能使用的命令是“切換一個(gè)電臺”,機(jī)器也需要能夠識別用戶表達(dá)的是同一個(gè)意思。
因此,對于智能語義識別而言,知識庫里需要有標(biāo)準(zhǔn)問的擴(kuò)展問,該擴(kuò)展問與標(biāo)準(zhǔn)問表達(dá)形式有略微差異,但是表達(dá)相同的含義。在用戶輸入用戶問句后,主要依靠擴(kuò)展問來實(shí)現(xiàn)用戶問句與標(biāo)準(zhǔn)問的匹配。
作為示例,可以將用戶問句與知識庫中所有標(biāo)準(zhǔn)問的所有擴(kuò)展問執(zhí)行語義相似度計(jì)算,找出與該用戶問句具有最高語義相似度的擴(kuò)展問,若該最高語義相似度高出系統(tǒng)所設(shè)的閾值,則該擴(kuò)展問所對應(yīng)的標(biāo)準(zhǔn)問被認(rèn)為是與該用戶問句相匹配的標(biāo)準(zhǔn)問,進(jìn)而將該標(biāo)準(zhǔn)問所對應(yīng)的知識點(diǎn)中的答案反饋給用戶。另一方面,若計(jì)算出的該最高語義相似度低于系統(tǒng)所設(shè)的該閾值,則認(rèn)為標(biāo)準(zhǔn)問匹配失敗。此時(shí),可向用戶反饋語義識別失敗,提示用戶可再次輸入。
由此,擴(kuò)展問的質(zhì)量至關(guān)重要。目前人工智能領(lǐng)域主要還是依靠人工整理擴(kuò)展問的方式,因?yàn)檎淼膬?nèi)容多,測試中一直存在效率和效果不能兼得的問題。即如果抽測的內(nèi)容少,結(jié)果的隨機(jī)性就大,如果抽測的內(nèi)容多,則相當(dāng)于測試人員重做知識庫。
因此,一種高效地評價(jià)擴(kuò)展問質(zhì)量的方案是本領(lǐng)域所希望的。
技術(shù)實(shí)現(xiàn)要素:
以下給出一個(gè)或多個(gè)方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個(gè)或多個(gè)方面的一些概念以為稍后給出的更加詳細(xì)的描述之序。
根據(jù)本發(fā)明的一方面,提供了一種用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的方法,該知識庫包括多個(gè)標(biāo)準(zhǔn)問,每個(gè)標(biāo)準(zhǔn)問具有關(guān)聯(lián)的多個(gè)擴(kuò)展問,每個(gè)擴(kuò)展問是相應(yīng)標(biāo)準(zhǔn)問的相似問法,該方法包括:對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行不預(yù)設(shè)聚類數(shù)量的聚類處理,以將每個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問聚類為多個(gè)聚類;基于聚類的數(shù)目確定擴(kuò)展問復(fù)雜度;以及將擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得擴(kuò)展問質(zhì)量信息。
根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,該處理器執(zhí)行該計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。
根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
根據(jù)本發(fā)明的另一方面,提供了一種用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的裝置,該知識庫包括多個(gè)標(biāo)準(zhǔn)問,每個(gè)標(biāo)準(zhǔn)問具有關(guān)聯(lián)的多個(gè)擴(kuò)展問,每個(gè)擴(kuò)展問是相應(yīng)標(biāo)準(zhǔn)問的相似問法,該裝置包括聚類模塊,用于對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行不預(yù)設(shè)聚類數(shù)量的聚類處理,以將每個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問聚類為多個(gè)聚類;復(fù)雜度確定模塊,用于基于聚類的數(shù)目確定擴(kuò)展問復(fù)雜度;以及質(zhì)量確定模塊,將擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得擴(kuò)展問質(zhì)量信息。
本發(fā)明中從另一個(gè)角度——擴(kuò)展問的復(fù)雜程度,來判斷知識庫的質(zhì)量。即在編輯不是刻意出錯(cuò)的前提下,通過自動檢測擴(kuò)展問的有效問法數(shù)量,來判斷編輯的“有效工作量”,從而判斷知識庫的質(zhì)量。在本發(fā)明中,對擴(kuò)展問進(jìn)行聚類處理,每一個(gè)聚類可以代表一種有效問法,因此,基于聚類的數(shù)目可以確定擴(kuò)展問的復(fù)雜度,進(jìn)而判斷擴(kuò)展問質(zhì)量。以此方式,能夠代替人工地對擴(kuò)展問評估,極大地提高了評估效率。
附圖說明
在結(jié)合以下附圖閱讀本公開的實(shí)施例的詳細(xì)描述之后,能夠更好地理解本發(fā)明的上述特征和優(yōu)點(diǎn)。在附圖中,各組件不一定是按比例繪制,并且具有類似的相關(guān)特性或特征的組件可能具有相同或相近的附圖標(biāo)記。
圖1是示出了根據(jù)本發(fā)明的用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的方法的流程圖;
圖2是示出了根據(jù)本發(fā)明的一方面的對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行聚類處理的方法的流程圖;
圖3示出了根據(jù)本發(fā)明的具體實(shí)施例的用于對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行聚類處理的方法的流程圖;
圖4是示出了根據(jù)本發(fā)明的用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的裝置的框圖;以及
圖5是示出了根據(jù)本發(fā)明的一方面的聚類模塊的框圖。
具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施例對本發(fā)明作詳細(xì)描述。注意,以下結(jié)合附圖和具體實(shí)施例描述的諸方面僅是示例性的,而不應(yīng)被理解為對本發(fā)明的保護(hù)范圍進(jìn)行任何限制。
實(shí)踐中,擴(kuò)展問的一個(gè)形式是普通問句形式的相似問句。擴(kuò)展問的另一種形式是語義表達(dá)式。一個(gè)標(biāo)準(zhǔn)問可以由若干語義表達(dá)式來表征。采用語義表達(dá)式進(jìn)行標(biāo)準(zhǔn)問匹配效果較好。
語義表達(dá)式主要由詞和詞類構(gòu)成,其核心依賴于“詞類”,詞類簡單的理解即為一組有共性的詞,這些詞在語義上可以相似也可以不相似,這些詞也可以被標(biāo)注為重要或不重要。詞類是對一組相關(guān)詞的匯總,詞類由詞類名和一組相關(guān)詞所組成。詞類名是在這組相關(guān)詞中具有標(biāo)簽作用的詞,即詞類的代表。一個(gè)詞類中至少包含一個(gè)詞(即詞類本身)。
語義表達(dá)式與用戶問句關(guān)系與傳統(tǒng)的模板匹配有了很大的不同,在傳統(tǒng)模板匹配中,模板和用戶問句只是匹配與未匹配的關(guān)系,而語義表達(dá)式與用戶問句之間關(guān)系是通過量化的值(相似度)來表示,同時(shí)這個(gè)量化的值與相似問句和用戶問句之間的相似度是可以互相比較的。
以下說明語義表達(dá)式的具體組成和符號的表示。為區(qū)分表達(dá)式中的詞與詞類,規(guī)定詞類必須出現(xiàn)在方括號“[]”中,方括號中出現(xiàn)的詞類一般為“狹義詞類”,但是也可通過配置系統(tǒng)參數(shù)以支持“廣義詞類”。詞類是按照詞的語義進(jìn)行劃分的,把一組相關(guān)的詞組織在一起形成一個(gè)樹狀結(jié)構(gòu)的詞類庫,在這個(gè)樹狀結(jié)構(gòu)中的任意一個(gè)非葉子結(jié)點(diǎn)都稱作一個(gè)詞類(廣義詞類),其中直接包含詞的第一級詞類稱為狹義詞類。
下面是一些簡單表達(dá)式的示例:
[飛信][如何][開通]
[介紹][彩信][業(yè)務(wù)]
[飛信]的[登錄][方法]
[來電提醒][如何][收費(fèi)]
從人工測試擴(kuò)展問質(zhì)量的工作中,可以得出如下經(jīng)驗(yàn),如果擴(kuò)展問都很相似,數(shù)量再多也沒多大效果,一個(gè)熟練的編輯,可以迅速圍繞一個(gè)標(biāo)準(zhǔn)問變化出字面上類似的擴(kuò)展問,主要的難度在那些意思相近,但文字差距大的問法上,而這樣的問法一旦被編輯發(fā)現(xiàn),則可以迅速變化出文字相似的擴(kuò)展問。
本發(fā)明中從另一個(gè)角度——擴(kuò)展問的復(fù)雜程度,來判斷知識庫的質(zhì)量。即在編輯不是刻意出錯(cuò)的前提下,通過自動檢測擴(kuò)展問的有效問法數(shù)量,來判斷編輯的“有效工作量”,從而判斷知識庫的質(zhì)量。具體而言,在本發(fā)明中,對擴(kuò)展問進(jìn)行聚類處理,每一個(gè)聚類可以代表一種有效問法,因此,基于聚類的數(shù)目可以確定擴(kuò)展問的復(fù)雜度,進(jìn)而判斷擴(kuò)展問質(zhì)量。
圖1是示出了根據(jù)本發(fā)明的用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的方法100的流程圖。如圖1所示,方法200可包括如下步驟:
步驟110,對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行不預(yù)設(shè)聚類數(shù)量的聚類處理,以將每個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問聚類為多個(gè)聚類。
聚類處理可以采用任何已知的算法,例如birch算法、k-means算法、dbscan算法,此處執(zhí)行的聚類算法均為不預(yù)設(shè)聚類數(shù)量的。例如:可以采用對k-means算法做如下改進(jìn)得到不預(yù)設(shè)聚類數(shù)量的聚類結(jié)果。
獲取語料數(shù)據(jù),提取其中的問句信息;
對問句信息進(jìn)行預(yù)處理和分詞處理,得到問句信息的特征詞;
獲取特征詞的詞向量,并根據(jù)詞向量構(gòu)造問句信息的句向量;
根據(jù)相似度計(jì)算對問句信息進(jìn)行聚類處理,聚類處理包括:分別獲取第m個(gè)問句信息的句向量與已聚類的k個(gè)問句信息組的句向量平均值之間的最大相似度值,當(dāng)最大相似度值大于預(yù)設(shè)值時(shí),將第m個(gè)問句信息聚類到最大相似度值對應(yīng)的問句信息組中;當(dāng)最大相似度值小于預(yù)設(shè)值時(shí),將第m個(gè)問句信息作為第k+1個(gè)問句信息組,k小于或等于m-1。
上述方法采用改進(jìn)的k-means算法實(shí)現(xiàn)問句的聚類:改進(jìn)的k-means算法避免了傳統(tǒng)的k-means算法中k值選擇難的問題。該算法是指對問句依次進(jìn)行聚類;k值從1開始遞增,并且在此過程中不斷更新中心點(diǎn)來實(shí)現(xiàn)整個(gè)聚類。聚類處理具體包括:
對t個(gè)句向量qt進(jìn)行聚類,其中t≥m,m≥2;其中,t個(gè)句向量為:q1,q2,…,qt。
初始k值、中心點(diǎn)pk-1、以及聚類問題集{k,[pk-1]},其中,k表示聚類的類別數(shù),k的初始值為1,中心點(diǎn)pk-1的初始值為p0,p0=q1,q1表示第1個(gè)句向量,聚類問題集的初始值為{1,[q1]};
依次對剩下的qt進(jìn)行聚類,計(jì)算當(dāng)前句向量與每個(gè)聚類問題集的中心點(diǎn)的相似度,如果當(dāng)前句向量與某個(gè)聚類問題集的中心點(diǎn)的相似度大于或等于預(yù)設(shè)值,則將當(dāng)前句向量聚類到相應(yīng)的聚類問題集中,保持k值不變,將相應(yīng)的中心點(diǎn)更新為聚類問題集中所有句向量的向量平均值,相應(yīng)的聚類問題集為{k,[句向量的向量平均值]};如果當(dāng)前句向量與所有聚類問題集中的中心點(diǎn)的相似度均小于預(yù)設(shè)值,則令k=k+1,增加新的中心點(diǎn),新的中心點(diǎn)的值為當(dāng)前句向量,并增加新的聚類問題集{k,[當(dāng)前句向量]}。
下面以對q2聚類進(jìn)行舉例說明:計(jì)算q2與q1的語義相似度i,若相似度i大于0.9(根據(jù)需求設(shè)定預(yù)設(shè)值),則認(rèn)為q2和q1屬于同一個(gè)類,此時(shí)k=1不變,p0更新為q1和q2的向量平均值,聚類的問題集為{1,[q1,q2]};若相似度i不滿足要求,則q2和q1屬于不同的類,此時(shí)k=2,p0=q1,p1=q2,聚類的問題集為{1,[q1]},{2,[q2]}。
采用上述方法依次對剩余其他問句進(jìn)行聚類完成的同時(shí)可以得到k最終值。
也可以采用本發(fā)明所提出的一種聚類方案,如下文詳細(xì)描述的。
步驟120,基于聚類的數(shù)目確定擴(kuò)展問復(fù)雜度。
通過聚類處理,每個(gè)標(biāo)準(zhǔn)問的擴(kuò)展問被分為了一定數(shù)目的聚類。聚類的數(shù)目可以被用作確定擴(kuò)展問復(fù)雜度的依據(jù)。
在一實(shí)例中,統(tǒng)計(jì)所有標(biāo)準(zhǔn)問的聚類總數(shù),以及計(jì)算聚類總數(shù)與標(biāo)準(zhǔn)問總數(shù)的比值以作為整體擴(kuò)展問復(fù)雜度。在另一實(shí)例中,將每個(gè)標(biāo)準(zhǔn)問自身的聚類數(shù)目作為該標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問復(fù)雜度。
步驟130,將擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得擴(kuò)展問質(zhì)量信息。
復(fù)雜度對照表中記載了復(fù)雜度數(shù)值及相對應(yīng)的擴(kuò)展問質(zhì)量指數(shù)以表示相應(yīng)的擴(kuò)展問質(zhì)量信息。例如,復(fù)雜度對照表的復(fù)雜度數(shù)值包括多個(gè)區(qū)間,復(fù)雜度數(shù)值越大的區(qū)間指示越優(yōu)良的擴(kuò)展問質(zhì)量信息。
在評價(jià)某一個(gè)標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問質(zhì)量的實(shí)例中,將各個(gè)標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得每個(gè)標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問質(zhì)量信息。
在評價(jià)知識庫中所有標(biāo)準(zhǔn)問的擴(kuò)展問質(zhì)量的實(shí)例中,將上述整體擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得所有標(biāo)準(zhǔn)問的整體擴(kuò)展問質(zhì)量信息。
在上述聚類處理中,除了可以采用常規(guī)的birch算法、k-means算法、dbscan算法外,本發(fā)明也提出了一種新的聚類方式。
如前所述,聚類的目的是找出彼此之間具有相似性的擴(kuò)展問,一個(gè)聚類可以表示問法相近的多個(gè)擴(kuò)展問,這與語義表達(dá)式的作用類似。一個(gè)語義表達(dá)式可以視為多個(gè)問法的聚類。因此,可以基于擴(kuò)展問建立新的語義表達(dá)式以作為聚類,即每個(gè)新生成的語義表達(dá)式作為原始擴(kuò)展問的一個(gè)聚類。
在本發(fā)明中,通過比較多個(gè)擴(kuò)展問的分詞結(jié)果,取交集的方式,獲取最短語義表達(dá)式;通過跑錯(cuò),驗(yàn)證語義表達(dá)式的有效性,并以語義表達(dá)式的有效性,篩選繼續(xù)生成加長語義表達(dá)式所用的普通相似問句,并淘汰無效的語義表達(dá)式;通過多次反復(fù)循環(huán),獲得最終的語義表達(dá)式。
圖2是示出了對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行聚類處理的方法200的流程圖。如圖2所示,方法200可包括如下步驟:
步驟210:數(shù)據(jù)獲取步驟
在該步驟中,針對每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)擴(kuò)展問相應(yīng)的多個(gè)擴(kuò)展問分詞結(jié)果,其中每個(gè)擴(kuò)展問分詞結(jié)果由對應(yīng)擴(kuò)展問的各詞類或各單詞所屬的詞類組成。
如前所述,擴(kuò)展問包括兩種形式,一種是普通問句形式,一種是語義表達(dá)式形式。如果擴(kuò)展問是普通問句形式,則數(shù)據(jù)獲取步驟可包括兩個(gè)部分,首先是對每個(gè)標(biāo)準(zhǔn)問的每個(gè)擴(kuò)展問執(zhí)行分詞處理,如前所述,每個(gè)標(biāo)準(zhǔn)問具有與之相關(guān)聯(lián)的多個(gè)擴(kuò)展問,對每個(gè)擴(kuò)展問執(zhí)行分詞處理。這里的分詞處理可采用任何已知的分詞算法來完成,對此不再贅述。
分詞后,每個(gè)標(biāo)準(zhǔn)問的每個(gè)擴(kuò)展問被分為多個(gè)單詞,然后每個(gè)單詞由該單詞所屬的詞類替換。由此,標(biāo)準(zhǔn)問的每個(gè)擴(kuò)展問對應(yīng)有一個(gè)分詞結(jié)果,由此每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)擴(kuò)展問相應(yīng)的多個(gè)擴(kuò)展問分詞結(jié)果。
如果擴(kuò)展問本身就是語義表達(dá)式形式,則擴(kuò)展問本身就是由詞類和詞組成,則分詞本身就可以獲得多個(gè)詞類。
作為示例,一個(gè)標(biāo)準(zhǔn)問的6個(gè)擴(kuò)展問的6個(gè)分詞結(jié)果可以為:
[a][b][c][d][e][f][g]
[a][b][k][j][l][m]
[a][c][m][q]
[d][k][m][q]
[a][b][c][d]
[a][b][d]
其中的[a]、[b]、[c]、[d]、[e]、[f]、[g]、[h]、[j]、[k]都是分詞結(jié)果中的詞類。
步驟220:聚類創(chuàng)建步驟
在該步驟中,針對每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)擴(kuò)展問分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)聚類,每個(gè)詞組由預(yù)定數(shù)目個(gè)詞類組成。
在一實(shí)例中,針對每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)擴(kuò)展問分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組作為該標(biāo)準(zhǔn)問的一個(gè)聚類,然后從該標(biāo)準(zhǔn)問的未包括該詞組的擴(kuò)展問分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組繼續(xù)作為該標(biāo)準(zhǔn)問的一個(gè)聚類,重復(fù)此過程直至該標(biāo)準(zhǔn)問下沒有其余的擴(kuò)展問分詞結(jié)果或者剩余的擴(kuò)展問分詞結(jié)果之間沒有達(dá)到該預(yù)定數(shù)目個(gè)詞類的交集。
剩余的擴(kuò)展問分詞結(jié)果之間沒有達(dá)到該預(yù)定數(shù)目個(gè)詞類的交集,也就不再作為聚類的生成原料,這些擴(kuò)展問分詞結(jié)果對應(yīng)的擴(kuò)展問直接作為擴(kuò)展問在后續(xù)使用。
上述組成詞組的詞類的預(yù)定數(shù)目可以大于等于1。即,詞組也可以本身就是一個(gè)詞類。
以上述標(biāo)準(zhǔn)問的6個(gè)擴(kuò)展問的6個(gè)分詞結(jié)果為例,假設(shè)組成每個(gè)詞組的詞類的預(yù)定數(shù)目為1,則該標(biāo)準(zhǔn)問的6個(gè)分詞結(jié)果的交集中:[a]出現(xiàn)5次,[b]出現(xiàn)4次,[c]出現(xiàn)3次,[d]出現(xiàn)3次……
則詞類[a]作為該標(biāo)準(zhǔn)問的聚類被保存。同時(shí),未包括[a]的分詞結(jié)果僅為[d][k][m][q]。由于僅剩余一個(gè)分詞結(jié)果,也就不可能再存在交集,所以生成聚類的過程結(jié)束。
再假設(shè)該組成每個(gè)詞組的詞類的預(yù)定數(shù)目為2,則該標(biāo)準(zhǔn)問的6個(gè)分詞結(jié)果的交集中,[a][b]出現(xiàn)頻率最高,則將[a][b]作為該標(biāo)準(zhǔn)問的一個(gè)聚類。未包括[a][b]的兩個(gè)分詞結(jié)果為[a][c][m][q]和[d][k][m][q],它們之間的交集為[m][q],則[m][q]也被保存作為該標(biāo)準(zhǔn)問的聚類。即,在該預(yù)定數(shù)目為2的情況下,生成了兩個(gè)聚類[a][b]、和[m][q]。
依照上述過程針對每個(gè)標(biāo)準(zhǔn)問生成聚類。較優(yōu)地是,在該聚類創(chuàng)建步驟中,按照復(fù)雜度由低到高的順序?yàn)楦鳂?biāo)準(zhǔn)問創(chuàng)建聚類,在創(chuàng)建過程中,若為在后的標(biāo)準(zhǔn)問生成的聚類與在前的標(biāo)準(zhǔn)問的已生成聚類重復(fù),則該重復(fù)的聚類不作為該在后的標(biāo)準(zhǔn)問的聚類保存。
假設(shè)針對前一個(gè)標(biāo)準(zhǔn)問創(chuàng)建的聚類包括[a][b],若在針對后續(xù)標(biāo)準(zhǔn)問生成的聚類也包括[a][b],則后續(xù)標(biāo)準(zhǔn)問的該聚類[a][b]不被保存。
實(shí)踐中,復(fù)雜度基于標(biāo)準(zhǔn)問的字?jǐn)?shù),字?jǐn)?shù)越少復(fù)雜度越低。字?jǐn)?shù)相同時(shí),帶有“介紹”字樣,或“介紹”同義詞的標(biāo)準(zhǔn)問優(yōu)先。
步驟230:檢測步驟
在此步驟中,針對所有標(biāo)準(zhǔn)問的所有擴(kuò)展問,執(zhí)行標(biāo)準(zhǔn)問匹配處理,對于為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建的每個(gè)聚類,判斷該聚類是否被匹配至其標(biāo)準(zhǔn)問的至少一個(gè)擴(kuò)展問,若是,則該聚類被標(biāo)記為第一狀態(tài),例如狀態(tài)true,否則被標(biāo)記為第二狀態(tài),例如狀態(tài)false。
實(shí)例中,針對每個(gè)擴(kuò)展問,該執(zhí)行標(biāo)準(zhǔn)問匹配處理包括將該擴(kuò)展問與針對所有標(biāo)準(zhǔn)問生成的所有聚類執(zhí)行語義相似度計(jì)算,并將該擴(kuò)展問匹配至具有最高語義相似度且該最高語義相似度高于閾值的聚類。
此檢測步驟是對上述初步建立的各標(biāo)準(zhǔn)問的聚類進(jìn)行“跑錯(cuò)”的過程。此跑錯(cuò)的核心就是以每個(gè)標(biāo)準(zhǔn)問自身相關(guān)聯(lián)的擴(kuò)展問為測試樣例來測試先前為該標(biāo)準(zhǔn)問創(chuàng)建的聚類是否可行,換言之,就是標(biāo)準(zhǔn)問的擴(kuò)展問是否能夠匹配至先前自動創(chuàng)建的聚類,進(jìn)而由此匹配至該標(biāo)準(zhǔn)問。
如果標(biāo)準(zhǔn)問的至少一個(gè)擴(kuò)展問能夠匹配至先前為該標(biāo)準(zhǔn)問創(chuàng)建的一個(gè)聚類,則認(rèn)為該聚類是可用的,該聚類可被標(biāo)記為狀態(tài)true。注意,針對某一標(biāo)準(zhǔn)問的某個(gè)擴(kuò)展問的標(biāo)準(zhǔn)問匹配是在為所有標(biāo)準(zhǔn)問生成的所有聚類的范圍內(nèi)來執(zhí)行的,即將該擴(kuò)展問不僅與該標(biāo)準(zhǔn)問的所有聚類執(zhí)行語義相似度計(jì)算,而且還與其他標(biāo)準(zhǔn)問的所有聚類執(zhí)行語義相似度計(jì)算。由此,對于某個(gè)標(biāo)準(zhǔn)問的某個(gè)擴(kuò)展問而言,該擴(kuò)展問可能會被定位匹配至其他標(biāo)準(zhǔn)問的某個(gè)聚類,換言之,對于某個(gè)標(biāo)準(zhǔn)問的某個(gè)聚類而言,該聚類可能與其他標(biāo)準(zhǔn)問的擴(kuò)展問相匹配。
如果一個(gè)標(biāo)準(zhǔn)問的先前創(chuàng)建的某一個(gè)聚類,該標(biāo)準(zhǔn)問的所有的擴(kuò)展問都未能與該聚類相匹配,則即使有其他標(biāo)準(zhǔn)問的擴(kuò)展問定位匹配至該聚類也,認(rèn)為該聚類是無效的。所有被認(rèn)為無效的聚類可被標(biāo)記為狀態(tài)false。
另一方面,在上述標(biāo)準(zhǔn)問匹配過程中,對于某個(gè)標(biāo)準(zhǔn)問的某個(gè)擴(kuò)展問而言,若該擴(kuò)展問被定位匹配至該標(biāo)準(zhǔn)問的任何一個(gè)聚類,則在一實(shí)例中可將這樣的擴(kuò)展問記為第四狀態(tài),例如狀態(tài)false;否則若該擴(kuò)展問未被定位匹配至該標(biāo)準(zhǔn)問的任何一個(gè)聚類,例如匹配失敗(即未找到與之具有高于閾值語義相似度的聚類)或者被定位至其他標(biāo)準(zhǔn)問的某一個(gè)聚類(即與其他標(biāo)準(zhǔn)問的某一個(gè)聚類具有最大語義相似度,也稱之為被其他標(biāo)準(zhǔn)問的該聚類“搶”),則將該擴(kuò)展問記為第三狀態(tài),例如狀態(tài)true。
步驟240:刪除步驟
在此步驟中,刪除所有狀態(tài)為第二狀態(tài),例如狀態(tài)false的聚類。
由此,為標(biāo)準(zhǔn)問所生成的聚類經(jīng)刪除后剩余的聚類即為該標(biāo)準(zhǔn)問的有效的聚類。
在一實(shí)施例中,在執(zhí)行步驟240刪除步驟之后,還包括步驟250:可再次針對所有標(biāo)準(zhǔn)問的所有擴(kuò)展問,執(zhí)行標(biāo)準(zhǔn)問匹配處理,然后若是有狀態(tài)為第三狀態(tài)的擴(kuò)展問被匹配至與之相關(guān)聯(lián)的標(biāo)準(zhǔn)問所屬的聚類,則該擴(kuò)展問的狀態(tài)由第三狀態(tài)改為第四狀態(tài)。這是因?yàn)橄惹盃顟B(tài)為false(即只會“搶”其他擴(kuò)展問)的聚類被刪除之后,有可能一些標(biāo)記為第三狀態(tài)(例如被“搶”)的擴(kuò)展問有可能被觸發(fā)到自己對應(yīng)的標(biāo)準(zhǔn)問下。
較優(yōu)地,可循環(huán)執(zhí)行所述聚類創(chuàng)建步驟、所述檢測步驟、和所述刪除步驟預(yù)定次數(shù),其中在聚類創(chuàng)建步驟中用于組成詞組的詞類的所述預(yù)定數(shù)目隨著循環(huán)依次遞增,且在后續(xù)循環(huán)中只有狀態(tài)為true的擴(kuò)展問參與聚類創(chuàng)建。
換言之,在下一次循環(huán)中,在執(zhí)行聚類創(chuàng)建時(shí),使用比上一次循環(huán)中加1的詞類數(shù)目來構(gòu)建聚類。例如,假設(shè)循環(huán)執(zhí)行3次,在第一次循環(huán)中,構(gòu)成聚類的詞組由1個(gè)詞類組成;則在第二次循環(huán)中,構(gòu)成聚類的詞組由2個(gè)詞類組成,在第三次循環(huán)中,構(gòu)成聚類的詞組由3個(gè)詞類組成。
而且,后續(xù)循環(huán)中只有狀態(tài)為true的擴(kuò)展問參與聚類創(chuàng)建。例如在第一次循環(huán)中,從一個(gè)標(biāo)準(zhǔn)問的多個(gè)擴(kuò)展問分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)聚類。但是如前所述,在第一次循環(huán)中經(jīng)過檢測步驟之后,該標(biāo)準(zhǔn)問的一些擴(kuò)展問的狀態(tài)為true,另一些狀態(tài)為false,則在第二次循環(huán)中,在執(zhí)行聚類創(chuàng)建步驟時(shí),僅使用狀態(tài)為true的擴(kuò)展問創(chuàng)建聚類。具體而言,從該標(biāo)準(zhǔn)問的狀態(tài)為true的那些擴(kuò)展問分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的聚類。
經(jīng)過預(yù)訂次數(shù)的這種循環(huán),每次循環(huán)聚類的長度逐漸增加,為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建出越來越準(zhǔn)確、完善的聚類。圖3示出了根據(jù)本發(fā)明的具體實(shí)施例的用于對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行聚類處理的方法的流程圖。
較佳地,如果以上述預(yù)訂次數(shù)的循環(huán)為一個(gè)例程,可重復(fù)執(zhí)行此例程若干次,后續(xù)每次例程中,只有狀態(tài)為true的擴(kuò)展問參與聚類創(chuàng)建。換言之,只有第一個(gè)例程的第一次循環(huán)中的聚類創(chuàng)建步驟是所有的擴(kuò)展問參與聚類創(chuàng)建,在第一個(gè)例程的后續(xù)所有循環(huán)中以及在后續(xù)例程的所有循環(huán)中都是只有狀態(tài)為true的擴(kuò)展問參與聚類創(chuàng)建。
最后,標(biāo)記為true的擴(kuò)展問可被加到對應(yīng)標(biāo)準(zhǔn)問的“普通問句形式的擴(kuò)展問”參與標(biāo)準(zhǔn)問匹配過程中的相似度計(jì)算。
上述循環(huán)和例程的執(zhí)行如下:
步驟220~步驟240循環(huán)
i=i+1
}
k=k+1
}
其中,m為聚類長度下限;n為聚類長度上限;i為循環(huán)索引;j為例程執(zhí)行次數(shù),k為例程索引。
示例:
3條標(biāo)準(zhǔn)問:
開通彩鈴;取消彩鈴;介紹彩鈴,其對應(yīng)的擴(kuò)展問如下:
“開通彩鈴”的擴(kuò)展問
我想用彩鈴
如何開通彩鈴
如何啟用彩鈴
幫我開通彩鈴
幫我啟用彩鈴
介紹一下如何開通彩鈴
介紹彩鈴的開通方法
“取消彩鈴”的擴(kuò)展問
如何取消彩鈴
如何關(guān)閉彩鈴
幫我取消彩鈴
幫我關(guān)閉彩鈴
介紹一下如何取消彩鈴
介紹彩鈴的取消方法
我不想用彩鈴了
“介紹彩鈴”的擴(kuò)展問
彩鈴是什么
幫我介紹一下彩鈴
介紹一下彩鈴
彩鈴?
設(shè)m=1,n=3,j=2
循環(huán)開始,i從下限1開始執(zhí)行。
執(zhí)行步驟120,生成聚類時(shí),設(shè)定生成長度1,每條標(biāo)準(zhǔn)問都會生成聚類[彩鈴],因?yàn)閳?zhí)行時(shí)帶有“介紹”的標(biāo)準(zhǔn)問優(yōu)先,所以,只有“介紹彩鈴”能夠保存模板[彩鈴],其他幾條因?yàn)楸4鏁r(shí)出現(xiàn)沖突,都不能保存聚類。這里的沖突即是指先前以有其他標(biāo)準(zhǔn)問保存了[彩鈴]作為其聚類,后續(xù)的標(biāo)準(zhǔn)問則不能再將已被保存為其他標(biāo)準(zhǔn)問的聚類保存作為自己的聚類。
執(zhí)行步驟130,“介紹彩鈴”中擴(kuò)展問“彩鈴?”能夠匹配聚類“[彩鈴]”,擴(kuò)展問“彩鈴?”由此標(biāo)記為“false”,聚類“[彩鈴]”標(biāo)記為“true”。其他標(biāo)準(zhǔn)問下的擴(kuò)展問都標(biāo)記為“true”。
執(zhí)行步驟140,沒有聚類被刪除,結(jié)果和上一步一樣。另一方面,如果沒有擴(kuò)展問“彩鈴?”,則執(zhí)行這一步時(shí),聚類“[彩鈴]”會被刪掉。
第二次循環(huán),i加1變成2
執(zhí)行步驟120,三個(gè)標(biāo)準(zhǔn)問分別生成聚類:
“[開通][彩鈴]”、“[啟用][彩鈴]”
“[取消][彩鈴]”、“[關(guān)閉][彩鈴]”
“[介紹][彩鈴]”;
執(zhí)行步驟130,“開通彩鈴”的擴(kuò)展問“我想用彩鈴”、“介紹一下如何開通彩鈴”、“介紹彩鈴的開通方法”沒有匹配任何一個(gè)聚類,標(biāo)記為“true”,其他擴(kuò)展問標(biāo)記為“false”,聚類“[開通][彩鈴]”、“[啟用][彩鈴]”標(biāo)記為“true”;
“取消彩鈴”的擴(kuò)展問“我不想用彩鈴了”、“介紹一下如何取消彩鈴”、“介紹彩鈴的取消方法”沒有匹配任何一個(gè)聚類,標(biāo)記為“true”,其他擴(kuò)展問標(biāo)記為“false”,聚類“[取消][彩鈴]”、“[關(guān)閉][彩鈴]”標(biāo)記為“true”;
“介紹彩鈴”的擴(kuò)展問“彩鈴是什么”沒有匹配任何一個(gè)聚類,標(biāo)記為“true”,其他擴(kuò)展問標(biāo)記為“false”,聚類“[介紹][彩鈴]”、“彩鈴”標(biāo)記為true。
執(zhí)行步驟140,沒有聚類被刪除,結(jié)果和上一步一樣。
第三次循環(huán),i=3
執(zhí)行120:“開通彩鈴”新增聚類[介紹][開通][彩鈴];
“取消彩鈴”新增聚類[介紹][取消][彩鈴];
“介紹彩鈴”沒有生成新模板。
執(zhí)行步驟130:“我想用彩鈴”、“我不想用彩鈴了”、“彩鈴是什么”3個(gè)擴(kuò)展問皆未能匹配各自的任何一個(gè)聚類,因此狀態(tài)還是“true”,其他擴(kuò)展問都是“false”,所有聚類也都被各自標(biāo)準(zhǔn)問下的某一個(gè)或多個(gè)擴(kuò)展問所匹配,所以狀態(tài)都是“true”。
執(zhí)行步驟140,沒有聚類被刪除,結(jié)果和上一步一樣。
三次循環(huán)作為一個(gè)例程執(zhí)行完畢后,執(zhí)行下一個(gè)例程,直至j=2個(gè)例程執(zhí)行完畢。最終,為這三個(gè)標(biāo)準(zhǔn)問分別生成了聚類如下:
“開通彩鈴”的聚類:“[開通][彩鈴]”、“[啟用][彩鈴]”、[介紹][開通][彩鈴];
“取消彩鈴”的聚類:“[取消][彩鈴]”、“[關(guān)閉][彩鈴]”、“[介紹][取消][彩鈴]”;
“介紹彩鈴”的聚類:“[介紹][彩鈴]”、“[彩鈴]”
另外,擴(kuò)展問“我想用彩鈴”、“我不想用彩鈴了”、“彩鈴是什么”3可作為各自標(biāo)準(zhǔn)問的普通擴(kuò)展問使用。此時(shí)利用所有擴(kuò)展問作為測試樣例跑錯(cuò)的正確率達(dá)到100%。
盡管為使解釋簡單化將上述方法圖示并描述為一系列動作,但是應(yīng)理解并領(lǐng)會,這些方法不受動作的次序所限,因?yàn)楦鶕?jù)一個(gè)或多個(gè)實(shí)施例,一些動作可按不同次序發(fā)生和/或與來自本文中圖示和描述或本文中未圖示和描述但本領(lǐng)域技術(shù)人員可以理解的其他動作并發(fā)地發(fā)生。
圖4是示出了根據(jù)本發(fā)明的用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的裝置400的框圖。如圖4所示,裝置400可包括聚類模塊410、復(fù)雜度確定模塊420、以及質(zhì)量確定模塊430。
聚類模塊410可用于對各個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問執(zhí)行不預(yù)設(shè)聚類數(shù)量的聚類處理,以將每個(gè)標(biāo)準(zhǔn)問下的擴(kuò)展問聚類為多個(gè)聚類。聚類模塊410可采用以下算法中的任一種來執(zhí)行聚類處理:birch算法、k-means算法、dbscan算法,此處執(zhí)行的聚類算法均為不預(yù)設(shè)聚類數(shù)量的。例如:可以采用對k-means算法做如下改進(jìn)得到不預(yù)設(shè)聚類數(shù)量的聚類結(jié)果。
獲取語料數(shù)據(jù),提取其中的問句信息;
對問句信息進(jìn)行預(yù)處理和分詞處理,得到問句信息的特征詞;
獲取特征詞的詞向量,并根據(jù)詞向量構(gòu)造問句信息的句向量;
根據(jù)相似度計(jì)算對問句信息進(jìn)行聚類處理,聚類處理包括:分別獲取第m個(gè)問句信息的句向量與已聚類的k個(gè)問句信息組的句向量平均值之間的最大相似度值,當(dāng)最大相似度值大于預(yù)設(shè)值時(shí),將第m個(gè)問句信息聚類到最大相似度值對應(yīng)的問句信息組中;當(dāng)最大相似度值小于預(yù)設(shè)值時(shí),將第m個(gè)問句信息作為第k+1個(gè)問句信息組,k小于或等于m-1。
上述方法采用改進(jìn)的k-means算法實(shí)現(xiàn)問句的聚類:改進(jìn)的k-means算法避免了傳統(tǒng)的k-means算法中k值選擇難的問題。該算法是指對問句依次進(jìn)行聚類;k值從1開始遞增,并且在此過程中不斷更新中心點(diǎn)來實(shí)現(xiàn)整個(gè)聚類。聚類處理具體包括:
對t個(gè)句向量qt進(jìn)行聚類,其中t≥m,m≥2;其中,t個(gè)句向量為:q1,q2,…,qt。
初始k值、中心點(diǎn)pk-1、以及聚類問題集{k,[pk-1]},其中,k表示聚類的類別數(shù),k的初始值為1,中心點(diǎn)pk-1的初始值為p0,p0=q1,q1表示第1個(gè)句向量,聚類問題集的初始值為{1,[q1]};
依次對剩下的qt進(jìn)行聚類,計(jì)算當(dāng)前句向量與每個(gè)聚類問題集的中心點(diǎn)的相似度,如果當(dāng)前句向量與某個(gè)聚類問題集的中心點(diǎn)的相似度大于或等于預(yù)設(shè)值,則將當(dāng)前句向量聚類到相應(yīng)的聚類問題集中,保持k值不變,將相應(yīng)的中心點(diǎn)更新為聚類問題集中所有句向量的向量平均值,相應(yīng)的聚類問題集為{k,[句向量的向量平均值]};如果當(dāng)前句向量與所有聚類問題集中的中心點(diǎn)的相似度均小于預(yù)設(shè)值,則令k=k+1,增加新的中心點(diǎn),新的中心點(diǎn)的值為當(dāng)前句向量,并增加新的聚類問題集{k,[當(dāng)前句向量]}。
下面以對q2聚類進(jìn)行舉例說明:計(jì)算q2與q1的語義相似度i,若相似度i大于0.9(根據(jù)需求設(shè)定預(yù)設(shè)值),則認(rèn)為q2和q1屬于同一個(gè)類,此時(shí)k=1不變,p0更新為q1和q2的向量平均值,聚類的問題集為{1,[q1,q2]};若相似度i不滿足要求,則q2和q1屬于不同的類,此時(shí)k=2,p0=q1,p1=q2,聚類的問題集為{1,[q1]},{2,[q2]}。
采用上述方法依次對剩余其他問句進(jìn)行聚類完成的同時(shí)可以得到k最終值。
復(fù)雜度確定模塊420可基于聚類的數(shù)目確定擴(kuò)展問復(fù)雜度,質(zhì)量確定模塊430可將擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得擴(kuò)展問質(zhì)量信息。
在一實(shí)例中,復(fù)雜度確定模塊420可統(tǒng)計(jì)所有標(biāo)準(zhǔn)問的聚類總數(shù)并計(jì)算聚類總數(shù)與標(biāo)準(zhǔn)問總數(shù)的比值以作為整體擴(kuò)展問復(fù)雜度,質(zhì)量確定模塊430可將整體擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得所有標(biāo)準(zhǔn)問的整體擴(kuò)展問質(zhì)量信息。
在另一實(shí)例中,復(fù)雜度確定模塊420可將每個(gè)標(biāo)準(zhǔn)問自身的聚類數(shù)目作為該標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問復(fù)雜度,質(zhì)量確定模塊430可將每個(gè)標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問復(fù)雜度與復(fù)雜度對照表相對照以獲得每個(gè)標(biāo)準(zhǔn)問的個(gè)體擴(kuò)展問質(zhì)量信息。
復(fù)雜度對照表的復(fù)雜度數(shù)值可包括多個(gè)區(qū)間,復(fù)雜度數(shù)值越大的區(qū)間指示越優(yōu)良的擴(kuò)展問質(zhì)量信息。
圖5是示出了根據(jù)本發(fā)明的一方面的聚類模塊500的框圖。聚類模塊500可包括數(shù)據(jù)獲取模塊510、聚類創(chuàng)建模塊520、檢測模塊530、以及編輯模塊540。
數(shù)據(jù)獲取模塊510可用于針對每個(gè)標(biāo)準(zhǔn)問獲得與其多個(gè)擴(kuò)展問相應(yīng)的多個(gè)擴(kuò)展問分詞結(jié)果,其中每個(gè)擴(kuò)展問分詞結(jié)果由對應(yīng)擴(kuò)展問的各詞類或各單詞所屬的詞類組成。
聚類創(chuàng)建模塊520可針對每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)擴(kuò)展問分詞結(jié)果的交集中依據(jù)詞組出現(xiàn)的頻率選擇詞組以構(gòu)成該標(biāo)準(zhǔn)問的至少一個(gè)聚類,每個(gè)詞組由預(yù)定數(shù)目個(gè)詞類組成。該預(yù)定數(shù)目可大于等于1。
作為實(shí)例,聚類創(chuàng)建模塊520可針對每個(gè)標(biāo)準(zhǔn)問,從該標(biāo)準(zhǔn)問的多個(gè)擴(kuò)展問分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組作為該標(biāo)準(zhǔn)問的一個(gè)聚類,然后從該標(biāo)準(zhǔn)問的未包括該詞組的擴(kuò)展問分詞結(jié)果的交集中選擇出現(xiàn)頻率最高的詞組,將選出的詞組繼續(xù)作為該標(biāo)準(zhǔn)問的一個(gè)聚類,重復(fù)此過程直至該標(biāo)準(zhǔn)問下沒有其余的擴(kuò)展問分詞結(jié)果或者剩余的擴(kuò)展問分詞結(jié)果之間沒有達(dá)到所述預(yù)定數(shù)目個(gè)詞類的交集。
剩余的擴(kuò)展問分詞結(jié)果之間沒有達(dá)到所述預(yù)定數(shù)目個(gè)詞類的交集,也就不再作為聚類的生成原料,這些擴(kuò)展問分詞結(jié)果對應(yīng)的擴(kuò)展問直接作為擴(kuò)展問在后續(xù)使用。
作為示例,該復(fù)雜度可基于標(biāo)準(zhǔn)問的字?jǐn)?shù),字?jǐn)?shù)越少復(fù)雜度越低。
較優(yōu)地,聚類創(chuàng)建模塊520可按照復(fù)雜度由低到高的順序?yàn)楦鳂?biāo)準(zhǔn)問創(chuàng)建聚類,在創(chuàng)建過程中,若為在后的標(biāo)準(zhǔn)問生成的聚類與在前的標(biāo)準(zhǔn)問的已生成聚類重復(fù),則該重復(fù)的聚類不作為該在后的標(biāo)準(zhǔn)問的聚類保存。
檢測模塊530可針對所有標(biāo)準(zhǔn)問的所有擴(kuò)展問,執(zhí)行標(biāo)準(zhǔn)問匹配處理,對于為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建的每個(gè)聚類,判斷該聚類是否被匹配至其標(biāo)準(zhǔn)問的至少一個(gè)擴(kuò)展問,若是,則該聚類被標(biāo)記為第一狀態(tài),例如狀態(tài)true,否則被標(biāo)記為第二狀態(tài),例如狀態(tài)false。
作為實(shí)例,檢測模塊530可包括語義相似度計(jì)算單元531,針對每個(gè)擴(kuò)展問,語義相似度計(jì)算單元531可將該擴(kuò)展問與針對所有標(biāo)準(zhǔn)問生成的所有聚類執(zhí)行語義相似度計(jì)算,并將該擴(kuò)展問匹配至具有最高語義相似度且該最高語義相似度高于閾值的聚類。
此檢測步驟是對上述初步建立的各標(biāo)準(zhǔn)問的聚類進(jìn)行“跑錯(cuò)”的過程。此跑錯(cuò)的核心就是以每個(gè)標(biāo)準(zhǔn)問自身相關(guān)聯(lián)的擴(kuò)展問為測試樣例來測試先前為該標(biāo)準(zhǔn)問創(chuàng)建的聚類是否可行,換言之,就是標(biāo)準(zhǔn)問的擴(kuò)展問是否能夠匹配至先前自動創(chuàng)建的聚類,進(jìn)而由此匹配至該標(biāo)準(zhǔn)問。
如果標(biāo)準(zhǔn)問的至少一個(gè)擴(kuò)展問能夠匹配至先前為該標(biāo)準(zhǔn)問創(chuàng)建的一個(gè)聚類,則認(rèn)為該聚類是可用的,該聚類可被標(biāo)記為狀態(tài)true。注意,針對某一標(biāo)準(zhǔn)問的某個(gè)擴(kuò)展問的標(biāo)準(zhǔn)問匹配是在為所有標(biāo)準(zhǔn)問生成的所有聚類的范圍內(nèi)來執(zhí)行的,即將該擴(kuò)展問不僅與該標(biāo)準(zhǔn)問的所有聚類執(zhí)行語義相似度計(jì)算,而且還與其他標(biāo)準(zhǔn)問的所有聚類執(zhí)行語義相似度計(jì)算。由此,對于某個(gè)標(biāo)準(zhǔn)問的某個(gè)擴(kuò)展問而言,該擴(kuò)展問可能會被定位匹配至其他標(biāo)準(zhǔn)問的某個(gè)聚類,換言之,對于某個(gè)標(biāo)準(zhǔn)問的某個(gè)聚類而言,該聚類可能與其他標(biāo)準(zhǔn)問的擴(kuò)展問相匹配。
如果一個(gè)標(biāo)準(zhǔn)問的先前創(chuàng)建的某一個(gè)聚類,該標(biāo)準(zhǔn)問的所有的擴(kuò)展問都未能與該聚類相匹配,則即使有其他標(biāo)準(zhǔn)問的擴(kuò)展問定位匹配至該聚類也,認(rèn)為該聚類是無效的。所有被認(rèn)為無效的聚類可被標(biāo)記為狀態(tài)false。
最后,編輯模塊540可刪除所有狀態(tài)為false的聚類。剩余的聚類即為獲得的有效聚類。
進(jìn)一步地,檢測模塊530還可包括狀態(tài)標(biāo)記單元532,用于在語義相似度計(jì)算單元531執(zhí)行標(biāo)準(zhǔn)問匹配處理之后,對于每個(gè)標(biāo)準(zhǔn)問的每個(gè)擴(kuò)展問,判斷該擴(kuò)展問是否被匹配至與之相關(guān)聯(lián)的標(biāo)準(zhǔn)問所屬的聚類,若是將該擴(kuò)展問標(biāo)記為第四狀態(tài),例如狀態(tài)false,否則若該擴(kuò)展問未被定位匹配至該標(biāo)準(zhǔn)問的任何一個(gè)聚類,例如匹配失敗(即未找到與之具有高于閾值語義相似度的聚類)或者被定位至其他標(biāo)準(zhǔn)問的某一個(gè)聚類(即與其他標(biāo)準(zhǔn)問的某一個(gè)聚類具有最大語義相似度,也稱之為被其他標(biāo)準(zhǔn)問的該聚類“搶”),將該擴(kuò)展問標(biāo)記為第三狀態(tài),例如狀態(tài)true。
在此實(shí)例中,聚類創(chuàng)建模塊520、檢測模塊530、和編輯模塊540依次循環(huán)執(zhí)行所述聚類創(chuàng)建、所述檢測、和所述刪除的步驟預(yù)定次數(shù),其中,聚類創(chuàng)建模塊530用來組成所述詞組的詞類的所述預(yù)定數(shù)目隨著循環(huán)依次遞增,換言之,在下一次循環(huán)中,在執(zhí)行聚類創(chuàng)建時(shí),使用比上一次循環(huán)中加1的詞類數(shù)目來構(gòu)建聚類。例如,假設(shè)循環(huán)執(zhí)行3次,在第一次循環(huán)中,構(gòu)成聚類的詞組由1個(gè)詞類組成;則在第二次循環(huán)中,構(gòu)成聚類的詞組由2個(gè)詞類組成,在第三次循環(huán)中,構(gòu)成聚類的詞組由3個(gè)詞類組成。且在后續(xù)循環(huán)中只有狀態(tài)為true的擴(kuò)展問被所述聚類創(chuàng)建模塊用來參與聚類創(chuàng)建。
經(jīng)過預(yù)訂次數(shù)的這種循環(huán),每次循環(huán)聚類的長度逐漸增加,為每個(gè)標(biāo)準(zhǔn)問創(chuàng)建出越來越準(zhǔn)確、完善的聚類。
在每個(gè)循環(huán)周期中,在編輯模塊540執(zhí)行刪除的步驟之后,檢測模塊530可立即再次針對所有標(biāo)準(zhǔn)問的所有擴(kuò)展問,執(zhí)行標(biāo)準(zhǔn)問匹配處理,然后若是有狀態(tài)為第三狀態(tài)的擴(kuò)展問被匹配至與之相關(guān)聯(lián)的標(biāo)準(zhǔn)問所屬的聚類,則其狀態(tài)被狀態(tài)標(biāo)記單元532由第三狀態(tài)改為第四狀態(tài)。這是因?yàn)橄惹盃顟B(tài)為false(即只會“搶”其他擴(kuò)展問)的聚類被刪除之后,有可能一些標(biāo)記為第三狀態(tài)(例如被“搶”)的擴(kuò)展問有可能被觸發(fā)到自己對應(yīng)的標(biāo)準(zhǔn)問下。
在一進(jìn)一步的實(shí)例中,以該預(yù)定次數(shù)的循環(huán)為一個(gè)例程,聚類創(chuàng)建模塊520、檢測模塊530、和編輯模塊540重復(fù)執(zhí)行所述例程若干次,后續(xù)每次例程中,只有狀態(tài)為true的擴(kuò)展問參與聚類創(chuàng)建。
本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,該處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法中的步驟。
本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法中的步驟。
其中,計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)以及用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的裝置的具體實(shí)現(xiàn)方式和技術(shù)效果均可參見上述用于評價(jià)知識庫中擴(kuò)展問的擴(kuò)展問質(zhì)量的方法的實(shí)施例,在此不再贅述。
根據(jù)本發(fā)明的方案,通過對標(biāo)準(zhǔn)問的擴(kuò)展問進(jìn)行聚類,以聚類的數(shù)目作為擴(kuò)展問的復(fù)雜度依據(jù),并由此來評價(jià)擴(kuò)展問質(zhì)量。以此方式,能夠代替人工地對擴(kuò)展問評估,極大地提高了評估效率。
本領(lǐng)域技術(shù)人員將進(jìn)一步領(lǐng)會,結(jié)合本文中所公開的實(shí)施例來描述的各種解說性邏輯板塊、模塊、電路、和算法步驟可實(shí)現(xiàn)為電子硬件、計(jì)算機(jī)軟件、或這兩者的組合。為清楚地解說硬件與軟件的這一可互換性,各種解說性組件、框、模塊、電路、和步驟在上面是以其功能性的形式作一般化描述的。此類功能性是被實(shí)現(xiàn)為硬件還是軟件取決于具體應(yīng)用和施加于整體系統(tǒng)的設(shè)計(jì)約束。技術(shù)人員對于每種特定應(yīng)用可用不同的方式來實(shí)現(xiàn)所描述的功能性,但這樣的實(shí)現(xiàn)決策不應(yīng)被解讀成導(dǎo)致脫離了本發(fā)明的范圍。
結(jié)合本文所公開的實(shí)施例描述的各種解說性邏輯模塊、和電路可用通用處理器、數(shù)字信號處理器(dsp)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或其它可編程邏輯器件、分立的門或晶體管邏輯、分立的硬件組件、或其設(shè)計(jì)成執(zhí)行本文所描述功能的任何組合來實(shí)現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但在替換方案中,該處理器可以是任何常規(guī)的處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器還可以被實(shí)現(xiàn)為計(jì)算設(shè)備的組合,例如dsp與微處理器的組合、多個(gè)微處理器、與dsp核心協(xié)作的一個(gè)或多個(gè)微處理器、或任何其他此類配置。
結(jié)合本文中公開的實(shí)施例描述的方法或算法的步驟可直接在硬件中、在由處理器執(zhí)行的軟件模塊中、或在這兩者的組合中體現(xiàn)。軟件模塊可駐留在ram存儲器、閃存、rom存儲器、eprom存儲器、eeprom存儲器、寄存器、硬盤、可移動盤、cd-rom、或本領(lǐng)域中所知的任何其他形式的存儲介質(zhì)中。示例性存儲介質(zhì)耦合到處理器以使得該處理器能從/向該存儲介質(zhì)讀取和寫入信息。在替換方案中,存儲介質(zhì)可以被整合到處理器。處理器和存儲介質(zhì)可駐留在asic中。asic可駐留在用戶終端中。在替換方案中,處理器和存儲介質(zhì)可作為分立組件駐留在用戶終端中。
在一個(gè)或多個(gè)示例性實(shí)施例中,所描述的功能可在硬件、軟件、固件或其任何組合中實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn)為計(jì)算機(jī)程序產(chǎn)品,則各功能可以作為一條或更多條指令或代碼存儲在計(jì)算機(jī)可讀介質(zhì)上或藉其進(jìn)行傳送。計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)兩者,其包括促成計(jì)算機(jī)程序從一地向另一地轉(zhuǎn)移的任何介質(zhì)。存儲介質(zhì)可以是能被計(jì)算機(jī)訪問的任何可用介質(zhì)。作為示例而非限定,這樣的計(jì)算機(jī)可讀介質(zhì)可包括ram、rom、eeprom、cd-rom或其它光盤存儲、磁盤存儲或其它磁存儲設(shè)備、或能被用來攜帶或存儲指令或數(shù)據(jù)結(jié)構(gòu)形式的合意程序代碼且能被計(jì)算機(jī)訪問的任何其它介質(zhì)。任何連接也被正當(dāng)?shù)胤Q為計(jì)算機(jī)可讀介質(zhì)。例如,如果軟件是使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(dsl)、或諸如紅外、無線電、以及微波之類的無線技術(shù)從web網(wǎng)站、服務(wù)器、或其它遠(yuǎn)程源傳送而來,則該同軸電纜、光纖電纜、雙絞線、dsl、或諸如紅外、無線電、以及微波之類的無線技術(shù)就被包括在介質(zhì)的定義之中。如本文中所使用的盤(disk)和碟(disc)包括壓縮碟(cd)、激光碟、光碟、數(shù)字多用碟(dvd)、軟盤和藍(lán)光碟,其中盤(disk)往往以磁的方式再現(xiàn)數(shù)據(jù),而碟(disc)用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。上述的組合也應(yīng)被包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
提供對本公開的先前描述是為使得本領(lǐng)域任何技術(shù)人員皆能夠制作或使用本公開。對本公開的各種修改對本領(lǐng)域技術(shù)人員來說都將是顯而易見的,且本文中所定義的普適原理可被應(yīng)用到其他變體而不會脫離本公開的精神或范圍。由此,本公開并非旨在被限定于本文中所描述的示例和設(shè)計(jì),而是應(yīng)被授予與本文中所公開的原理和新穎性特征相一致的最廣范圍。