專利名稱:一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法和裝置。
背景技術(shù):
隨著第二代互聯(lián)網(wǎng)的逐漸成熟,用于互動(dòng)交流的問答平臺(tái),越來越受到用戶的歡迎。問答平臺(tái)給用戶提供了一個(gè)交流平臺(tái),用戶可以通過問答平臺(tái)接受專家和其他網(wǎng)民的幫助,同時(shí)也會(huì)盡力給其他網(wǎng)民提供有效的幫助,可廣泛應(yīng)用于行業(yè)知識(shí)庫建設(shè)、垂直領(lǐng)域?qū)<蚁到y(tǒng)、行業(yè)交流網(wǎng)站問答板塊、醫(yī)學(xué)領(lǐng)域的醫(yī)患交流、教育領(lǐng)域的師生交流等。專業(yè)的問答平臺(tái)小到一個(gè)企業(yè)的客服,大到一個(gè)行業(yè)的專家知識(shí)庫都逐漸體現(xiàn)了互動(dòng)問答平臺(tái)的價(jià)值。
問答平臺(tái)集成了自動(dòng)切分詞、智能搜索和自動(dòng)分類等一整套的自然語言處理和信息檢索技術(shù)。有些特殊的問答平臺(tái)還提供了如增加敏感詞過濾(將涉及色情、政治等敏感詞自動(dòng)過濾)和輿情監(jiān)控等功能模塊。
具體地,問答平臺(tái)可分為以下四個(gè)部分(1)網(wǎng)頁預(yù)處理部分,對(duì)所有網(wǎng)頁進(jìn)行正文提取,獲取網(wǎng)頁的標(biāo)題文本以及其他網(wǎng)頁指向該網(wǎng)頁的鏈接文本信息;(2)索引部分,對(duì)全部文本信息分詞和建立索引。(3)查詢處理部分,實(shí)現(xiàn)對(duì)主題集的查詢輸入構(gòu)造。(4)檢索部分,實(shí)現(xiàn)對(duì)檢索結(jié)果取出、排序和后處理。
在問答平臺(tái)的應(yīng)用過程中,需要對(duì)問答對(duì)中出現(xiàn)的關(guān)鍵詞與各個(gè)類別之間的相關(guān)性進(jìn)行評(píng)價(jià),以便于用戶更好地使用問答平臺(tái)?,F(xiàn)有技術(shù)中,一般使用TFIDF(Term Frequency Inverse Document Frequency,詞頻逆文檔頻率)方法或者按照詞性重要度向關(guān)鍵詞分配權(quán)值,關(guān)鍵詞的具有區(qū)別度的權(quán)值越大,則關(guān)鍵詞的類別相關(guān)性越高。
其中,TFIDF是一種自然語言處理中最基本的關(guān)鍵詞權(quán)值計(jì)算方法,用于評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。TFIDF的主要思想為,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TFIDF加權(quán)的各種形式常被搜尋引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí),TFIDF通常應(yīng)用以下公式 其中,TF(t)為關(guān)鍵詞在文本或者語料中出現(xiàn)的頻率,該值越高,說明重要度越高;DF(t)為包含關(guān)鍵詞的文檔的頻率,其值比較高,說明重要度越低;N為語料中的文檔總數(shù)。
按照詞性重要度分配權(quán)值的方法具體為,在自然語言處理中,一般認(rèn)為名詞、形容詞和動(dòng)詞為比較重要的詞性,并向具有上述詞性的關(guān)鍵詞分配較高的權(quán)值,而向具有其他詞性的關(guān)鍵詞分配較低的權(quán)值。
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺陷 現(xiàn)有技術(shù)中,當(dāng)使用TFIDF向關(guān)鍵詞分配權(quán)值時(shí),由于問答平臺(tái)的問答對(duì)內(nèi)的文字長(zhǎng)度較短而大部分的關(guān)鍵詞在問答對(duì)間的出現(xiàn)頻率高,即問答對(duì)的文字長(zhǎng)度明顯短于網(wǎng)頁,新聞等語料中的文字長(zhǎng)度,而且除去停用詞之后,大部分的關(guān)鍵詞在問答對(duì)中的出現(xiàn)頻度差異較小,此外,由于問答平臺(tái)中的問答對(duì)來自于真實(shí)世界,導(dǎo)致問答平臺(tái)中的噪聲比例較高。對(duì)于具有上述文本特征的問答平臺(tái)而言,TF和DF的作用都不夠突出,甚至經(jīng)常出現(xiàn)TF等于或者略大于DF的情況,無法對(duì)問答平臺(tái)中的關(guān)鍵詞與各個(gè)類別之間的相關(guān)性進(jìn)行準(zhǔn)確評(píng)價(jià)。
按照詞性重要度分配權(quán)值時(shí),由于不同詞性僅能夠在一定的程度上區(qū)分關(guān)鍵詞之間的重要性,而對(duì)于關(guān)鍵詞數(shù)量龐大、噪聲比例較高的問答平臺(tái)而言,少數(shù)的幾個(gè)比較重要的詞性難以準(zhǔn)確地區(qū)分關(guān)鍵詞之間的重要性差異。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法和裝置,用于降低問答平臺(tái)的噪聲對(duì)關(guān)鍵詞的相關(guān)性的影響。
本發(fā)明提供了一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法,包括以下步驟 使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息; 根據(jù)所述關(guān)鍵詞的特征信息,通過權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照所述權(quán)值在類別間對(duì)所述關(guān)鍵詞進(jìn)行評(píng)價(jià)。
優(yōu)選地,所述特征選擇算法包括卡方統(tǒng)計(jì)和信息熵。
優(yōu)選地,所述權(quán)值計(jì)算公式為 其中,Wght(t)為所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,X2avg(t)為所述關(guān)鍵詞在類別中的卡方均值,IDF(t)為所述關(guān)鍵詞的逆文檔頻率,Entropy(t)為所述關(guān)鍵詞與類別的熵值。
優(yōu)選地,所述卡方統(tǒng)計(jì)的計(jì)算公式為 其中,X2為卡方值,Oij為觀測(cè)頻度,Eij為期望頻度。
優(yōu)選地,所述信息熵的計(jì)算公式為 Entropy(t)=-∑P(Ci|t)log(P(Ci|t)) 其中,t為關(guān)鍵詞,Ci為類別i,P(Ci|t)為t出現(xiàn)在Ci中的概率。
優(yōu)選地,所述特征選擇算法還包括平均互信息和信息增益。
本發(fā)明還提供了一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)裝置,包括 特征獲取模塊,用于使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息; 權(quán)值獲取模塊,與所述特征獲取模塊連接,用于根據(jù)所述特征獲取模塊獲取的關(guān)鍵詞的特征信息,通過權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照所述權(quán)值在類別間對(duì)所述關(guān)鍵詞進(jìn)行評(píng)價(jià)。
優(yōu)選地,所述特征選擇算法包括卡方統(tǒng)計(jì)和信息熵, 所述特征獲取模塊,具體用于使用所述卡方統(tǒng)計(jì)和所述信息熵獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
優(yōu)選地,所述權(quán)值獲取模塊,具體用于通過以下權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值 其中,Wght(t)為所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,Xavg2(t)為所述關(guān)鍵詞在類別中的卡方均值,IDF(t)為所述關(guān)鍵詞的逆文檔頻率,Entropy(t)為所述關(guān)鍵詞與類別的熵值。
優(yōu)選地,所述特征選擇算法還包括平均互信息和信息增益, 所述特征獲取模塊,具體用于使用所述平均互信息和所述信息增益獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明通過特征選擇算法和權(quán)值計(jì)算公式獲取關(guān)鍵詞的具有區(qū)別度的權(quán)值,強(qiáng)化了關(guān)鍵詞之間的差別,降低了問答平臺(tái)中文字內(nèi)容短和噪聲大帶來的對(duì)關(guān)鍵詞評(píng)價(jià)的影響。
為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)本發(fā)明或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明中的一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法流程圖; 圖2為本發(fā)明中的基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)的具體應(yīng)用場(chǎng)景流程圖; 圖3為本發(fā)明中的一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式 本發(fā)明提供的技術(shù)方案中,其核心思想為針對(duì)問答平臺(tái)的文本長(zhǎng)度短、噪聲高的特點(diǎn),提出了一種利用特征選擇算法和權(quán)值計(jì)算公式評(píng)價(jià)問答平臺(tái)中的關(guān)鍵詞的類別相關(guān)性的方法,避免了現(xiàn)有技術(shù)中的TFIDF和詞性評(píng)價(jià)方法的缺點(diǎn)。通過對(duì)真實(shí)世界的問答平臺(tái)的實(shí)驗(yàn),本發(fā)明的方法可以簡(jiǎn)單、有效而健壯地評(píng)價(jià)關(guān)鍵詞的類別相關(guān)性。
下面將結(jié)合本發(fā)明中的附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,為本發(fā)明中的一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法流程圖,包括以下步驟 步驟101,使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
其中,特征選擇算法可以包括卡方統(tǒng)計(jì)和信息熵,也可以包括平均互信息和信息增益,以及上述特征選擇算法的各種組合,其中,平均互信息為互信息量I(X,Y)在聯(lián)合概率空間P(XY)中的統(tǒng)計(jì)平均值,即事件Y對(duì)事件X的平均互信息量,而互信息(Mutual Information)是指兩個(gè)事件集合之間的相關(guān)性,可以定義為 I(X,Y)=H(X)+H(Y)-H(X,Y) 其中,H(X)為事件X的熵值,H(Y)為事件Y的熵值,H(X,Y)為事件X和事件Y的聯(lián)合熵。
另外,信息增益(Information Gain)是指期望信息或者信息熵的有效減少量(通常用“字節(jié)”衡量),用于確定在什么樣的層次上選擇什么樣的變量來分類。
步驟102,根據(jù)關(guān)鍵詞的特征信息,通過權(quán)重計(jì)算公式獲取該關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照該權(quán)值在類別間對(duì)關(guān)鍵詞進(jìn)行評(píng)價(jià)。
具體地,當(dāng)步驟101中使用的特征選擇算法為卡方統(tǒng)計(jì)和信息熵時(shí),相應(yīng)的權(quán)值計(jì)算公式為 其中,Wght(t)為關(guān)鍵詞的具有區(qū)別度的權(quán)值,Xavg2(t)為關(guān)鍵詞在類別中的卡方均值,IDF(t)為關(guān)鍵詞的逆文檔頻率,Entropy(t)為關(guān)鍵詞與類別的熵值。
當(dāng)上述特征選擇算法為平均互信息和信息增益,以及上述特征選擇算法的各種組合時(shí),相應(yīng)地,權(quán)值計(jì)算公式也可以進(jìn)行適應(yīng)性的調(diào)整,適當(dāng)調(diào)整特征選擇算法得到的值的比重,例如通過使用log、次方和常數(shù)因子等方式。
使用特征選擇算法表示關(guān)鍵詞與類別之間的相關(guān)性時(shí),如果關(guān)鍵詞與各個(gè)類別間都具有一定的相關(guān)性,則該關(guān)鍵詞的類別相關(guān)性低,對(duì)于類別整體來說重要性較低,應(yīng)該具有較低的權(quán)值;反之,如果關(guān)鍵詞只與某幾個(gè)類別的相關(guān)性大而與其他類別不相關(guān),則該關(guān)鍵詞的類別相關(guān)性高,應(yīng)該具有較高的權(quán)值。
在根據(jù)所述權(quán)值確定所述關(guān)鍵詞的類別相關(guān)性之后,還可以根據(jù)所述關(guān)鍵詞的類別相關(guān)性對(duì)所述關(guān)鍵詞進(jìn)行分類。
本發(fā)明通過特征選擇算法和權(quán)值計(jì)算公式獲取問答平臺(tái)中的關(guān)鍵詞的具有區(qū)別度的權(quán)值,強(qiáng)化了關(guān)鍵詞之間的重要性差異,降低了問答平臺(tái)中文字內(nèi)容短和噪聲大帶來的對(duì)關(guān)鍵詞評(píng)價(jià)的影響,具備通用性和特定性。
以下結(jié)合具體的應(yīng)用場(chǎng)景對(duì)本發(fā)明中的基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法進(jìn)行詳細(xì)的描述。
如圖2所示,為本發(fā)明中的基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)的具體應(yīng)用場(chǎng)景流程圖,具體包括以下步驟 步驟201,使用卡方統(tǒng)計(jì)和信息熵獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
其中,卡方統(tǒng)計(jì)用于驗(yàn)證對(duì)比表中的觀測(cè)頻度和期望頻度是否獨(dú)立,當(dāng)觀測(cè)頻度和期望頻度之間差別很大時(shí),可以否定獨(dú)立的零假設(shè)??ǚ街翟酱?,兩者的獨(dú)立性越小,相關(guān)性越大。
卡方值可以通過以下公式計(jì)算得到 其中,X2為卡方值,Oij為觀測(cè)頻度,Eij為期望頻度。
具體地,在文本處理中經(jīng)常使用卡方統(tǒng)計(jì)的2×2表,如表1所示。
表1卡方統(tǒng)計(jì)的2×2表 其中,term為一個(gè)關(guān)鍵詞,Class為一個(gè)類別,A表示類別Class中包含關(guān)鍵詞term的文檔數(shù),B表示不屬于類別Class但包含關(guān)鍵詞term的文檔數(shù),C表示屬于類別Class但不包含關(guān)鍵詞term的文檔數(shù),D表示不屬于類別Class也不包含關(guān)鍵詞term的文檔數(shù)。
對(duì)于卡方統(tǒng)計(jì)的2×2表,卡方值的計(jì)算公式可以簡(jiǎn)化為 其中,X2為卡方值,N為文檔總數(shù)。
以下通過舉例,對(duì)上述公式進(jìn)行詳細(xì)說明 假設(shè)在一個(gè)語料中,類別=娛樂,關(guān)鍵詞=周杰倫,卡方統(tǒng)計(jì)的2×2表,如表2所示。
表2卡方統(tǒng)計(jì)的2×2表舉例 則關(guān)鍵詞的卡方值為
此外,對(duì)于多類別問題,還可以進(jìn)一步通過以下公式計(jì)算卡方均值 其中,X2avg(t)為卡方均值,P(Ci)為類別Ci的概率分布,X2(t,Ci)為關(guān)鍵詞在類別Ci的卡方值。
另外,信息熵用于表示單個(gè)隨機(jī)變量的不確定性的均值,隨機(jī)變量的熵值越大,則不確定性越大,能正確估計(jì)該隨機(jī)變量的概率越小。
關(guān)鍵詞與類別的熵值的計(jì)算公式如下 Entropy(t)=-∑P(Ci|t)log(P(Ci|t)) 其中,t為關(guān)鍵詞,Ci為類別i,P(Ci|t)為t出現(xiàn)在Ci中的概率。
步驟202,根據(jù)關(guān)鍵詞的卡方值和熵值,通過權(quán)值計(jì)算公式獲取該關(guān)鍵詞的具有區(qū)別度的權(quán)值。
具體地,使用特征選擇算法表示關(guān)鍵詞與類別之間的相關(guān)性時(shí),如果關(guān)鍵詞與各個(gè)類別間都具有一定的相關(guān)性,則該關(guān)鍵詞的類別相關(guān)性低,對(duì)于類別整體來說重要性較低,應(yīng)該具有較低的權(quán)值;反之,如果關(guān)鍵詞只與某幾個(gè)類別的相關(guān)性大而與其他類別不相關(guān),則該關(guān)鍵詞的類別相關(guān)性高,應(yīng)該具有較高的權(quán)值。
通過步驟201獲取關(guān)鍵詞的卡方均值和熵值后,可知關(guān)鍵詞的卡方均值越大,則該關(guān)鍵詞的類別相關(guān)性越高,應(yīng)該具有較大的權(quán)值;關(guān)鍵詞的熵值越大,則該關(guān)鍵詞在類別間分布越均勻,即類別相關(guān)性越低,應(yīng)該具有較小的權(quán)值。通過反復(fù)實(shí)驗(yàn)和分析問答平臺(tái)的數(shù)據(jù),可以確定權(quán)值計(jì)算公式為 其中,Wght(t)為關(guān)鍵詞的具有區(qū)別度的權(quán)值,Xavg2(t)為關(guān)鍵詞在類別中的卡方均值,IDF(t)為關(guān)鍵詞的逆文檔頻率,Entropy(t)為關(guān)鍵詞與類別的熵值。
另外,N為總的文檔數(shù),N(t)為包含關(guān)鍵詞t的文檔數(shù)。
需要說明的是,本發(fā)明方法可以根據(jù)實(shí)際需要對(duì)各個(gè)步驟順序進(jìn)行調(diào)整,本發(fā)明中的關(guān)鍵詞可以為各種統(tǒng)計(jì)量,例如n-gram,包括bi-gram、tri-gram和trigger等。
本發(fā)明通過卡方統(tǒng)計(jì)和信息熵,以及對(duì)應(yīng)的權(quán)值計(jì)算公式獲取問答平臺(tái)中的關(guān)鍵詞的具有區(qū)別度的權(quán)值,強(qiáng)化了關(guān)鍵詞之間的重要性差異,降低了問答平臺(tái)中文字內(nèi)容短和噪聲大帶來的對(duì)關(guān)鍵詞評(píng)價(jià)的影響,具備通用性和特定性。
本發(fā)明在上述實(shí)施方式中提供了基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法和應(yīng)用場(chǎng)景,相應(yīng)地,本發(fā)明還提供了應(yīng)用上述基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法的裝置。
如圖3所示,為本發(fā)明中的一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)裝置結(jié)構(gòu)示意圖,包括 特征獲取模塊310,用于使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
權(quán)值獲取模塊320,與特征獲取模塊320連接,用于根據(jù)特征獲取模塊320獲取的關(guān)鍵詞的特征信息,通過權(quán)值計(jì)算公式獲取關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照該權(quán)值在類別間對(duì)關(guān)鍵詞進(jìn)行評(píng)價(jià)。
上述特征選擇算法包括卡方統(tǒng)計(jì)和信息熵,上述特征獲取模塊310,具體用于使用所述卡方統(tǒng)計(jì)和所述信息熵獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
其中,卡方統(tǒng)計(jì)用于驗(yàn)證對(duì)比表中的觀測(cè)頻度和期望頻度是否獨(dú)立,當(dāng)觀測(cè)頻度和期望頻度之間差別很大時(shí),可以否定獨(dú)立的零假設(shè)。卡方值越大,兩者的獨(dú)立性越小,相關(guān)性越大。
卡方值可以通過以下公式計(jì)算得到 其中,X2為卡方值,Oij為觀測(cè)頻度,Eij為期望頻度。
對(duì)于卡方統(tǒng)計(jì)的2×2表,卡方值的計(jì)算公式可以簡(jiǎn)化為 其中,X2為卡方值,N為文檔總數(shù)。
此外,對(duì)于多類別問題,還可以進(jìn)一步通過以下公式計(jì)算卡方均值 其中,X2avg(t)為卡方均值,P(Ci)為類別Ci的概率分布,X2(t,Ci)為關(guān)鍵詞在類別Ci的卡方值。
另外,信息熵用于表示單個(gè)隨機(jī)變量的不確定性的均值,隨機(jī)變量的熵值越大,則不確定性越大,能正確估計(jì)該隨機(jī)變量的概率越小。
關(guān)鍵詞與類別的熵值的計(jì)算公式如下 Entropy(t)=-∑P(Ci|t)log(P(Ci|t)) 其中,t為關(guān)鍵詞,Ci為類別i,P(Ci|t)為t出現(xiàn)在Ci中的概率。
上述權(quán)值獲取模塊320,具體用于通過以下權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值 其中,Wght(t)為所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,Xavg2(t)為所述關(guān)鍵詞在類別中的卡方均值,IDF(t)為所述關(guān)鍵詞的逆文檔頻率,Entropy(t)為所述關(guān)鍵詞與類別的熵值。
上述特征選擇算法還包括平均互信息和信息增益,以及上述特征選擇算法的各種組合,其中,平均互信息為互信息量I(X,Y)在聯(lián)合概率空間P(XY)中的統(tǒng)計(jì)平均值,即事件Y對(duì)事件X的平均互信息量,而互信息是指兩個(gè)事件集合之間的相關(guān)性,可以定義為 I(X,Y)=H(X)+H(Y)-H(X,Y) 其中,H(X)為事件X的熵值,H(Y)為事件Y的熵值,H(X,Y)為事件X和事件Y的聯(lián)合熵。
另外,信息增益(Information Gain)是指期望信息或者信息熵的有效減少量(通常用“字節(jié)”衡量),用于確定在什么樣的層次上選擇什么樣的變量來分類。
上述特征獲取模塊310,具體用于使用所述平均互信息和所述信息增益獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
相應(yīng)地,權(quán)值計(jì)算公式也可以進(jìn)行適應(yīng)性的調(diào)整,適當(dāng)調(diào)整特征選擇算法得到的值的比重,例如通過使用log、次方和常數(shù)因子等方式。
使用特征選擇算法表示關(guān)鍵詞與類別之間的相關(guān)性時(shí),如果關(guān)鍵詞與各個(gè)類別間都具有一定的相關(guān)性,則該關(guān)鍵詞的類別相關(guān)性低,對(duì)于類別整體來說重要性較低,應(yīng)該具有較低的權(quán)值;反之,如果關(guān)鍵詞只與某幾個(gè)類別的相關(guān)性大而與其他類別不相關(guān),則該關(guān)鍵詞的類別相關(guān)性高,應(yīng)該具有較高的權(quán)值。
需要說明的是,本發(fā)明中的關(guān)鍵詞可以為各種統(tǒng)計(jì)量,例如n-gram,包括bi-gram、tri-gram和trigger等。
本發(fā)明通過卡方統(tǒng)計(jì)和信息熵,以及對(duì)應(yīng)的權(quán)值計(jì)算公式獲取關(guān)鍵詞的具有區(qū)別度的權(quán)值,強(qiáng)化了關(guān)鍵詞之間的重要性差異,降低了問答平臺(tái)中文字內(nèi)容短和噪聲大帶來的對(duì)關(guān)鍵詞評(píng)價(jià)的影響,具備通用性和特定性。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視本發(fā)明的保護(hù)范圍。
本領(lǐng)域技術(shù)人員可以理解實(shí)施例中的裝置中的模塊可以按照實(shí)施例描述進(jìn)行分布于實(shí)施例的裝置中,也可以進(jìn)行相應(yīng)變化位于不同于本實(shí)施例的一個(gè)或多個(gè)裝置中。上述實(shí)施例的模塊可以集成于一體,也可以分離部署;可以合并為一個(gè)模塊,也可以進(jìn)一步拆分成多個(gè)子模塊。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
以上公開的僅為本發(fā)明的幾個(gè)具體實(shí)施例,但是,本發(fā)明并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法,其特征在于,包括以下步驟
使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息;
根據(jù)所述關(guān)鍵詞的特征信息,通過權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照所述權(quán)值在類別間對(duì)所述關(guān)鍵詞進(jìn)行評(píng)價(jià)。
2、如權(quán)利要求1所述的方法,其特征在于,所述特征選擇算法包括卡方統(tǒng)計(jì)和信息熵。
3、如權(quán)利要求2所述的方法,其特征在于,所述權(quán)值計(jì)算公式為
其中,Wght(t)為所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,Xavg2(t)為所述關(guān)鍵詞在類別中的卡方均值,IDF(t)為所述關(guān)鍵詞的逆文檔頻率,Entropy(t)為所述關(guān)鍵詞與類別的熵值。
4、如權(quán)利要求2所述的方法,其特征在于,所述卡方統(tǒng)計(jì)的計(jì)算公式為
其中,X2為卡方值,Oij為觀測(cè)頻度,Eij為期望頻度。
5、如權(quán)利要求2所述的方法,其特征在于,所述信息熵的計(jì)算公式為
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t為關(guān)鍵詞,Ci為類別i,P(Ci|t)為t出現(xiàn)在Ci中的概率。
6、如權(quán)利要求1所述的方法,其特征在于,所述特征選擇算法還包括平均互信息和信息增益。
7、一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)裝置,其特征在于,包括
特征獲取模塊,用于使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息;
權(quán)值獲取模塊,與所述特征獲取模塊連接,用于根據(jù)所述特征獲取模塊獲取的關(guān)鍵詞的特征信息,通過權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照所述權(quán)值在類別間對(duì)所述關(guān)鍵詞進(jìn)行評(píng)價(jià)。
8、如權(quán)利要求7所述的裝置,其特征在于,所述特征選擇算法包括卡方統(tǒng)計(jì)和信息熵,
所述特征獲取模塊,具體用于使用所述卡方統(tǒng)計(jì)和所述信息熵獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
9、如權(quán)利要求8所述的裝置,其特征在于,
所述權(quán)值獲取模塊,具體用于通過以下權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值
其中,Wght(t)為所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,Xavg2(t)為所述關(guān)鍵詞在類別中的卡方均值,IDF(t)為所述關(guān)鍵詞的逆文檔頻率,Entropy(t)為所述關(guān)鍵詞與類別的熵值。
10、如權(quán)利要求7所述的裝置,其特征在于,所述特征選擇算法還包括平均互信息和信息增益,
所述特征獲取模塊,具體用于使用所述平均互信息和所述信息增益獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息。
全文摘要
本發(fā)明公開了一種基于問答平臺(tái)的關(guān)鍵詞評(píng)價(jià)方法和裝置,該方法包括以下步驟使用特征選擇算法獲取關(guān)鍵詞在問答平臺(tái)的問答對(duì)中的特征信息;根據(jù)所述關(guān)鍵詞的特征信息,通過權(quán)值計(jì)算公式獲取所述關(guān)鍵詞的具有區(qū)別度的權(quán)值,按照所述權(quán)值在類別間對(duì)所述關(guān)鍵詞進(jìn)行評(píng)價(jià)。本發(fā)明通過使用特征選擇算法和權(quán)值計(jì)算公式獲取關(guān)鍵詞的具有區(qū)別度的權(quán)值,強(qiáng)化了關(guān)鍵詞之間的差別,降低了問答平臺(tái)中文字內(nèi)容短和噪聲大帶來的對(duì)關(guān)鍵詞評(píng)價(jià)的影響。
文檔編號(hào)G06F17/30GK101609472SQ20091016260
公開日2009年12月23日 申請(qǐng)日期2009年8月13日 優(yōu)先權(quán)日2009年8月13日
發(fā)明者姜中博, 劉懷軍, 方高林 申請(qǐng)人:騰訊科技(深圳)有限公司