1.一種分詞詞庫選擇方法,包括:
設(shè)置一評估處理裝置;
將多個分詞詞庫導(dǎo)入評估處理裝置,生成與所述多個分詞詞庫對應(yīng)的多個評估值;
從所述多個評估值中選取最大的評估值,并將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述評估處理裝置用于:
利用分詞詞庫對測試文本進行分詞;
統(tǒng)計所述分詞詞庫分詞后每個詞匯的詞頻數(shù);
基于每個詞匯的詞頻數(shù)以及整個分詞詞庫中的詞匯數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值,將所述分布均勻程度值作為評估值,其中,詞頻數(shù)相同的為同一個類別。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于每個詞匯的詞頻數(shù)以及整個分詞詞庫中的詞匯數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值包括:
基于每個詞匯的詞頻數(shù),劃分詞頻數(shù)的類別,其中,詞頻數(shù)相同的為同一個類別;
確定每個類別下的詞頻數(shù)所對應(yīng)的詞匯的數(shù)量,并確定各數(shù)量占整個分詞詞庫中的詞匯數(shù)量的比重;
根據(jù)所確定的比重和劃分后的類別的數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)所確定的比重和劃分后的類別的數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值包括:
將所確定的比重和劃分后的類別的數(shù)量導(dǎo)入信息熵生成器,獲得與所述分詞詞庫對應(yīng)的熵值。
5.根據(jù)權(quán)利要求1所述的方法,其中,在設(shè)置一評估處理裝置之前,還包括:從內(nèi)容庫中的文本內(nèi)容中隨機抓取部分的文本內(nèi)容,生成測試文本,其中,
當所述抓取次數(shù)為一次時,所述部分的文本內(nèi)容為第一部分的文本內(nèi)容;
當所述抓取次數(shù)為多次時,所述部分的文本內(nèi)容為第二部分的文本內(nèi)容;
所述第一部分的文本內(nèi)容多于所述第二部分的文本內(nèi)容。
6.根據(jù)權(quán)利要求1-5中任一項所述的方法,其中,在將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫后,還包括:
根據(jù)刪除指令,進一步刪除所述待選擇的分詞詞庫中的至少一個詞匯,生成更新的分詞詞庫;
將所述更新的分詞詞庫導(dǎo)入所述評估處理裝置,生成更新評估值;
比較所述更新評估值與所述待選擇的分詞詞庫對應(yīng)的評估值的大??;
若所述更新評估值較大,則將所述更新的分詞詞庫作為選定詞庫;
若所述更新評估值較小,則將所述待選擇的分詞詞庫作為選定詞庫。
7.一種分詞詞庫選擇系統(tǒng),包括:
評估處理裝置;
詞庫導(dǎo)入模塊,用于將多個分詞詞庫導(dǎo)入評估處理裝置,生成與所述多個分詞詞庫對應(yīng)的多個評估值;
選擇模塊,用于從所述多個評估值中選取最大的評估值,并將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述評估處理裝置包括:
分詞器,用于利用分詞詞庫對測試文本進行分詞;
統(tǒng)計器,用于統(tǒng)計所述分詞詞庫分詞后每個詞匯的詞頻數(shù);
評估值生成器,用于基于每個詞匯的詞頻數(shù)以及整個分詞詞庫中的詞匯數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值,將所述分布均勻程度值作為評估值,其中,詞頻數(shù)相同的為同一個類別。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述評估值生成器用于:
基于每個詞匯的詞頻數(shù),劃分詞頻數(shù)的類別,其中,詞頻數(shù)相同的為同一個類別;
確定每個類別下的詞頻數(shù)所對應(yīng)的詞匯的數(shù)量,并確定各數(shù)量占整個分詞詞庫中的詞匯數(shù)量的比重;
根據(jù)所確定的比重和劃分后的類別的數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述評估值生成器用于:
將所確定的比重和劃分后的類別的數(shù)量導(dǎo)入信息熵生成器,獲得與所述分詞詞庫對應(yīng)的熵值。
11.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述系統(tǒng)還包括測試文本生成模塊,用于:
在所述詞庫導(dǎo)入模塊將多個分詞詞庫導(dǎo)入評估處理裝置之前,從內(nèi)容庫中的文本內(nèi)容中隨機抓取部分的文本內(nèi)容,生成測試文本,其中,
當所述抓取次數(shù)為一次時,所述部分的文本內(nèi)容為第一部分的文本內(nèi)容;
當所述抓取次數(shù)為多次時,所述部分的文本內(nèi)容為第二部分的文本內(nèi)容;
所述第一部分的文本內(nèi)容多于所述第二部分的文本內(nèi)容。
12.根據(jù)權(quán)利要求7-11中任一項所述的系統(tǒng),其中,所述系統(tǒng)還包括詞庫優(yōu)化模塊,用于:
在所述選擇模塊將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫后,根據(jù)刪除指令,進一步刪除所述待選擇的分詞詞庫中的至少一個詞匯,生成更新的分詞詞庫;
將所述更新的分詞詞庫導(dǎo)入所述評估處理裝置,生成更新評估值;
比較所述更新評估值與所述待選擇的分詞詞庫對應(yīng)的評估值的大?。?/p>
若所述更新評估值較大,則將所述更新的分詞詞庫作為選定詞庫;
若所述更新評估值較小,則將所述待選擇的分詞詞庫作為選定詞庫。