欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分詞詞庫的選擇方法和系統(tǒng)與流程

文檔序號:11829702閱讀:來源:國知局

技術(shù)特征:

1.一種分詞詞庫選擇方法,包括:

設(shè)置一評估處理裝置;

將多個分詞詞庫導(dǎo)入評估處理裝置,生成與所述多個分詞詞庫對應(yīng)的多個評估值;

從所述多個評估值中選取最大的評估值,并將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫。

2.根據(jù)權(quán)利要求1所述的方法,其中,所述評估處理裝置用于:

利用分詞詞庫對測試文本進行分詞;

統(tǒng)計所述分詞詞庫分詞后每個詞匯的詞頻數(shù);

基于每個詞匯的詞頻數(shù)以及整個分詞詞庫中的詞匯數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值,將所述分布均勻程度值作為評估值,其中,詞頻數(shù)相同的為同一個類別。

3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于每個詞匯的詞頻數(shù)以及整個分詞詞庫中的詞匯數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值包括:

基于每個詞匯的詞頻數(shù),劃分詞頻數(shù)的類別,其中,詞頻數(shù)相同的為同一個類別;

確定每個類別下的詞頻數(shù)所對應(yīng)的詞匯的數(shù)量,并確定各數(shù)量占整個分詞詞庫中的詞匯數(shù)量的比重;

根據(jù)所確定的比重和劃分后的類別的數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值。

4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)所確定的比重和劃分后的類別的數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值包括:

將所確定的比重和劃分后的類別的數(shù)量導(dǎo)入信息熵生成器,獲得與所述分詞詞庫對應(yīng)的熵值。

5.根據(jù)權(quán)利要求1所述的方法,其中,在設(shè)置一評估處理裝置之前,還包括:從內(nèi)容庫中的文本內(nèi)容中隨機抓取部分的文本內(nèi)容,生成測試文本,其中,

當所述抓取次數(shù)為一次時,所述部分的文本內(nèi)容為第一部分的文本內(nèi)容;

當所述抓取次數(shù)為多次時,所述部分的文本內(nèi)容為第二部分的文本內(nèi)容;

所述第一部分的文本內(nèi)容多于所述第二部分的文本內(nèi)容。

6.根據(jù)權(quán)利要求1-5中任一項所述的方法,其中,在將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫后,還包括:

根據(jù)刪除指令,進一步刪除所述待選擇的分詞詞庫中的至少一個詞匯,生成更新的分詞詞庫;

將所述更新的分詞詞庫導(dǎo)入所述評估處理裝置,生成更新評估值;

比較所述更新評估值與所述待選擇的分詞詞庫對應(yīng)的評估值的大??;

若所述更新評估值較大,則將所述更新的分詞詞庫作為選定詞庫;

若所述更新評估值較小,則將所述待選擇的分詞詞庫作為選定詞庫。

7.一種分詞詞庫選擇系統(tǒng),包括:

評估處理裝置;

詞庫導(dǎo)入模塊,用于將多個分詞詞庫導(dǎo)入評估處理裝置,生成與所述多個分詞詞庫對應(yīng)的多個評估值;

選擇模塊,用于從所述多個評估值中選取最大的評估值,并將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫。

8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述評估處理裝置包括:

分詞器,用于利用分詞詞庫對測試文本進行分詞;

統(tǒng)計器,用于統(tǒng)計所述分詞詞庫分詞后每個詞匯的詞頻數(shù);

評估值生成器,用于基于每個詞匯的詞頻數(shù)以及整個分詞詞庫中的詞匯數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值,將所述分布均勻程度值作為評估值,其中,詞頻數(shù)相同的為同一個類別。

9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述評估值生成器用于:

基于每個詞匯的詞頻數(shù),劃分詞頻數(shù)的類別,其中,詞頻數(shù)相同的為同一個類別;

確定每個類別下的詞頻數(shù)所對應(yīng)的詞匯的數(shù)量,并確定各數(shù)量占整個分詞詞庫中的詞匯數(shù)量的比重;

根據(jù)所確定的比重和劃分后的類別的數(shù)量,確定所述分詞詞庫劃分后的各類別下的詞頻數(shù)的分布均勻程度值。

10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述評估值生成器用于:

將所確定的比重和劃分后的類別的數(shù)量導(dǎo)入信息熵生成器,獲得與所述分詞詞庫對應(yīng)的熵值。

11.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述系統(tǒng)還包括測試文本生成模塊,用于:

在所述詞庫導(dǎo)入模塊將多個分詞詞庫導(dǎo)入評估處理裝置之前,從內(nèi)容庫中的文本內(nèi)容中隨機抓取部分的文本內(nèi)容,生成測試文本,其中,

當所述抓取次數(shù)為一次時,所述部分的文本內(nèi)容為第一部分的文本內(nèi)容;

當所述抓取次數(shù)為多次時,所述部分的文本內(nèi)容為第二部分的文本內(nèi)容;

所述第一部分的文本內(nèi)容多于所述第二部分的文本內(nèi)容。

12.根據(jù)權(quán)利要求7-11中任一項所述的系統(tǒng),其中,所述系統(tǒng)還包括詞庫優(yōu)化模塊,用于:

在所述選擇模塊將所述最大的評估值對應(yīng)的分詞詞庫作為待選擇的分詞詞庫后,根據(jù)刪除指令,進一步刪除所述待選擇的分詞詞庫中的至少一個詞匯,生成更新的分詞詞庫;

將所述更新的分詞詞庫導(dǎo)入所述評估處理裝置,生成更新評估值;

比較所述更新評估值與所述待選擇的分詞詞庫對應(yīng)的評估值的大?。?/p>

若所述更新評估值較大,則將所述更新的分詞詞庫作為選定詞庫;

若所述更新評估值較小,則將所述待選擇的分詞詞庫作為選定詞庫。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鱼台县| 海口市| 营山县| 绵阳市| 嘉祥县| 武平县| 拉萨市| 娱乐| 常州市| 临湘市| 广安市| 平果县| 苗栗县| 孝感市| 抚宁县| 赤水市| 邵阳县| 织金县| 平乐县| 扎兰屯市| 汉中市| 晋城| 沙坪坝区| 河曲县| 阜南县| 荆州市| 溧水县| 营口市| 石景山区| 翁牛特旗| 济南市| 平定县| 庆阳市| 赤壁市| 筠连县| 临沧市| 萨嘎县| 平遥县| 灵宝市| 宁阳县| 广灵县|