欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于最大熵的主題分類器的訓(xùn)練方法及系統(tǒng)的制作方法

文檔序號:8457261閱讀:465來源:國知局
基于最大熵的主題分類器的訓(xùn)練方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理領(lǐng)域,特別是涉及一種基于最大熵的主題分類器的訓(xùn)練方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 自動問答技術(shù)一般包括三個(gè)主要組成部分:問題分析、信息檢索和答案抽取。
[0003] 在自動問答系統(tǒng)中,問題分類作為其第一個(gè)重要模塊主要有兩個(gè)作用,第一,問題 分類能有效地減少候選答案的空間,提高系統(tǒng)返回答案的準(zhǔn)確率。第二,問題分類提供的答 案類型信息決定了答案抽取策略。
[0004] 主題分類(Theme Classification)是將文本分為不同主題文本的任務(wù),例如,電 腦、文化、健康、生活、情感、運(yùn)動。例如:"工銀助手反釣魚軟件升不了級"、"我的電腦不能 創(chuàng)建文件夾",這兩個(gè)問題就電腦主題;"曾鞏為什么認(rèn)為王安石吝"、"梵高畫過的黃房子現(xiàn) 在還有嗎? "屬于文化主題;"有治頭發(fā)早白的偏方嗎"、"感冒了不吃藥,食補(bǔ)什么"屬于健 康主題;"謝謝您,11月8號沖什么,刑什么,害什么?"、"不二家的味道是什么意思"屬于生 活主題;"到底是母女之間的感情好,還是姐妹之間的感情好? "、"失戀怎么辦"屬于情感主 題;"AC米蘭2014年換了那些主力球員"、"籃球比賽中的藍(lán)帶是什么? "屬于運(yùn)動主題。
[0005] 因此,如何精確的進(jìn)行主題分類,是本領(lǐng)域技術(shù)人員需要解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是提供一種基于最大熵的主題分類器的訓(xùn)練方法,該方法能夠精確 的對主題進(jìn)行分類;本發(fā)明的另一目的是提供一種基于最大熵的主題分類器的訓(xùn)練系統(tǒng)。
[0007] 為解決上述技術(shù)問題,本發(fā)明提供一種基于最大熵的主題分類器的訓(xùn)練方法,包 括:
[0008] 確定主題的個(gè)數(shù)N,選取預(yù)定數(shù)量的所確定各個(gè)主題的問題作為訓(xùn)練語料樣本,其 中,N為大于2的整數(shù);
[0009] 對所述訓(xùn)練語料樣本進(jìn)行分詞處理得到訓(xùn)練樣本;
[0010] 利用所述訓(xùn)練樣本通過最大熵分類算法對主題分類器進(jìn)行訓(xùn)練。
[0011] 其中,基于最大熵的主題分類器的訓(xùn)練方法還包括:
[0012] 利用測試樣本對訓(xùn)練后的主題分類器進(jìn)行測試。
[0013] 其中,所述選取所確定的預(yù)定個(gè)數(shù)主題的問題作為訓(xùn)練語料包括:
[0014] 通過網(wǎng)絡(luò)爬蟲程序選取所確定的預(yù)定個(gè)數(shù)主題的問題作為訓(xùn)練語料樣本。
[0015] 其中,所述對所述訓(xùn)練語料樣本進(jìn)行分詞處理得到訓(xùn)練樣本包括:
[0016] 對所述訓(xùn)練語料樣本利用一元模型進(jìn)行分詞處理得到訓(xùn)練樣本。
[0017] 其中,所述利用所述訓(xùn)練樣本通過最大熵分類算法對主題分類器進(jìn)行訓(xùn)練包括:
[0018] 將所述訓(xùn)練樣本按照預(yù)定規(guī)則分組,得到訓(xùn)練組;
[0019] 將各所述訓(xùn)練組中的每個(gè)訓(xùn)練樣本通過最大熵分類算法進(jìn)行計(jì)算,每個(gè)主題得到 一個(gè)概率值;
[0020] 比較各個(gè)主題的概率值,概率值最大的主題即為該訓(xùn)練樣本所屬的主題。
[0021] 其中,將所述訓(xùn)練樣本按照預(yù)定規(guī)則分組,得到訓(xùn)練組包括:
[0022] 將所述訓(xùn)練樣本的前80%數(shù)量的訓(xùn)練樣本作為第一訓(xùn)練組;
[0023] 將所述訓(xùn)練樣本的前60%數(shù)量的訓(xùn)練樣本作為第二訓(xùn)練組;
[0024] 將所述訓(xùn)練樣本的前40%數(shù)量的訓(xùn)練樣本作為第三訓(xùn)練組;
[0025] 將所述訓(xùn)練樣本的前20%數(shù)量的訓(xùn)練樣本作為第四訓(xùn)練組;
[0026] 將所述訓(xùn)練樣本的前10%數(shù)量的訓(xùn)練樣本作為第五訓(xùn)練組。
[0027] 本發(fā)明還提供一種基于最大熵的主題分類器的訓(xùn)練系統(tǒng),包括:
[0028] 訓(xùn)練語料樣本模塊,用于確定主題的個(gè)數(shù)N,選取預(yù)定數(shù)量的所確定各個(gè)主題的問 題作為訓(xùn)練語料樣本,其中,N為大于2的整數(shù);
[0029] 分詞模塊,用于對所述訓(xùn)練語料樣本進(jìn)行分詞處理得到訓(xùn)練樣本;
[0030] 訓(xùn)練模塊,用于利用所述訓(xùn)練樣本通過最大熵分類算法對主題分類器進(jìn)行訓(xùn)練。
[0031] 其中,所述基于最大熵的主題分類器的訓(xùn)練系統(tǒng)還包括:
[0032] 測試模塊,用于利用測試樣本對訓(xùn)練后的主題分類器進(jìn)行測試。
[0033] 其中,所述分詞模塊包括:
[0034] 分詞單元,用于對所述訓(xùn)練語料樣本利用一元模型進(jìn)行分詞處理得到訓(xùn)練樣本。
[0035] 其中,所述訓(xùn)練模塊包括:
[0036] 分組單元,用于將所述訓(xùn)練樣本按照預(yù)定規(guī)則分組,得到訓(xùn)練組;
[0037] 計(jì)算單元,用于將各所述訓(xùn)練組中的每個(gè)訓(xùn)練樣本通過最大熵分類算法進(jìn)行計(jì) 算,每個(gè)主題得到一個(gè)概率值;
[0038] 比較單元,用于比較各個(gè)主題的概率值,概率值最大的主題即為該訓(xùn)練樣本所屬 的主題。
[0039] 本發(fā)明所提供的一種基于最大熵的主題分類器的訓(xùn)練方法,該方法通過確定需要 主題個(gè)數(shù),然后根據(jù)每個(gè)確定的主題進(jìn)行相應(yīng)的問題收集作為訓(xùn)練語料樣本,其中主題個(gè) 數(shù)大于兩個(gè);對所收集的問題進(jìn)行分詞得到訓(xùn)練樣本;其次,根據(jù)問題文本并利用最大熵 分類算法構(gòu)建主題分類器;利用最大熵分類算法可以平衡訓(xùn)練樣本,獲得較高的問的主題 分類準(zhǔn)確率。對問題進(jìn)行主題分類,一方面可以幫助提升自動問答系統(tǒng)的性能,另一方面可 以組織問答資源,方便系統(tǒng)檢索查找。因此,將問題進(jìn)行主題分類,以便能更好地滿足用戶 需求。
【附圖說明】
[0040] 為了更清楚的說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有 技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā) 明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0041] 圖1為本發(fā)明實(shí)施例提供的基于最大熵的主題分類器的訓(xùn)練方法的流程圖;
[0042] 圖2為本發(fā)明實(shí)施例提供的利用所述訓(xùn)練樣本通過最大熵分類算法對主題分類 器進(jìn)行訓(xùn)練的方法的流程圖;
[0043] 圖3為本發(fā)明實(shí)施例提供的基于最大熵的主題分類器在不同訓(xùn)練樣本的主題分 類準(zhǔn)確率表1對應(yīng)的折線圖;
[0044]圖4為本發(fā)明實(shí)施例提供的基于最大熵的主題分類器的訓(xùn)練系統(tǒng)的結(jié)構(gòu)框圖;
[0045] 圖5為本發(fā)明實(shí)施例提供的另一基于最大熵的主題分類器的訓(xùn)練系統(tǒng)的結(jié)構(gòu)框 圖;
[0046] 圖6為本發(fā)明實(shí)施例提供的訓(xùn)練模塊的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0047] 本發(fā)明的核心是提供一種基于最大熵的主題分類器的訓(xùn)練方法,該方法能夠精確 的對主題進(jìn)行分類;本發(fā)明的另一目的是提供一種基于最大熵的主題分類器的訓(xùn)練系統(tǒng)。
[0048] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
资中县| 靖西县| 平山县| 辉南县| 高碑店市| 山东| 乾安县| 阳东县| 勐海县| 古浪县| 桐乡市| 剑阁县| 邢台市| 泰宁县| 炎陵县| 龙门县| 丹巴县| 宁津县| 临猗县| 贵德县| 罗山县| 平定县| 绿春县| 宁阳县| 沙河市| 石城县| 香港 | 富裕县| 霍山县| 南木林县| 云和县| 桑植县| 华容县| 安康市| 稷山县| 林芝县| 项城市| 布拖县| 韶山市| 石河子市| 称多县|