本發(fā)明涉及人工智能的文本分類技術(shù)領(lǐng)域,具體涉及一種文本分類方法及獲得的文本分類器。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,對于電子文本信息進(jìn)行有效地組織和管理,并能快速、準(zhǔn)確且全面地從中找到相關(guān)信息的要求越來越高。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),在較大程度上解決了信息雜亂的問題,方便用戶準(zhǔn)確地獲取所需的信息,是信息過濾、信息檢索、搜索引擎及文本數(shù)據(jù)庫等領(lǐng)域的技術(shù)基礎(chǔ)。文本分類一般包括對文本的表達(dá)、文本分類器的選擇及訓(xùn)練、文本分類結(jié)果的評價與反饋等過程?,F(xiàn)有的文本分類技術(shù)通常按照以下步驟實(shí)施:(1)確定分類體系;(2)收集待標(biāo)注語料,形成語料庫;(3)用語料庫訓(xùn)練分類模型;(4)用訓(xùn)練好的分類模型對新文本進(jìn)行分類。
但是,對于以下幾種應(yīng)用場景,1)對于文本分類體系不均衡,有的類別范疇很大,有的類別范疇很小,如一個類別是“汽車行業(yè)”,而另一個類別是“鋰電池”等的應(yīng)用場景;2)對于易于獲得大量的未標(biāo)注語料,而獲得標(biāo)注語料的成本較高的應(yīng)用場景;3)對于分類體系經(jīng)常變化,經(jīng)常新增類別或刪除類別的應(yīng)用場景,現(xiàn)有的文本分類技術(shù)存在有以下的缺陷:(1)在分類體系方面,現(xiàn)有技術(shù)都是采用固定的分類體系,即確定分類體系后不能隨便改變。如若需要改變分類體系,需要重新收集語料,重新訓(xùn)練所有類別的分類模型,此過程需大量的時間和計算資源。(2)在語料庫方面,現(xiàn)有技術(shù)需基于一定規(guī)模的標(biāo)注好類別的文本作為訓(xùn)練語料,而對于標(biāo)注好類別的文本,往往需要花費(fèi)大量的人工先進(jìn)行標(biāo)注處理,從而增加了投入成本。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術(shù)中文本分類技術(shù)的分類體系不能隨意改變,如需改變分類體系需要耗費(fèi)較多的時間和計算資源,且語料需人工進(jìn)行標(biāo)注,需要投入成本較高且耗時長的缺陷,目的在于提供一種可以靈活改變分類體系且自動進(jìn)行標(biāo)注文本的文本分類方法,大大地節(jié)省了計算資源、時間和成本。
實(shí)現(xiàn)上述目的的技術(shù)方案是:
本發(fā)明獲得用于自動標(biāo)注語料的文本分類器的方法,該方法包括:
概念確定步驟ⅰ,確定概念集合,概念集合中的每個概念對應(yīng)具有至少一個概念關(guān)鍵詞的概念關(guān)鍵詞集合;
語料自動標(biāo)注步驟ⅱ,利用概念集合中每個概念對應(yīng)的概念關(guān)鍵詞集合中的概念關(guān)鍵詞對未標(biāo)注語料文本集合進(jìn)行匹配處理,并用相應(yīng)的概念對未標(biāo)注語料文本集合中的文本進(jìn)行關(guān)聯(lián)與自動標(biāo)注處理,獲得標(biāo)注語料文本集合;
“標(biāo)注語料文本集合”包括下列2類文本,第1類為:與概念集合中任一概念相關(guān)聯(lián)并用該概念進(jìn)行標(biāo)注了的文本;第2類為:與概念集合中任何概念均不相關(guān)聯(lián)的其他文本,但是該類其他文本由于與已經(jīng)確定的概念均不關(guān)聯(lián),可以用“其他”進(jìn)行標(biāo)注、或者不做任何標(biāo)注、或者用其他不與概念詞語混淆的詞語進(jìn)行標(biāo)注的文本等等,只要能清晰表明這類文本是能夠與第1類文本進(jìn)行區(qū)分的任何詞語即可。
分類模型訓(xùn)練步驟ⅲ,對于概念集合中的每個概念,當(dāng)與該概念關(guān)聯(lián)的標(biāo)注語料文本集合中文本數(shù)量符合閾值條件時,則將與該概念關(guān)聯(lián)的標(biāo)注語料文本集合中的文本作為文本分類模型的正例,不與該概念關(guān)聯(lián)的標(biāo)注語料文本集合中的文本作為文本分類模型的負(fù)例,對該概念對應(yīng)的文本分類模型的正例和負(fù)例進(jìn)行訓(xùn)練,得到該概念對應(yīng)的文本分類器,最終獲得所有文本數(shù)量符合閾值條件的概念對應(yīng)的文本分類器。
在本發(fā)明的一較佳實(shí)施例中,概念確定步驟ⅰ中,確定概念集合x由概念xi組成,其中i=1,2,3,…n,概念集合x中的每個概念xi對應(yīng)具有至少一個概念關(guān)鍵詞組成的概念關(guān)鍵詞集合yi。
在本發(fā)明的一較佳實(shí)施例中,語料自動標(biāo)注步驟ⅱ包括:
步驟ⅱ1,根據(jù)具體實(shí)際應(yīng)用情況收集足夠數(shù)量n的未標(biāo)注語料,記未標(biāo)注語料文本集合為d={dj},其中j=1,2,…,n;
步驟ⅱ2,利用每個概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞對未標(biāo)注語料文本集合d中的每篇文本分別進(jìn)行匹配處理,當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況滿足匹配條件時,則將該篇文本dj標(biāo)注為與該概念xi相關(guān)聯(lián);對未標(biāo)注語料文本集合d中每篇文本進(jìn)行匹配處理得到標(biāo)注語料文本集合c。
在本發(fā)明的一較佳實(shí)施例中,分類模型訓(xùn)練步驟ⅲ包括:
步驟ⅲ1,將概念集合x劃分為兩個互為補(bǔ)集的概念子集合xa和概念子集合xb,劃分原則是,若標(biāo)注語料文本集合c中與概念xi相關(guān)聯(lián)的標(biāo)注語料文本數(shù)量大于或等于閾值α?xí)r,則將該概念xi劃分入概念子集合xa中,與該概念xi相關(guān)聯(lián)的標(biāo)注語料文本集合記為ai;若小于閾值α?xí)r,則將該概念xi劃分入概念子集合xb中;
步驟ⅲ2,將概念子集合xa中的概念xi對應(yīng)的標(biāo)注語料文本集合ai作為訓(xùn)練分類模型的正例,從標(biāo)注語料文本集合c中隨機(jī)抽出k篇不屬于標(biāo)注語料文本集合ai中的文本記為標(biāo)注語料文本集合ai',作為訓(xùn)練分類模型的負(fù)例;
步驟ⅲ3,采用樸素貝葉斯、支持向量機(jī)或邏輯回歸的文本分類模型對標(biāo)注語料文本集合ai和ai'訓(xùn)練概念xi對應(yīng)的文本分類器記為mi;訓(xùn)練出的概念子集合xa中的每個概念xi對應(yīng)的文本分類器集合記為m0。
在本發(fā)明的一較佳實(shí)施例中,分類模型訓(xùn)練步驟ⅲ還包括:
步驟ⅲ4,利用文本分類器集合m0中的分別與每個概念xi對應(yīng)的文本分類器mi對未標(biāo)注語料文本集合d中的文本進(jìn)行分類處理即關(guān)聯(lián)與標(biāo)注處理,得到相應(yīng)的文本分類結(jié)果,該文本分類結(jié)果單獨(dú)存放,不影響標(biāo)注語料文本集合c;
步驟ⅲ5,對于概念子集合xa中的每個概念xi,用文本分類器mi計算文本對應(yīng)到概念xi的概率,從文本分類結(jié)果中選出對應(yīng)到概念xi的概率大于閾值β的文本,將其加入到概念xi對應(yīng)的標(biāo)注語料文本集合ai中,形成新的標(biāo)注語料集合ai;
步驟ⅲ6,對于新的標(biāo)注語料集合ai,重復(fù)步驟ⅲ2~ⅲ52~10次,得到符合要求的概念xi對應(yīng)的文本分類器mi,從而獲得最終符合要求的文本分類器集合m;或?qū)τ谛碌臉?biāo)注語料集合ai,人工匹配評估獲得符合要求的概念xi對應(yīng)的文本分類器mi,從而得到最終符合要求的文本分類器集合m。
在本發(fā)明的一較佳實(shí)施例中,分類模型訓(xùn)練步驟ⅲ3中:
采用支持向量機(jī)的文本分類模型對標(biāo)注語料文本集合ai和ai'訓(xùn)練針對概念xi的文本分類器。
在本發(fā)明的一較佳實(shí)施例中,分類模型訓(xùn)練步驟ⅲ5中:
步驟ⅲ5中的閾值β取值范圍為0.1~0.5;步驟ⅲ6中,重復(fù)步驟ⅲ2~ⅲ55~10次。
在本發(fā)明的一較佳實(shí)施例中,分類模型訓(xùn)練步驟ⅲ6中:
人工匹配評估是指對于概念xi,從標(biāo)注語料集合ai中隨機(jī)抽取若干篇文本,再從標(biāo)注語料文本集合c中隨機(jī)抽取若干篇不與該概念xi關(guān)聯(lián)的文本,對抽取的所有文本k重新進(jìn)行人工標(biāo)注,得到標(biāo)準(zhǔn)分類結(jié)果;在步驟ⅲ3每次訓(xùn)練出文本分類器mi后,用文本分類器mi對抽取的所有文本k另行進(jìn)行分類處理得到臨時分類結(jié)果,即使用概念xi對應(yīng)的文本分類器mi計算所有文本k中的每篇文本關(guān)聯(lián)到概念xi的概率,若概率大于閾值β,則將該文本標(biāo)注為與概念xi關(guān)聯(lián)的文本;將臨時分類結(jié)果和標(biāo)準(zhǔn)分類結(jié)果進(jìn)行比較,計算臨時分類結(jié)果的準(zhǔn)確率,當(dāng)準(zhǔn)確率大于或等于閾值γ時,則該文本分類器mi為符合要求的文本分類器;
當(dāng)準(zhǔn)確率低于閾值γ時,則重新進(jìn)行概念確定步驟ⅰ,即重新確定概念xi對應(yīng)的至少一個新的概念關(guān)鍵詞,形成新的概念關(guān)鍵詞集合yi,和/或,重新確定步驟ⅱ2的匹配條件;當(dāng)有重新進(jìn)行概念確定步驟ⅰ時,根據(jù)新的概念關(guān)鍵詞集合yi進(jìn)行步驟ⅱ2獲得新的標(biāo)注語料文本集合c;將標(biāo)注語料文本集合c進(jìn)行步驟ⅲ1獲得新的概念子集合xa和新的概念子集合xb;對新的概念子集合xa和新的概念子集合xb繼續(xù)進(jìn)行步驟ⅲ2~ⅲ6,直至當(dāng)文本分類器mi臨時分類結(jié)果的準(zhǔn)確率大于或等于閾值γ,則該文本分類器mi為符合要求的文本分類器;當(dāng)僅僅有重新確定步驟ⅱ2的匹配條件時,從步驟ⅱ2開始直至該文本分類器mi為符合要求的文本分類器為止。
在本發(fā)明的一較佳實(shí)施例中,還包括概念關(guān)聯(lián)步驟ⅳ:
概念關(guān)聯(lián)步驟ⅳ,利用文本分類器集合m中的針對每個概念xi的文本分類器mi對文本d進(jìn)行分類處理;同時利用概念子集合xb中的每個概念xi對應(yīng)的概念關(guān)鍵詞集合中的概念關(guān)鍵詞對該文本d進(jìn)行匹配處理,獲得該文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果。
在本發(fā)明的一較佳實(shí)施例中,概念關(guān)聯(lián)步驟ⅳ具體包括:
步驟ⅳ1,利用文本分類器集合m中每個文本分類器mi對文本d進(jìn)行分類處理,并計算文本d對應(yīng)到概念xi的概率,如若文本d對應(yīng)到概念xi的概率大于設(shè)定閾值β,將文本d標(biāo)注為與概念子集合xa中的概念xi相關(guān)聯(lián);
步驟ⅳ2,同時,還要利用概念子集合xb中每個概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞對文本d進(jìn)行匹配處理,當(dāng)滿足匹配條件時,將該文本d標(biāo)注為與該概念子集合xb中的概念xi相關(guān)聯(lián);獲得該文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果。
在本發(fā)明的一較佳實(shí)施例中,匹配條件具體是指:
判斷該文本中是否有超過25%優(yōu)選超過30%的段落中出現(xiàn)與該概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞,如若超過,則該文本標(biāo)注為與該概念xi關(guān)聯(lián);如若不超過,則該文本不標(biāo)注與該概念xi關(guān)聯(lián)。
在本發(fā)明的一較佳實(shí)施例中,還包括語料更新步驟ⅴ,
語料更新步驟ⅴ,將文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果加入到標(biāo)注語料文本集合c中,采用一定的移除方式定期從標(biāo)注語料文本集合c中移除較舊的標(biāo)注語料文本,得到更新后的標(biāo)注語料文本集合c。
在本發(fā)明的一較佳實(shí)施例中,語料更新步驟ⅴ中移除方式是指:使標(biāo)注語料文本集合c中每個概念xi對應(yīng)的文本數(shù)量保持在數(shù)十到數(shù)百之間,如果某概念xi對應(yīng)的文本數(shù)量大于數(shù)百,則移除較舊的文本;使不與任何概念xi關(guān)聯(lián)的文本數(shù)量保持在數(shù)千到數(shù)萬之間,如若超過數(shù)萬,則移除較舊的文本。
在本發(fā)明的一較佳實(shí)施例中,還包括分類器更新步驟ⅵ:
對更新后的標(biāo)注語料文本集合c重復(fù)分類模型訓(xùn)練步驟ⅲ,得到更新的文本分類器集合m。
在本發(fā)明的一較佳實(shí)施例中,還包括概念新增步驟ⅶ:
步驟ⅶ1,在增加若干新增概念xp后,取概念增集合xp={xp},新增概念xp對應(yīng)概念關(guān)鍵詞集合yp;
步驟ⅶ2,對概念增集合xp={xp}進(jìn)行語料自動標(biāo)注步驟ⅱ2,然后按照分類模型訓(xùn)練步驟ⅲ1的劃分原則將xp劃分為兩個互為補(bǔ)集的概念子集合xpa和概念子集合xpb,再進(jìn)行分類模型訓(xùn)練步驟ⅲ2~ⅲ6;
判斷概念xp對應(yīng)的標(biāo)注語料文本集合cp中文本數(shù)量是否大于或等于閾值α,如若大于或等于閾值α,則將概念xp分配到概念子集合xa中,將訓(xùn)練出符合要求的文本分類器mp加入到文本分類器集合m中;如若小于閾值α,則將概念xp分配到概念子集合xb中。
在本發(fā)明的一較佳實(shí)施例中,還包括概念新增后的概念關(guān)聯(lián)步驟ⅷ:利用概念新增步驟ⅶ后得到的文本分類器集合m中的針對每個概念xp的文本分類器mp對文本d進(jìn)行分類處理;同時利用概念子集合xb中的每個概念xp對應(yīng)的概念關(guān)鍵詞集合中的概念關(guān)鍵詞對該文本d進(jìn)行匹配處理,獲得該文本d與概念集合x中的每一概念xp的最終關(guān)聯(lián)結(jié)果。
在本發(fā)明的一較佳實(shí)施例中,步驟ⅱ2中,當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與多個概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況均滿足匹配條件時,則將該篇文本dj標(biāo)注為與該對應(yīng)的多個概念xi均相關(guān)聯(lián)。
在本發(fā)明的一較佳實(shí)施例中,步驟ⅱ2中,當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與任何概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況均不滿足匹配條件時,則將該篇文本dj標(biāo)注為“其它”或者不作任何標(biāo)注。
在本發(fā)明的一較佳實(shí)施例中,在人工標(biāo)注的方法中,當(dāng)某一篇文本與任何概念對應(yīng)的概念關(guān)鍵詞的匹配情況均不滿足匹配條件時,則將該篇文本標(biāo)注為“其它”或者不作任何標(biāo)注。
在本發(fā)明的一較佳實(shí)施例中,步驟ⅳ2之后,當(dāng)文本d與任何概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況均不滿足匹配條件時,則將該篇文本d標(biāo)注為“其它”或者不作任何標(biāo)注,獲得該文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果。
在本發(fā)明的一較佳實(shí)施例中,本發(fā)明還包括獲得的自動標(biāo)注語料的文本分類器。
在本發(fā)明的一較佳實(shí)施例中,本發(fā)明還包括獲得的標(biāo)注語料文本集合。
在本發(fā)明的一種文本分類方法,包括利用以上所述的方法得到的文本分類器集合m中的針對每個概念xi的文本分類器mi對文本d進(jìn)行分類處理;同時利用概念子集合xb中的每個概念xi對應(yīng)的概念關(guān)鍵詞集合中的概念關(guān)鍵詞對該文本d進(jìn)行匹配并且分類處理,獲得該文本d與概念集合x中的每一概念xi的最終分類結(jié)果。
在本發(fā)明的一種文本分類方法,具體包括,
第一步,利用文本分類器集合m中每個文本分類器mi對文本d進(jìn)行分類處理,并計算文本d對應(yīng)到概念xi的概率,如若文本d對應(yīng)到概念xi的概率大于設(shè)定閾值β,將文本d分為與概念子集合xa中的概念xi相關(guān)聯(lián);
第二步,同時還要利用概念子集合xb中每個概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞對文本d進(jìn)行匹配處理,當(dāng)滿足匹配條件時,將該文本d與該概念子集合xb中的概念xi相關(guān)聯(lián)。
術(shù)語“概念”是若干個上市公司的經(jīng)營業(yè)務(wù)的共性。概念的范疇包括:(1)政策,如“一帶一路”等;(2)行業(yè),如“食品飲料”等;(3)產(chǎn)品,如“無人機(jī)”等;(4)金融方面的特點(diǎn),如“次新股”等,及其他內(nèi)容。概念包括但不限于上述范疇。術(shù)語“概念關(guān)鍵詞”是指每個概念對應(yīng)若干個能表示概念特點(diǎn)的詞。在一句話中如若提到概念關(guān)鍵詞,則認(rèn)為談?wù)摰氖菍?yīng)的概念。文本包括但不限于新聞、證券機(jī)構(gòu)的研報、上市公司的公告等的標(biāo)題和正文內(nèi)容。術(shù)語“文本和概念相關(guān)聯(lián)”是指當(dāng)一篇文本的內(nèi)容較多地涉及和某個概念相關(guān)的內(nèi)容,則稱為該文本和該概念相關(guān)聯(lián)。一篇文本可能關(guān)聯(lián)到概念,也可能不關(guān)聯(lián)任何概念;可能關(guān)聯(lián)到一個概念,也可能關(guān)聯(lián)多個概念。從文本分類的角度來看,概念可以認(rèn)為是類別,文本關(guān)聯(lián)到某個概念,可以認(rèn)為文本屬于某個類別。術(shù)語“標(biāo)注”是指標(biāo)出文本對應(yīng)的概念,標(biāo)注可以是人工標(biāo)注,也可以通過算法實(shí)現(xiàn)自動標(biāo)注。術(shù)語“未標(biāo)注語料文本集合”是指沒有標(biāo)出文本對應(yīng)概念的文本集合。術(shù)語“標(biāo)注語料文本集合”是指已經(jīng)標(biāo)出文本對應(yīng)概念的文本集合。
本發(fā)明的積極進(jìn)步效果在于:
本發(fā)明的方法提供一種算法結(jié)構(gòu),具有普適性,可靈活地改變分類體系,例如能夠?qū)崿F(xiàn)定期更新標(biāo)注語料文本集合和文本分類器,如若需要新增概念,既在概念集合中增加新增概念,只需針對新增概念進(jìn)行自動標(biāo)注語料及訓(xùn)練分類器,即可得到新增概念對應(yīng)的文本分類器,如此一來節(jié)約了計算時間和資源,并且本發(fā)明提供少量的初始語料文本即可,且自動標(biāo)注,無需人工標(biāo)注,進(jìn)一步節(jié)約時間和成本。
附圖說明
圖1為本發(fā)明訓(xùn)練文本分類器的流程圖;
圖2為本發(fā)明的文本分類方法的流程圖。
具體實(shí)施方式
下面舉出較佳實(shí)施例,并結(jié)合圖1和圖2來更清楚完整地說明本發(fā)明獲得用于自動標(biāo)注語料的文本分類器方法及文本分類器的實(shí)現(xiàn)過程。
步驟a,概念確定過程包括:
概念集合x由概念xi組成,其中i=1,2,3,…n,概念集合x中的每個概念xi對應(yīng)具有至少一個概念關(guān)鍵詞組成的概念關(guān)鍵詞集合yi。一篇文本可能關(guān)聯(lián)到一個或多個概念xi,也可能不關(guān)聯(lián)任何概念xi。如若一篇文本具有較多地與概念集合x中某概念xi相關(guān)的內(nèi)容,則該文本和該概念xi相關(guān)聯(lián);如若一篇文本的內(nèi)容與概念集合x中任何概念xi均不相關(guān),稱為該文本和該概念相關(guān)聯(lián)。從文本分類的角度來看,概念可以認(rèn)為是類別,如若文本關(guān)聯(lián)到某概念,可以認(rèn)為文本屬于某概念所屬的類別。概念集合用于確定文本要關(guān)聯(lián)到的概念,即確定將文本分為關(guān)聯(lián)到的概念對應(yīng)的類別。
步驟b,語料自動標(biāo)注過程包括:
步驟b1,根據(jù)具體實(shí)際應(yīng)用情況收集足夠數(shù)量n的未標(biāo)注語料,記未標(biāo)注語料文本集合為d={dj},其中j=1,2,…,n。
步驟b2,利用每個概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞對未標(biāo)注語料文本集合d中的每篇文本分別進(jìn)行匹配處理,判斷當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況是否滿足匹配條件時,本發(fā)明的一優(yōu)選實(shí)施例中,匹配條件為即判斷該文本dj中是否有超過25%優(yōu)選超過30%的段落中出現(xiàn)與該概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞,如若超過,則將該文本dj與概念xi相關(guān)聯(lián);如若不超過,則該文本dj不可以與概念xi相關(guān)聯(lián)。當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況滿足匹配條件時,則將該篇文本dj標(biāo)注為與該概念xi相關(guān)聯(lián)的文本,并將該篇文本dj標(biāo)注為與該概念xi相關(guān)聯(lián)。對未標(biāo)注語料文本集合d中每篇文本進(jìn)行匹配處理得到標(biāo)注語料文本集合c。
當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與多個概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況均滿足匹配條件時,則將該篇文本dj標(biāo)注為與該對應(yīng)的多個概念xi均相關(guān)聯(lián)。當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與任何概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況均不滿足匹配條件時,則將該篇文本dj標(biāo)注為“其它”或者不作任何標(biāo)注。
其中,影響匹配條件的主要因素包括:文本中出現(xiàn)的與概念xi的概念關(guān)鍵詞集合yi中概念關(guān)鍵詞的數(shù)量、文本中出現(xiàn)的概念xi的概念關(guān)鍵詞集合yi中概念關(guān)鍵詞的數(shù)量和文本中所有詞語數(shù)量的比值、文本中出現(xiàn)概念xi的概念關(guān)鍵詞集合yi中概念關(guān)鍵詞的句子數(shù)量、文本中出現(xiàn)概念xi的概念關(guān)鍵詞集合yi中概念關(guān)鍵詞的句子數(shù)量和文本中所有句子數(shù)量的比值、文本中出現(xiàn)概念xi的概念關(guān)鍵詞集合yi的概念關(guān)鍵詞的自然段數(shù)量、文本中出現(xiàn)概念xi的概念關(guān)鍵詞集合yi的概念關(guān)鍵詞的自然段數(shù)量和文本自然段總數(shù)的比值。
步驟c,分類模型訓(xùn)練過程包括:
步驟c1,將概念集合x劃分為兩個互為補(bǔ)集的概念子集合xa和概念子集合xb,劃分原則是,若標(biāo)注語料文本集合c中與概念xi相關(guān)聯(lián)的標(biāo)注語料文本數(shù)量大于或等于閾值α?xí)r,則將該概念xi劃分入概念子集合xa中,與該概念xi相關(guān)聯(lián)的標(biāo)注語料文本集合記為ai;若小于閾值α?xí)r,則將該概念xi劃分入概念子集合xb中。一優(yōu)選實(shí)施例中,閾值α取值為100。
步驟c2,將概念子集合xa中的概念xi對應(yīng)的標(biāo)注語料文本集合ai中的文本作為訓(xùn)練分類模型的正例,從標(biāo)注語料文本集合c中隨機(jī)抽出k篇不屬于標(biāo)注語料文本集合ai中的文本作為訓(xùn)練分類模型的負(fù)例,記為標(biāo)注語料文本集合ai'。
步驟c3,采用樸素貝葉斯、支持向量機(jī)或邏輯回歸等文本分類模型對標(biāo)注語料文本集合ai和ai'訓(xùn)練概念xi對應(yīng)的文本分類器,記為mi。訓(xùn)練出的概念子集合xa中的每個概念xi對應(yīng)的文本分類器集合記為m0。本發(fā)明的一優(yōu)選實(shí)施例中,采用支持向量機(jī)(可參考文獻(xiàn):yuan,g.,ho,c.,lin,c.:recentadvancesoflarge-scalelinearclassification.proc.ieee100(9),2584-2603(2012))的文本分類模型對標(biāo)注語料文本集合ai和ai'訓(xùn)練針對概念xi的文本分類分類器。
步驟c4,利用文本分類器集合m0中的分別與每個概念xi對應(yīng)的文本分類器mi對未標(biāo)注語料文本集合d中的文本進(jìn)行分類處理,得到相應(yīng)的文本分類結(jié)果,該分類結(jié)果單獨(dú)存放,不影響標(biāo)注語料文本集合c。
步驟c5,對于概念子集合xa中的每個概念xi,用文本分類器mi計算文本對應(yīng)到概念xi的概率,從文本分類結(jié)果中選出對應(yīng)到概念xi的概率大于閾值β的文本,將其加入到概念xi對應(yīng)的標(biāo)注語料文本集合ai中,形成新的標(biāo)注語料集合ai。其中,β取值范圍為0.1~0.5。
步驟c6,對于新的標(biāo)注語料集合ai,重復(fù)步驟c2~c52~10次,得到符合要求的概念xi對應(yīng)的文本分類器mi,從而獲得最終符合要求的文本分類器集合m。一優(yōu)選實(shí)施例中,重復(fù)步驟c2~c55~10次?;?qū)τ谛碌臉?biāo)注語料集合ai,人工匹配評估獲得符合要求的概念xi對應(yīng)的文本分類器mi,從而得到最終符合要求的文本分類器集合m。
其中,人工匹配評估是指對于概念xi,從標(biāo)注語料集合ai中隨機(jī)抽取若干篇文本,再從標(biāo)注語料文本集合c中隨機(jī)抽取若干篇不與該概念xi關(guān)聯(lián)的文本,對抽取的所有文本k重新進(jìn)行人工標(biāo)注,得到標(biāo)準(zhǔn)分類結(jié)果;在步驟ⅲ3每次訓(xùn)練出文本分類器mi后,用文本分類器mi對抽取的所有文本k另行進(jìn)行分類處理得到臨時分類結(jié)果,即使用概念xi對應(yīng)的文本分類器mi計算所有文本k中的每篇文本關(guān)聯(lián)到概念xi的概率,若概率大于閾值β,則將該文本標(biāo)注為與概念xi關(guān)聯(lián)的文本;將臨時分類結(jié)果和標(biāo)準(zhǔn)分類結(jié)果進(jìn)行比較,計算臨時分類結(jié)果的準(zhǔn)確率,當(dāng)準(zhǔn)確率大于或等于閾值γ(通常γ取值范圍為0.8~1)時,則該文本分類器mi為符合要求的文本分類器;
當(dāng)準(zhǔn)確率低于閾值γ時,則重新進(jìn)行概念確定步驟ⅰ,即重新確定概念xi對應(yīng)的至少一個新的概念關(guān)鍵詞,形成新的概念關(guān)鍵詞集合yi,和/或,重新確定步驟b2的匹配條件;當(dāng)有重新進(jìn)行概念確定步驟ⅰ時,根據(jù)新的概念關(guān)鍵詞集合yi進(jìn)行步驟b2獲得新的標(biāo)注語料文本集合c;將標(biāo)注語料文本集合c進(jìn)行步驟c1獲得新的概念子集合xa和新的概念子集合xb;對新的概念子集合xa和新的概念子集合xb繼續(xù)進(jìn)行步驟c2~c6,直至當(dāng)文本分類器mi臨時分類結(jié)果的準(zhǔn)確率大于或等于閾值γ,則該文本分類器mi為符合要求的文本分類器;當(dāng)僅僅有重新確定步驟b2的匹配條件時,從步驟b2開始直至該文本分類器mi為符合要求的文本分類器為止。
步驟d,概念關(guān)聯(lián)過程包括:
步驟d1,利用文本分類器集合m中的針對每個概念xi的文本分類器mi對文本d進(jìn)行分類處理,用文本分類器mi計算文本d對應(yīng)到概念xi的概率,如若文本d對應(yīng)到概念xi的概率大于設(shè)定閾值β,將文本d標(biāo)注為與關(guān)聯(lián)到概念子集合xa中的概念xi相關(guān)聯(lián);
步驟d2,同時還要利用概念子集合xb中每個概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞對文本d進(jìn)行匹配處理,當(dāng)滿足匹配條件時,將該文本d標(biāo)注為與該概念子集合xb中的概念xi相關(guān)聯(lián);獲得該文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果。當(dāng)文本d與任何概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況均不滿足匹配條件時,則將該篇文本d標(biāo)注為“其它”或者不作任何標(biāo)注,獲得該文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果。
步驟e,更新標(biāo)注語料文本集合包括:
將文本d與概念集合x中的每一概念xi的最終關(guān)聯(lián)結(jié)果加入到標(biāo)注語料文本集合c中,采用一定的移除方式定期從標(biāo)注語料文本集合c中移除較舊的標(biāo)注語料文本,得到更新后的標(biāo)注語料文本集合c。其中,移除方式是指:使標(biāo)注語料文本集合c中每個概念xi對應(yīng)的文本數(shù)量保持在數(shù)十到數(shù)百之間,如果某概念xi對應(yīng)的文本數(shù)量大于數(shù)百,則移除較舊的文本;使不與任何概念xi關(guān)聯(lián)的文本數(shù)量保持在數(shù)千到數(shù)萬之間,如若超過數(shù)萬,則移除較舊的文本。
步驟f,更新分類器過程包括:
對更新后的標(biāo)注語料文本集合c重復(fù)分類模型訓(xùn)練步驟ⅲ,得到更新的文本分類器集合m。
步驟g,增加新增概念過程包括:
步驟g1,在增加若干新增概念xp后,取概念增集合xp={xp},新增概念xp對應(yīng)概念關(guān)鍵詞集合yp。
步驟g2,對概念增集合xp={xp}進(jìn)行語料自動標(biāo)注處理,然后按照分類模型訓(xùn)練步驟ⅲ1的劃分原則將xp劃分為兩個互為補(bǔ)集的概念子集合xpa和概念子集合xpb,再進(jìn)行分類模型訓(xùn)練步驟c2~c6。判斷概念xp對應(yīng)的標(biāo)注語料文本集合cp中文本數(shù)量是否大于或等于閾值α,如若大于或等于閾值α,則將概念xp分配到概念子集合xa中,將訓(xùn)練出符合要求的文本分類器mp加入到文本分類器集合m中;如若小于閾值α,則將概念xp分配到概念子集合xb中。
概念新增后的概念關(guān)聯(lián)過程包括:利用概念新增步驟ⅶ后得到的文本分類器集合m中的針對每個概念xp的文本分類器mp對文本d進(jìn)行分類處理;同時利用概念子集合xb中的每個概念xp對應(yīng)的概念關(guān)鍵詞集合中的概念關(guān)鍵詞對該文本d進(jìn)行匹配處理,獲得該文本d與概念集合x中的每一概念xp的最終關(guān)聯(lián)結(jié)果。
下面通過一具體實(shí)施例對本發(fā)明獲得用于自動標(biāo)注語料的文本分類器的方法具體實(shí)現(xiàn)過程進(jìn)行進(jìn)一步說明:
步驟s1,確定概念:
確定包含三個概念的概念集合x={x1,x2,x3},x1=廢氣治理,x2=增強(qiáng)現(xiàn)實(shí),x3=釩電池。x1,x2,x3對應(yīng)的概念關(guān)鍵詞集合y1,y2,y3分別為:
y1={廢氣,廢氣治理,廢氣處理,有機(jī)廢氣,工業(yè)廢氣,廢氣凈化};
y2={增強(qiáng)現(xiàn)實(shí),ar};
y3={釩電池}。
步驟s2,自動語料標(biāo)注:
步驟s21,收集5000篇新聞?wù)Z料,形成未標(biāo)注語料文本集合d={dj},其中j=1,2,…,5000;
步驟s22,用每個概念x1,x2,x3對應(yīng)的概念關(guān)鍵詞集合y1,y2,y3對未標(biāo)注語料文本集合d中的每篇文本分別進(jìn)行匹配處理。當(dāng)一篇文本dj與某個概念xi對應(yīng)的概念關(guān)鍵詞yi的匹配情況滿足匹配條件時,即判斷該文本dj中是否有超過25%優(yōu)選超過30%的段落中出現(xiàn)與概念xi對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞,如若超過,則該文本dj可以關(guān)聯(lián)到該概念xi;如若不超過,則該文本dj不可以關(guān)聯(lián)到該概念xi。當(dāng)未標(biāo)注語料文本集合d中的某一篇文本dj與概念xi對應(yīng)的概念關(guān)鍵詞的匹配情況滿足匹配條件時,則將該篇文本dj標(biāo)注為與該概念xi相關(guān)聯(lián)的文本,則將該篇文本dj標(biāo)注為與該概念xi相關(guān)聯(lián)。對未標(biāo)注語料文本集合d中每篇文本進(jìn)行標(biāo)注得到標(biāo)注語料文本集合c。
步驟s3,分類模型訓(xùn)練:
步驟s31,標(biāo)注語料文本集合c中標(biāo)記了與概念x1相關(guān)聯(lián)的文本有208篇,標(biāo)記了概念x2相關(guān)聯(lián)的文本有154篇,標(biāo)記了概念x3相關(guān)聯(lián)的文本有34篇;
步驟s32,將概念集合x劃分為兩個互為補(bǔ)集的概念子集合xa和概念子集合xb。取閾值α=100,則xa={x1,x2},xb={x3}。概念x1,x2相關(guān)聯(lián)的標(biāo)注語料文本集合ci分別記為a1,a2。
步驟s33,分別將概念子集合xa中的概念x1,x2對應(yīng)的標(biāo)注語料文本集合a1中的文本作為訓(xùn)練分類模型的正例,從標(biāo)注語料文本集合c中隨機(jī)抽出1000篇不屬于標(biāo)注語料文本集合a1,a2中的文本,作為訓(xùn)練分類模型的負(fù)例,記為標(biāo)注語料文本集合a1',a2'。采用支持向量機(jī)對標(biāo)注語料文本集合a1、a1'和a2、a2'進(jìn)行訓(xùn)練概念x1,x2對應(yīng)的文本分類器,分別記為m1,m2。概念子集合xa中的概念x1,x2對應(yīng)的文本分類器集合記為m0。
步驟s34,利用文本分類器集合m0中的概念x1,x2對應(yīng)的文本分類器m1,m2對未標(biāo)注語料文本集合d中的文本進(jìn)行分類處理,得到相應(yīng)的文本分類結(jié)果。
步驟s35,對于概念子集合xa中的x1,x2,用文本分類器m1,m2計算文本對應(yīng)到概念x1,x2的概率,從文本分類結(jié)果中分別選出對應(yīng)到概念x1,x2的概率大于閾值β的文本,將其加入到概念x1,x2對應(yīng)的標(biāo)注語料文本集合a1,a2中,形成新的標(biāo)注語料集合a1,a2。
步驟s36,對于新的標(biāo)注語料集合a1,a2,分別重復(fù)步驟s32~s355次,得到符合要求的概念x1,x2對應(yīng)的文本分類器m1,m2,從而獲得最終符合要求的文本分類器集合m。
步驟s4,概念關(guān)聯(lián)處理:
步驟s41,利用文本分類器集合m中概念x1,x2的文本分類器m1,m2對文本d進(jìn)行分類處理,用文本分類器m1,m2計算文本d對應(yīng)到概念x1,x2的概率,如若文本d對應(yīng)到概念x1,x2的概率大于設(shè)定閾值β,將文本d標(biāo)注為與概念子集合xa中的概念x1,x2相關(guān)聯(lián);
步驟s42,同時,還要利用概念子集合xb中概念x3對應(yīng)的概念關(guān)鍵詞集合yi中的概念關(guān)鍵詞對文本d進(jìn)行匹配處理,當(dāng)滿足匹配條件時,將該文本d標(biāo)注為與該概念子集合xb中的概念x3相關(guān)聯(lián);
步驟s43,合并步驟s41和步驟s42獲得的該文本d的概念關(guān)聯(lián)結(jié)果,得到該文本d與概念集合x中的每一概念x1,x2,x3的最終關(guān)聯(lián)結(jié)果。