欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):12887212閱讀:262來(lái)源:國(guó)知局
主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì)。



背景技術(shù):

在互聯(lián)網(wǎng)內(nèi)容分發(fā)系統(tǒng)中,需要通過(guò)主題詞對(duì)文章進(jìn)行分類,該主題詞是指可以代表文章主要內(nèi)容特征的詞,這樣用戶可以通過(guò)主題詞方便快捷的了解該文章的內(nèi)容。

現(xiàn)有的文章主題詞一般為文章中出現(xiàn)的標(biāo)簽詞,而文章中標(biāo)簽詞的提取算法要求文章的標(biāo)簽詞必須在該文章中出現(xiàn)過(guò),這樣就大大限制了文章主題詞的抽象程度以及概括能力。例如一篇描述某個(gè)具體黑科技的文章中可能不會(huì)出現(xiàn)“黑科技”這個(gè)標(biāo)簽詞,這樣導(dǎo)致使用上述標(biāo)簽詞提取算法無(wú)法將該文章的主題詞設(shè)置為“黑科技”。同理“東北風(fēng)”以及“小資生活”等抽象程度較高的詞匯無(wú)法成為文章的主題詞。

為了解決上述文章主題詞的設(shè)置問(wèn)題,現(xiàn)有的主題詞分類器通過(guò)建立主題詞分類模型來(lái)使文章主題詞判斷自動(dòng)化,但是上述主題詞分類模型需要收集大量標(biāo)注好主題詞的文章進(jìn)行訓(xùn)練,因此需要大量人力物力對(duì)大量文章進(jìn)行較為準(zhǔn)確的主題詞標(biāo)注,以便生成較為準(zhǔn)確的主題詞分類模型。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種可準(zhǔn)確創(chuàng)建主題詞分類模型,創(chuàng)建過(guò)程簡(jiǎn)單且創(chuàng)建成本較低的主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì);以解決現(xiàn)有的主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì)中的主題詞分類模型的準(zhǔn)確性較差或主題詞分類模型的創(chuàng)建過(guò)程復(fù)雜且創(chuàng)建成本較高的技術(shù)問(wèn)題。

本發(fā)明實(shí)施例提供一種主題詞分類模型創(chuàng)建方法,其包括:

獲取多個(gè)模型訓(xùn)練文檔,并提取所述模型訓(xùn)練文檔的標(biāo)簽詞,以建立所述模型訓(xùn)練文檔與所述標(biāo)簽詞的映射內(nèi)容庫(kù);

基于相似度算法,獲取所述標(biāo)簽詞對(duì)應(yīng)的核心主題詞組;其中所述核心主題詞組中包括多個(gè)核心主題詞;

基于所述映射內(nèi)容庫(kù),獲取所述核心主題詞組對(duì)應(yīng)的第一模型訓(xùn)練文檔集合;

基于機(jī)器學(xué)習(xí)算法,對(duì)多個(gè)所述模型訓(xùn)練文檔進(jìn)行分類操作;其中每個(gè)類別的模型訓(xùn)練文檔具有一個(gè)主體類別標(biāo)識(shí);

基于所述映射內(nèi)容庫(kù),獲取所述標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí),并根據(jù)所述標(biāo)簽詞對(duì)應(yīng)的主體類別標(biāo)識(shí),確定所述標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合;以及

將所述標(biāo)簽詞對(duì)應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本,所述映射內(nèi)容庫(kù)中的其他模型訓(xùn)練文檔作為負(fù)樣本,創(chuàng)建所述標(biāo)簽詞的主題詞分類模型。

本發(fā)明實(shí)施例還提供一種主題詞分類模型創(chuàng)建裝置,其包括:

映射內(nèi)容庫(kù)建立模塊,用于獲取多個(gè)模型訓(xùn)練文檔,并提取所述模型訓(xùn)練文檔的標(biāo)簽詞,以建立所述模型訓(xùn)練文檔與所述標(biāo)簽詞的映射內(nèi)容庫(kù);

核心主題詞組獲取模塊,用于基于相似度算法,獲取所述標(biāo)簽詞對(duì)應(yīng)的核心主題詞組;其中所述核心主題詞組中包括多個(gè)核心主題詞;

第一模型訓(xùn)練文檔集合獲取模塊,用于基于所述映射內(nèi)容庫(kù),獲取所述核心主題詞組對(duì)應(yīng)的第一模型訓(xùn)練文檔集合;

分類模塊,用于基于機(jī)器學(xué)習(xí)算法,對(duì)多個(gè)所述模型訓(xùn)練文檔進(jìn)行分類操作;其中每個(gè)類別的模型訓(xùn)練文檔具有一個(gè)主體類別標(biāo)識(shí);

第二模型訓(xùn)練文檔集合確定模塊,用于基于所述映射內(nèi)容庫(kù),獲取所述標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí),并根據(jù)所述標(biāo)簽詞對(duì)應(yīng)的主體類別標(biāo)識(shí),確定所述標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合;以及

主題詞分類模型創(chuàng)建模塊,用于將所述標(biāo)簽詞對(duì)應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本,所述映射內(nèi)容庫(kù)中的其他模型訓(xùn)練文檔作為負(fù)樣本,創(chuàng)建所述標(biāo)簽詞的主題詞分類模型。

本發(fā)明實(shí)施例還提供一種存儲(chǔ)介質(zhì),其內(nèi)存儲(chǔ)有處理器可執(zhí)行指令,該處理器通過(guò)執(zhí)行所述指令提供上述任一的主題詞分類模型創(chuàng)建方法。

相較于現(xiàn)有技術(shù),本發(fā)明的主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì)通過(guò)多個(gè)核心主題詞引入第一模型訓(xùn)練文檔集合,通過(guò)文檔分類算法引入第二模型訓(xùn)練文檔集合;從而可獲取準(zhǔn)確度較高的主題詞分類模型的訓(xùn)練正樣本和負(fù)樣本,提高了主題詞分類模型的準(zhǔn)確性;同時(shí)簡(jiǎn)化了主題詞分類模型的創(chuàng)建過(guò)程,降低了主題詞分類模型的創(chuàng)建成本;解決了現(xiàn)有的主題詞分類模型創(chuàng)建方法、創(chuàng)建裝置及存儲(chǔ)介質(zhì)中的主題詞分類模型的準(zhǔn)確性較差或主題詞分類模型的創(chuàng)建過(guò)程復(fù)雜且創(chuàng)建成本較高的技術(shù)問(wèn)題。

附圖說(shuō)明

圖1為本發(fā)明的主題詞分類模型創(chuàng)建方法的優(yōu)選實(shí)施例的流程圖;

圖2為本發(fā)明的主題詞分類模型創(chuàng)建方法的第一實(shí)施例的步驟s102的流程圖;

圖3本發(fā)明的主題詞分類模型創(chuàng)建方法的第一實(shí)施例的步驟s105的流程圖;

圖4為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的結(jié)構(gòu)示意圖;

圖5為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的核心主題詞組獲取模塊的結(jié)構(gòu)示意圖;

圖6為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的核心主題詞組獲取模塊的預(yù)備主題詞組獲取單元的結(jié)構(gòu)示意圖;

圖7為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的第二模型訓(xùn)練文檔集合確定模塊的結(jié)構(gòu)示意圖;

圖8為本發(fā)明的主題詞分類模型創(chuàng)建方法以及創(chuàng)建裝置的主題詞分類模型創(chuàng)建流程示意圖

圖9為本發(fā)明的主題詞分類模型創(chuàng)建裝置所在的電子設(shè)備的工作環(huán)境結(jié)構(gòu)示意圖。

具體實(shí)施方式

請(qǐng)參照?qǐng)D式,其中相同的組件符號(hào)代表相同的組件,本發(fā)明的原理是以實(shí)施在一適當(dāng)?shù)倪\(yùn)算環(huán)境中來(lái)舉例說(shuō)明。以下的說(shuō)明是基于所例示的本發(fā)明具體實(shí)施例,其不應(yīng)被視為限制本發(fā)明未在此詳述的其它具體實(shí)施例。

在以下的說(shuō)明中,本發(fā)明的具體實(shí)施例將參考由一部或多部計(jì)算機(jī)所執(zhí)行之作業(yè)的步驟及符號(hào)來(lái)說(shuō)明,除非另有述明。因此,其將可了解到這些步驟及操作,其中有數(shù)次提到為由計(jì)算機(jī)執(zhí)行,包括了由代表了以一結(jié)構(gòu)化型式中的數(shù)據(jù)之電子信號(hào)的計(jì)算機(jī)處理單元所操縱。此操縱轉(zhuǎn)換該數(shù)據(jù)或?qū)⑵渚S持在該計(jì)算機(jī)之內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領(lǐng)域技術(shù)人員所熟知的方式來(lái)改變?cè)撚?jì)算機(jī)之運(yùn)作。該數(shù)據(jù)所維持的數(shù)據(jù)結(jié)構(gòu)為該內(nèi)存之實(shí)體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來(lái)說(shuō)明,其并不代表為一種限制,本領(lǐng)域技術(shù)人員將可了解到以下所述的多種步驟及操作亦可實(shí)施在硬件當(dāng)中。

本發(fā)明的主題詞分類模型創(chuàng)建方法及創(chuàng)建裝置用于對(duì)網(wǎng)絡(luò)文章進(jìn)行主題詞判斷的電子設(shè)備中,該電子設(shè)備包括但不限于可穿戴設(shè)備、頭戴設(shè)備、醫(yī)療健康平臺(tái)、個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、移動(dòng)設(shè)備(比如移動(dòng)電話、個(gè)人數(shù)字助理(pda)、媒體播放器等等)、多處理器系統(tǒng)、消費(fèi)型電子設(shè)備、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括上述任意系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境,等等。該電子設(shè)備優(yōu)選為網(wǎng)絡(luò)數(shù)據(jù)管理服務(wù)器。本發(fā)明的主題詞分類模型創(chuàng)建方法及創(chuàng)建裝置通過(guò)多個(gè)核心主題詞引入第一模型訓(xùn)練文檔集合,通過(guò)文檔分類算法引入第二模型訓(xùn)練文檔集合;從而可獲取準(zhǔn)確度較高的主題詞分類模型的訓(xùn)練正樣本和負(fù)樣本,提高了主題詞分類模型的準(zhǔn)確性;同時(shí)簡(jiǎn)化了主題詞分類模型的創(chuàng)建過(guò)程,降低了主題詞分類模型的創(chuàng)建成本,因此可有效的解決現(xiàn)有的主題詞分類模型創(chuàng)建方法及創(chuàng)建裝置中的主題詞分類模型的準(zhǔn)確性較差或主題詞分類模型的創(chuàng)建過(guò)程復(fù)雜且創(chuàng)建成本較高的技術(shù)問(wèn)題。

請(qǐng)參照?qǐng)D1,圖1為本發(fā)明的主題詞分類模型創(chuàng)建方法的第一實(shí)施例的流程圖。本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建方法可使用上述的電子設(shè)備進(jìn)行實(shí)施,本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建方法包括:

步驟s101,獲取多個(gè)模型訓(xùn)練文檔,并提取模型訓(xùn)練文檔的標(biāo)簽詞,以建立模型訓(xùn)練文檔與標(biāo)簽詞的映射內(nèi)容庫(kù);

步驟s102,基于相似度算法,獲取標(biāo)簽詞對(duì)應(yīng)的核心主題詞組;其中核心主題詞組中包括多個(gè)核心主題詞;

步驟s103,基于映射內(nèi)容庫(kù),獲取核心主題詞組對(duì)應(yīng)的第一模型訓(xùn)練文檔集合;

步驟s104,基于機(jī)器學(xué)習(xí)算法,對(duì)多個(gè)模型訓(xùn)練文檔進(jìn)行分類操作;其中每個(gè)類別的模型訓(xùn)練文檔具有一個(gè)主體類別標(biāo)識(shí);

步驟s105,基于映射內(nèi)容庫(kù),獲取標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí),并根據(jù)標(biāo)簽詞對(duì)應(yīng)的主體類別標(biāo)識(shí),確定標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合;

步驟s106,將標(biāo)簽詞對(duì)應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本,映射內(nèi)容庫(kù)中的其他模型訓(xùn)練文檔作為負(fù)樣本,創(chuàng)建標(biāo)簽詞的主題詞分類模型。

下面詳細(xì)說(shuō)明本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建方法的各步驟的具體流程。

在步驟s101中,主題詞分類模型創(chuàng)建裝置通過(guò)網(wǎng)絡(luò)內(nèi)容爬蟲(chóng),獲取多個(gè)模型訓(xùn)練文檔。如主題詞分類模型創(chuàng)建裝置每天對(duì)全網(wǎng)內(nèi)容進(jìn)行爬取,通過(guò)去重處理之后可獲取10萬(wàn)篇文章,這樣主題詞分類模型創(chuàng)建裝置10天可獲取100萬(wàn)篇模型訓(xùn)練文檔。

隨后主題詞分類模型創(chuàng)建裝置使用textrank等算法提取每個(gè)模型訓(xùn)練文檔的至少一個(gè)標(biāo)簽詞,從而形成標(biāo)簽詞和模型訓(xùn)練文檔的對(duì)應(yīng)關(guān)系。然后主題詞分類模型創(chuàng)建裝置基于上述標(biāo)簽詞和模型訓(xùn)練文檔的對(duì)應(yīng)關(guān)系,建立模型訓(xùn)練文檔和標(biāo)簽詞的映射內(nèi)容庫(kù),這里映射內(nèi)容庫(kù)中一個(gè)標(biāo)簽詞可對(duì)應(yīng)多個(gè)模型訓(xùn)練文檔。這樣用戶可通過(guò)映射內(nèi)容庫(kù)中的任一標(biāo)簽詞查到對(duì)應(yīng)的多個(gè)模型訓(xùn)練文檔。隨后轉(zhuǎn)到步驟s102和步驟s104。

在步驟s102中,主題詞分類模型創(chuàng)建裝置獲取模型訓(xùn)練文檔中的所有詞語(yǔ)單元;隨后基于相似度算法,主題詞分類模型創(chuàng)建裝置從所有詞語(yǔ)單元中獲取與標(biāo)簽詞對(duì)應(yīng)的多個(gè)核心主題詞,即從所有詞語(yǔ)單元中獲取與標(biāo)簽詞具有較高相似度的核心主題詞,并由這些核心主題詞組成該標(biāo)簽詞對(duì)應(yīng)的核心主題詞組。

具體請(qǐng)參照?qǐng)D2,圖2為本發(fā)明的主題詞分類模型創(chuàng)建方法的第一實(shí)施例的步驟s102的流程圖。該步驟s102包括:

步驟s201,主題詞分類模型創(chuàng)建裝置可使用word2vec等算法,計(jì)算步驟s101獲取的模型訓(xùn)練文檔中所有詞語(yǔ)單元的詞向量。這樣可通過(guò)詞語(yǔ)單元的詞向量之間的向量距離來(lái)表示詞語(yǔ)單元之間的相似度。

步驟s202,主題詞分類模型創(chuàng)建裝置可根據(jù)步驟s201獲取的詞語(yǔ)單元的詞向量,獲取與該標(biāo)簽詞具有一定相似度的多個(gè)預(yù)備主題詞,隨后由這多個(gè)預(yù)備主題詞組成該標(biāo)簽詞對(duì)應(yīng)的預(yù)備主題詞組。

獲取該預(yù)備主題詞組的步驟具體為:

主題詞分類模型創(chuàng)建裝置根據(jù)步驟s201獲取的詞語(yǔ)單元的詞向量,獲取與標(biāo)簽詞的向量距離小于第一設(shè)定值的所有第一預(yù)備主題詞;

隨后主題詞分類模型創(chuàng)建裝置根據(jù)詞語(yǔ)單元的詞向量,獲取與第一預(yù)備主題詞的向量距離小于第二設(shè)定值的第二預(yù)備主題詞;如具有多個(gè)第一預(yù)備主題詞,每個(gè)第一預(yù)備主題詞均可獲取多個(gè)第二預(yù)備主題詞;

最后主題詞分類模型創(chuàng)建裝置使用上述所有的第一預(yù)備主題詞和對(duì)應(yīng)的第二預(yù)備主題詞,建立預(yù)備主題詞組。該預(yù)備主題詞組中包括多個(gè)預(yù)備主題詞。

這里的第一設(shè)定值以及第二設(shè)定值可根據(jù)用戶要求進(jìn)行設(shè)定,該第一設(shè)定值可與第二設(shè)定值相等或不相等。

步驟s203,主題詞分類模型創(chuàng)建裝置根據(jù)預(yù)備主題詞組中的預(yù)備主題詞的出現(xiàn)次數(shù),獲取該標(biāo)簽詞對(duì)應(yīng)的核心主題詞組。

由于預(yù)備主題詞在預(yù)備主題詞組中的出現(xiàn)次數(shù)表示了該預(yù)備主題詞與標(biāo)簽詞的相關(guān)性。如預(yù)備主題詞與標(biāo)簽詞相關(guān)性較大,則該預(yù)備主題詞可能會(huì)成為多個(gè)第一預(yù)備主題詞的第二預(yù)備主題詞,因此該預(yù)備主題詞在預(yù)備主題詞組中的出現(xiàn)次數(shù)也較多。如預(yù)備主題詞與標(biāo)簽詞相關(guān)性較小,則該預(yù)備主題詞可能只會(huì)成為某個(gè)第一預(yù)備主題詞的第二預(yù)備子主題詞,因此該預(yù)備主題詞在預(yù)備主題詞組中的出現(xiàn)次數(shù)較少。

這里主題詞分類模型創(chuàng)建裝置將預(yù)備主題詞組中出現(xiàn)次數(shù)小于第三設(shè)定值(如2次或4次等)的預(yù)備主題詞刪除,并將刪除預(yù)備主題詞之后的預(yù)備主題詞組設(shè)定為該標(biāo)簽詞對(duì)應(yīng)的核心主題詞組,該核心主題詞組內(nèi)的詞語(yǔ)單元也設(shè)定為核心主題詞。這里的第三設(shè)定值可根據(jù)用戶要求進(jìn)行設(shè)定。隨后轉(zhuǎn)到步驟s103。

在步驟s103中,主題詞分類模型創(chuàng)建裝置基于步驟s101建立的映射內(nèi)容庫(kù),獲取步驟s102獲取的核心主題詞組中的核心主題詞對(duì)應(yīng)的模型訓(xùn)練文檔;并使用核心主題詞對(duì)應(yīng)的模型訓(xùn)練文檔建立第一模型訓(xùn)練文檔集合。隨后轉(zhuǎn)到步驟s106。

在步驟s104中,主題詞分類模型創(chuàng)建裝置基于lda(latentdirichletallocation)等機(jī)器學(xué)習(xí)算法,對(duì)步驟s101獲取的模型訓(xùn)練文檔進(jìn)行分類操作,使得每個(gè)類別的模型訓(xùn)練文檔均具有一個(gè)主體類別標(biāo)識(shí)(如具有唯一性的主體類別編號(hào)等),即每個(gè)模型訓(xùn)練文檔均會(huì)對(duì)應(yīng)一個(gè)主體類別標(biāo)識(shí)。如將步驟s101獲取的100萬(wàn)篇模型訓(xùn)練文檔分為5000個(gè)類別,則每個(gè)模型訓(xùn)練文檔的主體類別標(biāo)識(shí)可為1-5000中的一個(gè)。隨后轉(zhuǎn)到步驟s105。

在步驟s105中,主題詞分類模型創(chuàng)建裝置基于步驟s101建立的映射內(nèi)容庫(kù),獲取標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔,從而根據(jù)步驟s104獲取的模型訓(xùn)練文檔的主體類別標(biāo)識(shí),獲取該標(biāo)簽詞對(duì)應(yīng)的主體類別標(biāo)識(shí)。

隨后主題詞分類模型創(chuàng)建裝置獲取標(biāo)簽詞的主體類別標(biāo)識(shí)對(duì)應(yīng)的所有模型訓(xùn)練文檔;并使用標(biāo)簽詞的主體類別標(biāo)識(shí)對(duì)應(yīng)的所有模型訓(xùn)練文檔建立第二模型訓(xùn)練文檔集合。

具體請(qǐng)參照?qǐng)D3,圖3本發(fā)明的主題詞分類模型創(chuàng)建方法的第一實(shí)施例的步驟s105的流程圖。該步驟s105包括:

步驟s301,主題詞分類模型創(chuàng)建裝置根據(jù)標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí)的出現(xiàn)次數(shù),設(shè)定標(biāo)簽詞的主體類別標(biāo)識(shí)集合。

具體的,這里主題詞分類模型創(chuàng)建裝置將出現(xiàn)次數(shù)大于第四設(shè)定值的標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí),設(shè)置到標(biāo)簽詞的主體類別標(biāo)識(shí)集合中。

即通過(guò)同種類的模型訓(xùn)練文檔的出現(xiàn)次數(shù),對(duì)標(biāo)簽詞的主體類別標(biāo)識(shí)進(jìn)行篩選,這里認(rèn)為某個(gè)標(biāo)簽詞對(duì)應(yīng)的某類別的模型訓(xùn)練文檔的數(shù)量越多,該類別的模型訓(xùn)練文檔與該標(biāo)簽詞的關(guān)聯(lián)性越大,因此將關(guān)聯(lián)性較大的模型訓(xùn)練文檔對(duì)應(yīng)的主體類別標(biāo)識(shí)設(shè)置在該標(biāo)簽詞的主體類別標(biāo)識(shí)集合中。這里的第四設(shè)定值可根據(jù)用戶要求進(jìn)行設(shè)定。

此外,這里主題詞分類模型創(chuàng)建裝置還可先按出現(xiàn)次數(shù),由大到小對(duì)標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí)進(jìn)行排序。隨后主題詞分類模型創(chuàng)建裝置將排序后的前n個(gè)主體類別標(biāo)識(shí),設(shè)置到標(biāo)簽詞的主體類別標(biāo)識(shí)集合中,其中n為按用戶要求設(shè)定的正整數(shù)。

即通過(guò)不同種類的模型訓(xùn)練文檔的出現(xiàn)比例,對(duì)標(biāo)簽詞的主體類別標(biāo)識(shí)進(jìn)行篩選,這里認(rèn)為某個(gè)種類的模型訓(xùn)練文檔的出現(xiàn)比例越高,該類別的模型訓(xùn)練文檔與該標(biāo)簽詞的關(guān)聯(lián)性越大,因此將關(guān)聯(lián)性較大的模型訓(xùn)練文檔對(duì)應(yīng)的主體類別標(biāo)識(shí)設(shè)置在該標(biāo)簽詞的主體類別標(biāo)識(shí)集合中。

步驟s302,主題詞分類模型創(chuàng)建裝置根據(jù)標(biāo)簽詞的主體類別標(biāo)識(shí)集合中的主體類別標(biāo)識(shí),確定標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合。隨后轉(zhuǎn)到步驟s106。

在步驟s106中,主題詞分類模型創(chuàng)建裝置將步驟s103獲取的第一模型訓(xùn)練文檔集合和步驟s105獲取的第二模型訓(xùn)練文檔集合進(jìn)行對(duì)比,獲取第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔。

最后主題詞分類模型創(chuàng)建裝置將標(biāo)簽詞對(duì)應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本;步驟s101中獲取的映射內(nèi)容庫(kù)中的其他模型訓(xùn)練文檔作為負(fù)樣本進(jìn)行訓(xùn)練,創(chuàng)建該標(biāo)簽詞的主題詞分類模型。這樣用戶可通過(guò)該主題詞分類模型自動(dòng)獲取該標(biāo)簽詞作為主題詞的網(wǎng)絡(luò)文檔。

這樣即完成了本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建方法的主題詞分類模型創(chuàng)建過(guò)程。

本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建方法通過(guò)多個(gè)核心主題詞引入第一模型訓(xùn)練文檔集合,通過(guò)文檔分類算法引入第二模型訓(xùn)練文檔集合;從而可獲取準(zhǔn)確度較高的主題詞分類模型的訓(xùn)練正樣本和負(fù)樣本,提高了主題詞分類模型的準(zhǔn)確性;同時(shí)簡(jiǎn)化了主題詞分類模型的創(chuàng)建過(guò)程,降低了主題詞分類模型的創(chuàng)建成本。

本發(fā)明還提供一種主題詞分類模型創(chuàng)建裝置,請(qǐng)參照?qǐng)D4,圖4為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的結(jié)構(gòu)示意圖。本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建裝置40包括映射內(nèi)容庫(kù)建立模塊41、核心主題詞組獲取模塊42、第一模型訓(xùn)練文檔集合獲取模塊43、分類模塊44、第二模型訓(xùn)練文檔集合確定模塊45以及主題詞分類模型創(chuàng)建模塊46。

映射內(nèi)容庫(kù)建立模塊41用于獲取多個(gè)模型訓(xùn)練文檔,并提取模型訓(xùn)練文檔的標(biāo)簽詞,以建立模型訓(xùn)練文檔與標(biāo)簽詞的映射內(nèi)容庫(kù);核心主題詞組獲取模塊42用于基于相似度算法,獲取標(biāo)簽詞對(duì)應(yīng)的核心主題詞組;其中核心主題詞組中包括多個(gè)核心主題詞;第一模型訓(xùn)練文檔集合獲取模塊43用于基于映射內(nèi)容庫(kù),獲取核心主題詞組對(duì)應(yīng)的第一模型訓(xùn)練文檔集合;分類模塊44用于基于機(jī)器學(xué)習(xí)算法,對(duì)多個(gè)模型訓(xùn)練文檔進(jìn)行分類操作;其中每個(gè)類別的模型訓(xùn)練文檔具有一個(gè)主體類別標(biāo)識(shí);第二模型訓(xùn)練文檔集合確定模塊45用于基于映射內(nèi)容庫(kù),獲取標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí),并根據(jù)標(biāo)簽詞對(duì)應(yīng)的主體類別標(biāo)識(shí),確定標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合;主題詞分類模型創(chuàng)建模塊46用于將標(biāo)簽詞對(duì)應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本,映射內(nèi)容庫(kù)中的其他模型訓(xùn)練文檔作為負(fù)樣本,創(chuàng)建標(biāo)簽詞的主題詞分類模型。

請(qǐng)參照?qǐng)D5,圖5為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的核心主題詞組獲取模塊的結(jié)構(gòu)示意圖。該核心主題詞組獲取模塊42包括詞向量計(jì)算單元51、預(yù)備主題詞組獲取單元52以及核心主題詞組獲取單元53。

詞向量計(jì)算單元51用于計(jì)算模型訓(xùn)練文檔中所有詞語(yǔ)單元的詞向量;預(yù)備主題詞組獲取單元52用于根據(jù)詞語(yǔ)單元的詞向量,獲取標(biāo)簽詞對(duì)應(yīng)的預(yù)備主題詞組;核心主題詞組獲取單元53用于根據(jù)預(yù)備主題詞組中預(yù)備主題詞的出現(xiàn)次數(shù),獲取標(biāo)簽詞對(duì)應(yīng)的核心主題詞組;具體的,用于將預(yù)備主題詞組中出現(xiàn)次數(shù)小于第三設(shè)定值的預(yù)備主題詞刪除,從而獲取標(biāo)簽詞對(duì)應(yīng)的核心主題詞組。

請(qǐng)參照?qǐng)D6,圖6為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的核心主題詞組獲取模塊的預(yù)備主題詞組獲取單元的結(jié)構(gòu)示意圖。該預(yù)備主題詞組獲取單元52包括第一預(yù)備主題詞獲取子單元61、第二預(yù)備主題詞獲取子單元62以及預(yù)備主題詞組建立子單元63。

第一預(yù)備主題詞獲取子單元61用于根據(jù)詞語(yǔ)單元的詞向量,獲取與標(biāo)簽詞的向量距離小于第一設(shè)定值的所有第一預(yù)備主題詞;第二預(yù)備主題詞獲取子單元62用于根據(jù)詞語(yǔ)單元的詞向量,獲取與第一預(yù)備主題詞的向量距離小于第二設(shè)定值的第二預(yù)備主題詞;預(yù)備主題詞組建立子單元63用于使用所有第一預(yù)備主題詞和對(duì)應(yīng)的第二預(yù)備主題詞,建立預(yù)備主題詞組;其中預(yù)備主題詞組中包括多個(gè)預(yù)備主題詞。

請(qǐng)參照?qǐng)D7,圖7為本發(fā)明的主題詞分類模型創(chuàng)建裝置的優(yōu)選實(shí)施例的第二模型訓(xùn)練文檔集合確定模塊的結(jié)構(gòu)示意圖。該第二模型訓(xùn)練文檔集合確定模塊45包括主體類別標(biāo)識(shí)集合設(shè)定單元71以及第二模型訓(xùn)練文檔集合確定單元72。

主體類別標(biāo)識(shí)集合設(shè)定單元71用于根據(jù)標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí)的出現(xiàn)次數(shù),設(shè)定標(biāo)簽詞的主體類別標(biāo)識(shí)集合;第二模型訓(xùn)練文檔集合確定單元72用于根據(jù)標(biāo)簽詞的主體類別標(biāo)識(shí)集合中的主體類別標(biāo)識(shí),確定標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合。

本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建裝置40使用時(shí),首先映射內(nèi)容庫(kù)建立模塊41通過(guò)網(wǎng)絡(luò)內(nèi)容爬蟲(chóng),獲取多個(gè)模型訓(xùn)練文檔。如映射內(nèi)容庫(kù)建立模塊41每天對(duì)全網(wǎng)內(nèi)容進(jìn)行爬取,通過(guò)去重處理之后可獲取10萬(wàn)篇文章,這樣主題詞分類模型創(chuàng)建裝置10天可獲取100萬(wàn)篇模型訓(xùn)練文檔。

隨后映射內(nèi)容庫(kù)建立模塊41使用textrank等算法提取每個(gè)模型訓(xùn)練文檔的至少一個(gè)標(biāo)簽詞,從而形成標(biāo)簽詞和模型訓(xùn)練文檔的對(duì)應(yīng)關(guān)系。然后映射內(nèi)容庫(kù)建立模塊41基于上述標(biāo)簽詞和模型訓(xùn)練文檔的對(duì)應(yīng)關(guān)系,建立模型訓(xùn)練文檔和標(biāo)簽詞的映射內(nèi)容庫(kù),這里映射內(nèi)容庫(kù)中一個(gè)標(biāo)簽詞可對(duì)應(yīng)多個(gè)模型訓(xùn)練文檔。這樣用戶可通過(guò)映射內(nèi)容庫(kù)中的任一標(biāo)簽詞查到對(duì)應(yīng)的多個(gè)模型訓(xùn)練文檔。

隨后核心主題詞組獲取模塊42獲取模型訓(xùn)練文檔中的所有詞語(yǔ)單元;隨后基于相似度算法,核心主題詞組獲取模塊4從所有詞語(yǔ)單元中獲取與標(biāo)簽詞對(duì)應(yīng)的多個(gè)核心主題詞,即從所有詞語(yǔ)單元中獲取與標(biāo)簽詞具有較高相似度的核心主題詞,并由這些核心主題詞組成該標(biāo)簽詞對(duì)應(yīng)的核心主題詞組。

具體包括:

核心主題詞組獲取模塊42的詞向量計(jì)算單元51可使用word2vec等算法,計(jì)算映射內(nèi)容庫(kù)建立模塊41獲取的模型訓(xùn)練文檔中所有詞語(yǔ)單元的詞向量。這樣可通過(guò)詞語(yǔ)單元的詞向量之間的向量距離來(lái)表示詞語(yǔ)單元之間的相似度。

核心主題詞組獲取模塊42的預(yù)備主題詞組獲取單元52可根據(jù)詞向量計(jì)算單元51獲取的詞語(yǔ)單元的詞向量,獲取與該標(biāo)簽詞具有一定相似度的多個(gè)預(yù)備主題詞,隨后由這多個(gè)預(yù)備主題詞組成該標(biāo)簽詞對(duì)應(yīng)的預(yù)備主題詞組。

獲取該預(yù)備主題詞組的步驟具體為:

預(yù)備主題詞組獲取單元52的第一預(yù)備主題詞獲取子單元61根據(jù)詞向量計(jì)算單元51獲取的詞語(yǔ)單元的詞向量,獲取與標(biāo)簽詞的向量距離小于第一設(shè)定值的所有第一預(yù)備主題詞;

隨后預(yù)備主題詞組獲取單元52的第二預(yù)備主題詞獲取子單元62根據(jù)詞語(yǔ)單元51的詞向量,獲取與第一預(yù)備主題詞的向量距離小于第二設(shè)定值的第二預(yù)備主題詞;如具有多個(gè)第一預(yù)備主題詞,每個(gè)第一預(yù)備主題詞均可獲取多個(gè)第二預(yù)備主題詞;

最后預(yù)備主題詞組獲取單元52的預(yù)備主題詞組建立子單元63使用上述所有的第一預(yù)備主題詞和對(duì)應(yīng)的第二預(yù)備主題詞,建立預(yù)備主題詞組。該預(yù)備主題詞組中包括多個(gè)預(yù)備主題詞。

這里的第一設(shè)定值以及第二設(shè)定值可根據(jù)用戶要求進(jìn)行設(shè)定,該第一設(shè)定值可與第二設(shè)定值相等或不相等。

核心主題詞組獲取模塊42的核心主題詞組獲取單元53根據(jù)預(yù)備主題詞組中的預(yù)備主題詞的出現(xiàn)次數(shù),獲取該標(biāo)簽詞對(duì)應(yīng)的核心主題詞組。

由于預(yù)備主題詞在預(yù)備主題詞組中的出現(xiàn)次數(shù)表示了該預(yù)備主題詞與標(biāo)簽詞的相關(guān)性。如預(yù)備主題詞與標(biāo)簽詞相關(guān)性較大,則該預(yù)備主題詞可能會(huì)成為多個(gè)第一預(yù)備主題詞的第二預(yù)備主題詞,因此該預(yù)備主題詞在預(yù)備主題詞組中的出現(xiàn)次數(shù)也較多。如預(yù)備主題詞與標(biāo)簽詞相關(guān)性較小,則該預(yù)備主題詞可能只會(huì)成為某個(gè)第一預(yù)備主題詞的第二預(yù)備子主題詞,因此該預(yù)備主題詞在預(yù)備主題詞組中的出現(xiàn)次數(shù)較少。

這里核心主題詞組獲取單元53將預(yù)備主題詞組中出現(xiàn)次數(shù)小于第三設(shè)定值(如2次或4次等)的預(yù)備主題詞刪除,并將刪除預(yù)備主題詞之后的預(yù)備主題詞組設(shè)定為該標(biāo)簽詞對(duì)應(yīng)的核心主題詞組,該核心主題詞組內(nèi)的詞語(yǔ)單元也設(shè)定為核心主題詞。這里的第三設(shè)定值可根據(jù)用戶要求進(jìn)行設(shè)定。

然后第一模型訓(xùn)練文檔集合獲取模塊43基于映射內(nèi)容庫(kù)建立模塊41建立的映射內(nèi)容庫(kù),獲取核心主題詞組獲取模塊42獲取的核心主題詞組中的核心主題詞對(duì)應(yīng)的模型訓(xùn)練文檔;并使用核心主題詞對(duì)應(yīng)的模型訓(xùn)練文檔建立第一模型訓(xùn)練文檔集合。

隨后分類模塊44基于lda(latentdirichletallocation)等機(jī)器學(xué)習(xí)算法,對(duì)映射內(nèi)容庫(kù)建立模塊41獲取的模型訓(xùn)練文檔進(jìn)行分類操作,使得每個(gè)類別的模型訓(xùn)練文檔均具有一個(gè)主體類別標(biāo)識(shí)(如具有唯一性的主體類別編號(hào)等),即每個(gè)模型訓(xùn)練文檔均會(huì)對(duì)應(yīng)一個(gè)主體類別標(biāo)識(shí)。如將映射內(nèi)容庫(kù)建立模塊41獲取的100萬(wàn)篇模型訓(xùn)練文檔分為5000個(gè)類別,則每個(gè)模型訓(xùn)練文檔的主體類別標(biāo)識(shí)可為1-5000中的一個(gè)。

然后第二模型訓(xùn)練文檔集合確定模塊45基于映射內(nèi)容庫(kù)建立模塊41建立的映射內(nèi)容庫(kù),獲取標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔,從而根據(jù)分類模塊44獲取的模型訓(xùn)練文檔的主體類別標(biāo)識(shí),獲取該標(biāo)簽詞對(duì)應(yīng)的主體類別標(biāo)識(shí)。

隨后第二模型訓(xùn)練文檔集合確定模塊45獲取標(biāo)簽詞的主體類別標(biāo)識(shí)對(duì)應(yīng)的所有模型訓(xùn)練文檔;并使用標(biāo)簽詞的主體類別標(biāo)識(shí)對(duì)應(yīng)的所有模型訓(xùn)練文檔建立第二模型訓(xùn)練文檔集合。

具體包括:

第二模型訓(xùn)練文檔集合確定模塊45的主體類別標(biāo)識(shí)集合設(shè)定單元71根據(jù)標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí)的出現(xiàn)次數(shù),設(shè)定標(biāo)簽詞的主體類別標(biāo)識(shí)集合。

具體的,這里主體類別標(biāo)識(shí)集合設(shè)定單元71將出現(xiàn)次數(shù)大于第四設(shè)定值的標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí),設(shè)置到標(biāo)簽詞的主體類別標(biāo)識(shí)集合中。

即通過(guò)同種類的模型訓(xùn)練文檔的出現(xiàn)次數(shù),對(duì)標(biāo)簽詞的主體類別標(biāo)識(shí)進(jìn)行篩選,這里認(rèn)為某個(gè)標(biāo)簽詞對(duì)應(yīng)的某類別的模型訓(xùn)練文檔的數(shù)量越多,該類別的模型訓(xùn)練文檔與該標(biāo)簽詞的關(guān)聯(lián)性越大,因此將關(guān)聯(lián)性較大的模型訓(xùn)練文檔對(duì)應(yīng)的主體類別標(biāo)識(shí)設(shè)置在該標(biāo)簽詞的主體類別標(biāo)識(shí)集合中。這里的第四設(shè)定值可根據(jù)用戶要求進(jìn)行設(shè)定。

此外,這里主體類別標(biāo)識(shí)集合設(shè)定單元71的排序子單元還可先按出現(xiàn)次數(shù),由大到小對(duì)標(biāo)簽詞對(duì)應(yīng)的所有模型訓(xùn)練文檔的主體類別標(biāo)識(shí)進(jìn)行排序。隨后主體類別標(biāo)識(shí)集合設(shè)定單元71的主體類別標(biāo)識(shí)集合設(shè)定子單元將排序后的前n個(gè)主體類別標(biāo)識(shí),設(shè)置到標(biāo)簽詞的主體類別標(biāo)識(shí)集合中,其中n為按用戶要求設(shè)定的正整數(shù)。

即通過(guò)不同種類的模型訓(xùn)練文檔的出現(xiàn)比例,對(duì)標(biāo)簽詞的主體類別標(biāo)識(shí)進(jìn)行篩選,這里認(rèn)為某個(gè)種類的模型訓(xùn)練文檔的出現(xiàn)比例越高,該類別的模型訓(xùn)練文檔與該標(biāo)簽詞的關(guān)聯(lián)性越大,因此將關(guān)聯(lián)性較大的模型訓(xùn)練文檔對(duì)應(yīng)的主體類別標(biāo)識(shí)設(shè)置在該標(biāo)簽詞的主體類別標(biāo)識(shí)集合中。

第二模型訓(xùn)練文檔集合確定模塊45的第二模型訓(xùn)練文檔集合確定單元72根據(jù)標(biāo)簽詞的主體類別標(biāo)識(shí)集合中的主體類別標(biāo)識(shí),確定標(biāo)簽詞對(duì)應(yīng)的第二模型訓(xùn)練文檔集合。

最后主題詞分類模型創(chuàng)建模塊46將第一模型訓(xùn)練文檔集合獲取模塊43獲取的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合確定模塊45獲取的第二模型訓(xùn)練文檔集合進(jìn)行對(duì)比,獲取第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔。

主題詞分類模型創(chuàng)建模塊46將標(biāo)簽詞對(duì)應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本;映射內(nèi)容庫(kù)建立模塊41獲取的映射內(nèi)容庫(kù)中的其他模型訓(xùn)練文檔作為負(fù)樣本進(jìn)行訓(xùn)練,創(chuàng)建該標(biāo)簽詞的主題詞分類模型。這樣用戶可通過(guò)該主題詞分類模型自動(dòng)獲取該標(biāo)簽詞作為主題詞的網(wǎng)絡(luò)文檔。

這樣即完成了本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建裝置40的主題詞分類模型創(chuàng)建過(guò)程。

本優(yōu)選實(shí)施例的主題詞分類模型創(chuàng)建裝置通過(guò)多個(gè)核心主題詞引入第一模型訓(xùn)練文檔集合,通過(guò)文檔分類算法引入第二模型訓(xùn)練文檔集合;從而可獲取準(zhǔn)確度較高的主題詞分類模型的訓(xùn)練正樣本和負(fù)樣本,提高了主題詞分類模型的準(zhǔn)確性;同時(shí)簡(jiǎn)化了主題詞分類模型的創(chuàng)建過(guò)程,降低了主題詞分類模型的創(chuàng)建成本。

下面通過(guò)一具體實(shí)施例說(shuō)明本發(fā)明的主題詞分類模型創(chuàng)建方法以及創(chuàng)建裝置的具體工作原理。請(qǐng)參照?qǐng)D8,圖8為本發(fā)明的主題詞分類模型創(chuàng)建方法以及創(chuàng)建裝置的主題詞分類模型創(chuàng)建流程示意圖。本具體實(shí)施例的主題詞分類模型創(chuàng)建方法以及創(chuàng)建裝置設(shè)置在網(wǎng)絡(luò)數(shù)據(jù)管理服務(wù)器中。

本具體實(shí)施例的主題詞分類模型創(chuàng)建裝置進(jìn)行主題詞分類模型創(chuàng)建時(shí)包括以下步驟:

一、對(duì)全網(wǎng)內(nèi)容進(jìn)行爬取,獲取多個(gè)模型訓(xùn)練文檔。

二、使用textrank等算法提取每個(gè)模型訓(xùn)練文檔的至少一個(gè)標(biāo)簽詞81,從而形成標(biāo)簽詞81和模型訓(xùn)練文檔的對(duì)應(yīng)關(guān)系。

三、基于上述標(biāo)簽詞81和模型訓(xùn)練文檔的對(duì)應(yīng)關(guān)系,建立模型訓(xùn)練文檔和標(biāo)簽詞81的映射內(nèi)容庫(kù)8b。

四、基于所有模型訓(xùn)練文檔中詞語(yǔ)單元的詞向量,獲取與標(biāo)簽詞81的向量距離小于第一設(shè)定值的第一預(yù)備主題詞82。

如標(biāo)簽詞81為極限運(yùn)動(dòng),可獲取第一預(yù)備主題詞82為:戶外運(yùn)動(dòng)、球類運(yùn)動(dòng)以及健身運(yùn)動(dòng)等。

五、基于所有模型訓(xùn)練文檔中詞語(yǔ)單元的詞向量,獲取與第一預(yù)備主題詞82的向量距離小于第二設(shè)定值的第二預(yù)備主題詞83。

如戶外運(yùn)動(dòng)的第二預(yù)備主題詞83為潛水、登山等。

六、使用第一預(yù)備主題詞82和第二預(yù)備主題詞83,構(gòu)建該標(biāo)簽詞81對(duì)應(yīng)的核心主題詞組84。

這樣所有的第一預(yù)備主題詞82和第二預(yù)備主題詞83可構(gòu)成標(biāo)簽詞對(duì)應(yīng)的預(yù)備主題詞組85。將預(yù)備主題詞組85中出現(xiàn)次數(shù)少于三次的預(yù)備主題詞刪除,這樣即可獲取該標(biāo)簽詞81對(duì)應(yīng)的核心主題詞組84。

七、基于核心主題詞組84對(duì)應(yīng)的模型訓(xùn)練文檔,建立該標(biāo)簽詞81對(duì)應(yīng)的第一模型訓(xùn)練文檔集合86。

八、基于lda等機(jī)器學(xué)習(xí)算法,對(duì)映射內(nèi)容庫(kù)8b中的模型訓(xùn)練文檔進(jìn)行分類操作,使得每個(gè)類別的模型訓(xùn)練文檔均具有一個(gè)主體類別標(biāo)識(shí)87。

九、獲取標(biāo)簽詞81對(duì)應(yīng)的模型訓(xùn)練文檔的主體類別標(biāo)識(shí)87。

十、根據(jù)標(biāo)簽詞81對(duì)應(yīng)的模型訓(xùn)練文檔的主體類別標(biāo)識(shí)87的出現(xiàn)次數(shù),設(shè)定標(biāo)簽詞81的主體類別編號(hào)集合88。

如將主體類別標(biāo)識(shí)87的出現(xiàn)次數(shù)大于10次的模型訓(xùn)練文檔的主體類別標(biāo)識(shí)87設(shè)置到該標(biāo)簽詞81的主體類別標(biāo)識(shí)集合88中。

十一、根據(jù)標(biāo)簽詞81的主體類別標(biāo)識(shí)集合88中的主體類別標(biāo)識(shí)87,確定標(biāo)簽詞81對(duì)應(yīng)的第二模型訓(xùn)練文檔集合89。

十二、將標(biāo)簽詞81對(duì)應(yīng)的第一模型訓(xùn)練文檔集合86和第二模型訓(xùn)練文檔集合89中重復(fù)的模型訓(xùn)練文檔作為正樣本;映射內(nèi)容庫(kù)8b中的其他模型訓(xùn)練文檔作為負(fù)樣本進(jìn)行訓(xùn)練,創(chuàng)建該標(biāo)簽詞81的主題詞分類模型8a。

這樣用戶可通過(guò)該主題詞分類模型8a自動(dòng)獲取以標(biāo)簽詞81作為主題詞的網(wǎng)絡(luò)文章。

這樣即完成了本具體實(shí)施例的主題詞分類模型創(chuàng)建方法以及創(chuàng)建裝置的主題詞分類模型創(chuàng)建過(guò)程。

本發(fā)明的主題詞分類模型創(chuàng)建方法及創(chuàng)建裝置通過(guò)多個(gè)核心主題詞引入第一模型訓(xùn)練文檔集合,通過(guò)文檔分類算法引入第二模型訓(xùn)練文檔集合;從而可獲取準(zhǔn)確度較高的主題詞分類模型的訓(xùn)練正樣本和負(fù)樣本,提高了主題詞分類模型的準(zhǔn)確性;同時(shí)簡(jiǎn)化了主題詞分類模型的創(chuàng)建過(guò)程,降低了主題詞分類模型的創(chuàng)建成本;解決了現(xiàn)有的主題詞分類模型創(chuàng)建方法及創(chuàng)建裝置中的主題詞分類模型的準(zhǔn)確性較差或主題詞分類模型的創(chuàng)建過(guò)程復(fù)雜且創(chuàng)建成本較高的技術(shù)問(wèn)題。

如本申請(qǐng)所使用的術(shù)語(yǔ)“組件”、“模塊”、“系統(tǒng)”、“接口”、“進(jìn)程”等等一般地旨在指計(jì)算機(jī)相關(guān)實(shí)體:硬件、硬件和軟件的組合、軟件或執(zhí)行中的軟件。例如,組件可以是但不限于是運(yùn)行在處理器上的進(jìn)程、處理器、對(duì)象、可執(zhí)行應(yīng)用、執(zhí)行的線程、程序和/或計(jì)算機(jī)。通過(guò)圖示,運(yùn)行在控制器上的應(yīng)用和該控制器二者都可以是組件。一個(gè)或多個(gè)組件可以有在于執(zhí)行的進(jìn)程和/或線程內(nèi),并且組件可以位于一個(gè)計(jì)算機(jī)上和/或分布在兩個(gè)或更多計(jì)算機(jī)之間。

圖9和隨后的討論提供了對(duì)實(shí)現(xiàn)本發(fā)明所述的主題詞分類模型創(chuàng)建裝置所在的電子設(shè)備的工作環(huán)境的簡(jiǎn)短、概括的描述。圖9的工作環(huán)境僅僅是適當(dāng)?shù)墓ぷ鳝h(huán)境的一個(gè)實(shí)例并且不旨在建議關(guān)于工作環(huán)境的用途或功能的范圍的任何限制。實(shí)例電子設(shè)備912包括但不限于可穿戴設(shè)備、頭戴設(shè)備、醫(yī)療健康平臺(tái)、個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、移動(dòng)設(shè)備(比如移動(dòng)電話、個(gè)人數(shù)字助理(pda)、媒體播放器等等)、多處理器系統(tǒng)、消費(fèi)型電子設(shè)備、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括上述任意系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境,等等。

盡管沒(méi)有要求,但是在“計(jì)算機(jī)可讀指令”被一個(gè)或多個(gè)電子設(shè)備執(zhí)行的通用背景下描述實(shí)施例。計(jì)算機(jī)可讀指令可以經(jīng)由計(jì)算機(jī)可讀介質(zhì)來(lái)分布(下文討論)。計(jì)算機(jī)可讀指令可以實(shí)現(xiàn)為程序模塊,比如執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的功能、對(duì)象、應(yīng)用編程接口(api)、數(shù)據(jù)結(jié)構(gòu)等等。典型地,該計(jì)算機(jī)可讀指令的功能可以在各種環(huán)境中隨意組合或分布。

圖9圖示了包括本發(fā)明的主題詞分類模型創(chuàng)建裝置中的一個(gè)或多個(gè)實(shí)施例的電子設(shè)備912的實(shí)例。在一種配置中,電子設(shè)備912包括至少一個(gè)處理單元916和存儲(chǔ)器918。根據(jù)電子設(shè)備的確切配置和類型,存儲(chǔ)器918可以是易失性的(比如ram)、非易失性的(比如rom、閃存等)或二者的某種組合。該配置在圖9中由虛線914圖示。

在其他實(shí)施例中,電子設(shè)備912可以包括附加特征和/或功能。例如,設(shè)備912還可以包括附加的存儲(chǔ)裝置(例如可移除和/或不可移除的),其包括但不限于磁存儲(chǔ)裝置、光存儲(chǔ)裝置等等。這種附加存儲(chǔ)裝置在圖9中由存儲(chǔ)裝置920圖示。在一個(gè)實(shí)施例中,用于實(shí)現(xiàn)本文所提供的一個(gè)或多個(gè)實(shí)施例的計(jì)算機(jī)可讀指令可以在存儲(chǔ)裝置920中。存儲(chǔ)裝置920還可以存儲(chǔ)用于實(shí)現(xiàn)操作系統(tǒng)、應(yīng)用程序等的其他計(jì)算機(jī)可讀指令。計(jì)算機(jī)可讀指令可以載入存儲(chǔ)器918中由例如處理單元916執(zhí)行。

本文所使用的術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”包括計(jì)算機(jī)存儲(chǔ)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令或其他數(shù)據(jù)之類的信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。存儲(chǔ)器918和存儲(chǔ)裝置920是計(jì)算機(jī)存儲(chǔ)介質(zhì)的實(shí)例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于ram、rom、eeprom、閃存或其他存儲(chǔ)器技術(shù)、cd-rom、數(shù)字通用盤(dvd)或其他光存儲(chǔ)裝置、盒式磁帶、磁帶、磁盤存儲(chǔ)裝置或其他磁存儲(chǔ)設(shè)備、或可以用于存儲(chǔ)期望信息并可以被電子設(shè)備912訪問(wèn)的任何其他介質(zhì)。任意這樣的計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是電子設(shè)備912的一部分。

電子設(shè)備912還可以包括允許電子設(shè)備912與其他設(shè)備通信的通信連接926。通信連接926可以包括但不限于調(diào)制解調(diào)器、網(wǎng)絡(luò)接口卡(nic)、集成網(wǎng)絡(luò)接口、射頻發(fā)射器/接收器、紅外端口、usb連接或用于將電子設(shè)備912連接到其他電子設(shè)備的其他接口。通信連接926可以包括有線連接或無(wú)線連接。通信連接926可以發(fā)射和/或接收通信媒體。

術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”可以包括通信介質(zhì)。通信介質(zhì)典型地包含計(jì)算機(jī)可讀指令或諸如載波或其他傳輸機(jī)構(gòu)之類的“己調(diào)制數(shù)據(jù)信號(hào)”中的其他數(shù)據(jù),并且包括任何信息遞送介質(zhì)。術(shù)語(yǔ)“己調(diào)制數(shù)據(jù)信號(hào)”可以包括這樣的信號(hào):該信號(hào)特性中的一個(gè)或多個(gè)按照將信息編碼到信號(hào)中的方式來(lái)設(shè)置或改變。

電子設(shè)備912可以包括輸入設(shè)備924,比如鍵盤、鼠標(biāo)、筆、語(yǔ)音輸入設(shè)備、觸摸輸入設(shè)備、紅外相機(jī)、視頻輸入設(shè)備和/或任何其他輸入設(shè)備。設(shè)備912中也可以包括輸出設(shè)備922,比如一個(gè)或多個(gè)顯示器、揚(yáng)聲器、打印機(jī)和/或任意其他輸出設(shè)備。輸入設(shè)備924和輸出設(shè)備922可以經(jīng)由有線連接、無(wú)線連接或其任意組合連接到電子設(shè)備912。在一個(gè)實(shí)施例中,來(lái)自另一個(gè)電子設(shè)備的輸入設(shè)備或輸出設(shè)備可以被用作電子設(shè)備912的輸入設(shè)備924或輸出設(shè)備922。

電子設(shè)備912的組件可以通過(guò)各種互連(比如總線)連接。這樣的互連可以包括外圍組件互連(pci)(比如快速pci)、通用串行總線(usb)、火線(ieee1394)、光學(xué)總線結(jié)構(gòu)等等。在另一個(gè)實(shí)施例中,電子設(shè)備912的組件可以通過(guò)網(wǎng)絡(luò)互連。例如,存儲(chǔ)器918可以由位于不同物理位置中的、通過(guò)網(wǎng)絡(luò)互連的多個(gè)物理存儲(chǔ)器單元構(gòu)成。

本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,用于存儲(chǔ)計(jì)算機(jī)可讀指令的存儲(chǔ)設(shè)備可以跨越網(wǎng)絡(luò)分布。例如,可經(jīng)由網(wǎng)絡(luò)928訪問(wèn)的電子設(shè)備930可以存儲(chǔ)用于實(shí)現(xiàn)本發(fā)明所提供的一個(gè)或多個(gè)實(shí)施例的計(jì)算機(jī)可讀指令。電子設(shè)備912可以訪問(wèn)電子設(shè)備930并且下載計(jì)算機(jī)可讀指令的一部分或所有以供執(zhí)行。可替代地,電子設(shè)備912可以按需要下載多條計(jì)算機(jī)可讀指令,或者一些指令可以在電子設(shè)備912處執(zhí)行并且一些指令可以在電子設(shè)備930處執(zhí)行。

本文提供了實(shí)施例的各種操作。在一個(gè)實(shí)施例中,所述的一個(gè)或多個(gè)操作可以構(gòu)成一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)的計(jì)算機(jī)可讀指令,其在被電子設(shè)備執(zhí)行時(shí)將使得計(jì)算設(shè)備執(zhí)行所述操作。描述一些或所有操作的順序不應(yīng)當(dāng)被解釋為暗示這些操作必需是順序相關(guān)的。本領(lǐng)域技術(shù)人員將理解具有本說(shuō)明書(shū)的益處的可替代的排序。而且,應(yīng)當(dāng)理解,不是所有操作必需在本文所提供的每個(gè)實(shí)施例中存在。

而且,盡管已經(jīng)相對(duì)于一個(gè)或多個(gè)實(shí)現(xiàn)方式示出并描述了本公開(kāi),但是本領(lǐng)域技術(shù)人員基于對(duì)本說(shuō)明書(shū)和附圖的閱讀和理解將會(huì)想到等價(jià)變型和修改。本公開(kāi)包括所有這樣的修改和變型,并且僅由所附權(quán)利要求的范圍限制。特別地關(guān)于由上述組件(例如元件、資源等)執(zhí)行的各種功能,用于描述這樣的組件的術(shù)語(yǔ)旨在對(duì)應(yīng)于執(zhí)行所述組件的指定功能(例如其在功能上是等價(jià)的)的任意組件(除非另外指示),即使在結(jié)構(gòu)上與執(zhí)行本文所示的本公開(kāi)的示范性實(shí)現(xiàn)方式中的功能的公開(kāi)結(jié)構(gòu)不等同。此外,盡管本公開(kāi)的特定特征已經(jīng)相對(duì)于若干實(shí)現(xiàn)方式中的僅一個(gè)被公開(kāi),但是這種特征可以與如可以對(duì)給定或特定應(yīng)用而言是期望和有利的其他實(shí)現(xiàn)方式的一個(gè)或多個(gè)其他特征組合。而且,就術(shù)語(yǔ)“包括”、“具有”、“含有”或其變形被用在具體實(shí)施方式或權(quán)利要求中而言,這樣的術(shù)語(yǔ)旨在以與術(shù)語(yǔ)“包含”相似的方式包括。

本發(fā)明實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。上述的各裝置或系統(tǒng),可以執(zhí)行相應(yīng)方法實(shí)施例中的方法。

綜上所述,雖然本發(fā)明已以實(shí)施例揭露如上,實(shí)施例前的序號(hào)僅為描述方便而使用,對(duì)本發(fā)明各實(shí)施例的順序不造成限制。并且,上述實(shí)施例并非用以限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與潤(rùn)飾,因此本發(fā)明的保護(hù)范圍以權(quán)利要求界定的范圍為準(zhǔn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
巴中市| 阜平县| 彭阳县| 西峡县| 锦州市| 当阳市| 石屏县| 海原县| 城口县| 普安县| 安多县| 阳信县| 崇州市| 六盘水市| 永仁县| 衡阳市| 湟中县| 通河县| 毕节市| 繁峙县| 长宁区| 米易县| 昌都县| 丰顺县| 丹东市| 弥渡县| 元氏县| 安塞县| 新蔡县| 永修县| 沈阳市| 北海市| 正镶白旗| 综艺| 平江县| 望谟县| 武鸣县| 利川市| 遂平县| 昔阳县| 眉山市|