欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔與標(biāo)簽詞語義關(guān)聯(lián)方法及其裝置的制造方法

文檔序號(hào):9929632閱讀:630來源:國知局
文檔與標(biāo)簽詞語義關(guān)聯(lián)方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體的涉及一種文檔與標(biāo)簽詞語義關(guān)聯(lián)方法及其裝置。
【背景技術(shù)】
[0002]當(dāng)今互聯(lián)網(wǎng)每天都會(huì)產(chǎn)生海量新聞資訊,個(gè)人閱讀理解新聞資訊的能力是有限的,然而,互聯(lián)網(wǎng)用戶需要了解網(wǎng)絡(luò)上都發(fā)生了哪些事件、討論了哪些事件,比如金融行業(yè)分析師、投資人士需要查閱大量資訊來了解當(dāng)前行業(yè)熱點(diǎn)事件,才能了解到與熱點(diǎn)事件關(guān)聯(lián)的新聞?dòng)心男?br>[0003]目前,建立領(lǐng)域標(biāo)簽與文檔關(guān)聯(lián)較常用的方法為通過關(guān)鍵詞匹配,即如果文檔中出現(xiàn)該具體的標(biāo)簽詞,即認(rèn)為文檔與標(biāo)簽相關(guān)。并將其提取作為待處理文檔。存在的問題是查全率不足。以對(duì)含菜籽油的文檔進(jìn)行篩選為例進(jìn)行說明:當(dāng)文檔中含“菜籽油”這一標(biāo)簽時(shí),現(xiàn)有方法僅能將出現(xiàn)了菜籽油的文檔定為具有相關(guān)性的文檔。而對(duì)于其他諸如“菜油”、“芥花油”等與菜籽油同義的詞出現(xiàn)時(shí),現(xiàn)有提取方法并不能將其視為與“菜籽油”相關(guān)的文檔,無法建立關(guān)聯(lián),導(dǎo)致用戶查詢不到此類文檔。
[0004]使用基于語義的文檔匹配方法,可以提高查全率。目前,實(shí)現(xiàn)標(biāo)簽詞與文檔語義關(guān)聯(lián)的方法主要是通過同義詞庫的方式。同義詞的獲取目前大多需要人工創(chuàng)建和維護(hù),比如《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》,它是目前應(yīng)用比較廣泛的同義詞庫,同時(shí)也是哈爾濱工業(yè)大學(xué)花費(fèi)了大量人力物力才完成的。即便如此,我們發(fā)現(xiàn)該詞庫在2009年之后就不再有更新。因?yàn)槿斯ぞS護(hù)同義詞庫代價(jià)較高,更新頻率必然會(huì)很慢,對(duì)于領(lǐng)域?qū)S脴?biāo)簽詞更是如此,比如最近提出的“一帶一路”這類詞,現(xiàn)有同義詞庫根本查不到相關(guān),可供人工篩選用的數(shù)據(jù)。因而無法使用現(xiàn)有的方法,通過人工獲得相應(yīng)的結(jié)果。
[0005]現(xiàn)有基于關(guān)鍵詞的文檔與領(lǐng)域標(biāo)簽關(guān)聯(lián)方法存在以下缺點(diǎn):①關(guān)聯(lián)不全面,只要標(biāo)簽詞不出現(xiàn),就無法建立關(guān)聯(lián);②關(guān)聯(lián)不準(zhǔn)確,因?yàn)闆]有考慮語義相關(guān)詞對(duì)關(guān)聯(lián)度的影響,導(dǎo)致關(guān)聯(lián)度計(jì)算結(jié)果與事實(shí)不一致。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于提供一種文檔與標(biāo)簽詞語義關(guān)聯(lián)方法及其裝置,該發(fā)明解決了現(xiàn)有同義詞詞庫需借助人工維護(hù),同義詞庫更新及時(shí)性差,數(shù)據(jù)不全面,導(dǎo)致缺乏同義詞對(duì)應(yīng)的上下位關(guān)系詞的技術(shù)問題。
[0007]本發(fā)明提供一種文檔與標(biāo)簽詞語義關(guān)聯(lián)方法,包括以下步驟:步驟S100:獲取文檔,作為文檔語料,文檔屬于標(biāo)簽詞相關(guān)領(lǐng)域且具有時(shí)效性;步驟S200:構(gòu)造句法模式并對(duì)文檔語料進(jìn)行句法模式匹配,合并符合句法模式的結(jié)果為候選提及相關(guān)詞集合C;步驟S300:用經(jīng)過訓(xùn)練的Word2vec模型對(duì)候選提及相關(guān)詞C集合進(jìn)行過濾,得到提及相關(guān)詞集合V;步驟S400:根據(jù)提及相關(guān)詞和標(biāo)簽詞,計(jì)算多篇文檔與標(biāo)簽詞的相關(guān)度,并構(gòu)件標(biāo)簽詞與文檔的相關(guān)度數(shù)據(jù)庫;句法模式包括含多個(gè)標(biāo)簽詞s的S集合、含多個(gè)模式標(biāo)識(shí)詞的W集合和N集合,其中W集合為模式標(biāo)識(shí)詞集合,N集合為文檔語料的句子中處于模式標(biāo)識(shí)詞后的所有名詞的集合;模式標(biāo)識(shí)詞包括同義模式標(biāo)識(shí)詞和子概念標(biāo)識(shí)詞。
[0008]進(jìn)一步地,步驟S200中包括以下步驟:步驟S210:對(duì)文檔語料中的句子進(jìn)行逐句對(duì)比;步驟S220:判斷句子中是否包含標(biāo)簽詞s和模式標(biāo)識(shí)詞w;步驟S230:如果包含標(biāo)簽詞s和模式標(biāo)識(shí)詞《,則將句子中處于模式標(biāo)識(shí)詞w后的所有名詞歸入N集合中,合并多個(gè)N集合,得到候選提及相關(guān)詞集合C。
[0009]進(jìn)一步地,步驟S300中的過濾包括以下步驟:步驟S310:以文檔語料訓(xùn)練word2vec模型后,采用訓(xùn)練后的word2veC模型計(jì)算候選提及相關(guān)詞集合C中每個(gè)詞與標(biāo)簽詞的word2vec相關(guān)度;步驟S320:選取C集合中與標(biāo)簽詞的word2vec相關(guān)度大于閾值的詞,構(gòu)造包含多個(gè)提及相關(guān)詞V的集合V。
[0010]進(jìn)一步地,閾值為0.75。
[0011 ] 進(jìn)一步地,步驟S400還包括以下步驟:步驟S410:對(duì)待處理文檔進(jìn)行分詞,得到待處理文檔中包含的所有詞;步驟S420:判斷組成待處理文檔的所有詞中是否包含標(biāo)簽詞s和/或提及相關(guān)詞V;步驟S430:如果包含,則判定待處理文檔為與標(biāo)簽詞集合相關(guān)的數(shù)據(jù)庫文檔,計(jì)算數(shù)據(jù)庫文檔中標(biāo)簽詞或提及相關(guān)詞的詞頻,作為數(shù)據(jù)庫文檔的提及相關(guān)度;步驟S440:在數(shù)據(jù)庫文檔上標(biāo)記提及相關(guān)度,并構(gòu)建數(shù)據(jù)庫文檔的關(guān)聯(lián)數(shù)據(jù)庫。
[0012]進(jìn)一步地,通過WebService對(duì)終端用戶提供關(guān)聯(lián)數(shù)據(jù)庫的查詢接口。
[0013]進(jìn)一步地,Word2vec模型以文檔作為語料進(jìn)行訓(xùn)練。
[0014]本發(fā)明另一方面還提供了一種上述方法用文檔與標(biāo)簽詞語義關(guān)聯(lián)裝置,包括:文檔獲取模塊,用于獲取文檔,作為文檔語料,文檔屬于標(biāo)簽詞相關(guān)領(lǐng)域且具有時(shí)效性;句法匹配模塊:用于構(gòu)造句法模式并對(duì)文檔語料進(jìn)行句法模式匹配,合并符合句法模式的結(jié)果為候選提及相關(guān)詞集合C;Word2vec模型過濾模塊:用于用經(jīng)過訓(xùn)練的Word2vec模型對(duì)候選提及相關(guān)詞C集合進(jìn)行過濾,得到提及相關(guān)詞集合V;數(shù)據(jù)庫構(gòu)建模塊:用于根據(jù)提及相關(guān)詞和標(biāo)簽詞,計(jì)算多篇文檔與標(biāo)簽詞的相關(guān)度,并構(gòu)件標(biāo)簽詞與文檔的相關(guān)度數(shù)據(jù)庫;句法模式包括含多個(gè)標(biāo)簽詞s的S集合、含多個(gè)模式標(biāo)識(shí)詞的W集合和N集合,其中W集合為模式標(biāo)識(shí)詞集合,N集合為文檔語料的句子中處于模式標(biāo)識(shí)詞后的所有名詞的集合;模式標(biāo)識(shí)詞包括同義模式標(biāo)識(shí)詞和子概念標(biāo)識(shí)詞。
[0015]其特征在于句法匹配模塊中包括:逐句比對(duì)模塊:對(duì)文檔語料中的句子進(jìn)行逐句對(duì)比;判斷句子模塊:用于判斷句子中是否包含標(biāo)簽詞s和模式標(biāo)識(shí)詞w;合并結(jié)果模塊:用于如果包含標(biāo)簽詞s和模式標(biāo)識(shí)詞W,則將句子中處于模式標(biāo)識(shí)詞w后的所有名詞歸入N集合中,合并多個(gè)N集合,得到候選提及相關(guān)詞集合C。
[0016]其特征在于數(shù)據(jù)庫構(gòu)建模塊包括:分詞模塊:用于對(duì)待處理文檔進(jìn)行分詞,得到待處理文檔中包含的所有詞;判斷詞模塊:用于:判斷組成待處理文檔的所有詞中是否包含標(biāo)簽詞s和/或提及相關(guān)詞V;計(jì)算提及相關(guān)度模塊:用于如果包含,則判定待處理文檔為與標(biāo)簽詞集合相關(guān)的數(shù)據(jù)庫文檔,計(jì)算數(shù)據(jù)庫文檔中標(biāo)簽詞或提及相關(guān)詞的詞頻,作為數(shù)據(jù)庫文檔的提及相關(guān)度;標(biāo)記數(shù)據(jù)庫構(gòu)建模塊:用于在數(shù)據(jù)庫文檔上標(biāo)記提及相關(guān)度,并構(gòu)建數(shù)據(jù)庫文檔的關(guān)聯(lián)數(shù)據(jù)庫。
[0017]本發(fā)明效果:
[0018]本發(fā)明提供的相關(guān)詞提取方法利用經(jīng)過訓(xùn)練的Word2VeC過濾方法,對(duì)句法模式匹配獲得的領(lǐng)域標(biāo)簽語義相關(guān)詞進(jìn)行過濾,把過濾后的詞作為領(lǐng)域標(biāo)簽的“提及語義相關(guān)詞”,用于計(jì)算文檔與領(lǐng)域標(biāo)簽的關(guān)聯(lián)關(guān)系,降低所得結(jié)果的噪音。提高從現(xiàn)有文檔中獲得最新同義詞的效率。替代了已有的人工分選同義詞方法。能夠即時(shí)處理新出現(xiàn)的領(lǐng)域標(biāo)簽詞,用作領(lǐng)域標(biāo)簽與文檔管理分析時(shí),能夠提高關(guān)聯(lián)準(zhǔn)確度,提高用戶查詢的查全率。
[0019]本發(fā)明提供的相關(guān)詞提取方法改變過去依賴第三方同義詞庫的做法,轉(zhuǎn)而直接從海量文檔語料中自動(dòng)構(gòu)建語義詞庫,提高語義關(guān)聯(lián)分析的效率和準(zhǔn)確性。
【附圖說明】
[0020]圖1是本發(fā)明優(yōu)選實(shí)施例文檔與標(biāo)簽詞語義關(guān)聯(lián)方法的流程示意圖;
[0021]圖2是本發(fā)明優(yōu)選實(shí)施例文檔與標(biāo)簽詞語義關(guān)聯(lián)方法的步驟200的流程示意圖;
[0022]圖3是本發(fā)明優(yōu)選實(shí)施例文檔與標(biāo)簽詞語義關(guān)聯(lián)方法的步驟S300的流程示意圖;
[0023]圖4是本發(fā)明優(yōu)選實(shí)施例文檔與標(biāo)簽詞語義關(guān)聯(lián)方法的步驟S400流程示意圖;
[0024]圖5是本發(fā)明優(yōu)選實(shí)施例文檔與標(biāo)簽詞語義關(guān)聯(lián)裝置結(jié)構(gòu)示意圖;
[0025]圖6是本發(fā)明優(yōu)選實(shí)施例句法匹配模塊結(jié)構(gòu)示意圖;
[0026]圖7是本發(fā)明優(yōu)選實(shí)施例數(shù)據(jù)庫構(gòu)建模塊結(jié)構(gòu)示意圖;
[0027]圖8是本發(fā)明優(yōu)選實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028]構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。
[0029]本發(fā)明將互聯(lián)網(wǎng)上各大新聞媒體財(cái)經(jīng)頻道、社交論壇的實(shí)時(shí)新聞文章作為文檔語料,通過文本數(shù)據(jù)挖掘,動(dòng)態(tài)獲取領(lǐng)域標(biāo)簽詞的語義信息,然后基于挖掘的動(dòng)態(tài)標(biāo)簽語義,建立文檔與領(lǐng)域標(biāo)簽之間的語義關(guān)聯(lián),供用戶查詢。用戶在使用該數(shù)據(jù)庫時(shí),可以通過輸入領(lǐng)域標(biāo)簽,之后就會(huì)返回與之相關(guān)的文檔。使用時(shí)用戶輸入文檔URL,則數(shù)據(jù)庫會(huì)返回領(lǐng)域標(biāo)簽。
[0030]本發(fā)明結(jié)合句法模式抽取和Word2VeC模型對(duì)句法模式匹配結(jié)果進(jìn)行過濾,實(shí)現(xiàn)了文檔和領(lǐng)域標(biāo)簽之間的動(dòng)態(tài)語義關(guān)聯(lián)。領(lǐng)域標(biāo)簽通常具有時(shí)效性,在特定時(shí)期代表某類事件,靜態(tài)語義詞庫無
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
九台市| 白沙| 孟津县| 朝阳市| 万山特区| 共和县| 金秀| 容城县| 五原县| 临邑县| 保定市| 札达县| 札达县| 年辖:市辖区| 镇原县| 阿克| 突泉县| 澳门| 玉山县| 阜新市| 佳木斯市| 建阳市| 筠连县| 皋兰县| 万全县| 开原市| 南通市| 尼勒克县| 金昌市| 湖北省| 德化县| 铁岭县| 临清市| 彭阳县| 雷山县| 麦盖提县| 巫山县| 崇左市| 彝良县| 屏东市| 米林县|