欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實體鏈接方法與系統(tǒng)的制作方法

文檔序號:9471483閱讀:634來源:國知局
一種實體鏈接方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及智能信息處理領(lǐng)域,特別是設(shè)及一種實體鏈接方法與系統(tǒng)。
【背景技術(shù)】
[0002] 在飛速發(fā)展的信息時代,網(wǎng)絡(luò)已經(jīng)成為人類獲取信息最主要的渠道。近年來,隨著 大型協(xié)同創(chuàng)作資源維基百科的興起和基于維基百科結(jié)構(gòu)化知識提取的知識庫的出現(xiàn),推動 了基于維基百科知識的智能信息處理技術(shù)的發(fā)展。
[0003] 實體鏈接就是將自然語言文本中的提及詞(mention)映射到知識庫中一組已知 目標實體(entity)的過程。通過實體鏈接,將自由文本中的名稱鏈接到知識庫中的一個最 合適的相關(guān)實體,使閱讀者更加快捷方便地了解領(lǐng)域術(shù)語的釋義,改進閱讀體驗,并且實現(xiàn) 了對知識的抽取。
[0004] 但用戶的輸入文本中可能存在不明確的提及詞,進行實體鏈接復雜度高且可能不 準確。

【發(fā)明內(nèi)容】
陽〇化]有鑒于此,本發(fā)明的主要目的在于提供一種實體鏈接方法與系統(tǒng),可W快捷準確 地對文本中提及詞進行實體鏈接。
[0006] 為實現(xiàn)上述目的,本發(fā)明提供了一種實體鏈接方法,包括:
[0007] 預處理輸入文本和預設(shè)知識庫,獲取所述輸入文本中的各提及詞、各所述提及詞 的上下文W及所述預設(shè)知識庫中的實體關(guān)鍵詞;
[000引從所述預設(shè)知識庫中分別檢索各所述提及詞的候選實體;
[0009] 將各所述提及詞根據(jù)其候選實體的數(shù)量分類,將候選實體數(shù)量小于預設(shè)闊值的各 提及詞分別設(shè)定為明確提及詞,將候選實體數(shù)量大于或等于預設(shè)闊值的各提及詞分別設(shè)定 為不明確提及詞;
[0010] 對各所述明確提及詞進行第一階段的實體鏈接:通過各所述明確提及詞與所述預 設(shè)知識庫中實體的相似度,W及所述預設(shè)知識庫中實體間的相似度,利用預設(shè)的提及詞與 實體對應(yīng)關(guān)系圖方法為各所述明確提及詞篩選出對應(yīng)的目標實體;
[0011] 根據(jù)已經(jīng)鏈接的所述目標實體,對各所述不明確提及詞利用預設(shè)的提及詞與實體 對應(yīng)關(guān)系圖方法進行第二階段的實體鏈接。
[0012] 優(yōu)選地,所述提及詞的上下文包括:
[0013] 上下文提及詞序列和上下文分詞序列。 陽014] 優(yōu)選地,預處理輸入文本和預設(shè)知識庫包括:
[0015] 將所述輸入文本中識別出的提及詞定義為提及詞序列;
[0016] 將所述輸入文本進行分詞,去掉所述輸入文本中的預設(shè)停用詞,得到分詞序列;
[0017] 設(shè)定提及詞的上下文提及詞序列為其周圍的預設(shè)提及詞數(shù)量的提及詞;
[0018] 設(shè)定提及詞的上下文分詞序列為其周圍的預設(shè)分詞數(shù)量的分詞;
[0019] 設(shè)定實體關(guān)鍵詞描述各實體;
[0020] 設(shè)定提及詞的候選實體集。
[0021] 優(yōu)選地,根據(jù)先驗概率、提及詞與實體的名稱相似度和提及詞與實體的上下文相 似度計算各所述明確提及詞與所述預設(shè)知識庫中實體的相似度。 陽02引優(yōu)選地,所述闊值為3~5。
[0023]優(yōu)選地,所述帶權(quán)重的無向圖包括提及詞對應(yīng)實體邊和實體對應(yīng)實體邊。
[0024]本發(fā)明還提供了一種實體鏈接系統(tǒng),包括:
[00巧]預處理模塊,用于預處理輸入文本和預設(shè)知識庫,獲取所述輸入文本中的各提及 詞、各所述提及詞的上下文W及所述預設(shè)知識庫中的實體關(guān)鍵詞;
[00%] 候選實體檢索模塊,用于從所述預設(shè)知識庫中分別檢索各所述提及詞的候選實 體;
[0027] 提及詞分類模塊,用于將各所述提及詞根據(jù)其候選實體的數(shù)量分類,將候選實體 數(shù)量小于預設(shè)闊值的各提及詞分別設(shè)定為明確提及詞,將候選實體數(shù)量大于或等于預設(shè)闊 值的各提及詞分別設(shè)定為不明確提及詞;
[0028]第一階段鏈接模塊,用于對各所述明確提及詞進行第一階段的實體鏈接:通過各 所述明確提及詞與所述預設(shè)知識庫中實體的相似度,W及所述預設(shè)知識庫中實體間的相似 度,利用預設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法為各所述明確提及詞篩選出對應(yīng)的目標實 體;
[0029]第二階段鏈接模塊,用于根據(jù)已經(jīng)鏈接的所述目標實體,對各所述不明確提及詞 利用預設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法進行第二階段的實體鏈接。
[0030]優(yōu)選地,所述系統(tǒng)中所述提及詞的上下文包括:
[0031] 上下文提及詞序列和上下文分詞序列。 陽03引優(yōu)選地,所述系統(tǒng)中所述闊值為3~5。
[0033]優(yōu)選地,所述系統(tǒng)中所述提及詞與實體對應(yīng)關(guān)系圖包括提及詞對應(yīng)實體邊和實體 對應(yīng)實體邊。
[0034]應(yīng)用本發(fā)明提供的一種實體鏈接方法與系統(tǒng),預處理輸入文本和知識庫,獲取提 及詞及其上下文、實體關(guān)鍵詞;檢索每個提及詞的候選實體;將提及詞根據(jù)其候選實體數(shù) 量分為兩類,候選實體數(shù)量小于預設(shè)闊值數(shù)量的提及詞為明確提及詞,其余為不明確提及 詞。對明確提及詞進行第一階段的實體鏈接。通過提及詞與知識庫中實體的相似度,W及實 體之間的相似度,利用預設(shè)的提及詞與實體對應(yīng)關(guān)系圖方法完成對候選實體的篩選。根據(jù) 已經(jīng)鏈接的目標實體,對不明確的提及詞進行第二階段的實體鏈接,根據(jù)是否為明確提及 詞分別分階段進行實體鏈接的計算極大地減少算法的復雜度,通過更新提及詞的上下文, 如已經(jīng)鏈接的實體,可W更準確、快捷地對文本中提及詞進行實體鏈接。
【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
[0036] 圖1為本發(fā)明一種實體鏈接方法實施例的流程圖;
[0037] 圖2為本發(fā)明一種實體鏈接方法的實施例的原理示意圖;
[0038] 圖3為本發(fā)明一種實體鏈接方法的實施例的又一原理示意圖;
[0039] 圖4為本發(fā)明一種實體鏈接方法的實施例的又一原理示意圖;
[0040] 圖5為本發(fā)明一種實體鏈接系統(tǒng)的實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0041] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0042] 本發(fā)明提供了一種實體鏈接方法,圖1示出了本發(fā)明實體鏈接方法實施例的流程 圖,包括:
[0043] 步驟S101 :預處理輸入文本和預設(shè)知識庫,獲取所述輸入文本中的各提及詞、各 所述提及詞的上下文W及所述預設(shè)知識庫中的實體關(guān)鍵詞;
[0044] 將輸入文本中已經(jīng)由用戶或者由實體識別工具識別出的提及詞定義為提及詞序 列M=咕,…,nvl; W45] 將輸入文本進行分詞,除去停用詞,例如a,化.,只使用實詞,得到分詞序列 T扭,…為},T3M..
[0046] 提及詞上下文包括:上下文提及詞序列與上下文分詞序列。
[0047] 定義提及詞nil的上下文提及詞序列為其周圍的預設(shè)提及詞數(shù)量個提及詞,如化+1 個提及詞,=如一,...,,…,妍W-}EM;
[
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
浦江县| 台江县| 上虞市| 涞水县| 湖州市| 交口县| 阿瓦提县| 深州市| 谢通门县| 黔西县| 鲜城| 南昌县| 错那县| 香港 | 如皋市| 格尔木市| 安陆市| 南康市| 南城县| 公主岭市| 小金县| 隆子县| 阜南县| 峨边| 栾川县| 迁西县| 吴旗县| 龙江县| 罗山县| 英山县| 沿河| 呼图壁县| 延边| 将乐县| 乌拉特后旗| 宣威市| 多伦县| 平武县| 九江县| 三穗县| 清水河县|