信息提取模板的建立方法、知識數(shù)據(jù)的處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù),尤其涉及一種信息提取模板的建立方法、知識數(shù)據(jù)的處理方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及和計(jì)算機(jī)技術(shù)的不斷發(fā)展,通過網(wǎng)絡(luò)獲取信息已成為人們獲取信息的主要途徑,如可通過網(wǎng)絡(luò)獲取某人的屬性信息,例如國籍、民族、性別和血型等,而如何從眾多的信息中快速地查找到需要的信息成為需要解決的重要問題。
[0003]目前通過人工的方式制定觸發(fā)詞,然后基于觸發(fā)詞獲取出現(xiàn)在其周圍的詞或語句作為需要提取的信息,例如對于人物的屬性信息的提取是基于相應(yīng)的人為規(guī)則進(jìn)行。以提取人物的出生地為例,相應(yīng)的人為規(guī)則設(shè)置為信息內(nèi)容中關(guān)鍵詞“出生于”或“生于”后面的信息即為該人物的出生地。
[0004]然而,基于人為規(guī)則的方法提取屬性信息需要人工制定相應(yīng)的信息提取規(guī)則,而制定的人為規(guī)則不能覆蓋所有待提取的知識數(shù)據(jù)的樣式,從而導(dǎo)致查全率偏低,降低了屬性信息的提取精度和提取效率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于,提供一種從知識數(shù)據(jù)提取預(yù)定屬性的屬性信息的技術(shù)方案,以使得用戶不需要通過人工設(shè)置觸發(fā)詞的方式即可提取屬性值,并且提高屬性信息的查全率和提取精度。
[0006]根據(jù)本發(fā)明的一方面,提供一種信息提取模板的建立方法。所述建立方法包括,從多個知識數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)分別獲取預(yù)定屬性的第一屬性值;分別從所述多個知識數(shù)據(jù)中的正文數(shù)據(jù)獲取與所述預(yù)定屬性相關(guān)的內(nèi)容片段;根據(jù)所述內(nèi)容片段建立用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板。
[0007]優(yōu)選地,所述根據(jù)所述內(nèi)容片段建立用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板的處理包括:對于任一內(nèi)容片段,從所述內(nèi)容片段提取所述預(yù)定屬性的第二屬性值,基于所述內(nèi)容片段建立所述預(yù)定屬性的屬性信息候選模板,根據(jù)所述預(yù)定屬性的第一屬性值和第二屬性值獲取所述屬性信息候選模板的置信度;將獲取的置信度的值大于預(yù)設(shè)的置信度閾值的屬性信息候選模板選取為用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板。
[0008]優(yōu)選地,所述置信度包括模板覆蓋率和/或模板準(zhǔn)確率,其中,所述模板覆蓋率為多個內(nèi)容片段中與第一屬性信息候選模板相匹配的概率,所述模板準(zhǔn)確率為通過第二屬性信息候選模板提取的屬性值與從相應(yīng)的知識數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)獲取的預(yù)定屬性的屬性值相同的概率。
[0009]優(yōu)選地,所述將獲取的置信度的值大于預(yù)設(shè)的置信度閾值的屬性信息候選模型選取為用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板的處理包括:如果第三屬性信息候選模板的模板覆蓋率的值大于預(yù)設(shè)的覆蓋率閾值,和/或,如果所述第三屬性信息候選模板的模板準(zhǔn)確率的值大于預(yù)設(shè)的準(zhǔn)確率閾值,則將所述第三屬性信息候選模板選取為用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板。
[0010]根據(jù)本發(fā)明的另一方面,提供一種知識數(shù)據(jù)的處理方法。所述處理方法包括,獲取待處理的知識數(shù)據(jù);對所述知識數(shù)據(jù)進(jìn)行分析,分別將所述知識數(shù)據(jù)的內(nèi)容片段與根據(jù)上述的建立方法建立的用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板進(jìn)行匹配,提取所述預(yù)定屬性的屬性值。
[0011]根據(jù)本發(fā)明的又一方面,提供一種信息提取模板的建立裝置。所述建立裝置包括:屬性值獲取模塊,用于從多個知識數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)分別獲取預(yù)定屬性的第一屬性值;內(nèi)容片段獲取模塊,用于分別從所述多個知識數(shù)據(jù)中的正文數(shù)據(jù)獲取與所述預(yù)定屬性相關(guān)的內(nèi)容片段;模板建立模塊,用于根據(jù)所述內(nèi)容片段建立用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板。
[0012]優(yōu)選地,所述模板建立模塊包括:候選模板建立單元,用于對于任一內(nèi)容片段,從所述內(nèi)容片段提取所述預(yù)定屬性的第二屬性值,基于所述內(nèi)容片段建立所述預(yù)定屬性的屬性信息候選模板;置信度獲取單元,用于根據(jù)所述預(yù)定屬性的第一屬性值和第二屬性值獲取所述屬性信息候選模板的置信度;模板選取單元,用于將獲取的置信度的值大于預(yù)設(shè)的置信度閾值的屬性信息候選模板選取為用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板。
[0013]優(yōu)選地,所述置信度包括模板覆蓋率和/或模板準(zhǔn)確率,其中,所述模板覆蓋率為多個內(nèi)容片段中與第一屬性信息候選模板相匹配的概率,所述模板準(zhǔn)確率為通過第二屬性信息候選模板提取的屬性值與從相應(yīng)的知識數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)獲取的預(yù)定屬性的屬性值相同的概率。
[0014]優(yōu)選地,所述模板選取單元,用于如果第三屬性信息候選模板的模板覆蓋率的值大于預(yù)設(shè)的覆蓋率閾值,和/或,如果所述第三屬性信息候選模板的模板準(zhǔn)確率的值大于預(yù)設(shè)的準(zhǔn)確率閾值,則將所述第三屬性信息候選模板選取為用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板。
[0015]根據(jù)本發(fā)明的又一方面,提供一種知識數(shù)據(jù)的處理裝置。所述處理裝置包括:知識數(shù)據(jù)獲取模塊,用于獲取待處理的知識數(shù)據(jù);屬性值提取模塊,用于對所述知識數(shù)據(jù)進(jìn)行分析,分別將所述知識數(shù)據(jù)的內(nèi)容片段與根據(jù)上述信息提取模板的建立裝置建立的用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板進(jìn)行匹配,提取所述預(yù)定屬性的屬性值。
[0016]根據(jù)本發(fā)明實(shí)施例提供的信息提取模板的建立方法、知識數(shù)據(jù)的處理方法和裝置,通過從多個知識數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)分別獲取預(yù)定屬性的第一屬性值,并分別從其中的正文數(shù)據(jù)獲取與所述預(yù)定屬性相關(guān)的內(nèi)容片段,進(jìn)而根據(jù)所述內(nèi)容片段建立用于提取所述預(yù)定屬性的屬性值的屬性信息提取模板,然后,可通過屬性信息提取模板提取待處理的知識數(shù)據(jù)中的預(yù)定屬性的屬性值,使得用戶不需要通過人工設(shè)置觸發(fā)詞的方式即可提取屬性值,而且,由于屬性信息提取模板是通過知識數(shù)據(jù)中的內(nèi)容片段建立,所以提高了屬性信息的查全率和提取精度。
【附圖說明】
[0017]圖1是示出根據(jù)本發(fā)明實(shí)施例一的信息提取模板的建立方法的流程圖;
[0018]圖2是示出根據(jù)本發(fā)明實(shí)施例一的知識數(shù)據(jù)的處理方法的流程圖;
[0019]圖3是示出根據(jù)本發(fā)明實(shí)施例二的知識數(shù)據(jù)的處理方法的流程圖;
[0020]圖4是示出根據(jù)本發(fā)明實(shí)施例三的信息提取模板的建立裝置的邏輯框圖;
[0021]圖5是示出根據(jù)本發(fā)明實(shí)施例三的信息提取模板的建立裝置的邏輯框圖;
[0022]圖6是示出根據(jù)本發(fā)明實(shí)施例四的知識數(shù)據(jù)的處理裝置的邏輯框圖。
【具體實(shí)施方式】
[0023]本方案的發(fā)明構(gòu)思是,提供一種用于提取預(yù)定屬性的屬性值的信息提取模板的建立方法和通過建立的模板提取待處理的知識數(shù)據(jù)的預(yù)定屬性的屬性值,通過從多個知識數(shù)據(jù)中的正文數(shù)據(jù)獲取與預(yù)定屬性相關(guān)的內(nèi)容片段,根據(jù)所述內(nèi)容片段建立屬性信息提取模板,進(jìn)而可通過屬性信息提取模板提取待處理的知識數(shù)據(jù)中的預(yù)定屬性的屬性值,從而使得用戶不需要通過人工設(shè)置觸發(fā)詞的方式即可從知識數(shù)據(jù)提取預(yù)定屬性的屬性值,并且提高屬性信息的查全率和提取精度。
[0024]下面結(jié)合附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例。
[0025]實(shí)施例一
[0026]圖1是示出根據(jù)本發(fā)明實(shí)施例一的信息提取模板的建立方法的流程圖。通過包括如圖4所示的建立裝置的計(jì)算機(jī)系統(tǒng)執(zhí)行所述建立方法。
[0027]參照圖1,在步驟S110,從多個知識數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)分別獲取預(yù)定屬性的第一屬性值。
[0028]其中,預(yù)定屬性可為預(yù)先指定的任意屬性,例如國籍、民族或性別等屬性。第一屬性值可為所述預(yù)定屬性的任意屬性值,例如,預(yù)定屬性為國籍,則第一屬性值可為中國、美國或英國等。知識數(shù)據(jù)可為知識庫中的任一詞條對應(yīng)的數(shù)據(jù),例如,電子百科中詞條“蘭花”對應(yīng)的數(shù)據(jù)等。結(jié)構(gòu)化數(shù)據(jù)可為知識數(shù)據(jù)中的卡片式