一種面向新聞標(biāo)題的人物關(guān)系抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,具體涉及一種面向新聞標(biāo)題的人物關(guān)系抽取方法。
【背景技術(shù)】
[0002] 人物關(guān)系抽取是實(shí)體關(guān)系抽取的重要分支。實(shí)體關(guān)系是指實(shí)體之間存在的語義聯(lián) 系。Automatic Content Extraction(ACE)會(huì)議將實(shí)體關(guān)系抽取定義為:根據(jù)預(yù)先給定的實(shí) 體關(guān)系類型,判定實(shí)體之間是否存在語義關(guān)系或是否屬于給定的關(guān)系類型。人物關(guān)系抽取 將實(shí)體關(guān)系抽取中的實(shí)體限定為人物,關(guān)系類型限定為人物之間的關(guān)系進(jìn)行抽取,目前人 物關(guān)系抽取的主要方法包括:模式匹配、語義分析、特征分類等。
[0003] 模式匹配的方法主要是根據(jù)對(duì)訓(xùn)練數(shù)據(jù)中實(shí)例的觀察分析,制定出相應(yīng)的模版及 其所屬類別的集合,再利用測(cè)試數(shù)據(jù)中的實(shí)例與集合中的模板匹配,如果匹配成功,則可根 據(jù)模板所屬類別判定實(shí)例所屬類別。語義分析的方法是指根據(jù)句子的句法結(jié)構(gòu)和句中每個(gè) 實(shí)詞的詞義推導(dǎo)出能夠反映這個(gè)句子意義(即句義)的某種形式化表示。特征分類的方法是 指根據(jù)文檔中詞語的特征,有時(shí)也包含一些模板特征、語義分析特征等,利用特征分類器, 將人物關(guān)系抽取轉(zhuǎn)化成二分類問題,即判定給定的人物關(guān)系是否成立。
[0004]模式匹配的主要問題在于模板大多數(shù)為人工制定,除消耗大量的人力資源外,當(dāng) 數(shù)據(jù)規(guī)模較大時(shí),很難制定出較為全面而精準(zhǔn)的模板集合。此外,當(dāng)領(lǐng)域變更時(shí),原有的模 板將不一定仍然適用,往往需要重新制定模板,領(lǐng)域迀移性較差。
[0005] 語義分析的方法依賴于分詞、詞性標(biāo)注、依存關(guān)系等分析的準(zhǔn)確性,而現(xiàn)有的工具 并不能準(zhǔn)確的處理上述問題。同時(shí),新聞標(biāo)題的句子結(jié)構(gòu)較為精簡(jiǎn),句式結(jié)構(gòu)有時(shí)并不滿足 一般的句法規(guī)則,這也影響了語義分析的準(zhǔn)確性。
[0006] 特征分類方法的問題一是在于根據(jù)整個(gè)語料抽取的特征維度往往很高,導(dǎo)致利用 分類器進(jìn)行訓(xùn)練和測(cè)試時(shí)效率過低;二是當(dāng)分類效果不好時(shí),很難發(fā)現(xiàn)影響分類效果的具 體實(shí)例,能做的僅是調(diào)整分類器的參數(shù)或修改特征的選擇;三是當(dāng)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的 特征分布差距較大時(shí),分類效果很差,很難構(gòu)建相對(duì)完整的訓(xùn)練數(shù)據(jù)集。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于能根據(jù)給定的新聞標(biāo)題和人物屬性知識(shí)庫(kù),自動(dòng)判定給定的人 物及人物間的關(guān)系是否正確。
[0008] 本發(fā)明采用的技術(shù)方案如下:
[0009] 一種面向新聞標(biāo)題的人物關(guān)系抽取方法,包括如下步驟:
[0010] 1)尋找出新聞標(biāo)題中的關(guān)系指示詞,用以區(qū)分不同類別的人物關(guān)系;
[0011] 2)根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中的位置特征,建立描述句子的句式模板; 利用訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)每個(gè)模板的正/負(fù)例個(gè)數(shù),根據(jù)正負(fù)模板的比例判定新聞標(biāo)題中人物間 關(guān)系的正確性;
[0012] 3)從新聞標(biāo)題與人物屬性知識(shí)庫(kù)中提取特征,通過特征分類的方法并結(jié)合步驟2) 得到的句式模板的正/負(fù)例個(gè)數(shù),判定給定的人物關(guān)系是否正確。
[0013] 進(jìn)一步地,在尋找關(guān)系指示詞之前進(jìn)行數(shù)據(jù)清洗,通過制定啟發(fā)式規(guī)則直接判定 不符合條件的新聞標(biāo)題。
[0014] 進(jìn)一步地,利用最小覆蓋的方法尋找出新聞標(biāo)題中的關(guān)系指示詞。
[0015] 進(jìn)一步地,根據(jù)句子中的表達(dá)人物關(guān)系的〈主語S、謂語P、賓語0>三元組,得到描述 句子的層次句式模板。
[0016] 進(jìn)一步地,提取句子中人物的知識(shí)庫(kù)特征、關(guān)系指示詞特征、詞間距特征,作為候 選特征,再利用信息增益選擇特征,最后利用決策樹判定人物關(guān)系是否正確。
[0017] 本發(fā)明針對(duì)新聞標(biāo)題具有的句式精簡(jiǎn)、概括性強(qiáng)等特點(diǎn),基于給定人物屬性的知 識(shí)庫(kù)和給定關(guān)系,首先利用最小覆蓋求關(guān)系指示詞,根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中 的位置特征,按層次結(jié)構(gòu)自動(dòng)學(xué)習(xí)了一套句式模板,最后從新聞標(biāo)題與人物屬性知識(shí)庫(kù)中 提取特征彌補(bǔ)句式模板的不足,用于判定給定的人物關(guān)系是否正確。利用本發(fā)明提供的方 法判定基于給定新聞判定人物關(guān)系,具有以下優(yōu)點(diǎn):
[0018] (1)在中國(guó)人工智能學(xué)會(huì)機(jī)器學(xué)習(xí)專委會(huì)和中國(guó)計(jì)算機(jī)學(xué)會(huì)模式識(shí)別與人工智能 專委會(huì)共同發(fā)起并主辦的中國(guó)機(jī)器學(xué)習(xí)會(huì)議競(jìng)賽CCML Competition 2015制定的任務(wù)(基 于新聞標(biāo)題判定給定的S(Subject,主語)P(Predicate,謂詞,此處指人物關(guān)系)0(0bject, 賓語)是否正確)中,本系統(tǒng)的判定結(jié)果在訓(xùn)練時(shí)間、測(cè)試時(shí)間、測(cè)試結(jié)果等方面均優(yōu)于競(jìng)賽 的最優(yōu)結(jié)果;
[0019] (2)與傳統(tǒng)人工制定模板的方法相比,本文的方法只需極少的人工參與就能生成 針對(duì)整個(gè)訓(xùn)練集的模板;
[0020] (3)當(dāng)領(lǐng)域迀移時(shí),只需提供相應(yīng)領(lǐng)域的訓(xùn)練數(shù)據(jù),即可生成新領(lǐng)域的模板,有效 提升了模板方法的迀移性;
[0021 ] (4)在進(jìn)行查詢存儲(chǔ)時(shí),由于采用樹形結(jié)構(gòu),訓(xùn)練效率和測(cè)試效率都非常高;
[0022] (5)由于人物與人物關(guān)系已給定,該方法無需再對(duì)句子的其它成分進(jìn)行分析處理, 從而很好地避免傳統(tǒng)句子分析時(shí),分詞、詞性標(biāo)注時(shí)帶來的誤差;
[0023] (6)在利用特征分類時(shí),在保證準(zhǔn)確率的同時(shí),降低了特征維度,提高了判定效率。
[0024] 本發(fā)明可用于挖掘新聞標(biāo)題中的人物關(guān)系,進(jìn)而發(fā)現(xiàn)社會(huì)中的焦點(diǎn)人物、熱點(diǎn)事 件等,便于及時(shí)掌握社會(huì)動(dòng)態(tài),監(jiān)控輿情。
【附圖說明】
[0025] 圖1是本發(fā)明方法的主要技術(shù)流程圖。
[0026] 圖2表示本發(fā)明中N層句式模板樹的定義圖。
[0027]圖3表示人物關(guān)系為"經(jīng)紀(jì)人"基于訓(xùn)練集學(xué)習(xí)的部分N層句式模板樹。
【具體實(shí)施方式】
[0028] 下面通過具體實(shí)施例和附圖,對(duì)本發(fā)明做進(jìn)一步說明。
[0029] 本發(fā)明提供一種基于新聞標(biāo)題和人物屬性知識(shí)庫(kù),自動(dòng)判定給定人物及人物間的 關(guān)系是否正確的方法,該方法的處理過程如圖1所示,主要包括如下步驟:
[0030] (1)數(shù)據(jù)清洗
[0031] 該步驟首先去除對(duì)關(guān)系判定影響不大的停用詞及標(biāo)點(diǎn)符號(hào),保留部分標(biāo)點(diǎn)符號(hào)有 助于某些人物關(guān)系的判定,如:《、》、"、"等。制定部分啟發(fā)式規(guī)則進(jìn)行預(yù)判定。
[0032] (2)選擇關(guān)系指示詞
[0033] 對(duì)于特定的關(guān)系,需要尋找出能表達(dá)關(guān)系的關(guān)系指示詞,同時(shí),關(guān)系指示詞還需能 有效區(qū)分不同類別的關(guān)系。利用最小覆蓋的方法可以有效的實(shí)現(xiàn)這一目標(biāo)。
[0034] (3)建立句式模板
[0035]在得到關(guān)系指示詞之后,本發(fā)明提出了一種N層句式模板樹用于判定人物關(guān)系。若 想通過某個(gè)句子判定出人物之間存在的特定關(guān)系,則在通常情況下句子中存在表達(dá)人物關(guān) 系的〈主語S、謂語P、賓語0>三元組。根據(jù)給定人物和關(guān)系指示詞的SP0三元組,逐層增加人 物、字?jǐn)U展三元組,得到描述句子的層次句式模板。利用訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)每個(gè)模板的正/負(fù)例 個(gè)數(shù)。根據(jù)從訓(xùn)練數(shù)據(jù)中統(tǒng)計(jì)得到的正負(fù)模板的比例判定新聞標(biāo)題中人物間關(guān)系的正確 性。
[0036] (4)判定人物關(guān)系
[0037]根據(jù)N層句式模板樹在判定人物關(guān)系中存在的不足,本系統(tǒng)還抽取了人物屬性特 征、關(guān)系指示詞特征、詞間距特征結(jié)合N層句式模板樹的正/負(fù)例結(jié)果判定人物關(guān)系。
[0038]本發(fā)明的技術(shù)關(guān)鍵點(diǎn)在于:
[0039] 1、基于最小覆蓋的關(guān)系指示詞的選擇
[0040] 對(duì)于每種關(guān)系,需要尋找出關(guān)系指示詞來區(qū)分各種關(guān)系,關(guān)系指示詞的集合要求 盡可能的小,且能有效代表某種關(guān)系。利用最小覆蓋的方法可以有效的實(shí)現(xiàn)這一目標(biāo)。 [00 41]對(duì)于給定的某一種關(guān)系類型的數(shù)據(jù),記訓(xùn)練集為P= {pi,P2, ...,pn},其中Pi為第i 條文本標(biāo)題,i = 1,2,…η。通過對(duì)P進(jìn)行分詞處理后可以獲取一個(gè)詞典數(shù)據(jù)W= {W1,w2,..., wm},其中Wl為詞典中第i個(gè)單詞,i = l,2,…m。關(guān)系類型的關(guān)系指示詞提取可以轉(zhuǎn)化為在詞 典中尋找一個(gè)子集5·'^,并滿足:
[0042] S能夠覆蓋P,即P的每條語料Pi中至少有一個(gè)單詞在S中出現(xiàn);S為符合上述條件的 最小子集,即I S | =min{ | Si | },其中Si為所有滿足覆蓋條件的詞典子集,表示集合的元素個(gè) 數(shù)。顯然,詞典W是P的一個(gè)覆蓋,因此s矣Φ。將求解訓(xùn)練集P的最小覆蓋單詞集S作為關(guān)系指 不詞。
[0043] 2、基于N層句式模板樹的人物關(guān)系判定
[0044] 根據(jù)關(guān)系指示詞與人物之間的位置關(guān)系及句式特征,結(jié)合新聞標(biāo)題精煉的特點(diǎn), 提出了一種~層句式模版樹(1'|-561^61106?31^61'111'代6,1'|-5?1'),如圖2示。句式特征模板樹 (N-SPT)的第一層僅考慮人物X與關(guān)系指示詞Y的位置關(guān)系(圖1中Y也稱為關(guān)系特征詞),分 為三類:YXX,XYX,XXY〇
[0045] N-SPT的第二層考慮第三個(gè)人Μ(除去X以外的人)對(duì)于關(guān)系判定的影響。對(duì)于第一 層的各模板,可產(chǎn)生24個(gè)子模板,例如:對(duì)于"ΥΧΧ",可產(chǎn)生ΥΧΧ(不包含第三者)、ΜΥΧΧ、ΥΜΧΧ、 YMX、YXXM、MBKX]\^〇
[0046] N