-SPT的第三層考慮除去Μ、Χ、Υ的字串@對于第二層模板的影響(字串僅考慮是否 存在字,而不考慮字串的個數(shù)與字串的具體內(nèi)容)。例如:對于"ΜΥΧΧ",可產(chǎn)生ΜΥΧΧ(不包含 多余字串)、Μ@ΥΧΧ、ΜΥ@ΧΧ@、@ΜΥ@ΧΧ等子模板。
[0047]利用訓(xùn)練集中經(jīng)過預(yù)處理的句子,對相應(yīng)關(guān)系模板樹的每個節(jié)點進(jìn)行統(tǒng)計學(xué)習(xí), 若句子為正例,則模板樹中每個能與該句子匹配的節(jié)點正例加1;若句子為負(fù)例,則負(fù)例加 1〇
[0048] 根據(jù)N-SPT的制定策略,每個新聞標(biāo)題至多匹配3個模板(不同層次),至少匹配一 個模板。用給定句子在N-SPT上進(jìn)行匹配,選擇匹配到的模板中正/負(fù)比例最懸殊的模板,若 選定模板的正例個數(shù)大于負(fù)例個數(shù),則關(guān)系正確,否則關(guān)系錯誤。
[0049] 3、利用特征抽取的方法補(bǔ)足N層句式模板樹
[0050] 針對N-SPT僅考慮句中人物與關(guān)系指示詞的位置關(guān)系而未考慮人物的屬性、關(guān)系 指示詞的區(qū)分能力及關(guān)系指示詞與人物距離關(guān)系等問題,本系統(tǒng)融合特征分類的方法進(jìn)行 改進(jìn)。對于經(jīng)過啟發(fā)式規(guī)則過濾后的句子,分別提取句子中人物的知識庫特征、指示詞特 征、詞間距特征,作為特征分類方法的候選特征。再利用信息增益選擇特征,最后利用決策 樹判定人物關(guān)系是否正確。
[0051 ]本發(fā)明的實例:CCML2015機(jī)器學(xué)習(xí)競賽任務(wù)1
[0052] 基于新聞標(biāo)題判定給定的S( Subject,主語)P(Predicate,謂詞,此處指人物關(guān)系) 0(0bject,賓語)是否正確,人物關(guān)系(P)共有19種,包括:同為?;?、昔日情敵、老師、撞衫、 前女友、偶像、噯昧、緋聞女友、傳聞不和、前妻、閨蜜、妻子、朋友、分手、翻版、同學(xué)、經(jīng)紀(jì)人、 老鄉(xiāng)、同居。同時,競賽任務(wù)提供了人物(S/0)的部分屬性(姓名、性別、民族、身高、體重、職 業(yè)、生源地、籍貫、出生日期、死亡日期、別名等11種)。
[0053] (1)首先對數(shù)據(jù)進(jìn)行清洗,制定下述啟發(fā)式規(guī)則直接判定不符合條件的新聞標(biāo)題。 啟發(fā)式規(guī)則如下:
[0054] ①如果新聞標(biāo)題中不存在給定關(guān)系的關(guān)系指示詞,則人物關(guān)系錯誤;
[0055] ②如果給定人物的名字+相鄰字為人名,則人物關(guān)系錯誤,例如:對于"媒曝明星 ABC與明星DEF疑似分手",其中ABC、DEF指代人名,每個字母代表人名中的一個字,則判定 "ABC"與"DE"的"分手"關(guān)系不正確,"DE"應(yīng)為"DEF";
[0056] ③如果給定人物或者給定關(guān)系出現(xiàn)在書名號中,則人物關(guān)系錯誤,例如:"AB、CDE 等天娛藝人深情獻(xiàn)唱《同學(xué)》"、"AB、DE著情侶睡衣拍《分手大師》"等;
[0057]④如果"給定人物+各種親戚朋友"出現(xiàn)在句子中,例如:"ABC與DEF的母親不和"、 "ABC與男友DEF的前女友交心"等,這類情況通常是指給定人物的親戚與另一人物的關(guān)系, 而并非給定人物本身,故判定人物關(guān)系錯誤。
[0058]此外,該方法還額外制定了一些模板,用以部分較為特殊情況的判定。例如:對于 翻版關(guān)系:如果句子匹配模板""人名+關(guān)系指示詞"+人名",則人物關(guān)系正確。
[0059] (2)根據(jù)訓(xùn)練數(shù)據(jù),利用最小覆蓋的方法對19種關(guān)系,分別求出每種關(guān)系對應(yīng)的關(guān) 系指示詞。例如:緋聞女友對應(yīng)的關(guān)系指示詞:緋聞;傳聞不和對應(yīng)的關(guān)系指示詞:不和、撕 破臉等。
[0060] (3)根據(jù)訓(xùn)練數(shù)據(jù)建立N層句式模板樹。圖3為人物關(guān)系為"經(jīng)紀(jì)人"基于訓(xùn)練集學(xué) 習(xí)的部分N層句式模板樹的部分示意圖。
[0061] (4)根據(jù)句式模板樹中句式模板的統(tǒng)計結(jié)果,句子在各層匹配到的正例個數(shù)記為 PosNumTi(l < i < 3),負(fù)例個數(shù)記為NegNumTi,若PosNumTi或NegNumTi為0,則可直接判定,否 貝1J,按公式1與公式2選擇模板,若選定模板的正例個數(shù)大于負(fù)例個數(shù),則關(guān)系正確,否則關(guān) 系錯誤。公式1與公式2中,T p i表示模板正負(fù)例個數(shù)取值較小的與取值較大的之比,
[0062] (Ο Templateld表示選中模板的編號。
[0063] C)
[0064] (5)提取新聞標(biāo)題與人物屬性知識庫的知識庫特征、關(guān)系指示詞特征、詞間距特 征,作為特征分類方法的候選特征。人物屬性知識庫是指包含人物的姓名、出生日期、籍貫、 職業(yè)、別名等屬性信息的知識庫;知識庫特征是將人物知識庫中的屬性作為特征;關(guān)系指示 詞特征是指句子中是否包含利用最小覆蓋求出的關(guān)系指示詞;詞間距特征是指句子中兩個 詞語之間字的個數(shù)。
[0065] (6)利用信息增益公式3、公式4,為19種關(guān)系分別選擇特征。公式3中,Entropy(S) 表示樣本S的熵值,p+表示正例個數(shù)比樣本總數(shù),即正例概率,p-表示負(fù)例個數(shù)比樣本總數(shù), 即負(fù)例概率。公式4中,Gain(S,A)表示特征A的信息增益,Sv表示包含特征A的樣本個數(shù),S表 示樣本總個數(shù),V(A)表示包含特征A的樣本集合,v表示某個樣本。
[0066] !)
[0067] (4)
[0068] (7)對于選定的特征,用決策樹進(jìn)行分類判定人物間關(guān)系是否正確。
[0069] 以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其進(jìn)行限制,本領(lǐng)域的普通技術(shù) 人員可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本 發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書所述為準(zhǔn)。
【主權(quán)項】
1. 一種面向新聞標(biāo)題的人物關(guān)系抽取方法,其特征在于,包括如下步驟: 1) 尋找出新聞標(biāo)題中的關(guān)系指示詞,用以區(qū)分不同類別的人物關(guān)系; 2) 根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中的位置特征,建立描述句子的句式模板;利用 訓(xùn)練數(shù)據(jù)統(tǒng)計每個模板的正/負(fù)例個數(shù),根據(jù)正負(fù)模板的比例判定新聞標(biāo)題中人物間關(guān)系 的正確性; 3) 從新聞標(biāo)題與人物屬性知識庫中提取特征,通過特征分類的方法并結(jié)合步驟2)得到 的句式模板的正/負(fù)例個數(shù),判定給定的人物關(guān)系是否正確。2. 如權(quán)利要求1所述的方法,其特征在于,步驟1)在尋找關(guān)系指示詞之前進(jìn)行數(shù)據(jù)清 洗,通過制定啟發(fā)式規(guī)則直接判定不符合條件的新聞標(biāo)題。3. 如權(quán)利要求2所述的方法,其特征在于,所述啟發(fā)式規(guī)則包括: ① 如果新聞標(biāo)題中不存在給定關(guān)系的關(guān)系指示詞,則人物關(guān)系錯誤; ② 如果給定人物的名字+相鄰字為人名,則人物關(guān)系錯誤; ③ 如果給定人物或者給定關(guān)系出現(xiàn)在書名號中,則人物關(guān)系錯誤; ④ 如果"給定人物+各種親戚朋友"出現(xiàn)在句子中,則人物關(guān)系錯誤。4. 如權(quán)利要求1所述的方法,其特征在于,步驟1)利用最小覆蓋的方法尋找出新聞標(biāo)題 中的關(guān)系指示詞,其方法是:對于給定的某一種關(guān)系類型的數(shù)據(jù),記訓(xùn)練集為P={ P1, p2,. . .,pn},其中Pl為第i條文本標(biāo)題,i = 1,2,…η;對P進(jìn)行分詞處理后獲取一個詞典數(shù)據(jù)W = {wi,W2, . . .,Wm},其中Wi為詞典中第i個單詞,i = l,2,…m;關(guān)系類型的關(guān)系指示詞提取轉(zhuǎn) 化為在詞典中尋找一個子集,并滿足:S能夠覆蓋P,即P的每條語料?1中至少有一個單 詞在S中出現(xiàn);將求解訓(xùn)練集P的最小覆蓋單詞集S作為關(guān)系指示詞。5. 如權(quán)利要求1所述的方法,其特征在于,步驟2)根據(jù)句子中的表達(dá)人物關(guān)系的〈主語 S、謂語P、賓語0>三元組,得到描述句子的層次句式模板。6. 如權(quán)利要求5所述的方法,其特征在于,步驟2)建立N層句式模版樹,該句式模板樹的 第一層僅考慮人物X與關(guān)系指示詞Y的位置關(guān)系,分為三類:YXX,XYX,XXY;第二層考慮除去X 以外的人Μ對于關(guān)系判定的影響,對于第一層的各模板產(chǎn)生若干子模板;第三層考慮除去Μ、 Χ、Υ的字串@對于第二層模板的影響,進(jìn)一步產(chǎn)生若干子模板;然后用給定句子在句式模板 樹上進(jìn)行匹配,選擇匹配到的模板中正/負(fù)比例最懸殊的模板,若選定模板的正例個數(shù)大于 負(fù)例個數(shù),則關(guān)系正確,否則關(guān)系錯誤。7. 如權(quán)利要求1所述的方法,其特征在于,步驟3)提取句子中人物的知識庫特征、關(guān)系 指示詞特征、詞間距特征,作為候選特征,再利用信息增益選擇特征,最后利用決策樹判定 人物關(guān)系是否正確。
【專利摘要】本發(fā)明涉及一種面向新聞標(biāo)題的人物關(guān)系抽取方法,其步驟包括:1)尋找出新聞標(biāo)題中的關(guān)系指示詞,用以區(qū)分不同類別的人物關(guān)系;2)根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中的位置特征,建立描述句子的句式模板;利用訓(xùn)練數(shù)據(jù)統(tǒng)計每個模板的正/負(fù)例個數(shù),根據(jù)正負(fù)模板的比例判定新聞標(biāo)題中人物間關(guān)系的正確性;3)從新聞標(biāo)題與人物屬性知識庫中提取特征,通過特征分類的方法并結(jié)合步驟2)得到的句式模板的正/負(fù)例個數(shù),判定給定的人物關(guān)系是否正確。本發(fā)明在保證準(zhǔn)確率的同時,降低了特征維度,提高了判定效率,可用于挖掘新聞標(biāo)題中的人物關(guān)系,進(jìn)而發(fā)現(xiàn)社會中的焦點人物、熱點事件等,便于及時掌握社會動態(tài),監(jiān)控輿情。
【IPC分類】G06F17/27
【公開號】CN105608070
【申請?zhí)枴緾N201510965136
【發(fā)明人】柳廳文, 亞靜, 張浩亮, 時金橋, 趙佳鵬, 閆旸, 李全剛, 張洋
【申請人】中國科學(xué)院信息工程研究所
【公開日】2016年5月25日
【申請日】2015年12月21日