一種異源語料自動融合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文語料信息處理技術(shù)領(lǐng)域,具體涉及一種異源語料自動融合方法。
【背景技術(shù)】
[0002] 自然語言處理領(lǐng)域的分析技術(shù)可以分為兩個方面,一個是淺層分析,如詞法分析; 另一個是深層分析,如句法分析。進行處理的文本數(shù)據(jù)叫語料。一個文本的集合叫語料庫。 語料庫在數(shù)據(jù)標(biāo)注過程中,采用不同的思想、不同的方法、不同的格式形成不同的語料體 系。目前針對詞法分析的語料庫已有很多高質(zhì)量的、大規(guī)模的語料庫存在,在基于語料庫語 言學(xué)的研究方面,已發(fā)揮了比較好的效用。而針對一個漢語句子進行深層次的、全局的分析 與處理的語料庫還很少,且標(biāo)準(zhǔn)不統(tǒng)一,規(guī)模不大,這也制約了句法分析研究應(yīng)用的發(fā)展。
[0003] 語料庫的句法標(biāo)注是語料庫語言學(xué)研究的前沿課題,它處理的目標(biāo)是對語料文本 進行句法分析和標(biāo)注,形成樹庫(treebank)語料。
[0004] 由于漢語句子不像英語語句那樣有天然的空格分割,需要對漢語句子進行詞法層 面的分析,對其進行詞語切分和詞性標(biāo)注。對于同一個自然語言處理任務(wù),往往存在多個不 同風(fēng)格的人工標(biāo)注語料庫 [1]。不同風(fēng)格的標(biāo)注庫在資源層面存在標(biāo)注不一致的問題,在語 料標(biāo)注中沒有一個統(tǒng)一的標(biāo)準(zhǔn),不能保證在詞性標(biāo)注以及人工標(biāo)注的一致性。在構(gòu)建大規(guī) 模的漢語樹庫的過程中,需要有比較大規(guī)模的已分詞和標(biāo)注完善的基礎(chǔ)語料庫,再對這些 基礎(chǔ)語料庫進行自動分析和人工標(biāo)注,最終形成漢語樹庫。由于現(xiàn)有的語料庫的規(guī)模并不 是很大,而且不同研究機構(gòu)對于詞性的標(biāo)注規(guī)范不同,不能直接組合為一個大規(guī)?;A(chǔ)語 料庫。這也限制了語料的多領(lǐng)域適應(yīng)性,限制了語料庫發(fā)展的規(guī)模,阻礙了基于語料庫語言 學(xué)的發(fā)展。因此,需要采用一定的方式,將語料的標(biāo)注標(biāo)準(zhǔn)進行統(tǒng)一化,使得異源的語料庫 可以融合起來利用,發(fā)揮多語料綜合利用的效用。
[0005] 當(dāng)前在語料融合方面常用的方法有:將源語料的分詞和詞性標(biāo)注標(biāo)準(zhǔn)進行轉(zhuǎn)化, 使其與目標(biāo)語料一致,再將轉(zhuǎn)化后的語料與目標(biāo)語料融合,訓(xùn)練一個新詞法分析器,利用這 個新的詞法分析器進行解碼;以原標(biāo)注信息作為指導(dǎo)、目標(biāo)標(biāo)注作為學(xué)習(xí)目標(biāo)來自動地構(gòu) 建一個有噪聲的平行標(biāo)注語料,并用此分類器處理另一個語料庫等。但是這些方法在測試 集大于訓(xùn)練集的情況下,在轉(zhuǎn)化過程中會因訓(xùn)練數(shù)據(jù)限制而出現(xiàn)分類錯誤。
【發(fā)明內(nèi)容】
[0006] 針對上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技 術(shù)缺陷的異源語料自動融合方法。
[0007] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案如下:
[0008] -種異源語料自動融合方法,包括以下步驟:
[0009] 步驟1)構(gòu)建UNP映射詞表;
[0010] 步驟2)利用所述UNP映射詞表對源體系的標(biāo)注進行歸一化處理;
[0011] 步驟3)確定在語料融合的過程中產(chǎn)生歧義的詞的詞性,利用知網(wǎng)中的詞語的概 念定義,對語料體系中詞的詞義進行評判,進而確定詞的詞性標(biāo)記,對于不同的語料體系, 將其中需要進行詞性排歧的詞抽取出來;
[0012] 步驟4)使用特征模板對目標(biāo)詞匯集合中的單類詞進行訓(xùn)練,然后用所述特征模 板對多類詞進行預(yù)測,輸出預(yù)測結(jié)果的概率值;
[0013] 步驟5)對輸出的概率值的分布曲線進行曲線擬合,選擇合適數(shù)量義原組合為一 個概念,然后將組合形成的概念與該詞在知網(wǎng)下的各個概念進行相似度比較,選擇知網(wǎng)中 相似度最大的概念作為當(dāng)前多類詞的推薦結(jié)果,并使用推薦結(jié)果的詞性標(biāo)記作為該多類詞 的推薦標(biāo)記;
[0014] 步驟6)對預(yù)測結(jié)果進行置信度評價,以此來提高預(yù)測結(jié)果的準(zhǔn)確性;
[0015] 步驟7)對經(jīng)過置信度評價后獲得的預(yù)測結(jié)果,選取特定的幾個詞類進行正確性 驗證;
[0016] 步驟8)將標(biāo)注后的詞及詞性信息還原到原始語料中,將各個語料體系下的語料 庫直接融合為一個更大規(guī)模的語料庫,形成目標(biāo)體系。
[0017] 進一步地,所述源體系包括TCT體系、PKU體系和XD973體系。
[0018] 進一步地,所述步驟4)的曲線擬合的擬合值CF的公式描述為:
[0019]
其中,Tf表不輸出的概率分布中的最大概率值,T3表不輸出的 概率分布中次最大概率值。
[0020] 進一步地,對所述擬合值的取值公式為
[0021] '
〇
[0022] 進一步地,所述步驟5)中的置信度的定義為針對知網(wǎng)對于某個詞的推薦詞性,在 結(jié)果評定時,認為其為正確的可靠度,置信度的概念描述為DC= 0. 48* (log2 (ΡμΑ)+log2 (Fc J);其中:
[0023] P_k代表該標(biāo)注詞本身標(biāo)記因素,其表示在以往的標(biāo)記中,該詞被標(biāo)注為c的數(shù)量 與該詞的所有數(shù)目的一個比值,P_k的計算公式為:
[0024] 中C。表示該詞被標(biāo)記為c的所有數(shù)目,CA11表示該詞的所有數(shù) 目;
[0025] F_tMt代表該詞的上下文環(huán)境因素,其計算公式為:
[0026] Fcontext= (1+CL)X(1+CR),
[0027] 其中,
p,(;(l,w)表示上文1與詞w共現(xiàn)且詞w的標(biāo)注為c的次 數(shù),CA11(l,w)表示上文1與詞w的共現(xiàn)次數(shù)
,Cjw,1)表示詞w與下文 1共現(xiàn)且詞w的標(biāo)注為c的次數(shù),CA11 (w,1)表示詞w與下文1共現(xiàn)的次數(shù)。。
[0028] 本發(fā)明提供的異源語料自動融合方法,將不同體系的語料融合到一個體系下,以 此來擴展語料庫的規(guī)模,統(tǒng)一了標(biāo)注標(biāo)準(zhǔn);經(jīng)過多語料的融合,擴充了語料資源建設(shè)過程中 的語料規(guī)模,擴大了漢語樹庫建設(shè)過程中用到的基礎(chǔ)語料庫規(guī)模,提高了后續(xù)基于語料庫 語言學(xué)的研究分析的準(zhǔn)確性,初步解決了語料庫規(guī)范不同、標(biāo)注不同的問題,為后期語料庫 資源的建設(shè)做好準(zhǔn)備工作,本發(fā)明解決了語料庫建設(shè)中標(biāo)注規(guī)范不同的問題,最終的標(biāo)注 正確率可以達到87%以上,獲得了較好的效果。
【附圖說明】
[0029] 圖1為本發(fā)明提出的異源語料自動融合方法的流程圖;
[0030] 圖2為第一個UNP映射實例的示意圖;
[0031 ] 圖3為第二個UNP映射實例的示意圖;
[0032] 圖4為義原概率分布圖;
[0033] 圖5為未加入置信度概念的實際正確率分布示意圖;
[0034] 圖6為置信度值數(shù)據(jù)統(tǒng)計結(jié)果示意圖;
[0035] 圖7為加入置信度概念的實際正確率分布示意圖;
[0036] 圖8為單類詞與多類詞最終正確率的對比示意圖。
【具體實施方式】
[0037] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,下面結(jié)合附圖和具體實施 例對本發(fā)明做進一步說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用 于限定本發(fā)明。
[0038] 如圖1所示,一種異源語料自動融合方法,包括以下步驟:
[0039] 步驟1)對源體系的標(biāo)注進行歸一化處理,形成UNP映射詞表;
[0040] 步驟2)確定在語料融合的過程中產(chǎn)生歧義的詞的詞性,利用知網(wǎng)中的詞語的概 念定義,對語料體系中詞的詞義進行評判,進而確定詞的詞性標(biāo)記,對于不同的語料體系, 將其中需要進行詞性排歧的詞抽取出來;
[0041] 步驟3)使用特征模板對目標(biāo)詞匯集合中的單類詞進行訓(xùn)練,然后用所述特征模 板對多類詞進行預(yù)測,輸出預(yù)測結(jié)果的概率值,預(yù)測的結(jié)果輸出為概率分布;
[0042] 步驟4)對輸出的概率值的分布曲線進行曲線擬合,選擇合適數(shù)量義原組合為一 個概念,然后將組合形成的概念與該詞在知網(wǎng)下的各個概念進行相似度比較,選擇知網(wǎng)中 相似度最大的概念作為當(dāng)前多類詞的推薦結(jié)果,并使用推薦結(jié)果的詞性標(biāo)記作為該多類詞 的推薦標(biāo)記;
[0043] 步驟5)對預(yù)測結(jié)果進行置信度評價,以此來提高預(yù)測結(jié)果的準(zhǔn)確性;
[0044] 步驟6)對經(jīng)過置信度評價后獲得的預(yù)測結(jié)果,選取特定的幾個詞類進行正確性 驗證;
[0045] 步驟7)將標(biāo)注后的詞及詞性信息還原到原始語料中,將各個語料體系下的語料 庫直接融合為一個更大規(guī)模的語料庫,形成目標(biāo)體系。
[0046] 其中:
[0047] 將需要融合的語料稱為源體系,融合生成的語料稱為目標(biāo)體系。本實施例中采用 的語料體系包括:TCT體系、PKU體系和XD973體系。其中,TCT語料體系是從大規(guī)模的經(jīng)過 基本信息標(biāo)注的漢語平衡語料庫中提取出100萬漢字規(guī)模的文本為語料,經(jīng)過自動句法分 析和人工校對,形成高質(zhì)量的漢語句法樹庫語料;PKU語料是北京大學(xué)對人民日報語料進 行詞語切分和詞性標(biāo)注形成的語料體系;XD973語料是山西大學(xué)按照其制定的漢語文本語 料庫分詞、詞性標(biāo)注加工規(guī)范進行加工形成的語料體系。在語料融合之前,需要將源體系的 標(biāo)注進行歸一化處理,形成歸一化詞類UNP映射詞表,UNP映射詞表是根據(jù)不同詞類體系對 應(yīng)表:1^1\?1(1]、¥168、乂0等,在盡可能保留功能類詞性的基礎(chǔ)上,共保留了58個歸一化詞類 標(biāo)記,UNP映射詞表中的部分標(biāo)記如表1所示:
[0048] 表1 :UNP映射詞表
[0049]
[0