欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法與流程

文檔序號:12465214閱讀:160來源:國知局
一種對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法與流程

本發(fā)明屬于中文信息處理技術(shù)領(lǐng)域,具體涉及一種對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法。



背景技術(shù):

近些年,隨著信息技術(shù)的迅猛發(fā)展,對原有的教育產(chǎn)業(yè)模式產(chǎn)生了深遠(yuǎn)的影響,高校建設(shè)逐漸趨于信息化,高等院校的門戶網(wǎng)站也成為高校發(fā)布各種校園通告和新聞的主要平臺和實(shí)現(xiàn)高校辦公自動化的重要手段,因此,對于高校網(wǎng)站的知識抽取研究也逐漸成為學(xué)術(shù)界的熱點(diǎn)。如果能準(zhǔn)確高效的抽取出高校網(wǎng)站上的會議和講座的相關(guān)內(nèi)容的知識,比如會議或講座的時(shí)間、地點(diǎn)、專家名稱和舉辦機(jī)構(gòu)等,將直接影響著檢索和辦公自動化的效率以及準(zhǔn)確率,為自動搜索提供更大的便利。

高校會議稿是一種特定的報(bào)告形式,在文章的開頭直接寫明會議的名稱,起始段落一般僅包含開會的地點(diǎn)、時(shí)間和主要參會人員以及主持人等內(nèi)容,然而,有一些高校會議稿并不是按照該特定形式出現(xiàn),比如,在文章的開頭并未寫明會議名稱或起始段落中未明確包含開會的地點(diǎn),時(shí)間和主要參會人員等實(shí)體內(nèi)容,這樣,就不能按照基于規(guī)則的方式來抽取實(shí)體。以上兩種會議稿有較大的區(qū)別,因此,需要在抽取實(shí)體前對語料進(jìn)行自動分類,分類后分別對規(guī)則語料和非規(guī)則語料進(jìn)行知識抽取。

20世紀(jì)80年代末,消息理解會議的舉行,為知識抽取奠定了基礎(chǔ)。該會議的舉行召開,推動著知識抽取技術(shù)不斷向前發(fā)展,使知識抽取慢慢發(fā)展為自然語言領(lǐng)域的一個(gè)重要部分。目前,知識抽取主要有兩大技術(shù),機(jī)器學(xué)習(xí)和自然語言處理,這兩種技術(shù)各自發(fā)展,而且,在相互融合和借鑒方面得到了較大的發(fā)展。

高校網(wǎng)站上的會議稿是一種特定的報(bào)告形式,在文章的開頭直接寫明會議的名稱,起始段落一般僅包含開會的地點(diǎn)、時(shí)間和主要參會人員以及主持人等內(nèi)容,并且寫作形式也比較固定;然而,有一些高校會議稿并不是按照該特定形式出現(xiàn),比如,在文章的開頭并未寫明會議名稱或起始段落中未明確包含開會的地點(diǎn),時(shí)間和主要參會人員等實(shí)體內(nèi)容,或者包含的實(shí)體內(nèi)容并不在固定的位置。這樣,就不能按照基于規(guī)則的方式來抽取實(shí)體。以上兩種會議稿有較大的區(qū)別,因此,在抽取實(shí)體前對語料進(jìn)行自動分類,分類后分別對規(guī)則語料和非規(guī)則語料進(jìn)行知識抽取。在規(guī)則會議稿中,特定的部分包含了標(biāo)題,時(shí)間,地點(diǎn)和參會人員等實(shí)體,但在非規(guī)則會議稿中,并不能完全包含這些內(nèi)容,這也是導(dǎo)致實(shí)體抽取效果不甚理想的原因之一。

現(xiàn)有技術(shù)中對會議稿進(jìn)行知識抽取的方法主要是基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的方法的缺陷是在于人為編寫規(guī)則需要語言專家對語言規(guī)則進(jìn)行深入的理解,在此基礎(chǔ)上編寫規(guī)則,構(gòu)造規(guī)則對語言知識要求較高,需要很大的人力物力,另外,規(guī)則較多時(shí)還會引起規(guī)則之間的沖突,各語言間移植困難、通用性不強(qiáng)?;诮y(tǒng)計(jì)的方法例如用隱馬爾可夫模型并使用角色標(biāo)注的方法來進(jìn)行實(shí)體識別,存在一些固有缺陷與不足,需要做出嚴(yán)格的獨(dú)立性假設(shè),然而事實(shí)上,大多數(shù)序列數(shù)據(jù)都不能被表示成一系列獨(dú)立的元素。因此現(xiàn)有技術(shù)中對會議稿進(jìn)行知識抽取的方法是存在很多缺陷的。



技術(shù)實(shí)現(xiàn)要素:

針對上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技術(shù)缺陷的對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法。

為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的技術(shù)方案如下:

一種對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法,包括以下步驟:

步驟1):采用基于規(guī)則的方式對會議稿進(jìn)行分類;

步驟2):對會議稿進(jìn)行實(shí)體抽??;

步驟3):采用四詞位標(biāo)記法對訓(xùn)練集中的每一個(gè)字進(jìn)行標(biāo)注;

步驟4):選擇特征模板;

步驟5):采用基于貝葉斯的實(shí)體條件概率對語料進(jìn)行二次識別。

進(jìn)一步地,所述步驟1)具體為:應(yīng)用正則表達(dá)式將高校會議稿分為兩類,規(guī)則會議稿和非規(guī)則會議稿;符合正則表達(dá)式規(guī)則的,則為規(guī)則會議稿,不符合的就自動歸為非規(guī)則會議稿。

進(jìn)一步地,所述步驟2)中,當(dāng)會議稿為規(guī)則會議稿時(shí),通過基于規(guī)則的方法來進(jìn)行實(shí)體抽取;當(dāng)會議稿為非規(guī)則會議稿時(shí),采用基于統(tǒng)計(jì)的方法對非規(guī)則會議稿進(jìn)行實(shí)體抽取。

進(jìn)一步地,所述步驟2)中,當(dāng)會議稿為非規(guī)則會議稿時(shí),采用條件隨機(jī)場模型對非規(guī)則會議稿進(jìn)行實(shí)體抽取。

進(jìn)一步地,所述步驟3)中的四詞位標(biāo)記法的特征標(biāo)記如下表所示:

進(jìn)一步地,所述特征模板為:

進(jìn)一步地,所述步驟5)的基于貝葉斯的實(shí)體條件概率的公式為:

表示字wordi的出現(xiàn)頻率,P(wordi+1|wordi)表示在字wordi的前提下出現(xiàn)字wordi+1的概率,P(name)為查詢串的條件概率。

本發(fā)明提供的對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法,對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的效率高、效果好,所獲得的準(zhǔn)確率、召回率及調(diào)和參數(shù)值均比現(xiàn)有技術(shù)更加理想,可以很好地滿足實(shí)際應(yīng)用的需要。

附圖說明

圖1為本發(fā)明的流程圖;

圖2為線性鏈結(jié)構(gòu)的條件隨機(jī)場無向圖模型示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明做進(jìn)一步說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

如圖1所示,本發(fā)明提供了一種對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法,包括以下步驟:

步驟1):采用基于規(guī)則的方式對會議稿進(jìn)行分類;

應(yīng)用正則表達(dá)式將高校會議稿分為兩類,規(guī)則會議稿和非規(guī)則會議稿;符合正則表達(dá)式規(guī)則的,則為規(guī)則會議稿,不符合的就自動歸為非規(guī)則會議稿。

基于規(guī)則的自動分類的基本方法為:通過觀察語料,利用語料中各個(gè)實(shí)體的位置信息編寫分類規(guī)則,進(jìn)而得到語料樣本所述的類別。

本發(fā)明應(yīng)用正則表達(dá)式來分類和抽取實(shí)體,在編寫規(guī)則的過程中,每條規(guī)則可以由多項(xiàng)組成。在有特定規(guī)律的文本中,用正則表達(dá)式能夠快速準(zhǔn)確的匹配并抽取出特定位置的實(shí)體,而一個(gè)正則表達(dá)式一般是由普通字符以及特殊字符(元字符)組成,描述了待識別串的匹配模式。普通字符包含大小寫的字母和數(shù)字,而元字符在正則表達(dá)式中具有特殊含義的專業(yè)字符。

對于實(shí)體的抽取規(guī)則,根據(jù)會議稿內(nèi)容抽出一些關(guān)鍵詞,比如“主講人”、“講座人”、“報(bào)告人”等等,在距離這些關(guān)鍵詞最近的人名則定為主講人名,其他實(shí)體的抽取規(guī)則也是如此。

通過制定有關(guān)的規(guī)則,則能夠采用正則表達(dá)式抽取的會議稿自動分為規(guī)則會議稿,不符合規(guī)則的將自動歸為非規(guī)則會議稿,從而將得到的語料自動分為規(guī)則高校會議稿和非規(guī)則高校會議稿。

步驟2):對會議稿進(jìn)行實(shí)體抽??;

針對規(guī)則會議稿和非規(guī)則會議稿采取不同的方法抽取實(shí)體;規(guī)則會議稿有特定的書寫形式和明顯的規(guī)則,因此,可以通過基于規(guī)則的方法來進(jìn)行實(shí)體抽取;非規(guī)則會議稿則采用基于統(tǒng)計(jì)的方法來進(jìn)行實(shí)體抽取。

規(guī)則會議稿的實(shí)體抽取方法:根據(jù)規(guī)則會議稿的特點(diǎn),需要抽取的特征實(shí)體大致有如表1所示幾類:

表1特征實(shí)體分類

由于在非規(guī)則會議稿中,特征實(shí)體比較復(fù)雜,識別難度較大,抽取出的正確率不高,所以,在本發(fā)明中,進(jìn)行知識實(shí)體抽取的過程采用多層識別來提高抽取的正確率;非規(guī)則會議稿的實(shí)體抽取方法如下:

采用條件隨機(jī)場模型對非規(guī)則會議稿的實(shí)體進(jìn)行首次抽?。?/p>

在高校會議稿中,人名、地名、主要參會人員和會議時(shí)間等前后存在一定的識別特征關(guān)系,因此,可以將實(shí)體識別的問題轉(zhuǎn)化成序列的標(biāo)記問題。而條件隨機(jī)場正是解決該問題的模型,因此,本發(fā)明采用條件隨機(jī)場模型進(jìn)行首次抽取。

條件隨機(jī)場(Conditional Random Fields,CRFs)是一種無向圖模型。它沒有隱馬爾可夫模型那樣強(qiáng)的獨(dú)立性假設(shè),同時(shí)也克服了標(biāo)記偏置問題。

條件隨機(jī)場最簡單和普遍的結(jié)構(gòu)是線性鏈結(jié)構(gòu),如圖2所示。在圖形模型中的各輸出結(jié)點(diǎn)被連接成一條線性鏈的特殊情形下,CRFs假設(shè)在各個(gè)輸出結(jié)點(diǎn)之間存在一階馬爾可夫獨(dú)立性,二階或更高階的模型可類似擴(kuò)展。

在給定觀察序列X=(X1,X2,...,Xn)的條件下,標(biāo)記序列Y=(Y1,Y2,...,Yn)的條件概率分布P(Y|X)構(gòu)成條件隨機(jī)場。

設(shè)X和Y均為線性鏈表示的隨機(jī)變量序列,則P(Y|X)稱為線性鏈條件隨機(jī)場。在

X取值為x的條件下,Y取值為y的條件概率滿足:

式中,fk和gk是特征函數(shù),λk和uk是通過參數(shù)估計(jì)確定的參數(shù)。

步驟3):采用四詞位標(biāo)記法對訓(xùn)練集中的每一個(gè)字進(jìn)行標(biāo)注;

四詞位標(biāo)記法的特征標(biāo)記如表2所示:

表2四詞位標(biāo)記法

通過以上的標(biāo)注定義,對訓(xùn)練集中的每一個(gè)字進(jìn)行標(biāo)注,因此,特征實(shí)體識別的任務(wù)就成了對測試集中每個(gè)字的B,I,E,O序列標(biāo)記問題。對訓(xùn)練集標(biāo)注完畢后,通過CRF模型對已經(jīng)標(biāo)注好的訓(xùn)練集進(jìn)行訓(xùn)練,對測試語料進(jìn)行識別。識別完成后,將測試集中標(biāo)記有BIE或者BE的字的組合提取出來,進(jìn)行還原組合,則抽取出了特征實(shí)體。

步驟4):選擇特征模板;

特征模板在命名實(shí)體識別時(shí)用來匹配信息構(gòu)成具體特征,選擇合適的特征模板顯得尤為重要。特征模板是根據(jù)所選用的特征設(shè)計(jì)出來的模板,CRF++工具會在語料訓(xùn)練的過程中根據(jù)不同的特征模板生成不同的特征函數(shù),針對高校網(wǎng)站上的會議稿的特點(diǎn),選取的一組特征模板如下所示:

Word(0)表示當(dāng)前詞;POS(0)表示當(dāng)前詞的詞性;括號中的數(shù)字表示與當(dāng)前詞的距離,負(fù)數(shù)表示當(dāng)前詞左側(cè),正數(shù)則表示當(dāng)前詞右側(cè);多個(gè)特征表示組合模板。

步驟5):采用基于貝葉斯的實(shí)體條件概率對語料進(jìn)行二次識別;

由于語料規(guī)模限制,條件隨機(jī)場在學(xué)習(xí)過程中很難學(xué)習(xí)到高校會議稿的全部特點(diǎn),這直接導(dǎo)致條件隨機(jī)場漏識了部分信息量少的實(shí)體,進(jìn)一步研究這些實(shí)體多為少見實(shí)體,即其字之間的組合比較少見,且其在整個(gè)語料中出現(xiàn)頻率低。為此定義基于貝葉斯的實(shí)體條件概率如下:

其中,P(wordi)表示字wordi的出現(xiàn)頻率,P(wordi+1|wordi)表示在字wordi的前提下出現(xiàn)字wordi+1的概率,P(name)為查詢串的條件概率。n=1時(shí),實(shí)體長度為2,n=2時(shí)表示實(shí)體長度為3。

較為生僻的實(shí)體,實(shí)體之間字的組合很少連續(xù),導(dǎo)致實(shí)體與實(shí)體之間的條件概率值小于語料中詞的條件概率值。

本發(fā)明進(jìn)行實(shí)驗(yàn)的訓(xùn)練語料選擇1998年1月的人民日報(bào)作為基準(zhǔn)語料,計(jì)算每個(gè)字的概率和以該字為基準(zhǔn)的條件概率,得到一個(gè)概率參數(shù)表。利用概率參數(shù)表計(jì)算實(shí)體條件概率值,對長度為2和3的查詢串分別設(shè)定閾值TVO2(Threshold Value of 2 Words)和TVO3(Threshold Value of 3 Words),按照閾值篩選候選實(shí)體,在保證準(zhǔn)確率的前提下,提高實(shí)體召回率。

本實(shí)驗(yàn)的訓(xùn)練語料是1998年1月的人民日報(bào),此語料的方式是粗分詞,而且還進(jìn)行了詞性標(biāo)注,這樣,在實(shí)驗(yàn)中就很容易從中獲得BIEO標(biāo)注類型,在實(shí)驗(yàn)過程中也很容易進(jìn)行操作。測試語料來自于北京師范大學(xué)高校網(wǎng)站的會議稿內(nèi)容,在本次實(shí)驗(yàn)中,選取了5000條會議稿內(nèi)容。

實(shí)驗(yàn)以準(zhǔn)確率、召回率作為分析結(jié)果的評價(jià)指標(biāo),并以F調(diào)和參數(shù)值作為綜合評價(jià)。將分析結(jié)果中正確的個(gè)數(shù)記為setA,測試集中抽取出的個(gè)數(shù)記為setB,分析結(jié)果中的總個(gè)數(shù)記為setC,則準(zhǔn)確率為P=setA/setC,召回率R=setA/setB,調(diào)和參數(shù)值F=2PR/(P+R)。

分別以現(xiàn)有技術(shù)和本發(fā)明的方法進(jìn)行兩組實(shí)驗(yàn),其中,以現(xiàn)有技術(shù)進(jìn)行實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果為:識別出的人名的P、R、F值分別為95.28%,86.25%,90.63%,地名的P、R、F值分別為85.65%,88.85%,83.65%,會議名的P、R、F值分別為87.77%,91.36%,89.54%;以本發(fā)明的方法進(jìn)行實(shí)驗(yàn),對實(shí)體進(jìn)行了召回,并進(jìn)行了二次識別,識別效果有了很大的提高,其中人名的P、R、F值分別為95.33%,91.48%,91.05%,地名的P、R、F值分別為88.97%,89.68%,85.74%,會議名的P、R、F值分別為90.37%,92.89%,91.61%。

從實(shí)驗(yàn)結(jié)果可以看出,總體來說,本發(fā)明的效果比現(xiàn)有技術(shù)的效果有明顯的提高。

本發(fā)明提供的對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的方法,對高校網(wǎng)站上的會議稿進(jìn)行知識抽取的效率高、效果好,所獲得的準(zhǔn)確率、召回率及調(diào)和參數(shù)值均比現(xiàn)有技術(shù)更加理想,可以很好地滿足實(shí)際應(yīng)用的需要。

以上所述實(shí)施例僅表達(dá)了本發(fā)明的實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
太和县| 青田县| 佛冈县| 鸡西市| 塘沽区| 富蕴县| 金寨县| 金溪县| 桦南县| 电白县| 岢岚县| 奉节县| 叶城县| 台南县| 象山县| 临颍县| 盘山县| 射阳县| 香河县| 延安市| 家居| 蒲城县| 兰溪市| 灵川县| 错那县| 松阳县| 和林格尔县| 英超| 卓尼县| 修水县| 张家界市| 综艺| 同江市| 察雅县| 深水埗区| 长沙县| 湘潭县| 萝北县| 襄垣县| 泸水县| 弥渡县|