本發(fā)明涉及在企業(yè)的非標準格式文檔的信息自動提取領域,具體涉及一種企業(yè)非標準格式文檔的信息提取方法。
背景技術:
文檔的特定信息提取,是從非結(jié)構化的文檔資料中自動抽取特定信息,包括用戶感興趣的信息實體和關系,等。這些被抽取出來的信息將會被表示為結(jié)構化的信息,最后存儲在數(shù)據(jù)庫中,為情報分析、數(shù)據(jù)挖掘等各種應用提供服務??梢哉J為,信息抽取的工作就是從原始文檔中提取信息并將其填充到特定模板的過程,這個模板描述了欲抽取信息的文本特征及其上下文文本特征。
另一方面,隨著信息化建設的深入,企業(yè)中流程越來越多地運行在線上,大量的業(yè)務運行信息以電子文檔的形式存在。這些電子文檔,包括常見的各類公文,如請示、通知、函、報告、會議紀要,以及合同、招標書、巡檢報告、檢修工單等等,都是重要的業(yè)務載體,具有重要的分析利用價值。然而,長期以來,企業(yè)非結(jié)構化文檔數(shù)據(jù)的利用水平較低,其價值未能得到充分挖掘,這主要是因為非結(jié)構化的文檔數(shù)據(jù)難以進行直接利用。將文檔的關鍵信息抽取出,形成規(guī)范化的結(jié)構化信息,是實現(xiàn)企業(yè)非結(jié)構化文檔深度利用的重要手段。對于合同信息的提取,是將合同文檔中的關鍵字段,如甲乙方、金額、時間等提取出形成結(jié)構化數(shù)據(jù)后,就可以進行各類分析應用,如對合同履行過程是否合規(guī)的分析。
傳統(tǒng)的文檔關鍵信息提取,通常通過人工的方式進行:由人工逐個對文檔的相關信息進行識別、拷貝,而后填寫到指定的模版中。隨著信息化建設的持續(xù)深入,原有線下工作流程基本都已經(jīng)實現(xiàn)了電子化,導致文檔數(shù)量以幾何級數(shù)增加,純粹依靠人工進行信息提取的方式已經(jīng)不在適用。這里重點闡述自動化和半自動化的現(xiàn)有相關技術,目前主要有基于規(guī)則、基于命名實體提取兩種方法:
現(xiàn)有技術一:基于規(guī)則的方法
基于規(guī)則的方法,是指依靠人工的方式,對特定的文檔、關鍵信息編制相關的規(guī)則,而后在程序遍歷文檔文本流的過程中,將符合規(guī)則的信息提取出來。此處的規(guī)則,一般是以“正則表達式”的形式存在——正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。正則表達式包含一系列特定的語法,提供強大的規(guī)則文本信息提取能力。例如,提取固定電話號碼的正則表達式為:("^(\d{3,4}-)\d{7,8}$"),它的含義是“以3到4位數(shù)字開頭,中間用-號隔開,然后緊跟著7到8位”數(shù)字,滿足這個模式或規(guī)則的,即為固定電話號碼。當然,正則表達式的能力不止于此,但基本原理和限制是一樣的,那就是必須對要提取的信息的“模式”或“規(guī)則”是明確的、無歧義的。
在上述的合同關鍵信息提取中,用規(guī)則提取的方式可以實現(xiàn)如“甲方單位”信息提取,如圖2所示的合同所示,其規(guī)則是:在“委托方:”之后,在換行符之前的文字,即為甲方單位信息。同理可以提取其它固定規(guī)則的信息。
規(guī)則方法的優(yōu)點是可以實現(xiàn)精確的提取,但其缺點也很明顯,包括:
1)主要適用于文檔格式相對固定的文檔,即“標準化”的文檔。比如,上述合同甲方信息的提取,不適合于和上述模版不一樣的其它合同文書——這個時候,就需要對合同進行分類,將格式一樣的合同歸為一類,對每一類合同編制特定的提取規(guī)則,導致工作量上升。
2)可移植性差。技術方案一的方法編制的規(guī)則,即使在大量的文檔中應用,針對新的類型的文檔,還需要做大量的工作,原有的成果基本不能復用;一旦文檔的模版發(fā)生變化,所有的規(guī)則都得重新編寫、測試,效率較低。
現(xiàn)有技術二:基于命名實體提取的方法
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體。命名實體分為通用命名實體識別和專用命名實體,其中,通用的命名實體識別是指針對三大類(實體類、時間類和數(shù)字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)信息進行智能提取的技術,目前已經(jīng)到達比較高的準確度;而專用命名實體,是針對以上類別之外的特定領域的信息提取,如醫(yī)療病例的提取,涉及到對癥狀、使用的藥物等信息的提取,形成關聯(lián)網(wǎng)絡,理論上也可以獲得類似“規(guī)則提取”的效果,提取特定含義的信息實體。
命名實體識別技術是“基于統(tǒng)計學”的自然語言處理技術路線的一種技術,本質(zhì)原理上是針對標注的語料,利用機器學習的相關算法(最常用的為條件隨機場CRF)發(fā)現(xiàn)出其中的模式,進而利用該模式對待挖掘的文本進行識別、提取的過程。所以,它也有統(tǒng)計方法存在的一些共性限制,即依賴于標注的語料與文本自身模式的清晰性,以及容易受到文本上下文的干擾。這就是為什么目前通用命名實體技術已經(jīng)基本達到工程上的實用水平(特別是針對短文本的提取,長文本情況下還是容易受到一定干擾)——上述的三大類、七小類都具有清晰模式,并且在全世界相關人員的研究過程中逐步形成其高質(zhì)量的標注語料;而專用的命名實體識別之所以未能得到廣泛的推廣應用,主要也是因為其標注語料需要專門的投入,要對一個特定類別的文檔進行命名識別提取,其投入的人工標注工作可能比撰寫專門的規(guī)則(正則表達式)花費的時間還要多。所以,截至目前,命名實體識別最常用的領域仍然是短文本的通用信息提取,包括上述的三大類和七小類。
所以,現(xiàn)有技術方案二,即命名實體技術的主要優(yōu)點是針對短文本的通用命名實體識別已經(jīng)具備很高的正確率,幾乎不需要人工介入;其缺點主要包括:不適用于長文本(容易使得結(jié)果受干擾),以及非通用的命名實體識別的人工語料標注工作量很大。由于企業(yè)非標準格式文檔的形式較為多樣,需要提取的內(nèi)容不限于通用命名實體,且文檔長度較長,這都使得該技術很難直接用于企業(yè)非標準格式文檔信息提取領域。
綜上所述,上述兩種現(xiàn)有技術方案,具備各自的優(yōu)點,但存在的缺陷也都較為明顯。技術方案一雖然能夠?qū)崿F(xiàn)精確提取,達到企業(yè)業(yè)務對文檔提取的技術要求,但存在不適用于非標準格式文檔,以及可移植性差等缺點;技術方案二,能夠直接用于短文本中的通用命名實體提取,且準確性較高,但在通用命名實體的提取上,則需要配套大量的人工數(shù)據(jù)標注工作,除非同類格式的文檔數(shù)據(jù)巨大、效益顯著,否則開展人工的語料標注工作是不現(xiàn)實的。并且該技術也容易受上下文的影響,通常適用于短文本的信息提取中,難以用于篇幅較長、格式不標準、待提取的信息類型多樣的企業(yè)文檔中。
本發(fā)明提出一種針對企業(yè)中常見的非標準格式文檔的信息自動提取方法和系統(tǒng),充分考慮到企業(yè)大量的文檔以非標準格式的形式存在的現(xiàn)狀,設計了切合企業(yè)應用環(huán)境實際的方法并給出相關的系統(tǒng)實現(xiàn)方式,能夠較大程度上提升企業(yè)非結(jié)構化文檔關鍵信息提取的效率和效果,對推進企業(yè)文檔的各類分析挖掘應用有較大意義。
技術實現(xiàn)要素:
本發(fā)明的目的在于提供一種企業(yè)非標準格式文檔的信息提取方法,該方法充分考慮了企業(yè)文檔篇幅較長、格式不標準、待提取的信息類型多樣的特點,提出一種兩階段、多策略的非標準文檔特定信息提取方法,具備較強的通用性和準確性,并有效減小人工投入,從而能夠充分規(guī)避了現(xiàn)有技術的缺陷,適合于企業(yè)應用。
為實現(xiàn)上述目的,本發(fā)明的技術方案是:一種企業(yè)非標準格式文檔的信息提取方法,包括如下步驟,
S1、輸入原始文檔;
S2、待提取信息所在的段落檢測及提取,負責從原始文檔全文中,識別并提取出待提取信息所在的章節(jié)段落,從而使得每個待提取信息都對應到原始文檔的一個片段,形成短文本;
S3、面向短文本,采用多策略的信息提取框架,即能夠針對不同的信息模式,支持采用不同的策略提取不同類型的信息。
在本發(fā)明一實施例中,所述原始文檔為包括公文、招標書、營銷文檔的企業(yè)文檔。
在本發(fā)明一實施例中,所述步驟S2的具體實現(xiàn)如下,
S21、基于規(guī)則的標題抽?。?/p>
通過word的宏語言,一次性將原始文檔按章節(jié)及其章節(jié)名稱抽取出,形成不同的文檔片段;而后,利用正則表達式,將符合模式的標題取出;
S22、將標題提取的內(nèi)容作為標注語料;
S23、文檔特征化:
將文檔通過分詞技術,進行初步的特征化,形成特征向量全集,而后進行特征優(yōu)化;所述特征優(yōu)化具體為:
從特征向量全集中產(chǎn)生一個特征子集;而后采用評價函數(shù)對該特征子集進行評價,并將評價的結(jié)果與停止準則的條件進行比較,滿足則該過程完成,不滿足則需要繼續(xù)迭代;其中評價函數(shù)的公式如下,
其中,m表示的是類的數(shù)量,表示其中的某一個類,t表示的是一個詞語,表示這個文本屬于類的概率,表示詞語t在文本中出現(xiàn)的概率,表示當一個文本中包含詞語t時,這個文本屬于類概率,表示當一個文本中不包含詞語t時,這個文本屬于類的概率;
S24、訓練分類模型:
將步驟S22的標注語料,通過步驟S23的特征化以后,利用SVM分類算法,構建一個用于二分類的模型,利用該模型對原始文檔的章節(jié)進行預測;
S25、模型部署運行:
對輸入文檔進行上述S21-S23處理后,利用步驟S24生成的模型,即可對輸入文檔的章節(jié)繼續(xù)異常,從而識別出待提取信息所在章節(jié),使得輸入文檔由長文檔變?yōu)槎涛谋尽?/p>
在本發(fā)明一實施例中,所述步驟S3的具體實現(xiàn)如下,
(1)對于格式固定嚴謹,有確定規(guī)則的信息,優(yōu)先采用確定性較高的規(guī)則方法進行關鍵信息提??;
(2)對于符合三大類、七小類的命名實體信息,采用準確的命名識別提取技術進行提取。
在本發(fā)明一實施例中,所述步驟S3的中還包括對于除(1)、(2)兩類外的自由文本信息,該類自由文本信息采用人工提取。
相較于現(xiàn)有技術,本發(fā)明具有以下有益效果:
本發(fā)明在企業(yè)的非標準格式文檔的信息自動提取領域,現(xiàn)有的方案很難在保證信息提取的準確性的同時,同步減小人工投入;本發(fā)明提出的方法,充分利用企業(yè)文檔的自身特點,創(chuàng)新地引入了檢測和提取待提取信息所在章節(jié)的步驟和具體方法,將長篇章文檔轉(zhuǎn)換為短文本,減小了對信息提取算法的干擾,提高了提取的準確性;在此基礎上,進一步設計了多策略的信息提取框架,能夠綜合利用現(xiàn)有技術方案的優(yōu)點,在實現(xiàn)信息提取較高程度自動化的同時,也能確保信息提取的準確性。
附圖說明
圖1為本發(fā)明非標準文檔特定信息提取方案總體過程圖。
圖2為本發(fā)明待提取信息所在的段落檢測及提取流程圖。
圖3為本發(fā)明企業(yè)文檔特征優(yōu)化過程圖。
圖4為本發(fā)明面向短文本的多策略關鍵信息提取總體工作框架圖。
具體實施方式
下面結(jié)合附圖,對本發(fā)明的技術方案進行具體說明。
如圖1-4所示,本發(fā)明的一種企業(yè)非標準格式文檔的信息提取方法,包括如下步驟,
S1、輸入原始文檔;
S2、待提取信息所在的段落檢測及提取,負責從原始文檔全文中,識別并提取出待提取信息所在的章節(jié)段落,從而使得每個待提取信息都對應到原始文檔的一個片段,形成短文本;
S3、面向短文本,采用多策略的信息提取框架,即能夠針對不同的信息模式,支持采用不同的策略提取不同類型的信息。
所述原始文檔為包括公文、招標書、營銷文檔的企業(yè)文檔。
所述步驟S2的具體實現(xiàn)如下,
S21、基于規(guī)則的標題抽?。?/p>
通過word的宏語言,一次性將原始文檔按章節(jié)及其章節(jié)名稱抽取出,形成不同的文檔片段;而后,利用正則表達式,將符合模式的標題取出;
S22、將標題提取的內(nèi)容作為標注語料;
S23、文檔特征化:
將文檔通過分詞技術,進行初步的特征化,形成特征向量全集,而后進行特征優(yōu)化;所述特征優(yōu)化具體為:
從特征向量全集中產(chǎn)生一個特征子集;而后采用評價函數(shù)對該特征子集進行評價,并將評價的結(jié)果與停止準則的條件進行比較,滿足則該過程完成,不滿足則需要繼續(xù)迭代;其中評價函數(shù)的公式如下,
其中,m表示的是類的數(shù)量,表示其中的某一個類,t表示的是一個詞語,表示這個文本屬于類的概率,表示詞語t在文本中出現(xiàn)的概率,表示當一個文本中包含詞語t時,這個文本屬于類概率,表示當一個文本中不包含詞語t時,這個文本屬于類的概率;
S24、訓練分類模型:
將步驟S22的標注語料,通過步驟S23的特征化以后,利用SVM分類算法,構建一個用于二分類的模型,利用該模型對原始文檔的章節(jié)進行預測;
S25、模型部署運行:
對輸入文檔進行上述S21-S23處理后,利用步驟S24生成的模型,即可對輸入文檔的章節(jié)繼續(xù)異常,從而識別出待提取信息所在章節(jié),使得輸入文檔由長文檔變?yōu)槎涛谋尽?/p>
所述步驟S3的具體實現(xiàn)如下,
(1)對于格式固定嚴謹,有確定規(guī)則的信息,優(yōu)先采用確定性較高的規(guī)則方法進行關鍵信息提取;
(2)對于符合三大類、七小類的命名實體信息,采用準確的命名識別提取技術進行提取。
所述步驟S3的中還包括對于除(1)、(2)兩類外的自由文本信息,該類自由文本信息采用人工提取。
以下為本發(fā)明的具體實現(xiàn)過程。
綜合對現(xiàn)有技術方案的分析,本發(fā)明提出一種兩階段、多策略的非標準文檔特定信息提取方法及其實現(xiàn)方案。
如圖1所示,本發(fā)明方案總體上包括兩個步驟:一是待提取信息所在的段落檢測及提取,負責從文檔全文中,自動化識別并提取出“待提取信息”所在的章節(jié)段落,從而每個待提取的信息(如合同的“甲方單位”)都對應到文檔的一個片段(章節(jié)段落)。該步驟的主要目的是縮短待提取的文檔規(guī)模(從長篇章到短文本),從而后續(xù)在開展具體的信息提取時,降低長篇文檔的上下文對信息提取算法的干擾,提升信息提取準確性;二是面向短文本(上個步驟提取出的相關章節(jié)段落),采用多策略的信息提取框架,即能夠針對不同的信息模式,支持采用不同的策略提取不同類型的信息。力求全面覆蓋企業(yè)文檔中大部分信息描述,實現(xiàn)普遍適用、準確提取的同時,最大程度降低在語料標記、提取規(guī)則編制方面的人工投入。具體介紹如下:
一、待提取信息所在的章節(jié)檢測及提取
由于本發(fā)明針對的是企業(yè)文檔,包括公文、招標書、營銷文檔,等等。不同于互聯(lián)網(wǎng)傳播的個人文檔,企業(yè)文檔一般來源于企業(yè)在經(jīng)驗管理、生產(chǎn)運行過程的產(chǎn)出,雖然不一定都有嚴格的模版,但一般都會有一定的行文標準,表現(xiàn)為更為嚴謹和規(guī)范。經(jīng)過我們對某大型央企數(shù)據(jù)平臺中非結(jié)構化文檔的分析,企業(yè)文檔具備以下特性,可以在本發(fā)明方法中進行充分利用:
1、長文檔的章節(jié)結(jié)構一般都比較好。一般超過3頁的文檔,都會對內(nèi)容進行章節(jié)化編排,每一個章節(jié)通常有較為固定的標題。
2、同類文檔,對同一部分內(nèi)容的描述具有較強的“模式”。以公文為例,一份請示函、事件通報,其措辭描述均較為嚴謹和“刻板”,從技術角度來看,同類別的不同文檔,其同一部分內(nèi)容的“相關性”較好、不同了內(nèi)容“區(qū)分度”較高。
另一方面,在信息提取的各類算法中,不管是基于規(guī)則的,還是基于命名實體的,算法運行結(jié)果的準確性都與文檔的長度有一定的線性相關關系??梢哉J為,文檔越長,特定規(guī)則或算法提取的準確性就越差;對不同的算法影響也不一樣,規(guī)則提取方法受文章長度影響會略小,命名實體提取受文章長度的影響則很大。
本發(fā)明的章節(jié)檢測及提取方法,目的是減小待提取信息所在文檔的篇幅長度,其運行原理則充分利用了上述企業(yè)文檔的特點。核心思路有兩個:一是根據(jù)標題的相關性,以合同為例,待提取的關鍵信息中有“合同生效時間”及“合同完成時間”,經(jīng)過對歷史合同文檔的分析,該信息一般位于合同的“合同生效和期限”這個章節(jié)中,具體章節(jié)名稱不一定一樣,或有細微不同。根據(jù)這個規(guī)律,利用規(guī)則方法,大約實現(xiàn)60%段落的智能提??;二是根據(jù)內(nèi)容的相關性??梢园盐臋n中的內(nèi)容,按章節(jié)段落拆分后,視為兩個類別,分別是“和待檢測提取的內(nèi)容相關”以及“和待檢測提取的內(nèi)容無關”,所以它是機器學習方法中典型的“二分類”問題,可以內(nèi)容語義的相關性利用算法進行區(qū)分。如圖2所示,具體實施方法如下:
步驟1,基于規(guī)則的標題抽取。
通過word的宏語言,一次性將文檔按章節(jié)及其章節(jié)名稱抽取出,形成不同的文檔片段。而后,根據(jù)事先分析出的規(guī)律,利用正則表達式,將符合模式的標題取出。例如有這么個規(guī)則:如果標題同時包含“生效”和“期限”,那么“合同生效時間”及“合同完成時間”這兩個信息在該章節(jié)中的概率就比較大,可以將其文本內(nèi)容提取出作為這兩個信息自動提取時的“待提取文檔”。在實踐中,我們對大量不同文檔進行驗證和回測,大概有60%左右的待提取信息所在段落,可以用此方法進行提取。
步驟2,將標題提取的內(nèi)容作為“標注語料”。
步驟1識別待提取信息章節(jié)采用的是規(guī)則提取方法,所以正確率通常都比較高,所以在本發(fā)明中,該章節(jié)的內(nèi)容將被視為已經(jīng)標注好的語料,供后續(xù)的分類模型訓練過程使用。
步驟3,文檔特征化
文檔特征化,是指將文檔用數(shù)學語言描述成可以供機器學習算法自動化分析的格式,是采用機器學習對文檔進行各類預測(如,分類就是一種預測)的必要步驟。目前的主流技術路線,是將文檔通過分詞技術,進行初步的特征化,形成特征向量(將文檔的連續(xù)文本流,替代為用詞組成的“向量”)。由于分詞是比較成熟的技術,其過程包括去除停用詞(如“的”、“了”等虛詞),正規(guī)化(用索引數(shù)字替代詞語文字),等,本發(fā)明不再展開,而直接采用主流的分詞軟件進行,如斯坦福大學開源的Standard Analyzer。
特征化的關鍵步驟是特征優(yōu)化。特征優(yōu)化是在已經(jīng)形成的特征向量的基礎上,選擇出一個特征子集的過程。之所以特征優(yōu)化是關鍵步驟,是因為進行初步的特征化形成的特征向量其中存在很多不相關的特征,而特征之間也可能相互依賴,容易導致特征分析時間過長,也會對分析過程造成干擾,造成分析精度下降,所以需要通過特征優(yōu)化步驟,在降低特征維度的同時,保留真正的關鍵特征,提升精確度和分析效率。特征優(yōu)化的步驟如圖3所示:
如圖3所示,首先從特征全集中產(chǎn)生一個特征子集(采用C4.5決策樹算法),然后使用評價函數(shù)對該特征子集進行評價,評價的結(jié)果與停止準則的條件進行比較,滿足則該過程完成,不滿足則需要繼續(xù)迭代。其中,此處的關鍵是選擇 “評價函數(shù)”,其用于評價選擇出的特征子集是否具有足夠的信息、能夠代表原始文檔的特征。常用的評價函數(shù)通常有信息增益、互信息、卡方、期望交叉熵等。本發(fā)明經(jīng)過大量針對企業(yè)文檔的實際測試,本發(fā)明采用的是信息增益方法,其具體的公式如下:
其中,m表示的是類的數(shù)量,表示其中的某一個類,t表示的是一個詞語,表示這個文本屬于類的概率,表示詞語t在文本中出現(xiàn)的概率,表示當一個文本中包含詞語t時,這個文本屬于類概率,表示當一個文本中不包含詞語t時,這個文本屬于類的概率。經(jīng)過實驗驗證,采用該信息增益方法的評價函數(shù),用于企業(yè)文檔的特征優(yōu)化中,能在最大程度保留關鍵特征信息的同時減小特征向量的維度,利于后續(xù)分析的開展。
步驟4,訓練分類模型
步驟2的文本語料,通過步驟3的特征化以后,利用機器學習中的分類算法,就可以構建一個可以用于“二分類”的模型,利用該模型可以對待評估文檔的章節(jié)進行預測。所謂二分類預測,就是識別輸入的內(nèi)容是屬于“與待提取信息相關”的分類還是“與待提取信息不相關”分類的過程,相關且相關度最高的內(nèi)容,就是最終要提取的待提取信息所在的章節(jié)內(nèi)容。目前主流的分類算法較多,包括Native Bayes(樸素貝葉斯)、SVM(支持向量機)、Random Forest(隨機森林),等。本發(fā)明采用的是SVM分類算法,具體算法細節(jié)屬于公開領域知識,此處不在展開。
步驟5,模型部署運行
對輸入文檔進行上述類似的流程處理后(章節(jié)內(nèi)容提取、特征化),利用步驟4生成的模型,即可對這些章節(jié)進行預測,從而識別出待提取信息所在章節(jié)。本發(fā)明基于開源軟件Scikit工具提供的SVM算法,編制了原型軟件實現(xiàn)上述步驟,并對典型的企業(yè)文檔章節(jié)提取進行運行和測試,結(jié)論是識別正確率超過95%,這已經(jīng)完全能夠滿足企業(yè)關鍵信息提取的需求(遺漏的未能提取出的文檔,再通過少量的人工投入即可補全)。
綜上所述,通過本發(fā)明給出的上述5個步驟及其具體實施方法,能夠?qū)崿F(xiàn)高質(zhì)量、高準確性的相關章節(jié)提取,有效地去除了文檔的干擾信息,縮減了需要分析的文檔規(guī)模(從長文檔變?yōu)槎涛谋荆?,從而為后續(xù)的關鍵信息提取步驟奠定良好的基礎。
二、面向短文本的多策略關鍵信息提取
在上述過程,已經(jīng)實現(xiàn)了從長篇章文檔中提取出關鍵信息所在的段落章節(jié),從而在本步驟中,主要采用面向短文本的信息提取技術,而無需考慮篇章長度對提取準確性的影響。
在前述現(xiàn)有技術分析中,我們已經(jīng)得出結(jié)論:基于規(guī)則的方法雖然正確率比較高,但移植性較差,所以僅適用于模式比較穩(wěn)定的信息提?。弧懊麑嶓w提取”技術方法,主要適用于通用的三大類、七小類信息的提取,此時準確性較高且?guī)缀醪恍枰~外語料標注工作,但不適用于其它領域??偨Y(jié)如下表1所示:
表格1:不同信息提取的適用范圍
本發(fā)明的總體思路是:在第一階段將長文檔轉(zhuǎn)換為短文本工作基礎上,提出一種多策略的信息提取工作框架,能夠進一步實現(xiàn)企業(yè)文檔較為準確地提取。具體而言,在對文檔進行關鍵信息提取過程中,對不同的文檔及信息模式進行區(qū)分,而后進行針對性的提取??傮w工作框架的流程如圖4所示,由人工(專家)決策,對于不同類型的信息,采用不同的進行提?。?/p>
1)對于格式固定嚴謹,有確定規(guī)則的信息,優(yōu)先采用確定性較高的“規(guī)則方法”進行關鍵信息提取。
2)對于符合三大類、七小類的“命名實體”信息,采用準確的“命名識別提取”技術進行提取。
3)上述兩類信息已經(jīng)能夠涵蓋大部分需要提取的信息類型,除此之外的其它類型信息,通常是沒有固定的、嚴格的規(guī)則,也不是通用類型實體的信息,即所謂的“自由文本”信息。在多數(shù)業(yè)務中,通常不會涉及自由文本信息的提取,因為它不是嚴格的結(jié)構化數(shù)據(jù)、難以進行二次分析利用。一旦業(yè)務上有此類需求,目前本發(fā)明仍建議采用人工提取。
以上各步驟即為本發(fā)明實現(xiàn)企業(yè)非標準格式文檔的信息提取方法及其實現(xiàn)方式?;谏鲜龇椒ê涂蚣荛_發(fā)的非標準文檔提取系統(tǒng),能夠良好地對各類企業(yè)經(jīng)營管理、生產(chǎn)運行文檔進行特定類型提取,在保證對大部分信息進行自動化提取的同時,很大程度上減少了人工投入效率,提升企業(yè)文檔的分析利用能力。
以上是本發(fā)明的較佳實施例,凡依本發(fā)明技術方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術方案的范圍時,均屬于本發(fā)明的保護范圍。