專利名稱:一種專利文本自動分析的系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對專利文本(特別是發(fā)明專利申請及授權(quán)公開文本) 進(jìn)行自動分析的系統(tǒng)和方法,能夠用于改善用戶査詢效果。
背景技術(shù):
專利法所稱的發(fā)明,是指對產(chǎn)品、方法或者其改進(jìn)所提出的新的技術(shù) 方案。由于具有一定的法律文件特性,專利文獻(xiàn)體現(xiàn)出形式規(guī)范、語言嚴(yán) 謹(jǐn)?shù)恼Z言特點,而其冗長的篇幅、繁復(fù)的風(fēng)格大大降低了專利的可理解性 和知識共享效能。利用自然語言技術(shù)對專利進(jìn)行處理,能夠起到提高專利 使用效率、提升專利使用效能的作用。
專利文本的格式與書寫方法比較統(tǒng)一和固定,用語也較為規(guī)范。專利 文獻(xiàn)中經(jīng)常包含一些固定句型,這些句型模板適合機(jī)器的自動處理。而專 利用語的規(guī)范性使得在專利中進(jìn)行知識發(fā)現(xiàn)成為可能。
己有的專利文本分析技術(shù)包括專利文本翻譯、專利信息抽取、專利 分類與聚類、專利自動文摘、專利生成、專利價值評估以及提高專利可讀 性等。目前以上技術(shù)多處于實驗階段,尚未有成熟的商用產(chǎn)品產(chǎn)生。
中國專利公告號CN99813079,發(fā)明名稱為"具有知識生成能力的文檔 語義分析選擇"的申請公開了一種基于計算機(jī)的軟件系統(tǒng)和方法,用于在 語義上處理用戶輸入的自然語言請求,以識別和存儲語言的主語一動作一 賓語(S A 0 )結(jié)構(gòu),采用這個結(jié)構(gòu)作為關(guān)鍵詞/短語來搜索本地和基于 萬維網(wǎng)的數(shù)據(jù)庫,以便下載候選自然語言文檔,將候選文檔文本在語義上 處理為候選文檔S A 0結(jié)構(gòu),并只選擇和存儲其S A 0結(jié)構(gòu)包括與所存儲 的請求S A O結(jié)構(gòu)的匹配的相關(guān)文檔。進(jìn)一步的特征包括分析在相關(guān)文檔 S A O結(jié)構(gòu)之間的關(guān)系,并根據(jù)這種關(guān)系生成可以產(chǎn)生新的知識概念和思 想以供顯示給用戶的新的SAO結(jié)構(gòu),并根據(jù)相關(guān)文檔SAO結(jié)構(gòu)產(chǎn)生和 顯示自然語言概要。雖然其提出的文檔SAO表示法簡化了文檔表示,有利于提高文檔查準(zhǔn)率并能利用SAO自動生成文檔概要,但其不足之處是 匹配法使得査全率無法保證。
中國專利申請?zhí)枮?00410078337.0,發(fā)明名稱為"使用本體論和用戶 查詢處理技術(shù)解決問題的方法"的申請公開了一種在語義處理模塊中,基 于本體論方法對知識/數(shù)據(jù)進(jìn)行表示和處理,從而解決技術(shù)問題的一種系 統(tǒng)、方法和計算機(jī)程序。語義處理模塊的基本部件包括一個語義知識庫、 一個本體論知識庫,和/或一個專家知識庫。所述方法包括存貯一個結(jié)構(gòu) 化描述的或者半結(jié)構(gòu)化描述的用戶檢索式,對非結(jié)構(gòu)化的檢索式進(jìn)行語義 分析形成檢索式的一種正式語義表示式,對正式的語義檢索式進(jìn)行語義擴(kuò) 展,擴(kuò)展后的檢索式用于在專家知識庫中查找相關(guān)的解決方案,并且根據(jù) 語義關(guān)系對找到的解決方案進(jìn)行分類。雖然所述的系統(tǒng)能夠?qū)崿F(xiàn)對用戶查 詢請求的解析和査詢擴(kuò)展,給出的査詢結(jié)果能夠較大限度地滿足用戶的需 求。但其仍存在不足之處所述的專家知識庫、本體論知識庫作為核心計 算資源,其構(gòu)建如果依靠人工方式,將是異常復(fù)雜和繁難的,包含巨量工 作,管理和維護(hù)也是一大問題。 _
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種專利文本自動分析的系統(tǒng)和方法,所述系統(tǒng) 和方法旨在利用自然語言處理技術(shù)對專利全文數(shù)據(jù)進(jìn)行處理,提供專家知 識庫、本體論知識庫所需的數(shù)據(jù)知識,盡可能降低專家知識庫、本體論知 識庫的獲得成本和維護(hù)成本。
本發(fā)明提出一種對專利文本(尤指發(fā)明專利)進(jìn)行自動分析的系統(tǒng), 主要包括一^語言處理系統(tǒng),這個系統(tǒng)的基本部件包括一個語言知識庫l、 一個專家知識庫2、 一個本體論知識庫3、 一個專家知識處理器10、 一個本 體處理器ll。本發(fā)明能夠基于專利數(shù)據(jù)獲取兩大特定知識庫即專家知*庫 2、本體論知識庫3,從而為解決(但不限于)發(fā)明問題或者用戶的技術(shù)問 題提供知識層面的支撐,實現(xiàn)對專利數(shù)據(jù)庫8中的專利全文進(jìn)行處理。
所述語言知識庫l能夠提供一個用戶檢索式的語言分析和它的正式語 義表示,即由"Verb(動詞)-Parameter (參數(shù))-Object (對象)(VP0)"所 體現(xiàn)的技術(shù)問題解決方式。所述的語言知識庫l可以包含,但不限于分析的規(guī)則,詞形還原詞典,語言邏輯,和名詞詞組的分類,能夠提供進(jìn)行專 利文本的語言分析所需的詞語知識和語言結(jié)構(gòu)知識,且能夠提供用戶檢索 請求所對應(yīng)的正式的語義表示。專利文本的格式與書寫方法比較統(tǒng)一和固 定,用語也較為規(guī)范。專利文本中經(jīng)常包含一些固定句型,如"本發(fā)明的
目的是X","權(quán)利要求N所述的X,其特征是Y",其中X、 Y可以是任意詞 語或句子,N是任意數(shù)詞組合。這些句型模板適合機(jī)器的自動處理,是構(gòu) 成語言知識庫l的重要組成部分。
所述專家知識庫2是指是為解決技術(shù)問題的解決方案知識庫,它來源 于許多文本文檔,主要來源于專利數(shù)據(jù),經(jīng)專家知識處理器10處理后生成。 專家知識庫2中的解決方案,可表示為SVPO (主詞-動詞-參數(shù)-對象)格式, 其中S是主詞,或者說是vpo所定義的技術(shù)功能的解決方案。
所述本體論知識庫3包含周圍世界的一定知識,用不同知識領(lǐng)域的許 多詞語(概念和動詞)以及這些詞語的語義關(guān)系來表示,例如同義關(guān)系、 種屬關(guān)系(也叫分層關(guān)系)、關(guān)聯(lián)關(guān)系。
所述專家知識處理器IO、本體處理器ll同為語言處理器系統(tǒng)的組成部 分,其工作關(guān)系是并列關(guān)系。
所述專家知識處理器10是一種提取專利核心內(nèi)容,進(jìn)而建立結(jié)構(gòu)化 的專家知識庫2的裝置,專家知識庫2作為技術(shù)問題解決方案的載體,'為 應(yīng)用層的知識使用提供數(shù)據(jù)資源支撐。所述專家知識處理器10包括預(yù)處 理器,用于進(jìn)行詞形識別和句子拆分;詞法處理器,用于標(biāo)注出詞性;句 法處理器,用于識別句法結(jié)構(gòu);語義處理器,用于標(biāo)注出各主要句法結(jié)構(gòu) 所表示的語義,從而得到標(biāo)注有復(fù)雜語言信息的專利文本;自然語言合成 器,用于生成一個結(jié)構(gòu)化的知識條目,將其導(dǎo)入到專家知識庫,并建立/ 更新基于SVPO的語義索引。專家知識處理器10的功能是對專利全文數(shù)據(jù) 進(jìn)行提取和結(jié)構(gòu)化表示,從而得到所需的專家知識庫2。
所述專家知識處理器10的工作過程可表述如下對于專利數(shù)據(jù)庫8中 的一篇專利文本,在語言知識庫l的指導(dǎo)下,經(jīng)過專家知識處理器10中的 預(yù)處理器12、詞法處理器13、句法處理器14、語義處理器15,得到標(biāo)注有 復(fù)雜語言信息的專利文本,進(jìn)而,通過自然語言合成器16,生成所需的解 決方案知識庫,導(dǎo)入到專家知識庫2,并建立/更新基于SVPO的語義索引。
7所述本體處理器11是一種自動識別知識本體及本體間關(guān)系,并實現(xiàn)
動態(tài)更新本體論知識庫3的裝置,本體論知識庫3為應(yīng)用層的語義擴(kuò)展和 知識組織提供支持。所述本體處理器11包括預(yù)處理器,用于進(jìn)行詞形識 別和句子拆分;本體識別器,用于提取本體;關(guān)系識別器,用于識別本體 關(guān)系;本體更新器,用于對本體論知識庫進(jìn)行自動更新。本體處理器11 的功能是從專利全文數(shù)據(jù)中提取本體、識別本體關(guān)系,并對本體論知識庫 3進(jìn)行自動更新。
所述本體處理器11的工作過程可表述如下對于專利數(shù)據(jù)庫8中的 一篇專利文本,在語言知識庫1的指導(dǎo)下,經(jīng)過本體處理器11中的預(yù)處 理器17、本體識別器18、關(guān)系識別器19,得到該文本所包含的本體(概 念和動詞)和文本內(nèi)的本體間關(guān)系,經(jīng)由本體更新器20,將本體導(dǎo)入未體 論知識庫3。本體更新器20將實現(xiàn)對所獲取本體在本體論知識庫中的檢測 和定位。
所述專利數(shù)據(jù)庫8可以是語種無關(guān)的數(shù)據(jù)庫,貯存一定數(shù)量的專利文 本。它可以是專利全文數(shù)據(jù)庫,也可以是專利權(quán)利要求書數(shù)據(jù)庫。在語種 方面,既可以是英文專利,也可以是中文專利。
本發(fā)明提出一種對專利文本(尤指發(fā)明專利)進(jìn)行自動分析的方法, 包括
借助語言知識庫,利用專家知識處理器對專利數(shù)據(jù)庫中的專利全文數(shù) 據(jù)進(jìn)行提取和結(jié)構(gòu)化表示,生成專家知識庫,并對專家知識庫進(jìn)行自動更 新;
借助語言知識庫,利用本體處理器從專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)中 提取本體、識別本體關(guān)系,生成本體知識庫,并對本體知識庫進(jìn)行自動更新。
所述獲取專家知識庫步驟包括預(yù)處理器進(jìn)行詞形識別和句子拆分; 詞法處理器標(biāo)注出詞性;句法處理器識別句法結(jié)構(gòu);語義處理器標(biāo)注出各 主要句法結(jié)構(gòu)所表示的語義,從而得到標(biāo)注有復(fù)雜語言信息的專利文本; 自然語言合成器生成一個結(jié)構(gòu)化的知識條目,將其導(dǎo)入到專家知識庫,_并 建立或更新語義索引。所述語義索引是基于主詞-動詞-參數(shù)-對象(SVPO)方案,表示為主詞-動詞-參數(shù)-對象
(SVPO)格式。
所述獲取本體知識庫步驟包括預(yù)處理器進(jìn)行詞形識別和句子拆分; 本體識別器提取本體;關(guān)系識別器識別本體關(guān)系;本體更新器對本體&知 識庫進(jìn)行自動更新。所述本體更新器還能夠?qū)崿F(xiàn)對所獲取本體在本體論知 識庫中的檢測和定位。
所述語言知識庫至少包含分析的規(guī)則,詞形還原詞典,語言邏輯,和 名詞詞組的分類,能夠提供進(jìn)行專利文本的語言分析所需的詞語知識和語 言結(jié)構(gòu)知識,而且能夠提供用戶檢索請求所對應(yīng)的正式的語義表示。
所述專利數(shù)據(jù)庫是與語種無關(guān)的數(shù)據(jù)庫,貯存一定數(shù)量的專利文本。 是專利全文數(shù)據(jù)庫或?qū)@麢?quán)利要求書數(shù)據(jù)庫。
應(yīng)用本發(fā)明所述技術(shù)方案,可以實現(xiàn) -
1) 對專利文本的自動提取,輔助生成專家知識庫(解決方案) ,
2) 自動識別專利中出現(xiàn)的本體和技術(shù)術(shù)語,確定本體和術(shù)語之間的 關(guān)系類型,并實現(xiàn)對本體論知識庫的動態(tài)更新。
3) 基于l)所建立的專家知識庫、2)所獲得的本體論知識庫,可以 為實現(xiàn)智能解決方案搜索等重要應(yīng)用提供支撐。
圖l表示根據(jù)本發(fā)明的一個實施例,語言處理器系統(tǒng)的模塊工作關(guān)系 圖; _ 圖2表示根據(jù)本發(fā)明的一個實施例,專家知識庫的一個例子片段。 圖3表示根據(jù)本發(fā)明的一個實施例,本體論知識庫的一個例子片段; 圖4表示根據(jù)本發(fā)明實施成果的一種典型應(yīng)用即知識檢索的主要流程圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實 施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明的一個實施例提供了一種基于專利數(shù)據(jù)庫的知識獲取系統(tǒng)和 方法。在一個實施例中,語言處理器系統(tǒng)提供為發(fā)現(xiàn)精確和完全解決方案
而采用的搜索技術(shù)所需的專家知識庫2和本體論知識庫3。
圖1是根據(jù)本發(fā)明的一個實施例,提供實現(xiàn)精確和完全搜索技術(shù)所需
的專家知識庫2和本體論知識庫3。如圖1所示,專家知識處理器10接收 來自專利數(shù)據(jù)庫8中的一篇專利文本,借助語言知識庫1,用預(yù)處理器12 對其進(jìn)行詞形識別和句子拆分,接著用詞法處理器13標(biāo)注出詞性,接著 使用句法處理器14識別句法結(jié)構(gòu),以此為基礎(chǔ),使用語義處理器15標(biāo)注 出各主要句法結(jié)構(gòu)所表示的語義,從而得到標(biāo)注有復(fù)雜語言信息的專利文 本,進(jìn)而,通過自然語言合成器16,生成一個結(jié)構(gòu)化的知識條目,即所需 的解決方案知識,將其導(dǎo)入到專家知識庫2,并建立/更新基于SVPO的語 義索引。
在一個實施例中,專利數(shù)據(jù)庫8貯存一定數(shù)量的專利文本。每篇專利 文本均具備特定的結(jié)構(gòu),以美國專利為例,包括"Title"、 "Abstract"、 "Issue Date"、 "Claims"等必須內(nèi)容和字樣。此外,本發(fā)明所述的專利數(shù)據(jù)庫8 要求每篇專利文本具有較高代表性并在所屬技術(shù)領(lǐng)域和/或解決方案上彼 此不同。
在一個實施例中,語言知識庫可以包含,分析的規(guī)則,詞形還原詞典, 語言邏輯,和名詞詞組的分類,能夠提供進(jìn)行專利文本的語言分析所需的 詞語知識和語言結(jié)構(gòu)知識。以專利文本作為分析對象的語言結(jié)構(gòu)知識,是 對專利特有語言邏輯和表達(dá)方式的描述,例如"本發(fā)明的目的是X", "權(quán)利要求N所述的X,其特征是Y",其中X、 Y可以是任意詞語或句 子,N是任意數(shù)詞組合。語言知識庫為專利文本處理提供支撐。
圖2所示的是專家知識庫2的一個片段/示例,體現(xiàn)了專家知識庫2 的結(jié)構(gòu)和內(nèi)容。 一個知識條目的生成,即為專家知識處理器的處理過程。
專家知識庫2中的每個知識條目均代表一個解決方案。研究表明,大 多數(shù)發(fā)明都可以表示為一種稱為"技術(shù)功能"的格式,也就是VPO格式, 它表示了一個問題的正式特性。作為對該知識條目的語義表達(dá),每個解決 方案都是用一個自然語言的句子表示,包括四個字段,對應(yīng)著"SVPO"的 基本功能。S表示問題的一個解決方案,問題有VPO表示,其中V表示動詞,P表示參數(shù),O表示對象。如圖2所示的知識條目"Calcium sulfate prevents absorption of fat", 其SVPO表示為-
SVP0- S (Calcium sulfate) V (prevent) P (absorption) 0 (fat)。
圖3所示的是本體論知識庫3的一個片段,體現(xiàn)了本體論知識庫3的 結(jié)構(gòu)和內(nèi)容。本體論知識庫可以是不同知識領(lǐng)域的詞語分層數(shù)據(jù)庫,在此
所用的"詞語"表示一個概念。本體論知識庫的詞語之間的關(guān)系,包括三 種,分別是同義關(guān)系、種屬關(guān)系和關(guān)聯(lián)關(guān)系。 _
同義關(guān)系是指在給定的上下文中表示相同含義的或者兩個詞法結(jié)構(gòu)之 間的語義關(guān)系,包括直接同義詞,如"clear" 、 "rectify" 、 "purify"、 "refine"等,也包括句法同義詞,為表示相同(或相近)含義的不同的 句法結(jié)構(gòu),如"dehydrate,, 、 "decrease relative humidity"等。
種屬關(guān)系,亦稱父類關(guān)系/子類關(guān)系,指給定一組概念的父類概念/子類 概念的兩個詞或者兩個詞法結(jié)構(gòu)之間的語義關(guān)系。如 "water-〉channel,, 、 "water-〉bay,, 、 "physical thing-〉water,,等。
關(guān)聯(lián)關(guān)系,指彼此之間具有關(guān)聯(lián)關(guān)系的兩個詞或者兩個詞法結(jié)構(gòu)之間的 語義關(guān)系。具有關(guān)聯(lián)關(guān)系的兩個詞或者詞法結(jié)構(gòu),具有相同的父類關(guān)系, 是同一父類概念下的子類概念,如"channe1〈-〉bay"。 —
在一個實施例中,在本體處理器ll中,從一篇專利文本中提取到的本體 和關(guān)系將提交給本體更新器20,由該模塊實現(xiàn)對新本體和關(guān)系、已有本體、 關(guān)系之間的對比,從而完成本體論知識庫的更新。具體地,若從一篇專利 文本中獲取到兩個本體"territorial waters"和"waterfall",本體 更新器20將對二本體是否已存在于本體庫進(jìn)行判斷,并將其定位到本體庫 中,定位后即可獲知各自的上位詞、同義詞,如"territorial waters"、 "waterfall"的上位詞都是"water", "waterfall"的同義詞是"falls"。
本發(fā)明的一個實施例所得到的成果,即所述專家知識庫2和本體論知 識庫3,應(yīng)用于知識檢索的流程圖,如圖4所示。
圖4表示根據(jù)本發(fā)明實施成果的一種典p應(yīng)用即知識檢索的主要流 程圖,是用于解決發(fā)明問題和用戶技術(shù)問題的語言處理模塊的結(jié)構(gòu)和功能
ii框圖,體現(xiàn)出專家知識庫2、本體論知識庫3的一種典型應(yīng)用。 -
在一個實施例中,語言知識庫可以包含,分析的規(guī)則,詞形還原詞典, 語言邏輯,和名詞詞組的分類,能夠提供進(jìn)行專利文本的語言分析所需的 詞語知識和語言結(jié)構(gòu)知識,且能夠提供用戶檢索請求所對應(yīng)的正式的語義 表示。在語言知識庫l的幫助下,能夠提供用戶檢索請求所對應(yīng)的正式的
語義表示-verb (動詞)一parameter (參數(shù))一object (對象)(vpo);
在本體論知識庫3的幫助下,能夠完成對用戶檢索式的解析和語義擴(kuò)展, 并對檢索到的解決方案進(jìn)行分類;在專家知識庫2的幫助下,能夠確定特 定檢索式的解決方案。在一個實施例中,圖4所示的針對用戶請求的語言 處理模塊的輸出是根據(jù)語義排列的這些解決方案。 一 下面是圖4所示的對用戶檢索式的處理過程 例如檢索式How to measure thickness of ice 結(jié)構(gòu)化開試V (measure) P(thickness) 0 (ice) 一個經(jīng)過分析的用戶檢索式可以是VPO結(jié)構(gòu),如上例。該結(jié)構(gòu)會被提交 給撿索擴(kuò)充模塊,使用本體論的分層結(jié)構(gòu)完成語義擴(kuò)展,以使盡可能多地 檢索到與問題相關(guān)的解決方案。
VPO的檢索式使用任何可變的方式進(jìn)行擴(kuò)展。相應(yīng)地要進(jìn)行如下擴(kuò)展-
同義詞擴(kuò)展(對動詞、參數(shù)和對象進(jìn)行擴(kuò)展);
種屬擴(kuò)展(上下為擴(kuò)展,只對對象進(jìn)行擴(kuò)展);和/或
關(guān)聯(lián)擴(kuò)展(只對對象進(jìn)行擴(kuò)展) —
同義詞擴(kuò)展時,用戶檢索式的每個詞都被同義詞替代,如上例
結(jié)構(gòu)化形式V (measure) P(thickness) 0 (ice)
輸出(同義詞擴(kuò)展)
V(measure, detect, gage, gauge, log, measure out, meter, quantify: register)
P(沒有同義詞) 0(water ice)
種屬擴(kuò)展是把檢索式中的術(shù)語用術(shù)語的分層關(guān)系來替代。有兩種種屬擴(kuò) 展, 一種是自底向上(由特例到通用),如 — 結(jié)構(gòu)4t形式V (measure) P(thickness) 0 (ice)輸出(種屬擴(kuò)展之自底向上,只對對象進(jìn)行父關(guān)系擴(kuò)展)
0 (dimension)
另一種擴(kuò)展是自頂向下(由通用到特例),如 —
結(jié)構(gòu)化形式V (measure) P (thickness) 0 (ice)
輸出(種屬擴(kuò)展之自底向上,只對對象進(jìn)行子關(guān)系擴(kuò)展)
0 (half thickness, half-value thickness, half-thickness)
種屬檢索可以檢索到更特例、更通用或者更多相關(guān)的解決方案。
關(guān)聯(lián)關(guān)系是把檢索詞用關(guān)聯(lián)關(guān)系來替代。如
例如檢索式How to measure thickness of ice 結(jié)構(gòu)化形式V (measure) P(thickness) 0 (ice) 輸出(只將對象O進(jìn)行關(guān)聯(lián)擴(kuò)展)
0 (creaminess, soupiness, critical thickness,......)
對解決方案檢索的目標(biāo)是根據(jù)擴(kuò)展后的檢索式在專家知識庫2中查找解 決方案,并根據(jù)查找的結(jié)果羅列解決方案,搜索引擎比較專家知識庫2中 的VP0字段和擴(kuò)展后的檢索式。這些字段的對應(yīng)關(guān)系將檢索出相關(guān)的解決
方案。由于這些結(jié)果的性質(zhì),需要根據(jù)語義關(guān)系對其進(jìn)行分類,結(jié)果為 (1 )精確方案這些解決方案的V0/VP0字段與檢索式初始形成的V0/VP0
完全吻合。
例如V (heat) 0 (water)
解決方案S(coil) V (increase) P (temperature) O(water)
(2) 特例方案這些解決方案的VO/VPO字段中的至少一個是檢索式中 相關(guān)字段的一個特例。 —
例如V (measure) P(thickness) 0 (ice)
解決方案S(ultrasonic probe) V(measure) P(thickness) O(frost)
(3) 通用方案
例如V (neutralize) 0 (hydrochloric acid) 解決方案S(alkali) V (neutralize) O(acid)
(4) 類比方案
例如V (neutralize) 0 (hydrochloric acid) 角軍決方案S(alkali) V (neutralize) 0(nitric acid)在上面的例子中,S代表"主題詞"或問題的解決思路。
本發(fā)明所述的實施例都是本發(fā)明實施時的一種特殊情況,本發(fā)明的保護(hù) 范圍不僅限于此。
本發(fā)明所述的處理、計算、判定等等都是對數(shù)據(jù)的一種操作和轉(zhuǎn)換_。 本發(fā)明的實施例包括完成這些操作的設(shè)備。
盡管上面描述了本發(fā)明的一些實施例,但應(yīng)該理解的是這些實施例都是 本發(fā)明實施的一些具體例子,不應(yīng)該是本發(fā)明保護(hù)范圍的限制。本發(fā)明的 保護(hù)范圍不應(yīng)由說明書的描述所限定,而應(yīng)該由權(quán)利要求書和它們的等效 物限定。本領(lǐng)域的熟練技術(shù)人員根據(jù)上述的描述和說明對本發(fā)明實施例所 做的改動,都應(yīng)該本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種專利文本自動分析的系統(tǒng),其特征在于,包括專家知識處理器,用于對專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)進(jìn)行提取和結(jié)構(gòu)化表示,生成專家知識庫,并對專家知識庫進(jìn)行自動更新;本體處理器,用于從專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)中提取本體、識別本體關(guān)系,生成本體知識庫,并對本體知識庫進(jìn)行自動更新;語言知識庫,用于提供一個用戶檢索式的語言分析和它的正式語義表示,協(xié)助專家知識處理器和本體處理器工作;專家知識庫,是解決技術(shù)問題的解決方案知識庫,來源于許多文本文檔,主要來源于專利數(shù)據(jù),經(jīng)專家知識處理器處理后生成;本體知識庫,包含周圍世界的一定知識,用不同知識領(lǐng)域的許多詞語以及這些詞語的語義關(guān)系來表示,經(jīng)本體處理器處理后生成;所述專家知識處理器、本體處理器的工作關(guān)系是并列關(guān)系,所述專家知識庫和本體知識庫也為并列關(guān)系。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述專家知識處理器 包括預(yù)處理器,用于進(jìn)行詞形識別和句子拆分; 詞法處理器,用于標(biāo)注出詞性; 句法處理器,用于識別句法結(jié)構(gòu);語義處理器,用于標(biāo)注出各主要句法結(jié)構(gòu)所表示的語義,從而得到標(biāo) 注有復(fù)雜語言信息的專利文本;自然語言合成器,用于生成一個結(jié)構(gòu)化的知識條目,將其導(dǎo)入到專家 知識庫,并建立或更新語義索引。
3. 根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述語義索引是基于主詞-動詞-參數(shù)-對象(SVP0)格式的。
4. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述本體處理器包括: 預(yù)處理器,用于進(jìn)行詞形識別和句子拆分;本體識別器,用于提取本體; 關(guān)系識別器,用于識別本體關(guān)系;本體更新器,用于將本體導(dǎo)入本體論知識庫,并對本體論知識庫進(jìn)行 自動更新。
5. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述本體更新器還能 夠?qū)崿F(xiàn)對所獲取本體在本體論知識庫中的檢測和定位。
6. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述詞語的語義關(guān)系 至少包括同義關(guān)系、種屬關(guān)系和關(guān)聯(lián)關(guān)系。
7. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述專家知識庫中的 解決方案,表示為主詞-動詞-參數(shù)-對象(SVP0)格式。 -
8. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述語言知識庫至少 包含分析的規(guī)則,詞形還原詞典,語言邏輯,和名詞詞組的分類,能夠提 供進(jìn)行專利文本的語言分析所需的詞語知識和語言結(jié)構(gòu)知識,而且能夠提 供用戶檢索請求所對應(yīng)的正式的語義表示。
9. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述專利數(shù)據(jù)庫是與語 種無關(guān)的數(shù)據(jù)庫,貯存一定數(shù)量的專利文本。
10. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述專利數(shù)據(jù)庫是專 利全文數(shù)據(jù)庫或?qū)@麢?quán)利要求書數(shù)據(jù)庫。
11. 一種專利文本自動分析的方法,其特征在于,包括以下步驟:_ 借助語言知識庫,利用專家知識處理器對專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)進(jìn)行提取和結(jié)構(gòu)化表示,生成專家知識庫,并對專家知識庫進(jìn)行自動更 新;借助語言知識庫,利用本體處理器從專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)中 提取本體、識別本體關(guān)系,生成本體知識庫,并對本體知識庫進(jìn)行自動更 新。 '
12. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述獲取專家知識 庫步驟包括預(yù)處理器進(jìn)行詞形識別和句子拆分;詞法處理器標(biāo)注出詞性; —句法處理器識別句法結(jié)構(gòu);語義處理器標(biāo)注出各主要句法結(jié)構(gòu)所表示的語義,從而得到標(biāo)注有復(fù) 雜語言信息的專利文本;自然語言合成器生成一個結(jié)構(gòu)化的知識條目,將其導(dǎo)入到專家知識 庫,并建立或更新語義索引。
13. 根據(jù)權(quán)利要求12所述的方法,其特征在于,所述語義索引是基于 主詞-動詞-參數(shù)-對象(SVP0)格式的。
14. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述獲取本體知識 庫步驟包括預(yù)處理器進(jìn)行詞形識別和句子拆分; 本體識別器提取本體; 關(guān)系識別器識別本體關(guān)系;本體更新器對本體論知識庫進(jìn)行自動更新。 _
15. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述本體更新器還 能夠?qū)崿F(xiàn)對所獲取本體在本體論知識庫中的檢測和定位。
16. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述專家知識庫中的解決方案,表示為主詞-動詞-參數(shù)-對象(SVP0)格式。
17. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述語言知識庫至 少包含分析的規(guī)則,詞形還原詞典,語言邏輯,和名詞詞組的分類,能夠 提供進(jìn)行專利文本的語言分析所需的詞語知識和語言結(jié)構(gòu)知識,而且能夠 提供用戶檢索請求所對應(yīng)的正式的語義表示。
18. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述專利數(shù)據(jù)庫是 與語種無關(guān)的數(shù)據(jù)庫,貯存一定數(shù)量的專利文本。 —
19. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述專利數(shù)據(jù)庫是 專利全文數(shù)據(jù)庫或?qū)@麢?quán)利要求書數(shù)據(jù)庫。
全文摘要
本發(fā)明提出一種專利文本自動分析的系統(tǒng),包括專家知識處理器,本體處理器,語言知識庫,專家知識庫,和本體知識庫,所述專家知識處理器、本體處理器的工作關(guān)系是并列關(guān)系,所述專家知識庫和本體知識庫也為并列關(guān)系。本發(fā)明還提出一種專利文本自動分析的方法,借助語言知識庫,利用專家知識處理器對專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)進(jìn)行提取和結(jié)構(gòu)化表示,生成專家知識庫,并對專家知識庫進(jìn)行自動更新;借助語言知識庫,利用本體處理器從專利數(shù)據(jù)庫中的專利全文數(shù)據(jù)中提取本體、識別本體關(guān)系,生成本體知識庫,并對本體知識庫進(jìn)行自動更新。
文檔編號G06F17/27GK101539906SQ20081008505
公開日2009年9月23日 申請日期2008年3月17日 優(yōu)先權(quán)日2008年3月17日
發(fā)明者張國明 申請人:億維訊軟件(北京)有限公司