本發(fā)明涉及計(jì)算機(jī)領(lǐng)域中的自然語(yǔ)言處理范疇。更具體地說,本發(fā)明涉及一種基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法。
背景技術(shù):
:目前我國(guó)發(fā)明專利的撰寫和審核還是采取人工方式進(jìn)行,龐大的申報(bào)數(shù)量給專利撰寫和審核人員帶來了巨大的工作負(fù)荷。特別是實(shí)質(zhì)審查階段,需要審查員在全世界范圍內(nèi),查找與待審核專利相同或相近的,并且公開日期在此專利申請(qǐng)日之前的專利文獻(xiàn)、論文等一切公開的材料,進(jìn)行比對(duì),據(jù)此做出是否具有新穎性和創(chuàng)造性的判斷,進(jìn)而決定是否給予授權(quán)。這個(gè)過程首先需要進(jìn)行相似專利和文獻(xiàn)的檢索,然后進(jìn)行同語(yǔ)言和跨語(yǔ)言的內(nèi)容比對(duì),特別是跨語(yǔ)言的內(nèi)容比對(duì)相對(duì)較難。2003年,日本國(guó)立情報(bào)學(xué)研究所在第三屆NTCIR(ResearchInfrastructureforComparativeEvaluationofInformationRetrievalandAccessTechnologies)會(huì)議舉辦了針對(duì)日語(yǔ)、韓語(yǔ)、漢語(yǔ)和英文跨語(yǔ)言專利檢索研討會(huì),該會(huì)議在專利跨語(yǔ)言檢索研究方向起到很大的促進(jìn)作用;之后的NTCIR-8的專利研討會(huì)中,主要對(duì)專利技術(shù)功效分析、專利聚類分析和專利質(zhì)量分析進(jìn)行了研究;近年來,國(guó)內(nèi)外相繼誕生了一些針對(duì)企業(yè)和用戶的專利分析軟件,如美國(guó)德雷賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院開發(fā)的CiteSpace、THOMSON公司軟件分析工具DerwentAnalyticssm、國(guó)家知識(shí)產(chǎn)權(quán)局知識(shí)產(chǎn)權(quán)出版社開發(fā)的PIAS專利信息分析系統(tǒng)、東方靈盾中外專利檢索及戰(zhàn)略分析平臺(tái)和中國(guó)科學(xué)院專利在線分析系統(tǒng)等。而從發(fā)明專利撰寫員和審查員的需求角度,開展的發(fā)明專利新穎性和創(chuàng)造性(業(yè)內(nèi)簡(jiǎn)稱為新創(chuàng)性,本申報(bào)書后續(xù)均使用該簡(jiǎn)稱)分析研究未見報(bào)道,跨語(yǔ)言專利新創(chuàng)性分析研究更是空白。因此,為了適應(yīng)日益增長(zhǎng)的發(fā)明專利撰寫和審核需求,我國(guó)急需研究智能的相似專利跨語(yǔ)言比對(duì)技術(shù),增強(qiáng)專利撰寫和審查的準(zhǔn)確率并為專利撰寫員和審核員的工作提供輔助支持??缯Z(yǔ)言文本相似度計(jì)算方法是專利新創(chuàng)新預(yù)判中的關(guān)鍵內(nèi)容,可以歸結(jié)為兩大類方法:一類是把源語(yǔ)言關(guān)鍵短語(yǔ)翻譯成目標(biāo)語(yǔ)言的語(yǔ)句,這樣跨語(yǔ)言任務(wù)就變成了單語(yǔ)言任務(wù);另外一類是在兩種語(yǔ)言之間自動(dòng)地構(gòu)建轉(zhuǎn)換空間,然后將詞語(yǔ)映射到轉(zhuǎn)換空間來完成相似度計(jì)算。第一類可能會(huì)存在有些詞無法找到譯文的問題,第二類需要選用合適的方法構(gòu)建轉(zhuǎn)換空間。在滿足能夠獲取到新詞譯文的前提下,構(gòu)建本體、語(yǔ)義網(wǎng)絡(luò)等知識(shí)庫(kù)進(jìn)行相似度計(jì)算是需要進(jìn)一步探索的問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的一個(gè)目的是解決至少上述問題,并提供至少后面將說明的優(yōu)點(diǎn)。本發(fā)明還有一個(gè)目的是提供一種基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,其能夠形成跨語(yǔ)言對(duì)比策略將大大提高專利撰寫和審查的效率,縮短申報(bào)和審批時(shí)間,提高申報(bào)和審查效率,具有廣泛的推廣價(jià)值。為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn),提供了一種基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,包括:步驟一、構(gòu)建基于維基百科的跨語(yǔ)言知識(shí)庫(kù):讀取維基百科的分類信息,對(duì)文章標(biāo)題、消歧頁(yè)和重定向頁(yè)抽取關(guān)鍵詞、同義詞和相關(guān)詞,構(gòu)建包含類別、文章、關(guān)鍵詞詞表的跨語(yǔ)言語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu);步驟二、檢索相似英文文檔:在待審核的中文專利抽取中文關(guān)鍵詞,在跨語(yǔ)言知識(shí)庫(kù)中讀取其相關(guān)詞,并將多個(gè)中文關(guān)鍵詞及其相關(guān)詞組合拓展,形成多組中文查詢?cè)~,并翻譯成對(duì)應(yīng)的英文查詢?cè)~進(jìn)行檢索,得到多篇相似英文專利和相似英文文獻(xiàn);步驟三、新創(chuàng)性預(yù)判:對(duì)每一篇英文文檔抽取英文關(guān)鍵詞,基于矩陣相似度的統(tǒng)計(jì)算法,對(duì)待審核的中文專利和每一篇英文文檔作相似度計(jì)算,對(duì)待審核的中文專利進(jìn)行新創(chuàng)性預(yù)判,采用層次聚類構(gòu)建樹狀圖,輸出與待審核的中文專利最相似的一類英文文檔。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,對(duì)文章標(biāo)題、消歧頁(yè)和重定向頁(yè)抽取關(guān)鍵詞、同義詞和相關(guān)詞具體包括:在維基百科中搜索關(guān)鍵詞判斷是否為消歧頁(yè)或重定向頁(yè),如果為消歧頁(yè),抽取同類別的關(guān)鍵詞作相關(guān)詞;如果為重定向頁(yè),抽取近義詞作相關(guān)詞;如果不是消歧頁(yè)或重定向頁(yè),抽取詞條本身作關(guān)鍵詞,并通過詞頻統(tǒng)計(jì)、名稱術(shù)語(yǔ)、以及上下文特征提取的形式抽取相關(guān)詞。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,將多個(gè)中文關(guān)鍵詞及其相關(guān)詞組合拓展的具體方式為:將每個(gè)中文關(guān)鍵詞與其任一相關(guān)詞兩兩結(jié)合,形成多個(gè)中文詞對(duì),將至少兩個(gè)中文詞對(duì)分別組合,形成多組中文查詢?cè)~。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,還包括對(duì)抽取的相關(guān)詞進(jìn)行貢獻(xiàn)度計(jì)算,去除貢獻(xiàn)度低于預(yù)設(shè)閾值的相關(guān)詞,貢獻(xiàn)度通過計(jì)算概率得到。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟一中,還包括在維基百科讀取關(guān)鍵詞對(duì)應(yīng)的英文譯詞,并存儲(chǔ)在跨語(yǔ)言知識(shí)庫(kù)中;步驟二中,將中文查詢?cè)~翻譯成對(duì)應(yīng)的英文查詢?cè)~通過自動(dòng)查詢雙語(yǔ)詞典、Web資源、跨語(yǔ)言知識(shí)庫(kù)中的一種或多種實(shí)現(xiàn)。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟二中,在待審核的中文專利抽取中文關(guān)鍵詞是在名稱、摘要、權(quán)利要求書以及說明書四部分分別抽取,步驟三中,在英文專利抽取英文關(guān)鍵詞是在名稱、摘要、權(quán)利要求書以及說明書四部分分別抽取,在英文文獻(xiàn)抽取英文關(guān)鍵詞是在名稱、摘要兩部分抽取;在英文專利和英文文獻(xiàn)抽取英文關(guān)鍵詞通過詞頻統(tǒng)計(jì)、名稱術(shù)語(yǔ)、以及上下文特征提取的形式實(shí)現(xiàn)。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟三中,對(duì)待審核的中文專利和每一篇英文文檔作相似度計(jì)算是根據(jù)局部相似度和整體相似度線性加和得到,計(jì)算待審核的中文專利與相似英文專利中名稱、摘要、權(quán)利要求書以及說明書的局部相似度和全文的整體相似度,以及待審核的中文專利與相似英文文獻(xiàn)中名稱、摘要的局部相似度和全文的整體相似度;局部相似度和整體相似度是通過對(duì)中文關(guān)鍵詞、英文關(guān)鍵詞分別構(gòu)建特征向量,基于矩陣相似度的統(tǒng)計(jì)算法得到的。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,對(duì)待審核的中文專利進(jìn)行新創(chuàng)性預(yù)判的具體方法為:英文專利相似度公式為:Sim(C,ep(i+j))=λΣinsimpart(ci,epi)+(1-λ)Σinsimunity(ci,epi)]]>其中,ep代表英文專利,表示采用相似度公式計(jì)算得到的局部相似度,表示采用相似度公式計(jì)算得到的整體相似度;英文文獻(xiàn)相似度公式為:Sim(C,esi)=Σi=1nsimunity(ci,esi)]]>新創(chuàng)性預(yù)判公式為:Ni=1-max(si(n)),對(duì)所有的n<i,其中,Si(n)是第i個(gè)中文專利與其他n個(gè)相似英文專利或英文科技文獻(xiàn)的相似度。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟三中,在采用層次聚類構(gòu)建樹狀圖之前還包括:去除相似度低于預(yù)設(shè)閾值的英文文檔,得到近似英文文檔集合。優(yōu)選的是,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟三中,采用層次聚類構(gòu)建樹狀圖具體包括:將待審核的中文專利與近似英文文檔集合,將每一個(gè)近似英文文檔作為一個(gè)類別,構(gòu)建樹狀圖,計(jì)算任意兩個(gè)類別之間的距離,若k=1,尋找距離最小的兩個(gè)類別并合并,計(jì)算與其他類別之間的距離,并構(gòu)建新的樹狀圖,至k=n,輸出與待審核的中文專利最相似的一類文檔。本發(fā)明至少包括以下有益效果:本發(fā)明構(gòu)建構(gòu)建基于維基百科的跨語(yǔ)言知識(shí)庫(kù),形成關(guān)鍵詞、譯文、相關(guān)詞、文章、類別的映射關(guān)系,為后續(xù)研究作知識(shí)準(zhǔn)備,實(shí)現(xiàn)跨語(yǔ)言相似專利及文獻(xiàn)的檢索,基于單語(yǔ)言文本相似度計(jì)算的研究成果,從內(nèi)容和結(jié)構(gòu)上比較中英專利文本的異同,使用適當(dāng)?shù)男聞?chuàng)性度量模型和算法,做出專利是否具有新創(chuàng)性的預(yù)判,通過文本聚類把最相似的一類英文專利和文獻(xiàn)推薦給專利撰寫員或?qū)彶閱T,縮小人工檢索范圍,輔助專利撰寫員和審查員做出最終的新創(chuàng)性判定。本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對(duì)本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。附圖說明圖1為本發(fā)明的流程示意圖;圖2為本發(fā)明的中文關(guān)鍵詞的選擇和拓展示意圖;圖3為本發(fā)明所述中英文語(yǔ)義網(wǎng)絡(luò)的示意圖;圖4為本發(fā)明抽取相關(guān)詞的示意圖;圖5為本發(fā)明的相似度計(jì)算的流程圖;圖6為本發(fā)明對(duì)相似英文專利的局部比對(duì)示意圖;圖7為本發(fā)明對(duì)相似英文文獻(xiàn)的局部比對(duì)示意圖;圖8為本發(fā)明層次聚類的流程圖;圖9為本發(fā)明的框架圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。應(yīng)當(dāng)理解,本文所使用的諸如“具有”、“包含”以及“包括”術(shù)語(yǔ)并不配出一個(gè)或多個(gè)其它元件或其組合的存在或添加。如圖1、2、9所示,一種基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,包括:步驟一、讀取維基百科的分類信息,通過在關(guān)鍵詞界面、消歧頁(yè)或重定向頁(yè)抽取短語(yǔ),獲取詞條的至少一個(gè)相關(guān)詞,建立類別、文章、關(guān)鍵詞詞表之間的映射關(guān)系,構(gòu)建中文語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu);維基百科(Wikipedia)已成為互聯(lián)網(wǎng)上一個(gè)最大的最廣泛使用的免費(fèi)百科全書。它擁有數(shù)百萬的百科全書解釋頁(yè)面,按照概念分類和語(yǔ)義關(guān)系建立了分類索引,在解釋頁(yè)面之間添加了豐富的反映語(yǔ)義關(guān)系的引用鏈接,包含了豐富的中文和英文的語(yǔ)義知識(shí),還能同時(shí)查詢同義詞和近義詞,非常適合作為語(yǔ)義網(wǎng)絡(luò)構(gòu)建的知識(shí)源。根據(jù)專利分析的需要,本課題選取維基百科網(wǎng)中的分類圖(抽取分類信息)、文章標(biāo)題(抽取關(guān)鍵詞)、頁(yè)面重定向(抽取同義詞)、超鏈接(抽取語(yǔ)義網(wǎng)絡(luò)信息)等信息。構(gòu)建包含分類-文章-關(guān)鍵詞詞表的層次語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。步驟二、在待審核的中文專利的各部分通過詞頻統(tǒng)計(jì)、名稱術(shù)語(yǔ)、以及上下文特征提取的形式分別抽取至少一個(gè)中文關(guān)鍵詞,讀取每一個(gè)中文關(guān)鍵詞在跨語(yǔ)言知識(shí)庫(kù)中的相關(guān)詞,形成多個(gè)包括一個(gè)中文關(guān)鍵詞和相應(yīng)的中文相關(guān)詞的集合;中文專利的各部分的劃分可采取多種形式,可根據(jù)各文件(摘要、權(quán)利要求書、說明書)、各段落(每n個(gè)自然段)等。對(duì)待審核的中文專利,首先要抽取出代表該文檔內(nèi)容的查詢?cè)~,然后通過多種翻譯技術(shù)把查詢?cè)~翻譯成英文,最后用英文查詢?cè)~去圖書館搜索引擎檢索出相關(guān)的英文專利和相關(guān)科技文獻(xiàn)。專利與科技文獻(xiàn)是由術(shù)語(yǔ)、短語(yǔ)組成的,把它們作為最小的單位從文本中抽取出來是進(jìn)行后續(xù)研究的基礎(chǔ)。因此,中英文術(shù)語(yǔ)、多詞短語(yǔ)抽取的準(zhǔn)確性會(huì)對(duì)后續(xù)研究產(chǎn)生直接的影響。如圖2所示,從眾多的中文短語(yǔ)中選出能代表該專利內(nèi)容的查詢?cè)~,維基百科網(wǎng)中的文章按照分類進(jìn)行組織,每個(gè)分類下面有多篇文章,每篇文章中都有一個(gè)以標(biāo)題為主要關(guān)鍵詞的超鏈接文本和重定向頁(yè)面。圖3構(gòu)建的中英文語(yǔ)義網(wǎng)絡(luò)中,記錄每篇文章的所屬的分類,并分析其超鏈接文本和重定向文本,從中提取關(guān)鍵詞的相關(guān)詞。其中,根據(jù)中文關(guān)鍵詞的分類確定該中文關(guān)鍵詞的惟一分類的方法為:篩選具有惟一分類和至少一個(gè)分類的中文關(guān)鍵詞,將具有惟一分類的中文關(guān)鍵詞詞分為第一組,例如,將具有至少一個(gè)分類的中文關(guān)鍵詞分為第二組,統(tǒng)計(jì)第一組分類的總數(shù)與各分類的頻數(shù),并計(jì)算各分類的頻率,對(duì)第二組中的中文關(guān)鍵詞逐一歸類,若任一中文關(guān)鍵詞的多個(gè)分類落入第一組的分類中,取頻率高的分類為該中文關(guān)鍵詞的惟一分類,然后將該中文關(guān)鍵詞歸類至第一組,進(jìn)行下一個(gè)中文關(guān)鍵詞的歸類。例如,待審核的中文專利是一篇關(guān)于蘋果手機(jī)的專利,第一組的關(guān)鍵詞“iphone”落入惟一分類“手機(jī)”,“美國(guó)華盛頓郵報(bào)”落入惟一分類“媒體”,“手機(jī)”分類的頻率為0.6,“媒體”的分類頻率為0.08,此外,第二組的關(guān)鍵詞“蘋果”對(duì)應(yīng)“手機(jī)”“水果”“媒體”三個(gè)分類,第一組的分類中僅包括“手機(jī)”和“媒體”而不包括“水果”,且“手機(jī)”的頻率高于“媒體”,則判定“蘋果”的惟一分類為“手機(jī)”,然后歸入第一組,對(duì)下一個(gè)第二組的關(guān)鍵詞進(jìn)行歸類。步驟三、將每個(gè)第一集合中的中文關(guān)鍵詞與其任一中文相關(guān)詞兩兩結(jié)合,每個(gè)中文關(guān)鍵詞a0對(duì)應(yīng)至少一個(gè)中文相關(guān)詞a1、a2、a3…an等等,形成的中文詞對(duì)為a0+a1、a0+a2、a0+a3…a0+an,將至少兩個(gè)第一集合的中文詞對(duì)a0+a1、a0+a2、a0+a3…a0+an與b0+b1、b0+b2、b0+b3…b0+bn或c0+c1、c0+c2、c0+c3…c0+cn等等分別組合,形成多組中文查詢?cè)~;步驟四、將中文查詢?cè)~采用各種形式的工具翻譯成對(duì)應(yīng)的英文查詢?cè)~,對(duì)每一組英文查詢?cè)~自動(dòng)放入校圖書館的搜索引擎進(jìn)行檢索,得到多篇相似英文專利和相似英文文獻(xiàn);步驟五、在每一篇相似英文專利和相似英文文獻(xiàn)的各部分分別抽取至少一個(gè)英文關(guān)鍵詞;英文專利和英文文獻(xiàn)的各部分的劃分可采取多種形式,可根據(jù)各文件(摘要、權(quán)利要求書、說明書)、各段落(每n個(gè)自然段)等;步驟六、對(duì)待審核的中文專利的中文關(guān)鍵詞、任一相似英文專利或相似英文文獻(xiàn)的英文關(guān)鍵詞分別構(gòu)建特征向量,基于矩陣相似度的統(tǒng)計(jì)算法,計(jì)算待審核的中文專利與每一篇相似英文專利、相似英文文獻(xiàn)的各部分的,結(jié)合單語(yǔ)言文本相似度計(jì)算的研究成果,分析中英專利的結(jié)構(gòu)區(qū)別,從內(nèi)容和結(jié)構(gòu)上比較中英專利文本的異同,通過計(jì)算一個(gè)中文專利與英文專利及英文文獻(xiàn)的跨語(yǔ)言相似度來進(jìn)行量化,相似度越大,區(qū)別就越??;步驟七、取所有相似英文專利、相似英文文獻(xiàn)的相似度,對(duì)待審核的中文專利進(jìn)行新創(chuàng)預(yù)判,新創(chuàng)指數(shù)的高低代表對(duì)本篇待審核的中文專利的預(yù)判,收集相似度超過預(yù)設(shè)閾值的相似英文專利或相似英文文獻(xiàn),形成近似英文文檔集合;步驟八、將待審核的中文專利與近似英文文檔集合,采用層次聚類構(gòu)建樹狀圖,并輸出與待審核的中文專利最相似的一類文檔。在新創(chuàng)性預(yù)判的基礎(chǔ)上,通過文本聚類把最相似的一類英文專利和文獻(xiàn)推薦給專利撰寫員或?qū)彶閱T,既能提高效率,又能保證準(zhǔn)確率。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,如圖4所示,對(duì)文章標(biāo)題、消歧頁(yè)和重定向頁(yè)抽取關(guān)鍵詞、同義詞和相關(guān)詞具體包括:在維基百科中搜索關(guān)鍵詞判斷是否為消歧頁(yè)或重定向頁(yè),如果為消歧頁(yè),抽取同類別的關(guān)鍵詞作相關(guān)詞;如果為重定向頁(yè),抽取近義詞作相關(guān)詞;如果不是消歧頁(yè)或重定向頁(yè),抽取詞條本身作關(guān)鍵詞,并通過詞頻統(tǒng)計(jì)、名稱術(shù)語(yǔ)、以及上下文特征提取的形式抽取相關(guān)詞,上下文特征包括:分別讀取各段落詞條的前后單詞,如果前單詞或后單詞個(gè)數(shù)不超過1個(gè),抽取作相關(guān)詞;如果前單詞或后單詞個(gè)數(shù)大于1個(gè)不超過3個(gè),抽取N-gram特征詞作相關(guān)詞;如果前單詞或后單詞個(gè)數(shù)超過3個(gè),抽取前后各3個(gè)單詞并去除停用詞,作相關(guān)詞。統(tǒng)計(jì)的方法同樣是相似度計(jì)算的主流方法,使用的特征越多,對(duì)性能的提升會(huì)有幫助,因此本課題使用多種特征進(jìn)行相似度計(jì)算,特征提取包括:①本身特征:包括候選關(guān)鍵詞本身、詞性、命名實(shí)體識(shí)別;②語(yǔ)義特征:同義詞、相關(guān)詞、貢獻(xiàn)度、所屬類別等;③上下文特征:包括詞特征(候選關(guān)鍵詞的前三個(gè)單詞和后三個(gè)單詞(去除停用詞)、N元詞(N-Gram)特征(與候選關(guān)鍵詞距離不超過3的單詞序列中,提取N-gram特征)和位置特征(提取候選關(guān)鍵詞前一個(gè)單詞和后一個(gè)單詞)。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,將多個(gè)中文關(guān)鍵詞及其相關(guān)詞組合拓展的具體方式為:將每個(gè)中文關(guān)鍵詞與其任一相關(guān)詞兩兩結(jié)合,形成多個(gè)中文詞對(duì),將至少兩個(gè)中文詞對(duì)分別組合,形成多組中文查詢?cè)~。每個(gè)中文關(guān)鍵詞a0對(duì)應(yīng)至少一個(gè)中文相關(guān)詞a1、a2、a3…an等等,形成的中文詞對(duì)為a0+a1、a0+a2、a0+a3…a0+an,將至少兩個(gè)中文詞對(duì)a0+a1、a0+a2、a0+a3…a0+an與b0+b1、b0+b2、b0+b3…b0+bn或c0+c1、c0+c2、c0+c3…c0+cn等等分別組合,形成多組中文查詢?cè)~。將至少兩個(gè)中文詞對(duì)分別組合具體為:當(dāng)中文關(guān)鍵詞的個(gè)數(shù)≤3個(gè)時(shí),將每?jī)蓚€(gè)中文詞對(duì)分別組合;當(dāng)3<中文關(guān)鍵詞的個(gè)數(shù)≤5個(gè)時(shí),將每三個(gè)中文詞對(duì)分別組合;當(dāng)5<中文關(guān)鍵詞的個(gè)數(shù)≤8個(gè)時(shí),將四個(gè)中文詞對(duì)分別組合;當(dāng)中文關(guān)鍵詞的個(gè)數(shù)>8個(gè)時(shí),將五個(gè)中文詞對(duì)分別組合。例如,當(dāng)中文關(guān)鍵詞的個(gè)數(shù)為2個(gè)時(shí),分別為a0、b0,a0的中文詞對(duì)為a0+a1、a0+a2,a0+a3,b0的第一集合的中文詞對(duì)為b0+b1、b0+b2、b0+b3,形成的查詢?cè)~為[a0+a1、a0+a2、b0+b1、b0+b2]、[a0+a1、a0+a2、b0+b1、b0+b3]、[a0+a1、a0+a2、b0+b2、b0+b3]、[a0+a3、a0+a3、b0+b1、b0+b2]、[a0+a1、a0+a3、b0+b1、b0+b3]、[a0+a1、a0+a3、b0+b2、b0+b3]、[a0+a2、a0+a3、b0+b1、b0+b2]、[a0+a2、a0+a3、b0+b1、b0+b3]、[a0+a2、a0+a3、b0+b2、b0+b3]。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,還包括對(duì)抽取的相關(guān)詞進(jìn)行貢獻(xiàn)度計(jì)算,去除貢獻(xiàn)度低于預(yù)設(shè)閾值的相關(guān)詞,貢獻(xiàn)度通過計(jì)算概率得到。貢獻(xiàn)度為一個(gè)詞條對(duì)另一個(gè)詞條的出現(xiàn)有多大貢獻(xiàn),貢獻(xiàn)度通過計(jì)算概率得到如表1所示,去除貢獻(xiàn)度低于預(yù)設(shè)閾值的相關(guān)詞。表1中文詞條相關(guān)詞語(yǔ)及貢獻(xiàn)度英文詞條相關(guān)詞語(yǔ)及貢獻(xiàn)度類別古董考古(0.4),拍賣(0.34)antiquecurios(0.4),americana(0.67)藝術(shù)手機(jī)蘋果(0.2),移動(dòng)(0.75)cellphonemobilephone(0.4),call(0.76)技術(shù)其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟一中,還包括在維基百科讀取關(guān)鍵詞對(duì)應(yīng)的英文譯詞,并存儲(chǔ)在跨語(yǔ)言知識(shí)庫(kù)中;步驟二中,將中文查詢?cè)~翻譯成對(duì)應(yīng)的英文查詢?cè)~通過自動(dòng)查詢雙語(yǔ)詞典、Web資源、跨語(yǔ)言知識(shí)庫(kù)中的一種或多種實(shí)現(xiàn)。專利文本是結(jié)構(gòu)化的文本,其組成具有固定的結(jié)構(gòu)形式。雖然中英文專利的內(nèi)容在結(jié)構(gòu)安排的順序上略有不同,但不難根據(jù)關(guān)鍵詞找到相對(duì)應(yīng)的內(nèi)容。如果根據(jù)每個(gè)組成部分分別進(jìn)行中英比對(duì),針對(duì)性更強(qiáng),對(duì)新創(chuàng)性預(yù)判更加有利;但是,把整個(gè)文本分成不同的組成部分,各個(gè)組成部分段落較小,對(duì)上下文關(guān)聯(lián)的考慮不足。據(jù)此,本發(fā)明提出局部與整體相結(jié)合的比對(duì)策略。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟二中,在待審核的中文專利抽取中文關(guān)鍵詞是在名稱、摘要、權(quán)利要求書以及說明書四部分分別抽取,步驟三中,在英文專利抽取英文關(guān)鍵詞是在名稱、摘要、權(quán)利要求書以及說明書四部分分別抽取,在英文文獻(xiàn)抽取英文關(guān)鍵詞是在名稱、摘要兩部分抽取;在英文專利和英文文獻(xiàn)抽取英文關(guān)鍵詞通過詞頻統(tǒng)計(jì)、名稱術(shù)語(yǔ)、以及上下文特征提取的形式實(shí)現(xiàn)。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,如圖5所示,步驟三中,對(duì)待審核的中文專利和每一篇英文文檔作相似度計(jì)算是根據(jù)局部相似度和整體相似度線性加和得到,計(jì)算待審核的中文專利與相似英文專利中名稱、摘要、權(quán)利要求書以及說明書的局部相似度和全文的整體相似度,以及待審核的中文專利與相似英文文獻(xiàn)中名稱、摘要的局部相似度和全文的整體相似度;局部相似度和整體相似度是通過對(duì)中文關(guān)鍵詞、英文關(guān)鍵詞分別構(gòu)建特征向量,基于矩陣相似度的統(tǒng)計(jì)算法得到的。對(duì)于英文專利,如圖6所示,局部:把專利文本分成四個(gè)組成部份,對(duì)每個(gè)組成部分各自抽取術(shù)語(yǔ)和多詞短語(yǔ),并按中英文本分別存放;整體:把整個(gè)文檔看成一個(gè)整體,進(jìn)行術(shù)語(yǔ)、多詞短語(yǔ)抽取,把抽取結(jié)果單獨(dú)存放。局部與整體結(jié)合:在進(jìn)行中英專利、文獻(xiàn)比對(duì)時(shí),先對(duì)局部策略產(chǎn)生的結(jié)果進(jìn)行比對(duì),然后在結(jié)合整體抽取的結(jié)果進(jìn)行綜合考量。對(duì)于英文文獻(xiàn),如圖7所示,沒有專利文本中的“Description”(權(quán)利說明書)和“Claim”(權(quán)利要求書),只有“Title”(標(biāo)題)和“Abstract”(摘要)與中文專利具有對(duì)應(yīng)關(guān)系。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,對(duì)待審核的中文專利進(jìn)行新創(chuàng)性預(yù)判的具體方法為:對(duì)中文關(guān)鍵詞、英文關(guān)鍵詞分別構(gòu)建特征向量,形成N個(gè)樣本點(diǎn),生成N×N的相似度矩陣S,相似度公式為:矩陣S中的樣本點(diǎn)i和樣本點(diǎn)j的相似度dij:dij=Σk=1n(xik-xjk)2]]>其中,特征向量的維度為n,xik為樣本點(diǎn)i特征向量中的第k個(gè)特征值,xjk為樣本點(diǎn)j特征向量中的第k個(gè)特征值;英文專利相似度公式為:Sim(C,ep(i+j))=λΣinsimpart(ci,epi)+(1-λ)Σinsimunity(ci,epi)]]>其中,ep代表英文專利,表示采用相似度公式計(jì)算得到的局部相似度,表示采用相似度公式計(jì)算得到的整體相似度;英文文獻(xiàn)相似度公式為:Sim(C,esi)=Σi=1nsimunity(ci,esi)]]>新創(chuàng)性預(yù)判公式為:Ni=1-max(si(n)),對(duì)所有的n<i,其中,Si(n)是第i個(gè)中文專利與其他n個(gè)相似英文專利或英文科技文獻(xiàn)的相似度。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,步驟三中,在采用層次聚類構(gòu)建樹狀圖之前還包括:去除相似度低于預(yù)設(shè)閾值的英文文檔,得到近似英文文檔集合。其中,所述的基于語(yǔ)義的跨語(yǔ)言專利新創(chuàng)性預(yù)判分析方法,對(duì)于經(jīng)過預(yù)判具有新創(chuàng)性的中文發(fā)明專利,還需要進(jìn)行人工的驗(yàn)證。為了節(jié)省人工審查時(shí)間,本發(fā)明采用聚類方法把與欲審查專利最相似的一類英文文獻(xiàn)推薦給審查員,采用層次聚類模型和算法,使用跨語(yǔ)言語(yǔ)義網(wǎng)絡(luò)的語(yǔ)義知識(shí),實(shí)現(xiàn)跨語(yǔ)言文檔的聚類,如圖8所示,步驟三中,采用層次聚類構(gòu)建樹狀圖具體包括:將待審核的中文專利與近似英文文檔集合,將每一個(gè)近似英文文檔作為一個(gè)類別,構(gòu)建樹狀圖,計(jì)算任意兩個(gè)類別之間的距離,若k=1,尋找距離最小的兩個(gè)類別并合并,計(jì)算與其他類別之間的距離,并構(gòu)建新的樹狀圖,至k=n,輸出與待審核的中文專利最相似的一類文檔。名詞解釋:①新創(chuàng)性:對(duì)欲授權(quán)的發(fā)明專利,分析其技術(shù)是否原創(chuàng),是否符合專利法的新穎性和創(chuàng)造性的要求。②新穎性:對(duì)已授權(quán)的發(fā)明專利,分析其技術(shù)是否陳舊,是否值得購(gòu)買或使用。本發(fā)明從服務(wù)于我國(guó)專利撰寫和審查的需求角度出發(fā),選取了審查過程中較難的跨語(yǔ)言專利檢索及新創(chuàng)性審核部分,旨在通過相似專利的跨語(yǔ)言(中-英)智能檢索和深度對(duì)比分析,給出欲審查的中文發(fā)明專利是否具有新創(chuàng)性的預(yù)判。因?yàn)榘l(fā)明專利的主要內(nèi)容是文本描述,所以,本發(fā)明只做文本對(duì)比分析,不包含圖片的對(duì)比。本發(fā)明的主要研究?jī)?nèi)容包含如下幾個(gè)方面:(1)專利語(yǔ)義模型及不同語(yǔ)言描述的專利語(yǔ)義模型的映射與匹配技術(shù)研究專利的新創(chuàng)性判斷需要對(duì)文本進(jìn)行深層分析,除了采用常規(guī)的詞組、詞、詞性、概率等特征之外,還需使用語(yǔ)義知識(shí),以增強(qiáng)對(duì)比分析的準(zhǔn)確率。語(yǔ)義因?yàn)榘烁顚哟蔚闹R(shí),在數(shù)據(jù)挖掘領(lǐng)域被廣泛采用。近年來,互聯(lián)網(wǎng)日漸成為獲取大規(guī)模語(yǔ)料的重要途徑。維基百科(Wikipedia)已成為互聯(lián)網(wǎng)上一個(gè)最大的最廣泛使用的免費(fèi)百科全書。它擁有數(shù)百萬的百科全書解釋頁(yè)面,按照概念分類和語(yǔ)義關(guān)系建立了分類索引,在解釋頁(yè)面之間添加了豐富的反映語(yǔ)義關(guān)系的引用鏈接,包含了豐富的中文和英文的語(yǔ)義知識(shí),還能同時(shí)查詢同義詞和近義詞,非常適合作為語(yǔ)義網(wǎng)絡(luò)構(gòu)建的知識(shí)源。本發(fā)明將建立基于維基百科的跨語(yǔ)言語(yǔ)義知識(shí)網(wǎng)絡(luò),作為后續(xù)研究的知識(shí)準(zhǔn)備;在此基礎(chǔ)上,研究專利的語(yǔ)義模型及不同語(yǔ)言描述的專利語(yǔ)義模型的映射和匹配。(2)基于專利語(yǔ)義模型的跨語(yǔ)言(中-英)相似專利檢索技術(shù)研究專利新創(chuàng)性判斷需要與之前的所有相似文獻(xiàn)進(jìn)行比對(duì),首先需要檢索出和欲審核的中文專利相似的英文科技文獻(xiàn),檢索的準(zhǔn)確率和全面性將直接影響新創(chuàng)性判斷的正確與否。我們將在建立的跨語(yǔ)言語(yǔ)義網(wǎng)絡(luò)和專利語(yǔ)義模型的基礎(chǔ)上,實(shí)現(xiàn)跨語(yǔ)言相似專利及文獻(xiàn)的檢索。(3)基于專利語(yǔ)義相似性的跨語(yǔ)言(中-英)專利新創(chuàng)性預(yù)判跨語(yǔ)言專利文本的新創(chuàng)性分析在以往鮮有研究,跨語(yǔ)言專利文本相似度計(jì)算也沒有直接可參考的文獻(xiàn),我們結(jié)合單語(yǔ)言文本相似度計(jì)算的研究成果,分析中英專利的結(jié)構(gòu)區(qū)別,從內(nèi)容和結(jié)構(gòu)上比較中英專利文本的異同,使用適當(dāng)?shù)男聞?chuàng)性度量模型和算法,做出專利是否具有新創(chuàng)性的預(yù)判。(4)基于文本聚類的跨語(yǔ)言(中-英)相似專利及文獻(xiàn)的推薦發(fā)明專利新創(chuàng)性審核是一個(gè)復(fù)雜的過程,整個(gè)過程還需要人工的參與。智能分析與人工的結(jié)合,既能提高效率,又能保證準(zhǔn)確率。因此,本發(fā)明在新創(chuàng)性預(yù)判的基礎(chǔ)上,通過文本聚類把最相似的一類英文專利和文獻(xiàn)推薦給專利撰寫員或?qū)彶閱T,縮小人工檢索范圍,輔助專利撰寫員和審查員做出最終的新創(chuàng)性判定。這里說明的設(shè)備數(shù)量和處理規(guī)模是用來簡(jiǎn)化本發(fā)明的說明的。對(duì)本發(fā)明的應(yīng)用、修改和變化對(duì)本領(lǐng)域的技術(shù)人員來說是顯而易見的。盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。當(dāng)前第1頁(yè)1 2 3