一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)處理方法

文檔序號：6464159閱讀：236來源：國知局

專利名稱：一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)處理方法
技術領域：
本發(fā)明涉及一種數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)處理方法，特別是一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)及其方法。
技術背景人類的科學技術活動是離不開知識的借鑒，知識的傳承。目前一些科技資源數(shù)據(jù)庫包括國內(nèi)和國外的科技信息，這些資源對科技人員的科技活動起到了很大的幫助作用?？萍假Y源數(shù)據(jù)庫中的國外信息居多都是外文(英文)的，4艮少被翻譯成中文。雖然我國大部分科技人員或多或少的受到過英語教育，但是能流利的閱讀英文的人并不多。而且一般人都習慣用母語交流、閱讀，因此大多數(shù)科技人員在科研活動中希望能用中文信息。這樣國外科技信息若不漢化就會給使用者帶來語言障礙，使許多有價值的外國科技信息得不到有效利用。因此漢化的科技信息數(shù)據(jù)庫是市場上非常需要的。發(fā)明內(nèi)容為了解決上述現(xiàn)有技術中的問題，本發(fā)明提供一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)，該系統(tǒng)包括數(shù)據(jù)處理服務器、數(shù)據(jù)庫服務器、各國專利數(shù)據(jù)庫和相關信息數(shù)據(jù)庫，它們通過網(wǎng)絡互相聯(lián)通。各國專利數(shù)據(jù)庫和相關信息數(shù)據(jù)庫可以是本地的，也可以是網(wǎng)絡的。應用服務器包括采集模塊、聚類處理模塊、標記模塊、刪除模塊、翻譯模塊、標準化模塊、提取模塊和關聯(lián)模塊。采集模塊，用于采集各國專利數(shù)據(jù)，以及與各國專利相關的信息；聚類處理模塊，用于將各國專利的數(shù)據(jù)處理成專利族數(shù)據(jù)；標記模塊用于標記基本專利和英文專利；刪除才莫塊，用于刪除專利族記錄中無標記專利的部分內(nèi)容；翻譯模塊，用于將非中文的基本專利數(shù)據(jù)翻譯為中文；標準化模塊用于將非簡體中文的基本專利數(shù)據(jù)轉換為中文；提取模塊用于提取基本專利中的公司或申請人名；關聯(lián)模塊用于按照公司或申請人名，關聯(lián)聚類數(shù)據(jù)庫與關聯(lián)數(shù)據(jù)庫中的信息。數(shù)據(jù)庫服務器至少包含三個數(shù)據(jù)庫，一個是存儲著各國專利數(shù)據(jù)的原始信息庫，一個是存儲著專利族lt據(jù)的聚類數(shù)據(jù)庫，再一個是存儲著相關信息的關聯(lián)數(shù)據(jù)庫。本發(fā)明還提供一種漢化數(shù)據(jù)處理方法，該方法包括以下步驟1. 根據(jù)需要從各國專利數(shù)據(jù)庫中采集多個國家的專利數(shù)據(jù)，然后將它們存入各國專利數(shù)據(jù)庫。2. 按照優(yōu)先權信息，將各國專利數(shù)據(jù)中擁有相同優(yōu)先權的數(shù)據(jù)，聚類處理成專利族數(shù)據(jù)，然后將它們存入聚類數(shù)據(jù)庫。3. 根據(jù)事先確定的優(yōu)先順序，在每個專利族中，選擇基本專利，并將每個基本專利打上標記。該優(yōu)先順序為中國、臺灣地區(qū)、香港地區(qū)、美國、英國、歐洲、國際、日本、德國、法國、俄國。4. 根據(jù)事先確定的優(yōu)先順序，將每個專利族中的一件英文數(shù)據(jù)打上標記，標記英文翁:據(jù)的優(yōu)先順序為歐洲(國際)、美國、英國、澳大利亞、加拿大、南非。5. 將既不是基本專利又不是英文專利的專利族成員的申請信息、公布信息和國別信息保留，其余信息刪除。6. 從基本專利中篩選出非中文數(shù)據(jù)進行翻譯，并人工校對。7. 從基本專利中篩選出非簡體中文的數(shù)據(jù)進行簡體中文的轉換。8. 將基本專利中的公司或申請人名提取出來，并按照這些公司或申請人名在相關信息數(shù)據(jù)庫中下載相關信息，存入關聯(lián)數(shù)據(jù)庫。9. 將聚類數(shù)據(jù)庫中的信息與關聯(lián)數(shù)據(jù)庫中的信息，按照公司或申請人名關聯(lián)起來。本發(fā)明將各個國家、地區(qū)的專利信息資源整合在一起，并將其全部漢化，可以克服國內(nèi)使用者使用國外專利信息時遇到的語言障礙，從而讓國內(nèi)使用者終達到充分開發(fā)利用中國專利信息的目的。

圖1為本發(fā)明的系統(tǒng)硬件結構2為本發(fā)明的應用服務器的功能模塊圖圖3為本發(fā)明的數(shù)據(jù)處理方法的工作流程圖具體實施方式
如圖1、 2所示，本發(fā)明的系統(tǒng)包括數(shù)據(jù)處理服務器11，數(shù)據(jù)庫服務器12，各國專利數(shù)據(jù)庫13和相關信息數(shù)據(jù)庫14，它們通過網(wǎng)絡15連接起來。由于漢化的各國專利數(shù)據(jù)庫應該包括中國、美國、日本、歐洲、國際等的專利信息，而且應該將這些多種文字的專利信息全部中文化，因此，數(shù)據(jù)處理服務器11包括采集模塊111、聚類處理模塊112、標記模塊113、刪除模塊114、翻譯模塊115、標準化模塊116、提取模塊117和關聯(lián)模塊118，它們用于處理各種專利信息和相關信息。數(shù)據(jù)庫服務器包括三個數(shù)據(jù)庫原始信息庫，用于存儲采集的各國專利數(shù) 據(jù)；聚類數(shù)據(jù)庫，存儲著經(jīng)過聚類處理的、以特定國家專利為基本專利的專利族數(shù)據(jù)，這些數(shù)據(jù)最后全部被處理成為簡體中文文字的數(shù)據(jù)；關聯(lián)數(shù)據(jù)庫，用于存儲從相關信息數(shù)據(jù)庫14提取出的、與聚類數(shù)據(jù)庫中的公司或個體申請人對應的相關信息。參加圖2、 3,本發(fā)明的數(shù)據(jù)處理方法的較佳實施例包括以下步驟步驟SIOO，采集模塊111從各個國家或國際組織的專利數(shù)據(jù)庫中，將它們的專利數(shù)據(jù)下載下來，這些國家或國際組織的范圍包括美國、日本、歐洲、國際、英、法、德、俄等。這些國家或組織的專利數(shù)據(jù)庫可以是本地的，也可以是互聯(lián)網(wǎng)上的；下載完成后將這些專利數(shù)據(jù)存入原始專利數(shù)據(jù)庫。步驟SllO，聚類處理模塊112按照各個國家或國際組織專利數(shù)據(jù)中的優(yōu)先權信息，即優(yōu)先申請?zhí)枴?yōu)先申請國別和優(yōu)先申請日期，對各個國家或國際組織專利數(shù)據(jù)進行聚類處理，將各國專利數(shù)據(jù)中擁有相同優(yōu)先權的專利數(shù)據(jù)聚在一起，組成專利族數(shù)據(jù)。在這些數(shù)據(jù)中，每個專利族數(shù)據(jù)為一條記錄，因此一條記錄中包含多個不同國家的專利信息。聚類處理完成后，將這些專利族數(shù)據(jù) 存入聚類數(shù)據(jù)庫。步驟S120,由于每條專利族數(shù)據(jù)記錄中包含的多個不同國家的專利信息是相同的內(nèi)容，因此要在其中選擇一件專利作為基本專利，然后給它打上標記，這樣按照基本信息檢索，可以減少數(shù)據(jù)庫中的冗余信息?；緦＠倪x擇是按照不同國家或組織的優(yōu)先順序進行的，優(yōu)先順序為中國、臺灣地區(qū)、香港地區(qū)、美國、英國、歐洲、國際、日本、德國、法國、俄國。例如在一個專利族記錄中，有若干國家的專利數(shù)據(jù)，先判斷是否有中文的，若有，將此專利數(shù)據(jù) 作上標記；若無，再判斷是否有美國的，若有，將此專利數(shù)據(jù)做上標記，以此類推。步驟S130,為了進行中英文對照瀏覽專利信息，在每個專利族記錄中，選擇一件英文專利，然后為它作個標記。標記英文專利也要有優(yōu)先順序，該優(yōu)先順序為EP(W0)、 US、 GB、 AU、 CA、 ZA。如果基本專利是英文的，則無需選擇其他英文數(shù)據(jù)。步驟S140,為了消除冗余信息，對于專利族中既沒有基本專利標記又沒有英文專利標記的數(shù)據(jù)，只保留申請信息，公布信息和國別信息，其余內(nèi)容全部刪除。這樣，每條專利族記錄中僅包括一個中文專利數(shù)據(jù)，或/和一個英文專利，以及其他專利的申請，公布和國別信息。步驟S150,由于基本專利是多種文字的，例如英文、日文、德文等，因此要漢化非中文基本專利；通過翻譯模塊115從基本專利中選擇出非中文的數(shù)據(jù)，并將其通過軟件自動翻譯為中文。由于翻譯軟件的智能化程度無法與人腦相比，因此由軟件翻譯的數(shù)據(jù)還要經(jīng)過人工校對的程序校對。非中文數(shù)據(jù)在進行語言翻譯時，只針對其題目文摘等文字內(nèi)容進行翻譯，其余內(nèi)容均不變化。步驟S160,在中文的基本專利數(shù)據(jù)中，包括一些非簡體中文的數(shù)據(jù)如臺灣、香港地區(qū)的專利數(shù)據(jù)，因此要通過標準化模塊116將非簡體中文的基本專利數(shù) 據(jù)選擇出來，并將它們轉換為簡體中文。步驟S170，提取模塊117從聚類數(shù)據(jù)庫中提取基本專利中的公司或申請人信息，并去除重復內(nèi)容后，存入關聯(lián)數(shù)據(jù)庫。從相關信息數(shù)據(jù)庫中采集的數(shù)據(jù) 包括各種類型的科技、經(jīng)濟等信息，例如科技期刊中的、科技圖書中的、標準中的、海關數(shù)據(jù)庫中的信息等，而且這些信息只限于中文的。步驟S180,最后關聯(lián)模塊118按照公司或申請人名，將聚類數(shù)據(jù)庫中的信息和相關信息數(shù)據(jù)庫中的信息關聯(lián)起來，成為包括一些科技、經(jīng)濟信息的漢化世界專利數(shù)據(jù)庫。該庫中的信息即可通過計算機提供用戶使用。
權利要求
1.一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)，其特征在于它包括數(shù)據(jù)處理服務器、數(shù)據(jù)庫服務器、各國專利數(shù)據(jù)庫和相關信息數(shù)據(jù)庫，它們通過通訊網(wǎng)絡連接；應用服務器包括采集模塊，用于采集各國專利數(shù)據(jù)，以及與各國專利相關的信息；聚類處理模塊，用于將各國專利的數(shù)據(jù)處理成專利族數(shù)據(jù)；標記模塊用于標記基本專利和英文專利；刪除模塊，用于刪除專利族記錄中無標記專利的部分內(nèi)容；翻譯模塊，用于將非中文的基本專利數(shù)據(jù)翻譯為中文；標準化模塊用于將非簡體中文的基本專利數(shù)據(jù)轉換為中文；提取模塊用于提取基本專利中的公司或申請人名；關聯(lián)模塊用于按照公司或申請人名，關聯(lián)聚類數(shù)據(jù)庫與關聯(lián)數(shù)據(jù)庫中的信息；數(shù)據(jù)庫服務器至少包含三個數(shù)據(jù)庫，一個是存儲著各國專利數(shù)據(jù)的原始信息庫，一個是存儲著專利族數(shù)據(jù)的聚類數(shù)據(jù)庫，再一個是存儲著相關信息的關聯(lián)數(shù)據(jù)庫。
2. —種漢化數(shù)據(jù)處理方法，該方法包括以下步驟1) 根據(jù)需要從各國專利數(shù)據(jù)庫中采集多個國家的專利數(shù)據(jù)，然后將它們存入各國專利數(shù)據(jù)庫；2) 按照優(yōu)先權信息，將各國專利數(shù)據(jù)中擁有相同優(yōu)先權的數(shù)據(jù)，聚類處理成專利族數(shù)據(jù)，然后將它們存入聚類數(shù)據(jù)庫；3) 根據(jù)事先確定的優(yōu)先順序，在每個專利族中，選擇基本專利，并將每個基本專利打上標記；4) 根據(jù)事先確定的優(yōu)先順序，將每個專利族中的一件英文數(shù)據(jù)打上標記；5) 將既不是基本專利又不是英文專利的專利族成員的申請信息、公布信息和國別信息保留，其余信息刪除；6) 從基本專利中篩選出非中文數(shù)據(jù)進行翻譯，并人工校對；7) 從基不卞刑甲!M8) 將基本專利中的公司或申請人名提取出來，并按照這些公司或申請人名在相關信息數(shù)據(jù)庫中下載相關信息，存入關聯(lián)數(shù)據(jù)庫；9) 將聚類數(shù)據(jù)庫中的信息與關聯(lián)數(shù)據(jù)庫中的信息，按照公司或申請人名關聯(lián)起來。
3. 根據(jù)權利要求2所述的方法，其特征在于標記基本專利的優(yōu)先順序為中國、臺灣地區(qū)、香港地區(qū)、美國、英國、歐洲、國際、日本、德國、法國、俄國。
4. 根據(jù)權利要求2所述的方法，其特征在于標記英文數(shù)據(jù)的優(yōu)先順序為歐洲(國際)、美國、英國、澳大利亞、加拿大、南非。
全文摘要
本發(fā)明提供一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)，該系統(tǒng)包括數(shù)據(jù)處理服務器、數(shù)據(jù)庫服務器、各國專利數(shù)據(jù)庫和相關信息數(shù)據(jù)庫，它們通過網(wǎng)絡互相聯(lián)通。應用服務器包括采集模塊、聚類處理模塊、標記模塊、刪除模塊、翻譯模塊、標準化模塊、提取模塊和關聯(lián)模塊。數(shù)據(jù)庫服務器包括存儲著各國專利數(shù)據(jù)的原始信息庫，存儲著專利族數(shù)據(jù)的聚類數(shù)據(jù)庫，和存儲著相關信息的關聯(lián)數(shù)據(jù)庫。本發(fā)明將各個國家、地區(qū)的專利信息資源整合在一起，并將其全部漢化，可以克服國內(nèi)使用者使用國外專利信息時遇到的語言障礙，從而讓國內(nèi)使用者能夠充分利用以及挖掘國外專利信息，同時提高國內(nèi)專利信息資源實用性，最終達到充分開發(fā)利用中國專利信息的目的。
文檔編號G06F17/30GK101593192SQ20081011299
公開日2009年12月2日申請日期2008年5月27日優(yōu)先權日2008年5月27日
發(fā)明者嚴薈煌, 劉玉純, 冉張申請人:北京六所和瑞科技發(fā)展有限公司;劉玉純

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉玉純;張冉;嚴薈煌
技術所有人：北京六所和瑞科技發(fā)展有限公司;劉玉純
我是此專利的發(fā)明人

上一篇：Gpu加速的輪廓區(qū)毛發(fā)狀圖形繪制方法
上一篇：基于.Net虛擬機的軟件保護系統(tǒng)和方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)庫臟數(shù)據(jù)處理相關技術

數(shù)據(jù)庫與數(shù)據(jù)處理相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種漢化的世界專利數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)處理方法