本發(fā)明涉及檢索領(lǐng)域,具體而言,涉及一種專利文件檢索方法、裝置和系統(tǒng)。
背景技術(shù):
專利申請(qǐng)文件中包含大量的信息,使得專利檢索成為研發(fā)人員獲取參考資料的重要途徑,通過專利檢索可以了解相關(guān)技術(shù)的發(fā)展?fàn)顩r,掌握技術(shù)發(fā)展的趨勢(shì),避免重復(fù)研發(fā),同時(shí),如果需要完成專利申請(qǐng)文件撰寫,也可以檢索之前的專利申請(qǐng)作為參考。
然而,現(xiàn)有的專利檢索系統(tǒng)中,通常會(huì)給出申請(qǐng)日、題目、分類號(hào)、摘要、發(fā)明人等作為檢索入口,僅僅依靠檢索系統(tǒng)所給出的檢索入口,很難滿足用戶的多種需求。發(fā)明人發(fā)現(xiàn),由于申請(qǐng)文件具有相對(duì)固定的文本格式,現(xiàn)有的專利檢索系統(tǒng)還無(wú)法對(duì)專利文件的各部分進(jìn)行檢索,導(dǎo)致檢索結(jié)果不準(zhǔn)確,進(jìn)而導(dǎo)致對(duì)專利數(shù)據(jù)分析不準(zhǔn)確。
針對(duì)現(xiàn)有的專利檢索系統(tǒng)無(wú)法針對(duì)專利文件的各部分內(nèi)容進(jìn)行檢索的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種專利文件檢索方法、裝置和系統(tǒng),以至少解決現(xiàn)有的專利檢索系統(tǒng)無(wú)法針對(duì)專利文件的各部分內(nèi)容進(jìn)行檢索的技術(shù)問題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種專利文件檢索方法,包括:實(shí)時(shí)獲取檢索對(duì)象,所述檢索對(duì)象為用戶輸入的檢索詞或者檢索語(yǔ)段的全部?jī)?nèi)容或者所述檢索語(yǔ)段的部分內(nèi)容;確定所述檢索對(duì)象所在的當(dāng)前位置,所述當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,所述多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng);基于所述檢索對(duì)象檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述檢索對(duì)象的專利文件;以及實(shí)時(shí)顯示檢索到的專利文件。
進(jìn)一步地,在實(shí)時(shí)顯示檢索到的專利文件之后,所述方法還包括:接收用戶輸入的刪選命令,所述刪選命令用于對(duì)顯示的專利文件進(jìn)行刪選;以及基于所述刪選命令 顯示刪選后的專利文件。
進(jìn)一步地,在實(shí)時(shí)獲取檢索對(duì)象之前,所述方法還包括:獲取數(shù)據(jù)庫(kù)中的專利申請(qǐng)文件;根據(jù)專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)對(duì)獲取的專利申請(qǐng)文件進(jìn)行拆分,得到所述多個(gè)內(nèi)容模塊;對(duì)拆分得到的多個(gè)內(nèi)容模塊進(jìn)行標(biāo)識(shí);以及將標(biāo)識(shí)后的多個(gè)內(nèi)容模塊保存到所述數(shù)據(jù)庫(kù)中。
進(jìn)一步地,實(shí)時(shí)獲取檢索對(duì)象包括:獲取用戶輸入的檢索內(nèi)容;將所述用戶輸入的檢索內(nèi)容的全部?jī)?nèi)容作為所述檢索對(duì)象,或者,讀取用戶從所述檢索內(nèi)容中選定的部分內(nèi)容,將選定的部分內(nèi)容作為所述檢索對(duì)象。
進(jìn)一步地,在實(shí)時(shí)獲取檢索對(duì)象之后,所述方法還包括:對(duì)所述檢索對(duì)象進(jìn)行分詞處理,得到分詞列表;從所述分詞列表中剔除停用詞,其中,基于所述檢索對(duì)象檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述檢索對(duì)象的專利文件包括:基于剔除停用詞后的分詞列表檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述剔除停用詞后的分詞列表的詞語(yǔ)的專利文件。
進(jìn)一步地,在從所述分詞列表中剔除停用詞之后,所述方法還包括:根據(jù)剔除停用詞后的分詞列表中的詞的數(shù)量和每個(gè)詞出現(xiàn)的次數(shù)計(jì)算每個(gè)詞的權(quán)重;根據(jù)計(jì)算得到的每個(gè)詞的權(quán)重從所述剔除停用詞后的分詞列表中選擇用于檢索的詞語(yǔ),其中,基于所述檢索對(duì)象檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述檢索對(duì)象的專利文件包括:基于選擇的詞語(yǔ)檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含有所述選擇的詞語(yǔ)的專利文件。
根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種專利文件檢索裝置,包括:第一獲取單元,用于實(shí)時(shí)獲取檢索對(duì)象,所述檢索對(duì)象為用戶輸入的檢索詞或者檢索語(yǔ)段的全部?jī)?nèi)容或者所述檢索語(yǔ)段的部分內(nèi)容;確定單元,用于確定所述檢索對(duì)象所在的當(dāng)前位置,所述當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,所述多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng);檢索單元,用于基于所述檢索對(duì)象檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述檢索對(duì)象的專利文件;以及顯示單元,用于實(shí)時(shí)顯示檢索到的專利文件。
進(jìn)一步地,所述裝置還包括:接收單元,用于在實(shí)時(shí)顯示檢索到的專利文件之后,接收用戶輸入的刪選命令,所述刪選命令用于對(duì)顯示的專利文件進(jìn)行刪選;所述顯示單元還用于基于所述刪選命令顯示刪選后的專利文件。
進(jìn)一步地,所述裝置還包括:第二獲取單元,用于在實(shí)時(shí)獲取檢索對(duì)象之前,獲取數(shù)據(jù)庫(kù)中的專利申請(qǐng)文件;拆分單元,用于根據(jù)專利申請(qǐng)文件的文本內(nèi)容的組成結(jié) 構(gòu)對(duì)獲取的專利申請(qǐng)文件進(jìn)行拆分,得到所述多個(gè)內(nèi)容模塊;標(biāo)識(shí)單元,用于對(duì)拆分得到的多個(gè)內(nèi)容模塊進(jìn)行標(biāo)識(shí);以及存儲(chǔ)單元,用于將標(biāo)識(shí)后的多個(gè)內(nèi)容模塊保存到所述數(shù)據(jù)庫(kù)中。
進(jìn)一步地,所述第一獲取單元包括:獲取模塊,用于獲取用戶輸入的檢索內(nèi)容;確定模塊,用于將所述用戶輸入的檢索內(nèi)容的全部?jī)?nèi)容作為所述檢索對(duì)象,或者,讀取用戶從所述檢索內(nèi)容中選定的部分內(nèi)容,將選定的部分內(nèi)容作為所述檢索對(duì)象。
進(jìn)一步地,所述裝置還包括:分詞單元,用于在實(shí)時(shí)獲取檢索對(duì)象之后,對(duì)所述檢索對(duì)象進(jìn)行分詞處理,得到分詞列表;剔除單元,用于從所述分詞列表中剔除停用詞,其中,所述檢索單元包括:第一檢索模塊,用于基于剔除停用詞后的分詞列表檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述剔除停用詞后的分詞列表的詞語(yǔ)的專利文件。
進(jìn)一步地,所述裝置還包括:計(jì)算單元,用于在從所述分詞列表中剔除停用詞之后,根據(jù)剔除停用詞后的分詞列表中的詞的數(shù)量和每個(gè)詞出現(xiàn)的次數(shù)計(jì)算每個(gè)詞的權(quán)重;選擇單元,用于根據(jù)計(jì)算得到的每個(gè)詞的權(quán)重從所述剔除停用詞后的分詞列表中選擇用于檢索的詞語(yǔ),其中,所述檢索單元包括:第二檢索模塊,用于基于選擇的詞語(yǔ)檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含有所述選擇的詞語(yǔ)的專利文件。
根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種專利文件檢索系統(tǒng),包括:模塊化數(shù)據(jù)庫(kù),用于切分專利文本中的內(nèi)容并進(jìn)行模塊化存儲(chǔ);詞匯抽取模塊,用于獲取用戶輸入的檢索內(nèi)容,并實(shí)時(shí)獲取所述檢索內(nèi)容中的檢索對(duì)象;檢索模塊,用于確定所述檢索對(duì)象所在的當(dāng)前位置,并基于所述檢索對(duì)象從所述模塊化數(shù)據(jù)中檢索所述當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含所述檢索對(duì)象的專利文件所述當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,所述多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng);以及顯示模塊,用于實(shí)時(shí)顯示檢索到的專利文件。
在本發(fā)明實(shí)施例中,通過接收檢索請(qǐng)求,檢索請(qǐng)求用于請(qǐng)求對(duì)檢索對(duì)象進(jìn)行檢索;實(shí)時(shí)獲取檢索對(duì)象,檢索對(duì)象為用戶輸入的檢索詞或者檢索語(yǔ)段的全部?jī)?nèi)容或者檢索語(yǔ)段的部分內(nèi)容;確定檢索對(duì)象所在的當(dāng)前位置,當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng);基于檢索對(duì)象檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含檢索對(duì)象的專利文件;實(shí)時(shí)顯示檢索到的專利文件,解決了現(xiàn)有的專利檢索系統(tǒng)無(wú)法針對(duì)專利文件的各部分內(nèi)容進(jìn)行檢索的技術(shù)問題,達(dá)到了針對(duì)專利文件的各部分進(jìn)行檢索的效果。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實(shí)施例的專利文件檢索方法的流程圖;
圖2是根據(jù)本發(fā)明實(shí)施例的專利文件檢索裝置的示意圖;以及
圖3是根據(jù)本發(fā)明實(shí)施例的專利文件檢索系統(tǒng)的示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
需要說(shuō)明的是,本發(fā)明的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
根據(jù)本發(fā)明實(shí)施例,提供了一種專利文件檢索的方法實(shí)施例,需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本發(fā)明實(shí)施例的專利文件檢索方法的流程圖。如圖1所示,該方法包括如下步驟:
步驟S102,實(shí)時(shí)獲取檢索對(duì)象。檢索對(duì)象為用戶輸入的檢索詞或者檢索語(yǔ)段的全部?jī)?nèi)容或者檢索語(yǔ)段的部分內(nèi)容。
檢索對(duì)象可以是用戶通過檢索系統(tǒng)提供的輸入框輸入的檢索詞,也可以是用戶輸 入的一段檢索語(yǔ)段,或者是用戶輸入的一段檢索語(yǔ)段中的部分內(nèi)容,即,用戶輸入檢索內(nèi)容可以是一個(gè)或多個(gè)關(guān)鍵詞,也可以是一個(gè)句子或多個(gè)句子,也可以是一個(gè)或多個(gè)段落。用戶通過終端輸入相關(guān)檢索內(nèi)容并確定檢索對(duì)象后,檢索系統(tǒng)實(shí)時(shí)獲取檢索對(duì)象,用以啟動(dòng)相應(yīng)的檢索。具體地,實(shí)時(shí)獲取檢索對(duì)象可以是按照一定的周期從檢索內(nèi)容輸入框中獲取檢索對(duì)象。當(dāng)然,在獲取到檢索對(duì)象之后,還可以將該詞獲取到的對(duì)象與上一次獲取到的檢索對(duì)象進(jìn)行對(duì)比,如果二者不相同,則重新檢索,如果相同,則暫不進(jìn)行檢索,并重新獲取檢索對(duì)象。
步驟S104,確定檢索對(duì)象所在的當(dāng)前位置。當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng)。
檢索系統(tǒng)在獲取到檢索對(duì)象之后,確定該檢索對(duì)象輸入的當(dāng)前位置。在本發(fā)明實(shí)施例中,預(yù)先設(shè)置有多個(gè)預(yù)設(shè)模塊位置,該多個(gè)預(yù)設(shè)模塊位置分別對(duì)應(yīng)于專利申請(qǐng)文件的文本內(nèi)容的各個(gè)組成部分,由于專利申請(qǐng)文件的文本內(nèi)容具有相對(duì)固定的格式,例如,獨(dú)立權(quán)利要求、從屬權(quán)利要求、說(shuō)明書題目、背景技術(shù)、技術(shù)領(lǐng)域、發(fā)明內(nèi)容、實(shí)施方式等等的內(nèi)容模塊,對(duì)于不同的內(nèi)容模塊,提供不同的檢索入口,這樣,當(dāng)用戶需要檢索專利申請(qǐng)文件的文本內(nèi)容的某個(gè)內(nèi)容模塊時(shí),可以在相應(yīng)的檢索入口輸入檢索對(duì)象,從而檢索出想要的內(nèi)容。
步驟S106,基于檢索對(duì)象檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含檢索對(duì)象的專利文件。
在獲取到檢索對(duì)象并確定出檢索對(duì)象的當(dāng)前位置后,則可以根據(jù)檢索對(duì)象及其當(dāng)前位置從數(shù)據(jù)庫(kù)中檢索出在當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含上述檢索對(duì)象的專利文件。例如,當(dāng)用戶在獨(dú)立權(quán)利中檢索時(shí),可以將檢索詞或者檢索語(yǔ)段輸入在獨(dú)立權(quán)利的位置上(也可以先輸入內(nèi)容,再選擇希望檢索的位置),當(dāng)用戶在背景技術(shù)中對(duì)檢索詞或者檢索語(yǔ)段進(jìn)行檢索時(shí),可以將檢索詞或者檢索語(yǔ)段輸入在背景技術(shù)中,以此類推,需要在其他模塊檢索時(shí)類似。
步驟S108,實(shí)時(shí)顯示檢索到的專利文件。
在檢索到專利文件之后,將檢索到的專利文件實(shí)時(shí)顯示出來(lái)。具體地,可以將檢索對(duì)象所在的內(nèi)容模塊顯示在當(dāng)前可見區(qū)域,并將檢索到的專利文件中的檢索對(duì)象高亮顯示。本發(fā)明實(shí)施例中,通過實(shí)時(shí)獲取檢索對(duì)象,并實(shí)時(shí)將檢索到的專利文件顯示出來(lái),從而可以方便用于對(duì)檢索對(duì)象進(jìn)行調(diào)整。
原有的檢索系統(tǒng)中,檢索入口有很多個(gè),但一般都是將檢索入口設(shè)定為申請(qǐng)日、 公開日、題目,分類號(hào)、申請(qǐng)人、代理機(jī)構(gòu)、全文等。檢索入口沒有按照固定的文本格式來(lái)劃分,不能精確地對(duì)文本的特定位置進(jìn)行檢索,在用戶需要對(duì)具體的位置進(jìn)行檢索時(shí),無(wú)法滿足用戶需求,導(dǎo)致檢索效率低。本發(fā)明實(shí)施例中,通過獲取檢索對(duì)象并確定檢索對(duì)象所在的當(dāng)前位置,從而可以利用檢索對(duì)象及其當(dāng)前位置由該當(dāng)前位置所對(duì)應(yīng)的內(nèi)容模塊來(lái)進(jìn)行專利文件檢索,精確地定位用戶所要檢索的專利文件的具體位置,解決了現(xiàn)有的專利檢索系統(tǒng)無(wú)法針對(duì)專利文件的各部分內(nèi)容進(jìn)行檢索的問題,達(dá)到了針對(duì)專利文件的各部分進(jìn)行檢索的效果。
優(yōu)選地,在實(shí)時(shí)顯示檢索到的專利文件之后,方法還包括:接收用戶輸入的刪選命令,刪選命令用于對(duì)顯示的專利文件進(jìn)行刪選;以及基于刪選命令顯示刪選后的專利文件。
刪選命令為用于對(duì)專利文件進(jìn)行刪選的命令,該刪選命令可以由用戶向檢索系統(tǒng)發(fā)起,例如,在顯示界面上顯示有專利文件,并且每個(gè)專利文件都對(duì)應(yīng)有一個(gè)刪除功能的圖標(biāo),用于可以通過點(diǎn)擊該圖標(biāo)以發(fā)送刪選命令,從而刪除相應(yīng)的專利文件,刪除后的專利文件則不再顯示。
具體地,本發(fā)明實(shí)施例中,通過實(shí)時(shí)獲取檢索對(duì)象,利用實(shí)時(shí)獲取的檢索對(duì)象進(jìn)行檢索,并實(shí)時(shí)顯示檢索到的專利文件,這樣,用戶可以根據(jù)實(shí)時(shí)顯示的專利文件調(diào)檢索對(duì)象,和/或,對(duì)檢索到的專利文件進(jìn)行刪選,即,輸入相應(yīng)的刪選命令,通過不斷調(diào)整檢索結(jié)果,從而使得檢索結(jié)果更加準(zhǔn)確。
優(yōu)選地,在實(shí)時(shí)獲取檢索對(duì)象之前,方法還包括:獲取數(shù)據(jù)庫(kù)中的專利申請(qǐng)文件;根據(jù)專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)對(duì)獲取的專利申請(qǐng)文件進(jìn)行拆分,得到多個(gè)內(nèi)容模塊;對(duì)拆分得到的多個(gè)內(nèi)容模塊進(jìn)行標(biāo)識(shí);以及將標(biāo)識(shí)后的多個(gè)內(nèi)容模塊保存到數(shù)據(jù)庫(kù)中。
本發(fā)明實(shí)施例所提供的檢索系統(tǒng),在提供檢索服務(wù)之間可以先建立模塊化數(shù)據(jù)庫(kù),具體地,可以是對(duì)數(shù)據(jù)庫(kù)中的專利申請(qǐng)文件進(jìn)行拆分。根據(jù)文件的組成結(jié)構(gòu),例如專利申請(qǐng)文件中,按照說(shuō)明書的題目、背景技術(shù)、技術(shù)領(lǐng)域、發(fā)明內(nèi)容、實(shí)施方式等,將每件專利文本進(jìn)行拆分和標(biāo)識(shí),并保存在數(shù)據(jù)庫(kù)中。按照權(quán)利要求書的一般撰寫模式,將權(quán)利要求拆分成獨(dú)立權(quán)利要求及其從屬權(quán)利要求,并進(jìn)行標(biāo)識(shí)。
通過對(duì)專利文件的拆分和標(biāo)識(shí),從而提供對(duì)專利文件各部分內(nèi)容進(jìn)行檢索的基礎(chǔ),用戶則可以針對(duì)專利文件的各部分進(jìn)行檢索。例如,用戶可以限定在獨(dú)立權(quán)利要求范圍內(nèi)進(jìn)行檢索,也可以限定在發(fā)明內(nèi)容或者實(shí)施方式等部分檢索,按照用戶需求不同,可以選擇不同的模塊進(jìn)行檢索。當(dāng)然,本發(fā)明實(shí)施例的檢索系統(tǒng)還可以根據(jù)專利類型 進(jìn)行劃分。
優(yōu)選地,實(shí)時(shí)獲取檢索對(duì)象包括:獲取用戶輸入的檢索內(nèi)容;將用戶輸入的檢索內(nèi)容的全部?jī)?nèi)容作為檢索對(duì)象,或者,讀取用戶從檢索內(nèi)容中選定的部分內(nèi)容,將選定的部分內(nèi)容作為檢索對(duì)象。
檢索對(duì)象可以是用戶輸入的全部檢索內(nèi)容,也可以是輸入內(nèi)容中的一部分。用戶可以輸入一個(gè)檢索詞,也可以輸入多個(gè)檢索詞或者檢索語(yǔ)段,還可以根據(jù)需要對(duì)輸入的檢索內(nèi)容進(jìn)行選定。當(dāng)用戶不做選定時(shí),默認(rèn)為用戶輸入的全部檢索內(nèi)容為檢索對(duì)象;用戶可以針對(duì)已經(jīng)輸入的內(nèi)容可以進(jìn)行選擇性檢索,用戶也可以選中檢索內(nèi)容中的部分內(nèi)容進(jìn)行檢索,例如用戶可以在獨(dú)立權(quán)利要求的位置上輸入一個(gè)段落,但是只想對(duì)其中的一個(gè)句子,甚至是一個(gè)句子中的一個(gè)詞或短語(yǔ)進(jìn)行檢索,用戶可以在輸入段落之后,選定其中需要檢索的詞語(yǔ)或句子,當(dāng)用戶選定之后,提交檢索請(qǐng)求,系統(tǒng)讀取用戶選定的內(nèi)容,作為檢索對(duì)象,對(duì)用戶選中的內(nèi)容進(jìn)行檢索,而不再是用戶輸入的全部?jī)?nèi)容,此時(shí)只在獨(dú)立權(quán)利要求中對(duì)選定的內(nèi)容進(jìn)行檢索。本發(fā)明實(shí)施例通過靈活地選擇檢索對(duì)象,便于用戶快速檢索,可以避免重復(fù)輸入檢索內(nèi)容。
優(yōu)選地,在實(shí)時(shí)獲取檢索對(duì)象之后,方法還包括:對(duì)檢索對(duì)象進(jìn)行分詞處理,得到分詞列表;從分詞列表中剔除停用詞,其中,基于檢索對(duì)象檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含檢索對(duì)象的專利文件包括:基于剔除停用詞后的分詞列表檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含剔除停用詞后的分詞列表的詞語(yǔ)的專利文件。
本實(shí)施例中隊(duì)檢索對(duì)象進(jìn)行分詞處理,可以是對(duì)用戶輸入的全部檢索內(nèi)容進(jìn)行分詞,也可以是對(duì)用戶輸入的上述檢索內(nèi)容中用戶選定的部分進(jìn)行分詞處理。尤其是當(dāng)檢索對(duì)象為一段檢索語(yǔ)段時(shí),獲取到檢索對(duì)象之后,按照預(yù)設(shè)分詞規(guī)則對(duì)檢索對(duì)象進(jìn)行分詞處理,得到分詞列表,該分詞列表中包含有從檢索對(duì)象中分詞得到的詞語(yǔ),然后,剔除上述分詞列表中的停用詞,停用詞是指語(yǔ)言中沒有什么實(shí)際含義的功能詞,例如“的、包括、所述、一種”等。具體地,可以根據(jù)預(yù)先提供的停用詞表來(lái)剔除分詞列表中的停用詞,將分詞列表中的每一個(gè)詞與提供的停用詞列表進(jìn)行匹配,如果匹配到停用詞中的詞,則確定為停用詞;否則,確定其不是停用詞。這樣,通過分詞并剔除檢索對(duì)象中的停用詞可以提高檢索的準(zhǔn)確性。
進(jìn)一步地,在從分詞列表中剔除停用詞之后,方法還包括:根據(jù)剔除停用詞后的分詞列表中的詞的數(shù)量和每個(gè)詞出現(xiàn)的次數(shù)計(jì)算每個(gè)詞的權(quán)重;根據(jù)計(jì)算得到的每個(gè)詞的權(quán)重從剔除停用詞后的分詞列表中選擇用于檢索的詞語(yǔ),其中,基于檢索對(duì)象檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含檢索對(duì)象的專利文件包括:基于選擇的詞語(yǔ)檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含有選擇的詞語(yǔ)的專利文件。
本發(fā)明實(shí)施例中,剔除停用詞之后,計(jì)算每個(gè)詞的權(quán)重,每個(gè)詞的權(quán)重根據(jù)分詞列表中每個(gè)詞出現(xiàn)的次數(shù)及分詞列表中詞的數(shù)量進(jìn)行計(jì)算,如一個(gè)詞出現(xiàn)了3次,返回的總的詞匯數(shù)量是10個(gè),則該詞的權(quán)重是0.3,權(quán)重值的取值范圍設(shè)為0~1,分詞之后返回的帶有權(quán)重的詞匯列表,根據(jù)詞匯列表,如果剔除停用詞之后詞匯列表中的詞匯為空,則提示檢索內(nèi)容為空,如果剔除停用詞匯之后的詞匯不為空,繼續(xù)進(jìn)行檢索;可以根據(jù)詞的權(quán)重值,設(shè)置用于檢索的詞匯數(shù)量的上限,例如設(shè)置只用權(quán)重排名前5的詞匯進(jìn)行檢索,當(dāng)詞匯不足5個(gè)時(shí),按照實(shí)際數(shù)量進(jìn)行檢索,例如也可以是1個(gè),最終獲得用于檢索的詞匯,根據(jù)需要還可以返回詞列表及其權(quán)重。本發(fā)明實(shí)施例中,還可以對(duì)抽取的關(guān)鍵詞采取邏輯關(guān)系的組配,例如可以對(duì)抽取的5個(gè)關(guān)鍵詞進(jìn)行邏輯“或”的關(guān)系進(jìn)行組配,默認(rèn)是邏輯或關(guān)系,根據(jù)實(shí)際情況可以設(shè)置其他邏輯關(guān)系。然后,根據(jù)用戶檢索內(nèi)容的分詞結(jié)果和用戶所在的模塊位置,如權(quán)利要求、發(fā)明內(nèi)容等,在特定模塊的位置上檢索出與分詞結(jié)果最相關(guān)的若干篇文獻(xiàn),按相關(guān)性順序顯示,在顯示結(jié)果中,可以將相關(guān)的詞匯(抽取的關(guān)鍵詞)在檢索結(jié)果中用突出顏色標(biāo)記,也可以按照用戶的篩選條件進(jìn)行排序。
本發(fā)明實(shí)施例中,在用戶進(jìn)行檢索之前,可以先選擇要檢索的文件類型(例如專利申請(qǐng)的發(fā)明/實(shí)用新型),可以根據(jù)用戶設(shè)置的文件類型,將檢索范圍限定在制定類型的文件中。例如,用戶要申請(qǐng)實(shí)用新型專利,則系統(tǒng)會(huì)自動(dòng)將檢索范圍限定在實(shí)用新型專利文本當(dāng)中。另外,除了對(duì)文件的特定格式進(jìn)行拆分,在指定的位置進(jìn)行檢索之外,還可以進(jìn)行常規(guī)的檢索,例如可以檢索發(fā)明人、申請(qǐng)人、申請(qǐng)日、國(guó)別、代理機(jī)構(gòu)等。
本發(fā)明實(shí)施例還提供了一種專利文件檢索裝置,該專利文件檢索裝置可以用于執(zhí)行本發(fā)明實(shí)施例的專利文件檢索方法。
圖2是根據(jù)本發(fā)明實(shí)施例的專利文件檢索裝置的示意圖。如圖2所示,該專利文件檢索裝置包括:第一獲取單元10、確定單元20、檢索單元30和顯示單元40。
第一獲取單元10用于實(shí)時(shí)獲取檢索對(duì)象,檢索對(duì)象為用戶輸入的檢索詞或者檢索語(yǔ)段的全部?jī)?nèi)容或者檢索語(yǔ)段的部分內(nèi)容。
檢索對(duì)象可以是用戶通過檢索系統(tǒng)提供的輸入框輸入的檢索詞,也可以是用戶輸入的一段檢索語(yǔ)段,或者是用戶輸入的一段檢索語(yǔ)段中的部分內(nèi)容,即,用戶輸入檢索內(nèi)容可以是一個(gè)或多個(gè)關(guān)鍵詞,也可以是一個(gè)句子或多個(gè)句子,也可以是一個(gè)或多個(gè)段落。用戶通過終端輸入相關(guān)檢索內(nèi)容并確定檢索對(duì)象后,檢索系統(tǒng)實(shí)時(shí)獲取檢索對(duì)象,用以啟動(dòng)相應(yīng)的檢索。具體地,實(shí)時(shí)獲取檢索對(duì)象可以是按照一定的周期從檢索內(nèi)容輸入框中獲取檢索對(duì)象。當(dāng)然,在獲取到檢索對(duì)象之后,還可以將該詞獲取到的 對(duì)象與上一次獲取到的檢索對(duì)象進(jìn)行對(duì)比,如果二者不相同,則重新檢索,如果相同,則暫不進(jìn)行檢索,并重新獲取檢索對(duì)象。
確定單元20用于確定檢索對(duì)象所在的當(dāng)前位置,當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng)。
檢索系統(tǒng)在獲取到檢索對(duì)象之后,并確定該檢索對(duì)象輸入的當(dāng)前位置。在本發(fā)明實(shí)施例中,預(yù)先設(shè)置有多個(gè)預(yù)設(shè)模塊位置,該多個(gè)預(yù)設(shè)模塊位置分別對(duì)應(yīng)于專利申請(qǐng)文件的文本內(nèi)容的各個(gè)組成部分,由于專利申請(qǐng)文件的文本內(nèi)容具有相對(duì)固定的格式,例如,獨(dú)立權(quán)利要求、從屬權(quán)利要求、說(shuō)明書題目、背景技術(shù)、技術(shù)領(lǐng)域、發(fā)明內(nèi)容、實(shí)施方式等等的內(nèi)容模塊,對(duì)于不同的內(nèi)容模塊,提供不同的檢索入口,這樣,當(dāng)用戶需要檢索專利申請(qǐng)文件的文本內(nèi)容的某個(gè)內(nèi)容模塊時(shí),可以在相應(yīng)的檢索入口輸入檢索對(duì)象,從而檢索出想要的內(nèi)容。
檢索單元30用于基于檢索對(duì)象檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含檢索對(duì)象的專利文件。
在獲取到檢索對(duì)象并確定出檢索對(duì)象的當(dāng)前位置后,則可以根據(jù)檢索對(duì)象及其當(dāng)前位置從數(shù)據(jù)庫(kù)中檢索出在當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含上述檢索對(duì)象的專利文件。例如,當(dāng)用戶在獨(dú)立權(quán)利中檢索時(shí),可以將檢索詞或者檢索語(yǔ)段輸入在獨(dú)立權(quán)利的位置上(也可以先輸入內(nèi)容,再選擇希望檢索的位置),當(dāng)用戶在背景技術(shù)中對(duì)檢索詞或者檢索語(yǔ)段進(jìn)行檢索時(shí),可以將檢索詞或者檢索語(yǔ)段輸入在背景技術(shù)中,以此類推,需要在其他模塊檢索時(shí)類似。
顯示單元40用于實(shí)時(shí)顯示檢索到的專利文件。
在檢索到專利文件之后,將檢索到的專利文件實(shí)時(shí)顯示出來(lái)。具體地,可以將檢索對(duì)象所在的內(nèi)容模塊顯示在當(dāng)前可見區(qū)域,并將檢索到的專利文件中的檢索對(duì)象高亮顯示。本發(fā)明實(shí)施例中,通過實(shí)時(shí)獲取檢索對(duì)象,并實(shí)時(shí)將檢索到的專利文件顯示出來(lái),從而可以方便用于對(duì)檢索對(duì)象進(jìn)行調(diào)整。
原有的檢索系統(tǒng)中,檢索入口有很多個(gè),但一般都是將檢索入口設(shè)定為申請(qǐng)日、公開日、題目,分類號(hào)、申請(qǐng)人、代理機(jī)構(gòu)、全文等。檢索入口沒有按照固定的文本格式來(lái)劃分,不能精確地對(duì)文本的特定位置進(jìn)行檢索,在用戶需要對(duì)具體的位置進(jìn)行檢索時(shí),無(wú)法滿足用戶需求,導(dǎo)致檢索效率低。本發(fā)明實(shí)施例中,通過獲取檢索對(duì)象并確定檢索對(duì)象所在的當(dāng)前位置,從而可以利用檢索對(duì)象及其當(dāng)前位置由該當(dāng)前位置所對(duì)應(yīng)的內(nèi)容模塊來(lái)進(jìn)行專利文件檢索,精確地定位用戶所要檢索的專利文件的具體 位置,解決了現(xiàn)有的專利檢索系統(tǒng)無(wú)法針對(duì)專利文件的各部分內(nèi)容進(jìn)行檢索的問題,達(dá)到了針對(duì)專利文件的各部分進(jìn)行檢索的效果。
優(yōu)選地,裝置還包括:接收單元,用于在實(shí)時(shí)顯示檢索到的專利文件之后,接收用戶輸入的刪選命令,刪選命令用于對(duì)顯示的專利文件進(jìn)行刪選;顯示單元還用于基于刪選命令顯示刪選后的專利文件。
刪選命令為用于對(duì)專利文件進(jìn)行刪選的命令,該刪選命令可以由用戶向向檢索系統(tǒng)發(fā)起,例如,在顯示界面上顯示有專利文件,并且每個(gè)專利文件都對(duì)應(yīng)有一個(gè)刪除功能的圖標(biāo),用于可以通過點(diǎn)擊該圖標(biāo)以發(fā)送刪選命令,從而刪除相應(yīng)的專利文件,刪除后的專利文件則不再顯示。
具體地,本發(fā)明實(shí)施例中,通過實(shí)時(shí)獲取檢索對(duì)象,利用實(shí)時(shí)獲取的檢索對(duì)象進(jìn)行檢索,并實(shí)時(shí)顯示檢索到的專利文件,這樣,用戶可以根據(jù)實(shí)時(shí)顯示的專利文件調(diào)檢索對(duì)象,和/或,對(duì)檢索到的專利文件進(jìn)行刪選,即,輸入相應(yīng)的刪選命令,通過不斷調(diào)整檢索結(jié)果,從而使得檢索結(jié)果更加準(zhǔn)確。
優(yōu)選地,裝置還包括:第二獲取單元,用于在實(shí)時(shí)獲取檢索對(duì)象之前,獲取數(shù)據(jù)庫(kù)中的專利申請(qǐng)文件;拆分單元,用于根據(jù)專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)對(duì)獲取的專利申請(qǐng)文件進(jìn)行拆分,得到多個(gè)內(nèi)容模塊;標(biāo)識(shí)單元,用于對(duì)拆分得到的多個(gè)內(nèi)容模塊進(jìn)行標(biāo)識(shí);以及存儲(chǔ)單元,用于將標(biāo)識(shí)后的多個(gè)內(nèi)容模塊保存到數(shù)據(jù)庫(kù)中。
本發(fā)明實(shí)施例所提供的檢索系統(tǒng),在提供檢索服務(wù)之間可以先建立模塊化數(shù)據(jù)庫(kù),具體地,可以是對(duì)數(shù)據(jù)庫(kù)中的專利申請(qǐng)文件進(jìn)行拆分。根據(jù)文件的組成結(jié)構(gòu),例如專利申請(qǐng)文件中,按照說(shuō)明書的題目、背景技術(shù)、技術(shù)領(lǐng)域、發(fā)明內(nèi)容、實(shí)施方式等,將每件專利文本進(jìn)行拆分和標(biāo)識(shí),并保存在數(shù)據(jù)庫(kù)中。按照權(quán)利要求書的一般撰寫模式,將權(quán)利要求拆分成獨(dú)立權(quán)利要求及其從屬權(quán)利要求,并進(jìn)行標(biāo)識(shí)。
通過對(duì)專利文件的拆分和標(biāo)識(shí),從而提供對(duì)專利文件各部分內(nèi)容進(jìn)行檢索的基礎(chǔ),用戶則可以針對(duì)專利文件的各部分進(jìn)行檢索。例如,用戶可以限定在獨(dú)立權(quán)利要求范圍內(nèi)進(jìn)行檢索,也可以限定在發(fā)明內(nèi)容或者實(shí)施方式等部分檢索,按照用戶需求不同,可以選擇不同的模塊進(jìn)行檢索。當(dāng)然,本發(fā)明實(shí)施例的檢索系統(tǒng)還可以根據(jù)專利類型進(jìn)行劃分。
優(yōu)選地,第一獲取單元包括:獲取模塊,用于獲取用戶輸入的檢索內(nèi)容;確定模塊,用于將用戶輸入的檢索內(nèi)容的全部?jī)?nèi)容作為檢索對(duì)象,或者,讀取用戶從檢索內(nèi)容中選定的部分內(nèi)容,將選定的部分內(nèi)容作為檢索對(duì)象。
檢索對(duì)象可以是用戶輸入的全部檢索內(nèi)容,也可以是輸入內(nèi)容中的一部分。用戶 可以輸入一個(gè)檢索詞,也可以輸入多個(gè)檢索詞或者檢索語(yǔ)段,還可以根據(jù)需要對(duì)輸入的檢索內(nèi)容進(jìn)行選定。當(dāng)用戶不做選定時(shí),默認(rèn)為用戶輸入的全部檢索內(nèi)容為檢索對(duì)象;用戶可以針對(duì)已經(jīng)輸入的內(nèi)容可以進(jìn)行選擇性檢索,用戶也可以選中檢索內(nèi)容中的部分內(nèi)容進(jìn)行檢索,例如用戶可以在獨(dú)立權(quán)利要求的位置上輸入一個(gè)段落,但是只想對(duì)其中的一個(gè)句子,甚至是一個(gè)句子中的一個(gè)詞或短語(yǔ)進(jìn)行檢索,用戶可以在輸入段落之后,選定其中需要檢索的詞語(yǔ)或句子,當(dāng)用戶選定之后,提交檢索請(qǐng)求,系統(tǒng)讀取用戶選定的內(nèi)容,作為檢索對(duì)象,對(duì)用戶選中的內(nèi)容進(jìn)行檢索,而不再是用戶輸入的全部?jī)?nèi)容,此時(shí)只在獨(dú)立權(quán)利要求中對(duì)選定的內(nèi)容進(jìn)行檢索。本發(fā)明實(shí)施例通過靈活地選擇檢索對(duì)象,便于用戶快速檢索,可以避免重復(fù)輸入檢索內(nèi)容。
優(yōu)選地,裝置還包括:分詞單元,用于在實(shí)時(shí)獲取檢索對(duì)象之后,對(duì)檢索對(duì)象進(jìn)行分詞處理,得到分詞列表;剔除單元,用于從分詞列表中剔除停用詞,其中,檢索單元包括:第一檢索模塊,用于基于剔除停用詞后的分詞列表檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含剔除停用詞后的分詞列表的詞語(yǔ)的專利文件。
本實(shí)施例中隊(duì)檢索對(duì)象進(jìn)行分詞處理,可以是對(duì)用戶輸入的全部檢索內(nèi)容進(jìn)行分詞,也可以是對(duì)用戶輸入的上述檢索內(nèi)容中用戶選定的部分進(jìn)行分詞處理。尤其是當(dāng)檢索對(duì)象為一段檢索語(yǔ)段時(shí),獲取到檢索對(duì)象之后,按照預(yù)設(shè)分詞規(guī)則對(duì)檢索對(duì)象進(jìn)行分詞處理,得到分詞列表,該分詞列表中包含有從檢索對(duì)象中分詞得到的詞語(yǔ),然后,剔除上述分詞列表中的停用詞,停用詞是指語(yǔ)言中沒有什么實(shí)際含義的功能詞,例如“的、包括、所述、一種”等。具體地,可以根據(jù)預(yù)先提供的停用詞表來(lái)剔除分詞列表中的停用詞,將分詞列表中的每一個(gè)詞與提供的停用詞列表進(jìn)行匹配,如果匹配到停用詞中的詞,則確定為停用詞;否則,確定其不是停用詞。這樣,通過分詞并剔除檢索對(duì)象中的停用詞可以提高檢索的準(zhǔn)確性。
進(jìn)一步地,裝置還包括:計(jì)算單元,用于在從分詞列表中剔除停用詞之后,根據(jù)剔除停用詞后的分詞列表中的詞的數(shù)量和每個(gè)詞出現(xiàn)的次數(shù)計(jì)算每個(gè)詞的權(quán)重;選擇單元,用于根據(jù)計(jì)算得到的每個(gè)詞的權(quán)重從剔除停用詞后的分詞列表中選擇用于檢索的詞語(yǔ),其中,檢索單元包括:第二檢索模塊,用于基于選擇的詞語(yǔ)檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含有選擇的詞語(yǔ)的專利文件。
本發(fā)明實(shí)施例中,剔除停用詞之后,計(jì)算每個(gè)詞的權(quán)重,每個(gè)詞的權(quán)重根據(jù)分詞列表中每個(gè)詞出現(xiàn)的次數(shù)及分詞列表中詞的數(shù)量進(jìn)行計(jì)算,如一個(gè)詞出現(xiàn)了3次,返回的總的詞匯數(shù)量是10個(gè),則該詞的權(quán)重是0.3,權(quán)重值的取值范圍設(shè)為0~1,分詞之后返回的帶有權(quán)重的詞匯列表,根據(jù)詞匯列表,如果剔除停用詞之后詞匯列表中的詞匯為空,則提示檢索內(nèi)容為空,如果剔除停用詞匯之后的詞匯不為空,繼續(xù)進(jìn)行檢 索;可以根據(jù)詞的權(quán)重值,設(shè)置用于檢索的詞匯數(shù)量的上限,例如設(shè)置只用權(quán)重排名前5的詞匯進(jìn)行檢索,當(dāng)詞匯不足5個(gè)時(shí),按照實(shí)際數(shù)量進(jìn)行檢索,例如也可以是1個(gè),最終獲得用于檢索的詞匯,根據(jù)需要還可以返回詞列表及其權(quán)重。本發(fā)明實(shí)施例中,還可以對(duì)抽取的關(guān)鍵詞采取邏輯關(guān)系的組配,例如可以對(duì)抽取的5個(gè)關(guān)鍵詞進(jìn)行邏輯“或”的關(guān)系進(jìn)行組配,默認(rèn)是邏輯或關(guān)系,根據(jù)實(shí)際情況可以設(shè)置其他邏輯關(guān)系。然后,根據(jù)用戶檢索內(nèi)容的分詞結(jié)果和用戶所在的模塊位置,如權(quán)利要求、發(fā)明內(nèi)容等,在特定模塊的位置上檢索出與組配結(jié)果最相關(guān)的若干篇文獻(xiàn),按相關(guān)性順序顯示,在顯示結(jié)果中,可以將相關(guān)的詞匯(抽取的關(guān)鍵詞)在檢索結(jié)果中用突出顏色標(biāo)記,也可以按照用戶的篩選條件進(jìn)行排序。
本發(fā)明實(shí)施例還提供了一種專利文件檢索系統(tǒng)。圖3是根據(jù)本發(fā)明實(shí)施例的專利文件檢索系統(tǒng)的事宜圖。如圖3所示,該系統(tǒng)包括:模塊化數(shù)據(jù)庫(kù)301、詞匯抽取模塊302、檢索模塊303和顯示模塊304。
其中,模塊化數(shù)據(jù)庫(kù)301用于切分專利文本中的內(nèi)容并進(jìn)行模塊化存儲(chǔ);詞匯抽取模塊302用于獲取用戶輸入的檢索內(nèi)容,并實(shí)時(shí)獲取檢索內(nèi)容中的檢索對(duì)象;檢索模塊303用于確定檢索對(duì)象所在的當(dāng)前位置,并基于檢索對(duì)象從模塊化數(shù)據(jù)中檢索當(dāng)前位置對(duì)應(yīng)的內(nèi)容模塊中包含檢索對(duì)象的專利文件當(dāng)前位置為多個(gè)預(yù)設(shè)模塊位置中的一個(gè)或者多個(gè)位置,其中,多個(gè)預(yù)設(shè)模塊位置與按照專利申請(qǐng)文件的文本內(nèi)容的組成結(jié)構(gòu)進(jìn)行拆分得到的多個(gè)內(nèi)容模塊一一對(duì)應(yīng);顯示模塊304用于實(shí)時(shí)顯示檢索到的專利文件。
具體地,詞匯抽取模塊可以用于實(shí)現(xiàn)上述實(shí)施例的專利文件檢索裝置中的第一獲取單元、分詞單元、刪除單元、計(jì)算單元和選擇單元的功能,該檢索模塊可以用于實(shí)現(xiàn)上述實(shí)施例的專利文件檢索裝置中檢索單元的功能。
模塊化數(shù)據(jù)庫(kù)301(對(duì)專利文本進(jìn)行拆分和標(biāo)識(shí)后形成的數(shù)據(jù)庫(kù)):用于切分專利文本中的內(nèi)容,例如可以將專利文本按照名稱、摘要、權(quán)利要求、技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容、實(shí)施方式等進(jìn)行切分和標(biāo)識(shí),并保存到相應(yīng)的數(shù)據(jù)庫(kù)表中;也可以進(jìn)一步的對(duì)權(quán)利要求切分為獨(dú)立權(quán)利要求、從屬權(quán)利要求,分別標(biāo)識(shí)后保存到相應(yīng)的數(shù)據(jù)庫(kù)中。
詞匯抽取模塊302:用于獲取用戶輸入的檢索內(nèi)容,確定檢索對(duì)象,對(duì)檢索對(duì)象進(jìn)行詞匯切分處理,剔除停用詞處理,生成檢索詞列表,根據(jù)需要還可以設(shè)置用于檢索的詞匯的相關(guān)度;停用詞就是可能是一些沒有實(shí)際意義的詞匯,比如“一種”,“所述”,“的”等。如果用戶只選擇了輸入內(nèi)容中的一部分內(nèi)容,這時(shí)系統(tǒng)獲取的用戶檢索內(nèi)容為用戶選取的這部分內(nèi)容,不再是用戶輸入的全部?jī)?nèi)容。
檢索模塊303(完成邏輯組配和檢索):用于獲取用戶的檢索條件,包括獲取特定的檢索位置、檢索詞和邏輯關(guān)系,根據(jù)用戶設(shè)置的檢索位置、檢索詞和邏輯關(guān)系,從數(shù)據(jù)庫(kù)中檢索出相關(guān)專利文件,并采用相關(guān)度排序或者用戶指定的其他篩選條件排序;如果沒有設(shè)置邏輯關(guān)系,則默認(rèn)邏輯或關(guān)系,使用邏輯關(guān)系組合詞匯。
顯示模塊304(按照相關(guān)度或者其他排序顯示,可以增加輔助顯示標(biāo)記):用于根據(jù)檢索結(jié)果的相關(guān)度,按照相關(guān)度從高到低的順序進(jìn)行排序顯示,可以對(duì)關(guān)鍵詞進(jìn)行高亮標(biāo)記。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。