欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

技術(shù)發(fā)展脈絡(luò)圖確定方法與流程

文檔序號:12464847閱讀:1085來源:國知局
技術(shù)發(fā)展脈絡(luò)圖確定方法與流程

本發(fā)明涉及專利情報研究領(lǐng)域,特別是涉及一種技術(shù)發(fā)展脈絡(luò)圖確定方法。



背景技術(shù):

作為專利情報不僅是簡單整理和加工,更主要的是進(jìn)行深加工而獲得深層情報。作為專利情報研究,一般主要應(yīng)用技術(shù)、人、時間和地點(diǎn)四個主要的要素,進(jìn)行二維和多維組配,然后進(jìn)行定性、定量、矢量、模型和數(shù)學(xué)相關(guān)分析,從而獲得隱含的技術(shù)情報,經(jīng)營情報,權(quán)利情報以及有關(guān)規(guī)律性。

技術(shù)發(fā)展脈絡(luò)研究方法是選擇與研究主題相關(guān)的專利文獻(xiàn)類型,統(tǒng)計分析在某一時期內(nèi)的專利文獻(xiàn)中已解決的技術(shù)問題,組成不同類型和層次的技術(shù)群。在時序上繪制主要技術(shù)發(fā)展脈絡(luò)圖,可以掌握技術(shù)發(fā)展動向,預(yù)測未來,推測開發(fā)傾向以及研究技術(shù)發(fā)展脈絡(luò)的規(guī)律性。

可以采用科學(xué)計量學(xué)中的共現(xiàn)分析方法、社會網(wǎng)絡(luò)分析方法和信息可視化技術(shù),建立大型技術(shù)共現(xiàn)矩陣,從而構(gòu)建技術(shù)共現(xiàn)網(wǎng)絡(luò),繪制技術(shù)共現(xiàn)圖譜。在此基礎(chǔ)上,分析不同領(lǐng)域之間技術(shù)發(fā)展的聯(lián)系,識別關(guān)鍵技術(shù)領(lǐng)域以及同一領(lǐng)域內(nèi)的技術(shù)發(fā)展脈絡(luò)和技術(shù)網(wǎng)絡(luò)結(jié)構(gòu)。

共現(xiàn)分析方法主要包括共引分析、共詞分析與共類分析三種。共引分析是目前在專利計量中采用較為廣泛的分析方法,共引分析建立在文獻(xiàn)之間的引用關(guān)系上,但由于中國專利數(shù)據(jù)庫缺乏引文數(shù)據(jù),只能限于對國外專利數(shù)據(jù)庫中所收錄的專利進(jìn)行引文分析。

共類分析法則針對專利所屬的主題技術(shù)類別。一般認(rèn)為,同一論文、期刊和專利可能歸屬于多個不同的主題類別和技術(shù)領(lǐng)域,由于技術(shù)競爭情報和產(chǎn)業(yè)技術(shù)政策制定的需要,分析技術(shù)網(wǎng)絡(luò)結(jié)構(gòu),描繪產(chǎn)業(yè)科學(xué)技術(shù)中的概念和問題之間的關(guān)系很重要??衫玫聹靥厥止ごa,采用共類分析的方法來研究技術(shù)與技術(shù)間的網(wǎng)絡(luò)結(jié)構(gòu),通過對該技術(shù)網(wǎng)絡(luò)進(jìn)行細(xì)致分析,可以進(jìn)一步判斷每一個技術(shù)集群中的關(guān)鍵技術(shù),但有一定的計算量和復(fù)雜度。但從專利分類號入手探討領(lǐng)域的技術(shù)關(guān)聯(lián)度,由于專利分類號的信息容量極為有限,難以準(zhǔn)確反映技術(shù)間的真實關(guān)聯(lián)度。

而共詞分析采用單詞或詞組的共現(xiàn)來描述概念之間的關(guān)系,具有更好的適用性,但在專利計量中并不多見,這是由于在專利文獻(xiàn)中沒有關(guān)鍵詞,所以取詞還是一個難點(diǎn)?,F(xiàn)有的德溫特分析家軟件雖然可以對德溫特專利數(shù)據(jù)庫中的專利文獻(xiàn)進(jìn)行截詞,但要從截取的海量詞匯中挑選出能反映出相關(guān)技術(shù)的詞,又需要分析者除了具有情報分析能力以外,還具有較高的專業(yè)知識,這給分析帶來了一定的困難。

上述方法各有利弊,需要一種綜合考慮上述方法來確定技術(shù)發(fā)展脈絡(luò)圖的方法。



技術(shù)實現(xiàn)要素:

基于綜合各種因素確定技術(shù)發(fā)展脈絡(luò)圖的考慮,本申請?zhí)岢隽艘环N技術(shù)發(fā)展脈絡(luò)圖確定方法,通過特定指標(biāo)在后臺找出重點(diǎn)專利文獻(xiàn),然后進(jìn)行共現(xiàn)分析方法選擇,選擇共引分析、共類分析或共詞分析中的一種,若選擇共引分析方法,則根據(jù)引證關(guān)系,加上時間維度,分析出技術(shù)發(fā)展脈絡(luò);若選擇共類分析或者共詞分析,則根據(jù)時間關(guān)系上的技術(shù)關(guān)系關(guān)聯(lián)程度,加上時間維度,確定技術(shù)發(fā)展脈絡(luò)。

可選地,所述進(jìn)行共現(xiàn)分析方法選擇是根據(jù)技術(shù)領(lǐng)域?qū)χ攸c(diǎn)專利文獻(xiàn)進(jìn)行統(tǒng)計分析,若重點(diǎn)文獻(xiàn)引證關(guān)系復(fù)雜且引證文獻(xiàn)數(shù)目較多,則選擇共引分析方法;若重點(diǎn)文獻(xiàn)分類號類似,并具有不同的細(xì)分,則選擇共類分析方法;若重點(diǎn)文獻(xiàn)之間關(guān)鍵詞匹配程度高,文獻(xiàn)間語義匹配高,宜選擇共詞分析方法。

可選地,所述技術(shù)發(fā)展脈絡(luò)圖可以是技術(shù)路線圖、技術(shù)發(fā)展圖、技術(shù)拓?fù)鋱D、技術(shù)演進(jìn)圖。

可選地,若增加某企業(yè)的限定條件,則可以具體到特定企業(yè)的整體技術(shù)發(fā)展路線、特定技術(shù)的發(fā)展脈絡(luò)。

可選地,所述引證關(guān)系是同族擴(kuò)展引證。

可選地,所述引證、技術(shù)關(guān)聯(lián)度基于分類號或者關(guān)鍵詞分析得到。

可選地,共引分析方法主要包括專利情報采集、建立專利引文數(shù)據(jù)庫、專利情報再整理、繪制專利技術(shù)/功效分布圖、專利引用路徑分析、繪制專利技術(shù)演進(jìn)圖6個步驟

可選地,共類分析方法包括以下步驟:以專利數(shù)據(jù)為研究對象,進(jìn)行技術(shù)分類號的共類檢索,構(gòu)建大型專利共被引矩陣,進(jìn)行技術(shù)共類分析,探究專利技術(shù)網(wǎng)絡(luò)結(jié)構(gòu)及其發(fā)展脈絡(luò)。

可選地,共詞分析方法包括以下步驟:首先采用文本挖掘技術(shù)對某一技術(shù)領(lǐng)域發(fā)明專利進(jìn)行分析,從中提取到多個技術(shù)性關(guān)鍵詞,并記錄每個關(guān)鍵詞出現(xiàn)的次數(shù);以關(guān)鍵詞出現(xiàn)次數(shù)為特征向量,采用余弦夾角計算子領(lǐng)域間的技術(shù)關(guān)聯(lián)矩陣;然后使用社會網(wǎng)絡(luò)分析方法對上述技術(shù)領(lǐng)域內(nèi)部的技術(shù)關(guān)聯(lián)度進(jìn)行了分析, 從而繪制技術(shù)發(fā)展脈絡(luò)圖。

可選地,進(jìn)一步還可以運(yùn)用平均技術(shù)共類伙伴和平均技術(shù)共類指數(shù)兩個指標(biāo),分析和測度技術(shù)關(guān)聯(lián)度的演變過程。

從上述技術(shù)方案可以看出,本發(fā)明的技術(shù)發(fā)展脈絡(luò)圖確定方法能根據(jù)領(lǐng)域的特點(diǎn)確定技術(shù)發(fā)展脈絡(luò)圖,具有相對較好的效果。

附圖說明

圖1是本發(fā)明技術(shù)發(fā)展脈絡(luò)圖確定方法的流程圖。

圖2是根據(jù)本發(fā)明一實施例的共引分析方法確定技術(shù)發(fā)展脈絡(luò)圖的流程圖。

圖3是根據(jù)本發(fā)明一實施例的共類分析方法確定技術(shù)發(fā)展脈絡(luò)圖的流程圖。

圖4是根據(jù)本發(fā)明一實施例的共詞分析方法確定技術(shù)發(fā)展脈絡(luò)圖的流程圖。

具體實施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。

附圖1是本發(fā)明技術(shù)發(fā)展脈絡(luò)圖確定方法的流程圖,通過特定指標(biāo)在后臺找出重點(diǎn)專利文獻(xiàn),然后進(jìn)行共現(xiàn)分析方法選擇,選擇共引分析、共類分析或共詞分析中的一種,若選擇共引分析方法,則根據(jù)引證關(guān)系,加上時間維度,分析出技術(shù)發(fā)展脈絡(luò);若選擇共類分析或者共詞分析,則根據(jù)時間關(guān)系上的技術(shù)關(guān)系關(guān)聯(lián)程度,加上時間維度,確定技術(shù)發(fā)展脈絡(luò)。

在重點(diǎn)文獻(xiàn)的查找過程中,除了常見的諸如被引用率或者其他已經(jīng)被標(biāo)引的特定指標(biāo)之外,還可以采用如下方式來產(chǎn)生重點(diǎn)專利文獻(xiàn):

a).樣本采集,從現(xiàn)有多類文檔庫中采集足夠數(shù)量的、已明確類別的重點(diǎn)專利文獻(xiàn),作為訓(xùn)練樣本;并獲取樣本的文本內(nèi)容;

該步驟中,所述的獲取樣本的文本內(nèi)容包括抽取文檔文本和預(yù)處理,在抽取文檔文本的過程中,對pdf、doc和html格式的文檔分別采用相關(guān)的PDFBox插件、javadoc插件和HTMlParser解析文檔以獲取文檔文本;預(yù)處理為將獲取的文檔文本中的無關(guān)信息進(jìn)行去除,對于html文檔應(yīng)將與主題無關(guān)的諸如等廣告、友情鏈接、同類推薦垃圾信息過濾掉。

對步驟a)所抽取的文檔內(nèi)容進(jìn)行量化,也即是為文檔構(gòu)建特征集合,用可以量化的特征集合描述文檔。文檔特征集合的構(gòu)建有多種方法,如文檔頻率法、信息增益法、開方擬合檢驗法、互信息法等,一個具體的例子采用最簡單的文檔頻率法表示文檔。首先對文檔的文本進(jìn)行分詞處理,其次對分詞的詞性進(jìn)行分析,再次去除其中的虛詞和人名,最后統(tǒng)計各個分詞出現(xiàn)的頻率,構(gòu)建由分詞和分詞的詞頻組成的向量,作為文檔的特征集合表征文檔作為后續(xù)處理的基礎(chǔ)。其具體通過步驟b)至步驟f)來實現(xiàn)。

b).文本分詞,采用現(xiàn)有基于詞典的分詞方法對每篇文檔進(jìn)行分詞,獲取文檔所包含的詞匯;

該步驟中,所采用的分詞方法為采用最大匹配法從文檔中獲取其所包含的詞匯;

c).詞性分析,在分詞的過程中,同時為文檔的每個句子構(gòu)建語法樹,分析句子中每個分詞的詞性,并對分詞的詞性進(jìn)行標(biāo)注;

該步驟中,所述的詞性分析為使用現(xiàn)有技術(shù)詞匯詞典中的詞性標(biāo)記符號,對獲取的分詞進(jìn)行詞性標(biāo)注;

d).去除虛詞和人名,為了突出文檔所要表達(dá)的語義,將詞匯中的虛詞和人名去除,以獲取不包含虛詞和人名的文檔詞匯;

實詞有實在意義,能夠單獨(dú)充當(dāng)句子成分一般能單獨(dú)回答問題。而虛詞沒有完整的詞匯意義,但有語法意義或功能意義的詞。在一篇文檔中對文檔的核心內(nèi)容起說明作用的一般是文檔中的實詞,因此為了能更好的突出文檔所要表達(dá)的語義,應(yīng)去除詞匯中的虛詞。

e).統(tǒng)計詞頻,統(tǒng)計步驟d)中所獲取的不包含虛詞和人名的詞匯中每個分詞出現(xiàn)的次數(shù),獲取分詞的詞頻,將分詞和對應(yīng)的詞頻作為文檔的特征;

f).構(gòu)建特征集合,為了盡可能多的涵蓋文本內(nèi)容并減小構(gòu)建網(wǎng)絡(luò)的計算量,對每篇文檔按詞頻數(shù)量從多至少選取前25%~45%的分詞作為文檔的特征集合;

g)對分詞進(jìn)行取舍,選取前25%~45%的高頻詞作為文檔的特征集合,如選取的前35%的分詞,將選定的分詞特征集合與預(yù)先設(shè)定的重點(diǎn)專利文檔中提取的特征集合對照,計算其歐式距離,或者漢明距離,將所得距離小于預(yù)定設(shè)定閾值對應(yīng)的文檔選擇為重點(diǎn)專利文獻(xiàn)。

在產(chǎn)生重點(diǎn)專利文獻(xiàn)之后,分析各重點(diǎn)文獻(xiàn)之間的關(guān)聯(lián)特征,根據(jù)關(guān)聯(lián)特征,確定重點(diǎn)專利文獻(xiàn)之間的共現(xiàn)強(qiáng)度,如果文獻(xiàn)之間的共現(xiàn)強(qiáng)度越高,說明該技術(shù)類別被應(yīng)用得越為廣泛,越容易與其他技術(shù)類別結(jié)合而形成專利,投入實際應(yīng)用。共現(xiàn)強(qiáng)度低,說明該技術(shù)類別目前比較獨(dú)立,未與其他技術(shù)類別產(chǎn)生很強(qiáng)的聯(lián)系。這類技術(shù)一部分專業(yè)性很強(qiáng),不易與其他技術(shù)共同應(yīng)用;另一部分則處于開發(fā)的初始階段,今后會出現(xiàn)更多的技術(shù)聯(lián)系。通過共現(xiàn)網(wǎng)絡(luò)可以反映技術(shù)類別之間的聯(lián)系。在網(wǎng)絡(luò)中可以較為清晰地看到技術(shù)與技術(shù)之間的相互聯(lián)系和過渡,因此可以大致分析出技術(shù)的發(fā)展脈絡(luò)和趨勢。如果將時間段劃分得更細(xì),則可以觀察到技術(shù)發(fā)展的演化情況;如果在更加細(xì)分的技術(shù)領(lǐng)域內(nèi)部進(jìn)行分析,則技術(shù)聯(lián)系的脈絡(luò)將更加清晰。此種分析方法可以為宏觀科技決策提供線性支持,為科技規(guī)劃與評估提供基礎(chǔ)。

特別地,當(dāng)進(jìn)行共現(xiàn)分析方法分析重點(diǎn)專利文獻(xiàn)時,根據(jù)技術(shù)領(lǐng)域?qū)χ攸c(diǎn)專利文獻(xiàn)進(jìn)行統(tǒng)計分析,若重點(diǎn)文獻(xiàn)引證關(guān)系復(fù)雜且引證文獻(xiàn)數(shù)目較多,則選擇共引分析方法;若重點(diǎn)文獻(xiàn)分類號類似,并具有不同的細(xì)分,則選擇共類分析方法;若重點(diǎn)文獻(xiàn)之間關(guān)鍵詞匹配程度高,文獻(xiàn)間語義匹配高,則選擇共詞分析方法。

其中,所述技術(shù)發(fā)展脈絡(luò)圖可以是技術(shù)路線圖、技術(shù)發(fā)展圖、技術(shù)拓?fù)鋱D、技術(shù)演進(jìn)圖。特別地,當(dāng)增加某企業(yè)的限定條件,例如,以企業(yè)名稱作為限定條件時,則可以具體到該特定企業(yè)的整體技術(shù)發(fā)展路線;相類似的,以特定技術(shù)描述作為限定條件時,則可以得出該特定技術(shù)的發(fā)展脈絡(luò)。

其中,所述引證關(guān)系是同族擴(kuò)展引證。

其中,所述引證、技術(shù)關(guān)聯(lián)度基于分類號或者關(guān)鍵詞分析得到。

通過對共現(xiàn)分析方法的具體實現(xiàn)過程,根據(jù)重點(diǎn)專利文獻(xiàn)的特點(diǎn),選擇針對性的分析方法,從而能夠更好的貼近技術(shù)領(lǐng)域特點(diǎn),確定的技術(shù)發(fā)展脈絡(luò)圖能夠更加直觀、準(zhǔn)確的表征技術(shù)的發(fā)展過程,具有良好的呈現(xiàn)和展示效果。

圖2是根據(jù)共引分析方法確定技術(shù)發(fā)展脈絡(luò)圖的流程圖。專利技術(shù)發(fā)展脈絡(luò)圖是由通過審查被頻繁引證專利內(nèi)部的關(guān)系建立起來的。高被引專利在全部專利中所占比例很小。一般來說近70%的專利從未被引用,或僅被引用1-2次。因此被引5次的專利即可稱作高被引專利,只有極少數(shù)的專利被引次數(shù)超過6次,這類專利約占所有專利的10%。雖然專利被引用的絕對量不高,但從相對的角度來說,能夠被引用的專利必定是比較重要的技術(shù)。因此,通過對引文路徑和引用頻次的分析,專利技術(shù)發(fā)展脈絡(luò)圖可以反映出某技術(shù)領(lǐng)域的研究熱點(diǎn)和核心技術(shù),準(zhǔn)確掌握專利技術(shù)被引用的發(fā)展態(tài)勢,從而可以有效獲取技術(shù)前沿的變化信息。

通過對專利引文路徑的分析,專利技術(shù)發(fā)展脈絡(luò)圖能夠沿著引用路徑揭示某一行業(yè)的整體或者某一具體技術(shù)的發(fā)展脈絡(luò),能夠為技術(shù)人員探究或回溯技術(shù)起源、發(fā)展提供可靠的幫助。基于引文路徑分析的專利技術(shù)發(fā)展脈絡(luò)圖,是將專利引文路徑的可視化分析與專利技術(shù)地圖結(jié)合,并加入專利技術(shù)在時間序列上的發(fā)展?fàn)顩r分析,來繪制專利技術(shù)演進(jìn)圖。這使得專利技術(shù)演進(jìn)圖別于已有的專利地圖,可以梳理技術(shù)發(fā)展脈絡(luò)、挖掘技術(shù)熱點(diǎn),預(yù)測技術(shù)發(fā)展方向,確定競爭對手。

通過專利引文的分析,對專利引用路徑進(jìn)行可視化研究,同時結(jié)合時間序列,分析這種引用關(guān)系的發(fā)展,可以清晰地將某一技術(shù)領(lǐng)域的幾大不同類型的技術(shù)演進(jìn),即“起源”、“發(fā)展”和相應(yīng)的“技術(shù)產(chǎn)品”體現(xiàn)出來。

為了制作專利技術(shù)發(fā)展脈絡(luò)圖需要構(gòu)建專題專利引文數(shù)據(jù)庫?;谝穆窂椒治龅膶@夹g(shù)發(fā)展脈絡(luò)圖的繪制,主要包括專利情報采集、建立專利引文數(shù)據(jù)庫、專利情報再整理、繪制專利技術(shù)/功效分布圖、專利引用路徑分析、繪制專利技術(shù)演進(jìn)圖6個步驟。

圖3是根據(jù)本發(fā)明實施例的共類分析方法確定技術(shù)發(fā)展脈絡(luò)圖的流程圖。共類分析方法以專利數(shù)據(jù)為研究對象,進(jìn)行技術(shù)分類號的共類檢索,構(gòu)建大型專利共被引矩陣,進(jìn)行技術(shù)共類分析,探究專利技術(shù)網(wǎng)絡(luò)結(jié)構(gòu)及其發(fā)展脈絡(luò)。進(jìn)一步還可以借助技術(shù)共類分析方法,運(yùn)用平均技術(shù)共類伙伴和平均技術(shù)共類指數(shù)兩個指標(biāo),分析和測度技術(shù)關(guān)聯(lián)度的演變過程。常見的數(shù)據(jù)庫有德溫特創(chuàng)新專利引文索引數(shù)據(jù)庫,其分類號有德溫特手工代碼,也可根據(jù)不同的數(shù)據(jù)庫使用IPC、EC、UC分類號。

圖4是根據(jù)本發(fā)明實施例的共詞分析方法確定技術(shù)發(fā)展脈絡(luò)圖的流程圖。許多學(xué)者使用專利引文分析,或通過考察域?qū)@囊煤捅灰们闆r,分析專利間的關(guān)聯(lián)程度或分析專利代表的技術(shù)和專利引文及非專利引文代表的科學(xué)之間的關(guān)聯(lián)來建立技術(shù)路線圖,預(yù)測公司的技術(shù)及商業(yè)機(jī)會。而我國專利數(shù)據(jù)庫中沒有專利引文等系列統(tǒng)計,上述諸多引文分析無從研究。本發(fā)明具體的實施方式將文本挖掘方法運(yùn)用到專利分析當(dāng)中,使用文本挖掘技術(shù)對專利文本中的關(guān)鍵詞進(jìn)行了分析。文本挖掘技術(shù),包括文本分詞、摘要提取、主題識別、信息地圖繪制等。這些基于文本處理的技術(shù)可以用來復(fù)原并概括文本中的信息,進(jìn)行技術(shù)趨勢分析,以及劃分技術(shù)領(lǐng)域。

專利文本中包含著大量有用信息,但由于文件過于冗長,僅依靠人力是難以對其進(jìn)行有效分析。本發(fā)明的一個具體實施方式使用的是社會網(wǎng)絡(luò)分析法。社會網(wǎng)絡(luò)分析早先集中用于科學(xué)計量學(xué)??茖W(xué)計量學(xué)家們將數(shù)學(xué)、圖形學(xué)、信息可視化等理論方法與引文分析結(jié)合,用圖譜形象地展示各學(xué)科的發(fā)展情況。隨后,它被廣泛運(yùn)用于科學(xué)社會、合作網(wǎng)絡(luò)領(lǐng)域。最近,將網(wǎng)絡(luò)圖譜運(yùn)用到專利合作分析的學(xué)者使用公司的引用和被引專利,將技術(shù)路線分為行動者-相似圖、技術(shù)-產(chǎn)業(yè)圖等,尋找公司的技術(shù)及市場機(jī)會。

更優(yōu)選地,綜合使用文本挖掘與社會網(wǎng)絡(luò)分析技術(shù),對中國某一領(lǐng)域的發(fā)明專利摘要文本數(shù)據(jù)進(jìn)行了研究,首先采用文本挖掘技術(shù)對某一技術(shù)領(lǐng)域發(fā)明專利進(jìn)行分析,從中提取到多個技術(shù)性關(guān)鍵詞,并記錄每個關(guān)鍵詞出現(xiàn)的次數(shù);以關(guān)鍵詞出現(xiàn)次數(shù)為特征向量,采用余弦夾角計算子領(lǐng)域間的技術(shù)關(guān)聯(lián)矩陣;然后使用社會網(wǎng)絡(luò)分析方法對上述技術(shù)領(lǐng)域內(nèi)部的技術(shù)關(guān)聯(lián)度進(jìn)行了分析, 從而繪制技術(shù)發(fā)展脈絡(luò)圖。

在另一個優(yōu)先實施例中,首先從國家知識產(chǎn)權(quán)局網(wǎng)站上收集某一領(lǐng)域發(fā)明專利摘要數(shù)據(jù),這時的初始專利數(shù)據(jù)僅是用文本表達(dá)的非結(jié)構(gòu)化數(shù)據(jù),需要將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。首先按照專利前3位主分類號(IPC)對專利細(xì)分技術(shù)進(jìn)行分類。專利摘要中包含著能夠反映其技術(shù)領(lǐng)域特征的關(guān)鍵詞。使用文本挖掘軟件對摘要進(jìn)行分詞處理,得到大量關(guān)鍵詞后,再對關(guān)鍵詞進(jìn)行一一分析判斷,去掉非專業(yè)性詞匯,保留專用詞匯,并對同義詞進(jìn)行合并。記錄每個關(guān)鍵詞在每個子領(lǐng)域中出現(xiàn)的次數(shù)。Tj表示第j個子領(lǐng)域文本文檔的關(guān)鍵詞向量,Tj=(d1j,d2j,…,dnj)。其中dij為第i個關(guān)鍵詞在第j個子領(lǐng)域中的權(quán)重。dij在計算文檔間關(guān)聯(lián)度時可以使用的方法是計算關(guān)鍵詞向量間的余弦夾角,很明顯當(dāng)兩個文檔中共同出的關(guān)鍵詞數(shù)量越多,文檔相似度越高,得到各子領(lǐng)域間的技術(shù)相似度后,即可根據(jù)相似度矩陣?yán)L制專利地圖。根據(jù)技術(shù)相關(guān)度矩陣能繪制出某領(lǐng)域內(nèi)子領(lǐng)域間的技術(shù)關(guān)聯(lián)圖,并將關(guān)聯(lián)度臨界值設(shè)定為0.1,即只有當(dāng)關(guān)聯(lián)度大于0.1時才會在圖中標(biāo)出,以排除不重要的關(guān)聯(lián)性,使技術(shù)關(guān)聯(lián)圖更加簡潔直觀。將同其他5個以上子領(lǐng)域具有關(guān)聯(lián)性的子領(lǐng)域定義為核心技術(shù)領(lǐng)域。

結(jié)合上述公開的實施例所描述的方法的步驟可直接體現(xiàn)為硬件、由處理器執(zhí)行的軟件模塊或者這二者的組合。軟件模塊可能存在于RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、移動磁盤、CD-ROM或者本領(lǐng)域熟知的任何其他形式的存儲媒質(zhì)中。一種典型存儲媒質(zhì)與處理器耦合,從而使得處理器能夠從該存儲媒質(zhì)中讀信息,且可向該存儲媒質(zhì)寫信息。在替換實例中,存儲媒質(zhì)是處理器的組成部分。處理器和存儲媒質(zhì)可能存在于一個ASIC中。該ASIC可能存在于一個用戶站中。在一個替換實例中,處理器和存儲媒質(zhì)可以作為用戶站中的分立組件存在。

以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
桃源县| 绥中县| 甘孜| 应城市| 厦门市| 宣汉县| 万源市| 汝城县| 晋州市| 巩义市| 武山县| 东明县| 南京市| 红桥区| 三穗县| 安图县| 桐城市| 云浮市| 呼图壁县| 吉首市| 柳林县| 沂南县| 炉霍县| 安塞县| 西昌市| 西充县| 平度市| 绍兴市| 丹阳市| 富源县| 延津县| 灵宝市| 彭阳县| 淮安市| 武功县| 长春市| 大关县| 鞍山市| 新河县| 斗六市| 云南省|