專利名稱:提取關鍵字的方法
技術領域:
本發(fā)明涉及數據檢索技術領域,尤其涉及一種提取關鍵字的方法。
背景技術:
關鍵詞(Keyword)是指在制作使用索引時所用到的詞匯,關鍵詞搜索是網絡搜索索引主要方法之一。例如一本書的書名或部分書名、副標題、作者名都可以作為本書的關鍵詞用于檢索。現在大部分的圖書及網上檢索都是用關鍵詞檢索的形式。關鍵詞的內容可以是人名、網站、新聞、小說、軟件、游戲、星座、工作、購物、論文等等。例如,可以搜索 “windows”、“世博會”、“NBA籃球”等關鍵詞,可以輸入一個,也可以輸入兩個、三個、四個,甚至可以輸入一句話。例如,您可以搜索“風景”、“mp3下載”、“驀然回首,那人卻在燈火闌珊處”。簡而言之,關鍵字就是某篇文章,某本書的主要內容。關鍵字雖然字數不多,但是它的存在方便我們很直觀的去了解某篇文章,某本書的大致內容。舉一個簡短的例子,比如這篇文章北京時間3月四日凌晨,西甲聯賽第四輪皇馬在主場3-2擊敗德比對手馬德里競技,完成賽季雙殺。開場不久皇馬舊將雷耶斯反戈一擊,下半時阿隆索首先扳平比分,之后又助攻阿貝羅阿反超,隨后伊瓜因打入聯賽第23球,阿根廷人在射手榜上距離梅西僅有 2球差距,此后弗蘭罰中點球無力回天,皇馬逆轉豪取11連勝,繼續(xù)以凈勝球優(yōu)勢壓過巴薩排名榜首。上文是一篇簡單的體育報道,它的關鍵字可以歸結為“西甲皇馬3-2馬競”。對于我們來說,通過關鍵字了解文章內容是不是要比閱讀完整篇文章來的更快速呢?有了關鍵字,可以很方便的確定是否需要閱讀該文章,這對于提高閱讀效率有著很大的幫助。對于不同長度的文章,關鍵字的長度也各有不同,但它們起到的作用都是相同的。關鍵字在諸多的領域都有應用,在網絡上,有搜索引擎和文本分類技術。在現實生活中,書店中都有很多的應用??梢圆豢鋸埖恼f,關鍵字已經融入到了生活的每一個角落, 成為了生活中不可或缺的一部分。既然關鍵字這么實用,那相應的關鍵字提取技術也逐漸發(fā)展起來。起初,關鍵字的提取都是人工的進行,就是人為的閱讀之后總結出它的關鍵字,這種方法的準確率很高,但效率卻非常的低。近來隨著全球網絡的發(fā)展,搜索引擎的壯大,以及每天最新資訊的更新, 想要再人為的提取關鍵字已經不可行了。如何通過計算機去提取關鍵字已經成為了研究重點。計算機和人腦不同,它無法自行理解文章的內容,所以確立一個合適的算法來提取關鍵字就顯得十分重要了。
發(fā)明內容
本發(fā)明旨在提出一種用于提取關鍵字的方法。根據本發(fā)明,提出一種提取關鍵字的方法,從一段文字中提取關鍵字,該方法包括分詞步驟,分詞步驟將一段文字劃分成單詞;停用詞消除步驟,從分詞步驟中劃分出的單詞中去除停用詞;詞性還原步驟,將取出停用詞后的單詞的詞性進行還原,該詞性還原步驟使用詞干分析算法將單詞還原成詞干原型;關鍵字確定步驟,以詞干原型為基礎,在一段文字中確定每一個詞干原型出現的頻率,基于出現的頻率確定關鍵字。分詞步驟包括從一段文字中提取空格、標點符號以及字符串作為分詞的標記。停用詞消除步驟包括查找一停用詞表,分詞步驟中劃分出的單詞中存在于停用詞表中的單詞作為停用詞去除。關鍵字確定步驟基于密度聚類模式實現,包括TF/IDF值計算步驟,在一段文字中計算每一個詞干原型的TF/IDF值;詞頻過濾步驟,設定一詞頻閾值,選擇詞頻大于該詞頻閾值的詞干原型作為候選關鍵字;共現度計算步驟,在候選關鍵字中計算候選關鍵字之間的詞共現度,生成詞共現矩陣;聚類步驟,基于詞共現矩陣進行候選關鍵字聚類,為每一個聚類計算TF/IDF平均值;關鍵字確定步驟,選擇具有最高的TF/IDF平均值得聚類中的詞干原型作為關鍵字。關鍵字確定步驟也可以基于非高頻詞查找實現,包括預處理步驟,對一段文字進行預處理,去除其中的停用詞;詞頻統(tǒng)計步驟,設定一詞頻閾值,選擇詞頻大于該詞頻閾值的詞干原型作為高頻詞;構圖步驟,設定一關聯度閾值,以高頻詞作為頂點,關聯度大于關聯度閥值的詞干原型作為邊集構圖;劃分步驟,基于聚類系數對構圖進行劃分,劃分成數個子圖;關鍵字確定步驟,計算每一個子圖的特征路徑長度,選取具有最短特征路徑長度的子圖中的詞干原型作為關鍵字。本發(fā)明的提取關鍵字的方法能夠迅速準確地從一段文字中提取關鍵字,使得由計算機提取的關鍵字和通過人腦理解后獲得的關鍵字盡可能接近。
圖1揭示了根據本發(fā)明的提取關鍵字的方法的流程圖。圖2揭示了根據本發(fā)明提取關鍵字的方法中基于密度聚類模式實現的關鍵字確定步驟的流程圖。圖3揭示了根據本發(fā)明提取關鍵字的方法中基于非高頻詞查找實現的關鍵字確定步驟的流程圖。CN 102541910 A
具體實施例方式參考圖1所示,揭示了根據本發(fā)明的一種提取關鍵字的方法,該方法從一段文字中提取關鍵字,該方法包括S10.分詞步驟,分詞步驟將一段文字劃分成單詞。在一個實施例中,分詞步驟包括從一段文字中提取空格、標點符號以及字符串作為分詞的標記。分詞就是把一段文字中的單詞通過程序劃分出來的過程。針對英文文本,分詞相對簡單,只要提取空格或者標點符號中間的字符串便能提取初步的單詞。Sll.停用詞消除步驟,從分詞步驟中劃分出的單詞中去除停用詞。在一個實施例中,停用詞消除步驟包括查找一停用詞表,分詞步驟中劃分出的單詞中存在于停用詞表中的單詞作為停用詞去除。主要是為了提取關鍵字時節(jié)省存儲空間和提高效率,被廣泛應用在搜索引擎和分類等技術中,實際操作中算法會自動忽略某些字或詞,這些字或詞即被稱為停用詞GtopWords)。使用停用詞表來去除停用詞相對來說比較精確,特別是針對某一類的文本提取,效率和精確度都有不錯的效果。S12.詞性還原步驟,將取出停用詞后的單詞的詞性進行還原,該詞性還原步驟使用詞干分析算法將單詞還原成詞干原型。詞性還原步驟主要是將英文單詞的時態(tài)還原,合并相同的詞,區(qū)別人名地名等。在一個實施例中,使用的是Porter詞干分析算法(或稱為 Porter詞干還原器Porterstemmer),對英文單詞中較常見的、因時態(tài)、語態(tài)、復數格等原因引起的詞尾變化進行移除的處理過程。在建立信息檢索系統(tǒng)時,這個算法對各個項的標準化處理進行了其中一部分S13.關鍵字確定步驟,以詞干原型為基礎,在一段文字中確定每一個詞干原型出現的頻率,基于出現的頻率確定關鍵字。關鍵字確定步驟S13具有幾種不同的實現方式,例如,參考圖2所示的實施例,揭示了一種基于密度聚類模式實現的關鍵字確定步驟,包括S20.TF/IDF值計算步驟,在所述一段文字中計算每一個詞干原型的TF/IDF值。 TF/IDF(term frequency/inverse document frequency)是一禾中用于資訊檢索與文本挖掘的加權技術。TF/IDF是一種統(tǒng)計方法,用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加, 但同時會隨著它在語料庫中出現的頻率成反比下降。TF/IDF加權的各種形式常被應用于關鍵字提取技術,作為文件與用戶查詢之間相關程度的度量或評級。TF/IDF算法的基本原理如下在一份給定的文件里,詞頻(term frequency, TF)指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被正規(guī)化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否。)對于在某一特定文件里的詞語來說,它的TF值可表示為TF=該詞在此文件中的出現次數/此文件中所有字詞的出現字數之和。這樣,就得到了每個字詞對于該文件是否重要的值TF。逆向文件頻率(inverse document frequency, IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。IDF 的值可以表示為IDF= log(語料庫中的文件總數/包含該詞的文件數目)。最后,TF/ IDF值就是TF*IDF。它的依據就是某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF/IDF。因此,TF/IDF傾向于過濾掉常見的詞語,保留重要的詞語。假如一篇文件的總詞語數是100個,而詞語“經濟”出現了 3次,那么 “經濟”一詞在該文件中的詞頻就是0.03(3/100)。一個計算文件頻率(IDF)的方法是測定有多少份文件出現過“經濟”一詞,然后除以文件集里包含的文件總數。所以,如果“母?!?一詞在1,000份文件出現過,而文件總數是10,000, 000份的話,其逆向文件頻率就是 9. 21 an(10,000,000/1,000))。最后的 TF*IDF 的分數為 0. 28(0. 03*9. 21)。S21.詞頻過濾步驟,設定一詞頻閾值,選擇詞頻大于該詞頻閾值的詞干原型作為
候選關鍵字。例如,可以選擇詞頻閾值1,將詞頻大于1的詞干原型W = {Wl,W2,......,
Wnl作為候選關鍵詞,并且都設置未被訪問標記。S22.共現度計算步驟,在候選關鍵字中計算候選關鍵字之間的詞共現度,生成詞共現矩陣。在所有未被訪問詞語中,選擇e鄰域為一個句子的范圍,計算候選詞語之間的詞共現度,生成詞共現矩陣M。S23.聚類步驟,基于詞共現矩陣進行候選關鍵字聚類,為每一個聚類計算TF/IDF
平均值。聚類后,生成W的一個劃分W= {C1,C2,......Cm}。其中Ci為詞語的一個聚類。
分別計算簇Ci中詞語TF/IDF平均值Ci. avgtf/idf,并按照其Ci. avgtf/idf對簇進行降序排列。S24.關鍵字確定步驟,選擇具有最高的TF/IDF平均值得聚類中的詞干原型作為關鍵字。參考圖2所示的實施例,揭示了一種基于非高頻詞查找實現的關鍵字確定步驟, 包括S30.預處理步驟,對一段文字進行預處理,去除其中的停用詞。一個實施例中,去除停用詞包括查找一停用詞表,將存在于停用詞表中的單詞作為停用詞去除。S31.詞頻統(tǒng)計步驟,設定一詞頻閾值,選擇詞頻大于該詞頻閾值的詞干原型作為高頻詞。S32.構圖步驟,設定一關聯度閾值,以高頻詞作為頂點,關聯度大于關聯度閥值的詞干原型作為邊集構圖。該種實現方式基于下述的原理高頻詞集表示了文檔的主要內容。 由構造圖的方法,通過邊集將圖G劃分為一系列連通的子圖,稱之為群上述假設也可表述為G中的群表示了文檔的主要內容。詞語w與群g同現的定義w與g中的詞語同時出現在文檔一句中的頻率之和。詞語的偏向度B(w,g)定義w與g同現的實際值與期望值之間的差值。據上,提取高B(w,g)值的詞語便可以從非高頻詞集中找出與某些群聯系緊密的詞語。S33.劃分步驟,基于聚類系數對構圖進行劃分,劃分成數個子圖。S34.關鍵字確定步驟,計算每一個子圖的特征路徑長度,選取具有最短特征路徑長度的子圖中的詞干原型作為關鍵字。本發(fā)明的提取關鍵字的方法能夠迅速準確地從一段文字中提取關鍵字,使得由計算機提取的關鍵字和通過人腦理解后獲得的關鍵字盡可能接近。
權利要求
1.一種提取關鍵字的方法,其特征在于,從一段文字中提取關鍵字,該方法包括 分詞步驟,分詞步驟將所述一段文字劃分成單詞;停用詞消除步驟,從所述分詞步驟中劃分出的單詞中去除停用詞; 詞性還原步驟,將取出停用詞后的單詞的詞性進行還原,該詞性還原步驟使用詞干分析算法將單詞還原成詞干原型;關鍵字確定步驟,以所述詞干原型為基礎,在所述一段文字中確定每一個詞干原型出現的頻率,基于出現的頻率確定關鍵字。
2.如權利要求1所述的提取關鍵字的方法,其特征在于,所述分詞步驟包括從所述一段文字中提取空格、標點符號以及字符串作為分詞的標記。
3.如權利要求1所述的提取關鍵字的方法,其特征在于,所述停用詞消除步驟包括查找一停用詞表,所述分詞步驟中劃分出的單詞中存在于所述停用詞表中的單詞作為停用詞去除。
4.如權利要求1所述的提取關鍵字的方法,其特征在于,所述關鍵字確定步驟基于密度聚類模式實現,包括TF/IDF值計算步驟,在所述一段文字中計算每一個詞干原型的TF/IDF值; 詞頻過濾步驟,設定一詞頻閾值,選擇詞頻大于該詞頻閾值的詞干原型作為候選關鍵字;共現度計算步驟,在候選關鍵字中計算候選關鍵字之間的詞共現度,生成詞共現矩陣;聚類步驟,基于所述詞共現矩陣進行候選關鍵字聚類,為每一個聚類計算TF/IDF平均值;關鍵字確定步驟,選擇具有最高的TF/IDF平均值得聚類中的詞干原型作為關鍵字。
5.如權利要求1所述的提取關鍵字的方法,其特征在于,所述關鍵字確定步驟基于非高頻詞查找,包括預處理步驟,對所述一段文字進行預處理,去除其中的停用詞; 詞頻統(tǒng)計步驟,設定一詞頻閾值,選擇詞頻大于該詞頻閾值的詞干原型作為高頻詞; 構圖步驟,設定一關聯度閾值,以所述高頻詞作為頂點,關聯度大于所述關聯度閥值的詞干原型作為邊集構圖;劃分步驟,基于聚類系數對所述構圖進行劃分,劃分成數個子圖; 關鍵字確定步驟,計算每一個子圖的特征路徑長度,選取具有最短特征路徑長度的子圖中的詞干原型作為關鍵字。
全文摘要
本發(fā)明揭示了一種提取關鍵字的方法,從一段文字中提取關鍵字,該方法包括分詞步驟,分詞步驟將所述一段文字劃分成單詞;停用詞消除步驟,從分詞步驟中劃分出的單詞中去除停用詞;詞性還原步驟,將取出停用詞后的單詞的詞性進行還原,該詞性還原步驟使用詞干分析算法將單詞還原成詞干原型;關鍵字確定步驟,以詞干原型為基礎,在一段文字中確定每一個詞干原型出現的頻率,基于出現的頻率確定關鍵字。本發(fā)明的提取關鍵字的方法能夠迅速準確地從一段文字中提取關鍵字,使得由計算機提取的關鍵字和通過人腦理解后獲得的關鍵字盡可能接近。
文檔編號G06F17/30GK102541910SQ201010608118
公開日2012年7月4日 申請日期2010年12月27日 優(yōu)先權日2010年12月27日
發(fā)明者張麗曉, 王宵棟 申請人:上海杉達學院