專利名稱:一種非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)搜索方法,主要應(yīng)用在互聯(lián)網(wǎng)內(nèi)容識別,企業(yè)內(nèi)部局域 網(wǎng)文本分類等。
背景技術(shù):
當(dāng)前網(wǎng)絡(luò)搜索引擎包括Google都是針對結(jié)構(gòu)化格式的數(shù)據(jù)進(jìn)行搜索,這些 搜索引擎主要是將文檔進(jìn)行一定規(guī)律的分詞(如將文本內(nèi)容:"我今天在淮海路"。
分為"我"、"今天"、"淮海路"),并將這些分詞作為關(guān)鍵字存在服務(wù)器上。 一旦 用戶輸入關(guān)鍵字如"淮海路",那么上面的這段話就作為一個搜索結(jié)果返回給用
戶。但是,非結(jié)構(gòu)化數(shù)據(jù)在網(wǎng)絡(luò)上的數(shù)據(jù)超過網(wǎng)上數(shù)據(jù)總量的85%,而采用這種 分詞方法有個弊端,就是搜索引擎不知道這些文字的內(nèi)容究竟是什么,而只知道 結(jié)構(gòu)化的分詞(關(guān)鍵字)。當(dāng)用戶用"買皮包"作為關(guān)鍵字進(jìn)行搜索的時候,采 用上述方式搜索的搜索引擎可能會返回有關(guān)皮包的商品信息,但同時,也有可能 返回一些毫無關(guān)系的文本,如"該罪犯將受害者放入新買的皮包內(nèi)",這和用戶 輸入的關(guān)鍵字的本意相差很遠(yuǎn)。所以,當(dāng)用戶搜索"買皮包"的時候,應(yīng)該返 回的都是有關(guān)皮包的商品信息,而過濾掉一些沒有關(guān)聯(lián)的文本。
本發(fā)明就是提出了這樣一種文本內(nèi)容的分類方法。當(dāng)用戶輸入關(guān)鍵字后,返 回的應(yīng)該是和關(guān)鍵字有關(guān)而不是只符合關(guān)鍵字的文本內(nèi)容,這種方法極大地提高 了用戶搜索的效率和體驗。
發(fā)明內(nèi)容
本發(fā)明的目的就是解決現(xiàn)有數(shù)據(jù)搜索出現(xiàn)的上述問題,提供一種非結(jié)構(gòu)化格 式數(shù)據(jù)搜索方法,只返回對用戶說輸入的關(guān)鍵字相關(guān)的內(nèi)容。 為達(dá)上述目的,本發(fā)明采取的具體技術(shù)方案如下 一種非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,包括如下步驟
1) 、收集不同的文本類型進(jìn)行分類,并根據(jù)不同的類型建立相應(yīng)的模式庫;
2) 、將被搜索文件進(jìn)行分解,分解成若干關(guān)鍵字;
3) 、將未知文章中的關(guān)鍵字和模式庫進(jìn)行模式匹配;
4) 、當(dāng)匹配程度達(dá)到一定值,就可以將被搜索文章進(jìn)行分類。 上述的非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,比較優(yōu)選的方案是,步驟l)中選取不
同的文本類型時,每種類型的文本至少選取1000份,再建立相應(yīng)的模式庫。步 驟4)中的匹配程度可以根據(jù)需要進(jìn)行設(shè)定,較佳的是,未知文章中30%的關(guān)鍵 字符合模式庫中的關(guān)鍵字。 本發(fā)明的有益效果
本發(fā)明的方法收集不同的文本類型進(jìn)行分類,并根據(jù)不同的類型建立相應(yīng)的 模式庫,可以對文本中的單詞或詞語出現(xiàn)的頻率來識別不同文本,當(dāng)用戶輸入關(guān) 鍵字后,返回的是和關(guān)鍵字有關(guān)而不是只符合關(guān)鍵字的文本內(nèi)容,這種方法極大 地提高了用戶搜索的效率和準(zhǔn)確率。
圖1為本發(fā)明方法的流程圖
圖2為本發(fā)明方法的具體應(yīng)用流程說明
具體實施例方式
本發(fā)明所說的非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,步驟是
1) 、收集不同的文本類型進(jìn)行分類,并根據(jù)不同的類型建立相應(yīng)的模式庫;
2) 、將被搜索文件進(jìn)行分解,分解成若干關(guān)鍵字;
3) 、將未知文章中的關(guān)鍵字和模式庫進(jìn)行模式匹配;
4) 、當(dāng)匹配程度達(dá)到一定值,就可以將被搜索文章進(jìn)行分類。
具體如描述一段足球比賽的文章里肯定比一段描述金融新聞出現(xiàn)更多的短 語,如"射門","傳球","進(jìn)球","比賽"等,而反過來,"股市","經(jīng)濟", "銀行"等短語出現(xiàn)在金融新聞肯定比足球文章要多。如果按照文本的類型(體 育,政治,財經(jīng),娛樂等)分類,將每個類別的文章中具有上述特征類別的關(guān) 鍵字組成不同的模式庫。比如統(tǒng)計了在1000篇財經(jīng)文摘中出現(xiàn)次數(shù)最多的關(guān) 鍵字為"股票""經(jīng)濟","大小非"等。出現(xiàn)次數(shù)最多(如取前50個關(guān)鍵字) 就可以組成一個模式庫,該模式庫就可以代表一類文章,如之前財經(jīng)文摘的例子。 也就是說,出現(xiàn)次數(shù)最多的這50個關(guān)鍵字就可以代表所有和財經(jīng)類相關(guān)的文章。 一篇未知類別的文章就可以根據(jù)文章的關(guān)鍵字和模式庫里的關(guān)鍵字進(jìn)行一一匹 配,當(dāng)達(dá)到一定的判定條件后(如該篇未知文章中30%的關(guān)鍵字符合模式庫中的
關(guān)鍵字)。那該篇文章就能被判定為財經(jīng)類文章。
權(quán)利要求
1. 一種非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,包括如下步驟1)、收集不同的文本類型進(jìn)行分類,并根據(jù)不同的類型建立相應(yīng)的模式庫;2)、將被搜索文件進(jìn)行分解,分解成若干關(guān)鍵字;3)、將未知文章中的關(guān)鍵字和模式庫進(jìn)行模式匹配;4)、當(dāng)匹配程度達(dá)到一定值,就可以將被搜索文章進(jìn)行分類。
2. 如權(quán)利要求1所述的非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,其特征在于步驟1)中選取不同的文本類型時,每種類型的文本至少選取1000份,再建立相應(yīng)的模式庫。
3. 如權(quán)利要求1所述的非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,其特征在于步驟4)中的匹配程度是指未知文章中30%的關(guān)鍵字符合模式庫中的關(guān)鍵字。
全文摘要
本發(fā)明涉及一種數(shù)據(jù)搜索方法,主要應(yīng)用在互聯(lián)網(wǎng)內(nèi)容識別,企業(yè)內(nèi)部局域網(wǎng)文本分類等。本發(fā)明所說的非結(jié)構(gòu)化格式數(shù)據(jù)搜索方法,其步驟是1)收集不同的文本類型進(jìn)行分類,并根據(jù)不同的類型建立相應(yīng)的模式庫;2)將被搜索文件進(jìn)行分解,分解成若干關(guān)鍵字;3)將未知文章中的關(guān)鍵字和模式庫進(jìn)行模式匹配;4)當(dāng)匹配程度達(dá)到一定值,就可以將被搜索文章進(jìn)行分類。本發(fā)明的方法可以對文本中的單詞或詞語出現(xiàn)的頻率來識別不同文本,當(dāng)用戶輸入關(guān)鍵字后,返回的是和關(guān)鍵字有關(guān)而不是只符合關(guān)鍵字的文本內(nèi)容,這種方法極大地提高了用戶搜索的效率和準(zhǔn)確率。
文檔編號G06F17/30GK101425083SQ20081020191
公開日2009年5月6日 申請日期2008年10月30日 優(yōu)先權(quán)日2008年10月30日
發(fā)明者建 陳 申請人:上海第二工業(yè)大學(xué)