專利名稱:可擴展的智能化互聯(lián)網索引系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及對互聯(lián)網資源進行自動收集和建立索引的機制,特別涉及一種可擴展的智能化互聯(lián)網索引系統(tǒng)。
背景技術:
隨著互聯(lián)網上信息的增長,人們越來越重視對互聯(lián)網上信息的索引,進而才能實現(xiàn)高效的查詢和檢索?;ヂ?lián)網(Internet)包含了萬維網(WWW)和局域網等,有多種通訊協(xié)議(如HTTP、FTP、文件等)和多種類型的內容(如Web頁面、文件、音樂、電影等)。常見的Web搜索引擎(如Google、Baidu等)實現(xiàn)了一種對萬維網頁面內容的全文文本索引,并提供該索引的查詢服務。對互聯(lián)網進行索引通常需要以下幾個步驟1,獲取互聯(lián)網上的內容;2,解析出內容中的文本;3,對內容中的文本建立全文索引。
對索引的查詢則基于對全文索引的字符匹配技術。
常見的搜索引擎以網絡爬蟲軟件來完成獲取內容的過程,網絡爬蟲(Crawler)是一種在網絡上對分布式資源進行自動收集的軟件,主要應用在以下幾個方面
為搜索引擎對萬維網上的網頁資源進行索引提供網頁來源;協(xié)助特定用戶收集特定的網頁集;協(xié)助人們進行對互聯(lián)網現(xiàn)狀的進行統(tǒng)計分析,等等;隨著社會的發(fā)展和技術的進步,人們對互聯(lián)網檢索提出了更高的要求,例如需要一種能根據(jù)搜索結果自動聚合話題的搜索系統(tǒng)、一種能夠對企業(yè)局域網內分布的各種文件進行檢索的系統(tǒng)、一種能夠將內容自動分類的搜索系統(tǒng)等。然而,目前的搜索引擎和其他軟件產品都不能很好的滿足這些需求,因此發(fā)明一種智能的互聯(lián)網索引系統(tǒng)是當前需要的。
發(fā)明內容
本發(fā)明的目的是解決前述互聯(lián)網檢索存在的不足,提供一種可擴展的智能化互聯(lián)網索引系統(tǒng)。
該系統(tǒng)由基礎層、功能層、邏輯層和數(shù)據(jù)文件構成,其中基礎層設置有存儲器、算法器和事件捕獲器;功能層有傳感器、解折器、清洗器和下載器;邏輯層有網絡爬蟲器、搜索器和索引器。
存儲器用于存放如下信息的全部或部分獲取內容的原始信息、清洗過的內容、代表該內容意義的表達式、內容的關鍵詞、內容的摘要、內容的分類信息、內容的聚類信息、傳感器的記錄、附加信息(更新時間、鏈接數(shù)量等)和索引信息。存儲器可以基于任何一種文件系統(tǒng)、數(shù)據(jù)系統(tǒng)或其他存儲媒體。
算法庫提供了該方法所需要的所有算法的實現(xiàn),其中包括中文自然語言理解方面的算法,如分類器、聚類器、關鍵詞提取器、摘要器等。
事件監(jiān)控器負責監(jiān)控和記錄所有系統(tǒng)事件、錯誤。下載器自動選擇合適的協(xié)議獲取內容。
清洗器對內容進行清洗,包括去除重復內容、清除可能存在的廣告、去掉無用的內容等。
解析器分析清洗過的內容,獲得能代表該內容意義的表達式,該表達式可能是但不僅限于解析出的文本;對圖形、音樂或影片提取的特征集合。
傳感器是對特定內容做出反應的部件。
索引器是內容進行索引的部件。
網絡爬蟲是網絡內容進行收集的程序。
搜索器,接受查詢請求返回搜索結果的部件。
根據(jù)基礎層、功能層、邏輯層軟件結構,本發(fā)明的索引方法是(1)有內容需要處理?若沒有,則結束;(2)若有內容要處理,則獲取內容;(3)檢該查內容是否更新?若未更新,則計算下次更新時間;(4)若該內容已更新,則清洗該內容;(5)解折該內容;(6)提取關鍵詞;(7)提取摘要;(8)自動分類;
(9)自動聚類;(10)傳感器檢測;(11)計算下次更新時間;(12)存儲內容及附加信息;(13)添加或更新索引;(14)等待指定時間;(15)返回到(1)。
其中獲取需要處理的內容方法是(1)得到待獲取內容的URI;(2)分折URI,先擇合適的下載器;(3)選擇HTTP下載器、FTP下載器、文件下載器或擴展下載器;(4)下載并保存內容的全部或部份;(5)結束。
其中解折內容的方法是(1)得到待清洗的內容;(2)根據(jù)內容類型選擇合適的分折器;(3)選擇HTML分折器、WORD分折器、PDF分折器或擴展分折器;(4)根據(jù)分折器,分別去除HTML標簽獲取Title內容、去除Word格式信息,獲取正文、提取PDF文本內容或清除無用信息獲取內容表達式;(5)將內容切分詞語;
(6)結束。
其中提取關鍵詞的方法是(1)得到內容的詞語切分形式;(2)對詞語出現(xiàn)次數(shù)進行統(tǒng)計;(3)去掉出現(xiàn)次數(shù)過高的和過低的詞語;(4)根據(jù)詞表對每個詞語進行打分;(5)將得分最高的若干個詞語作為該內容關鍵詞。
其中提取內容摘要的方法是(1)得到內容的詞語切分形式;(2)取出包含關鍵詞的句子;(3)對每個句子中的所有詞語打分;(4)將句子中所有詞語的總分作為該句子的得分;(5)將所有句子按照得分從高到低排序;(6)將第一個句子輸出作為摘要;(7)摘要字數(shù)達到要求?若是,則結束;(8)若不是,將下一個句子添加到摘要。
其中自動分類的工作方法是(1)得到待分類的內容;(2)提取該內容的分類特征;(3)對比已有分類的特征,找到匹配的所有分類;(4)輸出匹配的分類;(5)結束。
其中聚類器的工作方法是(1)得到待聚類的內容的詞語切分形式;(2)據(jù)詞表將該內容矢量化;(3)找到與簇中心矢量夾角最小且夾角超過最小值的已有簇;(4)有夾角超過最小值的已有簇?(5)若是,加入該簇并更新該簇的中心;(6)若不是,創(chuàng)建新簇,并以該內容的矢量作為該簇中心;(7)結束。
其中對傳感器進行檢測的方法是(1)得到待傳感器檢測的內容;(2)將內容送達每個傳感器;(3)關鍵詞傳感器1、關鍵詞傳感器2、相似內容傳感器或擴展傳感器;(4)對于關鍵詞傳感器,如果包含指定關鍵詞則警報;(5)如果包含指定關鍵詞則警報;(6)對于相似內容傳達室感受器,為相似內容則警報;(7)對于其他傳達室感器,滿足警報條件則發(fā)出警報;(8)匯總警報輸出;(9)結束。
其中對內容建立或更新索引的工方法是(1)得到待索引內容的詞語切分形式;(2)建立該內容的Term列表;
(3)建立該內容與這些Term的映射關系;(4)保存或更新Term及映射關系(5)結束。
其中查詢索引的方法是(1)得到待檢索的查詢請求;(2)將查詢請求分解為Term;(3)根據(jù)Term與內容的映射關系找到相關內容;(4)輸出符合要求的內容(5)結束。
一般通過建立的索引來查詢符合條件的內容,該過程包含如下幾個步驟的全部或部分1.按照一定順序獲取互聯(lián)網上的內容;2.清洗獲取的內容包括去除重復內容、清除可能存在的廣告、去掉無用的內容等;3.分析清洗過的內容,獲得能代表該內容意義的表達式,該表達式可能是但不僅限于解析出的文本;對圖形、音樂或影片提取的特征集合;4.根據(jù)內容和表達式對內容進行關鍵詞提取,取出指定個數(shù)的關鍵詞;5.根據(jù)內容和表達式對內容進行摘要,獲取較為簡短的摘要性內容;6.根據(jù)內容和表達式對內容進行分類,如果該分類代表一個話題或主題,則表示該內容屬于此話題或主題;
7.根據(jù)內容和表達式對內容進行聚類,將內容集合聚集成指定個數(shù)的簇,或將內容與已經形成的簇進行對比,加入某個簇或形成新的簇;8.將內容提交給傳感器檢測;9.對內容進行評價并決定下一次檢查是否更新的時間;10.存儲內容及附加信息(包括關鍵詞、主題、簇、傳感器輸出等);11.為內容建立索引;12.在一定時間后檢查內容是否發(fā)生了變化并更新存儲的內容、索引及附加信息;本發(fā)明的擴展性體現(xiàn)在如下幾個方面算法庫中的算法可以定制并在運行時改變;存儲器可以定制并在運行時改變,以適應各種存儲需求,如文件、數(shù)據(jù)庫等;事件捕獲器可以定制并在運行時改變,可以將事件提供給實時監(jiān)控的部件或者記錄到指定存儲部件;下載器可以擴展以適應更多的傳輸協(xié)議;解析器可以擴展以解析更多格式的內容;傳感器可以擴展并在運行時改變,以對特定內容做出反應;索引器可以擴展,以支持更多的索引存儲方式,如文件、數(shù)據(jù)庫等;爬蟲可以擴展并在運行時改變,以支持更多的內容獲取策略;本發(fā)明的智能化體現(xiàn)在如下幾個方面在處理前對內容進行清洗,以獲得更好的效果;
自動提取內容關鍵詞,使得內容可以按照相同關鍵詞關聯(lián);對內容進行分類,以進行分類、主題或垂直搜索;對內容進行聚類,以減少結果中的重復內容,并將相關內容合并到同一個條目中;在索引過程中,傳感器可以立即對相關內容做出反應;獲取內容的策略智能化,根據(jù)情況會立即更新,也可以根據(jù)內容的價值來計算更新檢查的間隔時間。
本發(fā)明的優(yōu)點是1,通用性。該方法和系統(tǒng)適用于各種網絡索引需求,并可通過調整或更換部件來實現(xiàn)更多的功能。
2,如上說述的智能性。
3,如上所述的擴展性。
圖1是本發(fā)明的邏輯部件框圖,表明了系統(tǒng)的一般結構,其中的部件并不限于某一種特定技術或形式的實現(xiàn)。
圖2是此系統(tǒng)的一種可能的物理部署結構圖,表明了該系統(tǒng)在分布式環(huán)境下的部署結構。
圖3是索引方法的總流程圖,表明了該系統(tǒng)的處理步驟。
圖4是一種下載器的流程圖,表明了該系統(tǒng)下載內容的一種處理步驟。
圖5是一種分析器的流程圖,表明了該系統(tǒng)分析內容的一種處理步驟。
圖6是一種關鍵詞提取器的流程圖,表明了該系統(tǒng)提取關鍵詞的一種處理步驟。
圖7是一種摘要器的流程圖,表明了該系統(tǒng)提取內容摘要的一種處理步驟。
圖8是一種分類器的流程圖,表明了該系統(tǒng)對內容進行自動分類的一種處理步驟。
圖9是一種聚類器的流程圖,表明了該系統(tǒng)對內容進行自動聚類的一種處理步驟。
圖10是一種傳感器的流程圖,表明了該系統(tǒng)對內容進行傳感器檢測的一種處理步驟。
圖11是一種建立和更新索引的流程圖,表明了該系統(tǒng)對內容建立或更新索引的一種處理步驟。
圖12是一種查詢索引的流程圖,表明了該系統(tǒng)對索引進行查詢時的一種處理步驟。
具體的實施方式參照圖3所示的流程,在本實施例中,系統(tǒng)啟動后維持一個循環(huán),直到沒有需要處理的內容結束。該流程基于圖1所示的系統(tǒng)來實現(xiàn),具體說明如下如圖1,系統(tǒng)由101邏輯層、102功能層、103基礎層三個邏輯層次構成,其中基礎層103設置有存儲器113、算法器112和事件捕獲器111;功能層102有傳感器110、解折器109、清洗器108和下載器107;邏輯層101有網絡爬蟲器104、搜索器105和索引器106構成。其中基礎層103提供系統(tǒng)運行的基礎支持,功能層102提供系統(tǒng)運行的低層功能實現(xiàn),邏輯層101提供系統(tǒng)的高層功能實現(xiàn)。這三個層次僅用于更好的理解各模塊的關系,不對系統(tǒng)行為和結構產生影響。數(shù)據(jù)文件囊括了系統(tǒng)運行所需要的所有數(shù)據(jù)文件,在本實施例中數(shù)據(jù)文件包括三個詞表,在提取關鍵詞及摘要時需要對詞語打分,該詞表存儲了分值;常用詞庫,在提取關鍵詞時需要去掉頻度特別高的常用詞,這些詞存在常用詞庫中;分類特征庫,存儲每個分類的特征。
請參閱附圖3啟動后,判斷是否有需要處理的內容,判斷依據(jù)為存儲器所存儲的數(shù)據(jù),并可能通過搜索器來進行檢索。
如有需要處理的內容,則進入301獲取內容流程,系統(tǒng)通過調用合適的下載器下載指定的內容;如圖4所示,本實施例根據(jù)內容的URI來判斷傳輸協(xié)議,并選擇相應的下載器,特定的下載器用各自的方式下載內容的全部或部分。如對于″http://www.sina.com.cn″的內容,系統(tǒng)選擇根據(jù)URI判斷選擇HTTP下載器,并獲得HTML字符串作為內容返回。
獲取到內容的全部或部分后,檢查內容自從上次系統(tǒng)訪問后是否更新過,如果已經更新,則將內容完全下載并將下載到的內容傳遞到302清洗內容,否則轉向309;302清洗內容流程通過清洗器來清洗301傳遞過來的內容,并將結果傳遞給303解析內容,其中可能調用多個清洗器,并使用混合策略來清洗各種內容,如廣告和格式信息;如對于″http://www.sina.com.cn″的內容,系統(tǒng)將嘗試去掉所有的廣告。303解析內容通過調用合適的解析器從內容中解析出有意義的表達式,該表達式可能是但不僅限于解析出的文本;對圖形、音樂或影片提取的特征集合,不同的解析器用于處理不同格式的內容;如圖5所示,提取完畢后將內容切分為詞語以供接下去的流程進一步處理。如″http://www.sina.com.cn″,系統(tǒng)將去掉所有HTML標簽,并提取Title標簽內的字符串作為內容的備用標題。
304提取關鍵詞,通過調用算法庫中的關鍵詞提取器根據(jù)內容中選擇合適的與該內容關聯(lián)的詞語,作為關鍵詞;如圖6所示,關鍵詞作為內容的附加信息一并提供給接下去的流程。
305提取摘要,通過調用算法庫中的算法從該內容中提取部分具有代表性的內容,作為摘要;如圖7所示,摘要作為內容的附加信息一并提供給接下去的流程。
306自動分類,通過調用算法庫中的算法對內容進行分類,將其關聯(lián)到相關的類別,可能不止一個類別;如圖8所示,分類作為內容的附加信息一并提供給接下去的流程。
307自動聚類,通過調用算法庫中的算法將相關內容歸并到一個簇當中;如圖9所示,簇信息作為內容的附加信息一并提供給接下去的流程。
308傳感器檢測,將內容提交給系統(tǒng)中的所有傳感器,每個做出反應的傳感器將會通知事件捕獲器111該內容的相關信息;如圖10所示。
309計算下次更新時間,通過調用算法庫中的算法,根據(jù)該內容以往更新的記錄來預計下次變化的時間;310存儲內容及附加信息,將內容本身及上述過程中產生的附加信息存儲到存儲器;311建立或更新索引,通過搜索器查詢,如果該內容未在索引中,則將其添加進索引,否則更新已存在的索引,添加及更新均由索引器完成;312等待指定時間,網絡爬蟲會在指定時間,通常為309中所計算的下次更新時間再次獲取該內容并檢查其是否已經更新。
309計算下次更新時間;310存儲內容及附加信息;311添加或更新索引;312等待指定時間。
圖2所示為一種該系統(tǒng)的物理部署圖,可以有多臺應用程序服務器,且存儲部分可以為分布式,并根據(jù)存儲信息不同而分為不同的服務器或服務器集群,也可以根據(jù)情況將多個程序部屬在同一臺服務器上。本實施例中存儲器分作四個集群,分別是202內容服務器,存儲內容和附加信息;203索引服務器,存儲內容的索引;204主機存儲器,存儲網絡中所有被訪問過的主機;205網站存儲器,存儲網絡中所有被訪問過的網站,其中網站指的是內容的集合。206監(jiān)視器與系統(tǒng)中的事件捕獲器聯(lián)合工作,獲取系統(tǒng)中的相關信息。
權利要求
1.一種可擴展的智能化互聯(lián)網索引系統(tǒng),其特征在于該系統(tǒng)由基礎層、功能層、邏輯層和數(shù)據(jù)文件構成,其中基礎層設置有存儲器、算法器和事件監(jiān)控器;功能層有傳感器、解折器、清洗器和下載器;邏輯層有網絡爬蟲器、搜索器和索引器構成。
2.按權利要求1所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于該方法的步驟是(1)有內容需要處理?若沒有,則結束;(2)若有內容要處理,則獲取內容;(3)檢該查內容是否更新?若未更新,則計算下次更新時間;(4)若該內容已更新,則清洗該內容;(5)解折該內容;(6)提取關鍵詞;(7)提取摘要;(8)自動分類;(9)自動聚類;(10)傳感器檢測;(11)計算下次更新時間;(12)存儲內容及附加信息;(13)添加或更新索引;(14)等待指定時間;(15)返回到(1)。
3.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于獲取需要處理的內容步驟是(1)得到待獲取內容的URI;(2)分折URI,先擇合適的下載器;(3)選擇HTTP下載器、FTP下載器、文件下載器或擴展下載器;(4)下載并保存內容的全部或部份;(5)結束。
4.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于解折內容的步驟是(1)得到待清洗的內容;(2)根據(jù)內容類型選擇合適的分折器;(3)選擇HTML分折器、WORD分折器、PDF分折器或擴展分折器;(4)根據(jù)分折器,分別去除HTML標簽獲取Title內容、去除Word格式信息,獲取正文、提取PDF文本內容或清除無用信息獲取內容表達式;(5)將內容切分詞語;(6)結束。
5.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于提取關鍵詞的步驟是(1)得到內容的詞語切分形式;(2)對詞語出現(xiàn)次數(shù)進行統(tǒng)計;(3)去掉出現(xiàn)次數(shù)過高的和過低的詞語;(4)根據(jù)詞表對每個詞語進行打分;(5)將得分最高的若干個詞語作為該內容關鍵詞。
6.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于提取內容摘要的步驟是(1)得到內容的詞語切分形式;(2)取出包含關鍵詞的句子;(3)對每個句子中的所有詞語打分;(4)將句子中所有詞語的總分作為該句子的得分;(5)將所有句子按照得分從高到低排序;(6)將第一個句子輸出作為摘要;(7)摘要字數(shù)達到要求?若是,則結束;(8)若不是,將下一個句子添加到摘要。
7.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于自動分類的工作步驟是(1)得到待分類的內容;(2)提取該內容的分類特征;(3)對比已有分類的特征,找到匹配的所有分類;(4)輸出匹配的分類;(5)結束。
8.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于聚類器的工作步聚是(1)得到待聚類的內容的詞語切分形式;(2)根據(jù)詞表將該內容矢量化;(3)找到與簇中心矢量夾角最小且夾角超過最小值的已有簇;(4)有夾角超過最小值的已有簇?(5)若是,加入該簇并更新該簇的中心;(6)若不是,創(chuàng)建新簇,并以該內容的矢量作為該簇中心;(7)結束。
9.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于對傳感器進行檢測的工作步聚是(1)得到待傳感器檢測的內容;(2)將內容送達每個傳感器;(3)關鍵詞傳感器1、關鍵詞傳感器2、相似內容傳感器或擴展傳感器;(4)對于關鍵詞傳感器,如果包含指定關鍵詞則警報;(5)如果包含指定關鍵詞則警報;(6)對于相似傳感受器,為相似內容則警報;(7)對于其他傳感器,滿足警報條件則發(fā)出警報;(8)匯總警報輸出;(9)結束。
10.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于對內容建立或更新索引的工作步聚是(1)得到待索引內容的詞語切分形式;(2)建立該內容的Term列表;(3)建立該內容與這些Term的映射關系;(4)保存或更新Term及映射關系(5)結束。
11.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法,其特征在于查詢索引的工作步聚是(1)得到待檢索的查詢請求;(2)將查詢請求分解為Term;(3)根據(jù)Term與內容的映射關系找到相關內容;(4)輸出符合要求的內容(5)結束。
全文摘要
為解決目前互聯(lián)網檢索存在的不足,本發(fā)明提供一種可擴展的智能化互聯(lián)網索引系統(tǒng);該系統(tǒng)由基礎層、功能層、邏輯層和數(shù)據(jù)文件軟件模塊構成,按照一定順序獲取互聯(lián)網上的內容;清洗獲取的內容分析清洗過的內容,獲得能代表該內容意義的表達式;根據(jù)內容和表達式對內容進行關鍵詞提取,根據(jù)內容和表達式對內容進行摘要,根據(jù)內容和表達式對內容進行分類;根據(jù)內容和表達式對內容進行聚類,將內容集合聚集成指定個數(shù)的簇,或將內容與已經形成的簇進行對比;將內容提交給傳感器檢測;本發(fā)明優(yōu)點是通用性,智能性和擴展性,適用于各種網絡索引需求,并可通過調整或更換添加部件來實現(xiàn)更多的功能。
文檔編號G06F17/30GK1920814SQ20061002638
公開日2007年2月28日 申請日期2006年5月9日 優(yōu)先權日2006年5月9日
發(fā)明者邱致中, 沈超 申請人:上海態(tài)格文化傳播有限公司