可擴展的智能化互聯(lián)網索引系統(tǒng)的制作方法

文檔序號：6555431閱讀：201來源：國知局

專利名稱：可擴展的智能化互聯(lián)網索引系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及對互聯(lián)網資源進行自動收集和建立索引的機制，特別涉及一種可擴展的智能化互聯(lián)網索引系統(tǒng)。
背景技術：
隨著互聯(lián)網上信息的增長，人們越來越重視對互聯(lián)網上信息的索引，進而才能實現(xiàn)高效的查詢和檢索?；ヂ?lián)網(Internet)包含了萬維網(WWW)和局域網等，有多種通訊協(xié)議(如HTTP、FTP、文件等)和多種類型的內容(如Web頁面、文件、音樂、電影等)。常見的Web搜索引擎(如Google、Baidu等)實現(xiàn)了一種對萬維網頁面內容的全文文本索引，并提供該索引的查詢服務。對互聯(lián)網進行索引通常需要以下幾個步驟1，獲取互聯(lián)網上的內容；2，解析出內容中的文本；3，對內容中的文本建立全文索引。
對索引的查詢則基于對全文索引的字符匹配技術。
常見的搜索引擎以網絡爬蟲軟件來完成獲取內容的過程，網絡爬蟲(Crawler)是一種在網絡上對分布式資源進行自動收集的軟件，主要應用在以下幾個方面
為搜索引擎對萬維網上的網頁資源進行索引提供網頁來源；協(xié)助特定用戶收集特定的網頁集；協(xié)助人們進行對互聯(lián)網現(xiàn)狀的進行統(tǒng)計分析，等等；隨著社會的發(fā)展和技術的進步，人們對互聯(lián)網檢索提出了更高的要求，例如需要一種能根據(jù)搜索結果自動聚合話題的搜索系統(tǒng)、一種能夠對企業(yè)局域網內分布的各種文件進行檢索的系統(tǒng)、一種能夠將內容自動分類的搜索系統(tǒng)等。然而，目前的搜索引擎和其他軟件產品都不能很好的滿足這些需求，因此發(fā)明一種智能的互聯(lián)網索引系統(tǒng)是當前需要的。

發(fā)明內容
本發(fā)明的目的是解決前述互聯(lián)網檢索存在的不足，提供一種可擴展的智能化互聯(lián)網索引系統(tǒng)。
該系統(tǒng)由基礎層、功能層、邏輯層和數(shù)據(jù)文件構成，其中基礎層設置有存儲器、算法器和事件捕獲器；功能層有傳感器、解折器、清洗器和下載器；邏輯層有網絡爬蟲器、搜索器和索引器。
存儲器用于存放如下信息的全部或部分獲取內容的原始信息、清洗過的內容、代表該內容意義的表達式、內容的關鍵詞、內容的摘要、內容的分類信息、內容的聚類信息、傳感器的記錄、附加信息(更新時間、鏈接數(shù)量等)和索引信息。存儲器可以基于任何一種文件系統(tǒng)、數(shù)據(jù)系統(tǒng)或其他存儲媒體。
算法庫提供了該方法所需要的所有算法的實現(xiàn)，其中包括中文自然語言理解方面的算法，如分類器、聚類器、關鍵詞提取器、摘要器等。
事件監(jiān)控器負責監(jiān)控和記錄所有系統(tǒng)事件、錯誤。下載器自動選擇合適的協(xié)議獲取內容。
清洗器對內容進行清洗，包括去除重復內容、清除可能存在的廣告、去掉無用的內容等。
解析器分析清洗過的內容，獲得能代表該內容意義的表達式，該表達式可能是但不僅限于解析出的文本；對圖形、音樂或影片提取的特征集合。
傳感器是對特定內容做出反應的部件。
索引器是內容進行索引的部件。
網絡爬蟲是網絡內容進行收集的程序。
搜索器，接受查詢請求返回搜索結果的部件。
根據(jù)基礎層、功能層、邏輯層軟件結構，本發(fā)明的索引方法是(1)有內容需要處理？若沒有，則結束；(2)若有內容要處理，則獲取內容；(3)檢該查內容是否更新？若未更新，則計算下次更新時間；(4)若該內容已更新，則清洗該內容；(5)解折該內容；(6)提取關鍵詞；(7)提取摘要；(8)自動分類；
(9)自動聚類；(10)傳感器檢測；(11)計算下次更新時間；(12)存儲內容及附加信息；(13)添加或更新索引；(14)等待指定時間；(15)返回到(1)。
其中獲取需要處理的內容方法是(1)得到待獲取內容的URI；(2)分折URI，先擇合適的下載器；(3)選擇HTTP下載器、FTP下載器、文件下載器或擴展下載器；(4)下載并保存內容的全部或部份；(5)結束。
其中解折內容的方法是(1)得到待清洗的內容；(2)根據(jù)內容類型選擇合適的分折器；(3)選擇HTML分折器、WORD分折器、PDF分折器或擴展分折器；(4)根據(jù)分折器，分別去除HTML標簽獲取Title內容、去除Word格式信息，獲取正文、提取PDF文本內容或清除無用信息獲取內容表達式；(5)將內容切分詞語；
(6)結束。
其中提取關鍵詞的方法是(1)得到內容的詞語切分形式；(2)對詞語出現(xiàn)次數(shù)進行統(tǒng)計；(3)去掉出現(xiàn)次數(shù)過高的和過低的詞語；(4)根據(jù)詞表對每個詞語進行打分；(5)將得分最高的若干個詞語作為該內容關鍵詞。
其中提取內容摘要的方法是(1)得到內容的詞語切分形式；(2)取出包含關鍵詞的句子；(3)對每個句子中的所有詞語打分；(4)將句子中所有詞語的總分作為該句子的得分；(5)將所有句子按照得分從高到低排序；(6)將第一個句子輸出作為摘要；(7)摘要字數(shù)達到要求？若是，則結束；(8)若不是，將下一個句子添加到摘要。
其中自動分類的工作方法是(1)得到待分類的內容；(2)提取該內容的分類特征；(3)對比已有分類的特征，找到匹配的所有分類；(4)輸出匹配的分類；(5)結束。
其中聚類器的工作方法是(1)得到待聚類的內容的詞語切分形式；(2)據(jù)詞表將該內容矢量化；(3)找到與簇中心矢量夾角最小且夾角超過最小值的已有簇；(4)有夾角超過最小值的已有簇？(5)若是，加入該簇并更新該簇的中心；(6)若不是，創(chuàng)建新簇，并以該內容的矢量作為該簇中心；(7)結束。
其中對傳感器進行檢測的方法是(1)得到待傳感器檢測的內容；(2)將內容送達每個傳感器；(3)關鍵詞傳感器1、關鍵詞傳感器2、相似內容傳感器或擴展傳感器；(4)對于關鍵詞傳感器，如果包含指定關鍵詞則警報；(5)如果包含指定關鍵詞則警報；(6)對于相似內容傳達室感受器，為相似內容則警報；(7)對于其他傳達室感器，滿足警報條件則發(fā)出警報；(8)匯總警報輸出；(9)結束。
其中對內容建立或更新索引的工方法是(1)得到待索引內容的詞語切分形式；(2)建立該內容的Term列表；
(3)建立該內容與這些Term的映射關系；(4)保存或更新Term及映射關系(5)結束。
其中查詢索引的方法是(1)得到待檢索的查詢請求；(2)將查詢請求分解為Term；(3)根據(jù)Term與內容的映射關系找到相關內容；(4)輸出符合要求的內容(5)結束。
一般通過建立的索引來查詢符合條件的內容，該過程包含如下幾個步驟的全部或部分1.按照一定順序獲取互聯(lián)網上的內容；2.清洗獲取的內容包括去除重復內容、清除可能存在的廣告、去掉無用的內容等；3.分析清洗過的內容，獲得能代表該內容意義的表達式，該表達式可能是但不僅限于解析出的文本；對圖形、音樂或影片提取的特征集合；4.根據(jù)內容和表達式對內容進行關鍵詞提取，取出指定個數(shù)的關鍵詞；5.根據(jù)內容和表達式對內容進行摘要，獲取較為簡短的摘要性內容；6.根據(jù)內容和表達式對內容進行分類，如果該分類代表一個話題或主題，則表示該內容屬于此話題或主題；
7.根據(jù)內容和表達式對內容進行聚類，將內容集合聚集成指定個數(shù)的簇，或將內容與已經形成的簇進行對比，加入某個簇或形成新的簇；8.將內容提交給傳感器檢測；9.對內容進行評價并決定下一次檢查是否更新的時間；10.存儲內容及附加信息(包括關鍵詞、主題、簇、傳感器輸出等)；11.為內容建立索引；12.在一定時間后檢查內容是否發(fā)生了變化并更新存儲的內容、索引及附加信息；本發(fā)明的擴展性體現(xiàn)在如下幾個方面算法庫中的算法可以定制并在運行時改變；存儲器可以定制并在運行時改變，以適應各種存儲需求，如文件、數(shù)據(jù)庫等；事件捕獲器可以定制并在運行時改變，可以將事件提供給實時監(jiān)控的部件或者記錄到指定存儲部件；下載器可以擴展以適應更多的傳輸協(xié)議；解析器可以擴展以解析更多格式的內容；傳感器可以擴展并在運行時改變，以對特定內容做出反應；索引器可以擴展，以支持更多的索引存儲方式，如文件、數(shù)據(jù)庫等；爬蟲可以擴展并在運行時改變，以支持更多的內容獲取策略；本發(fā)明的智能化體現(xiàn)在如下幾個方面在處理前對內容進行清洗，以獲得更好的效果；
自動提取內容關鍵詞，使得內容可以按照相同關鍵詞關聯(lián)；對內容進行分類，以進行分類、主題或垂直搜索；對內容進行聚類，以減少結果中的重復內容，并將相關內容合并到同一個條目中；在索引過程中，傳感器可以立即對相關內容做出反應；獲取內容的策略智能化，根據(jù)情況會立即更新，也可以根據(jù)內容的價值來計算更新檢查的間隔時間。
本發(fā)明的優(yōu)點是1，通用性。該方法和系統(tǒng)適用于各種網絡索引需求，并可通過調整或更換部件來實現(xiàn)更多的功能。
2，如上說述的智能性。
3，如上所述的擴展性。

圖1是本發(fā)明的邏輯部件框圖，表明了系統(tǒng)的一般結構，其中的部件并不限于某一種特定技術或形式的實現(xiàn)。
圖2是此系統(tǒng)的一種可能的物理部署結構圖，表明了該系統(tǒng)在分布式環(huán)境下的部署結構。
圖3是索引方法的總流程圖，表明了該系統(tǒng)的處理步驟。
圖4是一種下載器的流程圖，表明了該系統(tǒng)下載內容的一種處理步驟。
圖5是一種分析器的流程圖，表明了該系統(tǒng)分析內容的一種處理步驟。
圖6是一種關鍵詞提取器的流程圖，表明了該系統(tǒng)提取關鍵詞的一種處理步驟。
圖7是一種摘要器的流程圖，表明了該系統(tǒng)提取內容摘要的一種處理步驟。
圖8是一種分類器的流程圖，表明了該系統(tǒng)對內容進行自動分類的一種處理步驟。
圖9是一種聚類器的流程圖，表明了該系統(tǒng)對內容進行自動聚類的一種處理步驟。
圖10是一種傳感器的流程圖，表明了該系統(tǒng)對內容進行傳感器檢測的一種處理步驟。
圖11是一種建立和更新索引的流程圖，表明了該系統(tǒng)對內容建立或更新索引的一種處理步驟。
圖12是一種查詢索引的流程圖，表明了該系統(tǒng)對索引進行查詢時的一種處理步驟。
具體的實施方式參照圖3所示的流程，在本實施例中，系統(tǒng)啟動后維持一個循環(huán)，直到沒有需要處理的內容結束。該流程基于圖1所示的系統(tǒng)來實現(xiàn)，具體說明如下如圖1，系統(tǒng)由101邏輯層、102功能層、103基礎層三個邏輯層次構成，其中基礎層103設置有存儲器113、算法器112和事件捕獲器111；功能層102有傳感器110、解折器109、清洗器108和下載器107；邏輯層101有網絡爬蟲器104、搜索器105和索引器106構成。其中基礎層103提供系統(tǒng)運行的基礎支持，功能層102提供系統(tǒng)運行的低層功能實現(xiàn)，邏輯層101提供系統(tǒng)的高層功能實現(xiàn)。這三個層次僅用于更好的理解各模塊的關系，不對系統(tǒng)行為和結構產生影響。數(shù)據(jù)文件囊括了系統(tǒng)運行所需要的所有數(shù)據(jù)文件，在本實施例中數(shù)據(jù)文件包括三個詞表，在提取關鍵詞及摘要時需要對詞語打分，該詞表存儲了分值；常用詞庫，在提取關鍵詞時需要去掉頻度特別高的常用詞，這些詞存在常用詞庫中；分類特征庫，存儲每個分類的特征。
請參閱附圖3啟動后，判斷是否有需要處理的內容，判斷依據(jù)為存儲器所存儲的數(shù)據(jù)，并可能通過搜索器來進行檢索。
如有需要處理的內容，則進入301獲取內容流程，系統(tǒng)通過調用合適的下載器下載指定的內容；如圖4所示，本實施例根據(jù)內容的URI來判斷傳輸協(xié)議，并選擇相應的下載器，特定的下載器用各自的方式下載內容的全部或部分。如對于″http://www.sina.com.cn″的內容，系統(tǒng)選擇根據(jù)URI判斷選擇HTTP下載器，并獲得HTML字符串作為內容返回。
獲取到內容的全部或部分后，檢查內容自從上次系統(tǒng)訪問后是否更新過，如果已經更新，則將內容完全下載并將下載到的內容傳遞到302清洗內容，否則轉向309；302清洗內容流程通過清洗器來清洗301傳遞過來的內容，并將結果傳遞給303解析內容，其中可能調用多個清洗器，并使用混合策略來清洗各種內容，如廣告和格式信息；如對于″http://www.sina.com.cn″的內容，系統(tǒng)將嘗試去掉所有的廣告。303解析內容通過調用合適的解析器從內容中解析出有意義的表達式，該表達式可能是但不僅限于解析出的文本；對圖形、音樂或影片提取的特征集合，不同的解析器用于處理不同格式的內容；如圖5所示，提取完畢后將內容切分為詞語以供接下去的流程進一步處理。如″http://www.sina.com.cn″，系統(tǒng)將去掉所有HTML標簽，并提取Title標簽內的字符串作為內容的備用標題。
304提取關鍵詞，通過調用算法庫中的關鍵詞提取器根據(jù)內容中選擇合適的與該內容關聯(lián)的詞語，作為關鍵詞；如圖6所示，關鍵詞作為內容的附加信息一并提供給接下去的流程。
305提取摘要，通過調用算法庫中的算法從該內容中提取部分具有代表性的內容，作為摘要；如圖7所示，摘要作為內容的附加信息一并提供給接下去的流程。
306自動分類，通過調用算法庫中的算法對內容進行分類，將其關聯(lián)到相關的類別，可能不止一個類別；如圖8所示，分類作為內容的附加信息一并提供給接下去的流程。
307自動聚類，通過調用算法庫中的算法將相關內容歸并到一個簇當中；如圖9所示，簇信息作為內容的附加信息一并提供給接下去的流程。
308傳感器檢測，將內容提交給系統(tǒng)中的所有傳感器，每個做出反應的傳感器將會通知事件捕獲器111該內容的相關信息；如圖10所示。
309計算下次更新時間，通過調用算法庫中的算法，根據(jù)該內容以往更新的記錄來預計下次變化的時間；310存儲內容及附加信息，將內容本身及上述過程中產生的附加信息存儲到存儲器；311建立或更新索引，通過搜索器查詢，如果該內容未在索引中，則將其添加進索引，否則更新已存在的索引，添加及更新均由索引器完成；312等待指定時間，網絡爬蟲會在指定時間，通常為309中所計算的下次更新時間再次獲取該內容并檢查其是否已經更新。
309計算下次更新時間；310存儲內容及附加信息；311添加或更新索引；312等待指定時間。
圖2所示為一種該系統(tǒng)的物理部署圖，可以有多臺應用程序服務器，且存儲部分可以為分布式，并根據(jù)存儲信息不同而分為不同的服務器或服務器集群，也可以根據(jù)情況將多個程序部屬在同一臺服務器上。本實施例中存儲器分作四個集群，分別是202內容服務器，存儲內容和附加信息；203索引服務器，存儲內容的索引；204主機存儲器，存儲網絡中所有被訪問過的主機；205網站存儲器，存儲網絡中所有被訪問過的網站，其中網站指的是內容的集合。206監(jiān)視器與系統(tǒng)中的事件捕獲器聯(lián)合工作，獲取系統(tǒng)中的相關信息。
權利要求
1.一種可擴展的智能化互聯(lián)網索引系統(tǒng)，其特征在于該系統(tǒng)由基礎層、功能層、邏輯層和數(shù)據(jù)文件構成，其中基礎層設置有存儲器、算法器和事件監(jiān)控器；功能層有傳感器、解折器、清洗器和下載器；邏輯層有網絡爬蟲器、搜索器和索引器構成。
2.按權利要求1所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于該方法的步驟是(1)有內容需要處理？若沒有，則結束；(2)若有內容要處理，則獲取內容；(3)檢該查內容是否更新？若未更新，則計算下次更新時間；(4)若該內容已更新，則清洗該內容；(5)解折該內容；(6)提取關鍵詞；(7)提取摘要；(8)自動分類；(9)自動聚類；(10)傳感器檢測；(11)計算下次更新時間；(12)存儲內容及附加信息；(13)添加或更新索引；(14)等待指定時間；(15)返回到(1)。
3.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于獲取需要處理的內容步驟是(1)得到待獲取內容的URI；(2)分折URI，先擇合適的下載器；(3)選擇HTTP下載器、FTP下載器、文件下載器或擴展下載器；(4)下載并保存內容的全部或部份；(5)結束。
4.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于解折內容的步驟是(1)得到待清洗的內容；(2)根據(jù)內容類型選擇合適的分折器；(3)選擇HTML分折器、WORD分折器、PDF分折器或擴展分折器；(4)根據(jù)分折器，分別去除HTML標簽獲取Title內容、去除Word格式信息，獲取正文、提取PDF文本內容或清除無用信息獲取內容表達式；(5)將內容切分詞語；(6)結束。
5.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于提取關鍵詞的步驟是(1)得到內容的詞語切分形式；(2)對詞語出現(xiàn)次數(shù)進行統(tǒng)計；(3)去掉出現(xiàn)次數(shù)過高的和過低的詞語；(4)根據(jù)詞表對每個詞語進行打分；(5)將得分最高的若干個詞語作為該內容關鍵詞。
6.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于提取內容摘要的步驟是(1)得到內容的詞語切分形式；(2)取出包含關鍵詞的句子；(3)對每個句子中的所有詞語打分；(4)將句子中所有詞語的總分作為該句子的得分；(5)將所有句子按照得分從高到低排序；(6)將第一個句子輸出作為摘要；(7)摘要字數(shù)達到要求？若是，則結束；(8)若不是，將下一個句子添加到摘要。
7.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于自動分類的工作步驟是(1)得到待分類的內容；(2)提取該內容的分類特征；(3)對比已有分類的特征，找到匹配的所有分類；(4)輸出匹配的分類；(5)結束。
8.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于聚類器的工作步聚是(1)得到待聚類的內容的詞語切分形式；(2)根據(jù)詞表將該內容矢量化；(3)找到與簇中心矢量夾角最小且夾角超過最小值的已有簇；(4)有夾角超過最小值的已有簇？(5)若是，加入該簇并更新該簇的中心；(6)若不是，創(chuàng)建新簇，并以該內容的矢量作為該簇中心；(7)結束。
9.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于對傳感器進行檢測的工作步聚是(1)得到待傳感器檢測的內容；(2)將內容送達每個傳感器；(3)關鍵詞傳感器1、關鍵詞傳感器2、相似內容傳感器或擴展傳感器；(4)對于關鍵詞傳感器，如果包含指定關鍵詞則警報；(5)如果包含指定關鍵詞則警報；(6)對于相似傳感受器，為相似內容則警報；(7)對于其他傳感器，滿足警報條件則發(fā)出警報；(8)匯總警報輸出；(9)結束。
10.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于對內容建立或更新索引的工作步聚是(1)得到待索引內容的詞語切分形式；(2)建立該內容的Term列表；(3)建立該內容與這些Term的映射關系；(4)保存或更新Term及映射關系(5)結束。
11.按權利要求2所述的可擴展的智能化互聯(lián)網索引系統(tǒng)的索引方法，其特征在于查詢索引的工作步聚是(1)得到待檢索的查詢請求；(2)將查詢請求分解為Term；(3)根據(jù)Term與內容的映射關系找到相關內容；(4)輸出符合要求的內容(5)結束。
全文摘要
為解決目前互聯(lián)網檢索存在的不足，本發(fā)明提供一種可擴展的智能化互聯(lián)網索引系統(tǒng)；該系統(tǒng)由基礎層、功能層、邏輯層和數(shù)據(jù)文件軟件模塊構成，按照一定順序獲取互聯(lián)網上的內容；清洗獲取的內容分析清洗過的內容，獲得能代表該內容意義的表達式；根據(jù)內容和表達式對內容進行關鍵詞提取，根據(jù)內容和表達式對內容進行摘要，根據(jù)內容和表達式對內容進行分類；根據(jù)內容和表達式對內容進行聚類，將內容集合聚集成指定個數(shù)的簇，或將內容與已經形成的簇進行對比；將內容提交給傳感器檢測；本發(fā)明優(yōu)點是通用性，智能性和擴展性，適用于各種網絡索引需求，并可通過調整或更換添加部件來實現(xiàn)更多的功能。
文檔編號G06F17/30GK1920814SQ20061002638
公開日2007年2月28日申請日期2006年5月9日優(yōu)先權日2006年5月9日
發(fā)明者邱致中, 沈超申請人:上海態(tài)格文化傳播有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：邱致中;沈超
技術所有人：上海態(tài)格文化傳播有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

臺灣期刊論文索引系統(tǒng)相關技術

索引式文件系統(tǒng)相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

可擴展的智能化互聯(lián)網索引系統(tǒng)的制作方法