一種生活服務領域垂直搜索引擎的制作方法
【專利摘要】本發(fā)明涉及一種生活服務領域的垂直搜索引擎,包括以下步驟:使用專業(yè)的網(wǎng)絡蜘蛛采集信息;信息抽??;索引建立;信息檢索。本發(fā)明運用網(wǎng)絡蜘蛛技術,遍歷生活服務領域的門戶網(wǎng)站,采集和保存與主題相關的網(wǎng)頁,并對這些網(wǎng)頁進行鏈接分析與提取。本發(fā)明使用DOM主題塊提取和正則表達式提取相結合的方式來進行結構化信息的抽取。通過對數(shù)據(jù)庫中結構化信息建立索引,為用戶提供信息的全文檢索服務,根據(jù)不同字段設定權值,使檢索結果合理排序。最后根據(jù)生活服務的特點,數(shù)據(jù)展現(xiàn)不僅基于互聯(lián)網(wǎng),還需要通過手機WAP隨時隨地提供搜索服務。
【專利說明】一種生活服務領域垂直搜索引擎
【技術領域】
[0001]本發(fā)明涉及搜索引擎技術,特別是一種針對生活服務領域的垂直搜索引擎。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡信息迅速增加,如何快速準確的從海量的網(wǎng)絡數(shù)據(jù)中檢索到所需信息是亟待解決的問題,搜索引擎是我們最常使用的從網(wǎng)絡上獲取信息的一種工具,然而通用搜索引擎多是采用關鍵字的方式進行查詢的,返回結果更傾向于知識成果,他的信息含量大、查詢不夠準確、深度不夠。因此,垂直搜索引擎應運而生。它的檢索范圍不再是上百甚至上千萬的相關網(wǎng)頁,而是專門針對某個特定行業(yè)的領域知識進行搜索,是搜索引擎的細分和延伸。雖然垂直搜索引擎也提供關鍵字進行搜索,但是這些關鍵字通常被放到行業(yè)知識的上下文中,返回的結果中消息和條目居多。與通用搜索引擎不同,垂直搜索引擎只按照特定主題采集網(wǎng)頁信息,并把非結構化的網(wǎng)頁信息轉化和提取為結構化數(shù)據(jù),以結構化數(shù)據(jù)為最小搜索單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,最后分詞、索引再以搜索的方式滿足用戶的請求。
[0003]垂直搜索引擎根據(jù)專業(yè)領域的不同,提供給用戶相應的信息。面向生活服務領域的搜索引擎是垂直搜索弓丨擎中最重要的應用之一。人們在日常生活中經(jīng)常接觸到的餐飲、娛樂、購物和房產(chǎn)等都可以通過該搜索引擎快速準確地檢索到。人們不必在大量的信息中篩選對自己有用的信息,生活服務領域的垂直搜索引擎為人們的衣食住行提供大量有價值的信息,可以極大方便人們的日常生活。
[0004]與其它搜索引擎相比,生活服務領域的垂直搜索引擎需要專業(yè)的網(wǎng)絡蜘蛛,遍歷生活服務領域的門戶網(wǎng)站,采集和保存與主題相關的網(wǎng)頁,并對這些網(wǎng)頁進行鏈接分析與提??;能精確的將網(wǎng)頁進行結構化數(shù)據(jù)提取然后保存到數(shù)據(jù)庫;根據(jù)結構化字段域定義權重、分詞并建立索引;還需要通過呢8和歡?兩種數(shù)據(jù)展現(xiàn)方式滿足用戶隨時隨地的搜索請求。
【發(fā)明內(nèi)容】
[0005]為更好的滿足用戶的要求,本發(fā)明要設計并實現(xiàn)一種針對生活服務領域的垂直搜索引擎,目前該搜索引擎主要是面向餐飲、娛樂和黃頁三個領域。
[0006]為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:生活服務領域的垂直搜索引擎,包括以下步驟:
[0007]八、使用專業(yè)網(wǎng)絡蜘蛛采集信息
[0008]專業(yè)網(wǎng)絡蜘蛛選擇某一領域比較權威的幾十個門戶網(wǎng)站作為初始種子11?1,并提取主題特征。對于采集到的網(wǎng)頁,分析并盡可能多地提取出其中的鏈接,插入隊列中;還要分析網(wǎng)頁文本信息,提取其中的特征項,調(diào)用相關性分析模塊計算網(wǎng)頁與主題相關度,計算結果符合條件的網(wǎng)頁存儲到網(wǎng)頁庫中。
[0009]主題相關性分析采用向量空間模型的方法。其基本思想是把該領域主題的詞庫(T1J2,……,Tn)看作一個η維坐標系,對于任意詞Ti,如果在網(wǎng)頁中包含該詞,則根據(jù)重要程度賦予一定的權值Wi,否則Wi為O。因此,每個網(wǎng)頁都可以轉化為一組詞條矢量(W1, W2,……,Wn)。在系統(tǒng)中Wi賦值方法使用TF-1DF模型,詞條Tj在網(wǎng)頁Di中的TF-1DF值由以下公式定義:
[0010]
【權利要求】
1.一種生活服務領域的垂直搜索引擎,其特征在于:包括以下步驟: A、使用專業(yè)網(wǎng)絡蜘蛛采集信息 專業(yè)網(wǎng)絡蜘蛛選擇某一領域比較權威的幾十個門戶網(wǎng)站作為初始種子URL,并提取主題特征;對于采集到的網(wǎng)頁,分析并盡可能多地提取出其中的鏈接,插入URL隊列中;還要分析網(wǎng)頁文本信息,提取其中的特征項,調(diào)用相關性分析模塊計算網(wǎng)頁與主題相關度,計算結果符合條件的網(wǎng)頁存儲到網(wǎng)頁庫中; 主題相關性分析采用向量空間模型的方法;其基本思想是把該領域主題的詞庫(T1jT2,……,Tn)看作一個η維坐標系,對于任意詞Ti,如果在網(wǎng)頁中包含該詞,則根據(jù)重要程度賦予一定的權值Wi,否則Wi為O;因此,每個網(wǎng)頁都可以轉化為一組詞條矢量(W1, W2,……,Wn);在系統(tǒng)中Wi賦值方法使用TF-1DF模型,詞條Tj在網(wǎng)頁Di中的TF-1DF值由以下公式定義:
【文檔編號】G06F17/30GK103838732SQ201210475513
【公開日】2014年6月4日 申請日期:2012年11月21日 優(yōu)先權日:2012年11月21日
【發(fā)明者】梅昱婷, 劉博
申請人:大連靈動科技發(fā)展有限公司