度就會降低,其重要程度也 就隨之降低。
[0080] 在
中,q代表每個查詢中捜索關鍵詞出現(xiàn)的次數(shù),典型值為 1,化eq為關鍵詞在某個文檔中出現(xiàn)的詞頻,常量ki決定了化eq增減時原TF部分詞項的權 重的變化情況。若ki= 0,則詞頻部分對對TF的計算部分無影響,隨著k1的增大,其影響 程度逐漸升高,并呈線性增長趨勢,其典型值為1. 2。常量k2在查詢項權重中也有著相似的 影響,但k2較之k1對排序的敏感性低,其典型值為1。參數(shù)K的詳細公式為 陽0川
(公式10),
[0082] 參數(shù)K代表文檔長度對于TF結果的影響,公式中dl為被檢索的某個文檔的長度, avdl為文檔集中的平均長度,b為調節(jié)參數(shù)W調節(jié)文檔長度對于TF結果的影響。由于前文 提到在捜索歌手時,用戶可能期待的結果是是將百科、音樂網(wǎng)站的個人主頁等結果至于前 面的位置,運些網(wǎng)頁普遍的特點是是被匹配的捜索關鍵詞頻率高且文檔長度大的特點,但 整體來說還是匹配數(shù)占主要影響,而文檔長度占次要影響,因此可W降低系數(shù)b的值已達 到降低文檔長度對于評分結果的影響的作用。
[0083] fieldNo;rm(t,d)中的lengthNorm= 1. 0/(numTe;rms~0.巧,
[0084] numTerms表示每個文檔中詞項的數(shù)量。由于前文提到需要降低文檔長度對于總得 分的影響,因此在此會適當更改其權重,將其置另
[0085] 聚合捜索模塊:傳統(tǒng)的捜索引擎由于只是單方面的從互聯(lián)網(wǎng)上爬取信息,所有信 息均來自與互聯(lián)網(wǎng),運種信息在檢索時沒有針對性,無法滿足特定的用戶群體,如音樂捜索 的用戶的捜索需求,而主流的音樂網(wǎng)站對音樂的檢索資源均來自與網(wǎng)站本地數(shù)據(jù)庫的資 源,不包含任何互聯(lián)網(wǎng)的信息,包含信息量相對較少,而且信息更新速度較低,信息沒有實 時性。本系統(tǒng)根據(jù)互聯(lián)網(wǎng)音樂信息與本地音樂資源互補的特性,對二者進行了聚合。
[0086] 由于二者在數(shù)據(jù)結構方面存在不一致性,所W在整合的過程中采取分開處理的原 貝1J,即互聯(lián)網(wǎng)音樂信息與本地音樂資源分別存儲的原則。互聯(lián)網(wǎng)音樂信息,如百科、主頁、 新聞等在爬取后,經由中文分詞模塊、URL過濾模塊、網(wǎng)頁去重模塊處理后,建立倒排索引存 入互聯(lián)網(wǎng)音樂信息庫,主要由索引(Index)、段(Segment)、文檔值ocument)、域(Field)和 詞(Term)五個部分組成,既保存了正向信息,又保存了反向信息,有利于后期利用改進的 BM25捜索算法模型的查詢需要。
[0087] 本地音樂資源主要W數(shù)據(jù)庫的表的形式如歌手表、歌曲表、專輯表等W及媒體文 件如MP3、WMA等格式存儲,數(shù)據(jù)庫的表的在存儲后建立了全文索引,W提高本地庫在海量 本地數(shù)據(jù)資源中的查詢效率。
[0088] 用戶在捜索時,對輸入的關鍵詞也會進行分詞處理,在檢索時會分別對互聯(lián)網(wǎng)音 樂信息與本地音樂資源進行捜索,互聯(lián)網(wǎng)音樂信息部分采用改進的BM25捜索算法模型進 行捜索,會根據(jù)關鍵詞匹配數(shù)、文檔匹配數(shù)等方面進行智能排序,W標題、摘要、url等形式 反饋給用戶,同時也有一部分會利用互聯(lián)網(wǎng)接口對于實時更新率要求較高的互聯(lián)網(wǎng)信息, 如新聞、微博等進行調用,W彌補互聯(lián)網(wǎng)音樂信息索引庫空間的空間制約的限制;對于本地 音樂資源庫進行捜索時,主要是對歌手、歌曲或者專輯的有關信息反饋給用戶,由于之前對 本地音樂資源庫建立了全文索引,因此在查詢效率上會顯著提高。
[0089] 在反饋給用戶的聚合捜索的信息中,會進行分類,如新聞、視頻、音樂、微博等模 塊,易于用戶W最快的速度找到其最想獲取的信息,用W滿足音樂捜索類用戶對于信息的 聚合性、專業(yè)性和實時性的需求。
[0090] 全文索引模塊:對于千萬級的海量本地音樂資源來說,快速檢索信息需要是對數(shù) 據(jù)庫進行全文索引的建立。其原理是先指定一個詞料庫,而后在文檔中檢索每一個詞組 (term)出現(xiàn)的頻率和位置,將該詞的頻率和位置數(shù)據(jù)依照詞料庫的次序整理,并對表中的 各個列建立了一個W詞料庫為目錄的全文索引,捜索關鍵詞的時候就可W快速定位關鍵詞 的所在位置。 陽0川 實施例1
[0092] 本實施例中計算機為"DE化計算機,Intel(R)Core燈M)2DuoCP肥7500@2.92細z, 4GB內存,320G硬盤"。采用化va編程實現(xiàn)。
[0093] 互聯(lián)網(wǎng)音樂信息爬取:通過對注入的U化建立爬取列表,對爬取時按照層次爬取, 每層限定爬取100000個網(wǎng)頁,對于爬取處理過的網(wǎng)頁建立全文索引,整合到互聯(lián)網(wǎng)音樂信 息索引庫。
[0094] 中文分詞:在網(wǎng)頁爬取的過程中,可W對爬取后的文檔進行中文分詞處理,用戶在 捜索時對于輸入的關鍵詞也進行中文分詞處理,W提高捜索時的查準率、滿足中文音樂捜 索用戶需求。
[0095] 網(wǎng)頁U化超鏈接過濾:在網(wǎng)頁爬取的過程中,可W爬取后的文檔進行U化超鏈接進 行過濾處理,對錯標簽中進行正則匹配,將含有"虹ef"等超鏈接的標簽連同其子標簽進行 過濾,W達到去除網(wǎng)頁文檔的冗余超鏈接的目的。
[0096] 網(wǎng)頁去重:在網(wǎng)頁爬取的過程中,會存在爬取網(wǎng)頁重復的情況。爬取后的網(wǎng)頁進行 U化和文本CRC的雙重校驗,如果二者有其中之一存在相同,則被視為是統(tǒng)一網(wǎng)頁,將其中 一頁重復網(wǎng)頁刪除,如果都不相同,則可W視為不同網(wǎng)頁,不做去重處理。
[0097] 全文索引:在網(wǎng)頁全部爬取處理完畢后,需要對爬取的網(wǎng)絡音樂信息庫建立全文 索引。在指定了一個詞料庫后,檢索文檔中每一個詞組出現(xiàn)的頻率和位置,將該詞的頻率 和位置數(shù)據(jù)依照詞料庫的次序整理,并對表中的各個列建立了一個W詞料庫為目錄的詞語 /文檔編號的索引,對于不同列根據(jù)不同的查詢需要分別建立全文索引,有利于提高查詢效 率。 陽09引改進的BM25捜索排序模型算法:Lucene的原排序模型TF^DF模型會將匹配文檔 長度作為很大的權重參與評分,導致捜索關鍵詞頻率高且文檔長度越大的網(wǎng)頁很難排在靠 前的位置,反而像一些歌詞類的網(wǎng)頁由于文檔長度低且被匹配的關鍵詞所占的比例高,其 匹配個數(shù)比百科類的網(wǎng)頁低,運就會導致排序結果并非用戶所需求的結果。因為本系統(tǒng)是 音樂資源相關的網(wǎng)頁捜索,文檔長度相對普通網(wǎng)頁較短,因此應當降低文檔長度對于評分 影響,增強關鍵詞匹配程度的影響。改進后的BM25捜索排序模型算法可W起到降低了匹配 文檔長度在評分權重中的影響、增強了關鍵詞匹配數(shù)的影響的作用,主要是對i壯、tfW及 lengthNormS個因子的修改,W下將W實驗說明修改前后的對比情況。
[0099] 圖3為改進前后對idf因子的影響程度,改進前的
[0100] idf(t) =log(numDocs/(docRreq+l)+l,
[0101] 改進后於 numDocs是語料 9 庫文檔總數(shù),doc化eq是包含該捜索關鍵詞的文檔數(shù),此實驗中numDocsW100為例。從結 果可W看出,隨著doc化eq的增加,改進后的算法在計算包含該捜索關鍵詞的文檔數(shù)的影 響方面比原來要小,并且改進后的算法主要增加了相關因子R與r,因此在文檔相關性的評 分方面要比原來的算法更加靈活。
[0102] 圖4為改進前后對tf因子的影響程度,改進前的tf=化eq~0. 5,改進后的
化eq為關鍵詞在某個文檔中出現(xiàn)的詞頻,q代表每個查詢中捜 索關鍵詞出現(xiàn)的次數(shù),運里取典型值1,常量kl、k2分別取典型值1. 2、100。由實驗結果可W看出,在相同化eq的情況下,改進后的算法要比原算法得分高很多,增強了文檔中關鍵 詞詞頻的影響程度,即增大了關鍵詞在文檔中的匹配權重,進而增強了用戶對于關鍵詞檢 索的查全率。
[0103] 圖5是改進前后對lengthNorm因子的影響程度,改進前的 陽 104] lengthNo