一種音樂資源聚合搜索的方法_3

文檔序號：9524266閱讀：來源：國知局

度就會降低，其重要程度也就隨之降低。
[0080] 在
中，q代表每個查詢中捜索關鍵詞出現(xiàn)的次數(shù)，典型值為 1，化eq為關鍵詞在某個文檔中出現(xiàn)的詞頻，常量ki決定了化eq增減時原TF部分詞項的權重的變化情況。若ki= 0,則詞頻部分對對TF的計算部分無影響，隨著k1的增大，其影響程度逐漸升高，并呈線性增長趨勢，其典型值為1. 2。常量k2在查詢項權重中也有著相似的影響，但k2較之k1對排序的敏感性低，其典型值為1。參數(shù)K的詳細公式為陽0川
（公式10)，
[0082] 參數(shù)K代表文檔長度對于TF結果的影響，公式中dl為被檢索的某個文檔的長度， avdl為文檔集中的平均長度，b為調節(jié)參數(shù)W調節(jié)文檔長度對于TF結果的影響。由于前文提到在捜索歌手時，用戶可能期待的結果是是將百科、音樂網(wǎng)站的個人主頁等結果至于前面的位置，運些網(wǎng)頁普遍的特點是是被匹配的捜索關鍵詞頻率高且文檔長度大的特點，但整體來說還是匹配數(shù)占主要影響，而文檔長度占次要影響，因此可W降低系數(shù)b的值已達到降低文檔長度對于評分結果的影響的作用。
[0083] fieldNo;rm(t，d)中的lengthNorm= 1. 0/(numTe;rms~0.巧，
[0084] numTerms表示每個文檔中詞項的數(shù)量。由于前文提到需要降低文檔長度對于總得分的影響，因此在此會適當更改其權重，將其置另
[0085] 聚合捜索模塊：傳統(tǒng)的捜索引擎由于只是單方面的從互聯(lián)網(wǎng)上爬取信息，所有信息均來自與互聯(lián)網(wǎng)，運種信息在檢索時沒有針對性，無法滿足特定的用戶群體，如音樂捜索的用戶的捜索需求，而主流的音樂網(wǎng)站對音樂的檢索資源均來自與網(wǎng)站本地數(shù)據(jù)庫的資源，不包含任何互聯(lián)網(wǎng)的信息，包含信息量相對較少，而且信息更新速度較低，信息沒有實時性。本系統(tǒng)根據(jù)互聯(lián)網(wǎng)音樂信息與本地音樂資源互補的特性，對二者進行了聚合。
[0086] 由于二者在數(shù)據(jù)結構方面存在不一致性，所W在整合的過程中采取分開處理的原貝1J，即互聯(lián)網(wǎng)音樂信息與本地音樂資源分別存儲的原則。互聯(lián)網(wǎng)音樂信息，如百科、主頁、新聞等在爬取后，經由中文分詞模塊、URL過濾模塊、網(wǎng)頁去重模塊處理后，建立倒排索引存入互聯(lián)網(wǎng)音樂信息庫，主要由索引（Index)、段（Segment)、文檔值ocument)、域（Field)和詞（Term)五個部分組成，既保存了正向信息，又保存了反向信息，有利于后期利用改進的 BM25捜索算法模型的查詢需要。
[0087] 本地音樂資源主要W數(shù)據(jù)庫的表的形式如歌手表、歌曲表、專輯表等W及媒體文件如MP3、WMA等格式存儲，數(shù)據(jù)庫的表的在存儲后建立了全文索引，W提高本地庫在海量本地數(shù)據(jù)資源中的查詢效率。
[0088] 用戶在捜索時，對輸入的關鍵詞也會進行分詞處理，在檢索時會分別對互聯(lián)網(wǎng)音樂信息與本地音樂資源進行捜索，互聯(lián)網(wǎng)音樂信息部分采用改進的BM25捜索算法模型進行捜索，會根據(jù)關鍵詞匹配數(shù)、文檔匹配數(shù)等方面進行智能排序，W標題、摘要、url等形式反饋給用戶，同時也有一部分會利用互聯(lián)網(wǎng)接口對于實時更新率要求較高的互聯(lián)網(wǎng)信息，如新聞、微博等進行調用，W彌補互聯(lián)網(wǎng)音樂信息索引庫空間的空間制約的限制；對于本地音樂資源庫進行捜索時，主要是對歌手、歌曲或者專輯的有關信息反饋給用戶，由于之前對本地音樂資源庫建立了全文索引，因此在查詢效率上會顯著提高。
[0089] 在反饋給用戶的聚合捜索的信息中，會進行分類，如新聞、視頻、音樂、微博等模塊，易于用戶W最快的速度找到其最想獲取的信息，用W滿足音樂捜索類用戶對于信息的聚合性、專業(yè)性和實時性的需求。
[0090] 全文索引模塊：對于千萬級的海量本地音樂資源來說，快速檢索信息需要是對數(shù) 據(jù)庫進行全文索引的建立。其原理是先指定一個詞料庫，而后在文檔中檢索每一個詞組 (term)出現(xiàn)的頻率和位置，將該詞的頻率和位置數(shù)據(jù)依照詞料庫的次序整理，并對表中的各個列建立了一個W詞料庫為目錄的全文索引，捜索關鍵詞的時候就可W快速定位關鍵詞的所在位置。陽0川實施例1
[0092] 本實施例中計算機為"DE化計算機，Intel(R)Core燈M)2DuoCP肥7500@2.92細z， 4GB內存，320G硬盤"。采用化va編程實現(xiàn)。
[0093] 互聯(lián)網(wǎng)音樂信息爬取：通過對注入的U化建立爬取列表，對爬取時按照層次爬取，每層限定爬取100000個網(wǎng)頁，對于爬取處理過的網(wǎng)頁建立全文索引，整合到互聯(lián)網(wǎng)音樂信息索引庫。
[0094] 中文分詞：在網(wǎng)頁爬取的過程中，可W對爬取后的文檔進行中文分詞處理，用戶在捜索時對于輸入的關鍵詞也進行中文分詞處理，W提高捜索時的查準率、滿足中文音樂捜索用戶需求。
[0095] 網(wǎng)頁U化超鏈接過濾：在網(wǎng)頁爬取的過程中，可W爬取后的文檔進行U化超鏈接進行過濾處理，對錯標簽中進行正則匹配，將含有"虹ef"等超鏈接的標簽連同其子標簽進行過濾，W達到去除網(wǎng)頁文檔的冗余超鏈接的目的。
[0096] 網(wǎng)頁去重：在網(wǎng)頁爬取的過程中，會存在爬取網(wǎng)頁重復的情況。爬取后的網(wǎng)頁進行 U化和文本CRC的雙重校驗，如果二者有其中之一存在相同，則被視為是統(tǒng)一網(wǎng)頁，將其中一頁重復網(wǎng)頁刪除，如果都不相同，則可W視為不同網(wǎng)頁，不做去重處理。
[0097] 全文索引：在網(wǎng)頁全部爬取處理完畢后，需要對爬取的網(wǎng)絡音樂信息庫建立全文索引。在指定了一個詞料庫后，檢索文檔中每一個詞組出現(xiàn)的頻率和位置，將該詞的頻率和位置數(shù)據(jù)依照詞料庫的次序整理，并對表中的各個列建立了一個W詞料庫為目錄的詞語 /文檔編號的索引，對于不同列根據(jù)不同的查詢需要分別建立全文索引，有利于提高查詢效率。陽09引改進的BM25捜索排序模型算法：Lucene的原排序模型TF^DF模型會將匹配文檔長度作為很大的權重參與評分，導致捜索關鍵詞頻率高且文檔長度越大的網(wǎng)頁很難排在靠前的位置，反而像一些歌詞類的網(wǎng)頁由于文檔長度低且被匹配的關鍵詞所占的比例高，其匹配個數(shù)比百科類的網(wǎng)頁低，運就會導致排序結果并非用戶所需求的結果。因為本系統(tǒng)是音樂資源相關的網(wǎng)頁捜索，文檔長度相對普通網(wǎng)頁較短，因此應當降低文檔長度對于評分影響，增強關鍵詞匹配程度的影響。改進后的BM25捜索排序模型算法可W起到降低了匹配文檔長度在評分權重中的影響、增強了關鍵詞匹配數(shù)的影響的作用，主要是對i壯、tfW及 lengthNormS個因子的修改，W下將W實驗說明修改前后的對比情況。
[0099] 圖3為改進前后對idf因子的影響程度，改進前的
[0100] idf(t) =log(numDocs/(docRreq+l)+l，
[0101] 改進后於 numDocs是語料 9 庫文檔總數(shù)，doc化eq是包含該捜索關鍵詞的文檔數(shù)，此實驗中numDocsW100為例。從結果可W看出，隨著doc化eq的增加，改進后的算法在計算包含該捜索關鍵詞的文檔數(shù)的影響方面比原來要小，并且改進后的算法主要增加了相關因子R與r，因此在文檔相關性的評分方面要比原來的算法更加靈活。
[0102] 圖4為改進前后對tf因子的影響程度，改進前的tf=化eq~0. 5,改進后的
化eq為關鍵詞在某個文檔中出現(xiàn)的詞頻，q代表每個查詢中捜索關鍵詞出現(xiàn)的次數(shù)，運里取典型值1，常量kl、k2分別取典型值1. 2、100。由實驗結果可W看出，在相同化eq的情況下，改進后的算法要比原算法得分高很多，增強了文檔中關鍵詞詞頻的影響程度，即增大了關鍵詞在文檔中的匹配權重，進而增強了用戶對于關鍵詞檢索的查全率。
[0103] 圖5是改進前后對lengthNorm因子的影響程度，改進前的陽 104] lengthNo

完整全部詳細技術資料下載

當前第3頁1 2 3 4

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種音樂資源聚合搜索的方法_3