一種音樂資源聚合搜索的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)信息檢索領(lǐng)域,具體是一種音樂資源聚合捜索的方法。
【背景技術(shù)】
[0002] 傳統(tǒng)捜索引擎的技術(shù)雖然在日趨完善,并作為一個(gè)強(qiáng)大的功能模塊也被應(yīng)用在了 多種類型的網(wǎng)站中,如音樂網(wǎng)站的檢索功能等,但由于用戶的需求的不斷發(fā)展和細(xì)化,傳統(tǒng) 的捜索引擎不足W滿足特定用戶群體,如音樂信息捜索類用戶的捜索需求,因此在音樂信 息采集和捜索運(yùn)一特定領(lǐng)域,傳統(tǒng)捜索引擎凸顯出了許多不足之處:
[0003] (1)傳統(tǒng)的捜索引擎由于只是單方面的從互聯(lián)網(wǎng)上爬取信息,所有信息均來自于 互聯(lián)網(wǎng);而主流的音樂網(wǎng)站對(duì)音樂的檢索資源均來自于網(wǎng)站本地?cái)?shù)據(jù)庫的資源,不包含任 何互聯(lián)網(wǎng)的信息,包含信息量相對(duì)較少,而且信息更新速度較低。二者均未實(shí)現(xiàn)對(duì)于音樂資 源的聚合式捜索,即本地媒體資源與互聯(lián)網(wǎng)信息的聚合捜索,導(dǎo)致捜索的信息淺表片面,無 法同時(shí)滿足音樂用戶對(duì)于信息的專業(yè)性和實(shí)時(shí)性的需求。
[0004] (2)在用戶需求特性方面,捜索引擎的用戶群體基數(shù)較大,個(gè)體之間的需求層次差 異也比較明顯,因此對(duì)于捜索結(jié)果的側(cè)重點(diǎn)也不盡相同。比如,一個(gè)藝人既是音樂人又是作 家,用戶想要側(cè)重捜索運(yùn)個(gè)藝人作為音樂人身份的相關(guān)信息,但傳統(tǒng)捜索引擎的捜索結(jié)果 W廣度捜索為主,呈現(xiàn)出的結(jié)果既有該藝人作為音樂人身份的信息,又有作為作家身份的 信息,運(yùn)就導(dǎo)致捜索結(jié)果部分無法滿足用戶深度垂直捜索的需求。 陽0化](3)由于各國的語言差異,分詞也成為了一個(gè)重要的障礙。例如,中文句子是由多 個(gè)單字組成,單字之間沒有英文中的空格標(biāo)識(shí),并且中文用戶在輸入捜索關(guān)鍵詞時(shí),也很少 有輸入空格將關(guān)鍵詞進(jìn)行劃分的習(xí)慣。因此,中文分詞及語義識(shí)別成為中文捜索引擎開發(fā) 改進(jìn)的重要課題,運(yùn)不僅關(guān)系到關(guān)鍵詞的提取,還會(huì)影響整個(gè)捜索結(jié)果的查準(zhǔn)率。
[0006] (4)在信息源與目標(biāo)頁面特性方面,互聯(lián)網(wǎng)上目前存在大量的僵尸網(wǎng)絡(luò)、重復(fù)信 息、廣告信息,隨著自助建站成本的降低,有不少網(wǎng)站往往采用采集別人站點(diǎn)的內(nèi)容加上廣 告,直接投入到了互聯(lián)網(wǎng)使用的情況,運(yùn)些網(wǎng)頁中充斥著大量冗余信息干擾著捜索引擎的 工作,例如網(wǎng)頁的U化超鏈接、編輯人員的注釋、版權(quán)聲明、廣告信息等。同時(shí),運(yùn)些冗余信 息也會(huì)影響捜索結(jié)果內(nèi)容的呈現(xiàn),譬如用戶目標(biāo)捜索某一關(guān)鍵字,在關(guān)鍵字出現(xiàn)的地方周 圍可能存在冗余信息,運(yùn)就會(huì)導(dǎo)致冗余信息和關(guān)鍵字一并呈現(xiàn)給用戶,致使捜索結(jié)果的查 準(zhǔn)率大幅降低。
[0007] (5)傳統(tǒng)的捜索引擎由于信息量過大,對(duì)于關(guān)鍵詞設(shè)及的各個(gè)領(lǐng)域的側(cè)重點(diǎn)無法 有效權(quán)衡,比如一個(gè)關(guān)鍵詞可能設(shè)及音樂、政治、經(jīng)濟(jì)等領(lǐng)域,相對(duì)于音樂捜索類用戶,排在 最前面的不一定是音樂領(lǐng)域的結(jié)果,運(yùn)就導(dǎo)致了捜索結(jié)果無法滿足特定用戶的排序需要; 此外,有些商業(yè)捜索引擎可能出于利益需要,將自己本網(wǎng)站的結(jié)果強(qiáng)制至于靠前位置或采 取競(jìng)價(jià)排序等方式,運(yùn)些排序方式都極大地降低了用戶捜索的查準(zhǔn)率和公平性。
[0008] (6)由于某些網(wǎng)站存在動(dòng)態(tài)的U化,傳統(tǒng)的捜索引擎中在捜索時(shí)可能誤W為不同 的U化隸屬于不同的網(wǎng)頁,因而導(dǎo)致捜索的結(jié)果中出現(xiàn)雷同重復(fù)的網(wǎng)頁,內(nèi)容大致相同, u化不同,運(yùn)也會(huì)降低捜索引擎查準(zhǔn)率,使得捜索引擎性能降低。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于提供一種專業(yè)性強(qiáng)、查準(zhǔn)率高的音樂資源聚合捜索的方法,W 解決上述【背景技術(shù)】中提出的問題。
[0010] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0011] 一種音樂資源聚合捜索的方法,具體步驟如下:
[0012] (1)將互聯(lián)網(wǎng)中的音樂信息進(jìn)行爬取;
[0013] (2)在爬取過程中進(jìn)行U化過濾、中文分詞處理,并分別對(duì)互聯(lián)網(wǎng)中的音樂信息及 本地庫的音樂資源建立全文索引;
[0014] 做在檢索時(shí)W改進(jìn)后BM25算法進(jìn)行聚合捜索,將互聯(lián)網(wǎng)中的音樂資源與本地庫 中的音樂資源聚合后呈現(xiàn)給用戶。
[0015] 作為本發(fā)明進(jìn)一步的方案:所述互聯(lián)網(wǎng)中的音樂資源來自于互聯(lián)網(wǎng)音樂信息模 塊,所述本地庫中的音樂資源來自于本地庫音樂資源模塊,所述互聯(lián)網(wǎng)音樂信息模塊和本 地庫音樂資源模塊均包括聚合捜索模塊,所述互聯(lián)網(wǎng)音樂信息模塊還包括互聯(lián)網(wǎng)信息爬取 模塊、中文分詞模塊、網(wǎng)頁U化過濾模塊、網(wǎng)頁去重模塊和改進(jìn)的BM25捜索結(jié)果排序算法模 塊,所述本地庫音樂資源模塊還包括全文索引模塊。
[0016] 作為本發(fā)明進(jìn)一步的方案:所述步驟(1)中進(jìn)行音樂信息爬取的具體步驟如下:
[0017] 1)首先注入初始的U化地址并建立爬取信息列表,讓網(wǎng)頁爬取模塊有根地址做起 占.
[0018] 2)W初始的U化為依據(jù),對(duì)每個(gè)網(wǎng)頁的外連接進(jìn)行篩選,選取鏈入數(shù)高的網(wǎng)頁作 為有限爬取對(duì)象進(jìn)行爬取;
[0019] 3)在爬取時(shí)對(duì)U化進(jìn)行解析,并進(jìn)行U化過濾、中文分詞處理;
[0020] 4)將處理之后的網(wǎng)頁數(shù)據(jù)存入互聯(lián)網(wǎng)音樂信息模塊,并檢查是否為爬取的最后一 層,若不是繼續(xù)執(zhí)行步驟2),若是則執(zhí)行步驟5);
[0021] 5)對(duì)所有存入互聯(lián)網(wǎng)音樂信息模塊的數(shù)據(jù)統(tǒng)一建立全文倒排索引。
[0022] 作為本發(fā)明再進(jìn)一步的方案:所述改進(jìn)的BM25捜索結(jié)果排序算法模塊的公式模 型如下:
[0023]
[0024] 其中,
[00巧]fieldNo;rm(t,d) =doc.ge1:Boost0 ·lengthNorm·nf.ge1:Boost0 (公式 2), 陽0%] 其中
(公式3),
[0027] numTerms表示每個(gè)文檔中詞項(xiàng)的數(shù)量。
[0028] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0029] 本發(fā)明能夠針對(duì)音樂捜索類的用戶運(yùn)一特定捜索群體,將互聯(lián)網(wǎng)上的音樂方面的 相關(guān)信息W及本地媒體數(shù)據(jù)庫的資源進(jìn)行聚合,并且對(duì)捜索結(jié)果進(jìn)行捜索結(jié)果排序優(yōu)化、 捜索結(jié)果冗余信息過濾和對(duì)關(guān)鍵字進(jìn)行中文分詞等處理,W-種更加專業(yè)、更加全面、更加 清晰、更加優(yōu)化的捜索結(jié)果呈獻(xiàn)給用戶,能夠極大地提高音樂捜索類運(yùn)一特定類型用戶捜 索結(jié)果的專業(yè)性、查準(zhǔn)率W及滿意度。
【附圖說明】
[0030] 圖1為本發(fā)明的模塊示意圖。
[0031] 圖2為本發(fā)明進(jìn)行音樂信息爬取的流程示意圖。
[0032] 圖3為本發(fā)明中i壯改進(jìn)前后的實(shí)驗(yàn)對(duì)比圖。
[0033] 圖4為本發(fā)明中tf改進(jìn)前后的實(shí)驗(yàn)對(duì)比圖。
[0034] 圖5為本發(fā)明中l(wèi)engthNorm改進(jìn)前后的實(shí)驗(yàn)對(duì)比圖。
【具體實(shí)施方式】
[0035] 下面結(jié)合【具體實(shí)施方式】對(duì)本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0036] 請(qǐng)參閱圖1-5,一種音樂資源聚合捜索的方法,具體步驟如下:
[0037] (1)將互聯(lián)網(wǎng)中的音樂信息進(jìn)行爬?。?br>[00測(cè) 似在爬取過程中進(jìn)行U化過濾、中文分詞處理,并分別對(duì)互聯(lián)網(wǎng)中的音樂信息及 本地庫的音樂資源建立全文索引;
[0039] (3)在檢索時(shí)W改進(jìn)后BM25算法進(jìn)行聚合捜索,將互聯(lián)網(wǎng)中的音樂資源與本地庫 中的音樂資源聚合后呈現(xiàn)給用戶。
[0040] 所述互聯(lián)網(wǎng)中的音樂資源來自于互聯(lián)網(wǎng)音樂信息模塊,所述本地庫中的音樂資源 來自于本地庫音樂資源模塊,所述互聯(lián)網(wǎng)音樂信息模塊和本地庫音樂資源模塊均包括聚合 捜索模塊,所述互聯(lián)網(wǎng)音樂信息模塊還包括互聯(lián)網(wǎng)信息爬取模塊、中文分詞模塊、網(wǎng)頁U化 過濾模塊、網(wǎng)頁去重模塊和改進(jìn)的BM25捜索結(jié)果排序算法模塊,所述本地庫音樂資源模塊 還包括全文索引模塊。
[0041] 所述步驟(1)中進(jìn)行音樂信息爬取的具體步驟如下:
[0042] 1)首先注