欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種音樂資源聚合搜索的方法_2

文檔序號:9524266閱讀:來源:國知局
入初始的U化地址并建立爬取信息列表,讓網(wǎng)頁爬取模塊有根地址做起 占.
[0043] 2)W初始的URL為依據(jù),對每個網(wǎng)頁的外連接進行篩選,選取鏈入數(shù)高的網(wǎng)頁作 為有限爬取對象進行爬??;
[0044] 3)在爬取時對U化進行解析,并進行U化過濾、中文分詞處理;
[0045] 4)將處理之后的網(wǎng)頁數(shù)據(jù)存入互聯(lián)網(wǎng)音樂信息模塊,并檢查是否為爬取的最后一 層,若不是繼續(xù)執(zhí)行步驟2),若是則執(zhí)行步驟5);
[0046] 5)對所有存入互聯(lián)網(wǎng)音樂信息模塊的數(shù)據(jù)統(tǒng)一建立全文倒排索引。
[0047] 所述中文分詞模塊在該系統(tǒng)的網(wǎng)頁信息的爬取過程中,對網(wǎng)頁信息進行了中文分 詞處理,W便用戶在日后的使用中系統(tǒng)能自動識別中文詞語。詞語是最小的能夠進行獨立 處理的語言單位,英語單詞之間是w空格作為自然分割的,而中文是w單個的字為基本的 語言單位,詞語與詞語之間沒有明顯的區(qū)分標記,中文詞語分析在信息檢索時需要使用。中 文分詞處理過程中利用了中文詞典,其原理是按照逐個詞語遍歷詞典,詞典中的所有詞按 由長到短的順序在文章中逐詞捜索,迭代至文章結(jié)束。 W48] 網(wǎng)頁U化過濾模塊:在網(wǎng)頁爬取解析時,存在一定的冗余信息的情況。比如,在爬 取網(wǎng)頁時,一些類似U化超鏈接的非正文的信息也會作為文本爬取下來,運將會極大地降 低網(wǎng)頁的查準率。因此在爬取過程中,需要利用對錯標簽的正則匹配原理,將父標簽和子標 簽中含有"虹ef"等有關(guān)超鏈接的冗余信息從爬區(qū)的文本信息中過濾掉,循環(huán)迭代至全部網(wǎng) 頁到爬取完畢為止。
[0049] 網(wǎng)頁去重模塊:在爬取網(wǎng)頁時,會遇到爬取重復網(wǎng)頁的情況,有的網(wǎng)頁雖然U化不 同,但是內(nèi)容大致相同,在此種情況下,需要采用網(wǎng)頁去重,其原理為不只是W網(wǎng)頁的U化 作為判斷網(wǎng)頁是否相同的根據(jù),還需要對網(wǎng)頁文本信息進行CRC校驗,如果校驗相似度大 于70%,則可W斷定兩個網(wǎng)頁是類似的,已達到濾除相似網(wǎng)頁的目的,增大網(wǎng)頁查準率。
[0050] 所述改進的BM25捜索結(jié)果排序算法模塊的公式模型如下:
[0051]
陽05引 其中,
[0053]fieldNo;rm(t,d) =doc.ge1:Boost0 ·lengthNorm·nf.ge1:Boost0 (公式 2),
[0054] 其中
(公式如,
[005引 numTerms表示每個文檔中詞項的數(shù)量。
[0056] 在Lucene中,默認的捜索結(jié)構(gòu)排序方式是的TF/IDF捜索模型,運種排序方式是W 評分制為基礎(chǔ)進行排序,其總體計算捜索結(jié)果得分的公式如下:
[0057] score(q,d) =coord(q,d) *queryNo;rm(q) *Σtind(tf(tind)*idf(t))
[0058]*t.getBoost0 *fieldNorm(t,d)) (公式 4),
[0059] 其中,score(q,d)代表了每一個捜索結(jié)果項的總得分,其中的參數(shù)q代表了捜索 關(guān)鍵詞或關(guān)鍵詞組,d代表了被捜索的已索引過的文檔組群,每一個捜索結(jié)果項都是依據(jù)運 個分數(shù)的高低進行排序的,分數(shù)越高,排名越靠前。
[0060] c〇〇rd(q,d)為協(xié)調(diào)因子,其公式為coord^d)=Overlap/maxOverlap,(公式 5),
[0061] 其中,Overlap為在某個域(Field)中捜索關(guān)鍵詞命中的個數(shù),而'maxOverlap;為 在所有域中捜索關(guān)鍵詞命中的個數(shù),該協(xié)調(diào)因子會按照在域中的命中比例影響捜索結(jié)果項 的最終得分。
[0062] queryNorm(q)是計算每一個捜索結(jié)果條目的方差之和,其具體公式為
[0063] queryNormh) = 1/(sumOfSquare抓ei曲ts~ (0. 5))(公式 6),
[0064] 但是運一項并不會影響到排序的結(jié)果,只是作為不同捜索關(guān)鍵詞或詞組之間用分 數(shù)予W區(qū)分比較之用。 陽0化]tf(tind)是關(guān)鍵詞命中的匹配數(shù)t在某一個被命中的文檔d中所出現(xiàn)的頻率,所 出現(xiàn)的頻率越高,其計算的結(jié)果值越大,用W代表該文檔在所有被匹配文檔中的重要性。
[0066] idfW是被命中的捜索關(guān)鍵詞的倒頻率,用W說明表示被命中關(guān)鍵詞T在所有 的被命中的文檔中所出現(xiàn)的頻率。其具體計算公式為
[0067] idf(t) =log(nmiiDocs/(docRreq+1)+1 (公式 7), 陽068] 其中numDocs是語料庫文檔總數(shù),doc化eq是包含該捜索關(guān)鍵詞的文檔數(shù),如果它 在所有被命中的文檔中出現(xiàn)的頻率越高,則表明運個命中詞項T在排序結(jié)果中越不重要, 其得分越低。
[0069]t.ge巧oostO是指捜索關(guān)鍵詞或詞組中每一個項的權(quán)重,可W在查詢之前特別增 加或減少某一個關(guān)鍵詞的權(quán)重,但在默認情況下,每一個關(guān)鍵詞的權(quán)重是相等的,此項在非 特殊情況下不會進行修改。 陽070] fieldNorm(t,d)為表示文檔長度和文檔得分相關(guān)的關(guān)系??蒞運么理解;若A文 檔有包含了 1000個詞項,關(guān)鍵詞出現(xiàn)的頻率為10 ;而B文檔包20個詞項,相同關(guān)鍵詞出現(xiàn) 的頻率為8 ;很明顯B文檔的打分應該要高一些;由此函數(shù)可W起到運樣的效果。
[0071] 其具體公式為
[0072]fieldNo;rm(t,d) =doc.ge1:Boost0 ·lengthNorm·nf.ge1:Boost0 (公式 8),
[0073] 其中doc.ge巧oostQ為文檔權(quán)重,此值越大代表文檔越重要;f.ge巧oostQ為域 權(quán)重,此值越大代表域越重要;lengthNorm的具體公式為
[0074] lengthNorm= 1. 0/ (numTerms'O. 5)(公式 9),
[00巧]numTerms表示每個文檔中詞項的數(shù)量,即每個被匹配的文檔長度,如果文檔越長, 表示該捜索關(guān)鍵詞在該文檔中的價值越低,使得lengthNorm的值越低。
[0076] 但是,TF/IDF模型也同時存在著很大的缺陷性。比如,在捜索一個歌手時,用戶可 能期待的結(jié)果是是將百科、音樂網(wǎng)站的個人主頁等結(jié)果至于前面的位置,運些網(wǎng)頁普遍的 特點是是被匹配的捜索關(guān)鍵詞頻率高且文檔長度大的特點,但是TF^DF模型會將匹配文 檔長度作為很大的權(quán)重參與評分,導致捜索關(guān)鍵詞頻率高且文檔長度越大的網(wǎng)頁很難排在 靠前的位置,反而像一些歌詞類的網(wǎng)頁由于文檔長度低且被匹配的關(guān)鍵詞所占的比例高, 其匹配個數(shù)比百科類的網(wǎng)頁低,運就會導致排序結(jié)果并非用戶所需求的結(jié)果。
[0077] 對于上述問題,TF/IDF捜索模型不具備靈活性,而且文檔長度權(quán)重影響較高,因此 我們提出了一種基于BM25捜索模型基礎(chǔ)上的改進模型,它具有相比TF^DF捜索模型的高 靈活性W及權(quán)重可控機制,對于根據(jù)用戶需要調(diào)整排序性能方面有顯著的優(yōu)勢,其機制也 為評分機制,在原公式的基礎(chǔ)上修改后的公式模型如(公式1)
[0078] 本算法主要的改動部分是改進了TF和IDF的計算部分,拓展了二元獨立模型得分 函數(shù)。其牛
取代了原IDF的計算部 分:
取代了原TF的計算部分,fieldNo;rm(t,d)中l(wèi)engthNorm計算部 分進行了調(diào)整,W下進行詳細說明。
[0079] 在 中,r和R為相關(guān)系數(shù),可用于 指定不同文檔之間的特殊情況正相關(guān),如果沒有特別指定,默認值均值為0,numDocs是語 料庫文檔總數(shù),doc化eq是包含該捜索關(guān)鍵詞的文檔數(shù)。對于已建立索引的文檔集來說,包 含捜索關(guān)鍵詞或詞組的文檔數(shù)量越多,捜索關(guān)鍵詞或詞組的權(quán)重則越低,因為文檔集中很 多文檔都涵蓋了捜索關(guān)鍵詞或詞組時,關(guān)鍵詞之間的可區(qū)分程
當前第2頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
临清市| 佛冈县| 加查县| 遂昌县| 浮山县| 会理县| 石门县| 巴楚县| 泊头市| 天柱县| 太谷县| 兴仁县| 上饶市| 吕梁市| 安庆市| 香格里拉县| 晋城| 图木舒克市| 乌鲁木齐县| 姚安县| 峡江县| 宜川县| 昭觉县| 克什克腾旗| 新乐市| 玉山县| 城口县| 肇庆市| 闵行区| 尼木县| 开远市| 平安县| 蛟河市| 邵阳市| 普宁市| 长乐市| 井陉县| 高碑店市| 富阳市| 翼城县| 乌兰察布市|