欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于爬蟲的貼音樂標(biāo)簽方法及系統(tǒng)的制作方法_2

文檔序號:9929624閱讀:來源:國知局
音樂標(biāo)簽的統(tǒng)一化問題。
[0054]5、本發(fā)明能夠持續(xù)不斷地為曲庫中的音樂貼上全面、高質(zhì)量的音樂標(biāo)簽,具有很好的可用性。
【附圖說明】
[0055]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0056]圖1為本發(fā)明的一個(gè)較佳實(shí)施例的基于爬蟲的貼音樂標(biāo)簽方法流程圖;
[0057]圖2為本發(fā)明的將歌單標(biāo)簽轉(zhuǎn)化為歌曲標(biāo)簽方法流程圖。
[0058]圖3為本發(fā)明的標(biāo)簽?zāi):ヅ浞椒鞒虉D。
[0059]圖4為本發(fā)明的標(biāo)簽融合方法流程圖。
【具體實(shí)施方式】
[0060]下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不能用來限制本發(fā)明的范圍。
[0061 ] 實(shí)施例一
[0062]請參見圖1至圖4,圖1是本實(shí)施例一中公開的基于爬蟲的貼音樂標(biāo)簽方法及各個(gè)相應(yīng)步驟的流程圖。如圖1至圖4所示,所述方法包括以下步驟:
[0063]S1、針對來自不同音樂網(wǎng)站的爬蟲音樂標(biāo)簽記錄進(jìn)行預(yù)處理;
[0064]S2、將歌單標(biāo)簽轉(zhuǎn)化為歌曲標(biāo)簽;
[0065]其中所述步驟S2中歌單標(biāo)簽轉(zhuǎn)化步驟具體為:
[0066]S21、針對每一小類標(biāo)簽,統(tǒng)計(jì)其在全部歌單標(biāo)簽記錄中的出現(xiàn)頻次;
[0067]S22、針對每一歌曲,統(tǒng)計(jì)其包含的小類標(biāo)簽以及對應(yīng)的頻次;
[0068]S23、針對每一歌曲,算出其每個(gè)歌單標(biāo)簽的可信值;
[0069 ] S24、篩選出該歌曲可信值較高的歌單標(biāo)簽;
[0070]S25、判斷是否還有其他歌曲,若是執(zhí)行步驟S23,否則結(jié)束。
[0071]S3、將爬蟲音樂標(biāo)簽記錄與曲庫音樂記錄進(jìn)行模糊匹配建立對應(yīng)關(guān)系;其中所述步驟S3中模糊匹配步驟具體為:
[0072]S31、根據(jù)爬蟲音樂標(biāo)簽記錄中的歌手名搜索曲庫;
[0073]S32、判斷搜索結(jié)果是否為空,若是執(zhí)行步驟S37,否則執(zhí)行步驟S33;
[0074]S33、將該爬蟲音樂標(biāo)簽記錄中的歌曲名與搜索結(jié)果中的歌曲名進(jìn)行模糊匹配,計(jì)算匹配相似值;
[0075]S34、判斷匹配相似值是否大于0.8,若是執(zhí)行步驟335,否則執(zhí)行步驟536;
[0076]S35、構(gòu)建該爬蟲音樂標(biāo)簽記錄與曲庫該匹配上的音樂記錄的對應(yīng)關(guān)系;
[0077]S36、判斷是否有下一條搜索結(jié)果,若是執(zhí)行步驟S33,否則執(zhí)行步驟S37;
[0078]S37、判斷是否有下一條爬蟲音樂標(biāo)簽記錄,若是執(zhí)行步驟S33,否則執(zhí)行結(jié)束。
[0079]S4、根據(jù)對應(yīng)關(guān)系按照標(biāo)簽融合規(guī)則進(jìn)行標(biāo)簽融合;其中所述步驟S4中標(biāo)簽融合步驟具體為:
[0080]S41、根據(jù)音樂標(biāo)簽體系構(gòu)建標(biāo)簽融合規(guī)則;
[0081]S42、根據(jù)模糊匹配對應(yīng)關(guān)系,找到曲庫音樂對應(yīng)的音樂標(biāo)簽;
[0082]S43、判斷該對應(yīng)標(biāo)簽是否需要融合,若是執(zhí)行步驟S44,否則執(zhí)行步驟S45;
[0083]S44、根據(jù)標(biāo)簽融合規(guī)則進(jìn)行標(biāo)簽融合;
[0084]S45、給曲庫音樂貼上標(biāo)簽;
[0085]S46、判斷是否有下一條對應(yīng)關(guān)系,若是執(zhí)行步驟S42,否則執(zhí)行步驟S47;
[0086]S47、根據(jù)標(biāo)簽篩選規(guī)則,對全部貼上標(biāo)簽的曲庫音樂進(jìn)行標(biāo)簽篩選。
[0087]上述方法是在爬蟲爬取多個(gè)音樂網(wǎng)站的音樂標(biāo)簽記錄的基礎(chǔ)上,對音樂標(biāo)簽記錄進(jìn)行預(yù)處理,提高了音樂標(biāo)簽記錄的可用性,同時(shí)保證了來自不同音樂網(wǎng)站的音樂標(biāo)簽記錄具有統(tǒng)一的格式;另外通過歌單標(biāo)簽可信值計(jì)算,將歌單標(biāo)簽轉(zhuǎn)化為歌曲標(biāo)簽,提高了標(biāo)簽的可信度;利用編輯距離算法,將爬蟲爬取到的音樂標(biāo)簽記錄中的歌曲名與未貼標(biāo)簽的曲庫中的歌曲名進(jìn)行模糊匹配,建立對應(yīng)關(guān)系,提高了爬蟲音樂標(biāo)簽記錄的利用率,在保證標(biāo)簽準(zhǔn)確性的前提下,最大限度地給曲庫貼上更多的音樂標(biāo)簽;同時(shí)根據(jù)多個(gè)音樂網(wǎng)站的音樂標(biāo)簽構(gòu)建一套完整的音樂標(biāo)簽體系,以音樂標(biāo)簽體系的標(biāo)簽為基準(zhǔn),構(gòu)建標(biāo)簽融合規(guī)則對曲庫音樂記錄進(jìn)行標(biāo)簽融合,解決了來源不同的音樂標(biāo)簽的統(tǒng)一化問題,本發(fā)明能夠持續(xù)不斷地為曲庫中的音樂貼上全面、高質(zhì)量的音樂標(biāo)簽,具有很好的可用性。
[0088]其中,爬蟲音樂標(biāo)簽記錄是指通過爬蟲爬取到的音樂記錄,音樂記錄的內(nèi)容包括歌手名、歌曲名、大類標(biāo)簽、小類標(biāo)簽、歌單名稱和網(wǎng)站來源。
[0089]進(jìn)一步地,所述大類標(biāo)簽包括語種、風(fēng)格、心情、場景、主題等標(biāo)簽。
[0090]進(jìn)一步地,所述小類標(biāo)簽是指屬于所述大類標(biāo)簽的標(biāo)簽,包括英語、流行、傷感、學(xué)習(xí)等標(biāo)簽。所述歌曲標(biāo)簽和歌單標(biāo)簽都屬于小類標(biāo)簽。
[0091]進(jìn)一步地,所述預(yù)處理包括去除所述爬蟲音樂標(biāo)簽記錄中的無關(guān)字符,將多個(gè)歌手的連接符統(tǒng)一為加號等。其中,上述無關(guān)字符包括歌曲名中的書名號4符號,?符號,html轉(zhuǎn)義符號等。
[0092]進(jìn)一步地,小類標(biāo)簽還包括歌單標(biāo)簽和歌曲標(biāo)簽,所述歌單標(biāo)簽是用戶創(chuàng)建完歌單后,為歌單貼上的標(biāo)簽,而不是針對歌單內(nèi)的每首歌曲,所述歌曲標(biāo)簽是指用戶聽完一首歌曲后,為歌曲貼上的標(biāo)簽。
[0093]某一首歌曲可能出現(xiàn)在多個(gè)歌單中,多個(gè)歌單可能會貼上相同的所述歌單標(biāo)簽,從而該歌曲會貼上多次相同的所述歌單標(biāo)簽,貼上相同的所述歌單標(biāo)簽越多,則該歌曲貼上該所述歌單標(biāo)簽的可信值越高。但是不同的所述歌單標(biāo)簽流行趨勢不同,例如流行這個(gè)小類標(biāo)簽出現(xiàn)頻次很高,由于該標(biāo)簽具有普適性,不足以說明該標(biāo)簽可信值高,所以需要統(tǒng)計(jì)所述歌單標(biāo)簽在全部小類標(biāo)簽的占比,對比重比較大的所述歌單標(biāo)簽做懲罰。
[0094]進(jìn)一步地,計(jì)算某一歌曲關(guān)于歌單標(biāo)簽的可信值,具體步驟為:
[0095]設(shè)歌單標(biāo)簽記錄包含η個(gè)小類標(biāo)簽,小類標(biāo)簽ti(i= 1,2,3,...,η)在全部歌單標(biāo)簽記錄中的頻次為F1,某一歌曲包含歌單標(biāo)簽tk,該歌曲被貼上該歌單標(biāo)簽的頻次為fk,利用公式fk*(0.4+0.6*(F1-Fmin)/(Fmax-Fmin)),其中Fmax是指FllF2,...Fn的最大值,F(xiàn)min是指F1,F2,...最小值,計(jì)算該歌曲包含的歌單標(biāo)簽tk的可信值。
[0096]進(jìn)一步地,所述曲庫音樂記錄是指存在某種存儲介質(zhì)中沒有貼標(biāo)簽的音樂記錄。
[0097]進(jìn)一步地,所述模糊匹配采用編輯距離算法來計(jì)算歌曲名之間的匹配相似值。
[0098]進(jìn)一步地,所述計(jì)算匹配相似值,具體步驟為:
[0099]設(shè)爬蟲音樂標(biāo)簽記錄的歌曲名字符串為S1,曲庫搜索結(jié)果的歌曲名字符串為S2,通過編輯距離算法計(jì)算出51與&的編輯距離L,通過(S1-L)/S1計(jì)算出51與&匹配相似值。
[0100]示例性的,例如kitten轉(zhuǎn)為sitting,需要將k轉(zhuǎn)為S,e轉(zhuǎn)為i,最后在末尾再添加g,故編輯距離為3。通過上述舉例可知,所述編輯距離算法是指兩個(gè)字符串中,其中一個(gè)字符串轉(zhuǎn)化成另一個(gè)字符串的編輯次數(shù),編輯次數(shù)越少,相似度越大。
[0101]進(jìn)一步地,所述音樂標(biāo)簽體系包含大類標(biāo)簽,小類標(biāo)簽以及大類標(biāo)簽和小類標(biāo)簽之間的隸屬關(guān)系。
[0102]進(jìn)一步地,所述標(biāo)簽融合規(guī)則是指表述不同但是意義相同的標(biāo)簽之間的映射規(guī)貝IJ,包括快樂_>開心,悲傷_>傷感等。該步驟通過人工的方式建立映射規(guī)則。
[0103]進(jìn)一步地,所述標(biāo)簽融合是指將不同表述但是意義相同的標(biāo)簽按照所述標(biāo)簽融合規(guī)則融合成統(tǒng)一的標(biāo)簽。
[0104]進(jìn)一步地,所述根據(jù)音樂標(biāo)簽體系構(gòu)建標(biāo)簽融合規(guī)則,具體步驟為:
[0105]統(tǒng)計(jì)所述爬蟲音樂標(biāo)簽記錄中的全部所述小類標(biāo)簽的頻次,剔除一些頻次比較低的小眾標(biāo)簽,根據(jù)篩選后的所述小類標(biāo)簽,通過人工的方式構(gòu)建所述音樂標(biāo)簽體系,對表述不同但是意義相同的標(biāo)簽構(gòu)建映射規(guī)則生成所述音樂標(biāo)簽體系的所述小類標(biāo)簽。
[0106]其中,所述標(biāo)簽篩選規(guī)則是指在每個(gè)所述大類標(biāo)簽下選擇所述小類標(biāo)簽的規(guī)則。
[0107]上述公開的基于爬蟲的貼音樂標(biāo)簽方法可以持續(xù)不斷地為曲庫中的音樂貼上全面、尚質(zhì)量的首樂標(biāo)簽,具有很好的可用性。
[0108]實(shí)施例二
[0109]對應(yīng)于上述方法存在一種基于爬蟲的貼音樂標(biāo)簽系統(tǒng),所述系統(tǒng)包括:
[0110]數(shù)據(jù)預(yù)處理模塊,用于針對來自不同音樂網(wǎng)站的爬蟲音樂標(biāo)簽記錄進(jìn)行預(yù)處理使其具有統(tǒng)一的格式;包括去除所述無關(guān)字符,將多個(gè)歌手的連接符統(tǒng)一為加號等。
[0111]標(biāo)簽轉(zhuǎn)化模塊,用于通過歌單標(biāo)簽可信值計(jì)算,將歌單標(biāo)簽轉(zhuǎn)化為歌曲
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
津南区| 慈利县| 韶山市| 磐安县| 南安市| 彰化县| 大同市| 扬中市| 武功县| 杭锦旗| 汕头市| 宜宾县| 石嘴山市| 临桂县| 钟山县| 肥东县| 宝清县| 巴林右旗| 醴陵市| 塔河县| 荆门市| 塘沽区| 海口市| 兰坪| 溧阳市| 铜山县| 六安市| 绥阳县| 股票| 双鸭山市| 阿鲁科尔沁旗| 舒城县| 鄂托克前旗| 兴海县| 江城| 禹州市| 静海县| 垣曲县| 泉州市| 濮阳市| 洛阳市|