本發(fā)明涉及電子
技術(shù)領(lǐng)域:
,尤其涉及一種音樂片段提取方法和設(shè)備。
背景技術(shù):
:現(xiàn)階段,人們對智能終端的需求越來越趨向于個(gè)性化,例如,設(shè)置自己喜歡的壁紙、主題或者鈴聲的等等。在設(shè)置鈴聲時(shí),用戶一般需要自己截取自己喜歡的音樂的某一音樂片段作為鈴聲,但是截取音樂片段需要使用一些軟件工具,還需要掌握一些截取技巧等等,因此對用戶的要求很高,便利性太低。現(xiàn)有的方案中,鈴聲提供商會(huì)將已經(jīng)制作好的鈴聲提供給用戶下載和使用,但是通常鈴聲提供商提供的這些已經(jīng)制作好的鈴聲也都是根據(jù)一些當(dāng)時(shí)比較流行的歌曲中適合作為鈴聲的片段進(jìn)行人工截取的,需要很多人力和時(shí)間;另外,由于鈴聲所用的音樂片段都是人工選擇和截取的,因此精確度也不高,技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種音樂片段提取方法和設(shè)備,可以基于大量的節(jié)目音頻數(shù)據(jù),聚類出出現(xiàn)頻率較高的音樂片段并生成鈴聲,從而節(jié)約人力成本并提高鈴聲制作的精確度。本發(fā)明第一方面提供一種音樂片段提取方法,包括:分別從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,得到多個(gè)節(jié)目音頻段;分別獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)以及所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù);根據(jù)所述節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,并獲取與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù);通過將所述多個(gè)節(jié)目音頻數(shù)據(jù)中的目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,從而得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段;根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段。本發(fā)明第二方面提供一種音樂片段提取設(shè)備,包括:音頻段提取模塊,用于分別從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,得到多個(gè)節(jié)目音頻段;指紋數(shù)據(jù)獲取模塊,用于分別獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù);能量編碼數(shù)據(jù)獲取模塊,用于獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù);節(jié)目音樂確定模塊,用于根據(jù)所述節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),并將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂;所述能量編碼數(shù)據(jù)獲取模塊,還用于獲取與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù);時(shí)間片段確定模塊,用于通過將所述多個(gè)節(jié)目音頻數(shù)據(jù)中的目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,從而得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段;音樂片段輸出模塊,用于根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段。本發(fā)明實(shí)施例中,通過提取節(jié)目音頻數(shù)據(jù)中的至少一個(gè)節(jié)目音頻段,獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)以及與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)并將兩者進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段,可以基于大量的節(jié)目音頻數(shù)據(jù),聚類出出現(xiàn)頻率較高的音樂片段并生成鈴聲,從而節(jié)約人力成本并提高鈴聲制作的精確度。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例提供的一種音樂片段提取方法的流程示意圖;圖2是本發(fā)明實(shí)施例提供的一種音樂片段提取設(shè)備的結(jié)構(gòu)示意圖;圖3是本發(fā)明實(shí)施例提供的指紋數(shù)據(jù)獲取模塊的結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例提供的時(shí)間片段確定模塊的結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例提供的音樂片段輸出模塊的結(jié)構(gòu)示意圖;圖6是本發(fā)明實(shí)施例提供的另一種音樂片段提取設(shè)備的結(jié)構(gòu)示意圖;圖7是本發(fā)明實(shí)施例提供的另一種音樂片段提取設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。圖1是本發(fā)明實(shí)施例提供的一種音樂片段提取方法的流程示意圖,本方法流程可以由音樂片段提取設(shè)備實(shí)施,所述音樂片段提取設(shè)備可以為數(shù)據(jù)處理設(shè)備。如圖所示,所述方法至少包括:步驟S101,分別從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,得到多個(gè)節(jié)目音頻段。具體的,視頻數(shù)據(jù)或者電臺(tái)節(jié)目等音頻數(shù)據(jù)中都包含了很多精心挑選的用戶比較喜歡的歌曲,而且?guī)в袝r(shí)效性、熱點(diǎn)性和經(jīng)典性。本發(fā)明實(shí)施例中的節(jié)目音頻數(shù)據(jù)就是指視頻數(shù)據(jù)庫(電影、電視劇、電視節(jié)目等)以及電臺(tái)節(jié)目音頻數(shù)據(jù)庫中的音頻數(shù)據(jù)。具體實(shí)施中,音樂片段提取設(shè)備可以從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,其中至少一個(gè)節(jié)目音頻段可以是音樂片段提取設(shè)備對每個(gè)節(jié)目音頻數(shù)據(jù)按照預(yù)設(shè)的幀長和幀移進(jìn)行分割,從而得到多個(gè)相同時(shí)長的節(jié)目音頻段。例如,可以以10s為幀長,1s為幀移對某一個(gè)電影的音頻數(shù)據(jù)進(jìn)行分割,從而得到多個(gè)以10s為單位的節(jié)目音頻段,也即得到多個(gè)以10s為單位的數(shù)據(jù)幀。進(jìn)一步的,在提取至少一個(gè)節(jié)目音頻段之前,音樂片段提取設(shè)備可以先將每個(gè)節(jié)目音頻數(shù)據(jù)轉(zhuǎn)換為8k16bit的PCM格式。步驟S102,分別獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)。具體的,音頻指紋數(shù)據(jù)是指可以用來表征每個(gè)節(jié)目音頻段的一種數(shù)據(jù)。具體實(shí)施中,針對某一目標(biāo)節(jié)目音頻段,音樂片段提取設(shè)備可以先通過傅里葉變換提取目標(biāo)節(jié)目音頻段的頻譜數(shù)據(jù),然后再根據(jù)頻譜數(shù)據(jù)提取目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn),在目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對。在選取相鄰頻譜峰值點(diǎn)對時(shí),音樂片段提取設(shè)備先確定一個(gè)目標(biāo)頻譜峰值點(diǎn),然后獲取該目標(biāo)頻譜峰值點(diǎn)周圍預(yù)設(shè)區(qū)域內(nèi),與該目標(biāo)頻譜峰值點(diǎn)的時(shí)間差最小的預(yù)設(shè)數(shù)目個(gè)頻譜峰值點(diǎn),該目標(biāo)頻譜峰值點(diǎn)與在其周圍確定的時(shí)間差最小的預(yù)設(shè)數(shù)目個(gè)頻譜峰值點(diǎn)分別組成相鄰頻譜峰值點(diǎn)對。例如,設(shè)目標(biāo)頻譜峰值點(diǎn)為A(t1,f1),音樂片段提取可以預(yù)先設(shè)定目標(biāo)區(qū)域?yàn)闀r(shí)間區(qū)域15~63幀、頻域區(qū)域-31~31個(gè)頻帶的區(qū)域范圍,預(yù)設(shè)數(shù)目為2,設(shè)在目標(biāo)頻譜峰值點(diǎn)A附近的目標(biāo)區(qū)域內(nèi)的所有頻譜峰值點(diǎn)中,頻譜峰值點(diǎn)B(t2,f2)和C(t3,f3)對應(yīng)的時(shí)間參數(shù)是與目標(biāo)頻譜峰值點(diǎn)A的時(shí)間差最小的兩個(gè)頻譜峰值點(diǎn),則音樂片段提取設(shè)備可以選取A和B、A和C作為兩對相鄰頻譜峰值點(diǎn)對。進(jìn)一步,針對某一目標(biāo)相鄰頻譜峰值點(diǎn)對,音樂片段提取設(shè)備可以獲取該目標(biāo)相鄰頻譜峰值點(diǎn)對包含的兩個(gè)頻譜峰值點(diǎn)分別對應(yīng)的頻率參數(shù)和時(shí)間參數(shù),根據(jù)頻率參數(shù)和時(shí)間參數(shù)確定目標(biāo)相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值。比如指紋特征值可以是兩個(gè)頻譜峰值點(diǎn)中的任一個(gè)頻譜峰值點(diǎn)的頻率參數(shù)和時(shí)間參數(shù)以及兩個(gè)頻譜峰值點(diǎn)分別對應(yīng)的頻率參數(shù)的差以及時(shí)間參數(shù)的差形成的數(shù)據(jù)結(jié)構(gòu)。例如,A(t1,f1)和B(t2,f2)這對相鄰頻譜峰值點(diǎn)對,t1、f1以及t2、f2分別為A和B的時(shí)間參數(shù)和頻率參數(shù),其指紋特征值就可以為D{t1,f1,Δf,Δt},其中,其中Δf=f2-f1,Δt=t2-t1。按照上述方法,音樂片段提取設(shè)備可以獲取目標(biāo)節(jié)目音頻段的所有相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值,將這些指紋特征值通過預(yù)設(shè)的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式,轉(zhuǎn)換為對應(yīng)的音頻指紋數(shù)據(jù)。例如,獲取到的某一個(gè)指紋特征值為D{t1,f1,Δf,Δt},音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式可以具體表示為:Y=f1·2^12+Δf·2^6+Δt。需要說明的是,由于人對聲音感知時(shí),短時(shí)譜峰值頻率點(diǎn)之間是相互影響,一個(gè)頻率分量可能掩蔽與其相近的頻率分量,即所謂的聽覺掩蔽效應(yīng)。因此音樂片段提取設(shè)備在選擇峰值頻率點(diǎn)時(shí)需要使選取的峰值點(diǎn)沿時(shí)間和頻率軸分布比較均勻,可以將距離較小的峰值點(diǎn)裁剪掉,以保證峰值點(diǎn)間的間距。具體實(shí)施中,在目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對之前,音樂片段提取設(shè)備可以檢測目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中是否存在頻率差小于預(yù)設(shè)頻率閾值并且時(shí)間差小于預(yù)設(shè)時(shí)間閾值的掩蔽頻譜峰值點(diǎn)對,也即是否存在可能產(chǎn)生聽覺掩效應(yīng)的頻譜峰值點(diǎn),若存在,則音樂片段提取設(shè)備可以將掩蔽頻譜峰值點(diǎn)對被掩蔽的頻譜峰值點(diǎn)濾除。步驟S103,獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)。具體的,音樂片段提取設(shè)備按照預(yù)設(shè)的幀長和幀移對多個(gè)節(jié)目音頻數(shù)據(jù)進(jìn)行采樣和分幀處理,然后對每一幀節(jié)目音頻數(shù)據(jù)進(jìn)行傅里葉變換得到頻譜,將得到的頻譜平均分成預(yù)設(shè)數(shù)量的n個(gè)頻段,為每個(gè)頻段計(jì)算均值作為此頻段的頻譜能量。也就是說,每一幀音頻數(shù)據(jù)對應(yīng)n個(gè)頻段,每個(gè)頻段對應(yīng)存在一個(gè)頻譜能量。接著音樂片段提取設(shè)備按照每一幀在節(jié)目音頻數(shù)據(jù)中的時(shí)間順序,依次比較每一幀的每個(gè)頻段的頻譜能量與上一幀的每個(gè)頻段的頻譜能量之間的大小關(guān)系,根據(jù)比較得到結(jié)果,確定每一幀的頻譜能量編碼,從而可以確定每個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù),該頻譜能量編碼數(shù)據(jù)由每個(gè)節(jié)目音頻數(shù)據(jù)中的各個(gè)音頻幀的頻譜能量編碼組成。在一種可能的實(shí)施場景中,音樂片段提取設(shè)備可以先將每個(gè)節(jié)目音頻數(shù)據(jù)的格式解碼為8k16bit的PCM格式,然后按照預(yù)設(shè)的1856個(gè)采樣點(diǎn)為一幀、58個(gè)采樣點(diǎn)為幀移對確定的每個(gè)節(jié)目音頻數(shù)據(jù)進(jìn)行分幀處理,對每一幀節(jié)目音頻數(shù)據(jù)進(jìn)行傅里葉變換得到頻譜后,將得到的頻譜平均分成32個(gè)頻段,為每個(gè)頻段計(jì)算均值作為此頻段的頻譜能量。接著音樂片段提取設(shè)備按照每一幀在節(jié)目音頻數(shù)據(jù)中的時(shí)間順序,依次比較每一幀的每個(gè)頻段的頻譜能量與上一幀的每個(gè)頻段的頻譜能量之間的大小關(guān)系,當(dāng)某一目標(biāo)音頻幀的目標(biāo)頻段的頻譜能量大于該目標(biāo)音頻幀的上一音頻幀對應(yīng)頻段的頻譜能量時(shí),可以將該目標(biāo)頻段的對比結(jié)果確定為1,當(dāng)某一目標(biāo)音頻幀的目標(biāo)頻段的頻譜能量小于該目標(biāo)音頻幀的上一音頻幀對應(yīng)頻段的頻譜能量時(shí),可以將該目標(biāo)頻段的對比結(jié)果設(shè)為0,從而根據(jù)比較得到結(jié)果,音樂片段提取設(shè)備可以得到目標(biāo)音頻幀的32個(gè)頻段與該目標(biāo)音頻幀的上一音頻幀的32個(gè)頻段的比較結(jié)果,最終得到目標(biāo)音頻幀的32位頻譜能量編碼。例如,設(shè)節(jié)目音頻數(shù)據(jù)A中的某一音樂幀n2,其上一音樂幀為n1,經(jīng)過比較后得到音樂幀n2的32位頻譜能量編碼為10……11,也就是說,n2相較于n1來說,n2的第一個(gè)頻段的頻譜能量大于n1,n2的第二個(gè)頻段的頻譜能量小于n1,n2的最后兩個(gè)頻段的頻譜能量均大于n1。需要說明的是,本發(fā)明實(shí)施例中步驟S102與步驟S103沒有必然的執(zhí)行先后順序,也可以同時(shí)執(zhí)行,這里不作具體限定。步驟S104,根據(jù)所述節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),并將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂。具體的,預(yù)設(shè)的音樂指紋數(shù)據(jù)庫是指包含多個(gè)音樂指紋數(shù)據(jù)以及各音樂指紋數(shù)據(jù)對應(yīng)的音樂的數(shù)據(jù)存儲(chǔ)空間。其中,音樂指紋數(shù)據(jù)庫中的音樂指紋數(shù)據(jù)是音樂片段提取設(shè)備從音樂曲庫中獲取大量的音樂,然后按照與步驟S101和步驟S102所描述的方法類似的方法,對大量的音樂數(shù)據(jù)進(jìn)行分幀處理,對每一幀數(shù)據(jù)進(jìn)行傅里葉變換并提取頻譜,再提取頻譜峰值點(diǎn),選取至少一對相鄰頻譜峰值點(diǎn)對,獲取每一對相鄰頻譜峰值點(diǎn)對包含的兩個(gè)頻譜峰值點(diǎn)分別對應(yīng)的頻率參數(shù)和時(shí)間參數(shù),根據(jù)頻率參數(shù)和時(shí)間參數(shù)確定每一對相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值,將這些指紋特征值通過預(yù)設(shè)的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式,轉(zhuǎn)換為對應(yīng)的音頻指紋數(shù)據(jù)。其中,這里的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式與步驟S102中預(yù)設(shè)的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式設(shè)置為同一個(gè)??梢岳斫獾氖牵粋€(gè)音頻指紋數(shù)據(jù)是從某一目標(biāo)音樂的音頻數(shù)據(jù)中提取出來的,因此一個(gè)音頻指紋數(shù)據(jù)必然存在一個(gè)對應(yīng)的音樂,一個(gè)音樂可以存在多個(gè)對應(yīng)的音頻指紋數(shù)據(jù)。在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中,每一個(gè)音樂可以有一個(gè)標(biāo)識(shí),音樂指紋數(shù)據(jù)庫就可以存儲(chǔ)多個(gè)音頻指紋數(shù)據(jù)與其對應(yīng)的音樂標(biāo)識(shí)的映射關(guān)系。在本發(fā)明實(shí)施例中,音樂片段提取設(shè)備確定了多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)后,就在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找是否存在各個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),當(dāng)存在某一節(jié)目音頻段的音頻指紋數(shù)據(jù)時(shí),則獲取該音頻指紋數(shù)據(jù)對應(yīng)的音樂,并將該音樂作為節(jié)目音樂。進(jìn)一步的,音樂片段提取設(shè)備還可以對每個(gè)音頻指紋數(shù)據(jù)對應(yīng)的音樂出現(xiàn)的重復(fù)次數(shù)進(jìn)行計(jì)數(shù),將重復(fù)次數(shù)超過預(yù)設(shè)的次數(shù)閾值的音樂作為節(jié)目音樂。又進(jìn)一步的,音樂片段提取設(shè)備還可以對每個(gè)音頻指紋數(shù)據(jù)對應(yīng)的音樂出現(xiàn)的重復(fù)次數(shù)進(jìn)行計(jì)數(shù),對重復(fù)次數(shù)進(jìn)行排序,獲取排序中排名前N個(gè)重復(fù)次數(shù)對應(yīng)的音樂作為節(jié)目音樂,N為預(yù)先設(shè)定的。從而,音樂片段提取設(shè)備就可以獲取多個(gè)節(jié)目音樂,也即獲取到在大量視頻的音頻數(shù)據(jù)或電臺(tái)的音頻數(shù)據(jù)中出現(xiàn)的多個(gè)節(jié)目音樂。例如,如表1所示為音樂指紋數(shù)據(jù)庫中存儲(chǔ)的多個(gè)音頻指紋數(shù)據(jù)與音樂標(biāo)識(shí)的映射關(guān)系表,設(shè)音樂片段提取設(shè)備提取到的10個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)分別為:A1、A2、A2、A2、A3、A4、A3、B3、B4、B1。在一種可能的實(shí)施場景中,音樂片段提取設(shè)備可以確定多個(gè)音頻指紋數(shù)據(jù)對應(yīng)的音樂為音樂標(biāo)識(shí)1和音樂標(biāo)識(shí)2對應(yīng)的音樂,并將音樂標(biāo)識(shí)1和音樂標(biāo)識(shí)2對應(yīng)的音樂確定為節(jié)目音樂。在另一種可能的實(shí)施場景中,音樂片段提取設(shè)備可以確定多個(gè)音頻指紋數(shù)據(jù)中對應(yīng)的音樂標(biāo)識(shí)1對應(yīng)的音樂的出現(xiàn)次數(shù)為7,多個(gè)音頻指紋數(shù)據(jù)中對應(yīng)音樂標(biāo)識(shí)2對應(yīng)的音樂的出現(xiàn)次數(shù)為3,若預(yù)設(shè)的次數(shù)閾值為6,那么音樂標(biāo)識(shí)1的音樂的出現(xiàn)次數(shù)超過了次數(shù)閾值,則可以將音樂標(biāo)識(shí)1對應(yīng)的音樂作為節(jié)目音樂。在又一種可能的實(shí)施場景中,音樂片段提取設(shè)備預(yù)先設(shè)定僅取重復(fù)次數(shù)排名第一的音樂為節(jié)目音樂,那么音樂標(biāo)識(shí)1的音樂的重復(fù)次數(shù)排名第一,即作為節(jié)目音樂。音頻指紋數(shù)據(jù)音樂標(biāo)識(shí)A1、A2、A3、A41B1、B2、B3、B42C1、C2、C3、C43…………N1、N2、N3、N4n表1:音頻指紋數(shù)據(jù)與音樂標(biāo)識(shí)映射關(guān)系表(示例)步驟S105,獲取與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)。具體的,音樂片段提取設(shè)備確定了節(jié)目音樂后,可以重新按照預(yù)設(shè)的幀長和幀移對各個(gè)節(jié)目音樂進(jìn)行采樣和分幀處理,然后對每一幀音頻數(shù)據(jù)進(jìn)行傅里葉變換得到頻譜,將得到的頻譜平均分成預(yù)設(shè)數(shù)量的n個(gè)頻段,為每個(gè)頻段計(jì)算均值作為此頻段的頻譜能量。也就是說,每一幀音頻數(shù)據(jù)對應(yīng)n個(gè)頻段,每個(gè)頻段對應(yīng)存在一個(gè)頻譜能量。接著音樂片段提取設(shè)備按照每一幀在節(jié)目音樂中的時(shí)間順序,依次比較每一幀的每個(gè)頻段的頻譜能量與上一幀的每個(gè)頻段的頻譜能量之間的大小關(guān)系,根據(jù)比較得到結(jié)果,確定每一幀的頻譜能量編碼,從而可以確定每個(gè)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù),該頻譜能量編碼數(shù)據(jù)由每個(gè)節(jié)目音樂的音頻數(shù)據(jù)中的各個(gè)音頻幀的頻譜能量編碼組成。在一種可能的實(shí)施場景中,音樂片段提取設(shè)備可以先將節(jié)目音樂的格式解碼為8k16bit的PCM格式,然后按照預(yù)設(shè)的1856個(gè)采樣點(diǎn)為一幀、58個(gè)采樣點(diǎn)為幀移對確定的每個(gè)節(jié)目音樂進(jìn)行分幀處理,對每一幀音頻數(shù)據(jù)進(jìn)行傅里葉變換得到頻譜后,將得到的頻譜平均分成32個(gè)頻段,為每個(gè)頻段計(jì)算均值作為此頻段的頻譜能量。接著音樂片段提取設(shè)備按照每一幀在節(jié)目音樂中的時(shí)間順序,依次比較每一幀的每個(gè)頻段的頻譜能量與上一幀的每個(gè)頻段的頻譜能量之間的大小關(guān)系,當(dāng)某一目標(biāo)音頻幀的目標(biāo)頻段的頻譜能量大于該目標(biāo)音頻幀的上一音頻幀對應(yīng)頻段的頻譜能量時(shí),可以將該目標(biāo)頻段的對比結(jié)果確定為1,當(dāng)某一目標(biāo)音頻幀的目標(biāo)頻段的頻譜能量小于該目標(biāo)音頻幀的上一音頻幀對應(yīng)頻段的頻譜能量時(shí),可以將該目標(biāo)頻段的對比結(jié)果設(shè)為0,從而根據(jù)比較得到結(jié)果,音樂片段提取設(shè)備可以得到目標(biāo)音頻幀的32個(gè)頻段與該目標(biāo)音頻幀的上一音頻幀的32個(gè)頻段的比較結(jié)果,最終得到目標(biāo)音頻幀的32位頻譜能量編碼。例如,設(shè)節(jié)目音樂A中的某一音樂幀n2,其上一音樂幀為n1,經(jīng)過比較后得到音樂幀n2的32位頻譜能量編碼為10……11,也就是說,n2相較于n1來說,n2的第一個(gè)頻段的頻譜能量大于n1,n2的第二個(gè)頻段的頻譜能量小于n1,n2的最后兩個(gè)頻段的頻譜能量均大于n1。需要說明的是,本發(fā)明實(shí)施例中步驟S104與步驟S105沒有必然的執(zhí)行先后順序,也可以同時(shí)執(zhí)行,這里不作具體限定。步驟S106,通過將所述多個(gè)節(jié)目音頻數(shù)據(jù)中的目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,從而得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。具體的,這里的目標(biāo)節(jié)目音頻數(shù)據(jù)可以是多個(gè)節(jié)目音頻數(shù)據(jù)中的任何一個(gè)節(jié)目音頻數(shù)據(jù),也就是說音樂片段提取設(shè)備將多個(gè)節(jié)目音頻數(shù)據(jù)中的每一個(gè)節(jié)目音頻數(shù)據(jù)依次作為目標(biāo)節(jié)目音頻數(shù)據(jù),并確定每一個(gè)與目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。在第一種可能的實(shí)施場景中,音樂片段提取設(shè)備可以將某一目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,確定出兩者的頻譜能量編碼數(shù)據(jù)中相互匹配的至少一段連續(xù)的頻譜能量編碼數(shù)據(jù),從而可以確定至少一段連續(xù)的相互匹配的頻譜能量編碼數(shù)據(jù)所對應(yīng)的目標(biāo)節(jié)目音樂中的音頻幀,從而得到目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的至少一個(gè)時(shí)間片段。例如,目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較后,可以確定其中目標(biāo)節(jié)目音樂的音樂幀n2~n5以及n7~n9的頻譜能量編碼數(shù)據(jù)與目標(biāo)節(jié)目音樂對應(yīng)的目標(biāo)節(jié)目音頻數(shù)據(jù)的兩段頻譜能量編碼數(shù)據(jù)相互匹配,則可以確定目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段為音樂幀n2~n5以及n7~n9對應(yīng)的音頻數(shù)據(jù)。在第二種可能的實(shí)施場景中,音樂片段提取設(shè)備通過將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,確定出兩者的頻譜能量編碼數(shù)據(jù)中相互匹配的至少一段連續(xù)的頻譜能量編碼數(shù)據(jù)后,選擇其中匹配長度最長的一段連續(xù)的頻譜能量編碼數(shù)據(jù),從而可以確定該段最長的連續(xù)的相互匹配的頻譜能量編碼數(shù)據(jù)所對應(yīng)的目標(biāo)節(jié)目音樂中的音頻幀,從而得到目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的一個(gè)最長的時(shí)間片段。例如,目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較后,可以確定其中,目標(biāo)節(jié)目音樂的音樂幀n2~n5以及n7~n9的頻譜能量編碼數(shù)據(jù)與目標(biāo)節(jié)目音樂對應(yīng)的目標(biāo)節(jié)目音頻數(shù)據(jù)的兩段頻譜能量編碼數(shù)據(jù)相互匹配,其中n2~n5比n7~n9的匹配長度長,因此可以確定目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段為音樂幀n2~n5對應(yīng)的音頻數(shù)據(jù)。在第三種可能的實(shí)施場景中,音樂片段提取設(shè)備通過將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,在目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中查找與目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例大于預(yù)設(shè)匹配比例閾值的最長時(shí)間片段,作為目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。也就是說,音樂片段提取設(shè)備先確定出兩者的頻譜能量編碼數(shù)據(jù)中相互匹配的至少一段連續(xù)的頻譜能量編碼數(shù)據(jù)后,選擇其中匹配長度最長的一段連續(xù)的頻譜能量編碼數(shù)據(jù)作為參考匹配片段,然后以該參考匹配片段為中心,向該參考匹配片段的上一段時(shí)間片段或者后一段時(shí)間片段擴(kuò)展,直至獲取到一個(gè)目標(biāo)時(shí)間片段,可以使目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段的頻譜能量編碼數(shù)據(jù)與目標(biāo)節(jié)目音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段的頻譜能量編碼數(shù)據(jù)的匹配比例大于預(yù)設(shè)匹配比例閾值,也即確定可以使目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)與目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例大于預(yù)設(shè)匹配比例閾值的目標(biāo)時(shí)間片段,該目標(biāo)時(shí)間片段即為目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。進(jìn)一步的,音樂片段提取設(shè)備可以獲取每個(gè)時(shí)間片段出現(xiàn)的起始時(shí)間、結(jié)束時(shí)間以及目標(biāo)節(jié)目音樂的音樂標(biāo)識(shí),用來表征每個(gè)時(shí)間片段。需要說明的是,目標(biāo)節(jié)目音頻數(shù)據(jù)包括多個(gè)音頻幀,目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)也包括多個(gè)音頻幀,如步驟S105所述,每個(gè)音頻幀都有對應(yīng)的頻譜能量編碼,因此音樂片段提取設(shè)備在將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較時(shí),可以先將目標(biāo)節(jié)目音頻數(shù)據(jù)的每個(gè)音頻幀的頻譜能量編碼與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的每個(gè)音頻幀的頻譜能量編碼進(jìn)行比較,也就是將兩者的每個(gè)音頻幀的頻譜能量編碼的每一位進(jìn)行對比,若目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀的頻譜能量編碼與目標(biāo)節(jié)目音樂的音頻幀的頻譜能量編碼的匹配度達(dá)到預(yù)設(shè)匹配度閾值,也即如果兩者的頻譜能量編碼的匹配的位數(shù)達(dá)到預(yù)設(shè)的預(yù)設(shè)匹配度閾值,則確定該目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀為目標(biāo)節(jié)目音樂的音頻幀的匹配幀。對于第三種可能的實(shí)施情況,音樂片段提取設(shè)備確定目標(biāo)節(jié)目音頻數(shù)據(jù)與目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)之間的所有匹配幀后,可以確定連續(xù)的匹配幀數(shù)量最多的一段時(shí)間片段中某一段連續(xù)的時(shí)間片段作為參考匹配片段,然后以該參考匹配片段為中心,向該參考匹配片段的上一段時(shí)間片段或者后一段時(shí)間片段擴(kuò)展,直至獲取到一個(gè)目標(biāo)時(shí)間片段,可以使目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段中與目標(biāo)節(jié)目音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段中匹配幀數(shù)量與目標(biāo)時(shí)間片段的總幀數(shù)的比值大于預(yù)設(shè)匹配比例閾值,也即匹配比例大于預(yù)設(shè)匹配比例閾值,則該目標(biāo)時(shí)間片段即為目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。例如,一個(gè)目標(biāo)節(jié)目音頻數(shù)據(jù)有30個(gè)音頻幀,一個(gè)目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)有20個(gè)音頻幀,則分別以目標(biāo)節(jié)目音頻數(shù)據(jù)的1~10音頻幀為起始點(diǎn)分別與目標(biāo)節(jié)目音樂的20個(gè)音頻幀比較。設(shè)每個(gè)音頻幀對應(yīng)32位頻譜能量編碼,30為預(yù)設(shè)匹配度閾值,則音樂片段提取設(shè)備可以統(tǒng)計(jì)每次比對時(shí),幀與幀之間相同位的數(shù)量,將匹配位數(shù)大于30的音頻幀標(biāo)記為匹配幀。然后找出目標(biāo)節(jié)目音頻數(shù)據(jù)與目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)之間匹配幀數(shù)量最多的一段時(shí)間片段為第3幀~第13幀。然后提取第3幀~第13幀中最長的一段連續(xù)片段作為參考匹配片段,設(shè)參考匹配片段為第3幀~第8幀,并以此為中心向兩邊進(jìn)行擴(kuò)展,其中第1幀、第2幀和第9幀為不匹配幀,第10幀~第13幀為匹配幀。若設(shè)匹配比例閾值為90%,則可以擴(kuò)展得到一個(gè)第3幀~第13幀的目標(biāo)時(shí)間片段,在該目標(biāo)時(shí)間片段中的匹配幀數(shù)為10,總的音頻幀數(shù)量為11,匹配比例10/11大于預(yù)設(shè)的匹配比例閾值90%,從而可以確定目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中的第3幀~第13幀為目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。進(jìn)而,音樂片段提取設(shè)備可以獲取目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中的第3幀~第13幀所對應(yīng)的起始時(shí)間、結(jié)束時(shí)間以及該目標(biāo)節(jié)目音樂的音樂標(biāo)識(shí),組成一個(gè)三元組信息來表示目標(biāo)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。例如,三元組可以為(10231,221,546),其中,10231為音樂標(biāo)識(shí),221和546為起始時(shí)間信息和結(jié)束時(shí)間信息,按照四舍五入的方式規(guī)整為以100ms為最小單位,也就是0.1s。即該三元組代表音樂標(biāo)識(shí)為10231的音樂中第22.1秒到第54.6秒在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)。步驟S107,根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段。具體的,音樂片段提取設(shè)備得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段后,可以根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段的重復(fù)次數(shù),確定各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)最多的至少一個(gè)預(yù)設(shè)時(shí)長的時(shí)間片段作為對應(yīng)節(jié)目音樂的備選片段。也就是說,音樂片段提取設(shè)備對各個(gè)目標(biāo)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的每一個(gè)時(shí)間片段的重復(fù)次數(shù)進(jìn)行統(tǒng)計(jì),然后確定一段時(shí)間長度為預(yù)設(shè)時(shí)長的目標(biāo)時(shí)間片段,該預(yù)設(shè)時(shí)長的目標(biāo)時(shí)間片段所包含的各個(gè)時(shí)間片段的重復(fù)次數(shù)的和,是目標(biāo)節(jié)目音樂中所有在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的各時(shí)間片段中在預(yù)設(shè)的時(shí)長內(nèi)重復(fù)次數(shù)的和最大的一段時(shí)間片段,音樂片段提取設(shè)備將該預(yù)設(shè)時(shí)長的目標(biāo)時(shí)間片段作為備選片段。根據(jù)該方法,音樂片段提取設(shè)備就可以確定各個(gè)節(jié)目音樂的備選片段。進(jìn)一步的,音樂片段提取設(shè)備根據(jù)各個(gè)備選片段在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù),將至少一個(gè)備選片段確定為音樂片段并輸出。也就是說,音樂片段提取設(shè)備在確定了每個(gè)節(jié)目音樂的備選片段后,需要從這些備選片段中選擇一定數(shù)量的備選片段作為音樂片段進(jìn)行輸出。因此,音樂片段提取設(shè)備可以對每個(gè)節(jié)目音樂的備選片段在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)進(jìn)行排序,獲取重復(fù)次數(shù)排序中的前N個(gè)節(jié)目音樂的備選片段作為音樂片段進(jìn)行輸出,其中,N可以預(yù)先設(shè)定的需要獲取的備選片段的數(shù)量,也可以是在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)超過預(yù)設(shè)的重復(fù)閾值的備選片段的數(shù)量決定的。例如,設(shè)確定了三首節(jié)目音樂,音樂標(biāo)識(shí)分別為1、2和3,以100ms為單位進(jìn)行重復(fù)次數(shù)的投票計(jì)數(shù),每首節(jié)目音樂的總時(shí)長設(shè)為150秒(這里僅為舉例,真實(shí)情況每首歌曲長度不等,投票單元按實(shí)際長度設(shè)置),則一共有3*150*10=4500個(gè)投票單元。若音樂片段提取設(shè)備與10個(gè)節(jié)目音頻數(shù)據(jù)進(jìn)行匹配后,得到的3個(gè)節(jié)目音樂在10個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段分別為如下三元組:(1,223,478)(1,328,568)(1,402,756)(1,404,742)(1,534,912)(1,1230,1498)(2,221,546)(2,245,631)(2,382,664)(3,986,1132)初始投票單元均為0,以(1,223,478)為例,則對第223~478個(gè)投票單元的投票計(jì)數(shù)加1,(2,221,546)為例,則對第1721~2046個(gè)投票單元加1(1721是指1500+221=1721),按照該原理,可以得出以下投票結(jié)果:1~222(投票單元):0223~327:1328~401:2402~403:3404~478:4479~533:3534~568:4569~742:3743~756:2757~912:1913~1229:01230~1498:11499~1720:01721~1744:11745~1881:21882~2046:32047~2131:22132~2164:12165~3985:03986~4132:14133~4500:0其中,以1~222:0為例,表示1~222的每個(gè)投票單元的票數(shù)均為0,以223~327:1為例,表示223~327的每個(gè)投票單元的票數(shù)均為1。設(shè)預(yù)設(shè)時(shí)長為30s,則音樂片段提取設(shè)備需要計(jì)算這三首節(jié)目音樂中票數(shù)排名前N個(gè)的30s內(nèi)的連續(xù)音頻作為備選片段。本例中可以設(shè)N為2,音樂片段提取設(shè)備可以獲得票數(shù)排名前兩名的30s片段,本例結(jié)果取票數(shù)排名前兩名則為[402~701]與[1747~2046]這兩個(gè)時(shí)間片段。則音樂片段提取設(shè)備可以從節(jié)目音樂1截取40.2秒到第70.1秒的片段,從節(jié)目音樂2截取24.7秒到第54.6秒的片段,作為音樂片段輸出。其中,音樂片段提取設(shè)備可以根據(jù)預(yù)設(shè)的最大票數(shù)公式,獲取預(yù)設(shè)時(shí)長內(nèi)票數(shù)最多的時(shí)間片段,在本例中,預(yù)設(shè)的最大票數(shù)公式可以為:其中,i表示投票單元i,xj表示第j個(gè)投票單元的投票數(shù)大小,表示連續(xù)300個(gè)投票單元的投票數(shù)大小的和。通過預(yù)設(shè)的最大票數(shù)公式,獲取票數(shù)最的30秒片段的排名。可以理解的,音樂片段提取設(shè)備將至少一個(gè)備選片段確定為音樂片段后,在輸出之前,需要將有時(shí)間的沖突的片段去掉,也就是每一個(gè)音樂片段均不能有共同的片段。本發(fā)明實(shí)施例中的音樂片段可以用于作為鈴聲提供給用于進(jìn)行使用。進(jìn)一步的,音樂片段提取設(shè)備可以不僅可以按照上述方法根據(jù)備選片段在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)確定至少一個(gè)音樂片段,還可以結(jié)合多個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的熱點(diǎn)權(quán)重值確定各個(gè)備選片段的投票計(jì)數(shù)值,將投票計(jì)數(shù)值最高的預(yù)設(shè)數(shù)量個(gè)備選片段確定為所述音樂片段并輸出。例如,可以設(shè)定音樂標(biāo)識(shí)1的節(jié)目音樂對應(yīng)的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值為2,那么在對音樂標(biāo)識(shí)1的節(jié)目音樂的備選片段進(jìn)行投票時(shí),每重復(fù)一次的投票計(jì)數(shù)都為2,例如,在上例中音樂標(biāo)識(shí)1的節(jié)目音樂的223~327的投票單元的投票計(jì)數(shù)值即為2。需要說明的是,音樂片段提取設(shè)備可以根據(jù)節(jié)目音頻數(shù)據(jù)的時(shí)效性和熱點(diǎn)性對節(jié)目音頻數(shù)據(jù)對應(yīng)熱點(diǎn)權(quán)重值進(jìn)行預(yù)先設(shè)置,例如,新出品的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值可以設(shè)置的比較高,如近一周上線的電影對應(yīng)的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值為10,近一個(gè)月上線的電影對應(yīng)的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值為5等。又進(jìn)一步的,當(dāng)音樂片段提取設(shè)備獲取到新的節(jié)目音樂或者節(jié)目音頻數(shù)據(jù)時(shí),可以重新執(zhí)行本實(shí)施例的步驟,從而獲取更新后的至少一個(gè)音樂片段。本發(fā)明實(shí)施例中,通過提取節(jié)目音頻數(shù)據(jù)中的至少一個(gè)節(jié)目音頻段,獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)以及與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)并將兩者進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段,可以基于大量的節(jié)目音頻數(shù)據(jù),聚類出出現(xiàn)頻率較高的音樂片段并生成鈴聲,從而節(jié)約人力成本并提高鈴聲制作的精確度。下面將結(jié)合圖2-圖6,對本發(fā)明實(shí)施例提供的音樂片段提取設(shè)備進(jìn)行詳細(xì)介紹。需要說明的是,圖2-圖6所示的音樂片段提取設(shè)備,用于執(zhí)行本發(fā)明圖1所示實(shí)施例的方法,為了便于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,具體技術(shù)細(xì)節(jié)未揭示的,請參照本發(fā)明圖1所示的實(shí)施例。圖2是本發(fā)明實(shí)施例提供的一種音樂片段提取設(shè)備的結(jié)構(gòu)示意圖,所述音樂片段提取設(shè)備包括:音頻段提取模塊210,用于分別從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,得到多個(gè)節(jié)目音頻段。具體的,視頻數(shù)據(jù)或者電臺(tái)節(jié)目等音頻數(shù)據(jù)中都包含了很多精心挑選的用戶比較喜歡的歌曲,而且?guī)в袝r(shí)效性、熱點(diǎn)性和經(jīng)典性。本發(fā)明實(shí)施例中的節(jié)目音頻數(shù)據(jù)就是指視頻數(shù)據(jù)庫(電影、電視劇、電視節(jié)目等)以及電臺(tái)節(jié)目音頻數(shù)據(jù)庫中的音頻數(shù)據(jù)。具體實(shí)施中,音頻段提取模塊210可以從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,其中至少一個(gè)節(jié)目音頻段可以是音樂片段提取設(shè)備對每個(gè)節(jié)目音頻數(shù)據(jù)按照預(yù)設(shè)的幀長和幀移進(jìn)行分割,從而得到多個(gè)相同時(shí)長的節(jié)目音頻段。例如,可以以10s為幀長,1s為幀移對某一個(gè)電影的音頻數(shù)據(jù)進(jìn)行分割,從而得到多個(gè)以10s為單位的節(jié)目音頻段,也即得到多個(gè)以10s為單位的數(shù)據(jù)幀。進(jìn)一步的,在提取至少一個(gè)節(jié)目音頻段之前,音頻段提取模塊210可以先將每個(gè)節(jié)目音頻數(shù)據(jù)轉(zhuǎn)換為8k16bit的PCM格式。指紋數(shù)據(jù)獲取模塊220,用于分別獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)。具體的,音頻指紋數(shù)據(jù)是指可以用來表征每個(gè)節(jié)目音頻段的一種數(shù)據(jù)。可選的,可以一并參見圖3,圖3是本發(fā)明實(shí)施例提供的指紋數(shù)據(jù)獲取模塊的結(jié)構(gòu)示意圖,所述指紋數(shù)據(jù)獲取模塊220包括:峰值點(diǎn)提取單元221,用于提取目標(biāo)節(jié)目音頻段的各幀音頻數(shù)據(jù)的頻譜峰值點(diǎn)。具體實(shí)施中,針對某一目標(biāo)節(jié)目音頻段,指紋數(shù)據(jù)獲取模塊220可以先通過傅里葉變換提取目標(biāo)節(jié)目音頻段的頻譜數(shù)據(jù),然后峰值點(diǎn)提取單元221再根據(jù)頻譜數(shù)據(jù)提取目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)。峰值點(diǎn)對選取單元222,用于在各幀音頻數(shù)據(jù)的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對。峰值點(diǎn)對選取單元222在目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對。在選取相鄰頻譜峰值點(diǎn)對時(shí),峰值點(diǎn)對選取單元222先確定一個(gè)目標(biāo)頻譜峰值點(diǎn),然后獲取該目標(biāo)頻譜峰值點(diǎn)周圍預(yù)設(shè)區(qū)域內(nèi),與該目標(biāo)頻譜峰值點(diǎn)的時(shí)間差最小的預(yù)設(shè)數(shù)目個(gè)頻譜峰值點(diǎn),該目標(biāo)頻譜峰值點(diǎn)與在其周圍確定的時(shí)間差最小的預(yù)設(shè)數(shù)目個(gè)頻譜峰值點(diǎn)分別組成相鄰頻譜峰值點(diǎn)對。特征值確定單元223,用于根據(jù)目標(biāo)相鄰頻譜峰值點(diǎn)對的頻率參數(shù)和時(shí)間參數(shù),確定目標(biāo)相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值。進(jìn)一步,針對某一目標(biāo)相鄰頻譜峰值點(diǎn)對,特征值確定單元223可以獲取該目標(biāo)相鄰頻譜峰值點(diǎn)對包含的兩個(gè)頻譜峰值點(diǎn)分別對應(yīng)的頻率參數(shù)和時(shí)間參數(shù),根據(jù)頻率參數(shù)和時(shí)間參數(shù)確定目標(biāo)相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值。比如指紋特征值可以是兩個(gè)頻譜峰值點(diǎn)中的任一個(gè)頻譜峰值點(diǎn)的頻率參數(shù)和時(shí)間參數(shù)以及兩個(gè)頻譜峰值點(diǎn)分別對應(yīng)的頻率參數(shù)的差以及時(shí)間參數(shù)的差形成的數(shù)據(jù)結(jié)構(gòu)。例如,A(t1,f1)和B(t2,f2)這對相鄰頻譜峰值點(diǎn)對,t1、f1以及t2、f2分別為A和B的時(shí)間參數(shù)和頻率參數(shù),其指紋特征值就可以為D{t1,f1,Δf,Δt},其中,其中Δf=f2-f1,Δt=t2-t1。指紋數(shù)據(jù)確定單元224,用于根據(jù)所有相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值,確定所述目標(biāo)節(jié)目音頻段的音頻指紋數(shù)據(jù)。按照上述方法,可以獲取目標(biāo)節(jié)目音頻段的所有相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值,指紋數(shù)據(jù)確定單元224將這些指紋特征值通過預(yù)設(shè)的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式,轉(zhuǎn)換為對應(yīng)的音頻指紋數(shù)據(jù)。例如,獲取到的某一個(gè)指紋特征值為D{t1,f1,Δf,Δt},音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式可以具體表示為:Y=f1·2^12+Δf·2^6+Δt。節(jié)目音樂確定模塊230,用于根據(jù)所述節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),并將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂。具體的,預(yù)設(shè)的音樂指紋數(shù)據(jù)庫是指包含多個(gè)音樂指紋數(shù)據(jù)以及各音樂指紋數(shù)據(jù)對應(yīng)的音樂的數(shù)據(jù)存儲(chǔ)空間。其中,音樂指紋數(shù)據(jù)庫中的音樂指紋數(shù)據(jù)是音樂片段提取設(shè)備從音樂曲庫中獲取大量的音樂,然后節(jié)目音樂確定模塊230按照與音頻段提取模塊210和指紋數(shù)據(jù)獲取模塊220所描述的方法類似的方法,對大量的音樂數(shù)據(jù)進(jìn)行分幀處理,對每一幀數(shù)據(jù)進(jìn)行傅里葉變換并提取頻譜,再提取頻譜峰值點(diǎn),選取至少一對相鄰頻譜峰值點(diǎn)對,獲取每一對相鄰頻譜峰值點(diǎn)對包含的兩個(gè)頻譜峰值點(diǎn)分別對應(yīng)的頻率參數(shù)和時(shí)間參數(shù),根據(jù)頻率參數(shù)和時(shí)間參數(shù)確定每一對相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值,將這些指紋特征值通過預(yù)設(shè)的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式,轉(zhuǎn)換為對應(yīng)的音頻指紋數(shù)據(jù)。其中,這里的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式與指紋數(shù)據(jù)獲取模塊220中預(yù)設(shè)的音頻指紋數(shù)據(jù)的轉(zhuǎn)換公式設(shè)置為同一個(gè)??梢岳斫獾氖?,一個(gè)音頻指紋數(shù)據(jù)是從某一目標(biāo)音樂的音頻數(shù)據(jù)中提取出來的,因此一個(gè)音頻指紋數(shù)據(jù)必然存在一個(gè)對應(yīng)的音樂,一個(gè)音樂可以存在多個(gè)對應(yīng)的音頻指紋數(shù)據(jù)。在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中,每一個(gè)音樂可以有一個(gè)標(biāo)識(shí),音樂指紋數(shù)據(jù)庫就可以存儲(chǔ)多個(gè)音頻指紋數(shù)據(jù)與其對應(yīng)的音樂標(biāo)識(shí)的映射關(guān)系。在本發(fā)明實(shí)施例中,節(jié)目音樂確定模塊230確定了多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)后,就在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找是否存在各個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),當(dāng)存在某一節(jié)目音頻段的音頻指紋數(shù)據(jù)時(shí),則獲取該音頻指紋數(shù)據(jù)對應(yīng)的音樂,并將該音樂作為節(jié)目音樂。進(jìn)一步的,節(jié)目音樂確定模塊230還可以對每個(gè)音頻指紋數(shù)據(jù)對應(yīng)的音樂出現(xiàn)的重復(fù)次數(shù)進(jìn)行計(jì)數(shù),將重復(fù)次數(shù)超過預(yù)設(shè)的次數(shù)閾值的音樂作為節(jié)目音樂。從而,節(jié)目音樂確定模塊230就可以獲取多個(gè)節(jié)目音樂,也即獲取到在大量視頻的音頻數(shù)據(jù)或電臺(tái)的音頻數(shù)據(jù)中出現(xiàn)的多個(gè)節(jié)目音樂。能量編碼數(shù)據(jù)獲取模塊240,用于獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù),還用于獲取與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)。具體的,確定了節(jié)目音樂后,能量編碼數(shù)據(jù)獲取模塊240可以重新按照預(yù)設(shè)的幀長和幀移對各個(gè)節(jié)目音樂進(jìn)行采樣和分幀處理,然后對每一幀音頻數(shù)據(jù)進(jìn)行傅里葉變換得到頻譜,將得到的頻譜平均分成預(yù)設(shè)數(shù)量的n個(gè)頻段,為每個(gè)頻段計(jì)算均值作為此頻段的頻譜能量。也就是說,每一幀音頻數(shù)據(jù)對應(yīng)n個(gè)頻段,每個(gè)頻段對應(yīng)存在一個(gè)頻譜能量。接著能量編碼數(shù)據(jù)獲取模塊240按照每一幀在節(jié)目音樂中的時(shí)間順序,依次比較每一幀的每個(gè)頻段的頻譜能量與上一幀的每個(gè)頻段的頻譜能量之間的大小關(guān)系,根據(jù)比較得到結(jié)果,確定每一幀的頻譜能量編碼,從而可以確定每個(gè)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù),該頻譜能量編碼數(shù)據(jù)由每個(gè)節(jié)目音樂的音頻數(shù)據(jù)中的各個(gè)音頻幀的頻譜能量編碼組成。在一種可能的實(shí)施場景中,能量編碼數(shù)據(jù)獲取模塊240可以先將節(jié)目音樂的格式解碼為8k16bit的PCM格式,然后按照預(yù)設(shè)的1856個(gè)采樣點(diǎn)為一幀、58個(gè)采樣點(diǎn)為幀移對確定的每個(gè)節(jié)目音樂進(jìn)行分幀處理,對每一幀音頻數(shù)據(jù)進(jìn)行傅里葉變換得到頻譜后,將得到的頻譜平均分成32個(gè)頻段,為每個(gè)頻段計(jì)算均值作為此頻段的頻譜能量。接著能量編碼數(shù)據(jù)獲取模塊240按照每一幀在節(jié)目音樂中的時(shí)間順序,依次比較每一幀的每個(gè)頻段的頻譜能量與上一幀的每個(gè)頻段的頻譜能量之間的大小關(guān)系,當(dāng)某一目標(biāo)音頻幀的目標(biāo)頻段的頻譜能量大于該目標(biāo)音頻幀的上一音頻幀對應(yīng)頻段的頻譜能量時(shí),可以將該目標(biāo)頻段的對比結(jié)果確定為1,當(dāng)某一目標(biāo)音頻幀的目標(biāo)頻段的頻譜能量小于該目標(biāo)音頻幀的上一音頻幀對應(yīng)頻段的頻譜能量時(shí),可以將該目標(biāo)頻段的對比結(jié)果設(shè)為0,從而根據(jù)比較得到結(jié)果,音樂片段提取設(shè)備可以得到目標(biāo)音頻幀的32個(gè)頻段與該目標(biāo)音頻幀的上一音頻幀的32個(gè)頻段的比較結(jié)果,最終得到目標(biāo)音頻幀的32位頻譜能量編碼。例如,設(shè)節(jié)目音樂A中的某一音樂幀n2,其上一音樂幀為n1,經(jīng)過比較后得到音樂幀n2的32位頻譜能量編碼為10……11,也就是說,n2相較于n1來說,n2的第一個(gè)頻段的頻譜能量大于n1,n2的第二個(gè)頻段的頻譜能量小于n1,n2的最后兩個(gè)頻段的頻譜能量均大于n1。按照上述方法,能量編碼數(shù)據(jù)獲取模塊240可以獲取用于確定節(jié)目音樂的每個(gè)節(jié)目音頻段所對應(yīng)的節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)。時(shí)間片段確定模塊250,用于通過所述多個(gè)節(jié)目音頻數(shù)據(jù)中的將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,從而得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。具體的,這里的目標(biāo)節(jié)目音頻數(shù)據(jù)可以是多個(gè)節(jié)目音頻數(shù)據(jù)中的任何一個(gè)節(jié)目音頻數(shù)據(jù),也就是說音樂片段提取設(shè)備將多個(gè)節(jié)目音頻數(shù)據(jù)中的每一個(gè)節(jié)目音頻數(shù)據(jù)依次作為目標(biāo)節(jié)目音頻數(shù)據(jù),并確定每一個(gè)與目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。在第一種可能的實(shí)施場景中,時(shí)間片段確定模塊250確定了各個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)和節(jié)目音樂的頻譜能量編碼數(shù)據(jù)之后,可以將某一目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,確定出兩者的頻譜能量編碼數(shù)據(jù)中相互匹配的至少一段連續(xù)的頻譜能量編碼數(shù)據(jù),從而可以確定至少一段連續(xù)的相互匹配的頻譜能量編碼數(shù)據(jù)所對應(yīng)的目標(biāo)節(jié)目音樂中的音頻幀,從而得到目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的至少一個(gè)時(shí)間片段。在第二種可能的實(shí)施場景中,時(shí)間片段確定模塊250通過將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,確定出兩者的頻譜能量編碼數(shù)據(jù)中相互匹配的至少一段連續(xù)的頻譜能量編碼數(shù)據(jù)后,選擇其中匹配長度最長的一段連續(xù)的頻譜能量編碼數(shù)據(jù),從而可以確定該段最長的連續(xù)的相互匹配的頻譜能量編碼數(shù)據(jù)所對應(yīng)的目標(biāo)節(jié)目音樂中的音頻幀,從而得到目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的一個(gè)最長的時(shí)間片段。可選的,所述時(shí)間片段確定模塊250用于:通過將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,在所述目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中查找與所述目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例大于預(yù)設(shè)匹配比例閾值的最長時(shí)間片段,作為所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。在第三種可能的實(shí)施場景中,時(shí)間片段確定模塊250通過將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,在目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中查找與目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例大于預(yù)設(shè)匹配比例閾值的最長時(shí)間片段,作為目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。也就是說,時(shí)間片段確定模塊250先確定出兩者的頻譜能量編碼數(shù)據(jù)中相互匹配的至少一段連續(xù)的頻譜能量編碼數(shù)據(jù)后,選擇其中匹配長度最長的一段連續(xù)的頻譜能量編碼數(shù)據(jù)作為參考匹配片段,然后以該參考匹配片段為中心,向該參考匹配片段的上一段時(shí)間片段或者后一段時(shí)間片段擴(kuò)展,直至獲取到一個(gè)目標(biāo)時(shí)間片段,可以使目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段的頻譜能量編碼數(shù)據(jù)與目標(biāo)節(jié)目音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段的頻譜能量編碼數(shù)據(jù)的匹配比例大于預(yù)設(shè)匹配比例閾值,也即確定可以使目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)與目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例大于預(yù)設(shè)匹配比例閾值的目標(biāo)時(shí)間片段,該目標(biāo)時(shí)間片段即為目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。進(jìn)一步的,時(shí)間片段確定模塊250可以獲取每個(gè)時(shí)間片段出現(xiàn)的起始時(shí)間、結(jié)束時(shí)間以及目標(biāo)節(jié)目音樂的音樂標(biāo)識(shí),用來表征每個(gè)時(shí)間片段??蛇x的,可以一并參見圖4,圖4是本發(fā)明實(shí)施例提供的時(shí)間片段確定模塊的結(jié)構(gòu)示意圖,所述時(shí)間片段確定模塊250包括:匹配幀確定單元251,用于將目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀的頻譜能量編碼與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的音頻幀的頻譜能量編碼進(jìn)行比較,若目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀的頻譜能量編碼與目標(biāo)節(jié)目音樂的音頻幀的頻譜能量編碼的匹配度達(dá)到預(yù)設(shè)匹配度閾值,則確定該目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀為目標(biāo)節(jié)目音樂的音頻幀的匹配幀。需要說明的是,目標(biāo)節(jié)目音頻數(shù)據(jù)包括多個(gè)音頻幀,目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)也包括多個(gè)音頻幀,每個(gè)音頻幀都有對應(yīng)的頻譜能量編碼,因此匹配幀確定單元251在將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較時(shí),可以先將目標(biāo)節(jié)目音頻數(shù)據(jù)的每個(gè)音頻幀的頻譜能量編碼與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的每個(gè)音頻幀的頻譜能量編碼進(jìn)行比較,也就是將兩者的每個(gè)音頻幀的頻譜能量編碼的每一位進(jìn)行對比,若目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀的頻譜能量編碼與目標(biāo)節(jié)目音樂的音頻幀的頻譜能量編碼的匹配度達(dá)到預(yù)設(shè)匹配度閾值,也即如果兩者的頻譜能量編碼的匹配的位數(shù)達(dá)到預(yù)設(shè)的預(yù)設(shè)匹配度閾值,則確定該目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀為目標(biāo)節(jié)目音樂的音頻幀的匹配幀。匹配比例確定單元252,用于按照時(shí)序先后關(guān)系,將目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中的目標(biāo)時(shí)間片段的音頻幀中被確定為目標(biāo)節(jié)目音頻數(shù)據(jù)中的相應(yīng)時(shí)間片段的音頻幀的匹配幀的比例,作為所述目標(biāo)節(jié)目音樂的目標(biāo)時(shí)間片段與所述目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例。對于第三種可能的實(shí)施情況,確定目標(biāo)節(jié)目音頻數(shù)據(jù)與目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)之間的所有匹配幀后,匹配比例確定單元252可以確定連續(xù)的匹配幀數(shù)量最多的一段時(shí)間片段中某一段連續(xù)的時(shí)間片段作為參考匹配片段,然后以該參考匹配片段為中心,向該參考匹配片段的上一段時(shí)間片段或者后一段時(shí)間片段擴(kuò)展,直至獲取到一個(gè)目標(biāo)時(shí)間片段,可以使目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段中與目標(biāo)節(jié)目音頻數(shù)據(jù)在該目標(biāo)時(shí)間片段中匹配幀數(shù)量與目標(biāo)時(shí)間片段的總幀數(shù)的比值大于預(yù)設(shè)匹配比例閾值,也即匹配比例大于預(yù)設(shè)匹配比例閾值,則該目標(biāo)時(shí)間片段即為目標(biāo)節(jié)目音樂在目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。音樂片段輸出模塊260,用于根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段。具體的,音樂片段輸出模塊260得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段后,可以根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段的重復(fù)次數(shù),確定各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)最多的至少一個(gè)預(yù)設(shè)時(shí)長的時(shí)間片段作為對應(yīng)節(jié)目音樂的備選片段。進(jìn)一步的,當(dāng)音樂片段提取設(shè)備獲取到新的節(jié)目音樂或者節(jié)目音頻數(shù)據(jù)時(shí),可以重新執(zhí)行本實(shí)施例的步驟,從而獲取更新后的至少一個(gè)音樂片段。可以理解的,音樂片段輸出模塊260將至少一個(gè)備選片段確定為音樂片段后,在輸出之前,需要將有時(shí)間的沖突的片段去掉,也就是每一個(gè)音樂片段均不能有共同的片段。本發(fā)明實(shí)施例中的音樂片段可以用于作為鈴聲提供給用于進(jìn)行使用??蛇x的,可以一并參見圖5,圖5是本發(fā)明實(shí)施例提供的音樂片段輸出模塊的結(jié)構(gòu)示意圖,所述音樂片段輸出模塊260包括:備選片段確定單元261,用于根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段的重復(fù)次數(shù),確定各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)最多的至少一個(gè)預(yù)設(shè)時(shí)長的時(shí)間片段作為對應(yīng)節(jié)目音樂的備選片段。備選片段確定單元261對各個(gè)目標(biāo)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的每一個(gè)時(shí)間片段的重復(fù)次數(shù)進(jìn)行統(tǒng)計(jì),然后確定一段時(shí)間長度為預(yù)設(shè)時(shí)長的目標(biāo)時(shí)間片段,該預(yù)設(shè)時(shí)長的目標(biāo)時(shí)間片段所包含的各個(gè)時(shí)間片段的重復(fù)次數(shù)的和,是目標(biāo)節(jié)目音樂中所有在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的各時(shí)間片段中在預(yù)設(shè)的時(shí)長內(nèi)重復(fù)次數(shù)的和最大的一段時(shí)間片段,備選片段確定單元261將該預(yù)設(shè)時(shí)長的目標(biāo)時(shí)間片段作為備選片段。根據(jù)該方法,備選片段確定單元261就可以確定各個(gè)節(jié)目音樂的備選片段。音樂片段輸出單元262,用于根據(jù)各個(gè)備選片段在所述多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù),將至少一個(gè)備選片段確定為所述音樂片段并輸出。進(jìn)一步的,音樂片段輸出單元262根據(jù)各個(gè)備選片段在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù),將至少一個(gè)備選片段確定為音樂片段并輸出。也就是說,音樂片段輸出單元262在確定了每個(gè)節(jié)目音樂的備選片段后,需要從這些備選片段中選擇一定數(shù)量的備選片段作為音樂片段進(jìn)行輸出。因此,音樂片段輸出單元262可以對每個(gè)節(jié)目音樂的備選片段在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)進(jìn)行排序,獲取重復(fù)次數(shù)排序中的前N個(gè)節(jié)目音樂的備選片段作為音樂片段進(jìn)行輸出,其中,N可以預(yù)先設(shè)定的需要獲取的備選片段的數(shù)量,也可以是在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)超過預(yù)設(shè)的重復(fù)閾值的備選片段的數(shù)量決定的。可選的,所述音樂片段輸出單元262用于:根據(jù)所述備選片段在所述多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)以及出現(xiàn)的節(jié)目音頻數(shù)據(jù)對應(yīng)的熱點(diǎn)權(quán)重值,確定所述各個(gè)備選片段的投票計(jì)數(shù)值;將投票計(jì)數(shù)值最高的預(yù)設(shè)數(shù)量個(gè)備選片段確定為所述音樂片段并輸出。進(jìn)一步的,音樂片段輸出單元262可以不僅可以按照上述方法根據(jù)備選片段在多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)確定至少一個(gè)音樂片段,還可以結(jié)合多個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的熱點(diǎn)權(quán)重值確定各個(gè)備選片段的投票計(jì)數(shù)值,將投票計(jì)數(shù)值最高的預(yù)設(shè)數(shù)量個(gè)備選片段確定為所述音樂片段并輸出。例如,可以設(shè)定音樂標(biāo)識(shí)1的節(jié)目音樂對應(yīng)的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值為2,那么在對音樂標(biāo)識(shí)1的節(jié)目音樂的備選片段進(jìn)行投票時(shí),每重復(fù)一次的投票計(jì)數(shù)都為2,需要說明的是,音樂片段輸出單元262可以根據(jù)節(jié)目音頻數(shù)據(jù)的時(shí)效性和熱點(diǎn)性對節(jié)目音頻數(shù)據(jù)對應(yīng)熱點(diǎn)權(quán)重值進(jìn)行預(yù)先設(shè)置,例如,新出品的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值可以設(shè)置的比較高,如近一周上線的電影對應(yīng)的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值為10,近一個(gè)月上線的電影對應(yīng)的節(jié)目音頻數(shù)據(jù)的熱點(diǎn)權(quán)重值為5等。本發(fā)明實(shí)施例中,通過提取節(jié)目音頻數(shù)據(jù)中的至少一個(gè)節(jié)目音頻段,獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)以及與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)并將兩者進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段,可以基于大量的節(jié)目音頻數(shù)據(jù),聚類出出現(xiàn)頻率較高的音樂片段并生成鈴聲,從而節(jié)約人力成本并提高鈴聲制作的精確度。圖6是本發(fā)明實(shí)施例提供的另一種歌曲音頻拼接設(shè)備的結(jié)構(gòu)示意圖,所述設(shè)備包括:音頻段提取模塊210、指紋數(shù)據(jù)獲取模塊220、節(jié)目音樂確定模塊230、能量編碼數(shù)據(jù)獲取模塊240、時(shí)間片段確定模塊250和音樂片段輸出模塊260,還包括:掩蔽峰值點(diǎn)檢測模塊270,用于檢測目標(biāo)節(jié)目音頻段的各幀音頻數(shù)據(jù)的頻譜峰值點(diǎn)中是否存在頻率差小于預(yù)設(shè)頻率閾值并且時(shí)間差小于預(yù)設(shè)時(shí)間閾值的掩蔽頻譜峰值點(diǎn)對。掩蔽峰值點(diǎn)濾除模塊280,用于當(dāng)存在頻率差小于預(yù)設(shè)頻率閾值并且時(shí)間差小于預(yù)設(shè)時(shí)間閾值的掩蔽頻譜峰值點(diǎn)對時(shí),將所述掩蔽頻譜峰值點(diǎn)對被掩蔽的頻譜峰值點(diǎn)濾除。由于人對聲音感知時(shí),短時(shí)譜峰值頻率點(diǎn)之間是相互影響,一個(gè)頻率分量可能掩蔽與其相近的頻率分量,即所謂的聽覺掩蔽效應(yīng)。因此音樂片段提取設(shè)備在選擇峰值頻率點(diǎn)時(shí)需要使選取的峰值點(diǎn)沿時(shí)間和頻率軸分布比較均勻,可以將距離較小的峰值點(diǎn)裁剪掉,以保證峰值點(diǎn)間的間距。具體實(shí)施中,在目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對之前,掩蔽峰值點(diǎn)檢測模塊270可以檢測目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中是否存在頻率差小于預(yù)設(shè)頻率閾值并且時(shí)間差小于預(yù)設(shè)時(shí)間閾值的掩蔽頻譜峰值點(diǎn)對,也即是否存在可能產(chǎn)生聽覺掩效應(yīng)的頻譜峰值點(diǎn),若存在,則掩蔽峰值點(diǎn)濾除模塊280可以將掩蔽頻譜峰值點(diǎn)對被掩蔽的頻譜峰值點(diǎn)濾除。本發(fā)明實(shí)施例中,通過提取節(jié)目音頻數(shù)據(jù)中的至少一個(gè)節(jié)目音頻段,獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)以及與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)并將兩者進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段,可以基于大量的節(jié)目音頻數(shù)據(jù),聚類出出現(xiàn)頻率較高的音樂片段并生成鈴聲,從而節(jié)約人力成本并提高鈴聲制作的精確度。圖7是本發(fā)明實(shí)施例提供的另一種音樂片段提取設(shè)備的結(jié)構(gòu)示意圖。如圖7所示,所述音樂片段提取設(shè)備1000可以包括:至少一個(gè)處理器1001,例如CPU,至少一個(gè)網(wǎng)絡(luò)接口1004,用戶接口1003,存儲(chǔ)器1005,至少一個(gè)通信總線1002。其中,通信總線1002用于實(shí)現(xiàn)這些組件之間的連接通信。其中,用戶接口1003可以包括顯示屏(Display)、鍵盤(Keyboard),可選用戶接口1003還可以包括標(biāo)準(zhǔn)的有線接口、無線接口。網(wǎng)絡(luò)接口1004可選的可以包括標(biāo)準(zhǔn)的有線接口、無線接口(如WI-FI接口)。存儲(chǔ)器1005可以是高速RAM存儲(chǔ)器,也可以是非不穩(wěn)定的存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤存儲(chǔ)器。存儲(chǔ)器1005可選的還可以是至少一個(gè)位于遠(yuǎn)離前述處理器1001的存儲(chǔ)裝置。如圖7所示,作為一種計(jì)算機(jī)存儲(chǔ)介質(zhì)的存儲(chǔ)器1005中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊、用戶接口模塊以及片段提取應(yīng)用程序。在圖7所示的音樂片段提取設(shè)備1000中,用戶接口1003主要用于為用戶提供輸入的接口,獲取用戶輸入的數(shù)據(jù);而處理器1001可以用于調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音頻拼接應(yīng)用程序,并具體執(zhí)行以下操作:分別從多個(gè)節(jié)目音頻數(shù)據(jù)中的每個(gè)節(jié)目音頻數(shù)據(jù)中提取至少一個(gè)節(jié)目音頻段,得到多個(gè)節(jié)目音頻段;分別獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)以及所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù);;根據(jù)所述節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,并獲取與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù);通過將所述多個(gè)節(jié)目音頻數(shù)據(jù)中的目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,從而得到各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段;根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段。在一個(gè)實(shí)施例中,所述處理器1001根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段時(shí),具體執(zhí)行以下操作:根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段的重復(fù)次數(shù),確定各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)最多的至少一個(gè)預(yù)設(shè)時(shí)長的時(shí)間片段作為對應(yīng)節(jié)目音樂的備選片段;根據(jù)各個(gè)備選片段在所述多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù),將至少一個(gè)備選片段確定為所述音樂片段并輸出。在一個(gè)實(shí)施例中,所述處理器1001分別獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù)時(shí),具體執(zhí)行以下操作:提取目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn);在所述目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對;根據(jù)目標(biāo)相鄰頻譜峰值點(diǎn)對的頻率參數(shù)和時(shí)間參數(shù),確定目標(biāo)相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值;根據(jù)所有相鄰頻譜峰值點(diǎn)對對應(yīng)的指紋特征值,確定所述目標(biāo)節(jié)目音頻段的音頻指紋數(shù)據(jù)。在一個(gè)實(shí)施例中,在所述目標(biāo)節(jié)目音頻段的頻譜峰值點(diǎn)中選取至少一對相鄰頻譜峰值點(diǎn)對之前,所述處理器1001還用于執(zhí)行以下操作:檢測目標(biāo)節(jié)目音頻段的各幀音頻數(shù)據(jù)的頻譜峰值點(diǎn)中是否存在頻率差小于預(yù)設(shè)頻率閾值并且時(shí)間差小于預(yù)設(shè)時(shí)間閾值的掩蔽頻譜峰值點(diǎn)對;若存在,則將所述掩蔽頻譜峰值點(diǎn)對被掩蔽的頻譜峰值點(diǎn)濾除。在一個(gè)實(shí)施例中,所述處理器1001通過所述多個(gè)節(jié)目音頻數(shù)據(jù)中的將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段時(shí),具體執(zhí)行以下操作:通過將目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較,在所述目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中查找與所述目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例大于預(yù)設(shè)匹配比例閾值的最長時(shí)間片段,作為所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段。在一個(gè)實(shí)施例中,所述頻譜能量編碼數(shù)據(jù)包括音頻數(shù)據(jù)中每個(gè)音頻幀的頻譜能量編碼,所述處理器1001通過將所述多個(gè)節(jié)目音頻數(shù)據(jù)中的目標(biāo)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)進(jìn)行比較時(shí),具體執(zhí)行以下操作:將目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀的頻譜能量編碼與該目標(biāo)節(jié)目音頻數(shù)據(jù)對應(yīng)的目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)的音頻幀的頻譜能量編碼進(jìn)行比較,若目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀的頻譜能量編碼與目標(biāo)節(jié)目音樂的音頻幀的頻譜能量編碼的匹配度達(dá)到預(yù)設(shè)匹配度閾值,則確定該目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻幀為目標(biāo)節(jié)目音樂的音頻幀的匹配幀;按照時(shí)序先后關(guān)系,將目標(biāo)節(jié)目音樂的音頻數(shù)據(jù)中的目標(biāo)時(shí)間片段的音頻幀中被確定為目標(biāo)節(jié)目音頻數(shù)據(jù)中的相應(yīng)時(shí)間片段的音頻幀的匹配幀的比例,作為所述目標(biāo)節(jié)目音樂的目標(biāo)時(shí)間片段與所述目標(biāo)節(jié)目音頻數(shù)據(jù)的音頻匹配比例。在一個(gè)實(shí)施例中,所述處理器1001根據(jù)各個(gè)備選片段在所述多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù),將至少一個(gè)備選片段確定為所述音樂片段并輸出時(shí),具體執(zhí)行以下操作:根據(jù)所述備選片段在所述多個(gè)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的重復(fù)次數(shù)以及出現(xiàn)的節(jié)目音頻數(shù)據(jù)對應(yīng)的熱點(diǎn)權(quán)重值,確定所述各個(gè)備選片段的投票計(jì)數(shù)值;將投票計(jì)數(shù)值最高的預(yù)設(shè)數(shù)量個(gè)備選片段確定為所述音樂片段并輸出。本發(fā)明實(shí)施例中,通過提取節(jié)目音頻數(shù)據(jù)中的至少一個(gè)節(jié)目音頻段,獲取多個(gè)節(jié)目音頻段的音頻指紋數(shù)據(jù),在預(yù)設(shè)的音樂指紋數(shù)據(jù)庫中查找與所述節(jié)目音頻段的音頻指紋數(shù)據(jù)匹配的音樂音頻指紋數(shù)據(jù),將查找到的音樂音頻指紋數(shù)據(jù)對應(yīng)的音樂確定為節(jié)目音樂,獲取所述多個(gè)節(jié)目音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)以及與各個(gè)節(jié)目音頻數(shù)據(jù)對應(yīng)的節(jié)目音樂的音頻數(shù)據(jù)的頻譜能量編碼數(shù)據(jù)并將兩者進(jìn)行比較,得到所述目標(biāo)節(jié)目音樂在所述目標(biāo)節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,根據(jù)各個(gè)節(jié)目音樂在對應(yīng)的節(jié)目音頻數(shù)據(jù)中出現(xiàn)的時(shí)間片段,輸出至少一個(gè)節(jié)目音樂的音樂片段,可以基于大量的節(jié)目音頻數(shù)據(jù),聚類出出現(xiàn)頻率較高的音樂片段并生成鈴聲,從而節(jié)約人力成本并提高鈴聲制作的精確度。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-OnlyMemory,ROM)或隨機(jī)存儲(chǔ)記憶體(RandomAccessMemory,RAM)等。以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。當(dāng)前第1頁1 2 3