聲音文件的音質(zhì)識別方法及裝置的制造方法
【專利摘要】本發(fā)明涉及聲音文件的音質(zhì)識別方法和裝置,包括:將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;對基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀以及傅立葉變換處理得到所述聲音文件每一幀的頻譜;根據(jù)所述聲音文件每一幀的頻譜進(jìn)行模式匹配,得到對所述聲音文件的初步分類結(jié)果;根據(jù)所述聲音文件每一幀的頻譜確定所述聲音文件的能量變化點(diǎn);以及根據(jù)所述聲音文件的初步分類結(jié)果及其能量變化點(diǎn)確定所述聲音文件的音質(zhì)。通過本發(fā)明可以完成對聲音文件音質(zhì)的機(jī)器識別。
【專利說明】
聲音文件的音質(zhì)識別方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及聲音文件的音質(zhì)識別方法及裝置。
【背景技術(shù)】
[0002]在多媒體技術(shù)不斷發(fā)展的今天,承載音樂等聲音文件的載體已經(jīng)從原來的磁帶、 CD(光盤)發(fā)展到了 MP3(動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)甚至智能終端等多種多媒體設(shè) 備。同時,為了便于聲音文件的傳播,也出現(xiàn)了各種對聲音進(jìn)行處理的技術(shù)以及相應(yīng)的音頻 格式。
[0003]上述音頻格式是指對作為模擬信號的聲音進(jìn)行模擬-數(shù)字轉(zhuǎn)換以及其他處理后得 到的可以在計算機(jī)或其他多媒體設(shè)備內(nèi)播放或者處理的數(shù)字格式的文件的格式。
[0004]通常對聲音的模擬-數(shù)字的轉(zhuǎn)換會采用脈沖編碼調(diào)制(PCM)技術(shù)實(shí)現(xiàn)。本文中,將 聲音經(jīng)過PCM技術(shù)處理進(jìn)行模擬-數(shù)字轉(zhuǎn)換后得到的音頻文件稱為PCM文件。對聲音進(jìn)行模 擬-數(shù)字轉(zhuǎn)換后得到的PCM文件是未經(jīng)過壓縮處理的原始聲音文件。一般來講,表征PCM文件 的聲音質(zhì)量(也即音質(zhì))有兩個參數(shù):一個是采樣速率;一個是采樣精度。其中,采樣速率表 不對聲音進(jìn)行米樣時每秒鐘的米樣次數(shù),一般介于40~50KHz之間;米樣精度表不對每一個 采樣值進(jìn)行量化時的比特數(shù),例如可以是16位。由此可以看出,一般采樣速率越高、采樣精 度越大得到的PCM文件的音質(zhì)越好,但是另一方面采樣速率越高、采樣精度越大得到PCM文 件越大。標(biāo)準(zhǔn)的⑶格式就是通過PCM得到的,其采樣頻率為44.1KHZ、采樣精度為16位(SP16 位量化)。對于人耳而言,標(biāo)準(zhǔn)的CD格式音頻文件的音質(zhì)可以說是無損的,也即根據(jù)CD格式 還原出的聲音基本上是忠于原聲的。例如,通常音樂人在發(fā)行音樂時一般采用CD等固態(tài)形 式發(fā)行。這種音樂保留了最原始的音頻特征,音質(zhì)非常好。但是,標(biāo)準(zhǔn)CD格式的文件的體積 是非常大的,并不便于存儲以及傳播,特別是在當(dāng)前網(wǎng)絡(luò)應(yīng)用如此普及的現(xiàn)在。
[0005] 為此,當(dāng)前出現(xiàn)了很多的音頻壓縮技術(shù),例如,MP3或高級音頻編碼技術(shù)(AAC, Advanced Audio Coding)等等。通過,這些音頻壓縮技術(shù),可以大大減少聲音文件占用的空 間。例如,相同長度的音樂文件,用*.mp3格式來儲存,一般可只占有未壓縮文件1/10的存儲 空間。然而,這些音頻壓縮技術(shù)雖然可以基本保持聲音文件的低音頻部分不失真,但是會犧 牲聲音文件中12KHz到16KHz高音頻這部分的質(zhì)量來換取文件的尺寸。從聲音文件的音質(zhì)上 來看,經(jīng)過壓縮后聲音會或多或少有一定的失真,而且這種失真是不可逆的。例如,一個無 損的CD品質(zhì)的音樂經(jīng)過編解碼器壓縮為有損的聲音文件后,即使再解壓縮為原始的音頻格 式(例如PCM格式),其品質(zhì)也是無法還原為⑶品質(zhì)的。因此,也可以稱這些對聲音文件的音 質(zhì)造成影響的壓縮處理為有損壓縮,并稱這些經(jīng)過壓縮的聲音文件為有損聲音文件。
[0006] 通常情況下,可以通過聲音文件的音頻格式判斷該聲音文件是有損聲音文件還是 無損聲音文件。一般來講,經(jīng)過有損壓縮的得到的聲音文件,例如MP3或AAC格式的聲音文 件,一定是有損聲音文件,因而可以稱這些音頻格式為有損音頻格式。而沒有經(jīng)過壓縮(例 如PCM或WAVE格式)或者經(jīng)過無損壓縮(例如WMA Lossless以及FLAC等格式)的應(yīng)該是無損 的聲音文件,因而可以稱這些音頻格式為無損格式。但是,僅通過音頻格式進(jìn)行判斷這種方 法無法判斷出來實(shí)際已經(jīng)經(jīng)過有損壓縮又還原成無損音頻格式的假無損聲音文件。
[0007] 因此,如何識別聲音文件的音質(zhì),從各種無損音頻格式的聲音文件中篩選出真正 無損的聲音文件,剔除假的無損聲音文件,是目前需要解決的問題之一。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明提供了一種聲音文件的音質(zhì)識別方法,包括:
[0009] 將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;
[0010] 對基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀以及傅立葉變換處理得到所述聲音文件每 一幀的頻譜;
[0011] 根據(jù)所述聲音文件每一幀的頻譜進(jìn)行模式匹配,得到對所述聲音文件的初步分類 結(jié)果;
[0012] 根據(jù)所述聲音文件每一幀的頻譜確定所述聲音文件的能量變化點(diǎn);以及
[0013] 根據(jù)所述聲音文件的初步分類結(jié)果及其能量變化點(diǎn)確定所述聲音文件的音質(zhì)。
[0014] 本發(fā)明還提供了一種聲音文件的音質(zhì)識別方法,包括:
[0015] 將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;
[0016] 對基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀以及傅立葉變換處理得到所述聲音文件每 一幀的頻譜;
[0017] 根據(jù)所述聲音文件每一幀的頻譜進(jìn)行模式匹配,得到對所述聲音文件的初步分類 結(jié)果;以及
[0018] 根據(jù)所述聲音文件的初步分類結(jié)果確定所述聲音文件的音質(zhì)。
[0019] 本發(fā)明還提供了一種聲音文件的音質(zhì)識別方法,包括:
[0020] 將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;
[0021] 對基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀以及傅立葉變換處理得到所述聲音文件每 一幀的頻譜;
[0022]根據(jù)所述聲音文件每一幀的頻譜確定所述聲音文件的能量變化點(diǎn);以及 [0023]根據(jù)所述聲音文件的能量變化點(diǎn)確定所述聲音文件的音質(zhì)。
[0024] 對應(yīng)上述聲音文件的音質(zhì)識別方法,本發(fā)明提供了一種服務(wù)器,包括:
[0025] 接收模塊,用于接收待識別聲音文件;
[0026] 轉(zhuǎn)換模塊,用于將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;
[0027] 分幀模塊,用于對具有基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀;
[0028] 時頻變換模塊,用于對分幀后的全部幀分別進(jìn)行傅立葉變換,得到所述聲音文件 每一幀的頻譜;
[0029] 匹配模塊,用于根據(jù)所述聲音文件每一幀的頻譜進(jìn)行模型匹配,得到對所述聲音 文件的初步分類結(jié)果;
[0030] 能量變換點(diǎn)檢測模塊,用于根據(jù)所述聲音文件每一幀的頻譜確定所述聲音文件的 能量變化點(diǎn);以及
[0031] 判斷模塊,用于根據(jù)對待識別聲音文件的初步分類結(jié)果以及待識別聲音文件的能 量變化點(diǎn)確定所述聲音文件的音質(zhì)。
[0032] 本發(fā)明還提供了一種客戶端,包括:
[0033] 接收模塊,用于接收待識別聲音文件;
[0034] 轉(zhuǎn)換模塊,用于將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;
[0035] 分幀模塊,用于對具有基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀;
[0036] 時頻變換模塊,用于對分幀后的全部幀分別進(jìn)行傅立葉變換,得到所述聲音文件 每一幀的頻譜;
[0037] 匹配模塊,用于根據(jù)所述聲音文件每一幀的頻譜進(jìn)行模型匹配,得到對所述聲音 文件的初步分類結(jié)果;
[0038]能量變換點(diǎn)檢測模塊,用于根據(jù)所述聲音文件每一幀的頻譜確定所述聲音文件的 能量變化點(diǎn);以及
[0039]判斷模塊,用于根據(jù)對待識別聲音文件的初步分類結(jié)果以及待識別聲音文件的能 量變化點(diǎn)確定所述聲音文件的音質(zhì)。
[0040]通過本發(fā)明可以完成對聲首文件首質(zhì)的機(jī)器識別,提尚從而提尚系統(tǒng)的性能。
【附圖說明】
[0041]圖1顯示了本發(fā)明實(shí)施例所述的聲音文件的音質(zhì)識別方法;
[0042]圖2顯示了本發(fā)明實(shí)施例進(jìn)行訓(xùn)練建立模型的方法;
[0043]圖3顯示了本發(fā)明實(shí)施例所述的另一種聲音文件的音質(zhì)識別方法;
[0044] 圖4顯示了本發(fā)明實(shí)施例所述的又一種聲音文件的音質(zhì)識別方法;
[0045] 圖5顯示了本發(fā)明實(shí)施例所述的音樂平臺的結(jié)構(gòu);
[0046] 圖6顯示了音樂平臺客戶端的一個搜索界面示例;以及
[0047] 圖7顯示了本發(fā)明實(shí)施例所述的客戶端的內(nèi)部結(jié)構(gòu)。
【具體實(shí)施方式】
[0048] 如前所述可知,有損音頻格式的聲音文件一定是有損聲音文件,但是無損音頻格 式的聲音文件不一定真的是無損聲音文件。為此,本發(fā)明的實(shí)施例提供了一種聲音文件的 音質(zhì)識別方法,可以從各種無損音頻格式的聲音文件中篩選出真正無損的聲音文件,找出 假無損聲音文件。
[0049] 在本文中,待識別的聲音文件可以是各種無損音頻格式的文件,具體可以是未經(jīng) 過壓縮處理或者僅經(jīng)過無損壓縮處理的聲音文件,例如可以是PCM文件,也可以是其他諸如 WAVE格式、WMA Lossless格式以及FLAC格式的聲音文件。而由于有損音頻格式的聲音文件 一定是有損的聲音文件,因此,無需進(jìn)行本實(shí)施例的判斷。
[0050] 圖1顯示了本發(fā)明實(shí)施例所述的聲音文件的音質(zhì)識別方法。如圖1所示,本實(shí)施例 的方法包含如下步驟:
[0051 ]步驟101,接收待識別聲音文件。
[0052]如前所述,待識別聲音文件可以是各種無損音頻格式的文件,例如PCM文件、WAVE 格式、WMA Lossless格式或FLAC格式的聲音文件。
[0053]步驟102,將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式。
[0054]在本發(fā)明的實(shí)施例中,預(yù)先設(shè)置的基準(zhǔn)音頻格式可以是采樣速率是44. ΙΚΗζ、采樣 精度為16比特的PCM文件格式。當(dāng)然,預(yù)先設(shè)置的基準(zhǔn)音頻格式也可以是其他采樣速率或者 采樣精度的PCM文件格式,本實(shí)施例不做過多的限制。
[0055] 在本步驟102中,可以先通過步驟1021檢測待識別聲音文件是否為預(yù)先設(shè)置的基 準(zhǔn)音頻格式,如果是,則不用進(jìn)行進(jìn)一步處理;如果不是,則可通過步驟1022將待識別的聲 音文件解碼為預(yù)先設(shè)置的基準(zhǔn)音頻格式。
[0056] 具體而言,由于各種音頻格式的文件都會根據(jù)規(guī)范的規(guī)定在文件中確定的位置記 錄該文件的音頻格式信息,可以包括音頻格式、采樣速率以及采樣精度等等。例如,*.wav格 式的聲音文件會把自身的音頻格式信記錄在文件頭的44個字節(jié)里。雖然,不同音頻格式的 文件會將音頻格式信息寫在聲音文件的不同位置上,但是由于這些位置都是被規(guī)范規(guī)定好 的,因此,在步驟1021中,可以直接從聲音文件相應(yīng)的位置讀出該聲音文件的音頻格式信 息,從而即可直接根據(jù)該聲音文件的音頻格式信息確定待識別的聲音文件是否為預(yù)先設(shè)置 的基準(zhǔn)音頻格式。
[0057]此外,在步驟1022中,解碼聲音文件可以通過通用的音頻解碼算法來實(shí)現(xiàn),例如, 可以通過通用的編解碼開源庫FFmpeg來實(shí)現(xiàn)。該編解碼開源庫FFmpeg可以處理各種音頻格 式的文件,即可以將各種音頻格式的文件解碼為預(yù)先設(shè)置的基準(zhǔn)音頻格式,例如解碼為采 樣速率是44. ΙΚΗζ、采樣精度為16比特的PCM文件。
[0058] 步驟103,對步驟102輸出的具有基準(zhǔn)音頻格式的聲音文件進(jìn)行分幀,共得到X個 幀。其中,X為自然數(shù),其值的大小與PCM文件的大小有關(guān)。
[0059] 具體而言,在本步驟中,分幀的幀長可以設(shè)置為2M個采樣點(diǎn),幀移設(shè)置為N個采樣 點(diǎn)。其中,Μ和N也為自然數(shù)。在本步驟中,在設(shè)定了幀長以及幀移之后,即可根據(jù)設(shè)定的幀長 和幀移進(jìn)行分幀。
[0060] 例如,分幀的幀長為2048個采樣點(diǎn),幀移為1024個采樣點(diǎn)。此時,一個幀的時長為 2048/44100秒。經(jīng)過這樣的分幀處理后,采樣點(diǎn)1~采樣點(diǎn)2048為第一幀;采樣點(diǎn)1025~采 樣點(diǎn)3072為第二幀;采樣點(diǎn)2049~采樣點(diǎn)4096為第三幀;采樣點(diǎn)3073~采樣點(diǎn)5120為第四 幀;......。
[0061] 步驟104,對分幀后的全部X個幀分別進(jìn)行傅立葉變換,得到每一幀的頻譜。即針對 待識別聲音文件X幀中的每一幀,可以得到Μ個頻帶的能量值,即Μ個分量。
[0062]如前例所述,Μ可以為1024,則針對每一幀數(shù)據(jù)可以得到的1024個頻帶能量值。在 這種情況下,每個頻帶的間隔頻率為22050/1024ΗΖ。
[0063] 執(zhí)行完上述步驟104之后,將繼續(xù)分兩個分支分別執(zhí)行兩個過程。其中,一個過程 1051是根據(jù)上述Μ個頻帶的能量值進(jìn)行模型匹配,得到對待識別聲音文件的初步分類結(jié)果。 另一個過程1052是根據(jù)上述Μ個頻帶的能量值確定待識別聲音文件的能量變化點(diǎn)。
[0064] 在本發(fā)明的實(shí)施例中,這兩個過程的執(zhí)行順序并不會受到限制,例如,可以同時執(zhí) 行這兩個過程,也可以先執(zhí)行其中一個過程,再執(zhí)行另外一個過程。下面將通過示例詳細(xì)介 紹上述兩個過程。
[0065]下面的步驟10511~10514詳細(xì)說明了上述過程1051中根據(jù)Μ個頻帶的能量值進(jìn)行 模型匹配,得到待識別聲音文件的初步分類結(jié)果的具體方法。
[0066] 步驟10511,分別對每一幀的Μ個頻帶進(jìn)行分段,針對每一幀得到L個頻帶分段,其 中,L為自然數(shù)。
[0067] 需要說明的是,經(jīng)過上述分段得到的L個頻帶分段之間可以有部分交疊。
[0068] 在本步驟中,可以預(yù)先設(shè)置每個頻帶分段包含頻帶數(shù)和頻移,然后再根據(jù)設(shè)定的 頻帶數(shù)和頻移進(jìn)行分段。其中,頻移是指兩個相鄰的頻帶分段的第一個頻帶之間的間隔。具 體而言,在本步驟中,在進(jìn)行頻帶的分段時,可以設(shè)定每個頻帶分段包含a個頻帶,且頻移是 b個頻帶。這樣,則共可以得到(M-a)/b+l個頻帶分段,也即L=(M-a)/b+l。
[0069] 例如,Μ可以為1024,則經(jīng)過傅立葉變換,每一幀數(shù)據(jù)可以得到1024個頻帶。在這種 情況下,可以對每一幀的1024個頻帶進(jìn)行分段,每段包含48個頻帶,每段第一個頻帶的間隔 (頻移)為8個頻帶,則一共得到(1024-48)/8+1 = 123個頻帶分段。具體而言,為了便于說明, 將每一幀的1024個頻帶進(jìn)行編號,頻帶1~頻帶1024。經(jīng)過上述分段后,得到頻帶分段1包含 頻帶1~頻帶48;頻帶分段2包含頻帶9~頻帶56;頻帶分段3包含頻帶17~頻帶64;……;頻 帶分段123包含頻帶977~頻帶1024。
[0070] 步驟10512,針對每一個頻帶分段,將該聲音文件所有X幀在該頻帶分段上各個頻 帶的能量值求和,得到該聲音文件在每個頻帶分段的能量值。
[0071] 在本步驟中,該聲音文件在第i個頻帶分段的能量值可以用Xl(ie[l,L])表示。 [0072]步驟10513,根據(jù)該聲音文件每個頻帶分段的能量值Xi(i e [1,L]),確定待識別聲 音文件的衰落特征向量Y。
[0073] 在本步驟中,待識別聲音文件的衰落特征向量Y可以通過如下公式(1)計算得到:
[0074] yi = xi+i_xi(i e [1,L_1]) (1)
[0075] 這里,yi為待識別聲音文件的衰落特征向量Y中每一個元素的值,表示的是相鄰頻 帶分段的能量差值,因此,由 yi組成的向量Υ可以表征該聲音文件的衰落特征。
[0076] 步驟10514,根據(jù)待識別聲音文件的衰落特征向量對待識別聲音文件進(jìn)行模型匹 配,得到針對待識別聲音文件的初步分類結(jié)果。
[0077] 在本步驟中,可以對待識別聲音文件進(jìn)行支持向量機(jī)(SVM,Support Vector Machine)模型匹配,得到介于0~1的置信度q,來表征對待識別聲音文件的初步分類結(jié)果。 其中,置信度q可以理解為該聲音文件的頻譜從低頻到高頻的衰減速度。根據(jù)實(shí)驗(yàn)數(shù)據(jù)可以 得到,置信度q越接近〇,該聲音文件的頻譜從低頻到高頻衰減的越快,則該聲音文件越可能 是有損文件,反之該聲音文件越可能為真正的無損文件。
[0078]具體而言,通過預(yù)先的模型訓(xùn)練過程,SVM模型會生成一組線性相關(guān)的系數(shù)W,稱為 該模型對應(yīng)的線性相關(guān)系數(shù)。一般情況下,W是一個向量。則在本步驟使用SVM模型進(jìn)行模型 匹配時,可以通過如下公式(2)計算得到置信度q。
[0079] q=ffY (2)
[0080] 其中,Y為待識別聲音文件的衰落特征向量。
[0081] 作為替換方案,可以采用其他機(jī)器學(xué)習(xí)算法,例如高斯混合模型(G a u s s i a η Mixture Model,GMM)算法或深層神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)算法來建立替代上 述SVM模型的GMM模型或DNN模型。使用這些模型也可以根據(jù)待識別聲音文件的衰落特征向 量對待識別聲音文件進(jìn)行模型匹配,得到類似置信度q的對待識別聲音文件的初步分類結(jié) 果。
[0082] 執(zhí)行完上述步驟10514之后,將繼續(xù)執(zhí)行步驟106。
[0083] 下面將通過步驟10521~10524詳細(xì)說明上述過程1052中根據(jù)上述Μ個頻帶的能量 值確定待識別聲音文件能量變化點(diǎn)的具體方法。
[0084]步驟10521,確定待識別聲音文件每一幀的最高頻譜分割線。
[0085] 在本步驟中,針對每一幀,可以從高頻到低頻對上述Μ個頻帶進(jìn)行遍歷,找到第一 個能量值大于第一門限m的頻帶。此頻帶稱為這一幀的最高頻譜分割線。
[0086] 在本發(fā)明的實(shí)施例中,上述第一門限m可以是0.3或其他經(jīng)驗(yàn)數(shù)值。
[0087] 經(jīng)過上述步驟10521,對應(yīng)整個聲音文件的每個幀,可以得到其最高頻譜分割線所 在的頻帶的標(biāo)號,并將其記為Pl(i e [ 1,X])。
[0088] 例如,仍借用之前的示例,對待識別聲音文件進(jìn)行分幀時的幀長設(shè)置為2048個采 樣點(diǎn),則經(jīng)過傅立葉變換后,針對每一幀可以得到1024個頻帶。若該聲音文件一共有3幀,第 一幀的最高頻譜分割線在第1002個頻帶,第二幀的最高頻譜分割現(xiàn)在第988個頻帶,第三幀 的最高頻譜分割線在第1002個頻帶,則可以得到 Pl=1002;p2 = 988;p3 = 1002。
[0089] 步驟10522,根據(jù)每一幀的最高頻譜分割線所在的頻帶,分別統(tǒng)計在Μ個頻帶的每 個頻帶上各有幾個幀的最高頻譜分割線,記為i e [ 1,Μ])。
[0090] 接上例,在步驟10521可以得到?1 = 1002 ;ρ2 = 988;ρ3 = 1002,也即第一幀的最高頻 譜分割線在第1002個頻帶,第二幀的最高頻譜分割現(xiàn)在第988個頻帶,第三幀的最高頻譜分 割線在第1002個頻帶。在這種情況下,可以得到針對這1024個頻帶,在第988個頻帶上有一 個幀的最高頻譜分割線,在第1002個頻帶上有兩個幀的最高頻譜分割線,而在其他的頻帶 上,沒有最高頻譜分割線,也即可以得到ri~Γ987 = 0 ; Γ988 = 1 ; Γ989~riQQl = 0 ; riQQ2 = 2 ; ri003 ~ri024 = 0〇
[0091] 步驟10523,將ri(ie[l,M])中所有相近的s個點(diǎn)進(jìn)行求和,共得到M-l個數(shù)值,從 而得到能量和最大的S個相鄰頻帶,記為1~1+S-1頻帶。
[0092] 在本步驟中,s為預(yù)先設(shè)置的經(jīng)驗(yàn)值,例如可以是50或者其他數(shù)值。s值的大小可以 影響后面計算的最優(yōu)變換頻帶的大小。例如,一共1024個頻帶,總頻率為22050,每個頻帶的 頻率間隔為22050/1024,s設(shè)置為50時,實(shí)際上大約為1000Hz的頻帶,也就是說,在后面選擇 的最優(yōu)變換頻帶的大小約為1000Hz。
[0093] 再接上例,在步驟 10522可以得到ri~Γ987 = 0 ;Γ988= 1 ;Γ989~riQQl = 0 ;riQQ2 = 2 ; ri〇〇3~riQ24 = 0。則可以確定能量和最大的50個相鄰頻帶可以是953~1002頻帶。在這種情況 下,1為953。
[0094]步驟10524,確定上述能量和最大的s個相鄰頻帶中最優(yōu)變換頻帶對應(yīng)的頻率c,將 其作為待識別音樂文件的能量變化點(diǎn)。
[0095]在本步驟中,最優(yōu)變換頻帶對應(yīng)的頻率c可以通過如下的公式(3)計算得到:
[0097]其中,s為系統(tǒng)設(shè)定的數(shù)值;1為能量和最大的s個相鄰頻帶的第一個頻帶的編號;Μ 為對待識別聲音文件進(jìn)行傅立葉變換后得到的頻帶數(shù);^(1£[1,])為第1個頻帶上最高 頻譜分割線的個數(shù)。
[0098] 執(zhí)行完上述步驟10524之后,將繼續(xù)執(zhí)行步驟106。
[0099] 步驟106,根據(jù)對待識別聲音文件的初步分類結(jié)果以及待識別聲音文件的能量變 化點(diǎn)確定所接收的聲音文件為無損文件還是有損文件。
[0100]如果對待識別聲音文件的初步分類結(jié)果是用上述置信度q表征,能量變化點(diǎn)用最 優(yōu)變換頻帶的等效頻率c來表征,則可以通過如下公式(4)和(5)計算兩個中間參數(shù):
[0101] d = c-20000 (4)
[0102] e = q-〇.5 (5)
[0103] 在這種情況下,如果d和e同時大于0,則可確定待識別的聲音文件為無損文件;如 果d和e同時小于0,則可確定待識別的聲音文件為有損文件;其他情況下,則無法確定,需轉(zhuǎn) 由人工進(jìn)一步判斷。
[0104] 由此可以看出,上述實(shí)施例給出了一種對聲音文件的音質(zhì)進(jìn)行識別的方法,可以 從無損音頻格式的聲音文件中識別出真無損文件和假無損文件。而且通過將機(jī)器學(xué)習(xí)模型 篩選和通過檢測能量變化點(diǎn)的篩選方式相結(jié)合可以精確識別各種類型的聲音文件,例如輕 音樂或搖滾等等不同強(qiáng)弱、不同節(jié)奏、不同風(fēng)格的音樂的音質(zhì)。經(jīng)過測試證明,通過上述方 法識別的正確率可以高達(dá)99.07%。
[0105] 針對上述步驟10514提及的根據(jù)待識別聲音文件的衰落特征向量對待識別聲音文 件進(jìn)行模型匹配的步驟,本發(fā)明的實(shí)施例還提出了通過訓(xùn)練建立模型的方法。在本發(fā)明的 實(shí)施例中,上述通過訓(xùn)練建立的模型可以是SVM模型,GMM模型或DNN等機(jī)器學(xué)習(xí)模型。
[0106] 圖2顯示了通過訓(xùn)練建立模型的方法。如圖2所示,該方法可以包括:
[0107] 步驟201,從數(shù)據(jù)庫存儲的聲音文件中選擇確定為無損的聲音文件k個,有損聲音 文件k個,作為訓(xùn)練數(shù)據(jù)。其中,k為自然數(shù)。
[0108] 上述k個無損的聲音文件可以是通過人工方式識別出的確定為無損的聲音文件。
[0109] 在本發(fā)明的實(shí)施例中,可以選擇多種音頻格式的聲音文件作為有損文件的訓(xùn)練數(shù) 據(jù)。例如,可以選擇320mp3格式文件t個,256AAC格式文件t個,128mp3格式文件t個,其中3t = k,t為自然數(shù)。
[0110] 接下來,針對這k個無損聲音文件以及k個有損聲音文件分別執(zhí)行上述步驟102-104以及過程1051中的10511-10513,即可得到這2k個聲音文件的衰落特征向量。
[0111]步驟202,根據(jù)這2k個聲音文件的衰落特向量性進(jìn)行針對特定模型的訓(xùn)練,得到針 對該特定模型的一組系數(shù)向量W。
[0112] 如前所述,上述機(jī)器學(xué)習(xí)模型可以是SVM模型、GMM模型或DNN等模型。經(jīng)測試,若是 建立SVM模型,核函數(shù)類型可以采用徑向基函數(shù)(RBF,Radial Basis Function)函數(shù),可以 獲得比較好的識別效果。
[0113] 作為上述實(shí)施方式的替代簡化方案,本發(fā)明的實(shí)施例可以直接根據(jù)對待識別聲音 文件的初步分類結(jié)果確定待識別的聲音文件是有損文件還是無損文件,即執(zhí)行步驟101-104和過程1051,而不執(zhí)行過程1052。然后,可以在步驟106A直接根據(jù)對待識別聲音文件的 初步分類結(jié)果直接確定是否為有損聲音文件。例如,設(shè)定置信度q小于或等于0.5時為有損 文件,而置信度q大于0.5時為無損文件。該方法的流程如圖3所示。
[0114] 此外,作為上述實(shí)施方式的另一個替代簡化方案,本發(fā)明的實(shí)施例可以直接根據(jù) 待識別音樂文件的能量變化點(diǎn)確定待識別的聲音文件是有損文件還是無損文件,即執(zhí)行步 驟101-104和過程1052,而不執(zhí)行過程1051。然后,在步驟106B可以根據(jù)對待識別聲音文件 的能量變化點(diǎn)直接確定是否為有損聲音文件。例如,設(shè)定最優(yōu)變換頻帶對應(yīng)的頻率c大于 20000時為無損文件,而最優(yōu)變換頻帶對應(yīng)的頻率c小于或等于20000時為有損文件。該方法 的流程如圖4所示。
[0115] 上述識別聲音文件音質(zhì)的方法可以應(yīng)用在為客戶提供音樂下載及收聽服務(wù)的音 樂平臺上,例如QQ音樂、百度音樂等平臺。圖5顯示了一種音樂平臺的架構(gòu)。如圖5所示,一般 來講音樂平臺500會包含至少一個服務(wù)器501,至少一個數(shù)據(jù)庫502,以及多個客戶端503 (503A、503B、503C)等等。其中,服務(wù)器和客戶端之間通過網(wǎng)絡(luò)504連接,服務(wù)器501為客戶端 503提供音樂搜索、下載以及在線收聽等各種服務(wù)。客戶端503為用戶提供用戶界面,用戶通 過客戶端503,搜索、下載或在線收聽從服務(wù)器501處獲得的音樂或音樂信息。客戶端503可 以是個人計算機(jī)、平板電腦、移動終端以及音樂播放器等設(shè)備。數(shù)據(jù)庫502用于存儲音樂文 件,又可稱為曲庫。
[0116] 具體而言,如圖5所示,上述音樂平臺的服務(wù)器501可以包括:用于存儲指令的存儲 器5011以及用于執(zhí)行存儲于存儲器中指令的處理器5012。上述指令包含如下指令模塊:接 收模塊50111,用于接收待識別聲音文件;轉(zhuǎn)換模塊50112,用于將待識別聲音文件的格式轉(zhuǎn) 換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;分幀模塊50113,用于對具有基準(zhǔn)音頻格式的聲音文件進(jìn)行 分幀,共得到X個幀;時頻變換模塊50114,用于對分幀后的全部X個幀分別進(jìn)行傅立葉變換, 得到每一幀的頻譜;匹配模塊50115,用于根據(jù)聲音文件每一幀的頻譜進(jìn)行模型匹配,得到 對待識別聲音文件的初步分類結(jié)果;能量變換點(diǎn)檢測模塊50116,用于根據(jù)聲音文件每一幀 的頻譜確定待識別聲音文件的能量變化點(diǎn);以及判斷模塊50117,用于根據(jù)對待識別聲音文 件的初步分類結(jié)果以及待識別聲音文件的能量變化點(diǎn)確定聲音文件的音質(zhì),即聲音文件為 無損文件還是有損文件。需要說明的是,上述模塊的具體實(shí)現(xiàn)方法可以參考圖1中各個步驟 的具體實(shí)現(xiàn)方法。作為上述方案的簡化替代方案,上述指令可以僅包括如下指令模塊:接收 模塊50111、轉(zhuǎn)換模塊50112、分幀模塊50113、時頻變換模塊50114、匹配模塊50115以及用于 根據(jù)對待識別聲音文件的初步分類結(jié)果確定所接收的聲音文件為無損文件還是有損文件 的判斷模塊50117A。又或者上述指令可以僅包括如下指令模塊:接收模塊50111、轉(zhuǎn)換模塊 50112、分幀模塊50113、時頻變換模塊50114、能量變換點(diǎn)檢測模塊50116以及用于根據(jù)待識 別聲音文件的能量變化點(diǎn)確定所接收的聲音文件為無損文件還是有損文件的判斷模塊 50117B。
[0117] 通常情況下,音樂平臺的服務(wù)器501在接收到音樂提供商(例如協(xié)約唱片公司)提 供的標(biāo)稱為無損的音樂文件后,可以觸發(fā)執(zhí)行這些指令,如果執(zhí)行結(jié)果為確定為無損音樂 文件,則可以上傳至音樂平臺的數(shù)據(jù)庫502(曲庫),并標(biāo)記該音樂文件為無損文件,例如設(shè) 置該音樂文件的音質(zhì)標(biāo)記為無損。這樣,在用戶使用客戶端503搜索音樂時,則服務(wù)器501可 以向客戶端503顯示或輸出搜索到的音樂及其音質(zhì)標(biāo)記供用戶根據(jù)需要選擇下載或在線收 聽無損的音樂文件還是有損的音樂文件。如果執(zhí)行的結(jié)果為確定為有損的音樂文件,則會 報告檢測結(jié)果或者上報異常狀態(tài)給音樂平臺的管理員,由管理員進(jìn)行后續(xù)處理。例如管理 員可以與音樂提供商進(jìn)行溝通,請其重新提供無損的音樂文件,或者將該音樂文件的音質(zhì) 標(biāo)記設(shè)置為有損并上傳至數(shù)據(jù)庫等等。從而可以從源頭保證音樂平臺為用戶提供的音樂的 品質(zhì),提高音樂平臺的性能。圖6顯示了音樂平臺客戶端的一個搜索界面示例。從圖6可以看 出,用戶通過客戶端的搜索功能搜索名稱為"ABC"的音樂后,客戶端可以顯示多條(兩條)搜 索結(jié)果,并且針對每條到的音樂文件除了顯示音樂名稱、所屬專輯名稱、演唱者、資源來源 以及可以進(jìn)行的諸如收聽、加入播放列表、本地下載、收藏等等操作選項之外,還會顯示該 音樂文件的音質(zhì)標(biāo)記601,提示客戶該音樂文件的音質(zhì)是有損還是無損。
[0118] 如上所述,在這種應(yīng)用場景下,主要是由服務(wù)器501實(shí)現(xiàn)本發(fā)明實(shí)施例的功能。在 這種情況下,音樂平臺的服務(wù)器501還可以進(jìn)一步維護(hù)進(jìn)行模型匹配的機(jī)器學(xué)習(xí)模型,例 如,其存儲器5011中進(jìn)一步包括訓(xùn)練并建立模型的指令模塊。該模塊可以應(yīng)用圖2所示的方 法訓(xùn)練并建立模型,而且還可以在初次建立模型后,定期動態(tài)地反復(fù)進(jìn)行訓(xùn)練校準(zhǔn),從而對 模型進(jìn)行優(yōu)化。
[0119] 除了上述應(yīng)用場景之外,上述識別聲音文件音質(zhì)的方法還可以應(yīng)用在音樂平臺的 客戶端503上。具體而言,用戶通過各種渠道下載了音樂文件后,可以調(diào)用客戶端的識別功 能,自動識別所下載音樂文件的音質(zhì)。
[0120]圖7顯示了客戶端503的內(nèi)部結(jié)構(gòu),如圖7所示,客戶終端503包括:用于存儲指令的 存儲器5031以及用于執(zhí)行存儲于存儲器中指令的處理器5032。上述指令包含如下指令模 塊:接收模塊50111,用于接收待識別聲音文件;轉(zhuǎn)換模塊50112,用于將待識別聲音文件的 格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式;分幀模塊50113,用于對具有基準(zhǔn)音頻格式的聲音文 件進(jìn)行分幀,共得到X個幀;時頻變換模塊50114,用于對分幀后的全部X個幀分別進(jìn)行傅立 葉變換,得到每一幀的頻譜;匹配模塊50115,用于根據(jù)音樂文件每一幀的頻譜進(jìn)行模型匹 配,得到對待識別聲音文件的初步分類結(jié)果;能量變換點(diǎn)檢測模塊50116,用于根據(jù)音樂文 件每一幀的頻譜確定待識別聲音文件的能量變化點(diǎn);以及判斷模塊50117,用于根據(jù)對待識 別聲音文件的初步分類結(jié)果以及待識別聲音文件的能量變化點(diǎn)確定聲音文件的音質(zhì),即確 定聲音文件為無損文件還是有損文件。需要說明的是,上述模塊的具體實(shí)現(xiàn)方法可以參考 圖1中各個步驟的具體實(shí)現(xiàn)方法。作為上述方案的簡化替代方案,上述指令可以僅包括如下 指令模塊:接收模塊50111、轉(zhuǎn)換模塊50112、分幀模塊50113、時頻變換模塊50114、匹配模塊 50115以及用于根據(jù)對待識別聲音文件的初步分類結(jié)果確定所接收的聲音文件為無損文件 還是有損文件的判斷模塊50117A。又或者上述指令可以僅包括如下指令模塊:接收模塊 50111、轉(zhuǎn)換模塊50112、分幀模塊50113、時頻變換模塊50114、能量變換點(diǎn)檢測模塊50116以 及用于根據(jù)待識別聲音文件的能量變化點(diǎn)確定所接收的聲音文件為無損文件還是有損文 件的判斷模塊50117B。
[0121]通常情況下,客戶端503在用戶選擇了需要識別的音樂文件并調(diào)用該識別功能后, 可以觸發(fā)執(zhí)行這些指令,并通過客戶端的輸出設(shè)備,例如顯示屏,輸出識別結(jié)果供用戶參 考。在這種應(yīng)用場景下,用戶自己無需收聽每一首下載的音樂即可快速判斷出所下載音樂 的音質(zhì),從而在下載來源沒有音質(zhì)標(biāo)識或者音質(zhì)標(biāo)識不準(zhǔn)確的情況下可以快速篩選出音質(zhì) 好的首樂,從而提尚了客戶端的性能。
[0122]如上所述,在這種應(yīng)用場景下,主要是由客戶端503實(shí)現(xiàn)本發(fā)明實(shí)施例的功能。然 而在這種情況下,仍可以由音樂平臺的服務(wù)器501維護(hù)進(jìn)行模型匹配的機(jī)器學(xué)習(xí)模型,例 如,例如,其存儲器5011中進(jìn)一步包括訓(xùn)練并建立模型的指令模塊。該模塊可以應(yīng)用圖2所 示的方法訓(xùn)練并建立模型,而且還可以在初次建立模型后,定期動態(tài)地反復(fù)進(jìn)行訓(xùn)練校準(zhǔn), 從而對模型進(jìn)行優(yōu)化。同時,其存儲器5011中還將進(jìn)一步包括:模型同步模塊,用于通過網(wǎng) 絡(luò)(例如客戶端軟件更新等方式)將建立或者優(yōu)化后的模型同步到客戶端503。在這種情況 下,客戶端503的存儲器還將包括:模型下載模塊50311,用于從服務(wù)器下載并保存進(jìn)行模型 匹配的模型。
[0123]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【主權(quán)項】
1. 一種聲音文件的音質(zhì)識別方法,其特征在于,包括: 將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式; 對基準(zhǔn)音頻格式的聲音文件進(jìn)行分帖W及傅立葉變換處理得到所述聲音文件每一帖 的頻譜; 根據(jù)所述聲音文件每一帖的頻譜進(jìn)行模式匹配,得到對所述聲音文件的初步分類結(jié) 果; 根據(jù)所述聲音文件每一帖的頻譜確定所述聲音文件的能量變化點(diǎn);W及 根據(jù)所述聲音文件的初步分類結(jié)果及其能量變化點(diǎn)確定所述聲音文件的音質(zhì)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基準(zhǔn)音頻格式為采樣速率是44.化化、 采樣精度為16比特的脈沖編碼調(diào)制文件格式。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述將待識別聲音文件的格式轉(zhuǎn)換為 預(yù)先設(shè)置的基準(zhǔn)音頻格式包括:檢測待識別聲音文件是否為所述基準(zhǔn)音頻格式,如果不是, 則將所述聲音文件解碼為所述基準(zhǔn)音頻格式。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對基準(zhǔn)音頻格式的聲音文件進(jìn)行分帖 包括:設(shè)置帖長和帖移,根據(jù)設(shè)置的帖長和帖移對所述聲音文件進(jìn)行分帖。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲音文件每一帖的頻譜進(jìn)行 模式匹配包括: 分別對每一帖頻譜所包含的頻帶進(jìn)行分段; 針對每一個頻帶分段,將所述聲音文件的所有帖在所述頻帶分段上各個頻帶的能量值 求和,得到所述聲音文件在每個頻帶分段的能量值; 根據(jù)所述聲音文件在每個頻帶分段的能量值,確定所述聲音文件的衰落特征向量;W 及 根據(jù)所述聲音文件的衰落特征向量對所述聲音文件進(jìn)行模型匹配,得到對所述聲音文 件的初步分類結(jié)果。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述分別對每一帖頻譜所包含的頻帶進(jìn)行 分段包括:設(shè)置每個頻帶分段包含頻帶數(shù)和頻移,根據(jù)設(shè)定的頻帶數(shù)和頻移進(jìn)行分段。7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述聲音文件的衰落特征向量Y通過如下 公式的得到: yi = xi+:i-xiQ e [1 ,L-1]) 其中,χι(i e [ 1,L])表示所述聲音文件在第i個頻帶分段的能量值; 所述聲音文件的初步分類結(jié)果為置信度q,通過如下公式得到: q=WY 其中,Y為所述聲音文件的衰落特征向量;W為進(jìn)行模型匹配時所使用模型對應(yīng)的線性 相關(guān)系數(shù)。8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲音文件每一帖的頻譜確定 所述聲音文件的能量變化點(diǎn)包括: 確定所述聲音文件每一帖的最高頻譜分割線; 根據(jù)每一帖的最高頻譜分割線所在的頻帶,分別統(tǒng)計每個頻帶上一共有多少個最高頻 譜分割線,記為^?!闧1,1]),其中^1代表在第1個頻帶上最高頻譜分割線的個數(shù);1為頻帶 的個數(shù); 將riQe [1,Μ])中所有相近的S個點(diǎn)進(jìn)行求和,得到能量和最大的S個相鄰頻帶;W及 確定能量和最大的S個相鄰頻帶中最優(yōu)變換頻帶對應(yīng)的頻率,將其作為待識別音樂文 件的能量變化點(diǎn)。9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述確定所述聲音文件每一帖的最高頻譜 分割線包括:針對每一帖,從高頻到低頻對所有頻帶進(jìn)行遍歷,第一個能量值大于第一口限 的頻帶為運(yùn)一帖的最高頻譜分割線。10. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述最優(yōu)變換頻帶對應(yīng)的頻率C可W通過 如下的公式得到:其中,S為系統(tǒng)設(shè)定的數(shù)值;1為能量和最大的S個相鄰頻帶的第一個頻帶的編號;Μ為對 所述進(jìn)行傅立葉變換后得到的頻帶數(shù);ri(ie[l,Μ])為第i個頻帶上最高頻譜分割線的個 數(shù)。11. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲音文件的初步分類結(jié)果 及其能量變化點(diǎn)確定所述聲音文件的音質(zhì)包括: 對所述聲音文件的初步分類結(jié)果為置信度q,能量變化點(diǎn)為最優(yōu)變換頻帶的等效頻率 C; 計算兩個中間參數(shù): d = c-20000 e = q-〇.5 如果d和e同時大于0,則確定所述聲音文件為無損文件;如果d和e同時小于0,則確定所 述聲音文件為有損文件。12. -種聲音文件的音質(zhì)識別方法,其特征在于,包括: 將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式; 對基準(zhǔn)音頻格式的聲音文件進(jìn)行分帖W及傅立葉變換處理得到所述聲音文件每一帖 的頻譜; 根據(jù)所述聲音文件每一帖的頻譜進(jìn)行模式匹配,得到對所述聲音文件的初步分類結(jié) 果;W及 根據(jù)所述聲音文件的初步分類結(jié)果確定所述聲音文件的音質(zhì)。13. 根據(jù)權(quán)利要求12所述的方法,其特征在于,所述根據(jù)所述聲音文件每一帖的頻譜進(jìn) 行模式匹配包括: 分別對每一帖頻譜所包含的頻帶進(jìn)行分段; 針對每一個頻帶分段,將所述聲音文件的所有帖在所述頻帶分段上各個頻帶的能量值 求和,得到所述聲音文件在每個頻帶分段的能量值; 根據(jù)所述聲音文件在每個頻帶分段的能量值,確定所述聲音文件的衰落特征向量;W 及 根據(jù)所述聲音文件的衰落特征向量對所述聲音文件進(jìn)行模型匹配,得到對所述聲音文 件的初步分類結(jié)果。14. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述聲音文件的衰落特征向量Y通過如 下公式的得到: yi = xi+:L-xi( i e [ 1,L-1 ]) 其中,χι(i e [ 1,L])表示所述聲音文件在第i個頻帶分段的能量值; 所述聲音文件的初步分類結(jié)果為置信度q,通過如下公式得到: q=WY 其中,Y為所述聲音文件的衰落特征向量;W為進(jìn)行模型匹配時所使用模型對應(yīng)的線性 相關(guān)系數(shù)。15. 根據(jù)權(quán)利要求12所述的方法,其特征在于,所述根據(jù)所述聲音文件的初步分類結(jié)果 確定所述聲音文件的音質(zhì)包括: 對所述聲音文件的初步分類結(jié)果為置信度q,如果q大于預(yù)先設(shè)置的口限,則確定所述 聲音文件為無損文件;如果q小于或等于預(yù)先設(shè)置的口限,則確定所述聲音文件為有損文 件。 16 . -種聲音文件的音質(zhì)識別方法,其特征在于,包括: 將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式; 對基準(zhǔn)音頻格式的聲音文件進(jìn)行分帖W及傅立葉變換處理得到所述聲音文件每一帖 的頻譜; 根據(jù)所述聲音文件每一帖的頻譜確定所述聲音文件的能量變化點(diǎn);W及 根據(jù)所述聲音文件的能量變化點(diǎn)確定所述聲音文件的音質(zhì)。17. 根據(jù)權(quán)利要求16所述的方法,其特征在于,所述根據(jù)所述聲音文件每一帖的頻譜確 定所述聲音文件的能量變化點(diǎn)包括: 確定所述聲音文件每一帖的最高頻譜分割線; 根據(jù)每一帖的最高頻譜分割線所在的頻帶,分別統(tǒng)計每個頻帶上一共有多少個最高頻 譜分割線,記為^?!闧1,1]),其中^1代表在第1個頻帶上最高頻譜分割線的個數(shù);1為頻帶 的個數(shù); 將riQe [Ι,Μ])中所有相近的S個點(diǎn)進(jìn)行求和,得到能量和最大的S個相鄰頻帶;W及 確定能量和最大的S個相鄰頻帶中最優(yōu)變換頻帶對應(yīng)的頻率,將其作為待識別音樂文 件的能量變化點(diǎn)。18. 根據(jù)權(quán)利要求17所述的方法,其特征在于,所述確定所述聲音文件每一帖的最高頻 譜分割線包括:針對每一帖,從高頻到低頻對所有頻帶進(jìn)行遍歷,第一個能量值大于第一口 限的頻帶為運(yùn)一帖的最高頻譜分割線。19. 根據(jù)權(quán)利要求17所述的方法,其特征在于,所述最優(yōu)變換頻帶對應(yīng)的頻率C可W通 過如下的公式得到:其中,s為系統(tǒng)設(shè)定的數(shù)值;1為能量和最大的s個相鄰頻帶的第一個頻帶的編號;Μ為對 所述進(jìn)行傅立葉變換后得到的頻帶數(shù);ri(ie[l,Μ])為第i個頻帶上最高頻譜分割線的個 數(shù)。20. 根據(jù)權(quán)利要求16所述的方法,其特征在于,所述根據(jù)所述聲音文件的能量變化點(diǎn)確 定所述聲音文件的音質(zhì)包括:能量變化點(diǎn)為最優(yōu)變換頻帶的等效頻率C;如果C大于預(yù)先設(shè) 置的口限,則確定所述聲音文件為無損文件;如果C小于或等于預(yù)先設(shè)置的口限,則確定所 述聲音文件為有損文件。21. -種服務(wù)器,其特征在于,包括: 接收模塊,用于接收待識別聲音文件; 轉(zhuǎn)換模塊,用于將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式; 分帖模塊,用于對具有基準(zhǔn)音頻格式的聲音文件進(jìn)行分帖; 時頻變換模塊,用于對分帖后的全部帖分別進(jìn)行傅立葉變換,得到所述聲音文件每一 帖的頻譜; 匹配模塊,用于根據(jù)所述聲音文件每一帖的頻譜進(jìn)行模型匹配,得到對所述聲音文件 的初步分類結(jié)果; 能量變換點(diǎn)檢測模塊,用于根據(jù)所述聲音文件每一帖的頻譜確定所述聲音文件的能量 變化點(diǎn);W及 判斷模塊,用于根據(jù)對待識別聲音文件的初步分類結(jié)果W及待識別聲音文件的能量變 化點(diǎn)確定所述聲音文件的音質(zhì)。22. 根據(jù)權(quán)利要求21所述的服務(wù)器,其特征在于,進(jìn)一步包括: 訓(xùn)練并建立模型的指令模塊,用于訓(xùn)練并建立模型,W及優(yōu)化模型。23. 根據(jù)權(quán)利要求22所述的服務(wù)器,其特征在于,進(jìn)一步包括: 模型同步模塊,用于將建立或者優(yōu)化后的模型同步到客戶端。24. -種客戶端,其特征在于,包括: 接收模塊,用于接收待識別聲音文件; 轉(zhuǎn)換模塊,用于將待識別聲音文件的格式轉(zhuǎn)換為預(yù)先設(shè)置的基準(zhǔn)音頻格式; 分帖模塊,用于對具有基準(zhǔn)音頻格式的聲音文件進(jìn)行分帖; 時頻變換模塊,用于對分帖后的全部帖分別進(jìn)行傅立葉變換,得到所述聲音文件每一 帖的頻譜; 匹配模塊,用于根據(jù)所述聲音文件每一帖的頻譜進(jìn)行模型匹配,得到對所述聲音文件 的初步分類結(jié)果; 能量變換點(diǎn)檢測模塊,用于根據(jù)所述聲音文件每一帖的頻譜確定所述聲音文件的能量 變化點(diǎn);W及 判斷模塊,用于根據(jù)對待識別聲音文件的初步分類結(jié)果W及待識別聲音文件的能量變 化點(diǎn)確定所述聲音文件的音質(zhì)。25. 根據(jù)權(quán)利要求24所述的客戶端,其特征在于,進(jìn)一步包括: 模型下載模塊,用于從服務(wù)器下載并保存進(jìn)行模型匹配的模型。
【文檔編號】G10L25/60GK106098081SQ201610381626
【公開日】2016年11月9日
【申請日】2016年6月1日 公開號201610381626.0, CN 106098081 A, CN 106098081A, CN 201610381626, CN-A-106098081, CN106098081 A, CN106098081A, CN201610381626, CN201610381626.0
【發(fā)明人】趙偉峰
【申請人】騰訊科技(深圳)有限公司