一種樂曲識別方法、系統(tǒng)和裝置制造方法

文檔序號：2827237閱讀：135來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種樂曲識別方法、系統(tǒng)和裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種樂曲識別方法、系統(tǒng)和裝置。該方法包括：客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息；所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器；所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，得到匹配相似度；所述客戶端在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。應(yīng)用本發(fā)明實施例能夠在保證識別成功率與節(jié)省數(shù)據(jù)傳輸資源之間取得平衡。
【專利說明】-種樂曲識別方法、系統(tǒng)和裝置

【技術(shù)領(lǐng)域】
[0001] 本申請涉及語音識別以及信息處理【技術(shù)領(lǐng)域】，尤其涉及一種樂曲識別方法、系統(tǒng) 和裝置。

【背景技術(shù)】
[0002] 樂曲識別技術(shù)，是指通過采集播放的樂曲的特征數(shù)據(jù)，將該特征數(shù)據(jù)與數(shù)據(jù)庫中各個已知樂曲的特征數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果確定該播放的樂曲屬于哪一首樂曲的技術(shù)。
[0003] 其中，所述的樂曲可以是沒有配樂的歌聲、帶有配樂的歌聲或者沒有歌聲的純音樂。樂曲的特征數(shù)據(jù)也可以稱為樂紋（audio fingerprint)信息，其能夠表現(xiàn)一首樂曲的音調(diào)、響度、音色等特征。
[0004] 圖1是目前的樂曲識別方法的詳細(xì)流程圖。
[0005] 如圖1所示，該流程包括：
[0006] 步驟101，客戶端接收開始采集的命令，對當(dāng)前正在播放的樂曲或者正在錄制的音頻信息進(jìn)行采集。
[0007] 步驟102,客戶端接收結(jié)束采集的命令，將接收到所述開始采集的命令和所述結(jié)束采集的命令之間的時間段內(nèi)采集的音頻數(shù)據(jù)確定為待識別的音頻數(shù)據(jù)。
[0008] 步驟103,所述客戶端從所述待識別的音頻數(shù)據(jù)中提取樂紋信息。
[0009] 步驟104,所述客戶端將所述樂紋信息上傳到數(shù)據(jù)分析服務(wù)器。
[0010] 步驟103和步驟104中，也可以是由客戶端直接將待識別的音頻數(shù)據(jù)上傳到數(shù)據(jù) 分析服務(wù)器，由數(shù)據(jù)分析服務(wù)器從所述待識別的音頻數(shù)據(jù)中提取所述樂紋信息。
[0011] 步驟105,所述數(shù)據(jù)分析服務(wù)器將所述樂紋信息與已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，根據(jù)匹配結(jié)果識別出所述待識別的音頻數(shù)據(jù)屬于哪一首樂曲。
[0012] 步驟106,所述數(shù)據(jù)分析服務(wù)器將識別結(jié)果返回給所述客戶端，結(jié)束本流程。
[0013] 其中，當(dāng)步驟105識別出所述待識別的音頻數(shù)據(jù)屬于哪一首樂曲時，所述數(shù)據(jù)分析服務(wù)器將該首樂曲的名稱等摘要信息返回給所述客戶端，當(dāng)步驟105沒能識別出所述待識別的音頻數(shù)據(jù)屬于哪一首樂曲時，所述數(shù)據(jù)分析服務(wù)器返回識別失敗的消息。
[0014] 由圖1所示方法可見，目前在進(jìn)行樂曲識別時，需要通過用戶手動操作來采集待識別的音頻數(shù)據(jù)，然后根據(jù)手動采集的待識別音頻數(shù)據(jù)進(jìn)行樂曲識別，數(shù)據(jù)分析服務(wù)器對所述待識別音頻數(shù)據(jù)樂曲識別完成以后，直接將識別結(jié)果返回給客戶端，并且結(jié)束與客戶端的交互流程，因此，圖1所示方法存在如下的缺陷：
[0015] 如果用戶手動采集的待識別音頻數(shù)據(jù)的數(shù)據(jù)量過小，例如，只采集了 3秒的音頻數(shù)據(jù)，則將導(dǎo)致數(shù)據(jù)分析服務(wù)器難以準(zhǔn)確識別出待識別音頻數(shù)據(jù)具體屬于哪一首樂曲，識別成功率較低，如果用戶手動采集的待識別音頻數(shù)據(jù)的數(shù)據(jù)量過大，例如，采集了 2分鐘的音頻數(shù)據(jù)，則將導(dǎo)致客戶端向數(shù)據(jù)分析服務(wù)器上傳待識別音頻數(shù)據(jù)的樂紋信息需要消耗較多的數(shù)據(jù)傳輸資源?？梢姡壳暗臉非R別方法難以在保證識別成功率與節(jié)省數(shù)據(jù)傳輸資源之間取得平衡。
[0016] 另外，采用圖1所示方法進(jìn)行樂曲識別時，如果有順序播放的多首樂曲，則需要針對每首樂曲分別手動輸入開始采集的命令和結(jié)束采集的命令，才能獲取到待識別音頻數(shù) 據(jù)，進(jìn)而實現(xiàn)樂曲識別，無法對順序播放的多首樂曲進(jìn)行持續(xù)性地自動識別。

【發(fā)明內(nèi)容】

[0017] 本發(fā)明提供了一種樂曲識別方法、系統(tǒng)和裝置，能夠在保證識別成功率與節(jié)省數(shù) 據(jù)傳輸資源之間取得平衡。
[0018] 一種樂曲識別方法，該方法包括：
[0019] 客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息；
[0020] 所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器；
[0021] 所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配，得到匹配相似度；
[0022] 所述客戶端在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0023] -種樂曲識別系統(tǒng)，該系統(tǒng)包括客戶端和數(shù)據(jù)分析服務(wù)器；
[0024] 所述客戶端，用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息，將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器，在所述數(shù)據(jù)分析服務(wù)器得到的匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù) 器上傳用于進(jìn)行樂曲識別的音頻信息；
[0025] 所述數(shù)據(jù)分析服務(wù)器，用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，得到匹配相似度。
[0026] -種用于樂曲識別的數(shù)據(jù)分析服務(wù)器，該數(shù)據(jù)分析服務(wù)器包括接收模塊和匹配模塊；
[0027] 所述接收模塊，用于接收客戶端上傳的用于進(jìn)行樂曲識別的音頻信息，其中，在所述匹配模塊得到的匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)接收所述用于進(jìn)行樂曲識別的音頻信息，在所述匹配模塊得到的匹配相似度達(dá)到樂曲識別成功的條件時，暫停接收所述用于進(jìn)行樂曲識別的音頻信息；
[0028] 所述匹配模塊，用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù) 庫進(jìn)行匹配，得到匹配相似度。
[0029] -種用于樂曲識別的客戶端，該客戶端包括采集模塊、提取模塊和數(shù)據(jù)交互模塊；
[0030] 所述采集模塊，用于采集音頻數(shù)據(jù)；
[0031] 所述提取模塊，用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息；
[0032] 所述數(shù)據(jù)交互模塊，用于將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器，根據(jù)所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配得到的匹配相似度，在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù) 向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0033] 由上述技術(shù)方案可見，本發(fā)明實施例中，客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn) 行樂曲識別的音頻信息，并將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器以后，需要進(jìn)一步根據(jù)數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配得到的匹配相似度，確定是否繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，具體地，在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，從而使得客戶端上傳的音頻數(shù)據(jù)量恰好能夠?qū)崿F(xiàn)成功地識別出當(dāng)前播放的樂曲，又不至于上傳過多的音頻數(shù)據(jù)造成數(shù)據(jù)傳輸資源的浪費，因此能夠在保證識別成功率與節(jié)省數(shù)據(jù)傳輸資源之間取得平衡。

【專利附圖】

【附圖說明】
[0034] 圖1是目前的樂曲識別方法的詳細(xì)流程圖。
[0035] 圖2是本發(fā)明實施例提供的樂曲識別方法流程圖。
[0036] 圖3是本發(fā)明優(yōu)選實施例提供的樂曲識別方法流程圖。
[0037] 圖4是本發(fā)明實施例提供的樂曲識別系統(tǒng)組成示意圖。
[0038] 圖5是本發(fā)明實施例提供的用于樂曲識別的數(shù)據(jù)分析服務(wù)器結(jié)構(gòu)示意圖。
[0039] 圖6是本發(fā)明實施例提供的用于樂曲識別的客戶端結(jié)構(gòu)示意圖。

【具體實施方式】
[0040] 圖2是本發(fā)明實施例提供的樂曲識別方法流程圖。
[0041] 如圖2所示，該流程包括：
[0042] 步驟201，客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
[0043] 本步驟中，客戶端可以通過麥克風(fēng)等音頻采集設(shè)備采集周圍環(huán)境的音頻數(shù)據(jù)，所述客戶端可以持續(xù)地采集周圍環(huán)境的音頻數(shù)據(jù)，以便持續(xù)地識別周圍環(huán)境中播放的樂曲，其中，所述持續(xù)可以是無間斷地持續(xù)，也可以是有間斷地持續(xù)，其中的間斷一般是優(yōu)先級更高的操作需要暫停采集周圍環(huán)境的音頻數(shù)據(jù)造成的。
[0044] 由于周圍環(huán)境的音頻數(shù)據(jù)中可能包含了單純的說話聲音或其他環(huán)境噪音，如果直接從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息，一方面信息提取的工作量較大，另一方面提取的準(zhǔn)確度和精度也較差，影響后續(xù)的樂曲識別效果，因此，本發(fā)明實施例提出，可以先根據(jù)可識別樂音的特征初步判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音，如果是，再從包含可識別樂音的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息，否則，不執(zhí)行所述提取的操作。
[0045] 其中，所述用于進(jìn)行樂曲識別的音頻信息可以包括所述客戶端采集的包含可識別樂音的音頻數(shù)據(jù)，或者，從所述客戶端采集的包含可識別樂音的音頻數(shù)據(jù)中提取的音頻特征信息。換言之，本發(fā)明實施例中，所述客戶端采集音頻數(shù)據(jù)以后，根據(jù)可識別樂音的特征，從采集的音頻數(shù)據(jù)中截取包含可識別樂音的音頻數(shù)據(jù)，將采集的所述包含可識別樂音的音頻數(shù)據(jù)確定為用于樂曲識別的音頻信息，或者，也可以在截取包含可識別樂音的音頻數(shù)據(jù) 以后，進(jìn)一步從所述包含可識別樂音的音頻數(shù)據(jù)中提取音頻特征信息，將所述音頻特征信息確定為用于進(jìn)行樂曲識別的音頻信息。
[0046] 其中，所述可識別樂音是否區(qū)分于單純的說話聲音或其他環(huán)境噪音的帶有旋律的音頻數(shù)據(jù)，例如，單純的歌聲、配樂的歌聲或者沒有歌聲的純音樂等。
[0047] 步驟202,所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù) 器。
[0048] 步驟203,所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，得到匹配相似度。
[0049] 步驟204,判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件，如果是，執(zhí)行步驟 205,否則，返回步驟202。
[0050] 本步驟中，可以由數(shù)據(jù)分析服務(wù)器判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件（比如，所述匹配相似度是否大于預(yù)設(shè)值)，如果是，則向所述客戶端發(fā)送暫停上傳用于進(jìn)行樂曲識別的音頻信息的命令，否則，不向所述客戶端發(fā)送暫停上傳用于進(jìn)行樂曲識別的音頻信息的命令、或者向所述客戶端發(fā)送繼續(xù)上傳用于進(jìn)行樂曲識別的音頻信息的命令，從而所述客戶端根據(jù)收到的命令確定是否繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0051] 或者，本步驟中，數(shù)據(jù)分析服務(wù)器也可以將得到的所述匹配相似度下發(fā)給所述客戶端，由所述客戶端判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件，根據(jù)判斷結(jié)果確定是否繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0052] 步驟205,所述客戶端暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0053] 在本發(fā)明的優(yōu)選實施例中，為了進(jìn)一步提高樂曲識別的準(zhǔn)確率，在所述匹配相似度達(dá)到樂曲識別成功的條件時，所述數(shù)據(jù)分析服務(wù)器還可以向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息，所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息。
[0054] 可見，在本發(fā)明的優(yōu)選實施例中，通過在數(shù)據(jù)分析服務(wù)器得到的匹配相似度達(dá)到樂曲識別成功的條件時，由數(shù)據(jù)分析服務(wù)器將識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息發(fā)給客戶端，由客戶端根據(jù)所述剩余音頻信息和本地采集的音頻數(shù)據(jù)進(jìn)行本地匹配，進(jìn)一步根據(jù)本地匹配的結(jié)果保存識別的樂曲信息，一方面不需要客戶端持續(xù)上傳從周圍環(huán)境的音頻數(shù)據(jù)中提取的大量音頻信息，節(jié)省了數(shù)據(jù)傳輸資源，另一方面，通過客戶端本地的匹配結(jié)果進(jìn)一步驗證或細(xì)化網(wǎng)絡(luò)側(cè)數(shù)據(jù)分析服務(wù)器的樂曲識別結(jié)果，能夠進(jìn)一步提高樂曲識別的準(zhǔn)確率。
[0055] 例如，在一實施例中，所述客戶端可以判斷所述剩余音頻信息與采集的音頻數(shù)據(jù) 的匹配相似度是否滿足樂曲停止條件（比如，所述匹配相似度是否小于預(yù)設(shè)值)，如果是，則識別出當(dāng)前播放的樂曲已停止，所述客戶端根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
[0056] 為了進(jìn)一步提高樂曲識別的精度和準(zhǔn)確率，在一實施例中，所述客戶端可以計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值，當(dāng)所述加權(quán)平均值高于預(yù)定值時，保存所述樂曲片段的屬性信息，否則，不保存所述樂曲片段的屬性信息。
[0057] 其中，所述樂曲片段的屬性信息可以包括：所述樂曲片段所歸屬的樂曲的標(biāo)識信息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息。
[0058] 在實際應(yīng)用中，受各種因素干擾，一首連續(xù)播放的樂曲可能在識別過程中發(fā)生中斷，從而分成多個可識別的樂曲片段，針對這種情況，本發(fā)明實施例提出，所述客戶端還可以根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息，將播放進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并，保存合并后的樂曲片段的屬性信息，從而能夠識別出由于干擾而導(dǎo)致識別為多個分隔的樂曲片段的連續(xù)播放的樂曲，提高識別準(zhǔn)確度，而且，由于只需要存儲合并后的樂曲片段的屬性信息，因此還能夠節(jié)省存儲空間。
[0059] 由于在實際應(yīng)用場景中，環(huán)境中可能先后播放了多首樂曲，關(guān)于如何對順序播放的多首樂曲進(jìn)行持續(xù)性地自動識別，本發(fā)明實施例提出，每當(dāng)所述客戶端根據(jù)本地匹配的結(jié)果識別出當(dāng)前播放的樂曲已停止時，都返回所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器的步驟，從而能夠?qū)崿F(xiàn)對順序播放的多首樂曲進(jìn)行持續(xù)性地自動識別。
[0060] 在本發(fā)明實施例中，還可以根據(jù)識別出的樂曲信息生成音樂日志列表，當(dāng)由所述客戶端生成所述音樂日志列表時，所述客戶端可以將所述音樂日志列表上傳到音樂日志服務(wù)器上。所述音樂日志列表除了包含識別出的樂曲片段的屬性信息以外，還可以在所述音樂日志列表中進(jìn)一步添加識別出樂曲片段的時間、地點信息、或者添加文字、圖片、表情等信息，并且，可以通過網(wǎng)絡(luò)服務(wù)器將所述音樂日志列表分享給其他用戶。
[0061] 根據(jù)上文提供的實施例，下面給出一種樂曲識別的優(yōu)選實施例，該優(yōu)選實施例并不用于限制本發(fā)明，具體請參見圖3。
[0062] 圖3是本發(fā)明優(yōu)選實施例提供的樂曲識別方法流程圖。
[0063] 如圖3所示，在該優(yōu)選實施例中，該流程包括：
[0064] 步驟301，客戶端持續(xù)地采集周圍環(huán)境的音頻數(shù)據(jù)。
[0065] 步驟302,客戶端判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音，如果是，執(zhí)行步驟 303,否則，返回步驟302。
[0066] 步驟303,客戶端從包含可識別樂音的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息，執(zhí)行步驟304。
[0067] 步驟304,所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù) 器。
[0068] 步驟305,所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，得到匹配相似度。
[0069] 步驟306,判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件，如果是，執(zhí)行步驟 307,否則，返回步驟304。
[0070] 步驟307,所述客戶端暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0071] 步驟308,所述數(shù)據(jù)分析服務(wù)器向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息。
[0072] 本步驟中，所述數(shù)據(jù)分析服務(wù)器還向所述客戶端返回識別成功的樂曲信息，所述樂曲信息可以包括樂曲標(biāo)識信息和播放進(jìn)度信息。
[0073] 本步驟中，可以是數(shù)據(jù)分析服務(wù)器在確定出樂曲識別成功以后，主動向所述客戶端下發(fā)所述剩余音頻信息，也可以是所述客戶端在確定出樂曲識別成功以后，向所述數(shù)據(jù) 分析服務(wù)器請求所述剩余音頻信息，從而所述數(shù)據(jù)分析服務(wù)器應(yīng)所述請求返回所述剩余音頻信息。
[0074] 其中，所述剩余音頻信息可以是原始音頻數(shù)據(jù)或者進(jìn)過壓縮的適合匹配的數(shù)據(jù)。
[0075] 其中，步驟307和步驟308順序可調(diào)，或者，步驟307和步驟308可以同步執(zhí)行。
[0076] 步驟309,所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配。
[0077] 步驟310,所述客戶端判斷所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度是否滿足樂曲停止條件，如果是，執(zhí)行步驟311，否則，返回步驟310。
[0078] 步驟311，所述客戶端識別出當(dāng)前播放的樂曲已停止，執(zhí)行步驟312,并且，返回步驟 302。
[0079] 其中，通過執(zhí)行步驟312及其后續(xù)步驟，可以實現(xiàn)通過在客戶端本地匹配所述剩余音頻信息和采集的音頻數(shù)據(jù)，精確地識別出周圍環(huán)境中播放的樂曲片段并生成音樂日志列表，通過執(zhí)行步驟302,可以實現(xiàn)對周圍環(huán)境中順序播放的多首不同樂曲進(jìn)行持續(xù)性地自動識別。
[0080] 步驟312,所述客戶端根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段。
[0081] 步驟313,所述客戶端計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值，判斷所述加權(quán)平均值是否高于預(yù)定值，如果是，執(zhí)行步驟314,否則，執(zhí)行步驟316。
[0082] 步驟314,保存所述樂曲片段的屬性信息。
[0083] 本步驟中，客戶端如果有其他感應(yīng)器，例如位置感應(yīng)器，也可以獲取相應(yīng)信息后可以一起保存。
[0084] 步驟315,所述客戶端根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息，將播放進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并，保存合并后的樂曲片段的屬性信息，執(zhí)行步驟317。
[0085] 步驟316,不保存所述樂曲片段的屬性信息，執(zhí)行步驟317。
[0086] 步驟317,所述客戶端根據(jù)保存的樂曲片段的屬性信息生成音樂日志列表，并將所述音樂日志列表上傳到音樂日志服務(wù)器。
[0087] 其中，生成音樂日志列表以后，可以以文本等方式展示和分享，還可以通過播放器下載和播放所述音樂日志列表。
[0088] 根據(jù)本發(fā)明實施例提供的樂曲識別方法，本發(fā)明實施例還提供了一種樂曲識別系統(tǒng)、服務(wù)器和客戶端，具體請參見圖4-6。
[0089] 圖4是本發(fā)明實施例提供的樂曲識別系統(tǒng)組成示意圖。
[0090] 如圖4所示，該系統(tǒng)包括客戶端401和數(shù)據(jù)分析服務(wù)器402。
[0091] 客戶端401，用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息，將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器402,在所述數(shù)據(jù)分析服務(wù)器402得到的匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器402上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù) 據(jù)分析服務(wù)器402上傳用于進(jìn)行樂曲識別的音頻信息。
[0092] 數(shù)據(jù)分析服務(wù)器402,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，得到匹配相似度。
[0093] 其中，數(shù)據(jù)分析服務(wù)器402,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時，向所述客戶端401發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息。
[0094] 客戶端401，用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息。
[0095] 其中，所述客戶端401持續(xù)地采集音頻數(shù)據(jù)。
[0096] 客戶端401，用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，識別出當(dāng)前播放的樂曲已停止，根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
[0097] 客戶端401，可以用于在識別出當(dāng)前播放的樂曲已停止時，繼續(xù)將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器402。
[0098] 其中，客戶端401或者數(shù)據(jù)分析服務(wù)器402可以根據(jù)識別出的樂曲信息生成音樂日志列表。
[0099] 圖5是本發(fā)明實施例提供的用于樂曲識別的數(shù)據(jù)分析服務(wù)器結(jié)構(gòu)示意圖。
[0100] 如圖5所示，該數(shù)據(jù)分析服務(wù)器包括接收模塊501和匹配模塊502。
[0101] 接收模塊501，用于接收客戶端上傳的用于進(jìn)行樂曲識別的音頻信息，其中，在所述匹配模塊502得到的匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)接收所述用于進(jìn)行樂曲識別的音頻信息，在所述匹配模塊502得到的匹配相似度達(dá)到樂曲識別成功的條件時，暫停接收所述用于進(jìn)行樂曲識別的音頻信息。
[0102] 匹配模塊502,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù) 庫進(jìn)行匹配，得到匹配相似度。
[0103] 該數(shù)據(jù)分析服務(wù)器還可以包括發(fā)送模塊。
[0104] 所述發(fā)送模塊，用于在所述匹配相似度達(dá)到樂曲識別成功的條件時，向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息，以便所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息。
[0105] 接收模塊501，可以用于在所述客戶端識別出當(dāng)前播放的樂曲已停止時，繼續(xù)接收所述客戶端上傳的所述用于進(jìn)行樂曲識別的音頻信息，其中，所述客戶端在所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，識別出當(dāng)前播放的樂曲已停止。
[0106] 圖6是本發(fā)明實施例提供的用于樂曲識別的客戶端結(jié)構(gòu)示意圖。
[0107] 如圖6所示，該客戶端包括提取模塊601和數(shù)據(jù)交互模塊602。
[0108] 提取模塊601，用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
[0109] 數(shù)據(jù)交互模塊602,用于將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器，根據(jù)所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配得到的匹配相似度，在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù) 向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0110] 所述客戶端還可以包括本地識別模塊。
[0111] 數(shù)據(jù)交互模塊602,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時，接收所述數(shù)據(jù)分析服務(wù)器發(fā)送的識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息。
[0112] 所述本地識別模塊，用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù) 匹配結(jié)果保存識別的樂曲信息。
[0113] 所述本地識別模塊，可以用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，識別出當(dāng)前播放的樂曲已停止，根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
[0114] 所述本地識別模塊，可以用于計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值，當(dāng)所述加權(quán)平均值高于預(yù)定值時，保存所述樂曲片段的屬性信息，否則，不保存所述樂曲片段的屬性信息。
[0115] 其中，所述樂曲片段的屬性信息包括：所述樂曲片段所歸屬的樂曲的標(biāo)識信息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息。
[0116] 所述本地識別模塊，可以用于根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息，將播放進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并，保存合并后的樂曲片段的屬性信息。
[0117] 數(shù)據(jù)交互模塊602,可以用于在所述本地識別模塊識別出當(dāng)前播放的樂曲已停止時，繼續(xù)將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器。
[0118] 提取模塊601，可以用于根據(jù)可識別樂音的特征，判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音，在包含可識別樂音時，從所述音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
[0119] 本發(fā)明實施例所述的客戶端可以包括但不限于個人電腦（PC)、筆記本電腦、手機、平板電腦等終端。通過本發(fā)明實施例，使得在任何有音樂的場所如KTV、演唱會等，都能夠識別分析出環(huán)境中的樂曲，進(jìn)而將分析結(jié)果在網(wǎng)絡(luò)云端保存成列表記錄，之后再根據(jù)需要進(jìn) 行回放或者下載，還可以進(jìn)一步添加信息形成可分享音樂日志。
[0120] 并且，本發(fā)明實施例不限制具體場所，能夠通過主動方式持續(xù)地獲取和分析環(huán)境中音頻信息，識別出其中的樂曲部分，并且還能夠識別出的樂曲部分生成日志信息。
[0121] 以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1. 一種樂曲識別方法，其特征在于，該方法包括：客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息；所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器；所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配，得到匹配相似度；所述客戶端在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述匹配相似度達(dá)到樂曲識別成功的條件時，該方法還包括：所述數(shù)據(jù)分析服務(wù)器向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息；所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息；其中，所述客戶端持續(xù)地采集音頻數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，根據(jù)匹配結(jié)果保存識別的樂曲信息包括：當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，所述客戶端識別出當(dāng)前播放的樂曲已停止；所述客戶端根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息包括：計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值，當(dāng)所述加權(quán)平均值高于預(yù)定值時，保存所述樂曲片段的屬性信息，否則，不保存所述樂曲片段的屬性信息。
5. 根據(jù)權(quán)利要求3或4所述的方法，其特征在于，所述樂曲片段的屬性信息包括：所述樂曲片段所歸屬的樂曲的標(biāo)識信息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息；根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息包括：所述客戶端根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息，將播放進(jìn)度符合連續(xù) 播放的同一首樂曲的多個樂曲片段進(jìn)行合并，保存合并后的樂曲片段的屬性信息。
6. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述客戶端根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段包括：當(dāng)所述客戶端識別出當(dāng)前播放的樂曲已停止時，返回所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器的步驟。
7. 根據(jù)權(quán)利要求1所述的方法，其特征在于，客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn) 行樂曲識別的音頻信息包括：客戶端根據(jù)可識別樂音的特征，判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音，在包含可識別樂音時，從所述音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
8. 根據(jù)權(quán)利要求7所述的方法，其特征在于，所述用于進(jìn)行樂曲識別的音頻信息包括：所述客戶端采集的包含可識別樂音的音頻數(shù)據(jù)，或者，從所述客戶端采集的包含可識別樂音的音頻數(shù)據(jù)中提取的音頻特征信息。
9. 根據(jù)權(quán)利要求1、2、3、4、6或7所述的方法，其特征在于，該方法還包括：根據(jù)識別出的樂曲信息生成音樂日志列表。
10. -種樂曲識別系統(tǒng)，其特征在于，該系統(tǒng)包括客戶端和數(shù)據(jù)分析服務(wù)器；所述客戶端，用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息，將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器，在所述數(shù)據(jù)分析服務(wù)器得到的匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息；所述數(shù)據(jù)分析服務(wù)器，用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配，得到匹配相似度。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述數(shù)據(jù)分析服務(wù)器，用于在所述匹配相似度達(dá)到樂曲識別成功的條件時，向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息；所述客戶端，用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息；其中，所述客戶端持續(xù)地采集音頻數(shù)據(jù)。
12. 根據(jù)權(quán)利要求11所述的系統(tǒng)，其特征在于，所述客戶端，用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，識別出當(dāng)前播放的樂曲已停止，根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
13. 根據(jù)權(quán)利要求12所述的系統(tǒng)，其特征在于，所述客戶端，用于在識別出當(dāng)前播放的樂曲已停止時，繼續(xù)將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器。
14. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述客戶端或者所述數(shù)據(jù)分析服務(wù)器根據(jù)識別出的樂曲信息生成音樂日志列表。
15. -種用于樂曲識別的數(shù)據(jù)分析服務(wù)器，其特征在于，該數(shù)據(jù)分析服務(wù)器包括接收模塊和匹配模塊；所述接收模塊，用于接收客戶端上傳的用于進(jìn)行樂曲識別的音頻信息，其中，在所述匹配模塊得到的匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)接收所述用于進(jìn)行樂曲識別的音頻信息，在所述匹配模塊得到的匹配相似度達(dá)到樂曲識別成功的條件時，暫停接收所述用于進(jìn)行樂曲識別的音頻信息；所述匹配模塊，用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn) 行匹配，得到匹配相似度。
16. 根據(jù)權(quán)利要求15所述的數(shù)據(jù)分析服務(wù)器，其特征在于，該數(shù)據(jù)分析服務(wù)器還包括發(fā)送模塊，所述發(fā)送模塊，用于在所述匹配相似度達(dá)到樂曲識別成功的條件時，向所述客戶端發(fā) 送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息，以便所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息。
17. 根據(jù)權(quán)利要求16所述的數(shù)據(jù)分析服務(wù)器，其特征在于，所述接收模塊，用于在所述客戶端識別出當(dāng)前播放的樂曲已停止時，繼續(xù)接收所述客戶端上傳的所述用于進(jìn)行樂曲識別的音頻信息，其中，所述客戶端在所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，識別出當(dāng)前播放的樂曲已停止。
18. -種用于樂曲識別的客戶端，其特征在于，該客戶端包括提取模塊和數(shù)據(jù)交互模塊；所述提取模塊，用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息；所述數(shù)據(jù)交互模塊，用于將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù) 器，根據(jù)所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù) 庫進(jìn)行匹配得到的匹配相似度，在所述匹配相似度未達(dá)到樂曲識別成功的條件時，繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息，在所述匹配相似度達(dá)到樂曲識別成功的條件時，暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
19. 根據(jù)權(quán)利要求18所述的客戶端，其特征在于，所述客戶端還包括本地識別模塊；所述數(shù)據(jù)交互模塊，用于在所述匹配相似度達(dá)到樂曲識別成功的條件時，接收所述數(shù) 據(jù)分析服務(wù)器發(fā)送的識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息；所述本地識別模塊，用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配，根據(jù)匹配結(jié)果保存識別的樂曲信息。
20. 根據(jù)權(quán)利要求19所述的客戶端，其特征在于，所述本地識別模塊，用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時，識別出當(dāng)前播放的樂曲已停止，根據(jù)識別出的樂曲停止位置，確定識別出的樂曲片段，根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
21. 根據(jù)權(quán)利要求20所述的客戶端，其特征在于，所述本地識別模塊，用于計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值，當(dāng)所述加權(quán)平均值高于預(yù)定值時，保存所述樂曲片段的屬性信息，否則，不保存所述樂曲片段的屬性信息。
22. 根據(jù)權(quán)利要求21所述的客戶端，其特征在于，所述樂曲片段的屬性信息包括：所述樂曲片段所歸屬的樂曲的標(biāo)識信息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息；所述本地識別模塊，用于根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息，將播放進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并，保存合并后的樂曲片段的屬性信息。
23. 根據(jù)權(quán)利要求20所述的客戶端，其特征在于，所述數(shù)據(jù)交互模塊，用于在所述本地識別模塊識別出當(dāng)前播放的樂曲已停止時，繼續(xù) 將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器。
24. 根據(jù)權(quán)利要求18所述的客戶端，其特征在于，所述提取模塊，用于根據(jù)可識別樂音的特征，判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音，在包含可識別樂音時，從所述音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
【文檔編號】G10L15/30GK104091596SQ201410023744
【公開日】2014年10月8日申請日期:2014年1月20日優(yōu)先權(quán)日:2014年1月20日
【發(fā)明者】苗堃婕申請人:騰訊科技（深圳）有限公司

完整全部詳細(xì)技術(shù)資料下載