一種樂曲識別方法、系統(tǒng)和裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種樂曲識別方法、系統(tǒng)和裝置。該方法包括:客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息;所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器;所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹配,得到匹配相似度;所述客戶端在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識別成功的條件時,暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。應(yīng)用本發(fā)明實施例能夠在保證識別成功率與節(jié)省數(shù)據(jù)傳輸資源之間取得平衡。
【專利說明】-種樂曲識別方法、系統(tǒng)和裝置
【技術(shù)領(lǐng)域】
[0001] 本申請涉及語音識別以及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種樂曲識別方法、系統(tǒng) 和裝置。
【背景技術(shù)】
[0002] 樂曲識別技術(shù),是指通過采集播放的樂曲的特征數(shù)據(jù),將該特征數(shù)據(jù)與數(shù)據(jù)庫中 各個已知樂曲的特征數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果確定該播放的樂曲屬于哪一首樂曲的技 術(shù)。
[0003] 其中,所述的樂曲可以是沒有配樂的歌聲、帶有配樂的歌聲或者沒有歌聲的純音 樂。樂曲的特征數(shù)據(jù)也可以稱為樂紋(audio fingerprint)信息,其能夠表現(xiàn)一首樂曲的 音調(diào)、響度、音色等特征。
[0004] 圖1是目前的樂曲識別方法的詳細(xì)流程圖。
[0005] 如圖1所示,該流程包括:
[0006] 步驟101,客戶端接收開始采集的命令,對當(dāng)前正在播放的樂曲或者正在錄制的音 頻信息進(jìn)行采集。
[0007] 步驟102,客戶端接收結(jié)束采集的命令,將接收到所述開始采集的命令和所述結(jié)束 采集的命令之間的時間段內(nèi)采集的音頻數(shù)據(jù)確定為待識別的音頻數(shù)據(jù)。
[0008] 步驟103,所述客戶端從所述待識別的音頻數(shù)據(jù)中提取樂紋信息。
[0009] 步驟104,所述客戶端將所述樂紋信息上傳到數(shù)據(jù)分析服務(wù)器。
[0010] 步驟103和步驟104中,也可以是由客戶端直接將待識別的音頻數(shù)據(jù)上傳到數(shù)據(jù) 分析服務(wù)器,由數(shù)據(jù)分析服務(wù)器從所述待識別的音頻數(shù)據(jù)中提取所述樂紋信息。
[0011] 步驟105,所述數(shù)據(jù)分析服務(wù)器將所述樂紋信息與已知樂曲的特征數(shù)據(jù)庫進(jìn)行匹 配,根據(jù)匹配結(jié)果識別出所述待識別的音頻數(shù)據(jù)屬于哪一首樂曲。
[0012] 步驟106,所述數(shù)據(jù)分析服務(wù)器將識別結(jié)果返回給所述客戶端,結(jié)束本流程。
[0013] 其中,當(dāng)步驟105識別出所述待識別的音頻數(shù)據(jù)屬于哪一首樂曲時,所述數(shù)據(jù)分 析服務(wù)器將該首樂曲的名稱等摘要信息返回給所述客戶端,當(dāng)步驟105沒能識別出所述待 識別的音頻數(shù)據(jù)屬于哪一首樂曲時,所述數(shù)據(jù)分析服務(wù)器返回識別失敗的消息。
[0014] 由圖1所示方法可見,目前在進(jìn)行樂曲識別時,需要通過用戶手動操作來采集待 識別的音頻數(shù)據(jù),然后根據(jù)手動采集的待識別音頻數(shù)據(jù)進(jìn)行樂曲識別,數(shù)據(jù)分析服務(wù)器對 所述待識別音頻數(shù)據(jù)樂曲識別完成以后,直接將識別結(jié)果返回給客戶端,并且結(jié)束與客戶 端的交互流程,因此,圖1所示方法存在如下的缺陷:
[0015] 如果用戶手動采集的待識別音頻數(shù)據(jù)的數(shù)據(jù)量過小,例如,只采集了 3秒的音頻 數(shù)據(jù),則將導(dǎo)致數(shù)據(jù)分析服務(wù)器難以準(zhǔn)確識別出待識別音頻數(shù)據(jù)具體屬于哪一首樂曲,識 別成功率較低,如果用戶手動采集的待識別音頻數(shù)據(jù)的數(shù)據(jù)量過大,例如,采集了 2分鐘的 音頻數(shù)據(jù),則將導(dǎo)致客戶端向數(shù)據(jù)分析服務(wù)器上傳待識別音頻數(shù)據(jù)的樂紋信息需要消耗較 多的數(shù)據(jù)傳輸資源??梢姡壳暗臉非R別方法難以在保證識別成功率與節(jié)省數(shù)據(jù)傳輸資 源之間取得平衡。
[0016] 另外,采用圖1所示方法進(jìn)行樂曲識別時,如果有順序播放的多首樂曲,則需要針 對每首樂曲分別手動輸入開始采集的命令和結(jié)束采集的命令,才能獲取到待識別音頻數(shù) 據(jù),進(jìn)而實現(xiàn)樂曲識別,無法對順序播放的多首樂曲進(jìn)行持續(xù)性地自動識別。
【發(fā)明內(nèi)容】
[0017] 本發(fā)明提供了一種樂曲識別方法、系統(tǒng)和裝置,能夠在保證識別成功率與節(jié)省數(shù) 據(jù)傳輸資源之間取得平衡。
[0018] 一種樂曲識別方法,該方法包括:
[0019] 客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息;
[0020] 所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器;
[0021] 所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配,得到匹配相似度;
[0022] 所述客戶端在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所述數(shù)據(jù)分 析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識別成功的條件 時,暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0023] -種樂曲識別系統(tǒng),該系統(tǒng)包括客戶端和數(shù)據(jù)分析服務(wù)器;
[0024] 所述客戶端,用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息,將所 述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器,在所述數(shù)據(jù)分析服務(wù)器得到的匹 配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識 別的音頻信息,在所述匹配相似度達(dá)到樂曲識別成功的條件時,暫停向所述數(shù)據(jù)分析服務(wù) 器上傳用于進(jìn)行樂曲識別的音頻信息;
[0025] 所述數(shù)據(jù)分析服務(wù)器,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特 征數(shù)據(jù)庫進(jìn)行匹配,得到匹配相似度。
[0026] -種用于樂曲識別的數(shù)據(jù)分析服務(wù)器,該數(shù)據(jù)分析服務(wù)器包括接收模塊和匹配模 塊;
[0027] 所述接收模塊,用于接收客戶端上傳的用于進(jìn)行樂曲識別的音頻信息,其中,在所 述匹配模塊得到的匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)接收所述用于進(jìn)行樂曲 識別的音頻信息,在所述匹配模塊得到的匹配相似度達(dá)到樂曲識別成功的條件時,暫停接 收所述用于進(jìn)行樂曲識別的音頻信息;
[0028] 所述匹配模塊,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù) 庫進(jìn)行匹配,得到匹配相似度。
[0029] -種用于樂曲識別的客戶端,該客戶端包括采集模塊、提取模塊和數(shù)據(jù)交互模 塊;
[0030] 所述采集模塊,用于采集音頻數(shù)據(jù);
[0031] 所述提取模塊,用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息;
[0032] 所述數(shù)據(jù)交互模塊,用于將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服 務(wù)器,根據(jù)所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配得到的匹配相似度,在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù) 向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識 別成功的條件時,暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0033] 由上述技術(shù)方案可見,本發(fā)明實施例中,客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn) 行樂曲識別的音頻信息,并將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器以 后,需要進(jìn)一步根據(jù)數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特 征數(shù)據(jù)庫進(jìn)行匹配得到的匹配相似度,確定是否繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行 樂曲識別的音頻信息,具體地,在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所 述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識別成 功的條件時,暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,從而使得客 戶端上傳的音頻數(shù)據(jù)量恰好能夠?qū)崿F(xiàn)成功地識別出當(dāng)前播放的樂曲,又不至于上傳過多的 音頻數(shù)據(jù)造成數(shù)據(jù)傳輸資源的浪費,因此能夠在保證識別成功率與節(jié)省數(shù)據(jù)傳輸資源之間 取得平衡。
【專利附圖】
【附圖說明】
[0034] 圖1是目前的樂曲識別方法的詳細(xì)流程圖。
[0035] 圖2是本發(fā)明實施例提供的樂曲識別方法流程圖。
[0036] 圖3是本發(fā)明優(yōu)選實施例提供的樂曲識別方法流程圖。
[0037] 圖4是本發(fā)明實施例提供的樂曲識別系統(tǒng)組成示意圖。
[0038] 圖5是本發(fā)明實施例提供的用于樂曲識別的數(shù)據(jù)分析服務(wù)器結(jié)構(gòu)示意圖。
[0039] 圖6是本發(fā)明實施例提供的用于樂曲識別的客戶端結(jié)構(gòu)示意圖。
【具體實施方式】
[0040] 圖2是本發(fā)明實施例提供的樂曲識別方法流程圖。
[0041] 如圖2所示,該流程包括:
[0042] 步驟201,客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
[0043] 本步驟中,客戶端可以通過麥克風(fēng)等音頻采集設(shè)備采集周圍環(huán)境的音頻數(shù)據(jù),所 述客戶端可以持續(xù)地采集周圍環(huán)境的音頻數(shù)據(jù),以便持續(xù)地識別周圍環(huán)境中播放的樂曲, 其中,所述持續(xù)可以是無間斷地持續(xù),也可以是有間斷地持續(xù),其中的間斷一般是優(yōu)先級更 高的操作需要暫停采集周圍環(huán)境的音頻數(shù)據(jù)造成的。
[0044] 由于周圍環(huán)境的音頻數(shù)據(jù)中可能包含了單純的說話聲音或其他環(huán)境噪音,如果直 接從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息,一方面信息提取的工作量較 大,另一方面提取的準(zhǔn)確度和精度也較差,影響后續(xù)的樂曲識別效果,因此,本發(fā)明實施例 提出,可以先根據(jù)可識別樂音的特征初步判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音,如 果是,再從包含可識別樂音的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息,否則,不執(zhí)行 所述提取的操作。
[0045] 其中,所述用于進(jìn)行樂曲識別的音頻信息可以包括所述客戶端采集的包含可識別 樂音的音頻數(shù)據(jù),或者,從所述客戶端采集的包含可識別樂音的音頻數(shù)據(jù)中提取的音頻特 征信息。換言之,本發(fā)明實施例中,所述客戶端采集音頻數(shù)據(jù)以后,根據(jù)可識別樂音的特征, 從采集的音頻數(shù)據(jù)中截取包含可識別樂音的音頻數(shù)據(jù),將采集的所述包含可識別樂音的音 頻數(shù)據(jù)確定為用于樂曲識別的音頻信息,或者,也可以在截取包含可識別樂音的音頻數(shù)據(jù) 以后,進(jìn)一步從所述包含可識別樂音的音頻數(shù)據(jù)中提取音頻特征信息,將所述音頻特征信 息確定為用于進(jìn)行樂曲識別的音頻信息。
[0046] 其中,所述可識別樂音是否區(qū)分于單純的說話聲音或其他環(huán)境噪音的帶有旋律的 音頻數(shù)據(jù),例如,單純的歌聲、配樂的歌聲或者沒有歌聲的純音樂等。
[0047] 步驟202,所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù) 器。
[0048] 步驟203,所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲 的特征數(shù)據(jù)庫進(jìn)行匹配,得到匹配相似度。
[0049] 步驟204,判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件,如果是,執(zhí)行步驟 205,否則,返回步驟202。
[0050] 本步驟中,可以由數(shù)據(jù)分析服務(wù)器判斷所述匹配相似度是否達(dá)到樂曲識別成功的 條件(比如,所述匹配相似度是否大于預(yù)設(shè)值),如果是,則向所述客戶端發(fā)送暫停上傳用于 進(jìn)行樂曲識別的音頻信息的命令,否則,不向所述客戶端發(fā)送暫停上傳用于進(jìn)行樂曲識別 的音頻信息的命令、或者向所述客戶端發(fā)送繼續(xù)上傳用于進(jìn)行樂曲識別的音頻信息的命 令,從而所述客戶端根據(jù)收到的命令確定是否繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂 曲識別的音頻信息。
[0051] 或者,本步驟中,數(shù)據(jù)分析服務(wù)器也可以將得到的所述匹配相似度下發(fā)給所述客 戶端,由所述客戶端判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件,根據(jù)判斷結(jié)果確 定是否繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0052] 步驟205,所述客戶端暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻 信息。
[0053] 在本發(fā)明的優(yōu)選實施例中,為了進(jìn)一步提高樂曲識別的準(zhǔn)確率,在所述匹配相似 度達(dá)到樂曲識別成功的條件時,所述數(shù)據(jù)分析服務(wù)器還可以向所述客戶端發(fā)送識別成功的 樂曲除去當(dāng)前已播放部分的剩余音頻信息,所述客戶端將所述剩余音頻信息與采集的音頻 數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果保存識別的樂曲信息。
[0054] 可見,在本發(fā)明的優(yōu)選實施例中,通過在數(shù)據(jù)分析服務(wù)器得到的匹配相似度達(dá)到 樂曲識別成功的條件時,由數(shù)據(jù)分析服務(wù)器將識別成功的樂曲除去當(dāng)前已播放部分的剩余 音頻信息發(fā)給客戶端,由客戶端根據(jù)所述剩余音頻信息和本地采集的音頻數(shù)據(jù)進(jìn)行本地匹 配,進(jìn)一步根據(jù)本地匹配的結(jié)果保存識別的樂曲信息,一方面不需要客戶端持續(xù)上傳從周 圍環(huán)境的音頻數(shù)據(jù)中提取的大量音頻信息,節(jié)省了數(shù)據(jù)傳輸資源,另一方面,通過客戶端本 地的匹配結(jié)果進(jìn)一步驗證或細(xì)化網(wǎng)絡(luò)側(cè)數(shù)據(jù)分析服務(wù)器的樂曲識別結(jié)果,能夠進(jìn)一步提高 樂曲識別的準(zhǔn)確率。
[0055] 例如,在一實施例中,所述客戶端可以判斷所述剩余音頻信息與采集的音頻數(shù)據(jù) 的匹配相似度是否滿足樂曲停止條件(比如,所述匹配相似度是否小于預(yù)設(shè)值),如果是,則 識別出當(dāng)前播放的樂曲已停止,所述客戶端根據(jù)識別出的樂曲停止位置,確定識別出的樂 曲片段,根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
[0056] 為了進(jìn)一步提高樂曲識別的精度和準(zhǔn)確率,在一實施例中,所述客戶端可以計算 所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值,當(dāng)所述加權(quán)平均值高于預(yù)定值時,保存所述 樂曲片段的屬性信息,否則,不保存所述樂曲片段的屬性信息。
[0057] 其中,所述樂曲片段的屬性信息可以包括:所述樂曲片段所歸屬的樂曲的標(biāo)識信 息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息。
[0058] 在實際應(yīng)用中,受各種因素干擾,一首連續(xù)播放的樂曲可能在識別過程中發(fā)生中 斷,從而分成多個可識別的樂曲片段,針對這種情況,本發(fā)明實施例提出,所述客戶端還可 以根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息,將播放進(jìn)度符合連續(xù)播放的同一首 樂曲的多個樂曲片段進(jìn)行合并,保存合并后的樂曲片段的屬性信息,從而能夠識別出由于 干擾而導(dǎo)致識別為多個分隔的樂曲片段的連續(xù)播放的樂曲,提高識別準(zhǔn)確度,而且,由于只 需要存儲合并后的樂曲片段的屬性信息,因此還能夠節(jié)省存儲空間。
[0059] 由于在實際應(yīng)用場景中,環(huán)境中可能先后播放了多首樂曲,關(guān)于如何對順序播放 的多首樂曲進(jìn)行持續(xù)性地自動識別,本發(fā)明實施例提出,每當(dāng)所述客戶端根據(jù)本地匹配的 結(jié)果識別出當(dāng)前播放的樂曲已停止時,都返回所述客戶端將所述用于進(jìn)行樂曲識別的音頻 信息上傳給數(shù)據(jù)分析服務(wù)器的步驟,從而能夠?qū)崿F(xiàn)對順序播放的多首樂曲進(jìn)行持續(xù)性地自 動識別。
[0060] 在本發(fā)明實施例中,還可以根據(jù)識別出的樂曲信息生成音樂日志列表,當(dāng)由所述 客戶端生成所述音樂日志列表時,所述客戶端可以將所述音樂日志列表上傳到音樂日志服 務(wù)器上。所述音樂日志列表除了包含識別出的樂曲片段的屬性信息以外,還可以在所述音 樂日志列表中進(jìn)一步添加識別出樂曲片段的時間、地點信息、或者添加文字、圖片、表情等 信息,并且,可以通過網(wǎng)絡(luò)服務(wù)器將所述音樂日志列表分享給其他用戶。
[0061] 根據(jù)上文提供的實施例,下面給出一種樂曲識別的優(yōu)選實施例,該優(yōu)選實施例并 不用于限制本發(fā)明,具體請參見圖3。
[0062] 圖3是本發(fā)明優(yōu)選實施例提供的樂曲識別方法流程圖。
[0063] 如圖3所示,在該優(yōu)選實施例中,該流程包括:
[0064] 步驟301,客戶端持續(xù)地采集周圍環(huán)境的音頻數(shù)據(jù)。
[0065] 步驟302,客戶端判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音,如果是,執(zhí)行步驟 303,否則,返回步驟302。
[0066] 步驟303,客戶端從包含可識別樂音的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻 信息,執(zhí)行步驟304。
[0067] 步驟304,所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù) 器。
[0068] 步驟305,所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲 的特征數(shù)據(jù)庫進(jìn)行匹配,得到匹配相似度。
[0069] 步驟306,判斷所述匹配相似度是否達(dá)到樂曲識別成功的條件,如果是,執(zhí)行步驟 307,否則,返回步驟304。
[0070] 步驟307,所述客戶端暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻 信息。
[0071] 步驟308,所述數(shù)據(jù)分析服務(wù)器向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播 放部分的剩余音頻信息。
[0072] 本步驟中,所述數(shù)據(jù)分析服務(wù)器還向所述客戶端返回識別成功的樂曲信息,所述 樂曲信息可以包括樂曲標(biāo)識信息和播放進(jìn)度信息。
[0073] 本步驟中,可以是數(shù)據(jù)分析服務(wù)器在確定出樂曲識別成功以后,主動向所述客戶 端下發(fā)所述剩余音頻信息,也可以是所述客戶端在確定出樂曲識別成功以后,向所述數(shù)據(jù) 分析服務(wù)器請求所述剩余音頻信息,從而所述數(shù)據(jù)分析服務(wù)器應(yīng)所述請求返回所述剩余音 頻信息。
[0074] 其中,所述剩余音頻信息可以是原始音頻數(shù)據(jù)或者進(jìn)過壓縮的適合匹配的數(shù)據(jù)。
[0075] 其中,步驟307和步驟308順序可調(diào),或者,步驟307和步驟308可以同步執(zhí)行。
[0076] 步驟309,所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配。
[0077] 步驟310,所述客戶端判斷所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度是 否滿足樂曲停止條件,如果是,執(zhí)行步驟311,否則,返回步驟310。
[0078] 步驟311,所述客戶端識別出當(dāng)前播放的樂曲已停止,執(zhí)行步驟312,并且,返回步 驟 302。
[0079] 其中,通過執(zhí)行步驟312及其后續(xù)步驟,可以實現(xiàn)通過在客戶端本地匹配所述剩 余音頻信息和采集的音頻數(shù)據(jù),精確地識別出周圍環(huán)境中播放的樂曲片段并生成音樂日志 列表,通過執(zhí)行步驟302,可以實現(xiàn)對周圍環(huán)境中順序播放的多首不同樂曲進(jìn)行持續(xù)性地自 動識別。
[0080] 步驟312,所述客戶端根據(jù)識別出的樂曲停止位置,確定識別出的樂曲片段。
[0081] 步驟313,所述客戶端計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值,判斷所述 加權(quán)平均值是否高于預(yù)定值,如果是,執(zhí)行步驟314,否則,執(zhí)行步驟316。
[0082] 步驟314,保存所述樂曲片段的屬性信息。
[0083] 本步驟中,客戶端如果有其他感應(yīng)器,例如位置感應(yīng)器,也可以獲取相應(yīng)信息后可 以一起保存。
[0084] 步驟315,所述客戶端根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息,將播放 進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并,保存合并后的樂曲片段的屬性 信息,執(zhí)行步驟317。
[0085] 步驟316,不保存所述樂曲片段的屬性信息,執(zhí)行步驟317。
[0086] 步驟317,所述客戶端根據(jù)保存的樂曲片段的屬性信息生成音樂日志列表,并將所 述音樂日志列表上傳到音樂日志服務(wù)器。
[0087] 其中,生成音樂日志列表以后,可以以文本等方式展示和分享,還可以通過播放器 下載和播放所述音樂日志列表。
[0088] 根據(jù)本發(fā)明實施例提供的樂曲識別方法,本發(fā)明實施例還提供了一種樂曲識別系 統(tǒng)、服務(wù)器和客戶端,具體請參見圖4-6。
[0089] 圖4是本發(fā)明實施例提供的樂曲識別系統(tǒng)組成示意圖。
[0090] 如圖4所示,該系統(tǒng)包括客戶端401和數(shù)據(jù)分析服務(wù)器402。
[0091] 客戶端401,用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息,將所述 用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器402,在所述數(shù)據(jù)分析服務(wù)器402得 到的匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所述數(shù)據(jù)分析服務(wù)器402上傳用于 進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識別成功的條件時,暫停向所述數(shù) 據(jù)分析服務(wù)器402上傳用于進(jìn)行樂曲識別的音頻信息。
[0092] 數(shù)據(jù)分析服務(wù)器402,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特 征數(shù)據(jù)庫進(jìn)行匹配,得到匹配相似度。
[0093] 其中,數(shù)據(jù)分析服務(wù)器402,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時, 向所述客戶端401發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息。
[0094] 客戶端401,用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果 保存識別的樂曲信息。
[0095] 其中,所述客戶端401持續(xù)地采集音頻數(shù)據(jù)。
[0096] 客戶端401,用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲 停止條件時,識別出當(dāng)前播放的樂曲已停止,根據(jù)識別出的樂曲停止位置,確定識別出的樂 曲片段,根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
[0097] 客戶端401,可以用于在識別出當(dāng)前播放的樂曲已停止時,繼續(xù)將所述用于進(jìn)行樂 曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器402。
[0098] 其中,客戶端401或者數(shù)據(jù)分析服務(wù)器402可以根據(jù)識別出的樂曲信息生成音樂 日志列表。
[0099] 圖5是本發(fā)明實施例提供的用于樂曲識別的數(shù)據(jù)分析服務(wù)器結(jié)構(gòu)示意圖。
[0100] 如圖5所示,該數(shù)據(jù)分析服務(wù)器包括接收模塊501和匹配模塊502。
[0101] 接收模塊501,用于接收客戶端上傳的用于進(jìn)行樂曲識別的音頻信息,其中,在所 述匹配模塊502得到的匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)接收所述用于進(jìn)行 樂曲識別的音頻信息,在所述匹配模塊502得到的匹配相似度達(dá)到樂曲識別成功的條件 時,暫停接收所述用于進(jìn)行樂曲識別的音頻信息。
[0102] 匹配模塊502,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù) 庫進(jìn)行匹配,得到匹配相似度。
[0103] 該數(shù)據(jù)分析服務(wù)器還可以包括發(fā)送模塊。
[0104] 所述發(fā)送模塊,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時,向所述客戶 端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息,以便所述客戶端將所述剩余 音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果保存識別的樂曲信息。
[0105] 接收模塊501,可以用于在所述客戶端識別出當(dāng)前播放的樂曲已停止時,繼續(xù)接 收所述客戶端上傳的所述用于進(jìn)行樂曲識別的音頻信息,其中,所述客戶端在所述剩余音 頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時,識別出當(dāng)前播放的樂曲已停 止。
[0106] 圖6是本發(fā)明實施例提供的用于樂曲識別的客戶端結(jié)構(gòu)示意圖。
[0107] 如圖6所示,該客戶端包括提取模塊601和數(shù)據(jù)交互模塊602。
[0108] 提取模塊601,用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
[0109] 數(shù)據(jù)交互模塊602,用于將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服 務(wù)器,根據(jù)所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配得到的匹配相似度,在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù) 向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識 別成功的條件時,暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
[0110] 所述客戶端還可以包括本地識別模塊。
[0111] 數(shù)據(jù)交互模塊602,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時,接收所述 數(shù)據(jù)分析服務(wù)器發(fā)送的識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息。
[0112] 所述本地識別模塊,用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù) 匹配結(jié)果保存識別的樂曲信息。
[0113] 所述本地識別模塊,可以用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似 度滿足樂曲停止條件時,識別出當(dāng)前播放的樂曲已停止,根據(jù)識別出的樂曲停止位置,確定 識別出的樂曲片段,根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
[0114] 所述本地識別模塊,可以用于計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值, 當(dāng)所述加權(quán)平均值高于預(yù)定值時,保存所述樂曲片段的屬性信息,否則,不保存所述樂曲片 段的屬性信息。
[0115] 其中,所述樂曲片段的屬性信息包括:所述樂曲片段所歸屬的樂曲的標(biāo)識信息、和 所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息。
[0116] 所述本地識別模塊,可以用于根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信 息,將播放進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并,保存合并后的樂曲 片段的屬性信息。
[0117] 數(shù)據(jù)交互模塊602,可以用于在所述本地識別模塊識別出當(dāng)前播放的樂曲已停止 時,繼續(xù)將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器。
[0118] 提取模塊601,可以用于根據(jù)可識別樂音的特征,判斷采集的音頻數(shù)據(jù)中是否包含 可識別樂音,在包含可識別樂音時,從所述音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
[0119] 本發(fā)明實施例所述的客戶端可以包括但不限于個人電腦(PC)、筆記本電腦、手機、 平板電腦等終端。通過本發(fā)明實施例,使得在任何有音樂的場所如KTV、演唱會等,都能夠識 別分析出環(huán)境中的樂曲,進(jìn)而將分析結(jié)果在網(wǎng)絡(luò)云端保存成列表記錄,之后再根據(jù)需要進(jìn) 行回放或者下載,還可以進(jìn)一步添加信息形成可分享音樂日志。
[0120] 并且,本發(fā)明實施例不限制具體場所,能夠通過主動方式持續(xù)地獲取和分析環(huán)境 中音頻信息,識別出其中的樂曲部分,并且還能夠識別出的樂曲部分生成日志信息。
[0121] 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1. 一種樂曲識別方法,其特征在于,該方法包括: 客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息; 所述客戶端將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器; 所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫 進(jìn)行匹配,得到匹配相似度; 所述客戶端在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所述數(shù)據(jù)分析服 務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識別成功的條件時, 暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述匹配相似度達(dá)到樂曲識別成功的 條件時,該方法還包括: 所述數(shù)據(jù)分析服務(wù)器向所述客戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余 音頻信息; 所述客戶端將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果保存識別 的樂曲信息; 其中,所述客戶端持續(xù)地采集音頻數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)匹配結(jié)果保存識別的樂曲信息包括: 當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時,所述客戶 端識別出當(dāng)前播放的樂曲已停止; 所述客戶端根據(jù)識別出的樂曲停止位置,確定識別出的樂曲片段,根據(jù)所述樂曲片段 的屬性信息保存識別出的樂曲信息。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述樂曲片段的屬性信息保存識別 出的樂曲信息包括: 計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值,當(dāng)所述加權(quán)平均值高于預(yù)定值時, 保存所述樂曲片段的屬性信息,否則,不保存所述樂曲片段的屬性信息。
5. 根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述樂曲片段的屬性信息包括:所述 樂曲片段所歸屬的樂曲的標(biāo)識信息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息; 根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息包括: 所述客戶端根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息,將播放進(jìn)度符合連續(xù) 播放的同一首樂曲的多個樂曲片段進(jìn)行合并,保存合并后的樂曲片段的屬性信息。
6. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述客戶端根據(jù)識別出的樂曲停止位置, 確定識別出的樂曲片段包括: 當(dāng)所述客戶端識別出當(dāng)前播放的樂曲已停止時,返回所述客戶端將所述用于進(jìn)行樂曲 識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器的步驟。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,客戶端從采集的音頻數(shù)據(jù)中提取用于進(jìn) 行樂曲識別的音頻信息包括: 客戶端根據(jù)可識別樂音的特征,判斷采集的音頻數(shù)據(jù)中是否包含可識別樂音,在包含 可識別樂音時,從所述音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述用于進(jìn)行樂曲識別的音頻信息包括: 所述客戶端采集的包含可識別樂音的音頻數(shù)據(jù),或者,從所述客戶端采集的包含可識 別樂音的音頻數(shù)據(jù)中提取的音頻特征信息。
9. 根據(jù)權(quán)利要求1、2、3、4、6或7所述的方法,其特征在于,該方法還包括: 根據(jù)識別出的樂曲信息生成音樂日志列表。
10. -種樂曲識別系統(tǒng),其特征在于,該系統(tǒng)包括客戶端和數(shù)據(jù)分析服務(wù)器; 所述客戶端,用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息,將所述用 于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器,在所述數(shù)據(jù)分析服務(wù)器得到的匹配相 似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的 音頻信息,在所述匹配相似度達(dá)到樂曲識別成功的條件時,暫停向所述數(shù)據(jù)分析服務(wù)器上 傳用于進(jìn)行樂曲識別的音頻信息; 所述數(shù)據(jù)分析服務(wù)器,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù) 據(jù)庫進(jìn)行匹配,得到匹配相似度。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于, 所述數(shù)據(jù)分析服務(wù)器,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時,向所述客 戶端發(fā)送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息; 所述客戶端,用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果保 存識別的樂曲信息; 其中,所述客戶端持續(xù)地采集音頻數(shù)據(jù)。
12. 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于, 所述客戶端,用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止 條件時,識別出當(dāng)前播放的樂曲已停止,根據(jù)識別出的樂曲停止位置,確定識別出的樂曲片 段,根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
13. 根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于, 所述客戶端,用于在識別出當(dāng)前播放的樂曲已停止時,繼續(xù)將所述用于進(jìn)行樂曲識別 的音頻信息上傳給數(shù)據(jù)分析服務(wù)器。
14. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于, 所述客戶端或者所述數(shù)據(jù)分析服務(wù)器根據(jù)識別出的樂曲信息生成音樂日志列表。
15. -種用于樂曲識別的數(shù)據(jù)分析服務(wù)器,其特征在于,該數(shù)據(jù)分析服務(wù)器包括接收模 塊和匹配模塊; 所述接收模塊,用于接收客戶端上傳的用于進(jìn)行樂曲識別的音頻信息,其中,在所述匹 配模塊得到的匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)接收所述用于進(jìn)行樂曲識別 的音頻信息,在所述匹配模塊得到的匹配相似度達(dá)到樂曲識別成功的條件時,暫停接收所 述用于進(jìn)行樂曲識別的音頻信息; 所述匹配模塊,用于對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù)庫進(jìn) 行匹配,得到匹配相似度。
16. 根據(jù)權(quán)利要求15所述的數(shù)據(jù)分析服務(wù)器,其特征在于,該數(shù)據(jù)分析服務(wù)器還包括 發(fā)送模塊, 所述發(fā)送模塊,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時,向所述客戶端發(fā) 送識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息,以便所述客戶端將所述剩余音頻 信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配結(jié)果保存識別的樂曲信息。
17. 根據(jù)權(quán)利要求16所述的數(shù)據(jù)分析服務(wù)器,其特征在于, 所述接收模塊,用于在所述客戶端識別出當(dāng)前播放的樂曲已停止時,繼續(xù)接收所述客 戶端上傳的所述用于進(jìn)行樂曲識別的音頻信息,其中,所述客戶端在所述剩余音頻信息與 采集的音頻數(shù)據(jù)的匹配相似度滿足樂曲停止條件時,識別出當(dāng)前播放的樂曲已停止。
18. -種用于樂曲識別的客戶端,其特征在于,該客戶端包括提取模塊和數(shù)據(jù)交互模 塊; 所述提取模塊,用于從采集的音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息; 所述數(shù)據(jù)交互模塊,用于將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù) 器,根據(jù)所述數(shù)據(jù)分析服務(wù)器對所述用于進(jìn)行樂曲識別的音頻信息和已知樂曲的特征數(shù)據(jù) 庫進(jìn)行匹配得到的匹配相似度,在所述匹配相似度未達(dá)到樂曲識別成功的條件時,繼續(xù)向 所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息,在所述匹配相似度達(dá)到樂曲識別 成功的條件時,暫停向所述數(shù)據(jù)分析服務(wù)器上傳用于進(jìn)行樂曲識別的音頻信息。
19. 根據(jù)權(quán)利要求18所述的客戶端,其特征在于,所述客戶端還包括本地識別模塊; 所述數(shù)據(jù)交互模塊,用于在所述匹配相似度達(dá)到樂曲識別成功的條件時,接收所述數(shù) 據(jù)分析服務(wù)器發(fā)送的識別成功的樂曲除去當(dāng)前已播放部分的剩余音頻信息; 所述本地識別模塊,用于將所述剩余音頻信息與采集的音頻數(shù)據(jù)進(jìn)行匹配,根據(jù)匹配 結(jié)果保存識別的樂曲信息。
20. 根據(jù)權(quán)利要求19所述的客戶端,其特征在于, 所述本地識別模塊,用于當(dāng)所述剩余音頻信息與采集的音頻數(shù)據(jù)的匹配相似度滿足樂 曲停止條件時,識別出當(dāng)前播放的樂曲已停止,根據(jù)識別出的樂曲停止位置,確定識別出的 樂曲片段,根據(jù)所述樂曲片段的屬性信息保存識別出的樂曲信息。
21. 根據(jù)權(quán)利要求20所述的客戶端,其特征在于, 所述本地識別模塊,用于計算所述樂曲片段內(nèi)的匹配相似度的加權(quán)平均值,當(dāng)所述加 權(quán)平均值高于預(yù)定值時,保存所述樂曲片段的屬性信息,否則,不保存所述樂曲片段的屬性 信息。
22. 根據(jù)權(quán)利要求21所述的客戶端,其特征在于,所述樂曲片段的屬性信息包括:所述 樂曲片段所歸屬的樂曲的標(biāo)識信息、和所述樂曲片段在所歸屬的樂曲中的播放進(jìn)度信息; 所述本地識別模塊,用于根據(jù)各個樂曲片段的樂曲標(biāo)識信息和播放進(jìn)度信息,將播放 進(jìn)度符合連續(xù)播放的同一首樂曲的多個樂曲片段進(jìn)行合并,保存合并后的樂曲片段的屬性 信息。
23. 根據(jù)權(quán)利要求20所述的客戶端,其特征在于, 所述數(shù)據(jù)交互模塊,用于在所述本地識別模塊識別出當(dāng)前播放的樂曲已停止時,繼續(xù) 將所述用于進(jìn)行樂曲識別的音頻信息上傳給數(shù)據(jù)分析服務(wù)器。
24. 根據(jù)權(quán)利要求18所述的客戶端,其特征在于, 所述提取模塊,用于根據(jù)可識別樂音的特征,判斷采集的音頻數(shù)據(jù)中是否包含可識別 樂音,在包含可識別樂音時,從所述音頻數(shù)據(jù)中提取用于進(jìn)行樂曲識別的音頻信息。
【文檔編號】G10L15/30GK104091596SQ201410023744
【公開日】2014年10月8日 申請日期:2014年1月20日 優(yōu)先權(quán)日:2014年1月20日
【發(fā)明者】苗堃婕 申請人:騰訊科技(深圳)有限公司