一種音頻識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及音頻技術(shù)領(lǐng)域,特別是涉及一種音頻識(shí)別方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)在通過(guò)網(wǎng)絡(luò)觀看視頻的用戶越來(lái)越多,比如通過(guò)PC端的瀏覽器或者視頻播放器觀看網(wǎng)絡(luò)視頻,或者通過(guò)移動(dòng)終端的瀏覽器或者視頻播放器觀看網(wǎng)絡(luò)視頻。但是在用戶觀看視頻的過(guò)程中可能會(huì)遇到如下情況:視頻播放中有一段很好聽(tīng)的背景音樂(lè)或插曲,用戶很想知道該背景音樂(lè)的詳細(xì)信息。但是現(xiàn)有技術(shù)中,用戶如果需要知道該背景音樂(lè)的詳細(xì)信息,其可能存在如下獲取手段:
[0003]1、用戶根據(jù)視頻名稱,在搜索引擎中進(jìn)行查詢。
[0004]2、用戶記住背景音樂(lè)的歌詞,將歌詞輸入到搜索引擎中,查詢背景音樂(lè)的信息。
[0005]3、用戶哼唱一段背景音樂(lè),終端對(duì)該背景音樂(lè)進(jìn)行錄音,然后通過(guò)錄音再去音頻搜索引擎中檢索音樂(lè)信息。
[0006]4、選取需要播放背景音樂(lè)的那段視頻,對(duì)其進(jìn)行錄音,然后通過(guò)錄音再去音頻搜索引擎中檢索音樂(lè)信息。
[0007]上述第1、2種方式根據(jù)關(guān)鍵字進(jìn)行搜索,但是操作繁瑣,需要用戶在檢索結(jié)果中不斷進(jìn)行查看-篩選操作,如果遇到小眾音樂(lè),還可能檢索不到。
[0008]上述第3、4種方式雖然可以解決第1、2種方式檢索繁瑣以及檢索不到的問(wèn)題,但是需要用戶手動(dòng)進(jìn)行錄音,再進(jìn)行檢索,操作麻煩。且第3、4種方式是以錄音方式進(jìn)行的,如果錄音環(huán)境的噪聲很大,通過(guò)該錄音去檢索的準(zhǔn)確率很低。另外,第3、4種方式在很多場(chǎng)合下應(yīng)用很不方便,比如用戶在移動(dòng)終端中觀看視頻,如果要進(jìn)行語(yǔ)音錄制,則必須切換到錄制軟件中才能完成錄音,進(jìn)而完成檢索,因此會(huì)中斷用戶觀看視頻的過(guò)程。
【發(fā)明內(nèi)容】
[0009]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題的音頻識(shí)別方法和相應(yīng)的音頻識(shí)別裝置。
[0010]依據(jù)本發(fā)明第一方面,提供了一種音頻識(shí)別方法,包括:
[0011 ]從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流;
[0012]依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息,并展示給用戶;
[0013]所述依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息包括:
[0014]按照預(yù)設(shè)的規(guī)則將所述音頻流劃分為至少兩個(gè)子音頻流;
[0015]對(duì)劃分得到的子音頻流依次進(jìn)行檢索,以獲取音頻信息。
[0016]優(yōu)選的,所述從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流,依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息,包括:
[0017]從所述視頻文件的源數(shù)據(jù)中,依次截取所述第一時(shí)間長(zhǎng)度的音頻流;
[0018]對(duì)截取得到的各音頻流進(jìn)行檢索,分別得到各音頻流對(duì)應(yīng)的音頻信息。
[0019]優(yōu)選的,在所述從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流之前,所述方法還包括:
[0020]在視頻播放的過(guò)程中,接收對(duì)背景音樂(lè)的識(shí)別指令;
[0021 ]則,所述從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流,包括:
[0022]以所述識(shí)別指令的接收時(shí)間或所述接收時(shí)間往前一定時(shí)間段的時(shí)間為截取起始時(shí)間,從當(dāng)前視頻文件的源數(shù)據(jù)中截取所述第一時(shí)間長(zhǎng)度的音頻流。
[0023]優(yōu)選的,在所述依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息之后,所述方法還包括:
[0024]記錄所述音頻信息以及所述音頻信息的起始位置;所述音頻信息的位置為所述音頻流的截取起始時(shí)間;
[0025]在所述視頻文件再次播放至所述音頻信息的起始位置時(shí),展示所述音頻信息。
[0026]優(yōu)選的,在所述從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流之前,所述方法還包括:
[0027]判斷是否存在起始位置與當(dāng)前截取起始時(shí)間的差值小于預(yù)設(shè)第一閾值的音頻信息;
[0028]如果存在,則將所述音頻信息展示給用戶;
[0029]如果不存在,執(zhí)行所述從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流的步驟。
[0030]優(yōu)選的,在依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息之前,所述方法還包括:
[0031 ]根據(jù)所述視頻文件的類型,選擇相應(yīng)的去噪包對(duì)所述音頻流進(jìn)行噪聲過(guò)濾。
[0032]優(yōu)選的,所述對(duì)劃分得到的子音頻流依次進(jìn)行檢索,以獲取音頻信息,包括:
[0033]從劃分得到的第一個(gè)子音頻流開(kāi)始檢索;
[0034]如果檢索得到對(duì)應(yīng)的音頻信息,則停止對(duì)下一個(gè)子音頻流進(jìn)行檢索;
[0035]如果未檢索到對(duì)應(yīng)的音頻信息,則對(duì)下一個(gè)子音頻流進(jìn)行檢索,直至檢索得到對(duì)應(yīng)的音頻信息。
[0036]優(yōu)選的,所述對(duì)劃分得到的子音頻流依次進(jìn)行檢索,以獲取音頻信息,包括:
[0037]提取所述子音頻流的指紋特征;
[0038]依據(jù)所述指紋特征查找指紋索引庫(kù),獲得所述子音頻流對(duì)應(yīng)的音頻信息;其中,所述指紋特征包括兩個(gè)能量峰值的頻率、時(shí)間差和能量比。
[0039]優(yōu)選的,所述提取所述子音頻流的指紋特征,依據(jù)所述指紋特征查找指紋索引庫(kù),獲得所述子音頻流對(duì)應(yīng)的音頻信息,包括:
[0040]從所述子音頻流對(duì)應(yīng)的頻譜圖中選定各能量峰值以及各能量峰值對(duì)應(yīng)的目標(biāo)區(qū)域;
[0041]將每個(gè)能量峰值以及所述能量峰值對(duì)應(yīng)的目標(biāo)區(qū)域中包括的所有能量峰值進(jìn)行兩兩組合,構(gòu)造所述指紋特征;
[0042]基于所述指紋特征查找指紋索引庫(kù),獲得與所述指紋特征對(duì)應(yīng)的原始音樂(lè)的音頻信息,作為所述子音頻流對(duì)應(yīng)的音頻信息。
[0043]優(yōu)選的,所述方法還包括
[0044]從原始音樂(lè)對(duì)應(yīng)的頻譜圖中選定各能量峰值以及各能量峰值對(duì)應(yīng)的目標(biāo)區(qū)域;
[0045]將每個(gè)能量峰值以及所述能量峰值對(duì)應(yīng)的目標(biāo)區(qū)域中包括的所有能量峰值進(jìn)行兩兩組合,構(gòu)造所述原始音樂(lè)的指紋特征;
[0046]建立所述原始音樂(lè)、所述原始音樂(lè)的音頻信息以及所述原始音樂(lè)的指紋特征之間的關(guān)聯(lián),并保存在所述指紋索引庫(kù)中。
[0047]本發(fā)明第二方面,提供一種音頻識(shí)別裝置,包括:
[0048]音頻流截取模塊,適于從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流;
[0049]檢索模塊,適于依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息;
[0050]展示模塊,適于將所述檢索得到的音頻信息展示給用戶;
[0051 ]所述檢索模塊包括:音頻流劃分子模塊和第一檢索子模塊;
[0052]所述音頻流劃分子模塊,適于按照預(yù)設(shè)的規(guī)則將所述音頻流劃分為至少兩個(gè)子音頻流;
[0053]所述第一檢索子模塊,適于對(duì)劃分得到的子音頻流依次進(jìn)行檢索,以獲取音頻信息。
[0054]本發(fā)明第三方面,提供一種用于音頻識(shí)別的裝置,包括有存儲(chǔ)器,以及一個(gè)或者一個(gè)以上的程序,其中一個(gè)或者一個(gè)以上程序存儲(chǔ)于存儲(chǔ)器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
[0055]從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流;
[0056]依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息,并展示給用戶;
[0057]所述依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息包括:
[0058]按照預(yù)設(shè)的規(guī)則將所述音頻流劃分為至少兩個(gè)子音頻流;
[0059]對(duì)劃分得到的子音頻流依次進(jìn)行檢索,以獲取音頻信息。
[0060]相對(duì)現(xiàn)有技術(shù),本發(fā)明具備如下優(yōu)點(diǎn):
[0061]1、本發(fā)明可以直接從當(dāng)前播放的視頻源數(shù)據(jù)中提取音頻流以進(jìn)行檢索,沒(méi)有額外的錄音操作,不受嘈雜環(huán)境的影響,操作簡(jiǎn)單,準(zhǔn)確率高(識(shí)別速度快)。
[0062]2、本發(fā)明在視頻播放界面的過(guò)程中,可以對(duì)視頻播放終端已緩存的視頻中截取音頻流進(jìn)行背景音樂(lè)的檢索,其是在后臺(tái)自動(dòng)完成整個(gè)檢索過(guò)程,不影響用戶對(duì)視頻的正常觀看。
[0063]3、本發(fā)明可以將獲取到的音頻流按時(shí)間順序分解為各子音頻流,以各個(gè)子音頻流的時(shí)間順序依次去檢索,從而能夠加快檢索速度,提高檢索效率以及檢索成功率。
【附圖說(shuō)明】
[0064]圖1示出了本申請(qǐng)一種音頻識(shí)別方法的流程示意圖;
[0065]圖1A示出了音頻流轉(zhuǎn)換到頻域后的立體的頻譜圖;
[0066]圖1B示出了圖2的頻譜圖的時(shí)間-頻率平面圖;
[0067]圖1C示出了本申請(qǐng)的指紋索引結(jié)構(gòu)示例;
[0068]圖1D示出了本申請(qǐng)的檢索到的各原始音樂(lè)的排序示例;
[0069]圖2示出了本申請(qǐng)另一種音頻識(shí)別方法的流程示意圖;
[0070]圖3示出了本申請(qǐng)另一種視頻播放器中音頻識(shí)別方法的流程示意圖;
[0071]圖4示出了本申請(qǐng)另一種瀏覽器中音頻識(shí)別方法的流程示意圖;
[0072]圖5示出了本申請(qǐng)一種音頻識(shí)別裝置的結(jié)構(gòu)示意圖;
[0073]圖6示出了本申請(qǐng)另一種視頻播放器的結(jié)構(gòu)示意圖;
[0074]圖7示出了本申請(qǐng)另一種瀏覽器的結(jié)構(gòu)示意圖;
[0075]圖8示出了本申請(qǐng)一種音頻識(shí)別裝置的結(jié)構(gòu)示意圖;
[0076]圖9是本發(fā)明實(shí)施例中服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0077]為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)的說(shuō)明。
[0078]本發(fā)明的核心思想之一在于,為了方便用戶在觀看視頻的過(guò)程中獲取其關(guān)注的背景音樂(lè)的詳細(xì)信息,而又不中斷視頻的播放,本發(fā)明實(shí)施例中,視頻播放終端可以從已緩存視頻的源數(shù)據(jù)中截取音頻流,再基于該音頻流自動(dòng)去搜索引擎檢索相應(yīng)背景音樂(lè)的音頻信息。本發(fā)明公開(kāi)的方法中,對(duì)視頻的背景音樂(lè)的識(shí)別不需用戶進(jìn)行繁瑣的操作,且在背景音樂(lè)識(shí)別過(guò)程中不會(huì)中斷用戶對(duì)視頻的觀看過(guò)程;同時(shí),本發(fā)明采用視頻文件中原始的音頻流進(jìn)行識(shí)別,沒(méi)有額外的環(huán)境噪聲的干擾,識(shí)別準(zhǔn)確率高;另外,本發(fā)明可以將獲取到的音頻流按時(shí)間順序分解為各子音頻流,以各個(gè)子音頻流的時(shí)間順序依次去檢索,從而能夠加快檢索速度,提高檢索效率以及檢索成功率。
[0079]實(shí)施例
[0080]參照?qǐng)D1,其示出了一種音頻識(shí)別方法的流程示意圖,具體可以包括:
[0081]步驟110,從視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流;
[0082]需要說(shuō)明的是,本發(fā)明實(shí)施例中,該視頻文件可以是從各視頻網(wǎng)站上抓取得到的。具體的,提前爬取網(wǎng)絡(luò)上的所有的視頻文件,對(duì)每個(gè)視頻文件,從該視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流,對(duì)該音頻流進(jìn)行音頻信息識(shí)別。
[0083]本發(fā)明另一實(shí)施例中,該視頻文件也可以是用戶當(dāng)前正在播放的視頻文件。具體的,當(dāng)用戶正在觀看某視頻文件時(shí),對(duì)當(dāng)前正在播放的視頻的背景音樂(lè)很感興趣,則可以觸發(fā)對(duì)該背景音樂(lè)進(jìn)行識(shí)別的操作;接收到該識(shí)別指令后,從當(dāng)前正在播放的視頻文件的源數(shù)據(jù)中截取第一時(shí)間長(zhǎng)度的音頻流,對(duì)該音頻流進(jìn)行音頻信息識(shí)別。
[0084]在本發(fā)明另一優(yōu)選的實(shí)施例中,所述步驟110包括子步驟All:
[0085]子步驟All,從所述視頻文件的源數(shù)據(jù)中,依次截取所述第一時(shí)間長(zhǎng)度的音頻流。
[0086]在本發(fā)明實(shí)施例中,在所述視頻文件的源數(shù)據(jù)中,可以按時(shí)間順序依次截取所述第一時(shí)間長(zhǎng)度的音頻流,以進(jìn)行后續(xù)的檢索過(guò)程。
[0087]優(yōu)選的,子步驟All包括子步驟Alll:
[0088]子步驟Alll,從視頻文件的源數(shù)據(jù)中,按序截取第一時(shí)間長(zhǎng)度的音頻流。
[0089]在本發(fā)明實(shí)施例中,對(duì)于抓取得到的視頻文件,比如視頻文件的長(zhǎng)度為00:00:00—00:10:00,可以設(shè)定第一時(shí)間長(zhǎng)度I分鐘。那么首先可以從其00:00開(kāi)始,從其源數(shù)據(jù)中截取00:00:00—00:00: 59的音頻流;下一次則可以從00:01:00開(kāi)始,截取00:01:00—00:01: 59的音頻流;再下一次,從00:02:00開(kāi)始,截取00:02:00—00:02: 59的音頻流;依次類推。
[0090]在實(shí)際應(yīng)用中,為了避免背景音樂(lè)丟失,可以交叉截取所述第一時(shí)間長(zhǎng)度的音頻流。例如:從其00:00開(kāi)始,從其源數(shù)據(jù)中截取00:00:00—00:00:59的音頻流,下一次則可以從00:00:49開(kāi)始,截取00:00:49—00:01:59的音頻流;再下一次,從00:01:49開(kāi)始,截取00:01:49—00:02:59的音頻流;依次類推
[0091 ] 在本發(fā)明實(shí)施例中音頻截取指令可為:/ffmepg_i video_file_v 8-n-ar 8000-ac 1-vn aud1_file,其中-1指定視頻文件,-v指定log打印等級(jí),-n避免覆蓋,-ar表示音頻的采樣率,_ac表示聲道個(gè)數(shù),-vn表示禁止產(chǎn)生視頻,aud1_f i Ie指定輸出的音頻文件名。在本發(fā)明實(shí)施例中,必選字段是-1,-vn,即可截取音頻流,其他字段可以根據(jù)需要進(jìn)行設(shè)置。
[0092]步驟120,依據(jù)所述第一時(shí)間長(zhǎng)度的音頻流檢索得到對(duì)應(yīng)的音頻信息,并展示給用戶。
[0093]在本發(fā)明實(shí)施例中,客戶端在從源數(shù)據(jù)中截取了第一長(zhǎng)度的音頻流之后,可以依據(jù)該音頻流去服務(wù)器中間色相應(yīng)的音頻信息,服務(wù)器如果檢索到音頻信息,則返回給客戶端,客戶端則可以展示該音頻信息。
[0094]進(jìn)一步的,本發(fā)明實(shí)施例中,對(duì)于檢索得到的音頻信息可以建立該視頻文件的ID、該音頻信息以及該音頻信息的起始位置之間的對(duì)應(yīng)關(guān)系,并將該對(duì)應(yīng)關(guān)系保存在數(shù)據(jù)庫(kù)中。用戶點(diǎn)擊播放該視頻文件時(shí),當(dāng)視頻文件播放至某個(gè)音頻信息的起始位置對(duì)應(yīng)的時(shí)間點(diǎn)時(shí),可以自動(dòng)從數(shù)據(jù)庫(kù)中依據(jù)該時(shí)間點(diǎn)找到對(duì)應(yīng)的音頻信息,并加載該音頻信息,并展示給用戶。
[0095]其中,該視頻文件的ID可以為所述視頻文件的MD5值、或網(wǎng)址鏈接、或視頻名稱等,在此不做限定。
[0096]需要說(shuō)明的是,很多時(shí)候?qū)τ谝粋€(gè)視頻文件,可能會(huì)檢索得到多個(gè)音頻信息,則可以記錄每個(gè)音頻信息以及該音頻信息對(duì)應(yīng)的起始位置,并在該視頻文件的進(jìn)度條上各音頻信息的起始位置對(duì)應(yīng)的時(shí)間點(diǎn)上顯示標(biāo)記,該標(biāo)記用于向用戶表明該處有背景音樂(lè),且當(dāng)前是視頻文件可以提供該背景音樂(lè)的音頻信息。當(dāng)用戶點(diǎn)擊播放該視頻文件至各標(biāo)記位置時(shí),可以自動(dòng)從數(shù)據(jù)庫(kù)中依據(jù)該時(shí)間點(diǎn)找到對(duì)應(yīng)的音頻信息,自動(dòng)加載該標(biāo)記對(duì)應(yīng)的音頻信息并展示給用戶。進(jìn)一步的,通過(guò)該標(biāo)記,用戶也可以直接將播放進(jìn)度拉倒該標(biāo)記處,查看該處背景音樂(lè)對(duì)應(yīng)的音頻信息。
[0097]其中,所述音頻信息的起始位置即為該音頻信息對(duì)應(yīng)的音頻流的截取起始時(shí)間。
[0098]例如,仍以上述長(zhǎng)度為00:00:00—00:10:00的視頻文件為例進(jìn)行說(shuō)明。假設(shè)通過(guò)截取并檢索,可以確定,該視頻