一種音頻識別方法和裝置的制造方法_6

文檔序號：9892066閱讀：來源：國知局

可包括前述音頻識別裝置的任意優(yōu)選的模塊。
[0388]實施例七
[0389]參照圖7，其示出了一種瀏覽器的結(jié)構(gòu)示意圖，具體可以包括:
[0390]音頻流截取模塊710，適于從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流；
[0391]檢索模塊720，適于依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息；
[0392]展示模塊730，適于將所述檢索得到的音頻信息展示給用戶；
[0393]所述檢索模塊720包括:
[0394]音頻流劃分子模塊721，適于按照預設(shè)的規(guī)則將所述音頻流劃分為至少兩個子音頻流；
[0395]第一檢索子模塊722，適于對劃分得到的子音頻流依次進行檢索，以獲取音頻信息。
[0396]當然，瀏覽器還包括:用于渲染網(wǎng)頁的渲染模塊、用于與用戶進行交互的交互模塊等通用瀏覽器使用的模塊。
[0397]本發(fā)明實施例的瀏覽器還可包括前述音頻識別裝置的任意優(yōu)選的模塊。
[0398]對于裝置實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關(guān)之處參見方法實施例的部分說明即可。
[0399]關(guān)于上述實施例中的裝置，其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進行了詳細描述，此處將不做詳細闡述說明。
[0400]圖8是根據(jù)一示例性實施例示出的一種音頻識別裝置800的框圖。例如，裝置800可以是移動電話，計算機，數(shù)字廣播終端，消息收發(fā)設(shè)備，游戲控制臺，平板設(shè)備，醫(yī)療設(shè)備，健身設(shè)備，個人數(shù)字助理等。
[0401 ] 參照圖8，裝置800可以包括以下一個或多個組件:處理組件802，存儲器804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出(I/O)的接口 812，傳感器組件814，以及通信組件816。
[0402]處理組件802通?？刂蒲b置800的整體操作，諸如與顯示，電話呼叫，數(shù)據(jù)通信，相機操作和記錄操作相關(guān)聯(lián)的操作。處理元件802可以包括一個或多個處理器820來執(zhí)行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模塊，便于處理組件802和其他組件之間的交互。例如，處理部件802可以包括多媒體模塊，以方便多媒體組件808和處理組件802之間的交互。
[0403]存儲器804被配置為存儲各種類型的數(shù)據(jù)以支持在設(shè)備800的操作。這些數(shù)據(jù)的示例包括用于在裝置800上操作的任何應(yīng)用程序或方法的指令，聯(lián)系人數(shù)據(jù)，電話簿數(shù)據(jù)，消息，圖片，視頻等。存儲器804可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實現(xiàn)，如靜態(tài)隨機存取存儲器(SRAM)，電可擦除可編程只讀存儲器(EEPROM)，可擦除可編程只讀存儲器(EPROM)，可編程只讀存儲器(PROM)，只讀存儲器(ROM)，磁存儲器，快閃存儲器，磁盤或光盤。
[0404]電力組件806為裝置800的各種組件提供電力。電力組件806可以包括電源管理系統(tǒng)，一個或多個電源，及其他與為裝置800生成、管理和分配電力相關(guān)聯(lián)的組件。
[0405]多媒體組件808包括在所述裝置800和用戶之間的提供一個輸出接口的屏幕。在一些實施例中，屏幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果屏幕包括觸摸面板，屏幕可以被實現(xiàn)為觸摸屏，以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝像頭和/或后置攝像頭。當設(shè)備800處于操作模式，如拍攝模式或視頻模式時，前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個前置攝像頭和后置攝像頭可以是一個固定的光學透鏡系統(tǒng)或具有焦距和光學變焦能力。
[0406]音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風(MIC)，當裝置800處于操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器804或經(jīng)由通信組件816發(fā)送。在一些實施例中，音頻組件810還包括一個揚聲器，用于輸出音頻信號。
[0407]I/O接口812為處理組件802和外圍接口模塊之間提供接口，上述外圍接口模塊可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
[0408]傳感器組件814包括一個或多個傳感器，用于為裝置800提供各個方面的狀態(tài)評估。例如，傳感器組件814可以檢測到設(shè)備800的打開/關(guān)閉狀態(tài)，組件的相對定位，例如所述組件為裝置800的顯示器和小鍵盤，傳感器組件814還可以檢測裝置800或裝置800—個組件的位置改變，用戶與裝置800接觸的存在或不存在，裝置800方位或加速/減速和裝置800的溫度變化。傳感器組件814可以包括接近傳感器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件814還可以包括光傳感器，如CMOS或C⑶圖像傳感器，用于在成像應(yīng)用中使用。在一些實施例中，該傳感器組件814還可以包括加速度傳感器，陀螺儀傳感器，磁傳感器，壓力傳感器或溫度傳感器。
[0409]通信組件816被配置為便于裝置800和其他設(shè)備之間有線或無線方式的通信。裝置800可以接入基于通信標準的無線網(wǎng)絡(luò)，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信部件816經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個示例性實施例中，所述通信部件816還包括近場通信(NFC)模塊，以促進短程通信。例如，在NFC模塊可基于射頻識別(RFID)技術(shù)，紅外數(shù)據(jù)協(xié)會(IrDA)技術(shù)，超寬帶(UWB)技術(shù)，藍牙(BT)技術(shù)和其他技術(shù)來實現(xiàn)。
[0410]在示例性實施例中，裝置800可以被一個或多個應(yīng)用專用集成電路(ASIC)、數(shù)字信號處理器(DSP)、數(shù)字信號處理設(shè)備(DSPD)、可編程邏輯器件(PLD)、現(xiàn)場可編程門陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現(xiàn)，用于執(zhí)行上述方法。
[0411]在示例性實施例中，還提供了一種包括指令的非臨時性計算機可讀存儲介質(zhì)，例如包括指令的存儲器804，上述指令可由裝置800的處理器820執(zhí)行以完成上述方法。例如，所述非臨時性計算機可讀存儲介質(zhì)可以是R0M、隨機存取存儲器(RAM)、CD-R0M、磁帶、軟盤和光數(shù)據(jù)存儲設(shè)備等。
[0412]—種非臨時性計算機可讀存儲介質(zhì)，當所述存儲介質(zhì)中的指令由移動終端的處理器執(zhí)行時，使得移動終端能夠執(zhí)行一種音頻識別方法，所述方法包括:
[0413]從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流；
[0414]依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息，并展示給用戶；
[0415]所述依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息包括:
[0416]按照預設(shè)的規(guī)則將所述音頻流劃分為至少兩個子音頻流；
[0417]對劃分得到的子音頻流依次進行檢索，以獲取音頻信息。
[0418]圖9是本發(fā)明實施例中服務(wù)器的結(jié)構(gòu)示意圖。該服務(wù)器900可因配置或性能不同而產(chǎn)生比較大的差異，可以包括一個或一個以上中央處理器(central processing units，CPU)922(例如，一個或一個以上處理器)和存儲器932，一個或一個以上存儲應(yīng)用程序942或數(shù)據(jù)944的存儲介質(zhì)930(例如一個或一個以上海量存儲設(shè)備)。其中，存儲器932和存儲介質(zhì)930可以是短暫存儲或持久存儲。存儲在存儲介質(zhì)930的程序可以包括一個或一個以上模塊(圖示沒標出)，每個模塊可以包括對服務(wù)器中的一系列指令操作。更進一步地，中央處理器922可以設(shè)置為與存儲介質(zhì)930通信，在服務(wù)器900上執(zhí)行存儲介質(zhì)930中的一系列指令操作。
[0419]服務(wù)器900還可以包括一個或一個以上電源926，一個或一個以上有線或無線網(wǎng)絡(luò)接口 950，一個或一個以上輸入輸出接口 958，一個或一個以上鍵盤956，和/或，一個或一個以上操作系統(tǒng)941，例如Windows ServerTM,Mac OS XTM，UnixTM,LinuxTM，F(xiàn)reeBSDTM等等。
[0420]本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后，將容易想到本發(fā)明的其它實施方案。本發(fā)明旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化，這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的，本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
[0421]應(yīng)當理解的是，本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu)，并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制
[0422]以上所述僅為本發(fā)明的較佳實施例，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種音頻識別方法，其特征在于，包括: 從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流；依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息，并展示給用戶；所述依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息包括: 按照預設(shè)的規(guī)則將所述音頻流劃分為至少兩個子音頻流；對劃分得到的子音頻流依次進行檢索，以獲取音頻信息。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流，依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息，包括: 從所述視頻文件的源數(shù)據(jù)中，依次截取所述第一時間長度的音頻流；對截取得到的各音頻流進行檢索，分別得到各音頻流對應(yīng)的音頻信息。3.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流之前，所述方法還包括: 在視頻文件播放的過程中，接收對背景音樂的識別指令；貝1J，所述從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流，包括: 以所述識別指令的接收時間或所述接收時間往前一定時間段的時間為截取起始時間，從當前視頻文件的源數(shù)據(jù)中截取所述第一時間長度的音頻流。4.根據(jù)權(quán)利要求2或3所述的方法，其特征在于，在所述依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息之后，所述方法還包括: 記錄所述音頻信息以及所述音頻信息的起始位置;所述音頻信息的起始位置為所述音頻流的截取起始時間；在所述視頻文件再次播放至所述音頻信息的起始位置時，展示所述音頻信息。5.根據(jù)權(quán)利要求4所述的方法，其特征在于，在所述從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流之前，所述方法還包括: 判斷是否存在起始位置與當前截取起始時間的差值小于預設(shè)第一閾值的音頻信息；如果存在，則將所述音頻信息展示給用戶；如果不存在，執(zhí)行所述從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流的步驟。6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息之前，所述方法還包括: 根據(jù)所述視頻文件的類型，選擇相應(yīng)的去噪包對所述音頻流進行噪聲過濾。7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對劃分得到的子音頻流依次進行檢索，以獲取音頻信息，包括: 從劃分得到的第一個子音頻流開始檢索；如果檢索得到對應(yīng)的音頻信息，則停止對下一個子音頻流進行檢索；如果未檢索到對應(yīng)的音頻信息，則對下一個子音頻流進行檢索，直至檢索得到對應(yīng)的音頻信息。8.根據(jù)權(quán)利要求1-7任一項所述的方法，其特征在于，所述對劃分得到的子音頻流依次進行檢索，以獲取音頻信息，包括: 提取所述子音頻流的指紋特征；依據(jù)所述指紋特征查找指紋索引庫，獲得所述子音頻流對應(yīng)的音頻信息;其中，所述指紋特征包括兩個能量峰值的頻率、時間差和能量比。9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述提取所述子音頻流的指紋特征，依據(jù)所述指紋特征查找指紋索引庫，獲得所述子音頻流對應(yīng)的音頻信息，包括: 從所述子音頻流對應(yīng)的頻譜圖中選定各能量峰值以及各能量峰值對應(yīng)的目標區(qū)域；將每個能量峰值以及所述能量峰值對應(yīng)的目標區(qū)域中包括的所有能量峰值進行兩兩組合，構(gòu)造所述指紋特征；基于所述指紋特征查找指紋索引庫，獲得與所述指紋特征對應(yīng)的原始音樂的音頻信息，作為所述子音頻流對應(yīng)的音頻信息。10.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述方法還包括從原始音樂對應(yīng)的頻譜圖中選定各能量峰值以及各能量峰值對應(yīng)的目標區(qū)域；將每個能量峰值以及所述能量峰值對應(yīng)的目標區(qū)域中包括的所有能量峰值進行兩兩組合，構(gòu)造所述原始音樂的指紋特征；建立所述原始音樂、所述原始音樂的音頻信息以及所述原始音樂的指紋特征之間的關(guān)聯(lián)，并保存在所述指紋索引庫中。11.一種音頻識別裝置，其特征在于，包括: 音頻流截取模塊，適于從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流；檢索模塊，適于依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息；展示模塊，適于將所述檢索得到的音頻信息展示給用戶；所述檢索模塊包括:音頻流劃分子模塊和第一檢索子模塊；所述音頻流劃分子模塊，適于按照預設(shè)的規(guī)則將所述音頻流劃分為至少兩個子音頻流；所述第一檢索子模塊，適于對劃分得到的子音頻流依次進行檢索，以獲取音頻信息。12.—種用于音頻識別的裝置，其特征在于，包括有存儲器，以及一個或者一個以上的程序，其中一個或者一個以上程序存儲于存儲器中，且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令: 從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流；依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息，并展示給用戶；所述依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息包括: 按照預設(shè)的規(guī)則將所述音頻流劃分為至少兩個子音頻流；對劃分得到的子音頻流依次進行檢索，以獲取音頻信息。
【專利摘要】本申請公開了一種音頻識別方法和裝置，涉及音頻技術(shù)領(lǐng)域。所述方法包括：從視頻文件的源數(shù)據(jù)中截取第一時間長度的音頻流；依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息，并展示給用戶；所述依據(jù)所述第一時間長度的音頻流檢索得到對應(yīng)的音頻信息包括：按照預設(shè)的規(guī)則將所述音頻流劃分為至少兩個子音頻流；對劃分得到的子音頻流依次進行檢索，以獲取音頻信息。本申請可以直接從當前播放的視頻源數(shù)據(jù)中提取音頻流以進行檢索，沒有額外的錄音操作，不受嘈雜環(huán)境的影響，操作簡單，準確率高，檢索過程不影響用戶對視頻的正常觀看，能夠提高檢索效率以及檢索成功率。
【IPC分類】G10L25/54, H04N21/439
【公開號】CN105657535
【申請?zhí)枴?br>【發(fā)明人】姚光超
【申請人】北京搜狗科技發(fā)展有限公司
【公開日】2016年6月8日
【申請日】2015年12月29日

完整全部詳細技術(shù)資料下載

當前第6頁1 2 3 4 5 6

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種音頻識別方法和裝置的制造方法_6