一種音頻信息處理方法及電子設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種音頻信息處理方法,用于解決現(xiàn)有技術(shù)中電子設(shè)備顯示效果較差的技術(shù)問題。該方法包括:在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特征的M段音頻信息;將所述M段音頻信息與所述N段音頻樣本進(jìn)行比對,確定所述N段音頻樣本中與所述第一聲紋特征相同的聲紋特征所對應(yīng)的第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述M段音頻信息對應(yīng)的第一用戶標(biāo)識信息;輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時,控制所述電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。本發(fā)明還公開了用于實(shí)現(xiàn)該方法的電子設(shè)備。
【專利說明】一種音頻信息處理方法及電子設(shè)備
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)【技術(shù)領(lǐng)域】,特別涉及一種音頻信息處理方法及電子設(shè)備。
【背景技術(shù)】
[0002] 隨著科技的迅速發(fā)展和市場競爭的日益激烈,電子設(shè)備的性能及外觀得到了大力 提升,其中筆記本電腦以其小巧輕便、便于攜帶、娛樂性強(qiáng)等優(yōu)點(diǎn)正受到越來越多的人們的 喜愛,成為學(xué)習(xí)和生活中不可缺少的一部分。用戶利用電子設(shè)備可以做的事也越來越多, 如:用戶可以通過具有語音功能的手機(jī)或平板電腦進(jìn)行通信、錄音等。
[0003] 目前,大部分的電子設(shè)備均有錄音功能,能夠滿足多種場景的錄音需求,例如會 議、課堂的錄音等。通常,由于錄音場景的復(fù)雜性,在用戶使用電子設(shè)備獲取錄音后,會導(dǎo)致 播放錄音時不容易區(qū)分語音內(nèi)容具體對應(yīng)的說話者,特別是針對聲音比較近似的說話者, 或者收聽者還不熟悉的說話者,都會造成收聽時的分辨難度。例如,在會議中,用戶使用電 子設(shè)備對會議內(nèi)容進(jìn)行錄音,在后期播放錄音進(jìn)行回顧時,若存在多人同時討論的情況時, 可能會出現(xiàn)播放聲音很嘈雜,無法較快地區(qū)分具體是哪些參會人在說話,則收聽者在聽取 錄音的過程中還需用心辨別播放錄音對應(yīng)的發(fā)話人,并且為了能夠快速地反應(yīng)與錄音內(nèi)容 對應(yīng)的發(fā)話人,可能需要反復(fù)播放錄音,從而使得電子設(shè)備的負(fù)擔(dān)較重,用戶體驗(yàn)也較差。
[0004] 綜上可知,現(xiàn)有技術(shù)中存在電子設(shè)備錄音效果較差的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例提供一種音頻信息處理方法及電子設(shè)備,用于解決電子設(shè)備錄音效 果較差的技術(shù)問題。
[0006] -種音頻信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備中存儲有N段音頻樣 本,所述N段音頻樣本中的每段音頻樣本分別對應(yīng)一個用戶標(biāo)識信息,所述用戶標(biāo)識信息 包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,N為正整數(shù),所述方法包括:
[0007] 在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特征的Μ段 音頻信息,Μ為正整數(shù);
[0008] 將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段音頻樣本對應(yīng) 的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征;
[0009] 若存在,確定所述Ν段音頻樣本中與所述第一聲紋特征相同的聲紋特征所對應(yīng)的 第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ段音頻信息對 應(yīng)的第一用戶標(biāo)識信息;
[0010] 輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時,控制所述 電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0011] 可選的,所述方法還包括:
[0012] 檢測到所述語音文件中包含的音頻信息段中同時具有第二聲紋特征及第三聲紋 特征時,根據(jù)所述第二聲紋特征及所述第三聲紋特征從所述音頻信息段中分離出具有所述 第二聲紋特征的第二音頻信息,以及具有所述第三聲紋特征的第三音頻信息;
[0013] 通過將所述第二音頻信息及所述第三音頻信息分別與所述N段音頻樣本進(jìn)行比 對,確定出與所述第二聲紋特征相對應(yīng)的第二音頻樣本,以及與第三聲紋特征相對應(yīng)的第 三音頻樣本;并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定出與所述第二聲紋特征相 對應(yīng)第二用戶標(biāo)識信息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo)識信息;
[0014] 控制所述電子設(shè)備在播放所述音頻信息的過程中,同時顯示所述第二用戶標(biāo)識信 息和所述第三用戶標(biāo)識信息。
[0015] 可選的,控制所述電子設(shè)備在播放所述音頻信息端的過程中,同時顯示所述第二 用戶標(biāo)識信息和所述第三用戶標(biāo)識信息,還包括:
[0016] 檢測具有所述第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及具有所述第三聲 紋特征的音頻信息對應(yīng)的第三音頻強(qiáng)度;
[0017] 比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大的音頻信息確定 為主音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息;
[0018] 根據(jù)聲音強(qiáng)度與顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以第一顯示效果顯示與 所述主音頻信息對應(yīng)的用戶標(biāo)識信息,及以第二顯示效果顯示與所述副音頻信息對應(yīng)的用 戶標(biāo)識信息。
[0019] 可選的,將所述Μ段音頻信息與所述N段音頻樣本進(jìn)行比對,確定所述N段音頻樣 本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征,還包括:
[0020] 若所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中不存在與所述第一聲紋特征相同的聲 紋特征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻信息為與所述電 子設(shè)備中存儲的聯(lián)系對象相關(guān)的音頻信息;
[0021] 若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對象建立與所述Μ段音 頻信息對應(yīng)的用戶標(biāo)識信息;或者
[0022] 若所述Μ段音頻信息不為所述關(guān)鍵音頻信息,設(shè)置第一特定標(biāo)識信息作為與所述 Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所述第一特定標(biāo)識信息為所述電子設(shè)備中特定 圖像?目息、特定文字?目息及特定語首彳目息中任一?目息或組合?目息。
[0023] 可選的,在若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對象建立與 所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息的同時或之后,所述方法還包括:
[0024] 根據(jù)所述Μ段音頻信息,獲取第一音頻片斷;
[0025] 將所述第一音頻片斷作為第Ν+1段音頻樣本進(jìn)行存儲;其中,所述Ν+1段音頻樣本 與所述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。
[0026] -種電子設(shè)備,所述電子設(shè)備中存儲有Ν段音頻樣本,所述Ν段音頻樣本中的每段 音頻樣本分別對應(yīng)一個用戶標(biāo)識信息,所述用戶標(biāo)識信息包含能夠用于表征與音頻信息對 應(yīng)的音頻對象的信息,Ν為正整數(shù),所述電子設(shè)備包括:
[0027] 解析模塊,用于在輸出一語音文件的過程中,解析出所述語音文件中的具有第一 聲紋特征的Μ段音頻信息,Μ為正整數(shù);
[0028] 比對模塊,用于將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段 音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征;
[0029] 第一確定模塊,用于若存在,確定所述Ν段音頻樣本中與所述第一聲紋特征相同 的聲紋特征所對應(yīng)的第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與 所述Μ段音頻信息對應(yīng)的第一用戶標(biāo)識信息;
[0030] 輸出模塊,用于輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信 息時,控制所述電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0031] 可選的,所述電子設(shè)備還包括:
[0032] 分離模塊,用于檢測到所述語音文件中包含的音頻信息段中同時具有第二聲紋特 征及第三聲紋特征時,根據(jù)所述第二聲紋特征及所述第三聲紋特征從所述音頻信息段中分 離出具有所述第二聲紋特征的第二音頻信息,以及具有所述第三聲紋特征的第三音頻信 息;
[0033] 第二確定模塊,用于通過將所述第二音頻信息及所述第三音頻信息分別與所述Ν 段音頻樣本進(jìn)行比對,確定出與所述第二聲紋特征相對應(yīng)的第二音頻樣本,以及與第三聲 紋特征相對應(yīng)的第三音頻樣本;并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定出與所 述第二聲紋特征相對應(yīng)第二用戶標(biāo)識信息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo) 識息;
[0034] 控制模塊,用于控制所述電子設(shè)備在播放所述音頻信息的過程中,同時顯示所述 第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息。
[0035] 可選的,所述電子設(shè)備還包括:
[0036] 檢測模塊,用于檢測具有所述第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及 具有所述第三聲紋特征的音頻信息對應(yīng)的第三音頻強(qiáng)度;
[0037] 比較模塊,用于比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大 的音頻信息確定為主音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息;
[0038] 第一處理模塊,用于根據(jù)聲音強(qiáng)度與顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以 第一顯示效果顯示與所述主音頻信息對應(yīng)的用戶標(biāo)識信息,及以第二顯示效果顯示與所述 副音頻信息對應(yīng)的用戶標(biāo)識信息。
[0039] 可選的,所述電子設(shè)備還包括:
[0040] 判斷模塊,用于若所述N段音頻樣本對應(yīng)的N個聲紋特征中不存在與所述第一聲 紋特征相同的聲紋特征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻 信息為與所述電子設(shè)備中存儲的聯(lián)系對象相關(guān)的音頻信息;
[0041] 第二處理模塊,用于若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對 象建立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;或者,若所述Μ段音頻信息不為所述關(guān)鍵 音頻信息,設(shè)置第一特定標(biāo)識信息作為與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所 述第一特定標(biāo)識信息為所述電子設(shè)備中特定圖像信息、特定文字信息及特定語音信息中任 一信息或組合信息。
[0042] 可選的,所述電子設(shè)備還包括:
[0043] 獲取模塊,用于根據(jù)所述Μ段音頻信息,獲取第一音頻片斷;
[0044] 存儲模塊,將所述第一音頻片斷作為第Ν+1段音頻樣本進(jìn)行存儲;其中,所述Ν+1 段音頻樣本與所述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。
[0045] 本發(fā)明實(shí)施例中,由于所述電子設(shè)備中存儲的所述Ν段音頻樣本均具有對應(yīng)用戶 標(biāo)識信息,且每個用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,因 此在輸出所述育語音文件時,通過解析可以獲知具有所述第一聲紋特征的所述Μ段音頻信 息,并根據(jù)聲紋特征,將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,則可以確定具有 與所述第一聲紋特征相同的聲紋特征的所述第一音頻樣本,從而根據(jù)與所述第一音頻樣本 對應(yīng)的第一用戶標(biāo)識信息,從而可以使得在播放具有所述第一聲紋特征的音頻信息時,即 播放至所述Μ段音頻信息中的任一音頻信息時,均可顯示所述第一用戶標(biāo)識信息。因此,即 便播放的錄音內(nèi)容具有多個發(fā)話人,那么由于每個發(fā)話人對應(yīng)的聲紋特征均不相同,故通 過確定錄音內(nèi)容中具有相同聲紋特征的多段音頻信息后,通過比對確定對應(yīng)的用戶標(biāo)識信 息后,則在播放該音頻信息時,可顯示對應(yīng)的用戶標(biāo)識信息,從而可以快速的獲知當(dāng)前播放 的語音文件中對應(yīng)的音頻對象,而無需用戶再花多余的時間進(jìn)行辨別,故增強(qiáng)了電子設(shè)備 的錄音效果,也提高了用戶的體驗(yàn)。
【專利附圖】
【附圖說明】
[0046] 圖1為本發(fā)明實(shí)施例中音頻信息處理方法的主要流程圖;
[0047] 圖2為本發(fā)明實(shí)施例中顯示第一用戶標(biāo)識信息的示意圖;
[0048] 圖3為本發(fā)明實(shí)施例中顯示第二用戶標(biāo)識信息和第三用戶標(biāo)識信息的示意圖;
[0049] 圖4為本發(fā)明實(shí)施例中電子設(shè)備的主要模塊圖。
【具體實(shí)施方式】
[0050] 本發(fā)明實(shí)施例公開了一種音頻信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備 中存儲有Ν段音頻樣本,所述Ν段音頻樣本中的每段音頻樣本分別對應(yīng)一個用戶標(biāo)識信息, 所述用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,Ν為正整數(shù),所述 方法包括:在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特征的Μ 段音頻信息,Μ為正整數(shù);將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段 音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征;若存在, 確定所述Ν段音頻樣本中與所述第一聲紋特征相同的聲紋特征所對應(yīng)的第一音頻樣本,并 根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ段音頻信息對應(yīng)的第一用戶標(biāo)識 信息;輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時,控制所述電 子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0051] 本發(fā)明實(shí)施例中,由于所述電子設(shè)備中存儲的所述Ν段音頻樣本均具有對應(yīng)用戶 標(biāo)識信息,且每個用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,因 此在輸出所述育語音文件時,通過解析可以獲知具有所述第一聲紋特征的所述Μ段音頻信 息,并根據(jù)聲紋特征,將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,則可以確定具有 與所述第一聲紋特征相同的聲紋特征的所述第一音頻樣本,從而根據(jù)與所述第一音頻樣本 對應(yīng)的第一用戶標(biāo)識信息,從而可以使得在播放具有所述第一聲紋特征的音頻信息時,即 播放至所述Μ段音頻信息中的任一音頻信息時,均可顯示所述第一用戶標(biāo)識信息。因此,即 便播放的錄音內(nèi)容具有多個發(fā)話人,那么由于每個發(fā)話人對應(yīng)的聲紋特征均不相同,故通 過確定錄音內(nèi)容中具有相同聲紋特征的多段音頻信息后,通過比對確定對應(yīng)的用戶標(biāo)識信 息后,則在播放該音頻信息時,可顯示對應(yīng)的用戶標(biāo)識信息,從而可以快速的獲知當(dāng)前播放 的語音文件中對應(yīng)的音頻對象,而無需用戶再花多余的時間進(jìn)行辨別,故增強(qiáng)了電子設(shè)備 的錄音效果,也提高了用戶的體驗(yàn)。
[0052] 請參見圖1,本發(fā)明實(shí)施例公開了一種音頻信息處理方法,應(yīng)用于一具有顯示單元 的電子設(shè)備中,所述電子設(shè)備中存儲有N段音頻樣本,所述N段音頻樣本中的每段音頻樣本 分別對應(yīng)一個用戶標(biāo)識信息,所述用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻 對象的信息,N為正整數(shù),所述方法可以包括以下步驟:
[0053] 步驟11 :在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特 征的Μ段音頻信息,Μ為正整數(shù)。
[0054] 本發(fā)明實(shí)施例中,所述語音文件可以是錄制的對應(yīng)特殊場合的錄音文件。例如,會 議內(nèi)容的錄音文件或課堂的錄音文件等。通常,所述語音文件可以是存儲在本地的錄音文 件,例如將通過自身或其它設(shè)備錄制的文件存儲在本地,或者所述語音文件也可以是獲取 的來自其他電子設(shè)備或云端的錄音文件。
[0055] 可選的,本發(fā)明實(shí)施例中,所述第一聲紋特征可以是指在將所述語音文件進(jìn)行輸 出的過程中,通過聲紋識別確定的所述語音文件對應(yīng)的聲紋特征。
[0056] 通常,所謂聲紋是指用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜,且任何兩個 人的聲紋圖譜都有差異。因此,通過聲紋識別,可以確定所述語音文件中各個音頻信息對應(yīng) 的聲紋特征,故可識別出具有相同聲紋特征的音頻信息,并且當(dāng)所述語音文件是錄制有多 個說話人對應(yīng)的發(fā)言內(nèi)容時,所述語音文件可以對應(yīng)有多個聲紋特征。
[0057] 可選的,通過聲紋識別可以確定所述語音文件中具有所述第一聲紋特征的所述Μ 段音頻信息,故可以認(rèn)為所述Μ段音頻信息是來自于同一說話人的說話內(nèi)容,且所述Μ段音 頻信息可以是處于所述語音文件中不同音頻位置。例如,當(dāng)該說話人與多個其它說話人處 于同一場景下時,該說話人時不時的進(jìn)行發(fā)言,則與其對應(yīng)的所述Μ段音頻信息是按照發(fā) 言時間順序被錄制進(jìn)所述語音文件,從而在播放所述語音文件時,會將錄制的包括所有說 話人的說話內(nèi)容按照錄制順序進(jìn)行播放,此時,所述Μ段音頻信息就可能是穿插在所述語 音文件中的多個位置的音頻信息。
[0058] 步驟12 :將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段音頻 樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征。
[0059] 本發(fā)明實(shí)施例中,由于每個人對應(yīng)的聲紋特征均不相同,因此在確定出所述Μ段 音頻信息,且將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對時,可以是通過聲紋識別技 術(shù)來進(jìn)行判斷,若能檢測到與所述第一聲紋特征相同的聲紋特征,則說明所述Ν個聲紋特 征中存在與所述第一聲紋特征相同的聲紋特征,即具有與所述Μ段音頻信息匹配的音頻樣 本,否則,則不存在與所述Μ段音頻信息對應(yīng)的音頻樣本,故也不能通過當(dāng)前存儲的所述Ν 段音頻樣本確定與所述Μ段音頻信息對應(yīng)的音頻對象。
[0060] 本發(fā)明實(shí)施例中,所述Ν段音頻樣本可以是預(yù)先根據(jù)一個或多個錄音文件設(shè)置 的。例如,從預(yù)先錄制或存儲的錄音文件中提取出與相關(guān)聯(lián)系人對應(yīng)的音頻信息作為音頻 樣本,或者,也可以根據(jù)聯(lián)系人為其錄制對應(yīng)的音頻片段作為與該聯(lián)系人對應(yīng)的音頻樣本。 其中,所述Ν段音頻樣本中的每一段音頻樣本均可是來自語音段的音頻信息。例如,從語音 文件的語音段中獲取多個音頻信息。
[0061] 可選的,本發(fā)明實(shí)施例中,所述Ν段音頻樣本中的每段音頻樣本分別對應(yīng)一個用 戶標(biāo)識信息,所述用戶標(biāo)識信息可以是包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信 息。例如,所述用戶標(biāo)識信息可以包含聯(lián)系人頭像、姓名、工作性質(zhì)等信息。
[0062] 步驟13 :若存在,確定所述N段音頻樣本中與所述第一聲紋特征相同的聲紋特征 所對應(yīng)的第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ段音 頻信息對應(yīng)的第一用戶標(biāo)識信息。
[0063] 本發(fā)明實(shí)施例中,由于每個音頻信息具有不同的在通過聲紋識別技術(shù)確定出與所 述第一聲紋特征相同的所述第一音頻樣本時,可以進(jìn)一步確定與所述第一音頻樣本對應(yīng)的 所述第一用戶標(biāo)識信息,從而可以確定與所述Μ段音頻信息對應(yīng)的音頻對象。
[0064] 可選的,本發(fā)明實(shí)施例中,音頻樣本與用戶標(biāo)識信息之間的對應(yīng)關(guān)系可以是用戶 預(yù)先設(shè)置好的。例如,用戶可以在設(shè)置所述Ν段音頻樣本時,將與每個音頻樣本相關(guān)的信息 設(shè)置為與該音頻樣本對應(yīng)的用戶標(biāo)識信息。例如,將與該段音頻樣本對應(yīng)的音頻對象的頭 像、名字等信息中的一個或組合確定為對應(yīng)的用戶標(biāo)識信息。
[0065] 例如,用戶手機(jī)中存儲有說話人甲的第一音頻樣本,說話人甲的說話聲音對應(yīng)聲 紋特征1,且與所述第一音頻樣本對應(yīng)的第一用戶標(biāo)識信息中包含說話人甲的頭像信息、姓 名信息,則當(dāng)用戶使用手機(jī)播放一個錄音文件時,若該錄音文件中包含有說話人甲的聲音, 則在播放該錄音文件時,若確定該錄音文件中識別出的聲紋特征中具有與聲紋特征1相同 的聲紋特征,則可以認(rèn)為錄音文件中具有聲紋特征1的音頻信息均為說話人甲對應(yīng)的音頻 信息,故這些音頻信息均可以為與第一用戶標(biāo)識信息相關(guān)聯(lián)的音頻信息。
[0066] 在實(shí)際操作過程中,在將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定 所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征 時,還可以包括:若所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中不存在與所述第一聲紋特征相 同的聲紋特征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻信息為與 所述電子設(shè)備中存儲的聯(lián)系對象相關(guān)的音頻信息;若所述Μ段音頻信息為所述關(guān)鍵音頻信 息,根據(jù)所述聯(lián)系對象建立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;或者,若所述Μ段音 頻信息不為所述關(guān)鍵音頻信息,設(shè)置第一特定標(biāo)識信息作為與所述Μ段音頻信息對應(yīng)的用 戶標(biāo)識信息;其中,所述第一特定標(biāo)識信息為所述電子設(shè)備中特定圖像信息、特定文字信息 及特定語首?目息中任一?目息或組合?目息。
[0067] 其中,判斷所述Μ段音頻信息是否為所述關(guān)鍵音頻信息,可以具有以下兩種實(shí)現(xiàn) 判斷的方法。
[0068] 第一種:通過用戶進(jìn)行判斷。該過程可以是根據(jù)所述電子設(shè)備中存儲的聯(lián)系對象 進(jìn)行確定的,若存儲的所述聯(lián)系對象時未存儲有對應(yīng)的音頻段,則以上所述判斷過程可以 是用戶來進(jìn)行實(shí)現(xiàn)的。例如,在播放的所述語音文件時,若確定播放的音頻信息為未匹配成 功的音頻信息,則用戶可以根據(jù)自己對聯(lián)系人對應(yīng)的聲音的熟悉程度,辨別該音頻信息是 否為聯(lián)系人對應(yīng)的聲音信息,若是,則可以將該音頻信息確定為所述關(guān)鍵音頻信息,否則, 可以不對該段音頻信息進(jìn)行過多的設(shè)置。故通過用戶自身來進(jìn)行判斷時,可以具有較大的 自主選擇性,提高了用戶的體驗(yàn)度,同時也使得所述電子設(shè)備的錄音效果具有較強(qiáng)的靈活 性。
[0069] 第二種,通過電子設(shè)備進(jìn)行判斷。如果在存儲所述聯(lián)系對象的時候,也存儲有與 所述聯(lián)系對象對應(yīng)的音頻信息,則判斷所述Μ段音頻信息是否為所述關(guān)鍵音頻信息可以是 通過所述電子設(shè)備通過聲紋識別及匹配來實(shí)現(xiàn)的。例如,若用戶在建立所述聯(lián)系對象的信 息的同時或之后,還為聯(lián)系對象存儲了一段對應(yīng)的語音,從而在所述第一聲紋特征與所述N 段聲紋特征未匹配成功時,可以通過將所述第一聲紋特征與所述聯(lián)系對象的語音段對應(yīng)的 聲紋特征進(jìn)行匹配,從而可以確定所述第一聲紋特征是否與所述聯(lián)系對象相關(guān),進(jìn)而確定 所述Μ段音頻信息是否為所述關(guān)鍵音頻信息。
[0070] 本發(fā)明實(shí)施例中,若判斷結(jié)果表明所述Μ段音頻信息為所述關(guān)鍵音頻信息,則可 以根據(jù)所述聯(lián)系對象建立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息。通常,用戶在存儲聯(lián) 系對象時,會包含相關(guān)的對象姓名、頭像、工作單位等信息,若確定所述Μ段音頻信息對應(yīng) 的所述聯(lián)系對象為聯(lián)系對象1時,則可將頭像信息及姓名信息設(shè)置為與所述Μ段音頻信息 設(shè)置對應(yīng)的用戶標(biāo)識信息所包含的內(nèi)容。
[0071] 此外,在通過某些沒有設(shè)置相應(yīng)頭像的聯(lián)系對象建立與所述Μ段音頻信息對應(yīng)的 用戶標(biāo)識信息時,可通過從本地或云端獲取與該聯(lián)系對象相關(guān)的圖像進(jìn)行設(shè)置,以便通過 該用戶標(biāo)識信息可以快速進(jìn)行辨別。例如,使用手機(jī)中存儲的、與確定的聯(lián)系對象相關(guān)的圖 像設(shè)置所述用戶標(biāo)識信息中的頭像信息時,則可將該圖像包含的頭像部分進(jìn)行截圖,從而 設(shè)置為該聯(lián)系對象的頭像信息,提高辨別度。
[0072] 或者,若判斷表面所述Μ段音頻信息不為所述關(guān)鍵音頻信息,則可以設(shè)置第一特 定標(biāo)識信息作為與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所述第一特定標(biāo)識信息 為所述電子設(shè)備中特定圖像信息、特定文字信息及特定語音信息中任一信息或組合信息。
[0073] 其中,所述特定圖像可以是指所述電子設(shè)備默認(rèn)或用戶預(yù)先指定的、用于為聲紋 匹配不成功的音頻信息設(shè)置的對應(yīng)的圖像,并且可以為該圖像設(shè)置對應(yīng)的文字信息,例如 "未識別"、"未知"等?;蛘?,所述特定圖像也可以就是具有易識別的標(biāo)識或圖像,而不需要 搭配特殊的文字,例如可以顯示為未知人物頭像的圖像,使得用戶一看便知此時播放的音 頻信息為與聯(lián)系人不相關(guān)的信息。
[0074] 可選的,本發(fā)明實(shí)施例中,在若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述 聯(lián)系對象建立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息的同時或之后,所述方法還可以包 括:根據(jù)所述Μ段音頻信息,獲取第一音頻片斷;將所述第一音頻片斷作為第Ν+1段音頻樣 本進(jìn)行存儲;其中,所述Ν+1段音頻樣本與所述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。即 在確定所述Μ段音頻信息為所述關(guān)鍵音頻信息時,可在所述Μ段音頻信息中截取任意一個 音頻片斷作為所述第一音頻片斷,并將所述第一音頻片斷作為所述第Ν+1段音頻樣本進(jìn)行 存儲,從而不斷地增加音頻樣本的數(shù)量,以使在進(jìn)行聲紋匹配時具有更多的可進(jìn)行比對的 聲紋特征,以能夠盡量多的識別出所述語音文件中的不同聲紋特征對應(yīng)的用戶標(biāo)識信息, 從而獲知對應(yīng)的音頻對象等,提高了所述電子設(shè)備對錄音文件分析的準(zhǔn)確性。
[0075] 步驟14 :輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時, 控制所述電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0076] 本發(fā)明實(shí)施例中,在確定出所述語言文件中具有相同聲紋特征的音頻信息后,即 可確定與所述音頻信息對應(yīng)的用戶標(biāo)識信息。從而在播放所述語音文件時,若通過聲紋識 別確定當(dāng)前播放的音頻信息在所述Ν段音頻樣本中具有對應(yīng)的音頻樣本,則可將與具有該 聲紋特征的音頻信息均顯示相同的用戶標(biāo)標(biāo)識信息。例如,與該音頻信息對應(yīng)的音頻對象 的頭像信息、姓名信息等。
[0077] 請參加圖2,數(shù)字20代表所述電子設(shè)備,此處以手機(jī)為例;數(shù)字21代表所述電子 設(shè)備的顯示單元,所述顯示單元中正在播放所述語音文件,且當(dāng)前播放的音頻為所述Μ段 音頻信息中的任意一段,數(shù)字22代表所述用戶標(biāo)識信息,此處以用戶頭像信息為例,其中, 標(biāo)號為1的用戶標(biāo)識信息代表所述第一用戶標(biāo)識信息,其余用戶標(biāo)識表示與所述語音文件 所包含的其他聲紋特征對應(yīng)的用戶標(biāo)識信息。
[0078] 本發(fā)明實(shí)施例中,所述音頻信息處理方法還可以包括:檢測到所述語音文件中包 含的段音頻信息段中同時具有第二聲紋特征及第三聲紋特征時,根據(jù)所述第二聲紋特征及 所述第三聲紋特征的特征參數(shù),從所述音頻信息段中分離出具有所述第二聲紋特征的第二 音頻信息,以及具有所述第三聲紋特征的第三音頻信息;通過將所述第二音頻信息及所述 第三音頻信息分別與所述Ν段音頻樣本進(jìn)行比對,確定出與所述第二聲紋特征相對應(yīng)的第 二音頻樣本,以及與第三聲紋特征相對應(yīng)的第三音頻樣本;根據(jù)音頻樣本與用戶標(biāo)識信息 的對應(yīng)關(guān)系,確定出與所述第二聲紋特征相對應(yīng)第二用戶標(biāo)識信息,以及與所述第三聲紋 特征相對應(yīng)的第三用戶標(biāo)識信息;控制所述電子設(shè)備在播放所述音頻信息段的過程中,同 時顯示所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息。
[0079] 其中,所述音頻信息段可以是指所述語音文件中的同時包含多段音頻信息的語音 段。例如,單位時間內(nèi),播放所述語音文件時可能同時包含多個說話人的發(fā)言內(nèi)容,則根據(jù) 每個人對應(yīng)的音頻信息可以確定出多個聲紋特征。所述第二聲紋特征和所述第三聲紋特征 可以是指不同說話對象的音頻信息各自對應(yīng)的聲紋特征。
[0080] 在確定所述語音文件中包含的一段音頻信息中同時存在所述第二聲紋特征和所 述第三聲紋特征后,可根據(jù)所述第二聲紋特征及所述第三聲紋特征的特征參數(shù)對所述音頻 信息段進(jìn)行提取,從而分離出具有所述第二聲紋特征的第二音頻信息,以及具有所述第三 聲紋特征的第三音頻信息。其中,所述參數(shù)特征可以是聲紋頻譜中共振峰的頻率值。一般 來說,聲紋頻譜中共振峰的頻率值及其走向是最穩(wěn)定的特征參數(shù),而且具有很強(qiáng)的特定性, 而時長、音強(qiáng)、波形等特征參數(shù)穩(wěn)定性較差,也可做參考。
[0081] 可選的,本發(fā)明實(shí)施例中,在確定出與所述第二聲紋特征相對應(yīng)第二用戶標(biāo)識信 息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo)識信息后,則在播放所述音頻信息的過 程中,可以同時顯示所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息,以使得聽者獲知當(dāng) 前多人同時說話時對應(yīng)的多人頭像。例如,所述語音文件中包含同時發(fā)言的說話人甲和說 話人乙的音頻信息段1,則當(dāng)播放至該音頻信息段時,與說話人甲對應(yīng)的頭像a和說話人乙 對應(yīng)的頭像b將同時進(jìn)行顯示,以表示當(dāng)前播放的音頻信息段為這兩個頭像分別對應(yīng)的音 頻對象對應(yīng)的聲音。
[0082] 請參見圖3,數(shù)字30代表所述電子設(shè)備,此處以手機(jī)為例;數(shù)字31代表所述電子 設(shè)備的顯示單元,所述顯示單元中正在播放所述音頻信息段,且所述音頻信息段同時包含 有所述第二聲紋特征對應(yīng)的第二音頻信息和所述第三聲紋特征的第三音頻信息,數(shù)字1和 數(shù)字2分別代表所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息,且所述第二用戶標(biāo)識信 息和所述第三用戶標(biāo)識信息相對于其它用戶標(biāo)識信息的狀態(tài)為處于放大的狀態(tài),表示當(dāng)前 正在播放與所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息對應(yīng)的音頻信息。
[0083] 可選的,本發(fā)明實(shí)施例中,所述控制所述電子設(shè)備在播放所述音頻信息段的過程 中,同時顯示所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息,還可以包括:檢測具有所述 第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及具有所述第三聲紋特征的音頻信息對應(yīng) 的第三音頻強(qiáng)度;比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大的音頻 信息確定為主音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息;根據(jù)聲音強(qiáng)度與 顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以第一顯示效果顯示與所述主音頻信息對應(yīng)的用 戶標(biāo)識信息,及以第二顯示效果顯示與所述副音頻信息對應(yīng)的用戶標(biāo)識信息。
[0084] 即在播放所述音頻信息段時,由于同時顯示有所述第二用戶標(biāo)識信息和所述第三 用戶標(biāo)識信息,為了便于區(qū)分具體用戶標(biāo)識信息對應(yīng)的音頻信息,可以根據(jù)音頻信息對應(yīng) 的聲音強(qiáng)度確定對應(yīng)的用戶標(biāo)識的顯示效果。
[0085] 例如,與聲音強(qiáng)度大的音頻信息對應(yīng)顯示效果可以是用戶標(biāo)識信息以高頻率進(jìn)行 跳動,而與聲音強(qiáng)度小的音頻信息對應(yīng)顯示效果可以是用戶標(biāo)識信息以低頻率進(jìn)行跳動, 從而通過觀察用戶標(biāo)識的跳動頻率,可以將用戶標(biāo)識信息與說話人的聲音強(qiáng)弱程度聯(lián)系起 來,從而在播放具有多人同時說話的音頻信息段時,可以使得聽者通過聲音的響亮程度及 用戶標(biāo)識信息的跳動頻率來區(qū)分聲音對應(yīng)的用戶標(biāo)識信息,而避免了同時播放的錄音文件 中同時含有多個聲音時導(dǎo)致不易區(qū)分的情況。
[0086] 請參見圖4,基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供一種電子設(shè)備,所述電子設(shè) 備中存儲有N段音頻樣本,所述N段音頻樣本中的每段音頻樣本分別對應(yīng)一個用戶標(biāo)識信 息,所述用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,N為正整數(shù), 所述電子設(shè)備可以包括解析模塊401、比對模塊402、第一確定模塊403和輸出模塊404。 [0087] 所述解析模塊401可以用于在輸出一語音文件的過程中,解析出所述語音文件中 的具有第一聲紋特征的Μ段音頻信息,Μ為正整數(shù)。
[0088] 所述比對模塊402可以用于將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對, 確定所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特 征。
[0089] 說是第一確定模塊403可以用于若存在,確定所述Ν段音頻樣本中與所述第一聲 紋特征相同的聲紋特征所對應(yīng)的第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān) 系,確定與所述Μ段音頻信息對應(yīng)的第一用戶標(biāo)識信息;
[0090] 所述輸出模塊404可以用于輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋 特征的音頻信息時,控制所述電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0091] 可選的,本發(fā)明實(shí)施例中,所述電子設(shè)備還包括:
[0092] 分離模塊,用于檢測到所述語音文件中包含的音頻信息段中同時具有第二聲紋特 征及第三聲紋特征時,根據(jù)所述第二聲紋特征及所述第三聲紋特征從所述音頻信息段中分 離出具有所述第二聲紋特征的第二音頻信息,以及具有所述第三聲紋特征的第三音頻信 息;
[0093] 第二確定模塊,用于通過將所述第二音頻信息及所述第三音頻信息分別與所述Ν 段音頻樣本進(jìn)行比對,確定出與所述第二聲紋特征相對應(yīng)的第二音頻樣本,以及與第三聲 紋特征相對應(yīng)的第三音頻樣本;并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定出與所 述第二聲紋特征相對應(yīng)第二用戶標(biāo)識信息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo) 識息;
[0094] 控制模塊,用于控制所述電子設(shè)備在播放所述音頻信息的過程中,同時顯示所述 第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息。
[0095] 可選的,本發(fā)明實(shí)施例中,所述電子設(shè)備還包括:
[0096] 檢測模塊,用于檢測具有所述第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及 具有所述第三聲紋特征的音頻信息對應(yīng)的第三音頻強(qiáng)度;
[0097] 比較模塊,用于比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大 的音頻信息確定為主音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息;
[0098] 第一處理模塊,用于根據(jù)聲音強(qiáng)度與顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以 第一顯示效果顯示與所述主音頻信息對應(yīng)的用戶標(biāo)識信息,及以第二顯示效果顯示與所述 副音頻信息對應(yīng)的用戶標(biāo)識信息。
[0099] 可選的,本發(fā)明實(shí)施例中,所述電子設(shè)備還包括:
[0100] 判斷模塊,用于若所述N段音頻樣本對應(yīng)的N個聲紋特征中不存在與所述第一聲 紋特征相同的聲紋特征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻 信息為與所述電子設(shè)備中存儲的聯(lián)系對象相關(guān)的音頻信息;
[0101] 第二處理模塊,用于若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對 象建立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;或者,若所述Μ段音頻信息不為所述關(guān)鍵 音頻信息,設(shè)置第一特定標(biāo)識信息作為與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所 述第一特定標(biāo)識信息為所述電子設(shè)備中特定圖像信息、特定文字信息及特定語音信息中任 一信息或組合信息。
[0102] 可選的,本發(fā)明實(shí)施例中,所述電子設(shè)備還包括:
[0103] 獲取模塊,用于根據(jù)所述Μ段音頻信息,獲取第一音頻片斷;
[0104] 存儲模塊,將所述第一音頻片斷作為第Ν+1段音頻樣本進(jìn)行存儲;其中,所述Ν+1 段音頻樣本與所述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。
[0105] 本發(fā)明實(shí)施例公開了一種音頻信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備 中存儲有Ν段音頻樣本,所述Ν段音頻樣本中的每段音頻樣本分別對應(yīng)一個用戶標(biāo)識信息, 所述用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,Ν為正整數(shù),所述 方法包括:在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特征的Μ 段音頻信息,Μ為正整數(shù);將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段 音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征;若存在, 確定所述Ν段音頻樣本中與所述第一聲紋特征相同的聲紋特征所對應(yīng)的第一音頻樣本,并 根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ段音頻信息對應(yīng)的第一用戶標(biāo)識 信息;輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時,控制所述電 子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0106] 本發(fā)明實(shí)施例中,由于所述電子設(shè)備中存儲的所述Ν段音頻樣本均具有對應(yīng)用戶 標(biāo)識信息,且每個用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,因 此在輸出所述育語音文件時,通過解析可以獲知具有所述第一聲紋特征的所述Μ段音頻信 息,并根據(jù)聲紋特征,將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,則可以確定具有 與所述第一聲紋特征相同的聲紋特征的所述第一音頻樣本,從而根據(jù)與所述第一音頻樣本 對應(yīng)的第一用戶標(biāo)識信息,從而可以使得在播放具有所述第一聲紋特征的音頻信息時,即 播放至所述Μ段音頻信息中的任一音頻信息時,均可顯示所述第一用戶標(biāo)識信息。因此,即 便播放的錄音內(nèi)容具有多個發(fā)話人,那么由于每個發(fā)話人對應(yīng)的聲紋特征均不相同,故通 過確定錄音內(nèi)容中具有相同聲紋特征的多段音頻信息后,通過比對確定對應(yīng)的用戶標(biāo)識信 息后,則在播放該音頻信息時,可顯示對應(yīng)的用戶標(biāo)識信息,從而可以快速的獲知當(dāng)前播放 的語音文件中對應(yīng)的音頻對象,而無需用戶再花多余的時間進(jìn)行辨別,故增強(qiáng)了電子設(shè)備 的錄音效果,也提高了用戶的體驗(yàn)。
[0107] 具體來講,本申請實(shí)施例中的信息處理方法對應(yīng)的計算機(jī)程序指令可以被存儲在 光盤,硬盤,U盤等存儲介質(zhì)上,當(dāng)存儲介質(zhì)中的與音頻信息處理方法對應(yīng)的計算機(jī)程序指 令被一電子設(shè)備讀取或被執(zhí)行時,包括如下步驟:
[0108] 在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特征的Μ段 音頻信息,Μ為正整數(shù);
[0109] 將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段音頻樣本對應(yīng) 的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征;
[0110] 若存在,確定所述Ν段音頻樣本中與所述第一聲紋特征相同的聲紋特征所對應(yīng)的 第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ段音頻信息對 應(yīng)的第一用戶標(biāo)識信息;
[0111] 輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時,控制所述 電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
[0112] 可選的,所述存儲介質(zhì)中還存儲有另外一些計算機(jī)指令,這些計算機(jī)指令用于執(zhí) 行步驟:檢測到所述語音文件中包含的音頻信息段中同時具有第二聲紋特征及第三聲紋特 征時,根據(jù)所述第二聲紋特征及所述第三聲紋特征從所述音頻信息段中分離出具有所述第 二聲紋特征的第二音頻信息,以及具有所述第三聲紋特征的第三音頻信息;
[0113] 通過將所述第二音頻信息及所述第三音頻信息分別與所述Ν段音頻樣本進(jìn)行比 對,確定出與所述第二聲紋特征相對應(yīng)的第二音頻樣本,以及與第三聲紋特征相對應(yīng)的第 三音頻樣本;并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定出與所述第二聲紋特征相 對應(yīng)第二用戶標(biāo)識信息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo)識信息;
[0114] 控制所述電子設(shè)備在播放所述音頻信息的過程中,同時顯示所述第二用戶標(biāo)識信 息和所述第三用戶標(biāo)識信息。
[0115] 可選的,所述存儲介質(zhì)中存儲的與步驟在控制所述電子設(shè)備在播放所述音頻信息 端,同時顯示所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息對應(yīng)的計算機(jī)指令在具體被 執(zhí)行過程中,還包括如下步驟:
[0116] 檢測具有所述第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及具有所述第三聲 紋特征的音頻信息對應(yīng)的第三音頻強(qiáng)度;
[0117] 比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大的音頻信息確定 為主音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息;
[0118] 根據(jù)聲音強(qiáng)度與顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以第一顯示效果顯示與 所述主音頻信息對應(yīng)的用戶標(biāo)識信息,及以第二顯示效果顯示與所述副音頻信息對應(yīng)的用 戶標(biāo)識信息。
[0119] 可選的,所述存儲介質(zhì)中存儲的與步驟在將所述Μ段音頻信息與所述Ν段音頻樣 本進(jìn)行比對,確定所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征 相同的聲紋特征對應(yīng)的計算機(jī)指令在具體被執(zhí)行過程中,還包括如下步驟:
[0120] 若所述N段音頻樣本對應(yīng)的N個聲紋特征中不存在與所述第一聲紋特征相同的聲 紋特征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻信息為與所述電 子設(shè)備中存儲的聯(lián)系對象相關(guān)的音頻信息;
[0121] 若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對象建立與所述Μ段音 頻信息對應(yīng)的用戶標(biāo)識信息;或者
[0122] 若所述Μ段音頻信息不為所述關(guān)鍵音頻信息,設(shè)置第一特定標(biāo)識信息作為與所述 Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所述第一特定標(biāo)識信息為所述電子設(shè)備中特定 圖像?目息、特定文字?目息及特定語首彳目息中任一?目息或組合?目息。
[0123] 可選的,所述存儲介質(zhì)中還存儲有另外一些計算機(jī)指令,這些計算機(jī)指令在與步 驟:若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對象建立與所述Μ段音頻信息 對應(yīng)的用戶標(biāo)識信息對應(yīng)的計算機(jī)指令在具體被執(zhí)行被執(zhí)行的同時或之后被執(zhí)行,在被執(zhí) 行時包括如下步驟:
[0124] 根據(jù)所述Μ段音頻信息,獲取第一音頻片斷;
[0125] 將所述第一音頻片斷作為第Ν+1段音頻樣本進(jìn)行存儲;其中,所述Ν+1段音頻樣本 與所述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。
[0126] 顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
【權(quán)利要求】
1. 一種音頻信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備中存儲有N段音頻樣本, 所述N段音頻樣本中的每段音頻樣本分別對應(yīng)一個用戶標(biāo)識信息,所述用戶標(biāo)識信息包含 能夠用于表征與音頻信息對應(yīng)的音頻對象的信息,N為正整數(shù),所述方法包括: 在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋特征的Μ段音頻 信息,Μ為正整數(shù); 將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段音頻樣本對應(yīng)的Ν 個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征; 若存在,確定所述Ν段音頻樣本中與所述第一聲紋特征相同的聲紋特征所對應(yīng)的第一 音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ段音頻信息對應(yīng)的 第一用戶標(biāo)識信息; 輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息時,控制所述電子 設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
2. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 檢測到所述語音文件中包含的音頻信息段中同時具有第二聲紋特征及第三聲紋特征 時,根據(jù)所述第二聲紋特征及所述第三聲紋特征從所述音頻信息段中分離出具有所述第二 聲紋特征的第二音頻信息,以及具有所述第三聲紋特征的第三音頻信息; 通過將所述第二音頻信息及所述第三音頻信息分別與所述Ν段音頻樣本進(jìn)行比對,確 定出與所述第二聲紋特征相對應(yīng)的第二音頻樣本,以及與第三聲紋特征相對應(yīng)的第三音頻 樣本;并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定出與所述第二聲紋特征相對應(yīng)第 二用戶標(biāo)識信息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo)識信息; 控制所述電子設(shè)備在播放所述音頻信息的過程中,同時顯示所述第二用戶標(biāo)識信息和 所述第三用戶標(biāo)識信息。
3. 如權(quán)利要求2所述的方法,其特征在于,控制所述電子設(shè)備在播放所述音頻信息端 的過程中,同時顯示所述第二用戶標(biāo)識信息和所述第三用戶標(biāo)識信息,還包括: 檢測具有所述第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及具有所述第三聲紋特 征的音頻信息對應(yīng)的第三音頻強(qiáng)度; 比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大的音頻信息確定為主 音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息; 根據(jù)聲音強(qiáng)度與顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以第一顯示效果顯示與所述 主音頻信息對應(yīng)的用戶標(biāo)識信息,及以第二顯示效果顯示與所述副音頻信息對應(yīng)的用戶標(biāo) 識息。
4. 如權(quán)利要求1-3任一權(quán)項(xiàng)所述的方法,其特征在于,將所述Μ段音頻信息與所述N段 音頻樣本進(jìn)行比對,確定所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲 紋特征相同的聲紋特征,還包括: 若所述Ν段音頻樣本對應(yīng)的Ν個聲紋特征中不存在與所述第一聲紋特征相同的聲紋特 征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻信息為與所述電子設(shè) 備中存儲的聯(lián)系對象相關(guān)的首頻息; 若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對象建立與所述Μ段音頻信 息對應(yīng)的用戶標(biāo)識信息;或者 若所述Μ段音頻信息不為所述關(guān)鍵音頻信息,設(shè)置第一特定標(biāo)識信息作為與所述Μ段 音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所述第一特定標(biāo)識信息為所述電子設(shè)備中特定圖像 /[目息、特定文字?目息及特定語首彳目息中任一?目息或組合?目息。
5. 如權(quán)利要求4所述的方法,其特征在于,在若所述Μ段音頻信息為所述關(guān)鍵音頻信 息,根據(jù)所述聯(lián)系對象建立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息的同時或之后,所述 方法還包括: 根據(jù)所述Μ段音頻信息,獲取第一音頻片斷; 將所述第一音頻片斷作為第Ν+1段音頻樣本進(jìn)行存儲;其中,所述Ν+1段音頻樣本與所 述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。
6. -種電子設(shè)備,所述電子設(shè)備中存儲有Ν段音頻樣本,所述Ν段音頻樣本中的每段音 頻樣本分別對應(yīng)一個用戶標(biāo)識信息,所述用戶標(biāo)識信息包含能夠用于表征與音頻信息對應(yīng) 的音頻對象的信息,Ν為正整數(shù),所述電子設(shè)備包括: 解析模塊,用于在輸出一語音文件的過程中,解析出所述語音文件中的具有第一聲紋 特征的Μ段音頻信息,Μ為正整數(shù); 比對模塊,用于將所述Μ段音頻信息與所述Ν段音頻樣本進(jìn)行比對,確定所述Ν段音頻 樣本對應(yīng)的Ν個聲紋特征中是否存在與所述第一聲紋特征相同的聲紋特征; 第一確定模塊,用于若存在,確定所述Ν段音頻樣本中與所述第一聲紋特征相同的聲 紋特征所對應(yīng)的第一音頻樣本,并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定與所述Μ 段音頻信息對應(yīng)的第一用戶標(biāo)識信息; 輸出模塊,用于輸出所述語音文件;其中,當(dāng)播放具有所述第一聲紋特征的音頻信息 時,控制所述電子設(shè)備以第一顯示效果顯示所述第一用戶標(biāo)識信息。
7. 如權(quán)利要求6所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括: 分離模塊,用于檢測到所述語音文件中包含的音頻信息段中同時具有第二聲紋特征及 第三聲紋特征時,根據(jù)所述第二聲紋特征及所述第三聲紋特征從所述音頻信息段中分離出 具有所述第二聲紋特征的第二音頻信息,以及具有所述第三聲紋特征的第三音頻信息; 第二確定模塊,用于通過將所述第二音頻信息及所述第三音頻信息分別與所述Ν段音 頻樣本進(jìn)行比對,確定出與所述第二聲紋特征相對應(yīng)的第二音頻樣本,以及與第三聲紋特 征相對應(yīng)的第三音頻樣本;并根據(jù)音頻樣本與用戶標(biāo)識信息的對應(yīng)關(guān)系,確定出與所述第 二聲紋特征相對應(yīng)第二用戶標(biāo)識信息,以及與所述第三聲紋特征相對應(yīng)的第三用戶標(biāo)識信 息; 控制模塊,用于控制所述電子設(shè)備在播放所述音頻信息的過程中,同時顯示所述第二 用戶標(biāo)識信息和所述第三用戶標(biāo)識信息。
8. 如權(quán)利要求7所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括: 檢測模塊,用于檢測具有所述第二聲紋特征的音頻信息對應(yīng)的第二音頻強(qiáng)度,及具有 所述第三聲紋特征的音頻信息對應(yīng)的第三音頻強(qiáng)度; 比較模塊,用于比較所述第二聲音強(qiáng)度和所述第三聲音強(qiáng)度,將其中聲音強(qiáng)度大的音 頻信息確定為主音頻信息,及將聲音強(qiáng)度小的音頻信息確定為副音頻信息; 第一處理模塊,用于根據(jù)聲音強(qiáng)度與顯示效果的對應(yīng)關(guān)系,控制所述電子設(shè)備以第一 顯示效果顯示與所述主音頻信息對應(yīng)的用戶標(biāo)識信息,及以第二顯示效果顯示與所述副音 頻信息對應(yīng)的用戶標(biāo)識信息。
9. 如權(quán)利要求6-8任一權(quán)項(xiàng)所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括: 判斷模塊,用于若所述N段音頻樣本對應(yīng)的N個聲紋特征中不存在與所述第一聲紋特 征相同的聲紋特征,判斷所述Μ段音頻信息是否為關(guān)鍵音頻信息;其中,所述關(guān)鍵音頻信息 為與所述電子設(shè)備中存儲的聯(lián)系對象相關(guān)的音頻信息; 第二處理模塊,用于若所述Μ段音頻信息為所述關(guān)鍵音頻信息,根據(jù)所述聯(lián)系對象建 立與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;或者,若所述Μ段音頻信息不為所述關(guān)鍵音頻 信息,設(shè)置第一特定標(biāo)識信息作為與所述Μ段音頻信息對應(yīng)的用戶標(biāo)識信息;其中,所述第 一特定標(biāo)識信息為所述電子設(shè)備中特定圖像信息、特定文字信息及特定語音信息中任一信 息或組合信息。
10. 如權(quán)利要求9所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括: 獲取模塊,用于根據(jù)所述Μ段音頻信息,獲取第一音頻片斷; 存儲模塊,將所述第一音頻片斷作為第Ν+1段音頻樣本進(jìn)行存儲;其中,所述Ν+1段音 頻樣本與所述Μ段音頻信息對應(yīng)于同一用戶標(biāo)識信息。
【文檔編號】G06F3/16GK104123115SQ201410364822
【公開日】2014年10月29日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】高揚(yáng) 申請人:聯(lián)想(北京)有限公司