一種基于聲紋識(shí)別的音頻處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,尤其涉及一種基于聲紋識(shí)別的音頻處理方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著社交類軟件越來越普及,語音輸入也越來越多,成為人們最有效最方便的輸入方式。而且現(xiàn)有技術(shù)中,在語音輸入的同時(shí),卻缺少個(gè)性化,也無法根據(jù)個(gè)人的聲紋數(shù)據(jù)進(jìn)行識(shí)別,從而針對(duì)不同的聲音進(jìn)行不同的處理。尤其是一些唱K類軟件,有些人唱歌時(shí)五音不全,因此在獲取最終的錄音效果時(shí),需要對(duì)聲音根據(jù)個(gè)人聲音特色進(jìn)行處理。但現(xiàn)有的音頻處理是無法根據(jù)個(gè)人聲音特色進(jìn)行處理,從而在所有的音頻輸出文件中的輸出的音頻都不具有一致性。
[0003]因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0004]鑒于現(xiàn)有技術(shù)的不足,本發(fā)明目的在于提供一種基于聲紋識(shí)別的音頻處理方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中在語音輸入的同時(shí),卻缺少個(gè)性化,也無法根據(jù)個(gè)人的聲紋數(shù)據(jù)進(jìn)行識(shí)別,從而針對(duì)不同的聲音進(jìn)行不同的處理的缺陷。
[0005]本發(fā)明的技術(shù)方案如下:
一種基于聲紋識(shí)別的音頻處理方法,其中,方法包括:
A、當(dāng)檢測(cè)到有原始音頻輸入時(shí),接收用戶指令判斷是否進(jìn)行原始音頻處理;
B、若進(jìn)行原始音頻處理,則獲取用戶輸入的原始音頻的聲紋數(shù)據(jù)并識(shí)別,根據(jù)聲紋數(shù)據(jù)對(duì)原始音頻進(jìn)行處理。
[0006]所述的基于聲紋識(shí)別的音頻處理方法,其中,所述步驟B具體包括:
B1、當(dāng)進(jìn)行原始音頻處理時(shí),獲取用戶的輸入的原始音頻的聲紋數(shù)據(jù)并判斷數(shù)據(jù)庫中是否存在與原始音頻匹配的調(diào)整參數(shù);
B2、若存在,則根據(jù)數(shù)據(jù)庫中的調(diào)整參數(shù)對(duì)用戶的輸入的音頻進(jìn)行處理,合成處理后的目標(biāo)首頻;
B3、若不存在,對(duì)原始音頻進(jìn)行處理,并將用戶輸入的原始音頻的聲紋數(shù)據(jù)及處理的參數(shù)存儲(chǔ)在數(shù)據(jù)庫中,合成處理后的目標(biāo)音頻。
[0007]所述的基于聲紋識(shí)別的音頻處理方法,其中,所述步驟B3具體包括:
B31、當(dāng)檢測(cè)到數(shù)據(jù)庫中不存在與原始音頻匹配的調(diào)整參數(shù),根據(jù)預(yù)設(shè)的模板或者接收用戶輸入自行調(diào)整音頻參數(shù)對(duì)原始音頻進(jìn)行處理;
B32、將預(yù)設(shè)的模板或接收用戶輸入自行調(diào)整音頻參數(shù)作為對(duì)應(yīng)的原始音頻的調(diào)整參數(shù)與用戶輸入的原始音頻的聲紋數(shù)據(jù)進(jìn)行綁定;
B33、存儲(chǔ)用戶輸入的原始音頻的聲紋數(shù)據(jù)及對(duì)應(yīng)的原始音頻調(diào)整參數(shù)。
[0008]所述的基于聲紋識(shí)別的音頻處理方法,其中,所述方法還包括: C、若不進(jìn)行原始音頻處理,則直接進(jìn)行原始音頻錄入。
[0009]上述任一項(xiàng)所述的基于聲紋識(shí)別的音頻處理方法,其特征在于,所述步驟B中獲取用戶的輸入的原始音頻的聲紋數(shù)據(jù)具體包括:
B10、采集用戶輸入的原始音頻,對(duì)原始音頻進(jìn)行采樣、量化、預(yù)加重、加窗處理;
B20、對(duì)處理后的原始音頻提取語音特征參數(shù),獲取到原始音頻的聲紋數(shù)據(jù)。
[0010]一種基于聲紋識(shí)別的音頻處理系統(tǒng),其中,所述系統(tǒng)包括:
檢測(cè)與判斷模塊,用于當(dāng)檢測(cè)到有原始音頻輸入時(shí),接收用戶指令判斷是否進(jìn)行原始音頻處理;
識(shí)別與處理模塊,用于若進(jìn)行原始音頻處理,則獲取用戶輸入的原始音頻的聲紋數(shù)據(jù)并識(shí)別,根據(jù)聲紋數(shù)據(jù)對(duì)原始音頻進(jìn)行處理。
[0011]所述的基于聲紋識(shí)別的音頻處理系統(tǒng),其中,所述識(shí)別與處理模塊具體包括:
判斷單元,用于當(dāng)進(jìn)行原始音頻處理時(shí),獲取用戶的輸入的原始音頻的聲紋數(shù)據(jù)并判斷數(shù)據(jù)庫中是否存在與原始音頻匹配的調(diào)整參數(shù);
第一音頻處理單元,用于若存在,則根據(jù)數(shù)據(jù)庫中的調(diào)整參數(shù)對(duì)用戶的輸入的音頻進(jìn)行處理,合成處理后的目標(biāo)音頻;
第二音頻處理單元,用于若不存在,對(duì)原始音頻進(jìn)行處理,并將用戶輸入的原始音頻的聲紋數(shù)據(jù)及處理的參數(shù)存儲(chǔ)在數(shù)據(jù)庫中,合成處理后的目標(biāo)音頻。
[0012]所述的基于聲紋識(shí)別的音頻處理系統(tǒng),其中,所述第二音頻處理單元具體包括:
檢測(cè)與處理單元,用于當(dāng)檢測(cè)到數(shù)據(jù)庫中不存在與原始音頻匹配的調(diào)整參數(shù),根據(jù)預(yù)設(shè)的模板或者接收用戶輸入自行調(diào)整音頻參數(shù)對(duì)原始音頻進(jìn)行處理;
綁定單元,用于將預(yù)設(shè)的模板或接收用戶輸入自行調(diào)整音頻參數(shù)作為對(duì)應(yīng)的原始音頻的調(diào)整參數(shù)與用戶輸入的原始音頻的聲紋數(shù)據(jù)進(jìn)行綁定;
存儲(chǔ)單元,用于存儲(chǔ)用戶輸入的原始音頻的聲紋數(shù)據(jù)及對(duì)應(yīng)的原始音頻調(diào)整參數(shù)。
[0013]所述的基于聲紋識(shí)別的音頻處理系統(tǒng),其中,所述系統(tǒng)還包括:
錄入單元,用于若不進(jìn)行原始音頻處理,則直接進(jìn)行原始音頻錄入。
[0014]上述任一項(xiàng)所述的基于聲紋識(shí)別的音頻處理系統(tǒng),其中,所述識(shí)別與處理模塊還包括:
音頻預(yù)處理單元,用于采集用戶輸入的原始音頻,對(duì)原始音頻進(jìn)行采樣、量化、預(yù)加重、加窗處理;
提取與獲取單元,用于對(duì)處理后的原始音頻提取語音特征參數(shù),獲取到原始音頻的聲紋數(shù)據(jù)。
[0015]本發(fā)明提供了一種基于聲紋識(shí)別的音頻處理方法及系統(tǒng),本發(fā)明可根據(jù)聲紋識(shí)另IJ,可有針對(duì)性的對(duì)用戶進(jìn)行美化,美化處理后的聲音識(shí)別性強(qiáng),而且保證每次美化后的聲音具有一致性,實(shí)現(xiàn)了針對(duì)個(gè)人的聲音的美化。
【附圖說明】
[0016]圖1為本發(fā)明的一種基于聲紋識(shí)別的音頻處理方法的較佳實(shí)施例的流程圖。
[0017]圖2是本發(fā)明的一種基于聲紋識(shí)別的音頻處理方法的具體應(yīng)用實(shí)施例的流程圖。
[0018]圖3為本發(fā)明的一種基于聲紋識(shí)別的音頻處理系統(tǒng)的較佳實(shí)施例的功能原理框圖。
【具體實(shí)施方式】
[0019]為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0020]本發(fā)明提供了一種基于聲紋識(shí)別的音頻處理方法的較佳實(shí)施例的流程圖,如圖1所示,所述方法包括:
步驟S100、當(dāng)檢測(cè)到有原始音頻輸入時(shí),接收用戶指令判斷是否進(jìn)行原始音頻處理。
[0021]具體實(shí)施時(shí),用戶可通過語音輸入的方式,輸入自己的原始聲音,記為原始音頻。用戶一般通過移動(dòng)終端進(jìn)行輸入,移動(dòng)終端包括但不限于手機(jī)、平板電腦等智能終端。用戶可自由選擇是否進(jìn)行對(duì)原始音頻進(jìn)行處理。
[0022]步驟S200、若進(jìn)行原始音頻處理,則獲取用戶輸入的原始音頻的聲紋數(shù)據(jù)并識(shí)別,根據(jù)聲紋數(shù)據(jù)對(duì)原始音頻進(jìn)行處理。
[0023]具體實(shí)施時(shí),當(dāng)用戶選擇對(duì)原始音頻處理,移動(dòng)終端例如手機(jī)獲取用戶的輸入的原始音頻,對(duì)原始音頻提取聲紋數(shù)據(jù),利用聲紋數(shù)據(jù)原始音頻進(jìn)行處理,獲取合成后的聲
■~>V.曰ο
[0024]進(jìn)一步的實(shí)施例中,所述步驟S200之后還包括:
步驟S300、若不進(jìn)行原始音頻處理,則直接進(jìn)行原始音頻錄入。
[0025]具體實(shí)施時(shí),若用戶選擇不處理音頻,則直接獲取原始錄音并存儲(chǔ)。
[0026]具體實(shí)施時(shí),獲取用戶的輸入的原始音頻的聲紋數(shù)據(jù)具體包括:
步驟S210、采集用戶輸入的原始音頻,對(duì)原始音頻進(jìn)行采樣、量化、預(yù)加重、加窗處理; 步驟S220、對(duì)處理后的原始音頻提取語音特征參數(shù),獲取到原始音頻的聲紋數(shù)據(jù)。
[0027]具體實(shí)施時(shí),聲紋采集,即采集待測(cè)聲音文件;利用外接話筒進(jìn)行錄音,得到待測(cè)聲音文件,實(shí)現(xiàn)聲紋的采集;對(duì)待測(cè)聲音文件進(jìn)行語音預(yù)處理;對(duì)通過外接話筒錄音所獲得的待測(cè)聲音文件進(jìn)行預(yù)處理,實(shí)現(xiàn)對(duì)聲紋的預(yù)處理;預(yù)處理包括采樣、量化、預(yù)加重、加窗等處理過程,以實(shí)現(xiàn)語音特征的提取功能;對(duì)待測(cè)聲音文件進(jìn)行特征參數(shù)的提??;對(duì)待測(cè)聲音文件進(jìn)行分析處理,提取聲音文件的語音特征參數(shù);建立聲紋數(shù)據(jù)庫;待測(cè)聲音文件按照其語音特征參數(shù)進(jìn)行分類,并將待測(cè)聲音文件根據(jù)其不同類別保存于數(shù)據(jù)庫中,形成聲紋數(shù)據(jù)庫。
[0028]進(jìn)一步的實(shí)施例中,步驟S200具體包括:
步驟S201、當(dāng)進(jìn)行原始音頻處理時(shí),獲取用戶的輸入的原始音頻的聲紋數(shù)據(jù)并判斷數(shù)據(jù)庫中是否存在與原始音頻匹配的調(diào)整參數(shù);
步驟S202、若存在,則根據(jù)數(shù)據(jù)庫中的調(diào)整參數(shù)對(duì)用戶的輸入的音頻進(jìn)行處理,合成處理后的目標(biāo)音頻;
步驟S203、若不存在,對(duì)原始音頻進(jìn)行處理,并將用戶輸入的原始音頻的聲紋數(shù)據(jù)及處理的參數(shù)存儲(chǔ)在數(shù)據(jù)庫中,合成處理后的目標(biāo)音頻。
[0029]具體實(shí)施時(shí),用戶在開啟原始音頻處理后,開始聲紋識(shí)別打開,若檢測(cè)到匹配的聲紋特征,則將該聲紋的聲音進(jìn)行聲音美化的處理,如果沒有檢測(cè)到匹配的聲紋,則存儲(chǔ)該聲紋,選擇相應(yīng)的聲音模板進(jìn)行美化,或者調(diào)整相關(guān)的音色,頻域的參數(shù)作為該聲紋的美化模板。
[0030]進(jìn)一步的實(shí)施例中,所述步驟S203具體包括:
步驟S231、當(dāng)檢測(cè)到數(shù)據(jù)庫中不存在與原始音頻匹配的調(diào)整參數(shù),根據(jù)預(yù)設(shè)的模板或者接收用戶輸入自行調(diào)整音頻參數(shù)對(duì)原始音頻進(jìn)行處理;
步驟S232、將預(yù)設(shè)的模板或接收用戶輸入自行調(diào)整音頻參數(shù)作為對(duì)應(yīng)的原始音頻的調(diào)整參數(shù)與用戶輸入的原始音頻的聲紋數(shù)據(jù)進(jìn)行綁定;
步驟S233、存儲(chǔ)用戶輸入的原始音頻的聲紋數(shù)據(jù)及對(duì)應(yīng)的原始音頻調(diào)整參數(shù)。
[0031]具體實(shí)施時(shí),當(dāng)檢測(cè)到數(shù)據(jù)庫中不存在與原始音頻匹配的調(diào)整參數(shù),說明用戶