本發(fā)明涉及語音處理,具體涉及一種歌聲處理方法、裝置、設(shè)備、介質(zhì)、程序產(chǎn)品及車輛。
背景技術(shù):
1、隨著智能技術(shù)的不斷進(jìn)步,k歌(卡拉ok)的場景已經(jīng)從傳統(tǒng)的ktv包廂擴(kuò)展到了更加多樣化和個性化的環(huán)境中,例如車載ktv。這些新型的k歌場景不僅提供了更加便捷的歌唱體驗,還對歌聲美化技術(shù)提出了更高的要求,以滿足用戶對音質(zhì)和表現(xiàn)力的追求。
2、目前,歌聲美化技術(shù)主要是預(yù)先為歌聲制定一個原生模板,將演唱者演唱的歌聲的音高調(diào)整至與原生模板一致,以達(dá)到對歌聲進(jìn)行美化的效果。
3、然而,現(xiàn)有技術(shù)對歌聲美化的靈活性以及美化后歌聲的自然度較低。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的之一在于提供一種歌聲處理方法,以解決現(xiàn)有技術(shù)中的對歌聲美化的靈活性以及美化后歌聲的自然度較低的技術(shù)問題;目的之二在于提供一種歌聲處理裝置;目的之三在于提供一種電子設(shè)備;目的之四在于提供一種計算機(jī)可讀存儲介質(zhì);目的之五在于提供一種計算機(jī)程序產(chǎn)品;目的之六在于提供一種車輛。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種歌聲處理方法,包括:
4、確定目標(biāo)歌聲語音流中當(dāng)前幀語音信號的當(dāng)前基頻;
5、根據(jù)所述當(dāng)前基頻以及各歷史幀語音信號的歷史基頻,確定所述目標(biāo)歌聲語音流的最大基頻和最小基頻;
6、確定所述當(dāng)前基頻是否處于目標(biāo)頻率區(qū)間,所述目標(biāo)頻率區(qū)間包括所述最大基頻對應(yīng)的第一頻率區(qū)間或所述最小基頻對應(yīng)的第二頻率區(qū)間;
7、若確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間,則根據(jù)所述目標(biāo)頻率區(qū)間對應(yīng)的預(yù)設(shè)均衡效果值,對所述當(dāng)前幀語音信號進(jìn)行修正,獲取當(dāng)前幀目標(biāo)語音信號。
8、根據(jù)上述技術(shù)手段,在歌聲音高處于高音和低音的時候,對當(dāng)前幀語音信號進(jìn)行美化和增強(qiáng)。當(dāng)音高處于正常區(qū)間時,不對當(dāng)前幀語音信號做任何處理。并且不需要對歌聲內(nèi)容節(jié)奏進(jìn)行大計算量的分析,保證實時性。另外,本技術(shù)方案不需要使用原生模板,從而保證演唱者在不同音區(qū)的調(diào)性靈活性,也不會因為音高校正引入失真,從而提高對歌聲美化的靈活性以及美化后歌聲的自然度。
9、進(jìn)一步,所述確定所述當(dāng)前基頻是否處于目標(biāo)頻率區(qū)間,包括:
10、判斷所述當(dāng)前基頻是否等于所述最大基頻或所述最小基頻;
11、若所述當(dāng)前基頻等于所述最大基頻或所述最小基頻,則確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間。
12、根據(jù)上述技術(shù)手段,考慮到更新第一頻率區(qū)間、第二頻率區(qū)間和第三頻率區(qū)間需要一定的處理時間,而在當(dāng)前基頻等于最大基頻時就能確定當(dāng)前幀語音信號一定為高音,在當(dāng)前基頻等于最小基頻時就能確定當(dāng)前幀語音信號一定為低音。因此可以先判斷當(dāng)前基頻是否等于最大基頻或最小基頻,在當(dāng)前基頻等于最大基頻或最小基頻時,直接確定當(dāng)前幀語音信號為高音或低音,節(jié)省了后續(xù)的處理過程,提高了處理效率。
13、進(jìn)一步,所述確定所述當(dāng)前基頻是否處于目標(biāo)頻率區(qū)間,包括:
14、若所述當(dāng)前基頻小于所述最大基頻且大于所述最小基頻,則從多個預(yù)設(shè)頻率區(qū)間中確定出所述最大基頻對應(yīng)的第一頻率區(qū)間,以及所述最小基頻對應(yīng)的第二頻率區(qū)間;
15、若所述當(dāng)前基頻處于所述第一頻率區(qū)間或所述第二頻率區(qū)間,則確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間。
16、根據(jù)上述技術(shù)手段,在當(dāng)前基頻不為最大基頻,也不為最小基頻時,需要進(jìn)一步確定當(dāng)前基頻是否處于最大基頻對應(yīng)的第一頻率區(qū)間,以及最小基頻對應(yīng)的第二頻率區(qū)間,以確定是否需要對當(dāng)前基頻進(jìn)行美化修正。
17、進(jìn)一步,所述從多個預(yù)設(shè)頻率區(qū)間中確定出所述最大基頻對應(yīng)的第一頻率區(qū)間,以及所述最小基頻對應(yīng)的第二頻率區(qū)間,包括:
18、計算所述最大基頻與每個預(yù)設(shè)頻率區(qū)間的第一距離,以及所述最小基頻與每個預(yù)設(shè)頻率區(qū)間的第二距離;
19、將所述第一距離最小的預(yù)設(shè)頻率區(qū)間,確定為所述第一頻率區(qū)間;
20、將所述第二距離最小的預(yù)設(shè)頻率區(qū)間,確定為所述第二頻率區(qū)間。
21、根據(jù)上述技術(shù)手段,由于頻率和頻率區(qū)間之間的距離,能夠代表二者之間的相似度。因此可以計算最大基頻與每個預(yù)設(shè)頻率區(qū)間的第一距離,以及最小基頻與每個預(yù)設(shè)頻率區(qū)間的第二距離,來確定最大基頻對應(yīng)的第一頻率區(qū)間和最小基頻對應(yīng)的第二頻率區(qū)間,提高了處理效率。
22、進(jìn)一步,所述方法還包括:
23、計算所述最大基頻和所述最小基頻之間的第一頻率差;
24、若所述第一頻率差大于第一預(yù)設(shè)頻率差,則將所述第一頻率區(qū)間,以及與所述第一頻率區(qū)間相鄰且小于所述第一頻率區(qū)間的預(yù)設(shè)頻率區(qū)間,確定為新的第一頻率區(qū)間;
25、若所述第一頻率差大于第一預(yù)設(shè)頻率差,則將所述第二頻率區(qū)間,以及與所述第二頻率區(qū)間相鄰且小于所述第二頻率區(qū)間的預(yù)設(shè)頻率區(qū)間,確定為新的第二頻率區(qū)間。
26、根據(jù)上述技術(shù)手段,在音高變化較大的情況,動態(tài)放寬高音區(qū)間(第一頻率區(qū)間)和低音區(qū)間(第二頻率區(qū)間),提高了后續(xù)確定當(dāng)前幀語音信號是否為低音或高音的準(zhǔn)確度,進(jìn)而提高對當(dāng)前幀語音信號進(jìn)行美化處理的準(zhǔn)確度。
27、進(jìn)一步,所述確定目標(biāo)歌聲語音流中當(dāng)前幀語音信號的當(dāng)前基頻,包括:
28、計算所述當(dāng)前幀語音信號的差分函數(shù);
29、根據(jù)所述當(dāng)前幀語音信號的語音存在概率,對預(yù)設(shè)絕對閾值進(jìn)行修正,獲取修正后的絕對閾值;
30、根據(jù)所述修正后的絕對閾值、所述當(dāng)前幀語音信號的差分函數(shù)以及所述目標(biāo)歌聲語音流的采樣率,確定所述當(dāng)前基頻。
31、根據(jù)上述技術(shù)手段,利用當(dāng)前幀語音信號的語音存在概率對預(yù)設(shè)絕對閾值進(jìn)行修正,從而根據(jù)動態(tài)變化的絕對閾值(修正后的絕對閾值)來計算當(dāng)前基頻,有效提高了基頻估計的魯棒性。
32、進(jìn)一步,所述計算所述當(dāng)前幀語音信號的差分函數(shù),包括:
33、將所述當(dāng)前幀語音信號進(jìn)行傅里葉變換,獲取當(dāng)前幀頻域語音信號;
34、根據(jù)所述當(dāng)前幀頻域語音信號,計算所述當(dāng)前幀頻域語音信號的能量;
35、若所述能量大于預(yù)設(shè)能量,則計算所述當(dāng)前幀語音信號的差分函數(shù)。
36、根據(jù)上述技術(shù)手段,在計算當(dāng)前幀語音信號的當(dāng)前基頻之前,還可以檢測當(dāng)前幀語音信號是否存在語音。在確定當(dāng)前幀語音信號存在語音時,再進(jìn)行后續(xù)的美化修正處理,若確定當(dāng)前幀語音信號不存在語音時,則不進(jìn)行后續(xù)的美化修正處理,避免了很多冗余處理和操作,以及錯誤的對噪聲的音高進(jìn)行修正的問題,提高了處理效率和準(zhǔn)確度。
37、進(jìn)一步,所述若確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間,則根據(jù)所述目標(biāo)頻率區(qū)間對應(yīng)的預(yù)設(shè)均衡效果值,對所述當(dāng)前幀語音信號進(jìn)行修正,獲取當(dāng)前幀目標(biāo)語音信號,包括:
38、若所述目標(biāo)頻率區(qū)間為所述第一頻率區(qū)間,則根據(jù)第一均衡效果曲線以及預(yù)設(shè)諧波比例,對所述當(dāng)前幀頻域語音信號進(jìn)行修正,獲取所述當(dāng)前幀目標(biāo)語音信號;
39、若所述目標(biāo)頻率區(qū)間為所述第二頻率區(qū)間,則根據(jù)第二均衡效果曲線對所述當(dāng)前幀頻域語音信號進(jìn)行修正,獲取所述當(dāng)前幀目標(biāo)語音信號;
40、其中,均衡效果曲線用于表示頻率跟預(yù)設(shè)均衡效果值之間映射關(guān)系。
41、根據(jù)上述技術(shù)手段,非線性函數(shù)可使當(dāng)前幀目標(biāo)語音信號產(chǎn)生豐富的諧波成分,包含奇數(shù)倍和偶數(shù)倍諧波。當(dāng)前幀語音信號通過該非線性函數(shù)后和當(dāng)前幀語音信號相加,能夠增強(qiáng)當(dāng)前幀目標(biāo)語音信號中包含的奇數(shù)倍偶數(shù)倍諧波幅度,引入當(dāng)前幀目標(biāo)語音信號的中高頻諧波,提升高音的豐滿度。
42、進(jìn)一步,所述確定目標(biāo)歌聲語音流中當(dāng)前幀語音信號的當(dāng)前基頻,包括:
43、確定所述當(dāng)前幀語音信號的當(dāng)前初始基頻;
44、若所述當(dāng)前初始基頻和上一幀語音信號的歷史基頻的第二頻率差值小于第二預(yù)設(shè)頻率差值,則將所述當(dāng)前初始基頻確定為所述當(dāng)前幀語音信號的所述當(dāng)前基頻;
45、若所述當(dāng)前初始基頻和上一幀語音信號的歷史基頻的第二頻率差值大于或等于所述第二預(yù)設(shè)頻率差值,則將所述上一幀語音信號的歷史基頻確定為所述當(dāng)前幀語音信號的所述當(dāng)前基頻。
46、根據(jù)上述技術(shù)手段,通過對基頻的跳變范圍進(jìn)行限制,只有在限定范圍(第二預(yù)設(shè)頻率差值)估計出的初始基頻,才會被使用,能夠有效的抵抗語音開始和結(jié)束時候的基頻估計跳動,提高處理的準(zhǔn)確性。
47、進(jìn)一步,所述確定目標(biāo)歌聲語音流中當(dāng)前幀語音信號的當(dāng)前基頻,包括:
48、確定所述當(dāng)前幀語音信號的當(dāng)前初始基頻;
49、若所述當(dāng)前初始基頻和上一幀語音信號的歷史基頻的第二頻率差值小于第二預(yù)設(shè)頻率差值,則將所述當(dāng)前初始基頻確定為所述當(dāng)前幀語音信號的所述當(dāng)前基頻;
50、若所述當(dāng)前初始基頻和上一幀語音信號的歷史基頻的第二頻率差值大于或等于所述第二預(yù)設(shè)頻率差值,則將所述上一幀語音信號的歷史基頻確定為所述當(dāng)前幀語音信號的所述當(dāng)前基頻。
51、根據(jù)上述技術(shù)手段,通過目標(biāo)增益對當(dāng)前幀目標(biāo)語音信號進(jìn)行動態(tài)能量控制,有助于調(diào)整目標(biāo)歌聲語音流的動態(tài)范圍,即調(diào)整目標(biāo)歌聲語音流中最強(qiáng)和最弱部分之間的差異。通過調(diào)整目標(biāo)增益,可以使目標(biāo)歌聲語音流的動態(tài)范圍更加一致,減少突兀的能量變化,使整體聽感更加平滑和悅耳。
52、一種歌聲處理裝置,包括:
53、第一確定模塊,用于確定目標(biāo)歌聲語音流中當(dāng)前幀語音信號的當(dāng)前基頻;
54、第二確定模塊,用于根據(jù)所述當(dāng)前基頻以及各歷史幀語音信號的歷史基頻,確定所述目標(biāo)歌聲語音流的最大基頻和最小基頻;
55、第三確定模塊,用于確定所述當(dāng)前基頻是否處于目標(biāo)頻率區(qū)間,所述目標(biāo)頻率區(qū)間包括所述最大基頻對應(yīng)的第一頻率區(qū)間或所述最小基頻對應(yīng)的第二頻率區(qū)間;
56、修正模塊,用于若確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間,則根據(jù)所述目標(biāo)頻率區(qū)間對應(yīng)的預(yù)設(shè)均衡效果值,對所述當(dāng)前幀語音信號進(jìn)行修正,獲取當(dāng)前幀目標(biāo)語音信號。
57、進(jìn)一步,所述第三確定模塊,具體用于:
58、判斷所述當(dāng)前基頻是否等于所述最大基頻或所述最小基頻;
59、若所述當(dāng)前基頻等于所述最大基頻或所述最小基頻,則確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間;
60、若所述當(dāng)前基頻小于所述最大基頻且大于所述最小基頻,則從多個預(yù)設(shè)頻率區(qū)間中確定出所述最大基頻對應(yīng)的第一頻率區(qū)間,以及所述最小基頻對應(yīng)的第二頻率區(qū)間。
61、進(jìn)一步,所述第三確定模塊,具體用于:
62、若所述當(dāng)前基頻處于所述第一頻率區(qū)間或所述第二頻率區(qū)間,則確定所述當(dāng)前基頻處于所述目標(biāo)頻率區(qū)間。
63、進(jìn)一步,所述第三確定模塊,具體用于:
64、計算所述最大基頻與每個預(yù)設(shè)頻率區(qū)間的第一距離,以及所述最小基頻與每個預(yù)設(shè)頻率區(qū)間的第二距離;
65、將所述第一距離最小的預(yù)設(shè)頻率區(qū)間,確定為所述第一頻率區(qū)間;
66、將所述第二距離最小的預(yù)設(shè)頻率區(qū)間,確定為所述第二頻率區(qū)間。
67、進(jìn)一步,所述歌聲處理裝置,還包括第四確定模塊,用于:
68、計算所述最大基頻和所述最小基頻之間的第一頻率差;
69、若所述第一頻率差大于第一預(yù)設(shè)頻率差,則將所述第一頻率區(qū)間,以及與所述第一頻率區(qū)間相鄰且小于所述第一頻率區(qū)間的預(yù)設(shè)頻率區(qū)間,確定為新的第一頻率區(qū)間;
70、若所述第一頻率差大于第一預(yù)設(shè)頻率差,則將所述第二頻率區(qū)間,以及與所述第二頻率區(qū)間相鄰且小于所述第二頻率區(qū)間的預(yù)設(shè)頻率區(qū)間,確定為新的第二頻率區(qū)間。
71、進(jìn)一步,所述第一確定模塊,具體用于:
72、計算所述當(dāng)前幀語音信號的差分函數(shù);
73、根據(jù)所述當(dāng)前幀語音信號的語音存在概率,對預(yù)設(shè)絕對閾值進(jìn)行修正,獲取修正后的絕對閾值;
74、根據(jù)所述修正后的絕對閾值、所述當(dāng)前幀語音信號的差分函數(shù)以及所述目標(biāo)歌聲語音流的采樣率,確定所述當(dāng)前基頻。
75、進(jìn)一步,所述第一確定模塊,具體用于:
76、將所述當(dāng)前幀語音信號進(jìn)行傅里葉變換,獲取當(dāng)前幀頻域語音信號;
77、根據(jù)所述當(dāng)前幀頻域語音信號,計算所述當(dāng)前幀頻域語音信號的能量;
78、若所述能量大于預(yù)設(shè)能量,則計算所述當(dāng)前幀語音信號的差分函數(shù)。
79、進(jìn)一步,所述修正模塊,具體用于:
80、若所述目標(biāo)頻率區(qū)間為所述第一頻率區(qū)間,則根據(jù)第一均衡效果曲線以及預(yù)設(shè)諧波比例,對所述當(dāng)前幀頻域語音信號進(jìn)行修正,獲取所述當(dāng)前幀目標(biāo)語音信號;
81、若所述目標(biāo)頻率區(qū)間為所述第二頻率區(qū)間,則根據(jù)第二均衡效果曲線對所述當(dāng)前幀頻域語音信號進(jìn)行修正,獲取所述當(dāng)前幀目標(biāo)語音信號;
82、其中,均衡效果曲線用于表示頻率跟預(yù)設(shè)均衡效果值之間映射關(guān)系。
83、進(jìn)一步,所述第一確定模塊,具體用于:
84、當(dāng)前幀語音信號的當(dāng)前基頻,包括:
85、確定所述當(dāng)前幀語音信號的當(dāng)前初始基頻;
86、若所述當(dāng)前初始基頻和上一幀語音信號的歷史基頻的第二頻率差值小于第二預(yù)設(shè)頻率差值,則將所述當(dāng)前初始基頻確定為所述當(dāng)前幀語音信號的所述當(dāng)前基頻;
87、若所述當(dāng)前初始基頻和上一幀語音信號的歷史基頻的第二頻率差值大于或等于所述第二預(yù)設(shè)頻率差值,則將所述上一幀語音信號的歷史基頻確定為所述當(dāng)前幀語音信號的所述當(dāng)前基頻。
88、進(jìn)一步,所述歌聲處理裝置還包括增益模塊,用于:
89、根據(jù)所述當(dāng)前幀語音信號對應(yīng)的能量以及各歷史幀語音信號對應(yīng)的歷史能量,確定所述當(dāng)前幀語音信號的目標(biāo)增益;
90、根據(jù)所述目標(biāo)增益以及所述當(dāng)前幀目標(biāo)語音信號,獲取增益后的當(dāng)前幀目標(biāo)語音信號。
91、一種電子設(shè)備,包括:處理器、存儲器及存儲在所述存儲器上并可在處理器上運行的計算機(jī)執(zhí)行指令,所述處理器執(zhí)行所述計算機(jī)執(zhí)行指令時用于實現(xiàn)上述歌聲處理方法。
92、一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)上述歌聲處理方法。
93、一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時用于實現(xiàn)上述歌聲處理方法。
94、一種車輛,包括上述歌聲處理方法。
95、本發(fā)明的有益效果:
96、(1)本發(fā)明不需要使用原生模板,從而保證演唱者在不同音區(qū)的調(diào)性靈活性,也不會因為音高校正引入失真,從而提高對歌聲美化的靈活性以及美化后歌聲的自然度;(2)在歌聲音高處于高音和低音的時候,對當(dāng)前幀語音信號進(jìn)行美化和增強(qiáng)。當(dāng)音高處于正常區(qū)間時,不對當(dāng)前幀語音信號做任何處理。并且不需要對歌聲內(nèi)容節(jié)奏進(jìn)行大計算量的分析,保證實時性。