本申請涉及語音識(shí)別,尤其是涉及一種適用于高噪音環(huán)境的會(huì)議系統(tǒng)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)概念應(yīng)用到各行各業(yè),正逐漸改變我們的生活方式和工作方式。
2、現(xiàn)階段,已開發(fā)出很多線上會(huì)議系統(tǒng)軟件,可以使用電腦端、智能手機(jī)端登錄線上會(huì)議系統(tǒng),智能手機(jī)端具有很強(qiáng)的靈活性,可以隨時(shí)隨地通過網(wǎng)絡(luò)開始會(huì)議,這為工作帶來便利的同時(shí),也產(chǎn)生一些問題,戶外環(huán)境受天氣因素、交通因素等影響,可能會(huì)在會(huì)議途中產(chǎn)生一定的噪聲,干擾會(huì)議進(jìn)行。因此,當(dāng)前亟需開發(fā)一種適用于噪音環(huán)境的線上會(huì)議系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請實(shí)施例的目的在于提供一種適用于高噪音環(huán)境的會(huì)議系統(tǒng),能夠?qū)K端采集的語音信號(hào)進(jìn)行降噪處理,減少噪聲對會(huì)議的干擾。
2、第一方面,本申請實(shí)施例提供了一種適用于高噪音環(huán)境的會(huì)議系統(tǒng),所述會(huì)議系統(tǒng)包括處理端、第一會(huì)議終端、第二會(huì)議終端;所述處理端用于:
3、獲取所述第一會(huì)議終端持續(xù)發(fā)送的語音信號(hào);
4、每經(jīng)過預(yù)設(shè)時(shí)間間隔,從所述語音信號(hào)中截取預(yù)設(shè)時(shí)長的樣本語音信號(hào),計(jì)算所述樣本語音信號(hào)中有用信號(hào)與背景噪聲的信噪比;
5、若所述樣本語音信號(hào)的信噪比小于預(yù)設(shè)閾值,則對所述語音信號(hào)進(jìn)行降噪處理,得到純凈語音信號(hào);
6、將所述純凈語音信號(hào)的語音特征輸入包含聲學(xué)模型和語言模型的解碼器中,得到純凈語音文本;
7、將所述純凈語音信號(hào)和所述純凈語音文本發(fā)送給所述第二會(huì)議終端,以使所述第二會(huì)議終端播放所述純凈語音信號(hào)和/或顯示所述純凈語音文本。
8、在一種可能的實(shí)施方式中,所述計(jì)算所述樣本語音信號(hào)中有用信號(hào)與背景噪聲的信噪比,包括:根據(jù)公式snr=ps/pt計(jì)算信噪比snr,其中,ps表示有用信號(hào)的平均功率,pt表示背景噪聲的平均功率。
9、在一種可能的實(shí)施方式中,若所述第一會(huì)議終端所處環(huán)境中噪聲與人聲間隔出現(xiàn);所述對所述語音信號(hào)進(jìn)行降噪處理,得到純凈語音信號(hào),包括:
10、提取所述語音信號(hào)的第一語音特征;
11、計(jì)算所述第一語音特征與預(yù)設(shè)的人聲特征的相似度,基于所述相似度大于預(yù)設(shè)相似度閾值的語音特征,生成所述純凈語音信號(hào)。
12、在一種可能的實(shí)施方式中,若所述第一會(huì)議終端所處環(huán)境中噪聲與人聲混合出現(xiàn);所述對所述語音信號(hào)進(jìn)行降噪處理,得到純凈語音信號(hào),還包括:
13、對所述語音信號(hào)分段并進(jìn)行快速傅里葉變換,所述語音信號(hào)從時(shí)域信號(hào)轉(zhuǎn)變?yōu)轭l域信號(hào);
14、將轉(zhuǎn)變后的頻域信號(hào)輸入低通濾波器中,濾去高頻帶寬的噪聲信號(hào),得到純凈語音信號(hào)。
15、在一種可能的實(shí)施方式中,所述將所述純凈語音信號(hào)的語音特征輸入包含聲學(xué)模型和語言模型的解碼器中,得到純凈語音文本,包括:
16、提取所述純凈語音信號(hào)的第二語音特征;
17、將所述第二語音特征輸入至所述聲學(xué)模型中,得到語音單詞;
18、將所述語音單詞輸入至所述語言模型中,得到所述純凈語音文本。
19、在一種可能的實(shí)施方式中,所述將所述第二語音特征輸入至所述聲學(xué)模型中,得到語音單詞,包括:
20、采用隱馬爾科夫模型或混合高斯模型,將輸入的第二語音特征轉(zhuǎn)換為音素特征,并獲取所述音素特征對應(yīng)的音素;
21、采用發(fā)音詞典,將相互關(guān)聯(lián)的音素映射到對應(yīng)的語音單詞。
22、在一種可能的實(shí)施方式中,所述將所述語音單詞輸入至所述語言模型中,得到所述純凈語音文本,包括:
23、根據(jù)預(yù)設(shè)的語法規(guī)則,計(jì)算所述語音單詞出現(xiàn)在完整語句中的概率,得到概率最大化的由所述語音單詞拼接而成的完整語句,由多個(gè)連續(xù)的完整語句組成所述純凈語音文本。
24、在一種可能的實(shí)施方式中,所述處理端還用于:將所述語音信號(hào)輸入具備語音識(shí)別功能的深度殘差收縮網(wǎng)絡(luò)中,得到純凈語音文本。
25、在一種可能的實(shí)施方式中,所述第一會(huì)議終端還用于將含噪聲的語音信號(hào)發(fā)送給所述第二會(huì)議終端;
26、若會(huì)議模式為情景展示模式,所述第二會(huì)議終端用于播放含噪聲的語音信號(hào),并顯示所述純凈語音文本;
27、若會(huì)議模式為語音交互模式,所述第二會(huì)議終端用于播放所述純凈語音信號(hào)和/或顯示所述純凈語音文本。
28、本申請實(shí)施例提供的一種適用于高噪音環(huán)境的會(huì)議系統(tǒng),能夠?qū)K端采集的語音信號(hào)進(jìn)行降噪處理,減少噪聲對會(huì)議的干擾。
29、為使本申請的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
1.一種適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述會(huì)議系統(tǒng)包括處理端、第一會(huì)議終端、第二會(huì)議終端;所述處理端用于:
2.根據(jù)權(quán)利要求1所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述計(jì)算所述樣本語音信號(hào)中有用信號(hào)與背景噪聲的信噪比,包括:根據(jù)公式snr=ps/pt計(jì)算信噪比snr,其中,ps表示有用信號(hào)的平均功率,pt表示背景噪聲的平均功率。
3.根據(jù)權(quán)利要求1所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,若所述第一會(huì)議終端所處環(huán)境中噪聲與人聲間隔出現(xiàn);所述對所述語音信號(hào)進(jìn)行降噪處理,得到純凈語音信號(hào),包括:
4.根據(jù)權(quán)利要求1所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,若所述第一會(huì)議終端所處環(huán)境中噪聲與人聲混合出現(xiàn);所述對所述語音信號(hào)進(jìn)行降噪處理,得到純凈語音信號(hào),還包括:
5.根據(jù)權(quán)利要求1所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述將所述純凈語音信號(hào)的語音特征輸入包含聲學(xué)模型和語言模型的解碼器中,得到純凈語音文本,包括:
6.根據(jù)權(quán)利要求5所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述將所述第二語音特征輸入至所述聲學(xué)模型中,得到語音單詞,包括:
7.根據(jù)權(quán)利要求5所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述將所述語音單詞輸入至所述語言模型中,得到所述純凈語音文本,包括:
8.根據(jù)權(quán)利要求1所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述處理端還用于:將所述語音信號(hào)輸入具備語音識(shí)別功能的深度殘差收縮網(wǎng)絡(luò)中,得到純凈語音文本。
9.根據(jù)權(quán)利要求1所述的適用于高噪音環(huán)境的會(huì)議系統(tǒng),其特征在于,所述第一會(huì)議終端還用于將含噪聲的語音信號(hào)發(fā)送給所述第二會(huì)議終端;