欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種包含聲母的音節(jié)切分方法及裝置的制造方法

文檔序號:10614111閱讀:197來源:國知局
一種包含聲母的音節(jié)切分方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種包含聲母的音節(jié)切分方法及裝置,涉及語音信號處理技術(shù)領(lǐng)域。本發(fā)明技術(shù)要點(diǎn)包括:步驟1:獲取一段語音信號;該語音信號包括至少一個音節(jié),且該語音信號包含的音節(jié)都是帶有聲母的音節(jié);步驟2:識別所述語音信號中的各個連續(xù)詞組的起點(diǎn)及終點(diǎn);步驟3:確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn);步驟4:根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及音節(jié)粗切分點(diǎn)對各個連續(xù)詞組中的各個音節(jié)進(jìn)行精確切分。
【專利說明】
一種包含聲母的音節(jié)切分方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,尤其是一種音節(jié)自動切分技術(shù)。
【背景技術(shù)】
[0002] 腭裂語音計算機(jī)自動評估算法的實(shí)現(xiàn)具有重要臨床意義,將為語音師和腭裂患者 提供有效的客觀輔助診斷,有助于腭裂語音評估與語音治療的廣泛普及。
[0003] 腭裂語音會出現(xiàn)特有的表現(xiàn)形式,包括共鳴障礙和構(gòu)音障礙。其中,高鼻音是共鳴 障礙的主要表現(xiàn)形式,主要發(fā)生于普通話韻母及濁音聲母部分。構(gòu)音障礙是由于患者發(fā)音 方法不正確而產(chǎn)生,其表現(xiàn)形式包括輔音替代、代償性發(fā)音等。腭裂構(gòu)音障礙主要發(fā)生于普 通話音節(jié)中的韻母部分。在對腭裂語音共鳴與構(gòu)音障礙的研究中,需要首先實(shí)現(xiàn)對腭裂語 音中各個音節(jié)信號的自動識別,該步驟為普通話腭裂語音信號處理的重要預(yù)處理過程。 [0004]普通話中,一個漢字的發(fā)音為一個音節(jié)。通常,一個音節(jié)由聲母和韻母兩部分組 成,普通話中也存在零聲母現(xiàn)象,即音節(jié)中只有韻母部分。在研究腭裂語音時,腭裂語音數(shù) 據(jù)庫包含的語音樣本中,沒有零聲母和輔音省略的音節(jié)。也即是本發(fā)明的處理對象是包含 聲母與韻母的音節(jié),由于音節(jié)中必然包含韻母,因此又簡稱為包含聲母的音節(jié)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種包含聲母音節(jié)的識別、切分算法。
[0006] 本發(fā)明首先提供了一種包含聲母的音節(jié)切分方法,包括:
[0007] 步驟1:獲取一段語音信號;該語音信號包括至少一個音節(jié),且該語音信號包含的 音節(jié)都是帶有聲母的音節(jié);
[0008] 步驟2:識別所述語音信號中的各個連續(xù)詞組的起點(diǎn)及終點(diǎn);
[0009] 步驟3:確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn);
[0010] 步驟4:根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及音節(jié)粗切分點(diǎn)對各個連續(xù)詞組中的各個音節(jié) 進(jìn)行精確切分。
[0011] 所述步驟2進(jìn)一步包括:
[0012] 步驟21:提取反映該語音信號幅值變化趨勢的準(zhǔn)包絡(luò)曲線;
[0013] 步驟22:對準(zhǔn)包絡(luò)曲線進(jìn)行平滑及歸一化處理;
[0014] 步驟23:對步驟22的結(jié)果進(jìn)行連續(xù)詞組的端點(diǎn)檢測,從而得到各連續(xù)詞組的起點(diǎn) 及終點(diǎn)。
[0015] 所述步驟23進(jìn)一步包括:
[0016] 步驟231:在步驟22的結(jié)果中取信號幅值大于閾值D1的信號段;
[0017] 步驟232:在每一段信號幅值大于閾值D1的信號段中,判斷是否有信號的幅值大于 閾值D2;如果該段語音信號中有信號的幅值大于閾值D2,則這段語音信號的時域波形與幅 值為D1的直線的兩個交點(diǎn),為連續(xù)詞組的起點(diǎn)與終點(diǎn)。
[0018] 所述步驟3進(jìn)一步包括:
[0019] 步驟31:對步驟23得到的連續(xù)詞組計算時長,如不超過單音節(jié)時間閾值,則認(rèn)為該 連續(xù)詞組為一個音節(jié);否則對步驟23得到的連續(xù)詞組進(jìn)行后續(xù)的處理步驟;
[0020] 步驟32:去掉峰值小于第一閾值的波峰,查找連續(xù)詞組的剩余波峰;
[0021 ]步驟33:確定兩個相鄰波峰之間的波谷,確定并將第一個波谷作為音節(jié)的粗切分 點(diǎn)。
[0022]所述步驟4進(jìn)一步包括:
[0023]步驟41:將步驟1得到的原始語音信號中幅值小于第二閾值的信號幅值設(shè)為0; [0024]步驟42:在連續(xù)詞組的起點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的語 音信號,得到若干語音幀;
[0025]步驟43:計算步驟42得到的各個語音幀的短時過零率,將其中第一個短時過零率 不為〇的語音幀的起點(diǎn)作為一個音節(jié)的精確切分起點(diǎn);
[0026]步驟44:在連續(xù)詞組的音節(jié)粗切分點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干 個幀的語音信號,得到若干語音幀;
[0027]步驟45:計算步驟44得到的各個語音幀的短時過零率,將左側(cè)語音幀中最后一個 短時過零率不為0的語音幀的起點(diǎn)作為前一個音節(jié)的精確切分終點(diǎn);將右側(cè)語音幀中第一 個短時過零率不為0的語音幀的起點(diǎn)作為后一個音節(jié)的精確切分起點(diǎn);
[0028]步驟46:在連續(xù)詞組的終點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的語 音信號,得到若干語音幀;
[0029]步驟47:計算步驟46得到的各個語音幀的短時過零率,將其中最后一個短時過零 率不為〇的語音幀的起點(diǎn)作為音節(jié)的精確切分終點(diǎn)。
[0030] 本發(fā)明還提供了一種包含聲母的音節(jié)切分裝置,包括:
[0031] 原始語音信號獲取單元,用于讀取一段語音信號;該語音信號包括至少一個音節(jié), 且該語音信號包含的音節(jié)都是帶有聲母的音節(jié);
[0032] 連續(xù)詞組識別單元,用于識別所述語音信號中的各個連續(xù)詞組的起點(diǎn)及終點(diǎn);
[0033] 音節(jié)粗切分單元,用于確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn);
[0034] 音節(jié)精確切分單元,根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及音節(jié)粗切分點(diǎn)對各個連續(xù)詞組 中的各個音節(jié)進(jìn)行精確切分。
[0035] 所述連續(xù)詞組識別單元進(jìn)一步包括:
[0036]準(zhǔn)包絡(luò)線提取子單元,用于提取反映該語音信號幅值變化趨勢的準(zhǔn)包絡(luò)曲線; [0037] 預(yù)處理子單元,用于對準(zhǔn)包絡(luò)曲線進(jìn)行平滑及歸一化處理;
[0038]端點(diǎn)檢測子單元,用于對預(yù)處理子單元輸出的結(jié)果進(jìn)行連續(xù)詞組的端點(diǎn)檢測,從 而得到各連續(xù)詞組的起點(diǎn)及終點(diǎn)。
[0039]所述端點(diǎn)檢測子單元進(jìn)一步用于:
[0040]在對預(yù)處理子單元輸出的結(jié)果中取信號幅值大于閾值D1的信號段;
[0041]以及在每一段信號幅值大于閾值D1的信號段中,判斷是否有信號的幅值大于閾值 D2;如果該段語音信號中有信號的幅值大于閾值D2,則這段語音信號的時域波形與幅值為 D1的直線的兩個交點(diǎn),為連續(xù)詞組的起點(diǎn)與終點(diǎn)。
[0042] 所述音節(jié)粗切分單元進(jìn)一步包括:
[0043] 單音節(jié)判別子單元,用于對端點(diǎn)檢測子單元得到的連續(xù)詞組計算時長,如不超過 單音節(jié)時間閾值,則認(rèn)為該連續(xù)詞組為一個音節(jié);否則對端點(diǎn)檢測子單元得到的連續(xù)詞組 輸出到后續(xù)的子單元;
[0044] 波峰檢測子單元,用于去掉峰值小于第一閾值的波峰,查找連續(xù)詞組的剩余波峰;
[0045] 波谷檢測子單元,用于確定兩個相鄰波峰之間的波谷,確定并將第一個波谷作為 音節(jié)的粗切分點(diǎn)。
[0046] 所述音節(jié)精確切分子單元進(jìn)一步包括:
[0047] 幅值置零子單元,用于將原始語音信號獲取單元得到的原始語音信號中小于第二 閾值的幅值設(shè)為〇;
[0048] 連續(xù)詞組起點(diǎn)加窗子單元,用于在連續(xù)詞組的起點(diǎn)左側(cè)及右側(cè)的原始語音信號中 分別截取若干個幀的語音信號,得到若干語音幀;
[0049] 連續(xù)詞組首音節(jié)起點(diǎn)精確切分子單元,用于計算加窗子單元得到的各個語音幀的 短時過零率,將其中第一個短時過零率不為〇的語音幀的起點(diǎn)作為一個音節(jié)的精確切分起 占.
[0050] 粗切分點(diǎn)加窗子單元,用于在連續(xù)詞組的音節(jié)粗切分點(diǎn)左側(cè)及右側(cè)的原始語音信 號中分別截取若干個幀的語音信號,得到若干語音幀;
[0051] 連續(xù)詞組內(nèi)音節(jié)精確切分子單元,用于計算音節(jié)粗切分點(diǎn)加窗子單元得到的各個 語音幀的短時過零率,將左側(cè)語音幀中最后一個短時過零率不為〇的語音幀的起點(diǎn)作為前 一個音節(jié)的精確切分終點(diǎn);將右側(cè)語音幀中第一個短時過零率不為〇的語音幀的起點(diǎn)作為 后一個音節(jié)的精確切分起點(diǎn);
[0052] 連續(xù)詞組終點(diǎn)加窗子單元,用于在連續(xù)詞組的終點(diǎn)左側(cè)及右側(cè)的原始語音信號中 分別截取若干個幀的語音信號,得到若干語音幀;
[0053] 連續(xù)詞組末音節(jié)終點(diǎn)精確切分子單元,用于計算連續(xù)詞組終點(diǎn)加窗子單元得到的 各個語音幀的短時過零率,將其中最后一個短時過零率不為〇的語音幀的起點(diǎn)作為音節(jié)的 精確切分終點(diǎn)。
[0054] 綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
[0055] 1.本發(fā)明提供了計算機(jī)自動識別含聲母音節(jié)的方法,填補(bǔ)了現(xiàn)有技術(shù)空白,為腭 裂語音的計算機(jī)自動評估奠定了基礎(chǔ)。
[0056] 2.本發(fā)明在切分音節(jié)時先進(jìn)行粗切分,然后在粗切分點(diǎn)的基礎(chǔ)上進(jìn)一步尋找精確 切分點(diǎn),即提高了處理速度,又使得音節(jié)切分更加精準(zhǔn)。
【附圖說明】
[0057]本發(fā)明將通過例子并參照附圖的方式說明,其中:
[0058]圖1為本發(fā)明流程圖。
[0059]圖2為一段原始語音信號的時域波形。
[0060]圖3為經(jīng)過中值濾波后的原始語音信號的準(zhǔn)包絡(luò)曲線。
[0061]圖4為對平滑后的準(zhǔn)包絡(luò)曲線進(jìn)行歸一化后的波形。
[0062]圖5為連續(xù)詞組提取后的結(jié)果。
[0063]圖6為音節(jié)粗切分結(jié)果。
[0064]圖7為對原始語音信號進(jìn)行幅值置零后的結(jié)果。
[0065] 圖8為一段語音信號中選取其中一個連續(xù)詞組進(jìn)行音節(jié)精確切分的結(jié)果。
[0066] 圖9為對一段語音信號進(jìn)行音節(jié)精確切分的結(jié)果。
【具體實(shí)施方式】
[0067] 本說明書中公開的所有特征,或公開的所有方法或過程中的步驟,除了互相排斥 的特征和/或步驟以外,均可以以任何方式組合。
[0068] 本說明書中公開的任一特征,除非特別敘述,均可被其他等效或具有類似目的的 替代特征加以替換。即,除非特別敘述,每個特征只是一系列等效或類似特征中的一個例子 而已。
[0069] 普通話中,一個漢字的發(fā)音為一個音節(jié)。本發(fā)明處理的對象是由聲母和韻母兩部 分組成的音節(jié),不考慮零聲母和輔音省略的音節(jié)。
[0070] 普通話中共包含21個聲母,其中m,n, 1,r四個聲母為池音,剩下的的17個聲母為清 音。根據(jù)發(fā)音位置和發(fā)音方式的不同,聲母又可以分為:塞音(b,p,d,t,g,k)、塞擦音(z,c, zh,ch, j ,q)、擦音(f ,s,sh,r,x,h)、鼻音(m,n)和邊音(1)。普通中包含三十九個韻母,韻母 由元音和復(fù)合元音組成。
[0071] 本實(shí)施例中的腭裂語音數(shù)據(jù)由四川大學(xué)華西口腔醫(yī)院唇腭裂外科"腭裂語音治療 中心"進(jìn)行采集。該中心為國內(nèi)最大的唇腭裂治療中心。受試者在安靜的錄音室中,朗讀"四 川大學(xué)華西口腔醫(yī)院語音矯治室普通話構(gòu)音測量表"。該測量表充分考慮普通話構(gòu)音結(jié)構(gòu) 和腭裂語音特性,包含了完整的腭裂語音單元,共包含84個詞語和10個數(shù)字,覆蓋了普通話 中的全部聲母和各語種中最為常用的元音。
[0072]如圖1,該發(fā)明首先獲取一段語音信號,然后對語音信號中的連續(xù)詞組進(jìn)行自動檢 測。通過該檢測步驟,得到的一個普通話詞組中可能包含多個普通話音節(jié)。算法的第三步實(shí) 現(xiàn)對詞組中單個音節(jié)信號的自動粗切分。算法的第四步實(shí)現(xiàn)對腭裂語音普通話音節(jié)的精確 切分。
[0073]下面詳細(xì)介紹本發(fā)明步驟:
[0074] 1.獲取一段語音信號;其采樣頻率為22050Hz,語音信號時長8~10秒。
[0075] 步驟3:確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn);
[0076] 步驟4:根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及音節(jié)粗切分點(diǎn)對各個連續(xù)詞組中的各個音節(jié) 進(jìn)行精確切分。
[0077] 每位受試者錄制一段語音信號,采集到的語音信號如圖2所示。
[0078] 2.識別所述語音信號中的各個連續(xù)詞組的起點(diǎn)及終點(diǎn)
[0079] 2.1提取反映該語音信號幅值變化趨勢的準(zhǔn)包絡(luò)曲線。準(zhǔn)包絡(luò)曲線可以是信號的 包絡(luò)線,也可以是信號正數(shù)部分的包絡(luò)線,或者是信號取絕對值后的包絡(luò)線。
[0080] 本實(shí)施例通過計算信號的短時對數(shù)能量矩陣獲得其準(zhǔn)包絡(luò)曲線。
[0081 ]對語音信號進(jìn)行分幀處理,如語音幀長度為21.8ms,幀移為10.9ms,計算每幀語音 信號的對數(shù)能量,得到該段語音信號的短時對數(shù)能量向量LE。在其他實(shí)施例中還可以使用 短時線性能量特征計算信號的準(zhǔn)包絡(luò)曲線。
[0082]與短時線性能量特征相比,短時對數(shù)能量對小的線性能量值壓縮小,而不致將幅 度較小的輔音信號誤認(rèn)為靜音切掉。同時,短時對數(shù)能量特征能較好地反映語音段、噪聲 段、無聲段的區(qū)別。
[0083] 以語音信號的第4mXl(n)為例,其短時對數(shù)能量值計算表達(dá)式為:
[0084] LEi = lg(Ei+a)-lga; (1)
[0085]
[0086] 其中:N為第i幀信號的信號長度,a為一個固定的常數(shù)。經(jīng)過試驗證明,當(dāng)a = 5X 1〇5時,取得了較好的檢測結(jié)果。
[0087] 如此計算各幀的短時對數(shù)能量值,便得到一個該語音信號的短時對數(shù)能量向量 LE〇
[0088] 2.2對準(zhǔn)包絡(luò)曲線進(jìn)行平滑及歸一化處理
[0089] 首先對準(zhǔn)包絡(luò)曲線,即短時對數(shù)能量向量LE,進(jìn)行中值濾波,得到平滑后的對數(shù)能 量向量。本實(shí)施例的濾波長度為3,圖3為平滑后的結(jié)果。
[0090] 然后對平滑后的對數(shù)能量向量進(jìn)行歸一化,得到向量E,如圖4所示,本實(shí)施例使平 滑后的準(zhǔn)包絡(luò)曲線的幅值位于〇~1之間。
[0091 ] 2.3對連續(xù)詞組進(jìn)行端點(diǎn)檢測,從而得到各連續(xù)詞組的起點(diǎn)及終點(diǎn)。求取平滑和歸 一化后的準(zhǔn)包絡(luò)曲線E中,其幅值大于閾值D1的信號段(D1的取值為0.05)。在每一段信號幅 值大于閾值D1的信號段中,判斷是否有信號的幅值大于閾值D2(D2的取值為0.1)。如果該段 語音信號中有信號的幅值大于閾值D2,則這段語音信號的時域波形與幅值為D1的直線的兩 個交點(diǎn),為連續(xù)詞組的起點(diǎn)與終點(diǎn)。
[0092] 對詞組的起始點(diǎn)檢測結(jié)果如圖5所示。圖5上半部分為原始語音信號的時域波形, 下半部分為準(zhǔn)包絡(luò)曲線,實(shí)線為連續(xù)詞組的起點(diǎn),虛線為連續(xù)詞組的終點(diǎn)。
[0093] 3.確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn)
[0094] 3.1由2.3節(jié)提出的腭裂語音連續(xù)詞組自動檢測結(jié)果中,其每個詞組可能包含一個 或多個普通話音節(jié)。有些詞組包含一個漢字,如"塔"、"拿"等;有些詞組包含兩個或三個漢 字,如"爸爸"、"爬樓梯"等。根據(jù)普通話音節(jié)的時長,對2.3節(jié)得到的連續(xù)詞組計算時長,即 計算連續(xù)詞組起點(diǎn)與終點(diǎn)的時間間隔,如不超過單音節(jié)時間閾值,如270ms,則認(rèn)為該連續(xù) 詞組為一個音節(jié),則無需進(jìn)行進(jìn)一步處理,該詞組的起點(diǎn)及終點(diǎn)即為該音節(jié)的起點(diǎn)與終點(diǎn); 否則對2.3節(jié)得到的連續(xù)詞組進(jìn)行后續(xù)的處理步驟。
[0095] 3.2去掉峰值小于第一閾值的波峰,本實(shí)施例中第一閾值取0.12,查找連續(xù)詞組的 剩余波峰。
[0096] 3.3確定兩個相鄰波峰之間的波谷,如果波谷的個數(shù)大于1,則取第一個波谷,作為 該詞組中音節(jié)的粗切分點(diǎn)。切分結(jié)果如圖6所示,上半部分為原始語音信號,下半部分為準(zhǔn) 包絡(luò)曲線,實(shí)線為音節(jié)粗切分點(diǎn)。
[0097] 4根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及音節(jié)粗切分點(diǎn)對各個連續(xù)詞組中的各個音節(jié)進(jìn)行 精確切分。
[0098] 4.1將步驟1得到的原始語音信號中幅值小于第二閾值,如0.005,的信號幅值設(shè)為 0。處理結(jié)果如圖7。然后對連續(xù)詞組的起點(diǎn)、終點(diǎn)及內(nèi)部的音節(jié)粗切分點(diǎn)分別處理。
[0099] 4.2對連續(xù)詞組的起點(diǎn)進(jìn)行精確定位
[0100] 在連續(xù)詞組的起點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的語音信號, 得到若干語音幀。本實(shí)施例中取幀的長度為130ms,幀移為幀長的一半,共取了10幀信號。以 連續(xù)詞組的起點(diǎn)為起始點(diǎn)分別向右、向左截取語音幀。
[0101] 計算各個語音幀的短時過零率,將其中第一個短時過零率不為0的語音幀的起點(diǎn) 作為一個音節(jié)的精確切分起點(diǎn)。
[0102] 4.3對連續(xù)詞組中的音節(jié)粗切分點(diǎn)進(jìn)行校正
[0103] 在連續(xù)詞組的音節(jié)粗切分點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的 語音信號,得到若干語音幀。加窗過程參見4.2節(jié)。
[0104] 計算各個語音幀的短時過零率,將左側(cè)語音幀中最后一個短時過零率不為0的語 音幀的起點(diǎn)作為前一個音節(jié)的精確切分終點(diǎn);將右側(cè)語音幀中第一個短時過零率不為〇的 語音幀的起點(diǎn)作為后一個音節(jié)的精確切分起點(diǎn)。
[0105] 依次方法對連續(xù)詞組中的音節(jié)粗切分點(diǎn)一一處理。
[0106] 4.4對連續(xù)詞組的終點(diǎn)進(jìn)行精確定位
[0107]在連續(xù)詞組的終點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的語音信號, 得到若干語音幀。加窗過程參見4.2節(jié)。
[0108] 計算各個語音幀的短時過零率,將其中最后一個短時過零率不為0的語音幀的起 點(diǎn)作為音節(jié)的精確切分終點(diǎn)。
[0109] 圖8為一段語音信號中,選取其中一個連續(xù)詞組,進(jìn)行音節(jié)精確切分的結(jié)果。上半 部分為一段語音信號的時域波形圖。下半部分為該語音信號中,選取其中的一個連續(xù)詞組, 該詞組的時域波形圖,其中實(shí)線為詞組的起始端點(diǎn)以及詞組間音節(jié)的粗切分點(diǎn),虛線為音 節(jié)的精確切分點(diǎn)。
[0110] 圖9所示為對一段語音信號精確切分的結(jié)果,上半部分為原始語音信號的時域波 形,下半部分為準(zhǔn)包絡(luò)曲線,其中實(shí)線為音節(jié)的起始點(diǎn),虛線為音節(jié)的結(jié)束點(diǎn)。對某些詞組, 上一個音節(jié)的結(jié)束點(diǎn)可能會和下一個音節(jié)的起始點(diǎn)重合。
[0111] 本發(fā)明還提供了一種與上述方法步驟一一對應(yīng)的功能模塊組成的軟系統(tǒng)。
[0112] 本發(fā)明并不局限于前述的【具體實(shí)施方式】。本發(fā)明擴(kuò)展到任何在本說明書中披露的 新特征或任何新的組合,以及披露的任一新的方法或過程的步驟或任何新的組合。
【主權(quán)項】
1. 一種包含聲母的音節(jié)切分方法,其特征在于,包括: 步驟1:獲取一段語音信號;該語音信號包括至少一個音節(jié),且該語音信號包含的音節(jié) 都是帶有聲母的音節(jié); 步驟2:識別所述語音信號中的各個連續(xù)詞組的起點(diǎn)及終點(diǎn); 步驟3:確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn); 步驟4:根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及音節(jié)粗切分點(diǎn)對各個連續(xù)詞組中的各個音節(jié)進(jìn)行 精確切分。2. 根據(jù)權(quán)利要求1所述的一種包含聲母的音節(jié)切分方法,其特征在于, 所述步驟2進(jìn)一步包括: 步驟21:提取反映該語音信號幅值變化趨勢的準(zhǔn)包絡(luò)曲線; 步驟22:對準(zhǔn)包絡(luò)曲線進(jìn)行平滑及歸一化處理; 步驟23:對步驟22的結(jié)果進(jìn)行連續(xù)詞組的端點(diǎn)檢測,從而得到各連續(xù)詞組的起點(diǎn)及終 點(diǎn)。3. 根據(jù)權(quán)利要求2所述的一種包含聲母的音節(jié)切分方法,其特征在于,所述步驟23進(jìn)一 步包括: 步驟231:在步驟22的結(jié)果中取信號幅值大于閾值D1的信號段; 步驟232:在每一段信號幅值大于閾值D1的信號段中,判斷是否有信號的幅值大于閾值 D2;如果該段語音信號中有信號的幅值大于閾值D2,則這段語音信號的時域波形與幅值為 D1的直線的兩個交點(diǎn),為連續(xù)詞組的起點(diǎn)與終點(diǎn)。4. 根據(jù)權(quán)利要求2所述的一種包含聲母的音節(jié)切分方法,其特征在于, 所述步驟3進(jìn)一步包括: 步驟31:對步驟23得到的連續(xù)詞組計算時長,如不超過單音節(jié)時間閾值,則認(rèn)為該連續(xù) 詞組為一個音節(jié);否則對步驟23得到的連續(xù)詞組進(jìn)行后續(xù)的處理步驟; 步驟32:去掉峰值小于第一閾值的波峰,查找連續(xù)詞組的剩余波峰; 步驟33:確定兩個相鄰波峰之間的波谷,確定并將第一個波谷作為音節(jié)的粗切分點(diǎn)。5. 根據(jù)權(quán)利要求2所述的一種包含聲母的音節(jié)切分方法,其特征在于,所述步驟4進(jìn)一 步包括: 步驟41:將步驟1得到的原始語音信號中幅值小于第二閾值的信號幅值設(shè)為0; 步驟42:在連續(xù)詞組的起點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的語音信 號,得到若干語音幀; 步驟43:計算步驟42得到的各個語音幀的短時過零率,將其中第一個短時過零率不為0 的語音幀的起點(diǎn)作為一個音節(jié)的精確切分起點(diǎn); 步驟44:在連續(xù)詞組的音節(jié)粗切分點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀 的語音信號,得到若干語音幀; 步驟45:計算步驟44得到的各個語音幀的短時過零率,將左側(cè)語音幀中最后一個短時 過零率不為0的語音幀的起點(diǎn)作為前一個音節(jié)的精確切分終點(diǎn);將右側(cè)語音幀中第一個短 時過零率不為0的語音幀的起點(diǎn)作為后一個音節(jié)的精確切分起點(diǎn); 步驟46:在連續(xù)詞組的終點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別截取若干個幀的語音信 號,得到若干語音幀; 步驟47:計算步驟46得到的各個語音幀的短時過零率,將其中最后一個短時過零率不 為〇的語音幀的起點(diǎn)作為音節(jié)的精確切分終點(diǎn)。6. -種包含聲母的音節(jié)切分裝置,其特征在于,包括: 原始語音信號獲取單元,用于讀取一段語音信號;該語音信號包括至少一個音節(jié),且該 語音信號包含的音節(jié)都是帶有聲母的音節(jié); 連續(xù)詞組識別單元,用于識別所述語音信號中的各個連續(xù)詞組的起點(diǎn)及終點(diǎn); 音節(jié)粗切分單元,用于確定各個連續(xù)詞組中的各個音節(jié)間的粗切分點(diǎn); 音節(jié)精確切分單元,根據(jù)連續(xù)詞組的起點(diǎn)、終點(diǎn)及粗切分點(diǎn)對各個連續(xù)詞組中的各個 音節(jié)進(jìn)行精確切分。7. 根據(jù)權(quán)利要求6所述的一種包含聲母的音節(jié)切分裝置,其特征在于, 所述連續(xù)詞組識別單元進(jìn)一步包括: 準(zhǔn)包絡(luò)線提取子單元,用于提取反映該語音信號幅值變化趨勢的準(zhǔn)包絡(luò)曲線; 預(yù)處理子單元,用于對準(zhǔn)包絡(luò)曲線進(jìn)行平滑及歸一化處理; 端點(diǎn)檢測子單元,用于對預(yù)處理子單元輸出的結(jié)果進(jìn)行連續(xù)詞組的端點(diǎn)檢測,從而得 到各連續(xù)詞組的起點(diǎn)及終點(diǎn)。8. 根據(jù)權(quán)利要求7所述的一種包含聲母的音節(jié)切分裝置,其特征在于,所述端點(diǎn)檢測子 單元進(jìn)一步用于: 在對預(yù)處理子單元輸出的結(jié)果中取信號幅值大于閾值D1的信號段; 以及在每一段信號幅值大于閾值D1的信號段中,判斷是否有信號的幅值大于閾值D2; 如果該段語音信號中有信號的幅值大于閾值D2,則這段語音信號的時域波形與幅值為D1的 直線的兩個交點(diǎn),為連續(xù)詞組的起點(diǎn)與終點(diǎn)。9. 根據(jù)權(quán)利要求7所述的一種包含聲母的音節(jié)切分方法,其特征在于, 所述音節(jié)粗切分單元進(jìn)一步包括: 單音節(jié)判別子單元,用于對端點(diǎn)檢測子單元得到的連續(xù)詞組計算時長,如不超過單音 節(jié)時間閾值,則認(rèn)為該連續(xù)詞組為一個音節(jié);否則對端點(diǎn)檢測子單元得到的連續(xù)詞組輸出 到后續(xù)的子單元; 波峰檢測子單元,用于去掉峰值小于第一閾值的波峰,查找連續(xù)詞組的剩余波峰; 波谷檢測子單元,用于確定兩個相鄰波峰之間的波谷,確定并將第一個波谷作為音節(jié) 的粗切分點(diǎn)。10. 根據(jù)權(quán)利要求7所述的一種包含聲母的音節(jié)切分裝置,其特征在于,所述音節(jié)精確 切分子單元進(jìn)一步包括: 幅值置零子單元,用于將原始語音信號獲取單元得到的原始語音信號中幅值小于第二 閾值的信號幅值設(shè)為〇; 連續(xù)詞組起點(diǎn)加窗子單元,用于在連續(xù)詞組的起點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別 截取若干個幀的語音信號,得到若干語音幀; 連續(xù)詞組首音節(jié)起點(diǎn)精確切分子單元,用于計算加窗子單元得到的各個語音幀的短時 過零率,將其中第一個短時過零率不為〇的語音幀的起點(diǎn)作為一個音節(jié)的精確切分起點(diǎn); 粗切分點(diǎn)加窗子單元,用于在連續(xù)詞組的粗切分點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別 截取若干個幀的語音信號,得到若干語音幀; 連續(xù)詞組內(nèi)音節(jié)精確切分子單元,用于計算粗切分點(diǎn)加窗子單元得到的各個語音幀的 短時過零率,將左側(cè)語音幀中最后一個短時過零率不為0的語音幀的起點(diǎn)作為前一個音節(jié) 的精確切分終點(diǎn);將右側(cè)語音幀中第一個短時過零率不為0的語音幀的起點(diǎn)作為后一個音 節(jié)的精確切分起點(diǎn); 連續(xù)詞組終點(diǎn)加窗子單元,用于在連續(xù)詞組的終點(diǎn)左側(cè)及右側(cè)的原始語音信號中分別 截取若干個幀的語音信號,得到若干語音幀; 連續(xù)詞組末音節(jié)終點(diǎn)精確切分子單元,用于計算連續(xù)詞組終點(diǎn)加窗子單元得到的各個 語音幀的短時過零率,將其中最后一個短時過零率不為0的語音幀的起點(diǎn)作為音節(jié)的精確 切分終點(diǎn)。
【文檔編號】G10L15/05GK105976811SQ201610270526
【公開日】2016年9月28日
【申請日】2016年4月27日
【發(fā)明人】尹恒, 何凌, 柳銀, 李精韜
【申請人】四川大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
安西县| 合江县| 皋兰县| 洱源县| 南康市| 鞍山市| 亚东县| 汨罗市| 宁夏| 庆元县| 廊坊市| 怀安县| 宜丰县| 高安市| 柘荣县| 民乐县| 泸溪县| 雅安市| 连江县| 武邑县| 汝阳县| 平武县| 太保市| 大荔县| 怀安县| 达孜县| 河间市| 昌宁县| 霸州市| 醴陵市| 栾川县| 天峨县| 那坡县| 广南县| 方山县| 新源县| 临潭县| 玉山县| 固阳县| 南雄市| 垣曲县|