欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于預(yù)訓(xùn)練和圖網(wǎng)絡(luò)的語(yǔ)音主題分類(lèi)模型

文檔序號(hào):40452970發(fā)布日期:2024-12-27 09:18閱讀:13來(lái)源:國(guó)知局
一種基于預(yù)訓(xùn)練和圖網(wǎng)絡(luò)的語(yǔ)音主題分類(lèi)模型

本發(fā)明涉及語(yǔ)音識(shí)別、語(yǔ)音理解和機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及利用預(yù)訓(xùn)練和圖網(wǎng)絡(luò)構(gòu)建語(yǔ)音主題識(shí)別的模型。


背景技術(shù):

1、隨著時(shí)代的發(fā)展和網(wǎng)絡(luò)科技的不斷進(jìn)步,短視頻的個(gè)性化推薦,會(huì)議的錄音記錄等相關(guān)的音頻信息在我們的生活中扮演著越來(lái)越重要的作用。如何能在海量的語(yǔ)音信息中,準(zhǔn)確的進(jìn)行語(yǔ)音信息的分類(lèi)和定位,從而減少我們獲取信息的時(shí)間變得尤為重要。

2、語(yǔ)音主題分類(lèi)旨在自動(dòng)將大量的語(yǔ)音文檔按照內(nèi)容的主題進(jìn)行分類(lèi),常由自動(dòng)語(yǔ)音識(shí)別(automatic?speech?recognition,asr)和自然語(yǔ)言理解級(jí)聯(lián)而成。鑒于近年來(lái)兩個(gè)領(lǐng)域的迅猛發(fā)展,級(jí)聯(lián)系統(tǒng)性能隨之提升,并逐步實(shí)用化。然而,該類(lèi)設(shè)計(jì)方法具有錯(cuò)誤傳播、訓(xùn)練數(shù)據(jù)需求量大、計(jì)算復(fù)雜等不足。源于端到端思想,基于語(yǔ)音波形直接語(yǔ)義理解逐漸成為主流研究思路,代表性工作有:劉春喜提出可伸縮的無(wú)監(jiān)督單元,使用utd和aud對(duì)聲學(xué)特征處理,自動(dòng)發(fā)現(xiàn)類(lèi)似詞或音素單位的詞匯表來(lái)獲取語(yǔ)音的標(biāo)記化;dmitriy?serdyuk提出編碼器-解碼器結(jié)構(gòu),可將語(yǔ)音的聲學(xué)特征直接映射到意圖上,在口語(yǔ)理解任務(wù)中取得了良好的效果;董澤賢也提出類(lèi)似的編碼器-解碼器進(jìn)行端到端主題建模。所提模型在不依賴(lài)其它信息的情況下,基于mfcc的聲學(xué)特征自學(xué)習(xí)一些統(tǒng)計(jì)特征用于主題識(shí)別;劉潭等人提出了采用深度聲學(xué)特征和語(yǔ)言特征的融合方法進(jìn)行語(yǔ)音的分類(lèi),首先訓(xùn)練以音素為輸出單元的傳統(tǒng)的基于ctc聲學(xué)模型,并把線性音素分類(lèi)器前一層的輸出作為語(yǔ)音信息的深度聲學(xué)特征,將這些深層聲學(xué)特征輸入到一個(gè)音素到單詞模塊,以獲得深層語(yǔ)言特征,最后使用一個(gè)多頭注意模塊來(lái)融合這兩種深度特征進(jìn)行主題分類(lèi)。以前的學(xué)者大多數(shù)的研究都是基于語(yǔ)音的聲學(xué)特征,然而聲學(xué)特征只能夠捕捉到很短時(shí)間內(nèi)的局部時(shí)頻信息,對(duì)于像語(yǔ)音主題分類(lèi)這種需要理解長(zhǎng)時(shí)間語(yǔ)音信息的研究存在缺陷。

3、同時(shí)在以往的研究中深度學(xué)習(xí)模型被廣泛用于學(xué)習(xí)特征表示,包括cnn和rnn,如lstm等。因?yàn)閏nn和rnn優(yōu)先考慮局部性和序列性,這些深度學(xué)習(xí)模型可以較好地捕捉局部連續(xù)話語(yǔ)的序列信息。但是在對(duì)整個(gè)語(yǔ)音文檔理解時(shí),從時(shí)間上看目標(biāo)話語(yǔ)不僅與局部連續(xù)的話語(yǔ)序列有關(guān),而且與文檔中的所有(時(shí)間連續(xù)和非連續(xù))話語(yǔ)序列都有關(guān)系。這里把這種關(guān)系結(jié)構(gòu)稱(chēng)為話語(yǔ)語(yǔ)境。所以在目前的研究中缺乏對(duì)全局話語(yǔ)語(yǔ)境的探索,這導(dǎo)致對(duì)輸入時(shí)間較長(zhǎng)的音頻進(jìn)行分類(lèi)的準(zhǔn)確率往往很低。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對(duì)傳統(tǒng)分類(lèi)方法中存在的不足,提供了一種基于預(yù)訓(xùn)練和圖網(wǎng)絡(luò)的語(yǔ)音主題分類(lèi)的模型。之前的大多數(shù)模型是基于語(yǔ)音的聲學(xué)特征,然而聲學(xué)特征只能夠捕捉到很短時(shí)間內(nèi)的局部時(shí)頻信息,僅提取聲學(xué)特征會(huì)造成長(zhǎng)時(shí)間語(yǔ)音片段的信息丟失和對(duì)語(yǔ)義內(nèi)容的忽視。同時(shí)因?yàn)閏nn和rnn優(yōu)先考慮局部性和序列性,可以較好地捕捉局部連續(xù)話語(yǔ)的序列信息。但是缺乏對(duì)全局信息的理解。所以針對(duì)上述問(wèn)題,本發(fā)明的方案首先使用預(yù)訓(xùn)練模型更好的關(guān)注語(yǔ)音的語(yǔ)義信息,同時(shí)將cnn提取的局部順序上下文特征和圖網(wǎng)絡(luò)構(gòu)建的全局特征相結(jié)合,不僅大大提高了分類(lèi)的準(zhǔn)確率,而且提高了整體網(wǎng)絡(luò)結(jié)構(gòu)的可解釋性。同時(shí)將大規(guī)模預(yù)訓(xùn)練“從無(wú)標(biāo)注語(yǔ)音中學(xué)習(xí)”的能力,與圖網(wǎng)絡(luò)“從標(biāo)注數(shù)據(jù)泛化到未標(biāo)注數(shù)據(jù)”的能力相結(jié)合,緩解了訓(xùn)練標(biāo)注數(shù)據(jù)需求量大的問(wèn)題。其具體技術(shù)方案如下:

2、(1)預(yù)訓(xùn)練語(yǔ)義特征提取階段

3、1.1)根據(jù)實(shí)際使用環(huán)境,事先收集語(yǔ)音片段,并進(jìn)行文本主題標(biāo)注,構(gòu)建語(yǔ)音數(shù)據(jù)庫(kù)。

4、1.2)對(duì)語(yǔ)音進(jìn)行靜音切除和增強(qiáng)處理,減少噪聲和其他干擾因素的影響。

5、1.3)將m條語(yǔ)音數(shù)據(jù)輸入到wavlm預(yù)訓(xùn)練模型中進(jìn)行語(yǔ)義特征的提取。具體步驟為:首先將語(yǔ)音特征轉(zhuǎn)換為wavlm模型的輸入形式。一般而言,wavlm模型的輸入是一串標(biāo)記化的文本數(shù)據(jù)。因此,需要將語(yǔ)音特征轉(zhuǎn)換為文本數(shù)據(jù),以便于輸入到wavlm模型中。這個(gè)過(guò)程可以使用語(yǔ)音識(shí)別引擎將音頻轉(zhuǎn)換為文本數(shù)據(jù)。然后將文本數(shù)據(jù)輸入到wavlm模型中,得到每個(gè)詞的語(yǔ)義向量。wavlm可以自動(dòng)學(xué)習(xí)語(yǔ)言的語(yǔ)義特征。將文本數(shù)據(jù)輸入到模型中,可以得到每個(gè)詞在模型中的語(yǔ)義表示。這個(gè)語(yǔ)義表示通常是一個(gè)向量,可以表示該詞在語(yǔ)義空間中的位置。最后將所有詞的語(yǔ)義向量進(jìn)行加權(quán)平均,得到整個(gè)語(yǔ)音片段的語(yǔ)義特征向量。

6、1.4)利用bilstm提取局部上下文特征。具體步驟為:將輸入的m條語(yǔ)音數(shù)據(jù)分成多個(gè)時(shí)間序列,每個(gè)時(shí)間序列的輸入是一個(gè)向量;將每個(gè)時(shí)間序列輸入到一個(gè)lstm層中,lstm層可以自動(dòng)學(xué)習(xí)序列數(shù)據(jù)中的依賴(lài)關(guān)系;將lstm層的輸出作為另一個(gè)lstm層的輸入,并采用相反的時(shí)間順序,得到反向lstm層的輸出;將正向lstm層和反向lstm層的輸出進(jìn)行拼接,得到最終的序列數(shù)據(jù)的有效特征。1.5)利用cnn增強(qiáng)局部上下文特征。cnn通過(guò)堆疊不同的卷積核尺寸來(lái)提取n-gram信息,然后通過(guò)最大池化操作突出各個(gè)卷積操作提取的最關(guān)鍵特征,得到更加復(fù)雜和抽象的特征表示,來(lái)增強(qiáng)局部連續(xù)話語(yǔ)語(yǔ)義信息。

7、(2)圖網(wǎng)絡(luò)話語(yǔ)語(yǔ)境提取階段

8、2.1)將(1)中得到的整個(gè)語(yǔ)音片段的語(yǔ)義特征向量si按照話語(yǔ)的數(shù)量轉(zhuǎn)化成話語(yǔ)形式的特征向量hi。

9、si=h1+h2+…+hn

10、其中si表示的是第i個(gè)語(yǔ)音片段的特征向量。

11、2.2)構(gòu)建圖網(wǎng)絡(luò)的節(jié)點(diǎn)。有向圖中的節(jié)點(diǎn)是由語(yǔ)音文檔中的n個(gè)話語(yǔ)構(gòu)成,由話語(yǔ)形式的特征向量hi初始化。

12、2.3)構(gòu)建圖網(wǎng)絡(luò)的邊。因?yàn)橛邢驁D中的中心節(jié)點(diǎn)和鄰接節(jié)點(diǎn)都存在聯(lián)系,所以本發(fā)明對(duì)中心節(jié)點(diǎn)的的前后發(fā)生的事件作為上下文,在w大小的上下文窗口內(nèi)構(gòu)建邊。因此,有向圖中每個(gè)節(jié)點(diǎn)最多連接2w(包括自身)個(gè)鄰接節(jié)點(diǎn)。

13、2.4)計(jì)算節(jié)點(diǎn)之間的注意力系數(shù)。利用了注意力機(jī)制(attention?mechanism)來(lái)自動(dòng)地學(xué)習(xí)和優(yōu)化節(jié)點(diǎn)間的連接關(guān)系。

14、eij=a([whi||whj])

15、共享參數(shù)w的線性映射對(duì)于節(jié)點(diǎn)特征進(jìn)行增維,[·||·]對(duì)節(jié)點(diǎn)i,j變換以后的特征進(jìn)行拼接,最后a(·)把拼接后的高維特征映射到一個(gè)實(shí)數(shù)上來(lái)學(xué)習(xí)節(jié)點(diǎn)i,j之間的相關(guān)性。得到相關(guān)系數(shù)后使用softmax來(lái)計(jì)算節(jié)點(diǎn)i,j之間的相似度權(quán)重。

16、

17、2.5)top-k掩碼策略。在這里,αij包含節(jié)點(diǎn)i和所有節(jié)點(diǎn)之間的邊權(quán)重,包括i節(jié)點(diǎn)本身。然后,我們采用top-k掩碼策略進(jìn)行節(jié)點(diǎn)選擇,對(duì)音頻特征節(jié)點(diǎn)之間的重要關(guān)系進(jìn)行優(yōu)先排序,并選擇k個(gè)最相關(guān)的節(jié)點(diǎn),同時(shí)減輕來(lái)自噪聲節(jié)點(diǎn)的干擾。

18、

19、2.6)全局特征的提取。采用了一種attention的多頭機(jī)制,將其獲得的特征拼接起來(lái),使得輸出的每個(gè)節(jié)點(diǎn)i融合更多相關(guān)的鄰接節(jié)點(diǎn)的特征,來(lái)提取全局信息。

20、

21、k表示獨(dú)立的計(jì)算k個(gè)attention,從粗細(xì)粒度方面能夠更好的提取信息。獲得一個(gè)更全面的特征表示。更有利于學(xué)習(xí)語(yǔ)音文檔中話語(yǔ)語(yǔ)境的全局信息。

22、(3)特征融合階段

23、將通過(guò)預(yù)訓(xùn)練模型提取的局部上下文的語(yǔ)義特征向量si和通過(guò)圖網(wǎng)絡(luò)學(xué)習(xí)的話語(yǔ)語(yǔ)境的全局特征向量hi拼接,并應(yīng)用基于相似性的注意機(jī)制獲得最終的特征表示:

24、

25、

26、

27、其中hi是將局部上下文的語(yǔ)義特征向量si和通過(guò)圖網(wǎng)絡(luò)學(xué)習(xí)的話語(yǔ)語(yǔ)境的全局特征向量拼接后的向量。βi是基于注意力后的權(quán)重值,最后在將不同的權(quán)重值加到對(duì)應(yīng)的特征向量上,使其模型獲得基于相似性的特征表示。最后,通過(guò)relu激活函數(shù)并結(jié)合全連接網(wǎng)絡(luò),再通過(guò)softmax函數(shù)進(jìn)行分類(lèi),最后輸出分類(lèi)結(jié)果:

28、

29、pi=softmax(wsmaxli+bsmax)

30、

31、是模型預(yù)測(cè)出的主題類(lèi)別。將其與文本標(biāo)注的主題類(lèi)別進(jìn)行比較來(lái)判斷分類(lèi)的正確性。

32、本發(fā)明的特點(diǎn)及有益效果在于:基于聲學(xué)特征只能夠捕捉到很短時(shí)間內(nèi)的局部時(shí)頻信息。本發(fā)明使用wavlm預(yù)訓(xùn)練模型提取的語(yǔ)義特征代替原來(lái)的聲學(xué)特征并與圖網(wǎng)絡(luò)構(gòu)建的話語(yǔ)語(yǔ)境的特征相結(jié)合大大提高了分類(lèi)的準(zhǔn)確性。將局部特征與全局特征相結(jié)合的方式使模型更全面的理解語(yǔ)音內(nèi)容,提高了整體的可解釋性。同時(shí)將大規(guī)模預(yù)訓(xùn)練“從無(wú)標(biāo)注語(yǔ)音中學(xué)習(xí)”的能力,與圖網(wǎng)絡(luò)“從標(biāo)注數(shù)據(jù)泛化到未標(biāo)注數(shù)據(jù)”的能力結(jié)合,緩解了訓(xùn)練標(biāo)注數(shù)據(jù)需求量大的問(wèn)題。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
团风县| 旺苍县| 蒙阴县| 宿州市| 松潘县| 乌兰浩特市| 德兴市| 会东县| 德州市| 龙游县| 遂昌县| 精河县| 马关县| 尼玛县| 双流县| 乌审旗| 云阳县| 洪湖市| 正定县| 海丰县| 黎平县| 中西区| 池州市| 渝北区| 天峻县| 于田县| 宜君县| 离岛区| 连州市| 沽源县| 磐安县| 陵川县| 北碚区| 大城县| 岱山县| 吕梁市| 彝良县| 乐都县| 都匀市| 伊金霍洛旗| 容城县|