本發(fā)明屬于人工智能,具體涉及基于生成式ai的情感連接交互方法、系統(tǒng)及設(shè)備。
背景技術(shù):
1、在當(dāng)前的數(shù)字化時(shí)代背景下,生成式ai作為一種前沿技術(shù),展現(xiàn)出了從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)和創(chuàng)造新穎原創(chuàng)內(nèi)容的能力。然而,盡管傳統(tǒng)生成式ai技術(shù)已取得顯著進(jìn)展,但其交互模式仍存在局限性,現(xiàn)有系統(tǒng)大多遵循“問(wèn)答”范式,需用戶明確提出問(wèn)題或需求后方能給予相應(yīng)反饋,這種被動(dòng)響應(yīng)機(jī)制限制了ai在對(duì)話中的主動(dòng)性與互動(dòng)性。
2、此外,當(dāng)前生成式ai主要依賴于文本分析技術(shù),這一方法在處理語(yǔ)言內(nèi)容時(shí)忽略了理解和感知用戶情感狀態(tài)及心理需求不可或缺的語(yǔ)音特征。
3、因此,亟需一種能夠在日常生活中為經(jīng)歷孤獨(dú)感、壓力或?qū)で笄楦姓J(rèn)同的成年人提供便捷式情感慰藉的生成式ai情感連接交互方法與設(shè)備,傾聽(tīng)和回應(yīng)用戶心聲,填補(bǔ)用戶的情感空白。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對(duì)上述現(xiàn)有技術(shù)存在的技術(shù)問(wèn)題,提供了基于生成式ai的情感連接交互方法、系統(tǒng)及設(shè)備。
2、本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:
3、第一方面,本發(fā)明提供基于生成式ai的情感連接交互方法,所述方法包括以下步驟:
4、步驟s1,采集用戶信息,設(shè)定人機(jī)交互方式,通過(guò)情感交互設(shè)備接收用戶的語(yǔ)音信息;
5、步驟s2,構(gòu)建人機(jī)交互的情感分析模型,將語(yǔ)音信息作為人機(jī)交互的情感分析模型的輸入,利用語(yǔ)音識(shí)別引擎將語(yǔ)音信息轉(zhuǎn)換為語(yǔ)音文本,采用基于詞典的分詞算法對(duì)語(yǔ)音文本實(shí)施分詞處理,將采用基于詞典的分詞算法處理后的數(shù)據(jù)映射至連續(xù)的向量空間,捕捉語(yǔ)音文本之間的語(yǔ)義關(guān)系,獲得文本嵌入向量,利用聲學(xué)特征提取技術(shù)對(duì)語(yǔ)音信息提取聲學(xué)嵌入向量;將文本嵌入向量和聲學(xué)嵌入向量通過(guò)基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),確定語(yǔ)音信息的情感分類;
6、步驟s3,對(duì)基于詞典的分詞算法處理后的數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,確定語(yǔ)音信息的話題領(lǐng)域;
7、步驟s4,利用大語(yǔ)言模型,根據(jù)文本嵌入向量、情感分類、話題領(lǐng)域,得到情感反饋嵌入向量;
8、步驟s5,利用自然語(yǔ)言生成技術(shù),根據(jù)情感反饋嵌入向量、用戶信息以及歷史交互數(shù)據(jù),生成用戶情感反饋信息。
9、優(yōu)選的,采用基于詞典的分詞算法對(duì)語(yǔ)音文本實(shí)施分詞處理具體為:融合雙向最大匹配以及基于深度理解的分詞策略,動(dòng)態(tài)精準(zhǔn)地確定最優(yōu)分詞結(jié)果。
10、優(yōu)選的,提取聲學(xué)嵌入向量的具體步驟如下:首先,利用聲學(xué)特征提取技術(shù)對(duì)語(yǔ)音信息,依次提取語(yǔ)音基頻、過(guò)零率韻律類特征,梅爾倒譜系數(shù)、頻譜質(zhì)心基于譜的特征,頻率微擾、振幅微擾、頻譜帶寬、頻譜滾降點(diǎn)、均方根能量音質(zhì)類特征,將均方根能量的均值、標(biāo)準(zhǔn)差、最大值、展平成一維數(shù)組的頻譜滾降點(diǎn)和頻譜帶寬以及其他特征的原始形式進(jìn)行特征拼接,得到聲學(xué)特征向量,然后,利用深度神經(jīng)網(wǎng)絡(luò)將聲學(xué)特征向量轉(zhuǎn)換為聲學(xué)嵌入向量,其中,深度神經(jīng)網(wǎng)絡(luò)包括三個(gè)全連接層和兩個(gè)隨機(jī)失活層。
11、優(yōu)選的,提取聲學(xué)嵌入向量前,首先,提取語(yǔ)音信息的短時(shí)能量和過(guò)零率,然后,采用雙門限端點(diǎn)檢測(cè)方法結(jié)合短時(shí)能量和過(guò)零率,確認(rèn)有效語(yǔ)音段。
12、優(yōu)選的,步驟s2中,所述將文本嵌入向量和聲學(xué)嵌入向量輸入基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),確定語(yǔ)音信息的情感分類,具體為:
13、將文本嵌入向量和聲學(xué)嵌入向量輸入注意力融合,得到融合嵌入表示:
14、(1)
15、其中,表示聲學(xué)嵌入向量,表示文本嵌入向量,表示逐元素相乘,表示和特征權(quán)重矩陣、表示積特征權(quán)重矩陣;
16、將融合嵌入表示輸入卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)包括三個(gè)卷積層、三個(gè)整流線性單元relu層和一個(gè)全連接層fc:
17、(2)
18、(3)
19、<mstyle displaystyle="true" mathcolor="#000000"><mstyle displaystyle="true" mathcolor="#000000"><mi>f</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><msub><mrow /><mstyle displaystyle="true" mathcolor="#000000"><mi>i</mi></mstyle></msub></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>=</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>r</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>e</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>s</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>h</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>a</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>p</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>e</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>(</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>r</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><msub><mrow /><mstyle displaystyle="true" mathcolor="#000000"><mi>i</mi></mstyle></msub></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>,</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>[</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>?</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mn>1</mn></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>,</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>(</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>n</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>?</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>f</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><msub><mrow /><mstyle displaystyle="true" mathcolor="#000000"><mi>i</mi></mstyle></msub></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mo>+</mo></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mn>1</mn></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>)</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>×</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>n</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>u</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>m</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi></mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>f</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>i</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>l</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>t</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>e</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>r</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>s</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>]</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>)</mi></mstyle></mstyle>(4)
20、<mstyle displaystyle="true" mathcolor="#000000"><mstyle displaystyle="true" mathcolor="#000000"><mi>h</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>=</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>c</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>o</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>n</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>c</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>a</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>t</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>(</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>[</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>f</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><msub><mrow /><mstyle displaystyle="true" mathcolor="#000000"><mn>1</mn></mstyle></msub></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>,</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>f</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><msub><mrow /><mstyle displaystyle="true" mathcolor="#000000"><mn>2</mn></mstyle></msub></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>,</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>…</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>,</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>f</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><msub><mrow /><mi>i</mi></msub></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>]</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>,</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>a</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>i</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>s</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>=</mi></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mn>1</mn></mstyle><mstyle displaystyle="true" mathcolor="#000000"><mi>)</mi></mstyle></mstyle>(5)
21、(6)
22、其中,表示每一卷積層輸出的結(jié)果,表示濾波器的數(shù)量,表示濾波器的維度,表示每一個(gè)卷積層對(duì)應(yīng)的濾波器維度,d表示融合嵌入表示的維度,分別為1、2、3,表示每一整流線性單元relu層輸出的結(jié)果,表示對(duì)每一整流線性單元relu層的輸出展平的結(jié)果,表示改變激活層輸出張量的形狀,表示卷積核滑動(dòng)時(shí)考慮的詞元數(shù)量范圍,表示沿著指定的維度將多個(gè)張量進(jìn)行拼接,表示維度數(shù),h表示展平后的輸出進(jìn)行拼接的結(jié)果,表示全連接層,表示標(biāo)簽的個(gè)數(shù)。
23、優(yōu)選的,步驟s3具體步驟如下:利用詞元構(gòu)建詞袋模型,并將詞袋模型輸入隱含狄利克雷分布主題模型中,獲得語(yǔ)音信息的話題領(lǐng)域。
24、第二方面,提供基于生成式ai的情感連接交互系統(tǒng),所述系統(tǒng)包括語(yǔ)音輸入模塊、語(yǔ)音識(shí)別與處理模塊、情感分析模塊、自適應(yīng)情感模塊、人機(jī)交互界面模塊、通信模塊,
25、語(yǔ)音輸入模塊用于獲取用戶的語(yǔ)音信息,
26、語(yǔ)音識(shí)別與處理模塊對(duì)語(yǔ)音信息的聲學(xué)特征進(jìn)行提取獲得聲學(xué)嵌入向量,
27、情感分析模塊利用語(yǔ)音識(shí)別引擎,將語(yǔ)音信息轉(zhuǎn)換為語(yǔ)音文本,采用基于詞典的分詞算法對(duì)語(yǔ)音文本實(shí)施分詞處理,然后,將詞元映射至連續(xù)的向量空間,捕捉語(yǔ)音文本之間的語(yǔ)義關(guān)系,獲得文本嵌入向量,對(duì)語(yǔ)音信息的文本特征進(jìn)行提取獲得文本嵌入向量,并通過(guò)基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)嵌入向量和文本嵌入向量的融合,確定語(yǔ)音信息的情感分類,
28、自適應(yīng)情感模塊負(fù)責(zé)收集、整理與存儲(chǔ)用戶交互信息,對(duì)詞元進(jìn)行自然語(yǔ)言處理,確定話題領(lǐng)域;利用大語(yǔ)言模型,根據(jù)文本嵌入向量、情感分類、話題領(lǐng)域,得到情感嵌入向量,利用自然語(yǔ)言生成技術(shù),根據(jù)情感反饋嵌入向量、用戶信息以及歷史交互數(shù)據(jù),識(shí)別用戶在不同情境情感變化的潛在規(guī)律與趨勢(shì)生成用戶情感反饋信息,
29、人機(jī)交互界面模塊用戶獲取用戶注冊(cè)信息,
30、通信模塊負(fù)責(zé)與用戶設(shè)備之間的數(shù)據(jù)傳輸與通信,并反饋用戶情感反饋信息。
31、第三方面,本發(fā)明提供基于生成式ai的情感連接交互設(shè)備,包括處理器模塊、音頻接收與發(fā)送模塊、通信模塊、電源模塊和存儲(chǔ)器模塊,
32、處理器模塊包括cpu和npu,cpu負(fù)責(zé)處理包括語(yǔ)音信息在內(nèi)的各種計(jì)算任務(wù);npu負(fù)責(zé)優(yōu)化用于加速神經(jīng)網(wǎng)絡(luò)相關(guān)的計(jì)算任務(wù),
33、音頻接收與發(fā)送模塊負(fù)責(zé)接收用戶的語(yǔ)音信息以及發(fā)送用戶情感反饋信息,
34、通信模塊與用戶設(shè)備之間的數(shù)據(jù)傳輸與通信,
35、電源模塊負(fù)責(zé)提供設(shè)備運(yùn)行所需的電力,
36、存儲(chǔ)器模塊負(fù)責(zé)存儲(chǔ)用戶數(shù)據(jù),并利用應(yīng)用程序和操作系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)交互。
37、本發(fā)明具有以下有益效果:本發(fā)明提取了包括韻律特征、譜特征以及音質(zhì)特征在內(nèi)的三類聲學(xué)特征,顯著增強(qiáng)了特征的辨識(shí)度,從而能夠更精確地判定用戶當(dāng)前的情緒狀態(tài)。此外,本發(fā)明采用了基于早期融合的方法,充分發(fā)揮語(yǔ)音在表達(dá)情感強(qiáng)烈程度方面的優(yōu)勢(shì)以及文本在判斷情感正負(fù)向方面的準(zhǔn)確性,實(shí)現(xiàn)兩者在特征級(jí)別的有效融合,避免了后期融合方法因不同處理框架所得分類結(jié)果可能存在的非互補(bǔ)性而導(dǎo)致的性能下降。
38、本發(fā)明具備高智能化的交互能力,融合情感傾向、話題領(lǐng)域和文本等信息,引導(dǎo)大模型依據(jù)用戶的言語(yǔ)生成更針對(duì)性的響應(yīng),無(wú)需依賴預(yù)設(shè)問(wèn)題的提出,可在情感交流的關(guān)鍵時(shí)刻提供即時(shí)的反饋通道,提升用戶交互的流暢性和自然度。