本發(fā)明涉及人工智能領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、在大語言模型的出現(xiàn)為傳統(tǒng)的自然語言處理(nlp)領(lǐng)域帶來了革命性的變革。這些模型,如gpt-3、bert等,通過海量的數(shù)據(jù)訓(xùn)練,不僅提升了語言理解和生成的準(zhǔn)確性,還極大地增強(qiáng)了處理復(fù)雜語言任務(wù)的能力。它們能夠捕捉到語言的深層語義和上下文關(guān)系,使得機(jī)器能夠更加流暢地理解和回應(yīng)人類的語言。
2、大語言模型使得語音交互系統(tǒng)變得更加智能和自然,能夠處理多輪對(duì)話,保持對(duì)話的連貫性,甚至在一定程度上理解并回應(yīng)用戶的情感。大語言模型的優(yōu)勢(shì)還體現(xiàn)在其強(qiáng)大的泛化能力上,它們能夠在多種語言任務(wù)上表現(xiàn)出色,無需針對(duì)每個(gè)任務(wù)進(jìn)行大量的定制化訓(xùn)練。這使得大語言模型在搜索引擎優(yōu)化、內(nèi)容生成、機(jī)器翻譯等多個(gè)領(lǐng)域都有著廣泛的應(yīng)用前景。
3、傳統(tǒng)的語音對(duì)話大概分為語音識(shí)別(asr)、自然語言理解(nlu)、答案生成(nlg)和語音合成(tts)幾大模塊。大語言模型的出現(xiàn)使得在傳統(tǒng)的語音交互鏈路中的nlu和nlg變得更加智能。但是同時(shí)大語言模型由于規(guī)模變大,帶來的性能損失、交互模式變化、推理成本增加等問題,同樣給融合大語言模型的語音對(duì)話帶來挑戰(zhàn)。如何用好大語言模型的智能能力,克服大語言模型帶來的工程化問題,是大語言模型語音交互落地亟待解決的問題。
4、目前,在使用大語言模型進(jìn)行語音對(duì)話的情況下,傳統(tǒng)方式是:在將語音轉(zhuǎn)換為文本后,將大段文本一股腦輸入給大語言模型進(jìn)行分析,生成相應(yīng)的答復(fù)內(nèi)容。但是,這種情況,需要等待語音輸入完畢后,才能由大語言模型進(jìn)行分析,其輸入等待時(shí)間能夠;并且將大段文本一股腦輸入給大語言模型進(jìn)行分析,其需要分析的數(shù)據(jù)量較大,生成答復(fù)內(nèi)容的等待時(shí)間也比較長(zhǎng),從而存在語音對(duì)話的答復(fù)應(yīng)速度慢的問題。
5、針對(duì)上述語音對(duì)話的答復(fù)應(yīng)速度慢的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)程序產(chǎn)品,以至少解決語音對(duì)話的答復(fù)應(yīng)速度慢的技術(shù)問題。
2、根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種數(shù)據(jù)處理方法,包括:獲取待識(shí)別的字幕流數(shù)據(jù),其中,所述字幕流數(shù)據(jù)通過對(duì)待識(shí)別的語音流數(shù)據(jù)進(jìn)行轉(zhuǎn)譯得到,所述字幕流數(shù)據(jù)包括:多個(gè)文本幀,多個(gè)所述文本幀用于構(gòu)成待識(shí)別的自然語言文本;使用預(yù)設(shè)后端點(diǎn)模型在所述字幕流數(shù)據(jù)的多個(gè)所述文本幀中識(shí)別后端點(diǎn),其中,所述后端點(diǎn)用于表示語義結(jié)束的位置,所述預(yù)設(shè)后端點(diǎn)模型為預(yù)先訓(xùn)練的語義模型,用于識(shí)別自然語言文本中的所述后端點(diǎn);以所述后端點(diǎn)為截取文本幀的位置點(diǎn),在所述字幕流數(shù)據(jù)中截取多個(gè)文本幀,得到待處理數(shù)據(jù);生成所述待處理數(shù)據(jù)的答復(fù)流數(shù)據(jù)。
3、可選地,在獲取待識(shí)別的字幕流數(shù)據(jù)之后,方法還包括:在所述字幕流數(shù)據(jù)中,確定連續(xù)空白幀的空白幀數(shù)量,其中,所述空白幀為表示空白語義的文本幀;在所述空白幀數(shù)量超過預(yù)設(shè)數(shù)量閾值的情況下,以所述空白幀數(shù)量的所述空白幀為截取文本幀的位置點(diǎn),在所述字幕流數(shù)據(jù)中截取多個(gè)所述文本幀,得到所述待處理數(shù)據(jù)。
4、可選地,方法還包括:在所述空白幀數(shù)量未超過預(yù)設(shè)數(shù)量閾值的情況下,將所述字幕流數(shù)據(jù)輸入所述預(yù)設(shè)后端點(diǎn)模型。
5、可選地,獲取待識(shí)別的字幕流數(shù)據(jù)包括:獲取待識(shí)別的語音流數(shù)據(jù),其中,所述語音流數(shù)據(jù)包括:多個(gè)語音幀,和每個(gè)所述語音幀對(duì)應(yīng)的語音時(shí)間戳;對(duì)所述語音流數(shù)據(jù)進(jìn)行轉(zhuǎn)譯,得到轉(zhuǎn)譯文本數(shù)據(jù),其中,所述轉(zhuǎn)譯文本數(shù)據(jù)包括:多個(gè)待識(shí)別文本,多個(gè)所述待識(shí)別文本用于構(gòu)成待識(shí)別的自然語言文本;確定每個(gè)所述待識(shí)別文本與所述語音幀的匹配關(guān)系,其中,存在所述匹配關(guān)系的所述待識(shí)別文本和所述語音幀表達(dá)相同的語義;按照所述語音幀的所述語音時(shí)間戳,為所述語音幀對(duì)應(yīng)的所述待識(shí)別文本添加字幕時(shí)間戳,得到所述字幕流數(shù)據(jù),其中,所述字幕流數(shù)據(jù)中的每個(gè)所述文本幀數(shù)據(jù)為添加了所述字幕時(shí)間戳的所述待識(shí)別文本。
6、可選地,生成所述待處理數(shù)據(jù)的答復(fù)流數(shù)據(jù)包括:使用預(yù)設(shè)大語言模型對(duì)所述待處理數(shù)據(jù)進(jìn)行處理,得到所述待處理數(shù)據(jù)的答復(fù)文本數(shù)據(jù),其中,所述預(yù)設(shè)大語言模型能夠理解和生成所述自然語言文本,所述待處理數(shù)據(jù)和所述答復(fù)文本數(shù)據(jù)為所述自然語言文本;使用所述預(yù)設(shè)后端點(diǎn)模型在所述答復(fù)文本數(shù)據(jù)中識(shí)別所述后端點(diǎn);以所述后端點(diǎn)為截取所述答復(fù)文本數(shù)據(jù)的位置點(diǎn),在所述答復(fù)文本數(shù)據(jù)中截取待轉(zhuǎn)譯文本數(shù)據(jù);對(duì)所述待轉(zhuǎn)譯文本數(shù)據(jù)進(jìn)行轉(zhuǎn)譯,得到所述答復(fù)流數(shù)據(jù)。
7、可選地,所述方法還包括:在所述答復(fù)文本數(shù)據(jù)中包括多個(gè)所述后端點(diǎn)的情況下,以第一個(gè)所述后端點(diǎn)為截取所述答復(fù)文本數(shù)據(jù)的位置點(diǎn),在所述答復(fù)文本數(shù)據(jù)中截取所述待轉(zhuǎn)譯文本數(shù)據(jù);在所述答復(fù)文本數(shù)據(jù)中截取所述待轉(zhuǎn)譯文本數(shù)據(jù)之后,更新所述答復(fù)文本數(shù)據(jù),其中,在更新后的所述答復(fù)文本數(shù)據(jù)中,每個(gè)所述后端點(diǎn)的排位順位晉升。
8、可選地,在對(duì)所述待轉(zhuǎn)譯文本數(shù)據(jù)進(jìn)行轉(zhuǎn)譯,得到所述答復(fù)流數(shù)據(jù)之后,所述方法還包括:將所述答復(fù)流數(shù)據(jù)加入預(yù)設(shè)音頻幀緩存隊(duì)列,其中,所述預(yù)設(shè)音頻幀緩存隊(duì)列包括:按照隊(duì)列順序排列的多個(gè)所述答復(fù)流數(shù)據(jù);按照隊(duì)列順序依次播放所述預(yù)設(shè)音頻幀緩存隊(duì)列中的每個(gè)所述答復(fù)流數(shù)據(jù)。
9、根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理裝置,包括:獲取模塊,用于獲取待識(shí)別的字幕流數(shù)據(jù),其中,所述字幕流數(shù)據(jù)通過對(duì)待識(shí)別的語音流數(shù)據(jù)進(jìn)行轉(zhuǎn)譯得到,所述字幕流數(shù)據(jù)包括:多個(gè)文本幀,多個(gè)所述文本幀用于構(gòu)成待識(shí)別的自然語言文本;識(shí)別模塊,用于使用預(yù)設(shè)后端點(diǎn)模型在所述字幕流數(shù)據(jù)的多個(gè)所述文本幀中識(shí)別后端點(diǎn),其中,所述后端點(diǎn)用于表示語義結(jié)束的位置,所述預(yù)設(shè)后端點(diǎn)模型為預(yù)先訓(xùn)練的語義模型,用于識(shí)別自然語言文本中的所述后端點(diǎn);截取模塊,用于以所述后端點(diǎn)為截取文本幀的位置點(diǎn),在所述字幕流數(shù)據(jù)中截取多個(gè)文本幀,得到待處理數(shù)據(jù);生成模塊,用于生成所述待處理數(shù)據(jù)的答復(fù)流數(shù)據(jù)。
10、根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述處理器被設(shè)置為通過所述計(jì)算機(jī)程序執(zhí)行所述數(shù)據(jù)處理方法。
11、根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述數(shù)據(jù)處理方法的步驟。
12、在本發(fā)明實(shí)施例中,獲取待識(shí)別的字幕流數(shù)據(jù),其中,字幕流數(shù)據(jù)通過對(duì)待識(shí)別的語音流數(shù)據(jù)進(jìn)行轉(zhuǎn)譯得到,字幕流數(shù)據(jù)包括:多個(gè)文本幀,多個(gè)文本幀用于構(gòu)成待識(shí)別的自然語言文本;使用預(yù)設(shè)后端點(diǎn)模型在字幕流數(shù)據(jù)的多個(gè)文本幀中識(shí)別后端點(diǎn),其中,后端點(diǎn)用于表示語義結(jié)束的位置,預(yù)設(shè)后端點(diǎn)模型為預(yù)先訓(xùn)練的語義模型,用于識(shí)別自然語言文本中的后端點(diǎn);以后端點(diǎn)為截取文本幀的位置點(diǎn),在字幕流數(shù)據(jù)中截取多個(gè)文本幀,得到待處理數(shù)據(jù);生成待處理數(shù)據(jù)的答復(fù)流數(shù)據(jù),從而可以將語音形式表示的語音流數(shù)據(jù)轉(zhuǎn)換為采用文本形式表示的字幕流數(shù)據(jù),然后識(shí)別字幕流數(shù)據(jù)中表示語義結(jié)束的后端點(diǎn),并依據(jù)該后端那點(diǎn)將字幕流數(shù)據(jù)截取為包括較少文本內(nèi)容的待處理數(shù)據(jù),達(dá)到了基于文本內(nèi)容較少的待處理數(shù)據(jù)生成答復(fù)流數(shù)據(jù)的目的,由于生成答復(fù)流數(shù)據(jù)所需分析的待處理數(shù)據(jù)的文本內(nèi)容較少,因此分析速度就比較快,從而實(shí)現(xiàn)了提高對(duì)答復(fù)流數(shù)據(jù)的生成速度的技術(shù)效果,進(jìn)而解決了語音對(duì)話的答復(fù)應(yīng)速度慢技術(shù)問題。