本技術(shù)涉及終端,尤其涉及一種語音處理方法、裝置、系統(tǒng)、存儲介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、隨著終端技術(shù)領(lǐng)域的發(fā)展,應用在終端的功能越來越多,例如應用在終端的用戶交流功能。
2、目前,存在一些用戶,由于先天、后天因素導致他們不能和正常人們一樣無障礙進行交流。例如,聽障、漸凍癥、聲帶受損等特殊語障人群在說話發(fā)音上存在缺陷,導致其話語的可懂度低,難以被聽者理解,這大大影響了他們的日常社交。因此,對于特殊語障人群來說,他們在交流場景下,需要在電子設(shè)備輸入文本,然后電子設(shè)備可以將用戶輸入的文本轉(zhuǎn)換成語音后輸出。
3、然而,對于特殊語障人群來說,需要在電子設(shè)備輸入文本的方式進行交流,存在交流不夠便捷的情況。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種語音處理方法、裝置、系統(tǒng)、存儲介質(zhì)和程序產(chǎn)品,有利于提高用戶之間交流的便捷性。
2、第一方面,本技術(shù)實施例提供了一種語音處理方法,該方法可以包括:
3、接收設(shè)置輸入,設(shè)置輸入用于指示開啟語音修復的場景、開啟語音修復的聯(lián)系人或開啟語音修復的應用,場景包括面對面交流場景或遠程交流場景。然后,通過聲音注冊獲取用戶的第一語音特征。其中,聲音注冊和設(shè)置輸入的順序可以調(diào)換。然后,用戶在說話時,可以接收用戶輸入的第一語音。由于之前接收了設(shè)置輸入,則可以根據(jù)設(shè)置輸入和第一語音特征對第一語音進行修復。
4、在本技術(shù)實施例中,根據(jù)設(shè)置輸入和第一語音特征對第一語音進行修復,并且由于設(shè)置輸入用于指示開啟語音修復的場景、開啟語音修復的聯(lián)系人或開啟語音修復的應用,則在檢測到電子設(shè)備處于開啟的語音修復的場景時,或者在電子設(shè)備所交流的聯(lián)系人為該開啟語音修復的聯(lián)系人時,或者在電子設(shè)備正在運行的應用為開啟語音修復的應用時,根據(jù)第一語音特征對第一語音進行修復,使得修復后的第一語音能夠以該第一語音特征進行播報,并且修復后的第一語音的可懂度高于修復前的第一語音的可懂度。其中,可懂度可以表示表達用戶所想要表達的準確程度,也可以理解為聽者對揚聲器傳遞的語音信號的理解程度。
5、在本技術(shù)實施例中,通過接收設(shè)置輸入,設(shè)置輸入用于指示開啟語音修復的場景、開啟語音修復的聯(lián)系人或開啟語音修復的應用,然后,通過聲音注冊獲取用戶的第一語音特征,則在接收到用戶輸入的第一語音后,能夠根據(jù)設(shè)置輸入和第一語音特征對第一語音進行修復,這樣,語障用戶或聽障用戶能夠通過輸入語音的方式進行交流,由此可以提高語障用戶進行交流的便利性。此外,通過用戶注冊的第一語音特征來生成修復后的第一語音,這樣可以按照第一語音特征來播報修復后的第一語音,由此可以按照用戶自身的語音特征進行修復后的第一語音的播報,更貼近用戶自身的音色等,由此可以進一步提高用戶體驗。
6、在一種可能的實現(xiàn)方式中,遠程交流場景包括通話場景,在通話場景下,方法還包括:
7、向通話的第一聯(lián)系人發(fā)送第一提示信息,從而提示已開啟語音修復功能。和/或,在接收到第一語音的情況下向第一聯(lián)系人發(fā)送第二提示信息,從而提示正在對第一語音進行修復。
8、在本技術(shù)實施例中,通過向通話的第一聯(lián)系人發(fā)送第一提示信息,以提示用戶已開啟語音修復功能,由此可以使得第一聯(lián)系人得知用戶已開啟語音修復功能,由此可以提高通話的體驗。此外,通過在接收到第一語音的情況下向第一聯(lián)系人發(fā)送第二提示信息,以提示正在對第一語音進行修復,這樣可以使得第一聯(lián)系人得知是因為在進行語音修復所導致的時延,減少雙方或多方通話的說話時間沖突的情況,由此可以提高通話體驗。
9、在一種可能的實現(xiàn)方式中,第二提示信息包括提示音,則在接收到第一語音的情況下向第一聯(lián)系人發(fā)送第二提示信息,可以包括:
10、在開始接收到第一語音的情況下,持續(xù)向第一聯(lián)系人發(fā)送提示音。并且,在開始向第一聯(lián)系人發(fā)送修復后的第一語音的情況下,停止向第一聯(lián)系人發(fā)送提示音。
11、在本技術(shù)實施例中,通過在開始接收到第一語音的情況下,持續(xù)向第一聯(lián)系人發(fā)送提示音,這樣,第一聯(lián)系人在收聽到提示音時就能得知另一端的用戶正在說話,并且開始向第一聯(lián)系人發(fā)送修復后的第一語音的情況下,停止向第一聯(lián)系人發(fā)送提示音,則第一聯(lián)系人隨后就能聽到修復后的第一語音,由此可以減少通話時雙方或多方說話沖突的情況,由此可以提高通話雙方的體驗。
12、在一種可能的實現(xiàn)方式中,遠程交流場景包括通話場景,在通話場景下,方法還包括:
13、向通話的第一聯(lián)系人發(fā)送修復后的第一語音。然后,可以顯示第一界面,第一界面為與第一聯(lián)系人進行通話的界面,第一界面包括第一控件,第一控件用于控制語音修復功能的關(guān)閉。然后,響應于針對第一控件的第一操作,關(guān)閉語音修復功能,以向第一聯(lián)系人發(fā)送第二語音,第二語音包括關(guān)閉語音修復功能后接收到的用戶的語音。
14、在本技術(shù)實施例中,在通話的過程中,還能夠控制語音修復的關(guān)閉,這樣,用戶可以在不需要語音修復時控制語音修復的關(guān)閉,提高語音修復使用或者不使用的切換靈活性。例如,用戶可以在電子設(shè)備電量低或者電子設(shè)備運行卡頓時通過第一控件控制語音修復功能關(guān)閉,由此可以提高通話時的語音修復功能的關(guān)閉,提高用戶體驗。
15、在一種可能的實現(xiàn)方式中,在響應于第一操作的情況下,還將第一控件從第一狀態(tài)切換至第二狀態(tài),第一狀態(tài)用于指示語音修復功能已開啟,第二狀態(tài)用于指示語音修復功能已關(guān)閉,該方法還包括:
16、響應于針對第一控件的第二操作,然后將第一控件從第二狀態(tài)切換至第一狀態(tài),以及開啟語音修復功能,從而向第一聯(lián)系人發(fā)送修復后的第三語音,第三語音包括開啟語音修復功能后接收到用戶的語音。
17、在本技術(shù)實施例中,通過第一控件的狀態(tài)可以得知目前語音修復功能是否開啟,由此可以提高用戶選擇使用或者選擇不使用語音修復功能的準確性。并且,本技術(shù)實施例不僅能夠在通話時關(guān)閉語音修復功能,還能夠在通話時再次開啟語音修復功能,這樣,能夠提高語音修復開啟或關(guān)閉的靈活性。此外,通過同一控件實現(xiàn)語音修復功能的開啟或關(guān)閉,由此可以提高通話時的界面的簡潔性。
18、應理解,微信應用和面對面交流應用也可以支持在應用的界面中進行語音修復功能的關(guān)閉或開啟,可以參照通話界面如何進行語音修復功能的關(guān)閉或開啟的相關(guān)描述,在此不作贅述。
19、在一種可能的實現(xiàn)方式中,該方法還包括:
20、顯示第二界面,第二界面包括修復后的第一語音的播放控件和修復后的第一語音對應的第一文本。然后,如果用戶對第一文本中的第一目標字符,則接收到第三操作,第三操作用于選擇第一文本中的第一目標字符。響應于第三操作,顯示與第一目標字符相關(guān)的至少一個候選字符。然后,如果用戶選擇候選字符中的其中一個字符,則可以接收到第四操作,第四操作用于選擇至少一個候選字符中的第二目標字符。響應于第四操作,顯示第二文本和第二文本對應的語音的播放控件,第二文本是通過將第一文本中的第一目標字符替換為第二目標字符得到的。
21、在本技術(shù)實施例中,通過顯示第二界面,第二界面包括修復后的第一語音的播放控件和修復后的第一語音對應的第一文本。接收到第三操作,第三操作用于選擇第一文本中的第一目標字符。響應于第三操作,顯示與第一目標字符相關(guān)的至少一個候選字符。接收到第四操作,第四操作用于選擇至少一個候選字符中的第二目標字符。響應于第四操作,顯示第二文本和第二文本對應的語音的播放控件,這樣,能夠在語音修復的結(jié)果不準確時,用戶可以手動快速糾正,由此提高了通過語音進行交流的準確性。
22、在一種可能的實現(xiàn)方式中,該方法還包括:
23、取消修復后的第一語音的播放控件的顯示。
24、在本技術(shù)實施例中,通過取消修復后的第一語音的播放控件的顯示,可以使得每次只有一個最新的語音的播放控件,這樣能夠提高選擇合適的語音進行播報的便利性。
25、在一種可能的實現(xiàn)方式中,在遠程交流場景下,方法還包括:
26、顯示第三界面,第三界面為與第二聯(lián)系人交流的界面,第三界面包括第二控件和第三控件,第二控件用于指示向第二聯(lián)系人發(fā)送第一語音,第三控件用于指示向第二聯(lián)系人發(fā)送修復后的第一語音。然后,可以響應于針對第三控件的操作,向第二聯(lián)系人發(fā)送修復后的第一語音?;蛘撸梢皂憫卺槍Φ诙丶牟僮?,向第二聯(lián)系人發(fā)送第一語音。
27、在本技術(shù)實施例中,用戶可以通過第二控件和第三控件,選擇性向第二聯(lián)系人發(fā)送修復后的語音還是修復前的語音,也就是說,即使語音修復功能開啟,用戶仍然可以選擇向第二聯(lián)系人發(fā)送原聲,由此提高了用戶進行遠程交流的靈活性。
28、在一種可能的實現(xiàn)方式中,在面對面交流場景下,方法還包括:
29、顯示第四界面,第四界面包括虛擬鍵盤。然后,用戶可以對虛擬鍵盤進行操作,則可以響應于針對虛擬鍵盤的操作,顯示第三文本。然后,用戶可以對第四控件進行操作,則可以接收到針對第四界面中的第四控件的第五操作,第四控件用于指示生成語音。響應于第五操作,根據(jù)第一語音特征生成第三文本對應的語音。
30、在本技術(shù)實施例中,通過顯示第四界面,第四界面包括虛擬鍵盤。響應于針對虛擬鍵盤的操作,顯示第三文本。接收到針對第四界面中的第四控件的第五操作,第四控件用于指示生成語音。響應于第五操作,根據(jù)第一語音特征生成第三文本對應的語音,也就是說,用戶還能夠通過輸入文字,然后根據(jù)注冊的第一語音特征生成語音,也就是實現(xiàn)了文字到語音的轉(zhuǎn)換,則用戶可以根據(jù)選擇輸入語音或者輸入文字進行交流,提高了用戶進行交流的可選擇性和靈活性。
31、在一種可能的實現(xiàn)方式中,第三文本包括標點符號和/或表情包,則在根據(jù)第一語音特征生成第三文本對應的語音時,還可以根據(jù)標點符號和/或表情包控制生成第三文本對應的語音的語氣。
32、在本技術(shù)實施例中,可以通過用戶輸入的第三文本中的標點符號和/或表情包控制第三文本對應的語音的語氣,由此能夠根據(jù)用戶輸入文本適應性調(diào)整輸出的語音的語氣,由此能夠提高語音播報的靈活性,提高用戶體驗。
33、在一種可能的實現(xiàn)方式中,通過聲音注冊獲取用戶的第一語音特征,包括:
34、顯示第五界面,第五界面為聲音注冊的界面,而第五界面包括第三提示信息和第五控件,第三提示信息用于提示聲音注冊的錄制內(nèi)容,第五控件用于指示錄制語音。如果用戶對第五控件操作,則可以響應于針對第五控件的操作,錄制第四語音。從第四語音中提取第一語音特征。
35、本技術(shù)實施例中,通過第五控件來觸發(fā)語音的錄制,由此可以提高語音錄制的準確性和有效性,并且后續(xù)在錄制內(nèi)容與語音識別結(jié)果進行比對時,也更準確,進而提高修復模型選擇的準確性。
36、在一種可能的實現(xiàn)方式中,方法還包括:
37、對第四語音進行語音識別,得到第四文本。然后,將第四文本與錄制內(nèi)容進行比對,得到第四文本與錄制內(nèi)容之間的相似度。然后,則可以基于相似度從多個修復模型中選擇目標修復模型,目標修復模型用于對第一語音進行修復,多個修復模型的語音修復能力各不相同,目標修復模型的語音修復能力與相似度負相關(guān)。
38、在本技術(shù)實施例中,通過對用戶注冊的語音進行語音識別得到的文本與錄制內(nèi)容進行比對,然后得到相似度,進而基于相似度從多個修復模型中選擇目標修復模型,這樣能夠根據(jù)用戶的語障程度選擇合適的修復模型進行修復,由此能夠平衡語音修復的準確性以及語音修復所需要的算力資源。
39、第二方面,本技術(shù)實施例還提供了另一種語音處理方法。該方法可以包括:
40、接收設(shè)置輸入,設(shè)置輸入用于指示開啟語音修復的場景、開啟語音修復的聯(lián)系人或開啟語音修復的應用,場景包括面對面交流場景或遠程交流場景。然后,可以接收來自目標聯(lián)系人的第五語音。則需要進行語音修復時,可以獲取第二語音特征,第二語音特征為預置的語音特征或從第五語音提取的語音特征。然后,根據(jù)設(shè)置輸入和第二語音特征對第五語音進行修復。
41、在本技術(shù)實施例中,根據(jù)設(shè)置輸入和第二語音特征對第五語音進行修復,并且由于設(shè)置輸入用于指示開啟語音修復的場景、開啟語音修復的聯(lián)系人或開啟語音修復的應用,則在檢測到電子設(shè)備處于開啟的語音修復的場景時,在電子設(shè)備所交流的聯(lián)系人為該開啟語音修復的聯(lián)系人時,或者在電子設(shè)備正在運行的應用為開啟語音修復的應用時,根據(jù)第二語音特征對第五語音進行修復,使得修復后的第五語音的可懂度高于修復前的第五語音的可懂度。其中,可懂度可以表示該語音被聆聽時理解程度,也可以理解為語音表達聯(lián)系人所想要表達的準確程度。
42、在一種可能的實現(xiàn)方式中,在遠程交流場景下,方法還包括:
43、顯示第六界面,第六界面為與目標聯(lián)系人交流的界面,第六界面包括第五語音。然后,如果用戶對第五語音進行操作,則可以響應于針對第五語音的操作,顯示第六控件和第七控件,第六控件用于指示將第五語音轉(zhuǎn)換成文本,第七控件用于指示將修復后的第五語音轉(zhuǎn)換成文本。然后,用戶可以對第六控件或第七控件進行操作,則可以響應于針對第七控件的操作,顯示修復后的第五語音對應的文本?;蛘撸梢皂憫卺槍Φ诹丶牟僮?,顯示第五語音對應的文本。
44、在本技術(shù)實施例中,在接收到來自目標聯(lián)系人的語音后,可以選擇性將該第五語音轉(zhuǎn)換成文本,也可以理解為將目標聯(lián)系人的原始語音轉(zhuǎn)換成文本;也可以選擇將修復后的第五語音轉(zhuǎn)換為文本,用戶可以根據(jù)需要選擇顯示的文本,由此可以提高用戶交流的靈活性以及體驗。
45、在一種可能的實現(xiàn)方式中,在面對面交流場景下,方法還包括:
46、顯示第七界面,第七界面為與目標聯(lián)系人交流的界面,第七界面包括第八控件。然后,用戶可以對第八控件進行操作,則可以響應于針對第八控件的第六操作,顯示第五文本。然后,用戶可以再次對第八控件進行操作,則可以響應于針對第八控件的第七操作,停止第五文本的顯示,第五文本包括目標時間段內(nèi)的第五語音對應的文本或修復后的第五語音對應的文本,目標時間段包括響應于第六操作到響應于第七操作之間的時間段。
47、在本技術(shù)實施例中,還可以將目標聯(lián)系人的語音轉(zhuǎn)換成文本,由此能夠提高用戶與聯(lián)系人之間的交流方式的靈活性。
48、第三方面,本技術(shù)實施例還提供了另一種語音處理方法,該方法可以包括:
49、獲取目標語音和語音特征。然后,將目標語音和語音特征輸入目標修復模型,目標修復模型用于提取目標語音的內(nèi)容,根據(jù)目標語音的內(nèi)容和語音特征得到語音連續(xù)特征,以及根據(jù)語音連續(xù)特征合成修復后的目標語音。再然后,可以獲取目標修復模型輸出的修復后的目標語音。
50、在本技術(shù)實施例中,輸入目標語音后,電子設(shè)備可以獲取目標語音和語音特征,然后將目標語音和語音特征輸入目標修復模型,目標修復模型用于提取目標語音的內(nèi)容,根據(jù)目標語音的內(nèi)容和語音特征得到語音連續(xù)特征,以及根據(jù)語音連續(xù)特征合成修復后的目標語音,這樣語障人群可以通過輸入語音來實現(xiàn)交流,由此可以提高語障人群進行交流的便利性。
51、在一種可能的實現(xiàn)方式中,目標修復模型包括第一模塊、第二模塊和第三模塊,第一模塊用于提取目標語音的內(nèi)容,第二模塊用于根據(jù)目標語音的內(nèi)容和語音特征得到語音連續(xù)特征,第三模塊用于根據(jù)語音連續(xù)特征合成修復后的目標語音。
52、在一種可能的實現(xiàn)方式中,將目標語音和語音特征輸入目標修復模型,包括:
53、將語音特征和目標語音中的第一部分語音輸入目標修復模型,第一模塊用于提取第一部分語音的內(nèi)容,第二模塊用于根據(jù)語音特征和第一部分語音的內(nèi)容得到目標語音連續(xù)特征,第三模塊用于根據(jù)目標語音連續(xù)特征合成修復后的第一部分語音。然后,將語音特征和目標語音中的第二部分語音輸入目標修復模型,第一模塊用于提取第二部分語音的內(nèi)容,第二模塊用于根據(jù)語音特征和第二部分語音的內(nèi)容得到第二語音連續(xù)特征,第三模塊用于根據(jù)第二語音連續(xù)特征合成修復后的第二部分語音。
54、在本技術(shù)實施例中,通過先對目標語音的一部分語音進行修復,然后再對目標語音的另一部分進行修復,這樣,在獲取到一部分語音時就可以開始語音修復,也就是說,可以不需要在獲取到完整的目標語音也可以開始語音的修復,由此可以提高語音修復的效率。
55、在一種可能的實現(xiàn)方式中,目標修復模型還包括第四模塊,第四模塊用于對第一部分語音進行離散化處理,得到目標語音離散特征,第二模塊還用于根據(jù)目標語音離散特征進行預測,得到修復后的目標語音離散特征,以及用于根據(jù)修復后的目標語音離散特征、語音特征和第二部分語音的內(nèi)容得到第二語音連續(xù)特征。
56、在本技術(shù)實施例中,通過第四模塊對第一部分語音進行離散化處理,得到目標語音離散特征,然后通過第二模塊根據(jù)目標語音離散特征進行預測,得到修復后的目標語音離散特征,然后再根據(jù)修復后的目標語音離散特征、語音特征和第二部分語音的內(nèi)容得到第二語音連續(xù)特征,這樣,能夠結(jié)合目標語音離散特征、語音特征和第二部分語音的內(nèi)容得到第二語音連續(xù)特征,由此可以提高得到的第二語音連續(xù)特征的準確性,進而提高語音修復的準確性。
57、在一種可能的實現(xiàn)方式中,第四模塊用于對第一部分語音進行離散化處理,得到目標語音離散特征,包括:
58、第四模塊用于根據(jù)第一部分語音的內(nèi)容對第一部分語音進行離散化處理,得到目標語音離散特征。
59、在本技術(shù)實施例中,通過根據(jù)第一部分語音的內(nèi)容對第一部分語音進行離散化處理,得到目標語音離散特征,也就是利用了第一部分語音的內(nèi)容作為離散化處理的參考,由此可以提高得到的目標語音離散特征的準確性,進而提高語音修復的準確性。
60、需要說明的是,本技術(shù)實施例的方案,不僅可以用在聲音修復任務上,還可以擴展到方言轉(zhuǎn)普通話、跨語種翻譯等任務。
61、第四方面,提供了另一種語音處理裝置,包括處理器,該處理器與存儲器耦合,可用于執(zhí)行存儲器中的指令,以實現(xiàn)上述第一方面中任一種可能實現(xiàn)方式中的方法。可選地,該裝置還包括存儲器。可選地,該裝置還包括通信接口,處理器與通信接口耦合。
62、第五方面,提供了一種處理器,包括:輸入電路、輸出電路和處理電路。處理電路用于通過輸入電路接收信號,并通過輸出電路發(fā)射信號,使得處理器執(zhí)行上述第一方面中任一種可能實現(xiàn)方式中的方法。
63、在具體實現(xiàn)過程中,上述處理器可以為芯片,輸入電路可以為輸入管腳,輸出電路可以為輸出管腳,處理電路可以為晶體管、門電路、觸發(fā)器和各種邏輯電路等。輸入電路所接收的輸入的信號可以是由例如但不限于接收器接收并輸入的,輸出電路所輸出的信號可以是例如但不限于輸出給發(fā)射器并由發(fā)射器發(fā)射的,且輸入電路和輸出電路可以是同一電路,該電路在不同的時刻分別用作輸入電路和輸出電路。本技術(shù)實施例對處理器及各種電路的具體實現(xiàn)方式不做限定。
64、第六方面,提供了一種處理裝置,包括處理器和存儲器。該處理器用于讀取存儲器中存儲的指令,并可通過接收器接收信號,通過發(fā)射器發(fā)射信號,以執(zhí)行上述第一方面中任一種可能實現(xiàn)方式中的方法。
65、可選地,處理器為一個或多個,存儲器為一個或多個。
66、可選地,存儲器可以與處理器集成在一起,或者存儲器與處理器分離設(shè)置。
67、在具體實現(xiàn)過程中,存儲器可以為非瞬時性(non-transitory)存儲器,例如只讀存儲器(read?only?memory,rom),其可以與處理器集成在同一塊芯片上,也可以分別設(shè)置在不同的芯片上,本技術(shù)實施例對存儲器的類型以及存儲器與處理器的設(shè)置方式不做限定。
68、應理解,相關(guān)的數(shù)據(jù)交互過程例如發(fā)送指示信息可以為從處理器輸出指示信息的過程,接收能力信息可以為處理器接收輸入能力信息的過程。具體地,處理輸出的數(shù)據(jù)可以輸出給發(fā)射器,處理器接收的輸入數(shù)據(jù)可以來自接收器。其中,發(fā)射器和接收器可以統(tǒng)稱為收發(fā)器。
69、上述第四方面中的處理裝置可以是一個芯片,該處理器可以通過硬件來實現(xiàn)也可以通過軟件來實現(xiàn),當通過硬件實現(xiàn)時,該處理器可以是邏輯電路、集成電路等;當通過軟件來實現(xiàn)時,該處理器可以是一個通用處理器,通過讀取存儲器中存儲的軟件代碼來實現(xiàn),該存儲器可以集成在處理器中,可以位于該處理器之外,獨立存在。
70、第七方面,提供了一種計算機程序產(chǎn)品,計算機程序產(chǎn)品包括:計算機程序(也可以稱為代碼,或指令),當計算機程序被運行時,使得計算機執(zhí)行上述第一方面中任一種可能實現(xiàn)方式中的方法。
71、第八方面,提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲有計算機程序(也可以稱為代碼,或指令)當其在計算機上運行時,使得計算機執(zhí)行上述第一方面中任一種可能實現(xiàn)方式中的方法。