專利名稱:用于合成語音的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于合成語音、特別是從多個(gè)文本數(shù)據(jù)部分合成語音的方法和設(shè)備。
背景技術(shù):
語音合成,特別是文本-語音轉(zhuǎn)換,在本領(lǐng)域中是公知的并且包括從例如源文本人工產(chǎn)生人類語音。通過這種方式,將文本轉(zhuǎn)換成語音,這對(duì)于文盲或弱視者是有用的。與源文本的機(jī)器翻譯相結(jié)合,文本-語音轉(zhuǎn)換也可以允許外語文本在用戶母語中的音頻復(fù)現(xiàn)??梢赞D(zhuǎn)換成語音的一種形式的文本是字幕。字幕是諸如電視節(jié)目或電影之類的視頻項(xiàng)目回放期間顯示的文本部分。字幕有本領(lǐng)域技術(shù)人員公知的三種主要類型“開放式” 字幕,其中字幕文本與來自原始視頻流的視頻幀合并以產(chǎn)生隨后以常規(guī)方式顯示的最終視頻流;“預(yù)再現(xiàn)”字幕,其中字幕存儲(chǔ)為單獨(dú)的視頻幀,其可選地可以疊加到原始視頻流上以便一起觀看;以及“封閉式”字幕,其中字幕文本存儲(chǔ)為標(biāo)記文本(即像XML或HTML中的具有標(biāo)記注釋的文本)并且由允許與原始視頻流同步回放的專用系統(tǒng)復(fù)現(xiàn),例如圖文字幕或封閉字幕信息。已知將各種不同的符號(hào)和風(fēng)格應(yīng)用到字幕文本以便向觀看者傳遞附加的信息,例如是否正在說或唱文本部分,或者文本部分是否涉及不同于語音的聲音(例如門砰擊或嘆息)。此外,已知以各種不同的顏色復(fù)現(xiàn)字幕,每種顏色代表給定的說話者或者一群說話者。 因此,耳背者可以在電視廣播期間通過將顏色與每個(gè)說話者關(guān)聯(lián)來區(qū)分說話者。字幕也用于翻譯的目的。例如,包含第一語言的語音的電影可以具有施加于其上的第二語言的字幕,從而允許第二語言的讀者理解該電影。然而,該解決方案對(duì)于閱讀困難 (例如由于弱視或文盲)的第二語言的那些說話者是不夠的。電影制作者廣泛使用的一個(gè)選項(xiàng)是雇傭演員對(duì)原始語音“配音”,但這是昂貴且耗時(shí)的過程。當(dāng)前設(shè)置中沒有一個(gè)允許閱讀困難的用戶區(qū)分以文本形式呈現(xiàn)的不同類別的信肩、ο
發(fā)明內(nèi)容
本發(fā)明意在通過對(duì)于每個(gè)文本類別或者每組文本類別提供對(duì)應(yīng)話音的語音合成而使得用戶能夠區(qū)分不同類別的文本。依照本發(fā)明的第一方面,提供了一種合成語音的方法,該方法包括接收多個(gè)文本數(shù)據(jù)部分,每個(gè)文本數(shù)據(jù)部分具有與其關(guān)聯(lián)的至少一個(gè)屬性;對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定至少一個(gè)屬性的值;基于所述確定的屬性值的每一個(gè)從多個(gè)候選話音中選擇話音;以及使用所述對(duì)應(yīng)選擇的話音將每個(gè)文本數(shù)據(jù)部分轉(zhuǎn)換成合成語音。通過這種方式,有可能將不同類別的文本(例如涉及不同的說話者或者不同類別的信息內(nèi)容,例如標(biāo)題和章節(jié)標(biāo)題與章節(jié)內(nèi)容)彼此區(qū)分。
4
所述多個(gè)文本數(shù)據(jù)部分可以包含在封閉式字幕中(例如作為標(biāo)記文本數(shù)據(jù))。此外,對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定至少一個(gè)屬性的值可包括,對(duì)于所述文本數(shù)據(jù)部分的每一個(gè),確定包含在與文本數(shù)據(jù)的對(duì)應(yīng)部分關(guān)聯(lián)的封閉式字幕內(nèi)的代碼(例如通過標(biāo)識(shí)標(biāo)記文本數(shù)據(jù)的注釋)。可替換地,接收多個(gè)文本數(shù)據(jù)部分可以包括對(duì)多幅圖像(例如視頻幀)執(zhí)行光學(xué)字符識(shí)別(OCR)或者類似的模式匹配技術(shù)以便提供多個(gè)文本數(shù)據(jù)部分,每幅圖像包含包括封閉式字幕、預(yù)再現(xiàn)字幕或開放式字幕的文本部分的至少一個(gè)視覺表示。此外,所述多個(gè)文本數(shù)據(jù)部分之一的所述至少一個(gè)屬性可以包括文本部分的視覺表示之一的文本特征(例如顏色、字樣、字體、字體粗細(xì)、大小或?qū)挾?、字形,如斜體或粗體,等等);圖像中文本部分的視覺表示之一的位置(例如視頻幀或者圖像中相鄰的另一文本部分的左邊或右邊,或者頂部或底部);或者用于與對(duì)應(yīng)圖像中文本部分的視覺表示之一同時(shí)復(fù)現(xiàn)的音頻信號(hào)的音高(例如第一語言的說話者話音的音高,第一語言的文本部分是第二語言的譯文)。候選話音可以包括男性和女性的話音、具有不同口音的話音和/或在其對(duì)應(yīng)音高或音量上不同的話音。選擇話音可以包括從所述多個(gè)候選話音中選擇最佳的(即最合適的)話音。例如, 如果與文本數(shù)據(jù)部分關(guān)聯(lián)的屬性指示該文本大寫,那么可以以較高音量合成語音,或者以更迫切響亮的話音合成語音。類似地,如果屬性是文本部分之前的項(xiàng)(例如“[耳語]”)的形式,那么可以以較低的音量合成語音。另一方面,如果與文本部分關(guān)聯(lián)的屬性與用于同時(shí)復(fù)現(xiàn)的音頻信號(hào)的音量或音高相應(yīng),那么話音可以被選擇成使得合成語音的音量或音高相應(yīng)。可替換地,適當(dāng)話音的選擇可以由用戶進(jìn)行,而不是或者覆蓋自動(dòng)選擇。依照本發(fā)明的第二方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,其包括用于執(zhí)行上面的方法的多個(gè)程序代碼部分。依照本發(fā)明的第三方面,提供了一種用于從多個(gè)文本數(shù)據(jù)部分合成語音的設(shè)備, 每個(gè)文本數(shù)據(jù)部分具有與其關(guān)聯(lián)的至少一個(gè)屬性,該設(shè)備包括值確定單元,其用于對(duì)于多個(gè)文本數(shù)據(jù)部分的每一個(gè)確定至少一個(gè)屬性的值;話音選擇單元,其用于基于所述確定的屬性值的每一個(gè)從多個(gè)候選話音中選擇話音;以及文本-語音轉(zhuǎn)換器,其用于使用所述對(duì)應(yīng)選擇的話音將每個(gè)文本數(shù)據(jù)部分轉(zhuǎn)換成合成語音。所述值確定單元可以包括代碼確定構(gòu)件,該構(gòu)件用于對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定與對(duì)應(yīng)的文本數(shù)據(jù)部分關(guān)聯(lián)且包含在封閉式字幕中的代碼。可替換地,所述設(shè)備可以進(jìn)一步包括文本數(shù)據(jù)提取單元,該單元用于對(duì)多幅圖像執(zhí)行光學(xué)字符識(shí)別(OCR)或者類似的模式匹配技術(shù)以便提供所述多個(gè)文本數(shù)據(jù)部分,每幅圖像包含包括封閉式字幕、預(yù)再現(xiàn)字幕或開放式字幕的文本部分的至少一個(gè)視覺表示。此外,所述多個(gè)文本數(shù)據(jù)部分之一的所述至少一個(gè)屬性可以包括文本部分的視覺表示之一的文本特征(例如顏色、字樣、字體、字體粗細(xì)、大小或?qū)挾取⒆中?,如斜體或粗體,等等);圖像中文本部分的視覺表示之一的位置;或者用于與對(duì)應(yīng)圖像中文本部分的視覺表示之一同時(shí)復(fù)現(xiàn)的音頻信號(hào)的音高。
為了更好地理解本發(fā)明并且更清楚地顯示可以如何實(shí)現(xiàn)本發(fā)明,現(xiàn)在將通過實(shí)例的方式參照附圖,在附圖中
圖Ia示出了依照本發(fā)明第一實(shí)施例的設(shè)備; 圖Ib示出了依照本發(fā)明第二實(shí)施例的設(shè)備; 圖Ic示出了依照本發(fā)明第三實(shí)施例的設(shè)備; 圖2示出了依照本發(fā)明第四實(shí)施例的設(shè)備; 圖3a為描述依照本發(fā)明第五實(shí)施例的方法的流程圖; 圖北為描述依照本發(fā)明第六實(shí)施例的方法的流程圖; 圖3c為描述依照本發(fā)明第七實(shí)施例的方法的流程圖。
具體實(shí)施例方式參照圖la,依照本發(fā)明實(shí)施例的設(shè)備1包括文本數(shù)據(jù)提取單元3、值確定單元5、話音選擇單元9、存儲(chǔ)單元11和文本-語音轉(zhuǎn)換器13。設(shè)備1的輸入終端15連接到文本數(shù)據(jù)提取單元3的輸入端以及值確定單元5的輸入端。值確定單元5的輸出端連接到話音選擇單元9的輸入端。話音選擇單元9和存儲(chǔ)單元11可操作地彼此耦合。文本數(shù)據(jù)提取單元3和話音選擇單元9的輸出端連接到文本-語音轉(zhuǎn)換器13的輸入端。文本-語音轉(zhuǎn)換器13的輸出端連接到設(shè)備1的輸出終端17。操作時(shí),文本數(shù)據(jù)提取單元3經(jīng)由輸入終端15接收數(shù)據(jù)。文本數(shù)據(jù)提取單元3被配置成處理接收的數(shù)據(jù)以便提取文本部分,該文本部分然后傳送到文本-語音轉(zhuǎn)換器13。 例如,如果數(shù)據(jù)為視聽流或視頻流(從其獲取包含文本部分的視覺表示的圖像),或者只是包含文本部分的視覺表示的圖像,那么文本數(shù)據(jù)提取單元3被配置成對(duì)圖像執(zhí)行光學(xué)字符識(shí)別以便提取文本部分,該文本部分然后傳送到文本-語音轉(zhuǎn)換器13??商鎿Q地或者此外, 如果數(shù)據(jù)為標(biāo)記有注釋的文本的形式,那么文本提取單元3被配置成從注釋的(標(biāo)記的)文本提取文本,并且然后將該文本部分傳送到文本-語音轉(zhuǎn)換器13。值確定單元5也被配置成經(jīng)由輸入終端15直接接收數(shù)據(jù)。值確定單元5被配置成基于來自輸入終端15的數(shù)據(jù)確定提取的文本部分的至少一個(gè)屬性的值。例如,如果數(shù)據(jù)為視聽流或視頻流(從其獲取包含文本部分的視覺表示的圖像),或者只是包含文本部分的視覺表示的圖像,那么值確定單元5被配置成標(biāo)識(shí)圖像中的文本特征,并且給該文本特征賦值。如果數(shù)據(jù)為視聽流,那么值確定單元5被配置成標(biāo)識(shí)該視聽流的音頻分量的音高并且選擇與音高關(guān)聯(lián)的值。如果數(shù)據(jù)為標(biāo)記有注釋的文本的形式,那么值確定單元5被配置成標(biāo)識(shí)特定的注釋并且給該注釋賦值。該值然后傳輸?shù)皆捯暨x擇單元9。話音選擇單元9基于該值從存儲(chǔ)在存儲(chǔ)單元11中的多個(gè)候選話音中選擇話音。文本-語音轉(zhuǎn)換器13使用選擇的話音采用標(biāo)準(zhǔn)的技術(shù)將文本數(shù)據(jù)提取單元3輸送給它的文本部分轉(zhuǎn)換成語音,該語音然后在輸出終端17處輸出。圖Ib示出了依照本發(fā)明實(shí)施例的設(shè)備1’,該設(shè)備與圖Ia的設(shè)備1相似。設(shè)備1’ 具有文本數(shù)據(jù)提取單元3’、值確定單元5’、話音選擇單元9、存儲(chǔ)單元11以及文本-語音轉(zhuǎn)換器13。設(shè)備1’的輸入終端15連接到文本數(shù)據(jù)提取單元3’的輸入端。文本數(shù)據(jù)提取單元3’的一個(gè)輸出端連接到值確定單元5’的輸入端。值確定單元5’的輸出端連接到話音選擇單元9的輸入端。話音選擇單元9和存儲(chǔ)單元11可操作地彼此耦合。文本數(shù)據(jù)提取單元3’的第二輸出端和話音選擇單元9的輸出端連接到文本-語音轉(zhuǎn)換器13的輸入端。 文本-語音轉(zhuǎn)換器13的輸出端連接到設(shè)備1’的輸出終端17。操作時(shí),文本數(shù)據(jù)提取單元3 ’經(jīng)由輸入終端15接收數(shù)據(jù)。文本數(shù)據(jù)提取單元3,被配置成處理接收的數(shù)據(jù)以便提取文本部分,該文本部分然后傳送到文本-語音轉(zhuǎn)換器13。 文本數(shù)據(jù)提取單元3’也被配置成標(biāo)識(shí)與文本部分關(guān)聯(lián)的屬性,該屬性然后傳送到值確定單元5’。例如,如果數(shù)據(jù)為視聽流或視頻流(從其獲取包含文本部分的視覺表示的圖像),或者只是包含文本部分的視覺表示的圖像,那么文本數(shù)據(jù)提取單元3’被配置成對(duì)圖像執(zhí)行光學(xué)字符識(shí)別以便提取文本部分,該文本部分然后傳送到文本-語音轉(zhuǎn)換器13。此外,文本數(shù)據(jù)提取單元3’被配置成標(biāo)識(shí)與經(jīng)由光學(xué)字符識(shí)別獲得的文本關(guān)聯(lián)的屬性,例如圖像中的文本的文本特征、圖像中的文本的位置或者伴隨圖像的視聽流的音頻分量,并且然后將該屬性傳送到值確定單元5’??商鎿Q地或者此外,如果數(shù)據(jù)為標(biāo)記有注釋的文本的形式,那么文本提取單元3’ 被配置成從注釋的(標(biāo)記的)文本提取文本,并且然后將該文本部分傳送到文本-語音轉(zhuǎn)換器13。此外,文本數(shù)據(jù)提取單元3’被配置成標(biāo)識(shí)與經(jīng)由提取獲得的文本關(guān)聯(lián)的注釋并且然后將該注釋傳送到值確定單元5’。值確定單元5’被配置成確定文本提取單元3’傳送給它的屬性的值。話音選擇單元9基于該值從存儲(chǔ)在存儲(chǔ)單元11中的多個(gè)候選話音中選擇話音。文本-語音轉(zhuǎn)換器13使用該話音將文本數(shù)據(jù)提取單元3輸送給它的文本部分轉(zhuǎn)換成語音,該語音然后在輸出終端17處輸出??梢栽O(shè)想上面兩個(gè)實(shí)施例的各種不同的修改和組合。例如,圖Ic示出了依照本發(fā)明實(shí)施例的設(shè)備1’ ’,該設(shè)備包括文本數(shù)據(jù)提取單元3’,、值確定單元5’,、話音選擇單元9、 存儲(chǔ)單元11以及文本-語音轉(zhuǎn)換器13。設(shè)備1’’的輸入終端15連接到文本數(shù)據(jù)提取單元3’’的輸入端以及值確定單元 5’’的一個(gè)輸入端。文本數(shù)據(jù)提取單元3’’的一個(gè)輸出端連接到值確定單元5’’的第二輸入端。值確定單元5’’的輸出端連接到話音選擇單元9的輸入端。話音選擇單元9和存儲(chǔ)單元11可操作地彼此耦合。文本數(shù)據(jù)提取單元3’,的第二輸出端和話音選擇單元9的輸出端連接到文本-語音轉(zhuǎn)換器13的輸入端。文本-語音轉(zhuǎn)換器13的輸出端連接到設(shè)備1’ ’ 的輸出終端17。在該實(shí)施例中,文本數(shù)據(jù)提取單元3’’和值確定單元5’’被配置成取決于用戶偏好或者經(jīng)由輸入端15接收的數(shù)據(jù)形式而表現(xiàn)為圖Ia或圖Ib的設(shè)置中的任一個(gè)。圖2示出了本發(fā)明另一可替換的實(shí)施例,其為具有值確定單元5、話音選擇單元9、 存儲(chǔ)單元11和文本-語音轉(zhuǎn)換器19的設(shè)備2的形式。設(shè)備2的輸入終端15連接到文本-語音轉(zhuǎn)換器19的第一輸入端以及值確定單元 5的輸入端。值確定單元5的輸出端連接到話音選擇單元9的輸入端。話音選擇單元9和存儲(chǔ)單元11可操作地彼此耦合。話音選擇單元9的輸出端連接到文本-語音轉(zhuǎn)換器19的第二輸入端。文本-語音轉(zhuǎn)換器19的輸出端連接到設(shè)備2的輸出終端17。在操作時(shí),文本-語音轉(zhuǎn)換器19被配置成直接解釋經(jīng)由輸入端15接收的數(shù)據(jù),從而避免了對(duì)于文本提取單元的需要。盡管在附圖中未示出,但是本發(fā)明的各個(gè)實(shí)施例此外包括用于用戶與設(shè)備交互的用戶接口裝置。這樣的交互可以包括操作話音選擇單元9以便從存儲(chǔ)在存儲(chǔ)單元11中的多個(gè)候選話音中選擇最佳的(即最合適的)話音,用于值確定單元的給定輸出。可替換地,最佳話音的選擇可以由話音選擇單元基于值確定單元的輸出而自動(dòng)地實(shí)現(xiàn)。圖3a的流程圖中示出了依照本發(fā)明實(shí)施例的一個(gè)示例性的合成語音的方法。在 21處,接收標(biāo)記有注釋的文本部分。在23處,標(biāo)識(shí)與標(biāo)記的文本部分關(guān)聯(lián)的注釋。在25 處,確定注釋的值。在27處,基于該值從多個(gè)候選話音中選擇話音。在觀處,從標(biāo)記的文本部分提取純文本以便產(chǎn)生純文本部分。在四處,使用選擇的話音將該純文本部分轉(zhuǎn)換成合成語音。然后,對(duì)于具有與其關(guān)聯(lián)的不同值的注釋的新的標(biāo)記文本部分重復(fù)上面的步驟。圖北中示出了依照本發(fā)明實(shí)施例的另一個(gè)示例性的合成語音的方法。在31處, 對(duì)視頻幀執(zhí)行光學(xué)字符識(shí)別以便提供文本數(shù)據(jù)部分和關(guān)聯(lián)的屬性。在36處,確定該屬性的值。在37處,基于該值從多個(gè)候選話音中選擇話音。在39處,使用選擇的話音將該文本數(shù)據(jù)部分轉(zhuǎn)換成合成語音。然后,對(duì)于新的視頻幀重復(fù)上面的步驟。圖3c中示出了依照本發(fā)明實(shí)施例的另一示例性的合成語音的方法。在41處,對(duì)視聽流的視頻分量的圖像執(zhí)行光學(xué)字符識(shí)別以便提供文本數(shù)據(jù)部分。在45處,確定用于與幀同時(shí)復(fù)現(xiàn)的視聽流的音頻分量的對(duì)應(yīng)音高。在47處,基于確定的音高從多個(gè)候選話音中選擇話音。在49處,使用選擇的話音將該文本數(shù)據(jù)部分轉(zhuǎn)換成合成語音。然后,對(duì)于新的圖像和關(guān)聯(lián)的音頻分量重復(fù)上面的步驟。盡管在附圖中示出并且在前面的詳細(xì)說明中描述了本發(fā)明的實(shí)施例,但是應(yīng)當(dāng)理解的是,本發(fā)明并不限于所公開的實(shí)施例,而是能夠在不脫離以下權(quán)利要求書中闡述的本發(fā)明的范圍的情況下做出許多修改。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚的是,“構(gòu)件”意在包括操作時(shí)復(fù)現(xiàn)或者被設(shè)計(jì)成復(fù)現(xiàn)規(guī)定的功能的任何硬件(例如分立或集成電路或者電子元件)或軟件(例如程序或程序部分), 無論它是單獨(dú)地還是與其他功能結(jié)合地,無論是隔離地還是與其它單元合作地都可。本發(fā)明可以借助于包括若干不同元件的硬件以及借助于經(jīng)過適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干構(gòu)件的設(shè)備權(quán)利要求中,這些構(gòu)件中的一些可以由同一硬件項(xiàng)實(shí)施?!坝?jì)算機(jī)程序產(chǎn)品”應(yīng)當(dāng)被理解為表示計(jì)算機(jī)可讀介質(zhì)(例如軟盤)上存儲(chǔ)的、可經(jīng)由網(wǎng)絡(luò)(例如因特網(wǎng))下載的或者可以任何其他方式營銷的任何軟件產(chǎn)品。
權(quán)利要求
1.一種合成語音的方法,包括接收多個(gè)文本數(shù)據(jù)部分(21,31,41),每個(gè)文本數(shù)據(jù)部分具有與其關(guān)聯(lián)的至少一個(gè)屬性;對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定(25,35,45)至少一個(gè)屬性的值; 基于所述確定的屬性值的每一個(gè)從多個(gè)候選話音中選擇(27,37,47)話音;以及使用所述對(duì)應(yīng)選擇的話音將每個(gè)文本數(shù)據(jù)部分轉(zhuǎn)換(29,39,49)成合成語音。
2.權(quán)利要求1的方法,其中接收(21,31,41)多個(gè)文本數(shù)據(jù)部分包括接收(21)包含多個(gè)文本數(shù)據(jù)部分的封閉式字幕。
3.權(quán)利要求2的方法,其中對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定(25,35,45)至少一個(gè)屬性的值包括,對(duì)于所述文本數(shù)據(jù)部分的每一個(gè),確定(25)包含在與文本數(shù)據(jù)的對(duì)應(yīng)部分關(guān)聯(lián)的封閉式字幕內(nèi)的代碼。
4.權(quán)利要求1的方法,其中接收(21,31,41)多個(gè)文本數(shù)據(jù)部分包括對(duì)多幅圖像執(zhí)行 (31,41)光學(xué)字符識(shí)別(OCR)或者類似的模式匹配技術(shù)以便提供多個(gè)文本數(shù)據(jù)部分,每幅圖像包含包括封閉式字幕、預(yù)再現(xiàn)字幕或開放式字幕的文本部分的至少一個(gè)視覺表示。
5.權(quán)利要求4的方法,其中所述多個(gè)文本數(shù)據(jù)部分之一的所述至少一個(gè)屬性包括 文本部分的視覺表示之一的文本特征;圖像中文本部分的視覺表示之一的位置;或者用于與對(duì)應(yīng)圖像中文本部分的視覺表示之一同時(shí)復(fù)現(xiàn)的音頻信號(hào)的音高。
6.權(quán)利要求1的方法,其中所述候選話音包括男性和女性的話音和/或在其對(duì)應(yīng)音量上不同的話音。
7.權(quán)利要求1的方法,其中選擇話音包括從所述多個(gè)候選話音中選擇最佳的話音。
8.一種計(jì)算機(jī)程序產(chǎn)品,包括用于執(zhí)行依照前面的權(quán)利要求中任何一項(xiàng)的方法的多個(gè)程序代碼部分。
9.一種用于從多個(gè)文本數(shù)據(jù)部分合成語音的設(shè)備(1,1’,1’ ’,2 ),每個(gè)文本數(shù)據(jù)部分具有與其關(guān)聯(lián)的至少一個(gè)屬性,該設(shè)備包括值確定單元(5,5’,5’ ’),其用于對(duì)于多個(gè)文本數(shù)據(jù)部分的每一個(gè)確定至少一個(gè)屬性的值;話音選擇單元(9),其用于基于所述確定的屬性值的每一個(gè)從多個(gè)候選話音中選擇話音;以及文本-語音轉(zhuǎn)換器(13,19),其用于使用所述對(duì)應(yīng)選擇的話音將每個(gè)文本數(shù)據(jù)部分轉(zhuǎn)換成合成語音。
10.權(quán)利要求9的設(shè)備(1,1’,1’’,2),其中值確定單元(5,5’,5’’)包括代碼確定構(gòu)件,該構(gòu)件用于對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定與對(duì)應(yīng)的文本數(shù)據(jù)部分關(guān)聯(lián)且包含在封閉式字幕中的代碼。
11.權(quán)利要求9的設(shè)備(1,1’,1’’,2),進(jìn)一步包括文本數(shù)據(jù)提取單元(3,3’,3’’),該單元用于對(duì)多幅圖像執(zhí)行光學(xué)字符識(shí)別(OCR)或者類似的模式匹配技術(shù)以便提供所述多個(gè)文本數(shù)據(jù)部分,每幅圖像包含包括封閉式字幕、預(yù)再現(xiàn)字幕或開放式字幕的文本部分的至少一個(gè)視覺表示。
12.權(quán)利要求11的設(shè)備(1,1’,1’’,2),其中所述多個(gè)文本數(shù)據(jù)部分之一的所述至少一個(gè)屬性包括文本部分的視覺表示之一的文本特征; 圖像中文本部分的視覺表示之一的位置;或者用于與對(duì)應(yīng)圖像中文本部分的視覺表示之一同時(shí)復(fù)現(xiàn)的音頻信號(hào)的音高。
13.權(quán)利要求9的設(shè)備(1,1’,1’’,2),其中所述候選話音包括男性和女性的話音和/ 或在其對(duì)應(yīng)音量上不同的話音。
14.權(quán)利要求9的設(shè)備(1,1’,1’’,2),其中話音選擇單元(9)用于基于所述確定的屬性值的每一個(gè)從所述多個(gè)候選話音中選擇最佳的話音。
15.一種視聽顯示裝置,包括權(quán)利要求9-13的設(shè)備(1,1’,1’ ’,2)。
全文摘要
從多個(gè)文本數(shù)據(jù)部分合成語音的方法和設(shè)備,每個(gè)部分具有至少一個(gè)關(guān)聯(lián)的屬性。本發(fā)明通過對(duì)于所述文本數(shù)據(jù)部分的每一個(gè)確定(25,35,45)屬性的值、基于所述確定的屬性值從多個(gè)候選話音中選擇(27,37,47)選擇話音并且使用所述對(duì)應(yīng)的選擇的話音將每個(gè)文本數(shù)據(jù)部分轉(zhuǎn)換(29,39,49)成合成語音而實(shí)現(xiàn)。
文檔編號(hào)G10L13/04GK102246225SQ200980150425
公開日2011年11月16日 申請日期2009年12月7日 優(yōu)先權(quán)日2008年12月15日
發(fā)明者J. H. M. 穆倫布羅克斯 F. 申請人:皇家飛利浦電子股份有限公司