欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)音音節(jié)時(shí)長(zhǎng)的自動(dòng)歸一化的制作方法

文檔序號(hào):2825239閱讀:562來(lái)源:國(guó)知局
專利名稱:語(yǔ)音音節(jié)時(shí)長(zhǎng)的自動(dòng)歸一化的制作方法
技術(shù)領(lǐng)域
示例性實(shí)施方式涉及增強(qiáng)通信的可理解性。更具體地,示例性實(shí)施方式涉及對(duì)當(dāng)人們講他們不習(xí)慣的語(yǔ)言時(shí)所常見(jiàn)的發(fā)音錯(cuò)誤類型的自動(dòng)實(shí)時(shí)糾正。
背景技術(shù)
即使兩個(gè)人說(shuō)相同的語(yǔ)言,并且精通語(yǔ)言的詞匯和語(yǔ)法,他們之間的說(shuō)話方式的不同,比如口音,發(fā)音精確度,韻律,語(yǔ)音,音高(Pitch),節(jié)奏,聲調(diào),協(xié)同發(fā)音,音節(jié)重讀和音節(jié)時(shí)長(zhǎng)的不同,也能夠影響他們相互理解對(duì)方的容易度。理論上,應(yīng)當(dāng)可以處理來(lái)自人A的語(yǔ)音并且數(shù)字化地操縱該語(yǔ)音,以便A的語(yǔ)音中令B難以理解的方面被減少或者消除。實(shí)際上,難以預(yù)想能夠在接近實(shí)時(shí)的任何情下,針對(duì)所有的上述因素來(lái)可靠地實(shí)現(xiàn)此。這是因?yàn)?,?duì)以上大多數(shù)因素的適當(dāng)自動(dòng)操縱不可能通過(guò)直接的聲學(xué)分析來(lái)實(shí)現(xiàn),而是要求在句法和語(yǔ)義上理解所說(shuō)內(nèi)容的含義。這之中的一個(gè)例外就是音節(jié)時(shí)長(zhǎng)(syllable duration)。幾乎所有現(xiàn)代的基于語(yǔ)音的計(jì)算機(jī)和通信系統(tǒng)都以數(shù)字形式傳輸、路由或者存儲(chǔ)語(yǔ)音。數(shù)字技術(shù)相比于模擬技術(shù)的一個(gè)明顯的優(yōu)勢(shì)是提供高質(zhì)量音頻的能力(比如,致密盤相比于唱片,或者數(shù)字蜂窩動(dòng)電話相比于模擬電話)。其它優(yōu)勢(shì)包括在一個(gè)通信信道中發(fā)送更多同步傳輸數(shù)據(jù),通過(guò)基于計(jì)算機(jī)的交換系統(tǒng)路由語(yǔ)音通信,以及在計(jì)算機(jī)盤和固態(tài)存儲(chǔ)設(shè)備上存儲(chǔ)語(yǔ)音的能力。以下描述了減少使語(yǔ)音數(shù)字化所需的數(shù)據(jù)量的技術(shù)。語(yǔ)音數(shù)字化數(shù)字地編碼語(yǔ)音的最簡(jiǎn)單的方法是生成數(shù)字序列,本質(zhì)上,這些數(shù)字跟蹤原始語(yǔ)音波形的“上和下(up and down)”。比如,若想將其中所有的重要聲學(xué)信息都在 4000Hz (4000個(gè)周期每秒)之下的波形數(shù)字化,則該模數(shù)轉(zhuǎn)換的基本步驟包括以下步驟(1)將4000Hz以上的所有信息從原始信號(hào)中濾除。(2)將原始信號(hào)分解成每秒8000個(gè)片段。(3)順序遍歷片段,測(cè)量和記錄下每個(gè)片段中的波形的平均幅度。第一步的目的是防止‘混疊’——所觀察事件的頻率與采樣速率的不期望的互相作用所導(dǎo)致的錯(cuò)誤偽影的生成。運(yùn)動(dòng)圖像中急速旋轉(zhuǎn)的車輪的輪輻可能看起來(lái)保持靜止或者甚至向后移動(dòng)的現(xiàn)象是混疊的一個(gè)例子。以最高頻率正弦波的頻率的兩倍進(jìn)行采樣的第二步是必要的,以便捕獲波形的波峰和波谷兩者。為了更加容易地理解第三步,可以想象為將原始波形畫在一張紙上。在每個(gè)片段內(nèi),每個(gè)片段代表一秒的1/8000,使用標(biāo)尺測(cè)量波形的高度。以這種方式獲得的數(shù)字序列構(gòu)成了原始波形的數(shù)字表示。關(guān)于用于測(cè)量片段內(nèi)的語(yǔ)音幅度的‘標(biāo)尺’,與現(xiàn)代電話相當(dāng)?shù)恼Z(yǔ)音質(zhì)量要求每個(gè)片段12比特,每秒8000個(gè)片段。(作為比較,音頻致密盤使用每個(gè)片段16比特,其中每秒44100個(gè)片段)。得到的每秒96000比特的數(shù)據(jù)速率意味著典型的1. 44MB的軟盤只能存儲(chǔ)大約兩分鐘電話質(zhì)量的語(yǔ)音。數(shù)據(jù)速率的適度降低能夠通過(guò)使用對(duì)數(shù)幅度編碼方案來(lái)達(dá)到。以具有比大幅度高的精確度來(lái)表示小幅度的這些技術(shù)每個(gè)片斷只使用8比特就可以達(dá)到和標(biāo)準(zhǔn)12比特系統(tǒng)相同的語(yǔ)音質(zhì)量。示例包括在許多美國(guó)數(shù)字電話中發(fā)現(xiàn)的μ-律(發(fā)音為“myoo律”)編碼,和在歐洲普遍使用的A-律編碼。對(duì)于傳輸成本或存儲(chǔ)成本較重要的許多設(shè)備,比如無(wú)線電話機(jī)或語(yǔ)音郵件系統(tǒng), 使用簡(jiǎn)單的μ-律和A-律編碼實(shí)現(xiàn)的數(shù)據(jù)速率的降低是不夠的。一種實(shí)現(xiàn)數(shù)據(jù)速率顯著降低的方法是提取波形的頻率內(nèi)容并數(shù)字化(而不是簡(jiǎn)單地對(duì)波形形狀進(jìn)行數(shù)字化)。許多以該方式工作的編碼器具有與人類發(fā)音機(jī)構(gòu)的物理組件相映射的軟件組件。 它們通過(guò)只對(duì)控制語(yǔ)音生成模型的可變化組件的參數(shù)進(jìn)行編碼來(lái)降低數(shù)據(jù)率,這些參數(shù)例如是控制整體幅度的參數(shù)和調(diào)節(jié)電子‘聲帶’基音(fundamental pitch)的參數(shù)。人類語(yǔ)音生成機(jī)構(gòu)考慮到這些編碼器中的許多組件都有其對(duì)應(yīng)的生理組件,在研究編碼器之前理解人類發(fā)聲機(jī)構(gòu)是有幫助的。人類發(fā)聲機(jī)構(gòu)的主要物理組件包括肺、聲帶和聲腔。當(dāng)一個(gè)人說(shuō)話時(shí),肺迫使空氣經(jīng)過(guò)聲帶并通過(guò)聲腔。使空氣呼出的壓力決定了語(yǔ)音的最終幅度,或‘響度’。聲帶對(duì)呼吸流的作用決定了語(yǔ)音是濁音還是清音。濁語(yǔ)音(例如,單詞‘voice’中的’ V’音)是通過(guò)在呼氣時(shí)繃緊聲帶而產(chǎn)生??嚲o的聲帶暫時(shí)阻斷空氣流通,在短周期的猝發(fā)(burst)中釋放氣流。釋放猝發(fā)的頻率越高, 音高就越高。清語(yǔ)音(例如,單詞‘voice’中最后的’ S’音)是在迫使空氣經(jīng)過(guò)松弛的聲帶時(shí)產(chǎn)生的。松弛的聲帶不阻斷空氣流;而是通過(guò)聲腔內(nèi)的可聽(tīng)見(jiàn)氣流來(lái)生成聲音。聲帶在產(chǎn)生濁音和清音時(shí)所起的作用的一個(gè)簡(jiǎn)單示范可以通過(guò)如下這樣來(lái)獲得將手指輕輕地放置于喉或喉頭(voice box)處,同時(shí)緩慢地說(shuō)出單詞‘voice’ ;對(duì)于‘S’音和雙元音‘oi’,可以感覺(jué)到聲帶振動(dòng),而對(duì)于最后的’ S’音則不會(huì)感覺(jué)到。上述機(jī)構(gòu)產(chǎn)生用于語(yǔ)音的所謂激勵(lì)信號(hào)。當(dāng)一個(gè)人與另一個(gè)人比較時(shí),激勵(lì)信號(hào)的許多性質(zhì)是不同的。但是,當(dāng)分析單個(gè)個(gè)體時(shí),當(dāng)該人說(shuō)話時(shí)激勵(lì)信號(hào)中只有三個(gè)參數(shù)是變化的聲音幅度、聲音中濁音或清音的比例以及基音。這能夠被容易地示范說(shuō)明。若一個(gè)人保持其嘴部大張,而顎、舌和嘴唇?jīng)]有任何移動(dòng),則通過(guò)該發(fā)聲系統(tǒng)生成的聲音中保持能改變的特性只有上述三個(gè)參數(shù)。在任何給定時(shí)間內(nèi),激勵(lì)信號(hào)實(shí)際上包含許多不同頻率的聲音。濁音激勵(lì)信號(hào)是周期性的。其頻譜中的能量位于基音的倍數(shù)處,其等于使聲帶振動(dòng)的頻率。清音激勵(lì)信號(hào)包含頻率的隨機(jī)混合,與通常所說(shuō)的白噪聲相似。聲腔通過(guò)衰減激勵(lì)信號(hào)中的某些頻率并放大其他頻率來(lái)將激勵(lì)信號(hào)‘塑形’成可識(shí)別的語(yǔ)音聲音。聲腔能夠完成這種頻譜塑形是因?yàn)槠淠軌蛟谝蝾€、舌和嘴唇的位置而變化的頻率上共振。當(dāng)激勵(lì)信號(hào)中的頻率不接近聲腔共振時(shí),這些頻率就受到抑制。然而,聲腔共振趨向于放大或使激勵(lì)信號(hào)中相同頻率的聲音更響亮。所生成的語(yǔ)音聲音中的頻譜波峰叫做共振峰。典型地,只有三個(gè)或四個(gè)最低頻共振峰在5000Hz之下。這些是對(duì)于可懂度來(lái)說(shuō)最重要的共振峰。(包括美國(guó)的公共電話系統(tǒng)在內(nèi)的很多音頻通信系統(tǒng)的頻率上限在3400Hz的量級(jí)上。這就是那些區(qū)別主要在于高頻共振峰結(jié)構(gòu)的語(yǔ)音聲音(比如‘f’和‘S’ )在這些系統(tǒng)中往往難以區(qū)分的原因)。對(duì)英語(yǔ)口語(yǔ)而言,依據(jù)構(gòu)成方式對(duì)語(yǔ)音聲音的簡(jiǎn)單分類包括元音、鼻音、摩擦音和爆破音。形成元音時(shí),例如‘speech’中的‘ee’音和‘voice’中的雙元音‘io’,呼吸氣流相對(duì)無(wú)阻礙地通過(guò)咽和張開(kāi)的嘴。鼻音中,例如‘man’中的‘m’和‘n’,呼吸氣流通過(guò)鼻腔。通過(guò)迫使空氣從肺經(jīng)過(guò)聲道中的壓縮,以生成可聽(tīng)見(jiàn)氣流,從而產(chǎn)生摩擦音。摩擦音的例子包括‘speech’中的‘S’和‘ch’音。通過(guò)突然釋放建立在聲道中的氣壓,然后使用嘴唇和舌頭完全關(guān)閉聲道,來(lái)生成爆破音。單詞‘talk’包括爆破音‘t’和‘k’。除了小聲說(shuō)話之外,英語(yǔ)口語(yǔ)中的元音和鼻音都是濁音。摩擦音和爆破音可以是濁音(比如‘vast’或 ‘den,中)或清音(比如‘fast,或‘ten,中)。語(yǔ)音壓縮由遵循該聲道模型的編碼器所計(jì)算的參數(shù)分成兩類控制激勵(lì)信號(hào)的生成的參數(shù),和控制激勵(lì)信號(hào)的濾波的參數(shù)。為了生成類似人類的激勵(lì)信號(hào),要求有兩種不同的信號(hào)生成機(jī)構(gòu)。一種機(jī)構(gòu)生成周期性信號(hào),用于仿真通過(guò)人類聲帶振動(dòng)而產(chǎn)生的聲音。另一種機(jī)構(gòu)生成與白噪聲相似的隨機(jī)信號(hào),其適合對(duì)清音進(jìn)行建模。因而,當(dāng)需要產(chǎn)生濁音時(shí),例如‘speech’中的‘ee’,則使用周期信號(hào)生成器的輸出;而對(duì)于‘speech’中的清音‘sp’和‘ch’音,則使用另一生成器的隨機(jī)輸出。在一些系統(tǒng)中,使用隨機(jī)激勵(lì)和周期激勵(lì)的加權(quán)組合。這在建模濁音摩擦音時(shí)很有幫助,例如‘ZOO’中的‘Ζ’音。然而,許多編碼器限制激勵(lì)以使得完全通過(guò)濁音激勵(lì)源或清音激勵(lì)源來(lái)進(jìn)行建模激。在這些編碼器中,通過(guò)二值濁音化參數(shù)來(lái)控制激勵(lì)的選擇,一般稱之為濁音/清音判決。除了濁音/清音判決外,激勵(lì)函數(shù)通過(guò)用于調(diào)節(jié)其響度的幅度參數(shù)來(lái)被改變大小。最終,若系統(tǒng)要生成單音調(diào)以外的東西,則需要使?jié)嵋艏?lì)源的周期可變??刂拼说膮?shù)稱為音高參數(shù)??傊缦氯齻€(gè)參數(shù)足以控制一個(gè)簡(jiǎn)單的激勵(lì)模型(即,不考慮人之間的聲道差異的模型)幅度參數(shù);濁/清音參數(shù);以及若為濁音,指定語(yǔ)音信號(hào)的基本周期的音高參數(shù)。已將各種技術(shù)用于仿真人類聲腔將特定頻譜形狀施加至激勵(lì)信號(hào)的方式。最早開(kāi)發(fā)的技術(shù)之一使用一組帶通濾波器,在許多方面與一些高端立體聲系統(tǒng)中出現(xiàn)的可調(diào)節(jié)多頻帶‘圖形均衡器’相似。這些濾波器的中心頻率是固定的;按照與通過(guò)調(diào)節(jié)音調(diào)控制來(lái)改變立體聲系統(tǒng)頻譜特性的方式幾乎相同的方式,每個(gè)濾波器或通道的增益的調(diào)節(jié)使得能夠近似出期望的頻譜。該方法主要缺點(diǎn)是其需要大量的濾波器。若能夠控制濾波器的中心頻率,就能夠減少濾波器的數(shù)目。具體地,通過(guò)將濾波器中心頻率與所期望的共振峰頻率相匹配,可以只用三個(gè)或四個(gè)可調(diào)節(jié)帶通濾波器來(lái)對(duì)語(yǔ)音進(jìn)行編碼。這里重要的一點(diǎn)是,盡管現(xiàn)在需要將濾波器的中心頻率和濾波器的增益一起編碼,但是用于精確地對(duì)激勵(lì)信號(hào)塑形所需要的參數(shù)的總數(shù)大大地減少。
盡管早期語(yǔ)音合成系統(tǒng)依賴模擬機(jī)構(gòu)來(lái)對(duì)激勵(lì)信號(hào)進(jìn)行濾波和塑形,而現(xiàn)代語(yǔ)音壓縮系統(tǒng)全部依賴數(shù)字濾波技術(shù)。在這些系統(tǒng)中,在接收端所聽(tīng)到的經(jīng)解碼語(yǔ)音信號(hào)是數(shù)字控制濾波器的輸出,該數(shù)字控制濾波器具有合適的激勵(lì)序列作為其輸入。濾波器的數(shù)字控制是通過(guò)使用數(shù)學(xué)模型來(lái)實(shí)現(xiàn)的——本質(zhì)上,是具有常量和變量的等式,其中,通過(guò)為變量設(shè)置合適的值來(lái)指定所期望的頻譜濾波。通過(guò)使用該方法能夠大大降低數(shù)據(jù)傳輸速率, 因?yàn)橄嗤臄?shù)學(xué)模型可以事先被載入到編碼器和解碼器中。因而,必須被傳輸?shù)臄?shù)據(jù)僅是用于控制該模型的相對(duì)小數(shù)目的變量。一個(gè)較好的示例是稱為線性預(yù)測(cè)的技術(shù),其中,語(yǔ)言樣本被生成為先前輸出樣本與濾波器輸入的當(dāng)前值的加權(quán)線性組合。對(duì)于每個(gè)輸出樣本(S[i]),這產(chǎn)生了下面的表達(dá)式,每個(gè)輸出樣本(s[i])是先前樣本(s[i-l],S[i-2],…,s[i-n])、預(yù)測(cè)權(quán)重(A[l], A[2],…,A[n])和濾波器輸入(U[i])的函數(shù)S[i] = A[l]S[i-l]+A[2]S[i-2]+...+A[n]S[i-n]+U[i]該等式中的濾波器輸入(U[i])是幅度參數(shù)和激勵(lì)序列的乘積。等式中系數(shù)的總數(shù)(η)確定了可被近似的頻譜波峰或共振峰的數(shù)量。一旦指定了參數(shù)的完整集合(幅度,濁音化,音高和頻譜參數(shù)),語(yǔ)音解碼器就能夠產(chǎn)生恒定的類語(yǔ)音的聲音。為了生成可懂的自然發(fā)聲的語(yǔ)音,模型參數(shù)需要以每秒40至 50次的頻率被更新。為了設(shè)想出該過(guò)程,回顧運(yùn)動(dòng)圖像工作是有幫助的視運(yùn)動(dòng)(apparent motion)—在這種情況下,是平滑變化的語(yǔ)音聲音,而不是平滑變化的圖像一是通過(guò)以充分的頻率更新實(shí)際上是靜止圖像的內(nèi)容來(lái)實(shí)現(xiàn)的。(以這種格式存儲(chǔ)語(yǔ)音的一些系統(tǒng),例如 Avaya的Intuity AUDIX 多媒體信息傳輸系統(tǒng),允許用戶調(diào)節(jié)回放速率而不引起音調(diào)位移,其將伴隨著例如以45來(lái)播放33 1/3RPM唱片。這是通過(guò)以與利用運(yùn)動(dòng)圖像實(shí)現(xiàn)‘慢動(dòng)作’的方式幾乎相同的方式,來(lái)調(diào)節(jié)每個(gè)集合的語(yǔ)音生成參數(shù)在被更新之前‘在門內(nèi)’停留的時(shí)間長(zhǎng)度來(lái)實(shí)現(xiàn)的。)包含該類語(yǔ)音壓縮的最早產(chǎn)品之一是由Texas Instruments在1978年發(fā)布的兒童學(xué)習(xí)輔助產(chǎn)品,Speak & Spell 。它使用10系數(shù)線性預(yù)測(cè)編碼(LPC-10)來(lái)建模語(yǔ)音。 該LPC-10模型的數(shù)據(jù)速率是MOO比特每秒。(Speaker&Spell中的實(shí)際數(shù)據(jù)速率遠(yuǎn)低于 2400比特每秒,因?yàn)楫?dāng)相鄰參數(shù)被判定為充分相似時(shí),使用了一比特重復(fù)碼。)這種低數(shù)據(jù)速率部分地通過(guò)‘硬連線’往往在人與人之間不同的激勵(lì)參數(shù)來(lái)實(shí)現(xiàn)。這意味著,若人的聲道特性不同于已建立在語(yǔ)音生成模型中的特性,則他們的語(yǔ)音不能被無(wú)失真地再現(xiàn)。精確地對(duì)廣泛種類的語(yǔ)音以及諸如TTY/TDD音調(diào)之類的多種非語(yǔ)音聲音建模的能力是通過(guò)其中激勵(lì)函數(shù)不是被硬連線而是受軟件控制的系統(tǒng)來(lái)實(shí)現(xiàn)的。一個(gè)很好的例子
AUDIX語(yǔ)音信息系統(tǒng),它使用碼激勵(lì)線性預(yù)測(cè)(CELP)來(lái)對(duì)語(yǔ)音建模。典型的基于CELP的系統(tǒng)的數(shù)據(jù)速率是在從4800比特每秒至16000比特每秒的范圍。(在最大化語(yǔ)音質(zhì)量或降低編碼器的計(jì)算復(fù)雜度較重要的系統(tǒng)中,較高的數(shù)據(jù)速率更為常見(jiàn)。)與相同質(zhì)量的未壓縮數(shù)字化語(yǔ)音相比,這些技術(shù)產(chǎn)生了至少6比1以及高達(dá)20比1的數(shù)據(jù)速率降低。

發(fā)明內(nèi)容
一個(gè)很常見(jiàn)的問(wèn)題在于當(dāng)人們講他們所習(xí)慣的語(yǔ)言以外的語(yǔ)言時(shí),音節(jié)可能被說(shuō)得比聽(tīng)者認(rèn)為合適的更長(zhǎng)或更短。這個(gè)現(xiàn)象的一個(gè)極端例子可在有很重日語(yǔ)口音的人說(shuō)英語(yǔ)時(shí)被觀察到。由于日語(yǔ)單詞是以元音而非輔音結(jié)尾(唯一的例外是那些以“η”結(jié)尾的單詞),日本本土講話者傾向于在應(yīng)以輔音結(jié)尾的英語(yǔ)單詞末尾添加元音。說(shuō)明性地,日本本土講話者經(jīng)常將“orange”發(fā)音為“orenji。這里所描述的技術(shù)的一個(gè)示例性方面提供了一種自動(dòng)語(yǔ)音糾正處理,該處理不需要知道正在討論的該水果;該系統(tǒng)只需要知道該講話者習(xí)慣于日語(yǔ),該聽(tīng)者習(xí)慣于英語(yǔ),“orenji”不是一個(gè)英文單詞,以及“orenji”是英文單詞“orange”的一種典型的日語(yǔ)錯(cuò)誤發(fā)音。容易檢測(cè)錯(cuò)誤發(fā)音的能力只是可糾正問(wèn)題中產(chǎn)生適當(dāng)音節(jié)時(shí)長(zhǎng)的因素之一。另一因素是,通常在通信系統(tǒng)中使用的種類的基于幀的語(yǔ)音編碼和壓縮技術(shù)(例如線性預(yù)測(cè)編碼(LPC)和碼激勵(lì)線性預(yù)測(cè)(CELP))包括指定了特定語(yǔ)音聲音應(yīng)當(dāng)被再現(xiàn)多長(zhǎng)的參數(shù)。 因此,一種判斷聲音(或音節(jié))是否是以合適的時(shí)長(zhǎng)被說(shuō)出的處理可以實(shí)時(shí)地或接近實(shí)時(shí)地來(lái)在將語(yǔ)音呈現(xiàn)給收聽(tīng)者之前,通過(guò)增大或減小在語(yǔ)音的初始編碼期間計(jì)算出的時(shí)長(zhǎng)參數(shù),來(lái)糾正其檢測(cè)到的錯(cuò)誤的時(shí)長(zhǎng)。另外,使用上述的“orenji”例子,可以通過(guò)由該系統(tǒng)縮短或去除“ i ”在門內(nèi)所經(jīng)歷的時(shí)間來(lái)去除或減少“ i ”。另外,或可選地,與“ i ”相關(guān)聯(lián)的幅度可以類似地被調(diào)節(jié),以從被呈現(xiàn)給收聽(tīng)者的語(yǔ)音中減少或去除它。因此,一個(gè)示例性方面涉及一種輔助語(yǔ)音可理解性的自動(dòng)通訊系統(tǒng)附件。另一方面涉及一種通訊系統(tǒng)模塊,其調(diào)節(jié)音節(jié)的幅度或時(shí)長(zhǎng)中的一個(gè)或多個(gè),以糾正或改進(jìn)錯(cuò)誤發(fā)音單詞的發(fā)音。根據(jù)一個(gè)更加具體的示例性實(shí)施例,一種自動(dòng)通訊系統(tǒng)附件執(zhí)行以下步驟(1)利用準(zhǔn)許諸如音節(jié)之類的不同語(yǔ)音事件的時(shí)長(zhǎng)被標(biāo)識(shí)并被表示為具體的可調(diào)節(jié)語(yǔ)音生成參數(shù)的技術(shù),來(lái)對(duì)所接收的語(yǔ)音數(shù)字地編碼。合適的語(yǔ)音編碼技術(shù)包含前面提到的LPC,CELP等。(2)檢測(cè)語(yǔ)言A正被講。本步驟可以使用公知的自動(dòng)語(yǔ)言標(biāo)識(shí)技術(shù)。另外,貯存庫(kù)可以基于正被講的語(yǔ)言和講話者的本土語(yǔ)言來(lái)存儲(chǔ)關(guān)于哪些單詞具有一定的錯(cuò)誤發(fā)音傾向的信息。(3)檢測(cè)正在講語(yǔ)言A的人實(shí)際上習(xí)慣于講語(yǔ)言B。再次地,公知的自動(dòng)口音標(biāo)識(shí)技術(shù)可被用于這里公開(kāi)的系統(tǒng)、方法和技術(shù)。(4)使用語(yǔ)言A和語(yǔ)言B的發(fā)音模式和詞匯的知識(shí)來(lái)檢測(cè)由于語(yǔ)言B的發(fā)音模式被不適當(dāng)?shù)貞?yīng)用而使得語(yǔ)言A中的單詞以不正確的音節(jié)時(shí)長(zhǎng)被講出的情況。(5)調(diào)節(jié)與錯(cuò)讀音節(jié)相關(guān)的時(shí)長(zhǎng)參數(shù),延長(zhǎng)或縮短該音節(jié)以與適合于語(yǔ)言A的時(shí)長(zhǎng)相匹配??蛇x地,與錯(cuò)讀音節(jié)相關(guān)的幅度由此也有助于與適合于語(yǔ)言A的時(shí)長(zhǎng)相匹配。(6)使用經(jīng)修改的語(yǔ)音產(chǎn)品參數(shù)來(lái)重新生成具有正確音節(jié)定時(shí)的語(yǔ)音,并呈現(xiàn)給收聽(tīng)者。除了上述的示例性實(shí)施例以外,這里公開(kāi)的技術(shù)還可包括進(jìn)行檢查以確認(rèn)步驟4 和步驟5中的修改是可感覺(jué)到的。更具體地,第一檢查可以包括判斷未經(jīng)修改的話音是否是語(yǔ)言A中的合理單詞。 第二檢查可以包括判斷該話音在經(jīng)修改后是否是語(yǔ)言A中合理單詞。第三示例性檢查可以判斷該話音是否是習(xí)慣講語(yǔ)言B的人對(duì)語(yǔ)言A中的合理單詞的已知的、常見(jiàn)錯(cuò)誤發(fā)音。第四示例性檢查將判斷將由上述步驟5產(chǎn)生的話音是否可能是語(yǔ)言A中的不適當(dāng)單詞或短語(yǔ),比如,將被解釋成粗魯?shù)幕蛎胺感缘脑捯??;谏鲜鰴z查,可以作出跳過(guò)步驟5的決定。根據(jù)另一示例性實(shí)施例,對(duì)于步驟5,可以對(duì)音節(jié)執(zhí)行部分的而非全面的調(diào)節(jié),以使得時(shí)長(zhǎng)錯(cuò)誤被減少而非消除。根據(jù)另一示例性實(shí)施例,實(shí)時(shí)的視覺(jué)反饋可以被提供給說(shuō)話者和收聽(tīng)者中的一個(gè)或多個(gè),以指示語(yǔ)音流已被修改的情況。根據(jù)另一示例性實(shí)施例,可以向各方中的一方或多方,比如收聽(tīng)者,提供適當(dāng)接口,該適當(dāng)接口允許他們使能、禁止或調(diào)節(jié)音節(jié)修改過(guò)程。根據(jù)另一示例性實(shí)施例,除了單向處理(即,處理人A向人B的講話)以外,示例性實(shí)施方式還能夠支持雙向處理,即,人A向人B的講話以及人B向人A的講話。根據(jù)又一示例性實(shí)施例,講話者的原始未經(jīng)修改語(yǔ)音和經(jīng)修改語(yǔ)音可以經(jīng)由收聽(tīng)者位置處的分離的音頻變換器和/或分離的音頻通道同時(shí)被提供給收聽(tīng)者。收聽(tīng)者可以同時(shí)監(jiān)視兩者,或者選擇在該時(shí)間點(diǎn)時(shí)聽(tīng)起來(lái)最好的信號(hào)。如果存在多個(gè)位置處的多個(gè)收聽(tīng)者,每個(gè)收聽(tīng)者具有其自己的收聽(tīng)偏好,則這樣的配置也可以是有幫助的。例如,經(jīng)修改的或未經(jīng)修改的語(yǔ)音可以在諸如耳語(yǔ)通道之類的第二信息通道中呈現(xiàn),并且可以證明這對(duì)于這樣的通話尤其有用,所述通話被記錄以使得原始通話相對(duì)于經(jīng)修改通話兩者被維護(hù)。根據(jù)又一示例性實(shí)施例,此處公開(kāi)的技術(shù)在語(yǔ)音消息傳輸系統(tǒng)中也很有用,其中, 該系統(tǒng)可以對(duì)消息進(jìn)行處理以使得郵箱所有者更容易理解所說(shuō)內(nèi)容。將從這里包含的公開(kāi)中清楚這些和其它的優(yōu)點(diǎn)。上述實(shí)施例和配置既不是全部的也不是詳盡的。如將會(huì)理解的,本發(fā)明的其它實(shí)施例可以單獨(dú)地或聯(lián)合地利用上述的或接下來(lái)將要詳述的特征中的一個(gè)或多個(gè)。正如這里所使用的,“至少一個(gè)”、“一個(gè)或多個(gè)”以及“和/或”是在運(yùn)用時(shí)既連接又分離的開(kāi)放式表達(dá)。例如,如下表達(dá)“A、B和C中的至少一個(gè)”、“A、B或C中的至少一個(gè)”、 “A、B和C中的一個(gè)或多個(gè)”、“A、B或C中的一個(gè)或多個(gè)”以及“A、B和/或C”中的每一種的意思是A單獨(dú)的、B單獨(dú)的、C單獨(dú)的、A和B —起、A和C 一起、B和C 一起或者A、B和C一起。


將參考以下附圖,詳細(xì)描述本發(fā)明的示例性實(shí)施方式,其中附圖1示出了一個(gè)示例性的通信增強(qiáng)系統(tǒng);附圖2是示出了用于增強(qiáng)通信的方法的流程圖;附圖3是更詳細(xì)地示出增強(qiáng)通信的方法的流程圖。
具體實(shí)施例方式下面將結(jié)合示例性通信系統(tǒng)來(lái)圖示說(shuō)明一些具體實(shí)施方式
。盡管非常適合與比如使用(一個(gè)或多個(gè))交換機(jī)、(一個(gè)或多個(gè))服務(wù)器和/或(一個(gè)或多個(gè))數(shù)據(jù)庫(kù)的系統(tǒng)一起使用,然而實(shí)施例不限于與任何特定類型的通信系統(tǒng)或系統(tǒng)組件的配置一起使用。本領(lǐng)域技術(shù)人員可以認(rèn)識(shí)到,所公開(kāi)的技術(shù)可以用在希望提供增強(qiáng)的另一方對(duì)一方的可理解性的任何通信應(yīng)用中。
首先參考圖1,將根據(jù)至少一些實(shí)施例來(lái)描述示例性通信環(huán)境1。該通信系統(tǒng)包括一通信網(wǎng)絡(luò),該通信網(wǎng)絡(luò)可選地將多個(gè)通信設(shè)備例如連接到會(huì)議橋接器。在一個(gè)實(shí)施例中,通信系統(tǒng)可以包括交換機(jī),該交換機(jī)可以包括專用小交換機(jī) (PBX)系統(tǒng)或者能夠提供電話服務(wù)給與該交換機(jī)相關(guān)聯(lián)的一個(gè)或多個(gè)諸如企業(yè)之類的實(shí)體的任何類似類型的交換系統(tǒng)。交換機(jī)可以是多個(gè)已知交換系統(tǒng)中的一個(gè),其中多個(gè)已知交換系統(tǒng)包括但并不局限于專用自動(dòng)小交換機(jī)(PABX)、計(jì)算機(jī)化小交換機(jī)(CBX)、數(shù)字小交換機(jī)(DBX),或者集成小交換機(jī)(IBX)。交換機(jī)也可以包括交換結(jié)構(gòu),該交換結(jié)構(gòu)提供諸如與會(huì)議橋接器相關(guān)聯(lián)的通信設(shè)備之類的多個(gè)端點(diǎn)、服務(wù)器和數(shù)據(jù)庫(kù)的連接。該交換結(jié)構(gòu)可以提供將來(lái)電和/或去電引導(dǎo)至各個(gè)端點(diǎn)的功能并且還提供端點(diǎn)之間的會(huì)議功能。與參與者相關(guān)聯(lián)的通信設(shè)備可以是分組交換式的或電路交換式的,并且可以包括,例如,如Avaya公司的4600系列IP電話 之類的IP硬電話,如Avaya公司的IP軟電話 之類的IP軟電話,個(gè)人數(shù)字助理或PDA,個(gè)人電腦或者PC,筆記本電腦,基于分組的H. 320 視頻電話以及會(huì)議單元,基于分組的語(yǔ)音消息傳輸和響應(yīng)單元,基于分組的傳統(tǒng)計(jì)算機(jī)電話附件,和傳統(tǒng)的有線或無(wú)線電話。附圖1示出了根據(jù)示例性實(shí)施例的示例性通信環(huán)境1。該通信環(huán)境1包括歸一化系統(tǒng)或附件100和一個(gè)或多個(gè)終端,比如終端A 200和終端B300。每個(gè)終端可以與可選的反饋/輸入模塊,比如反饋/輸入模塊210和310相關(guān)聯(lián)。各個(gè)終端通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò) 10以及鏈路5和7相連接,鏈路7例如是可替代通信路徑的示例。終端可以是能夠通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)10實(shí)現(xiàn)通信的任何通信終端,比如電話、揚(yáng)聲器電話、麥克風(fēng)、多媒體終端等等,網(wǎng)絡(luò)10例如是公共交換電話網(wǎng)絡(luò)、分組交換電話網(wǎng)絡(luò)、VOIP網(wǎng)絡(luò)、SIP使能的網(wǎng)絡(luò),或者一般地利用一個(gè)或多個(gè)通信協(xié)議的任何通信網(wǎng)絡(luò)。歸一化系統(tǒng)或附件100包括分析模塊110、簡(jiǎn)檔模塊120、控制器130、存儲(chǔ)器140、 存儲(chǔ)裝置/緩存器150、時(shí)長(zhǎng)/幅度修改模塊160、語(yǔ)言檢測(cè)模塊170、不同語(yǔ)音事件識(shí)別模塊180、編碼和壓縮模塊190以及貯存庫(kù)105。在示例性操作模式中,歸一化系統(tǒng)100與分析模塊110合作,從一個(gè)或多個(gè)終端接收語(yǔ)音。接著,與不同語(yǔ)音事件識(shí)別模塊180合作,檢測(cè)不同語(yǔ)音事件。這是通過(guò)對(duì)所接收的語(yǔ)音編碼并且使用一種準(zhǔn)許標(biāo)識(shí)諸如音節(jié)之類的不同語(yǔ)音事件的時(shí)長(zhǎng)并表示為具體的可調(diào)節(jié)語(yǔ)音生成參數(shù)的技術(shù)來(lái)實(shí)現(xiàn)的。這些類型的技術(shù)的例子包括上面討論的LPC和 CELP。一旦所接收的語(yǔ)音被編碼,則已標(biāo)識(shí)出的不同語(yǔ)音事件就被表示成具體的可調(diào)節(jié)語(yǔ)音生成參數(shù)。在與語(yǔ)言檢測(cè)模塊170和貯存庫(kù)105的協(xié)作下,分析模塊110與簡(jiǎn)檔模塊120、控制器130、存儲(chǔ)器140和存儲(chǔ)裝置/緩存器150中的一個(gè)或多個(gè)合作來(lái)確定正被講的語(yǔ)言。 另外,講話者的‘本土’語(yǔ)言也能夠被檢測(cè)出來(lái)。這能夠通過(guò)例如在所接收的語(yǔ)音上實(shí)時(shí)地來(lái)實(shí)現(xiàn),或者替代地或另外地檢索存儲(chǔ)在簡(jiǎn)檔模塊120中的簡(jiǎn)檔來(lái)實(shí)現(xiàn)。該簡(jiǎn)檔可以基于一個(gè)或多個(gè)標(biāo)識(shí),比如呼叫者ID信息,或者通過(guò)反饋/輸入模塊從人接收的信息,而被與終端和/或該人相關(guān)聯(lián)。然后分析模塊110在與貯存庫(kù)105的合作下,利用正被講的語(yǔ)言和講話人的本土語(yǔ)言的知識(shí)來(lái)檢測(cè)由于“本土”語(yǔ)言的發(fā)音模式被不恰當(dāng)?shù)貞?yīng)用而導(dǎo)致正被將的語(yǔ)言中的一個(gè)或多個(gè)單詞具有錯(cuò)誤的音節(jié)時(shí)長(zhǎng)的情況。一旦這一個(gè)或多個(gè)不正確的音節(jié)時(shí)長(zhǎng)被標(biāo)識(shí),則在與時(shí)長(zhǎng)/幅度修改模塊160、控制器130、存儲(chǔ)器140和存儲(chǔ)裝置/緩存器150的合作下,與錯(cuò)讀音節(jié)相關(guān)的時(shí)長(zhǎng)和幅度參數(shù)中的一個(gè)或多個(gè)被調(diào)節(jié)以進(jìn)行如下中的一種或多種延長(zhǎng)、縮短、強(qiáng)調(diào)、去強(qiáng)調(diào),或者其它方式的嘗試將錯(cuò)讀單詞與該單詞的正確發(fā)音校準(zhǔn)的適當(dāng)調(diào)節(jié)。在調(diào)節(jié)了這一個(gè)或多個(gè)參數(shù)后,該經(jīng)修改的語(yǔ)音產(chǎn)品被用作重新生成的語(yǔ)音產(chǎn)品的基礎(chǔ),其然后可以在具有正確的或更正確的音節(jié)時(shí)長(zhǎng)/強(qiáng)調(diào)的情況下被呈現(xiàn)給聽(tīng)者。根據(jù)一個(gè)示例性實(shí)施例,該經(jīng)修改的語(yǔ)音產(chǎn)品被提供到正常通信信道上,作為由該講話人所講的語(yǔ)音的替代。根據(jù)另一示例性實(shí)施例,該經(jīng)修改的語(yǔ)音產(chǎn)品被提供到替代通信路徑7 上,例如經(jīng)由耳語(yǔ)通道到達(dá)收聽(tīng)者。控制器130在與輸入模塊210/310的合作下能夠允許用戶選擇關(guān)于該歸一化系統(tǒng)如何操作的各種選項(xiàng)。比如,用戶可以選擇他們是否想要該歸一化系統(tǒng)開(kāi)啟或關(guān)閉,他們可以設(shè)置遞送選項(xiàng),例如以在耳語(yǔ)通道上收聽(tīng)經(jīng)修改的語(yǔ)音、讓經(jīng)修改的語(yǔ)音在主聲道上并讓原始語(yǔ)音在耳語(yǔ)通道上,只收聽(tīng)經(jīng)修改的語(yǔ)音,等等。另外, 用戶可以選擇如何處理各個(gè)流,比如對(duì)原始語(yǔ)音流和經(jīng)修改的語(yǔ)音流中的一個(gè)或多個(gè)進(jìn)行記錄,以及可選地,保存與時(shí)長(zhǎng)/幅度修改模塊執(zhí)行的處理有關(guān)的元信息。更詳細(xì)來(lái)講,與錯(cuò)讀音節(jié)相關(guān)的參數(shù)的調(diào)節(jié)可以基于許多標(biāo)準(zhǔn)。比如,在與貯存庫(kù) 105的合作下,在做出調(diào)節(jié)之后,可以判斷未經(jīng)修改的話音在所說(shuō)語(yǔ)言中是否是合理單詞。 比如,可以查詢貯存庫(kù)105,更具體地,查詢其中的詞典和發(fā)音規(guī)則來(lái)判斷該單詞是否合理。 此外,可以用相同的方式來(lái)判斷在經(jīng)修改的情況下該話音是否是所講語(yǔ)言中的合理單詞。更加詳細(xì)地,可以查詢貯存庫(kù)105來(lái)判斷該話音是否是習(xí)慣說(shuō)“本土”語(yǔ)言的人對(duì)所說(shuō)語(yǔ)言中的合理單詞的已知的、常見(jiàn)的錯(cuò)誤發(fā)音。比如,歸一化系統(tǒng)100可以通過(guò)將記錄和存儲(chǔ)在貯存庫(kù)105中的信息的一個(gè)或多個(gè)部分與眾多參與者之間的眾多談話相比較來(lái)標(biāo)記這些數(shù)據(jù),可選地,以增強(qiáng)該歸一化系統(tǒng)的性能和精確度。作為另一種檢查,時(shí)長(zhǎng)/幅度修改模塊160可以與貯存庫(kù)105合作來(lái)判斷將由時(shí)長(zhǎng)/幅度修改模塊160產(chǎn)生的話音是否可能是所說(shuō)語(yǔ)言中的不適當(dāng)單詞或短語(yǔ)。比如,若一話音被解釋成粗魯?shù)幕蛎胺感缘模瑒t分析模塊110可以進(jìn)行如下中的一者或多者進(jìn)一步修改、刪除、以及向講話者提供關(guān)于該特定話音的信息。比如,若判斷出該話音是粗魯?shù)幕蛎胺感缘?,則可以通過(guò)輸入模塊向講話者提供指示出他們的錯(cuò)誤發(fā)音可能引起問(wèn)題的實(shí)時(shí)反饋。根據(jù)另外的或可替代的示例性實(shí)施例,時(shí)長(zhǎng)/幅度修改模塊可以對(duì)音節(jié)進(jìn)行部分的而非全面的調(diào)節(jié),以使得時(shí)長(zhǎng)錯(cuò)誤被減少而非消除。以類似的方式,可選地,反饋也可被用來(lái)向講話者和/或收聽(tīng)者提供信息以指示正被呈現(xiàn)的語(yǔ)音流已被修改的情況。再次地,這可以經(jīng)由反饋/輸入模塊210/310利用聽(tīng)覺(jué)的、視覺(jué)的、圖形的、基于多媒體的或類似通知技術(shù)中的一個(gè)或多個(gè)來(lái)提供。像之前所討論的,可選地,該反饋/輸入模塊還可被用來(lái)允許一方使能、禁止或以其它方式調(diào)節(jié)由歸一化系統(tǒng)100執(zhí)行的音節(jié)修改技術(shù)。比如,可以提供一接口,該接口允許用戶調(diào)節(jié)由歸一化系統(tǒng)100所作的“侵略(aggressiveness)”或“糾正”,以及對(duì)如何遞送經(jīng)修改的語(yǔ)音和/或原始語(yǔ)音進(jìn)行修改。在原始語(yǔ)音和經(jīng)修改語(yǔ)音都需要保留的情況下, 這尤其有用。在此例子中,經(jīng)修改語(yǔ)音和原始語(yǔ)音可以例如經(jīng)由通信鏈路5和可替代通信鏈路7而被呈現(xiàn)和/或保留在不同聲道上。
時(shí)長(zhǎng)/幅度修改模塊160使用LPC和CELP的好處之一是,音節(jié)在門中經(jīng)過(guò)的時(shí)間量被改變,凈效果是音節(jié)的拉長(zhǎng)或縮短,而不會(huì)引起音高位移??蛇x地,這與調(diào)節(jié)音節(jié)幅度相結(jié)合可以非常有效地被利用來(lái)糾正錯(cuò)誤發(fā)音的錯(cuò)誤,如上述的“orenji”。附圖2概述了歸一化系統(tǒng)或附件的操作的一個(gè)示例性方法。具體地,控制從步驟 S200開(kāi)始并繼續(xù)到步驟S210。在步驟S210中,接收并編碼語(yǔ)音。之后,在步驟S220中,標(biāo)識(shí)不同語(yǔ)音事件。之后,在步驟S230中,不同語(yǔ)音事件被表示為具體的可調(diào)節(jié)語(yǔ)音生成參數(shù)。之后控制繼續(xù)到步驟S240。在步驟S240,檢測(cè)正被講的語(yǔ)言。之后,在步驟S250,從與講話者相關(guān)聯(lián)的簡(jiǎn)檔中檢測(cè)或檢索(一者或多者)講話者的“本土”語(yǔ)言。之后,控制繼續(xù)到步驟S260。在步驟S260中,正被講的語(yǔ)言和講話者的“本土”語(yǔ)言的諸如發(fā)音模式和詞匯之類的知識(shí)被利用來(lái)檢測(cè)由于“本土”語(yǔ)言的發(fā)音模式被不適當(dāng)?shù)貞?yīng)用于所說(shuō)語(yǔ)言而使得正被講的語(yǔ)言中的一個(gè)或多個(gè)詞具有錯(cuò)誤音節(jié)時(shí)長(zhǎng)的情況。之后,在步驟S270,與錯(cuò)讀音節(jié)相關(guān)聯(lián)的時(shí)長(zhǎng)和幅度參數(shù)中的一個(gè)或多個(gè)適當(dāng)?shù)乇徽{(diào)節(jié)以進(jìn)行延長(zhǎng)、縮短、強(qiáng)調(diào)、去強(qiáng)調(diào)中的一種或多種,以糾正對(duì)于正被講的語(yǔ)言的錯(cuò)誤音節(jié)時(shí)長(zhǎng)。之后,在步驟S280,經(jīng)修改的語(yǔ)音產(chǎn)品參數(shù)被用來(lái)重新生成并呈現(xiàn)具有用于呈現(xiàn)給一個(gè)或多個(gè)收聽(tīng)者的、修改后的音節(jié)時(shí)長(zhǎng) /強(qiáng)調(diào)的經(jīng)糾正語(yǔ)音??刂迫缓罄^續(xù)到步驟S290,此時(shí)控制序列結(jié)束。附圖3更加詳細(xì)地圖示說(shuō)明了步驟S260_S^0。更具體地,控制開(kāi)始于步驟S300, 并繼續(xù)到步驟S310。在步驟S310中,判斷未經(jīng)修改的話音在所說(shuō)語(yǔ)言中是否是合理單詞。 這可以通過(guò)將該話音與詞典和可選地一個(gè)或多個(gè)發(fā)音規(guī)則進(jìn)行比較來(lái)進(jìn)行。接著,在步驟 S320中,判斷該話音在經(jīng)修改后在所說(shuō)語(yǔ)言中是否是“更加合理”或合理的單詞。再一次地,這可以通過(guò)與例如可被存儲(chǔ)在貯存庫(kù)中的詞典和發(fā)音規(guī)則中的一個(gè)或多個(gè)的比較來(lái)進(jìn)行。之后,在步驟S330,可以判斷該話音是否是由習(xí)慣說(shuō)“本土”語(yǔ)言的人對(duì)所說(shuō)語(yǔ)言中的合理單詞的已知的、常見(jiàn)的錯(cuò)誤發(fā)音。再一次地,這可以通過(guò)比較話音和存儲(chǔ)在貯存庫(kù)中的單詞來(lái)進(jìn)行。控制然后繼續(xù)到步驟S340。在步驟S340中,可選地判斷該話音是否是所說(shuō)語(yǔ)言中的不適當(dāng)單詞或短語(yǔ)。如果是這種情況,可選地,立即將指示他們的發(fā)音不恰當(dāng),可能引起問(wèn)題的反饋轉(zhuǎn)發(fā)給發(fā)言人。 控制然后繼續(xù)到步驟S350.在步驟S350中,替代對(duì)音節(jié)進(jìn)行全面調(diào)節(jié),而是可以可選地進(jìn)行部分調(diào)節(jié)以使得時(shí)長(zhǎng)錯(cuò)誤被減少但不被消除。之后,在步驟S360中,如上所述,可選反饋可被提供給講話者和收聽(tīng)者中的一個(gè)或多個(gè),例如以指示語(yǔ)音流已被修改的情況。可以理解,這可被提供給講話者、收聽(tīng)者,或者他們兩者??蛇x的示例性步驟S330允許各方中的一方或多方使能、禁止或調(diào)節(jié)由歸一化系統(tǒng)所作的修改。比如,可以允許一方開(kāi)啟、關(guān)閉,和/或調(diào)節(jié)該歸一化系統(tǒng)用來(lái)應(yīng)用其音節(jié)修改技術(shù)的“侵略”。此外,在步驟S380中,可選地,可以向用戶提供對(duì)遞送修改選項(xiàng)進(jìn)行修改的能力。比如,用戶可以選擇他們想要接收的一個(gè)或多個(gè)音頻流,比如原始的,經(jīng)修改的, 或者它們兩者。比如,在立體聲環(huán)境下,用戶可以選擇在聲道A中接收原始版本,在聲道B中接收修改版本。在另一示例性實(shí)施例中,用戶可能想要接收修改版本,而在耳語(yǔ)通道中呈現(xiàn)原始版本。在另一示例性實(shí)施例中,用戶可能想接收經(jīng)修改的語(yǔ)音,而記錄下原始語(yǔ)音。在又一示例性實(shí)施例中,原始和經(jīng)修改的語(yǔ)音兩者可以均被記錄,或者例如用于歸檔的目的。 將理解,可以利用與輸入相關(guān)的設(shè)備來(lái)從收聽(tīng)者接收各種輸入,從而允許他們精確地修改他們想如何收聽(tīng)講話者的原始和經(jīng)修改語(yǔ)音中的一個(gè)或多個(gè)??刂迫缓罄^續(xù)到步驟S390, 在此控制序列結(jié)束。根據(jù)另一示例性實(shí)施例,應(yīng)當(dāng)理解,這里公開(kāi)的技術(shù)并不限于兩方,而是可以擴(kuò)展到多方通話。在這個(gè)例子中,可以適當(dāng)?shù)貙⑦@里的技術(shù)用于通信信道中的僅一部分,這是因?yàn)橐恍┲v話者可能說(shuō)的是他們的本土語(yǔ)言,而其它講話者可能說(shuō)的是他們的本土語(yǔ)言以外的語(yǔ)言。另一可選特征是使用簡(jiǎn)檔,并且在與簡(jiǎn)檔模塊120的合作下,使該簡(jiǎn)檔與時(shí)長(zhǎng)/幅度修改模塊160合作來(lái)糾正一方的常見(jiàn)錯(cuò)誤發(fā)音單詞。比如,簡(jiǎn)檔模塊120可以存儲(chǔ)總是被特定人錯(cuò)讀的單詞目錄。知曉特定人過(guò)去經(jīng)常讀錯(cuò)一特定單詞的時(shí)長(zhǎng)/幅度修改模塊160 可以使用該歷史信息來(lái)輔助實(shí)時(shí)地或接近實(shí)時(shí)地動(dòng)態(tài)糾正錯(cuò)誤發(fā)音。使用所存儲(chǔ)的該歷史信息也可以有助于降低施加給歸一化系統(tǒng)的計(jì)算負(fù)擔(dān),這是因?yàn)椋绻?jīng)修改的單詞已被診斷為合理的單詞、出現(xiàn)在詞典中、沒(méi)有違背任何發(fā)音規(guī)則,以及不能被解釋成粗魯?shù)幕蛎胺感缘?,那么顯然,每當(dāng)該錯(cuò)誤發(fā)音出現(xiàn)時(shí)歸一化系統(tǒng)可以繞過(guò)這些步驟。依據(jù)另一示例性實(shí)施例,并且再次地,為了進(jìn)一步輔助降低系統(tǒng)的計(jì)算負(fù)擔(dān),緩存器150可被利用,以使得在同一談話中被標(biāo)識(shí)為錯(cuò)讀的那些單詞可以從該緩存器中檢索回經(jīng)糾正版本并且作為經(jīng)修改話音被呈現(xiàn)給(一個(gè)或多個(gè))其它參與者。因而,取代需要執(zhí)行上述列舉的大部分步驟,一旦錯(cuò)讀單詞(再次)被檢測(cè)到,分析模塊110可以立即替換成存儲(chǔ)在緩存器中的話音的修改版本。各個(gè)實(shí)施例包括基本上如這里(包括各個(gè)實(shí)施例,子組合和其子集)所圖示并描述的部件、方法、處理、系統(tǒng)和/或裝置。本領(lǐng)域的技術(shù)人員在理解本公開(kāi)后將明白如何作出和使用本發(fā)明。在各個(gè)實(shí)施例中,本發(fā)明包括在缺少未在此處或其各個(gè)實(shí)施例中示出和 /或記載的各項(xiàng)的情況下,包括缺少可能已在先前的設(shè)備或處理中例如用于提高性能、實(shí)現(xiàn)容易度和/或降低實(shí)施成本的各項(xiàng)的情況下,來(lái)提供設(shè)備和處理。前面的討論以說(shuō)明和描述為目的而被給出。前面并不旨在將本發(fā)明局限于這里所公開(kāi)的一種或多種形式。在前述的具體實(shí)施方式
中,例如,為了精簡(jiǎn)本公開(kāi),本發(fā)明的各個(gè)特點(diǎn)在一個(gè)或多個(gè)實(shí)施例中被組合在一起。這種公開(kāi)方法不應(yīng)被理解成反映了要求保護(hù)的發(fā)明需要比明確記載在每個(gè)權(quán)利要求中的特征更多的特征的意圖。而是,正如下面的權(quán)利要求所反映的,發(fā)明點(diǎn)在于少于前面公開(kāi)的單個(gè)實(shí)施例中的所有特征。因此,下面的權(quán)利要求由此被并入此具體實(shí)施方式
中,其中每個(gè)權(quán)利要求作為分離的優(yōu)選實(shí)施方式而獨(dú)立存在。此外,雖然本發(fā)明的描述已經(jīng)包括了對(duì)一個(gè)或多個(gè)實(shí)施例以及某些變形和修改的描述,但是其它的變形和修改也落在本公開(kāi)的范圍內(nèi),例如,在理解了本公開(kāi)后,可落入本領(lǐng)域技術(shù)人員的技術(shù)和知識(shí)中。希望在準(zhǔn)許的范圍內(nèi)獲得包括要求保護(hù)的實(shí)施例的替代實(shí)施例的權(quán)利,替代實(shí)施例包括可替換的、可互換的和/或等同的結(jié)構(gòu)、功能、范圍或步驟, 而不論這些可替換的、可互換的和/或等同的結(jié)構(gòu)、功能、范圍或步驟是否在本發(fā)明中被公開(kāi),并且并不希望向公眾貢獻(xiàn)任何可專利的主題。雖然上述的流程圖已經(jīng)結(jié)合特定的事件序列進(jìn)行了討論,然而應(yīng)當(dāng)理解,可以在本質(zhì)上不影響本發(fā)明的操作的情況下對(duì)該序列進(jìn)行改變。此外,并不需要出現(xiàn)如示例性實(shí)施例中所記載的那樣的精確事件序列。這里所給出的示例性技術(shù)并不局限于以特定方式描述的實(shí)施例,而是還可以被用于其它的示例性實(shí)施例,并且每個(gè)所描述的特征都可以分別地單獨(dú)要求保護(hù)。這里描述的系統(tǒng)、方法和協(xié)議還可以在除了或者替代所描述的通信設(shè)備以外的如下裝置上來(lái)實(shí)現(xiàn)專用計(jì)算機(jī)、編程微處理器或微控制器和(一個(gè)或多個(gè))外圍集成電路元件、ASIC或其它集成電路、數(shù)字信號(hào)處理器、諸如分立元件電路之類的硬連線電路或邏輯電路、諸如PLD、PLA、FPGA、PAL之類的可編程邏輯器件、諸如電話機(jī)之類的通信設(shè)備、任何類似裝置,等等。一般地,能夠?qū)崿F(xiàn)狀態(tài)機(jī),其進(jìn)而能夠?qū)崿F(xiàn)這里所述的方法的任何設(shè)備可以用來(lái)實(shí)現(xiàn)這里公開(kāi)的各種通信方法、協(xié)議和技術(shù)。此外,可以用利用對(duì)象的軟件或面向?qū)ο蟮能浖_(kāi)發(fā)環(huán)境來(lái)容易地實(shí)現(xiàn)所公開(kāi)的方法,這些軟件和開(kāi)發(fā)環(huán)境提供了可在各種計(jì)算機(jī)或工作站平臺(tái)上使用的可移植源代碼。 替代地,可以用使用標(biāo)準(zhǔn)邏輯電路或VLSI設(shè)計(jì)的硬件來(lái)部分地或全部地實(shí)現(xiàn)所公開(kāi)的系統(tǒng)。是用硬件還是軟件來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明的系統(tǒng)取決于系統(tǒng)的速度和/或效率要求、具體的功能,以及所利用的具體軟件或硬件系統(tǒng)或微處理器或微計(jì)算機(jī)系統(tǒng)。可應(yīng)用領(lǐng)域的技術(shù)人員可以根據(jù)這里提供的功能描述并利用計(jì)算機(jī)和通信領(lǐng)域的一般基本知識(shí),利用任何已知的或以后開(kāi)發(fā)出的系統(tǒng)或結(jié)構(gòu)、設(shè)備和/或軟件,來(lái)以硬件和/或軟件容易地實(shí)現(xiàn)這里說(shuō)明的通信系統(tǒng)、方法和協(xié)議。此外,可以用被存儲(chǔ)在非易失性存儲(chǔ)介質(zhì)中,并且在與控制器和存儲(chǔ)器協(xié)同操作的經(jīng)編程通用計(jì)算機(jī)、專用計(jì)算機(jī)、微處理器等上運(yùn)行的軟件來(lái)容易地實(shí)現(xiàn)所公開(kāi)的方法。 在這些情況中,本發(fā)明的系統(tǒng)和方法可以被實(shí)現(xiàn)為被嵌入在個(gè)人計(jì)算機(jī)上的程序(例如小應(yīng)用程序(applet)、JAVA⑧或CGI腳本)、駐留在服務(wù)器或計(jì)算機(jī)工作站上資源、被嵌入在專用通信系統(tǒng)或系統(tǒng)組件等中的例程等等。還可以通過(guò)將系統(tǒng)和/或方法物理地結(jié)合到軟件和/或硬件系統(tǒng)(例如通信設(shè)備或系統(tǒng)的硬件和軟件系統(tǒng))中來(lái)實(shí)現(xiàn)本系統(tǒng)。因此,根據(jù)本發(fā)明,顯然已提供了用于增強(qiáng)通信可理解性的系統(tǒng),裝置和方法。雖然已結(jié)合多個(gè)實(shí)施例描述了本發(fā)明,但是很明顯,許多替換方式、修改和變形對(duì)可應(yīng)用領(lǐng)域的普通技術(shù)人員而言是顯而易見(jiàn)的。因此,希望包括在本公開(kāi)的精神和范圍內(nèi)的所有這樣的替換方式、修改、等同物和變形。
權(quán)利要求
1.一種提高通信可理解性的方法,包括 接收語(yǔ)音;在接收的語(yǔ)音中標(biāo)識(shí)一個(gè)或多個(gè)不同語(yǔ)音事件;將所述一個(gè)或多個(gè)不同語(yǔ)音事件中的一個(gè)或多個(gè)表示為可調(diào)節(jié)語(yǔ)音生成參數(shù); 利用知識(shí)庫(kù)來(lái)確定因錯(cuò)誤發(fā)音引起的不正確音節(jié)時(shí)長(zhǎng);以及調(diào)節(jié)錯(cuò)誤發(fā)音以對(duì)錯(cuò)讀音節(jié)進(jìn)行延長(zhǎng)、縮短、強(qiáng)調(diào)或去強(qiáng)調(diào)中的一者或多者。
2.如權(quán)利要求1所述的方法,還包括 檢測(cè)正被講的語(yǔ)言;檢測(cè)講話者的本土語(yǔ)言;利用正被講的語(yǔ)言和講話者的本土語(yǔ)言的發(fā)音模式和詞匯來(lái)檢測(cè)因所述錯(cuò)誤發(fā)音引起的所述不正確音節(jié)時(shí)長(zhǎng);以及使用經(jīng)修改的語(yǔ)音產(chǎn)品參數(shù)重新生成具有經(jīng)糾正音節(jié)定時(shí)的語(yǔ)音,并呈現(xiàn)給一個(gè)或多個(gè)收聽(tīng)者。
3.如權(quán)利要求1所述的方法,還包括判斷話音是否是合法單詞。
4.如權(quán)利要求1所述的方法,還包括判斷話音是否是常見(jiàn)的錯(cuò)誤發(fā)音,并且向講話者提供反饋。
5.用于執(zhí)行權(quán)利要求1的功能的一個(gè)或多個(gè)裝置,或者存儲(chǔ)有指令的非易失性計(jì)算機(jī)可讀信息存儲(chǔ)介質(zhì),所述指令如果被處理器運(yùn)行,就使得權(quán)利要求1所述的方法被執(zhí)行。
6.一種提高通信可理解性的系統(tǒng),包括 分析模塊,該分析模塊接收語(yǔ)音;不同語(yǔ)音事件識(shí)別模塊,該不同語(yǔ)音事件識(shí)別模塊與編碼和壓縮模塊合作來(lái)標(biāo)識(shí)所接收語(yǔ)音中的一個(gè)或多個(gè)不同語(yǔ)音事件,并且將所述一個(gè)或多個(gè)不同語(yǔ)音事件中的一個(gè)或多個(gè)表示為可調(diào)節(jié)語(yǔ)音生成參數(shù);以及修改模塊,該修改模塊利用知識(shí)庫(kù)來(lái)確定因錯(cuò)誤發(fā)音引起的不正確音節(jié)時(shí)長(zhǎng),并且調(diào)節(jié)所述錯(cuò)誤發(fā)音以對(duì)錯(cuò)讀音節(jié)進(jìn)行延長(zhǎng)、縮短、強(qiáng)調(diào)或去強(qiáng)調(diào)中的一者或多者。
7.如權(quán)利要求6所述的系統(tǒng),還包括語(yǔ)言檢測(cè)模塊,該語(yǔ)言檢測(cè)模塊檢測(cè)正被講的語(yǔ)言并且檢測(cè)講話者的本土語(yǔ)言, 其中,包括正被講的語(yǔ)言和講話者的本土語(yǔ)言的發(fā)音模式和詞匯的貯存庫(kù)被用來(lái)檢測(cè)因錯(cuò)誤發(fā)音引起的所述不正確音節(jié)時(shí)長(zhǎng),以及其中,經(jīng)修改的語(yǔ)音產(chǎn)品參數(shù)被用來(lái)重新生成具有經(jīng)糾正音節(jié)定時(shí)的語(yǔ)音,并且呈現(xiàn)給一個(gè)或多個(gè)收聽(tīng)者。
8.如權(quán)利要求6所述的系統(tǒng),還包括處理器,該處理器判斷話音是否是合法單詞,并且其中,所述分析模塊還判斷話音是否是常見(jiàn)的錯(cuò)誤發(fā)音。
9.如權(quán)利要求6所述的系統(tǒng),還包括反饋模塊,該反饋模塊向講話者提供反饋。
10.如權(quán)利要求6所述的系統(tǒng),其中,參與者能夠經(jīng)由反饋模塊來(lái)選擇經(jīng)修改的流和未經(jīng)修改的流中的一個(gè)或多個(gè)進(jìn)行收聽(tīng),并且其中,還判斷經(jīng)修改單詞是否是不適當(dāng)?shù)摹?br> 全文摘要
本發(fā)明涉及語(yǔ)音音節(jié)時(shí)長(zhǎng)的自動(dòng)歸一化。一個(gè)很常見(jiàn)的問(wèn)題是當(dāng)人們講他們所習(xí)慣的語(yǔ)言以外的語(yǔ)言時(shí),音節(jié)可能被說(shuō)得比聽(tīng)者認(rèn)為合適的更長(zhǎng)或更短。這種情況的一個(gè)例子可在有很重日語(yǔ)口音的人說(shuō)英語(yǔ)時(shí)被觀察到。由于日語(yǔ)單詞以元音結(jié)尾,因此本土日本人傾向于在應(yīng)以輔音結(jié)尾的英語(yǔ)單詞末尾添加元音。說(shuō)明性地,本土日本人經(jīng)常將“orange”發(fā)音為“orenji”。一個(gè)方面提供了一種自動(dòng)語(yǔ)音糾正處理,該處理不必需要知道正討論該水果;該系統(tǒng)只需要知道該講話者習(xí)慣于日語(yǔ),該收聽(tīng)者習(xí)慣于英語(yǔ),“orenji”不是一個(gè)英文單詞,以及“orenji”是英文單詞“orange”的一種典型日語(yǔ)錯(cuò)誤發(fā)音。
文檔編號(hào)G10L15/22GK102254553SQ20111018422
公開(kāi)日2011年11月23日 申請(qǐng)日期2011年5月17日 優(yōu)先權(quán)日2010年5月17日
發(fā)明者保羅·若勒·麥克里斯, 特里·詹寧斯 申請(qǐng)人:阿瓦雅公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
奇台县| 海晏县| 五河县| 五家渠市| 宾川县| 河池市| 澄迈县| 民权县| 鞍山市| 长寿区| 象山县| 田阳县| 中卫市| 山西省| 交城县| 龙海市| 宜都市| 汶川县| 永昌县| 榆中县| 开阳县| 霍山县| 五家渠市| 沙坪坝区| 南京市| 宕昌县| 青冈县| 阆中市| 金湖县| 张家界市| 铁力市| 东乡族自治县| 巴彦淖尔市| 庐江县| 鄂尔多斯市| 都江堰市| 张家界市| 黑山县| 兴国县| 扶风县| 常熟市|