欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于聲學(xué)特征的同步修改的方法和裝置的制作方法

文檔序號:2829992閱讀:441來源:國知局

專利名稱::用于聲學(xué)特征的同步修改的方法和裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及信號修改。更具體地說,但并非排他性地,本發(fā)明涉及在基于其它數(shù)字化聲音信號中的特征修改一數(shù)字化聲音信號過程中出現(xiàn)的問題,其中,第一聲音信號和第二聲音信號的對應(yīng)的特征在各個信號中不出現(xiàn)在時間上相同的相對位置。
背景技術(shù)
:公知的是,難以隨著音頻或音頻/視頻片段進行演講或演唱,使得新的表演是原來的演員或歌手的話語的恰好被同步地重復(fù)。因此,新的表演的記錄很不可能使其開始和細節(jié)的聲學(xué)特性與原唱音頻音軌同步。相似地,諸如新的歌手的音調(diào)(pitch)的特征可能不如原唱歌手精確或復(fù)雜地改變。在專業(yè)音頻記錄產(chǎn)業(yè)和消費者基于計算機的游戲和活動中存在許多情況,其中,聲音記錄包括語音,新記錄話音的音樂音調(diào)將受益于音調(diào)調(diào)整,通常意味著校正,以使其與原唱語音記錄合拍。此外,即使普通業(yè)余演唱的記錄合拍,也將不具有專業(yè)歌手的熟練的發(fā)音方式和音調(diào)變化。圖4顯示對相同音樂音軌演唱相同詞語的大眾成員的音調(diào)測量(新的音調(diào)402)和專業(yè)歌手的音調(diào)測量(向?qū)б粽{(diào)401)。語音化的信號(非零Hz音調(diào)值)的對應(yīng)的部分(脈沖)的開始和結(jié)束之間的定時差異以及非語音化或靜默部分(處于零Hz)的位置的定時差異是頻繁且顯著的。在相同的相對時間直接將來自向?qū)б粽{(diào)401的音調(diào)數(shù)據(jù)應(yīng)用于新的音調(diào)402的數(shù)據(jù)是明顯錯誤的,并且不適合于所示段的真實量。這是典型的結(jié)果,并且示出待解決的基本問題??梢酝ㄟ^商業(yè)可用的硬件和軟件設(shè)備,自動將音樂的逐音高的音調(diào)調(diào)整應(yīng)用于記錄的或?qū)崨r演唱,所述商業(yè)可用的硬件和軟件設(shè)備通常將到來的音高調(diào)諧到可接受的音高音調(diào)的指定的固定柵格。在這樣的系統(tǒng)中,可以自動校正每一輸出音高,但因為該方法可能移除自然的和期望的"真人,,變調(diào),因此可能經(jīng)常導(dǎo)致不可接受的或不好的結(jié)果。在這樣的已知軟件和硬件設(shè)備中的目標(biāo)音調(diào)識別的基本基礎(chǔ)是音樂的音階升降,其基本地是那些特定音高頻率的列表,設(shè)備應(yīng)該首先比較輸入信號和所述特定音高頻率。多數(shù)設(shè)備有用于標(biāo)準(zhǔn)音階升降的預(yù)設(shè)音樂音階升降,并允許對其進行定制,例如以改變目標(biāo)音調(diào)或保留未改變的特定音調(diào)化的音高??梢詫⒁阎浖O(shè)置為自動模式,這也是通常硬件設(shè)備如何工作設(shè)備檢測輸入音調(diào),在用戶指定的預(yù)設(shè)音階升降中識別最接近的音階升降音高,并改變輸入信號,從而輸出音調(diào)匹配于指定的音階升降音高的音調(diào)。輸出音調(diào)回旋或重調(diào)音到目標(biāo)音調(diào)的速率(有時描述為"速度")被控制以幫助更精確和更自然地維持自然音調(diào)輪廓(即作為時間的函數(shù)的音調(diào)),并允許"風(fēng)格"的較大的變化。然而,所記錄的業(yè)余的演唱不能通過這樣的已知自動調(diào)整技術(shù)而被增強以實現(xiàn)在專業(yè)歌手的表演中找到的復(fù)雜和熟練的音調(diào)變調(diào)。還存在通過使用目標(biāo)語音或其它存儲的目標(biāo)語音參數(shù)數(shù)據(jù)的序列執(zhí)行音調(diào)校正和/或其它發(fā)音修改以指定期望的修改的已知語音處理方法和系統(tǒng)。這些已知方法具有一個或多個明顯的缺點。例如1、被嚴(yán)格地應(yīng)用于用戶的輸入語音信號的目標(biāo)音調(diào)(或其它發(fā)音特征)采用卡拉OK音軌的定時或用戶通常實時演唱的其它這樣的伴奏,并且不嘗試校準(zhǔn)對應(yīng)的發(fā)音特征(美國專利5966687,日本專利2003044066)。如果用戶的語音相對于目標(biāo)特征(例如音調(diào))數(shù)據(jù)的定時開始太早,則目標(biāo)特征將被錯誤地應(yīng)用于稍后的詞句或音節(jié)。如果用戶的語音較晚,則出現(xiàn)相似的問題。在樂句中,具有音樂音軌的不符合時間的詞句或音節(jié)將被分配錯誤的音調(diào)或用于所述詞句或音節(jié)的其它特征。相似地,當(dāng)期望非語音化的段時出現(xiàn)的任意語音化的段不接收存儲的目標(biāo)音調(diào)或其它目標(biāo)特征信息。2、應(yīng)用于用戶的輸入語音的目標(biāo)音調(diào)(或其它發(fā)音特征)依賴并采用輸入的音素或相似地語音化/非語音化模式或僅僅元音的期望的存儲的序列(例如美國5750912)。這些方法通常需要用戶訓(xùn)練或輸入音素數(shù)據(jù)的固定特性和/或需要充分接近用于精確識別的相同詞句的發(fā)音出現(xiàn)。如果不存在訓(xùn)練并且用戶的音素設(shè)置充分不同于將不識別的所存儲的設(shè)置,則系統(tǒng)將不正確地運作。如果沒有將用戶的音素保持足夠長,或保持太短,則輸出音高可能被截斷或切斷。如果音素到達太早或太晚,則音調(diào)或特征可能應(yīng)用于正確的音素,但其將脫離音樂伴奏的時間。如果用戶發(fā)出錯誤的音素,則系統(tǒng)可能很容易無法保持匹配。此外,在歌曲中,單個音素通常被給定多個和/或連續(xù)音調(diào)的范圍,在這樣的音調(diào)上,基于音素的系統(tǒng)將不可能實現(xiàn)正確的音調(diào)或特征改變。精確的音素識別還需要非零處理時間,這在實時系統(tǒng)中將延遲正確的特征的應(yīng)用。非發(fā)音的聲音(例如笛子)不能被用作向?qū)盘柣蜉斎搿?、目標(biāo)音調(diào)模型基于由表典型地描述的一組離散音高(例如Midi數(shù)據(jù)),其通常在音調(diào)和時間上被量化。在此情況下,對輸入的語音的修改被限制為存儲的音高。該方法導(dǎo)致可以生成的受限的一組可用發(fā)音模式。內(nèi)部音高過渡、顫音和滑奏控制通常將受限于基于粗音高的描述符(即Midi)。此外,處理過的音調(diào)校正的演唱語音可以出現(xiàn)機械(單調(diào))的聲音,如果音調(diào)通過錯誤定時被應(yīng)用于詞句的錯誤部分,則歌曲將聽起來很古怪,并且可能跑調(diào)。4、系統(tǒng)被設(shè)計為接近于實時地工作(如同在實況卡拉OK系統(tǒng)中)并在已經(jīng)接收到(待校正的)輸入之后短暫地創(chuàng)建輸出。使用音素或相似特征的系統(tǒng)(例如美國專利5750912)受限于非常局部化的時隙。這樣的系統(tǒng)可能脫離音階,導(dǎo)致例如卡拉OK歌手的元音匹配于向?qū)繕?biāo)演唱的錯誤部分。
發(fā)明內(nèi)容因此,需要一種在新的發(fā)音表演的時變特征和向?qū)Оl(fā)音表演的對應(yīng)的特征之間首先建立詳細定時關(guān)系的方法和裝置。其次,必須將時間校準(zhǔn)路徑用作時間映射以在準(zhǔn)確的正確時間正確地確定特征(例如音調(diào))調(diào)整和將其應(yīng)用于新的發(fā)音表演。當(dāng)正確地完成時,這允許將在向?qū)Оl(fā)音表演中發(fā)現(xiàn)的細微差別和復(fù)雜性(例如對于音調(diào)顫音、變化曲線、滑音、跳躍等)施加到新的發(fā)音表演。此外,如果應(yīng)用了時間校準(zhǔn),則可以控制除了音調(diào)之外或作為音調(diào)的替換的其它特征;例如聲門特性(例如呼吸或刺耳的語音)、聲道共振、EQ以及其它。本發(fā)明的另一目的在于提供用于發(fā)聲修改的方法,其操作在非理想輸入的信號條件下,尤其是新輸入(例如用戶語音)(a)是帶限的,和/或限制在動態(tài)范圍中(例如經(jīng)由電話系統(tǒng)輸入);(b)包含特定類型的噪聲或失真;或(c)來自于向?qū)?目標(biāo))語音的具有不同口音、性別或年齡的人、或具有詞句和音素的傳遞的非常不同的定時,無論它們與向?qū)?目標(biāo))信號相同還是不同,并且甚至具有不同的輸入語言。另一目的在于提供一種不需要關(guān)于待存儲的信號(例如關(guān)于信號的音素特性)或可以應(yīng)用于輸出信號的一組詳細的可能的信號狀態(tài)的任意先驗信息的方法。因此,有關(guān)的另一目的在于提供一種可以以向?qū)б纛l信號和新音頻信號操作的方法,向?qū)б纛l信號和新音頻信號中的一個或兩者不需要是話音或演唱。已經(jīng)存在用于音頻信號的時間映射和校準(zhǔn)的系統(tǒng)和方法。在英國專利2117168和美國專利4591928(Bloom等人)中已經(jīng)描述了用于確定兩個音頻信號之間的時間差并通過自動波形編輯來將音頻信號中的一個自動時間校準(zhǔn)到另一音頻信號的方法和裝置。在JHolmesandWHolmes,(2001),"Speechsynthesisandrecognition,2ndEdition",TaylorandFrancis,London中描述了用于時間校準(zhǔn)的其它技術(shù)。用于音調(diào)改變和其它發(fā)音修改的技術(shù)也被4艮好地建立,一個示例是K.Lent(1989),"Anefficientmethodforpitchshiftingdigitallysampledsound,"ComputerMusicJournalVol.13,No.4,atpages65to71。本發(fā)明由所附權(quán)利要求定義,現(xiàn)將參照所附權(quán)利要求。本發(fā)明的優(yōu)選實施例提供用于將第二數(shù)字化音頻信號的一個或多個信號特性自動和正確修改為第一數(shù)字化音頻信號中指定的特征的函數(shù)的方法和裝置。在這些實施例中,首先建立兩個信號中指定的特征的相對定時關(guān)系?;谶@些定時關(guān)系,可以正確地應(yīng)用信號的特征的詳細的和時間嚴(yán)格的修改。為了實現(xiàn)這個方面,生成時間校準(zhǔn)函數(shù)以創(chuàng)建第一信號的特征和第二信號的特征之間的映射,并提供用于可選地編輯第二(用戶的)信號的函數(shù)。本發(fā)明的特定應(yīng)用包括將所選擇的專業(yè)表演者的數(shù)字化發(fā)音表演的音頻特性精確地傳輸?shù)讲皇炀毜娜说臄?shù)字化音頻表演,并因此對其進行增強。本發(fā)明的一個具體應(yīng)用在于將由公眾的典型成員生成的新音頻信號("新信號")的音調(diào)自動調(diào)整到由專業(yè)歌手生成的另一音頻信號("向?qū)盘?)的音調(diào)。該應(yīng)用的示例是使用數(shù)字化音樂視頻作為原唱源的卡拉OK風(fēng)格的記錄和回放系統(tǒng),其中,在原唱音頻和可選的對應(yīng)的視頻的回放期間,用戶的語音被數(shù)字化并輸入到所述裝置(作為新的記錄)。采用該系統(tǒng),可以創(chuàng)建自動進行時間和音調(diào)校正的修改的用戶的語音信號。當(dāng)修改的語音信號同步于原唱視頻而被回放時,關(guān)于音調(diào)和時間,用戶的語音可以精確地替代原唱表演者的記錄的語音,包括任意唇同步。在回放音樂視頻期間,如果在以用戶的修改的語音記錄進行回放期間原唱的、替代的語音信號不可聽見,則這種替代的影響甚至將更有效。在WO2004/040576中描述了修改的語音記錄可以與原唱背景音樂組合。本發(fā)明的其它應(yīng)用在于創(chuàng)建用于電話系統(tǒng)的個性化聲音文件。在這樣的應(yīng)用中,用戶演唱或甚至演講以提供語音信號,語音信號被記錄并其后被增強(例如被音調(diào)和時間校正以符合專業(yè)歌手版本的特性),并且可選地與適當(dāng)?shù)谋尘耙魳坊旌?。其后,得到的增強的用戶記錄可以用于電話用戶作為個性化鈴音或用于其它目的的聲音文件。實施本發(fā)明的裝置其后可以采用例如耦合到包括電信網(wǎng)絡(luò)和/或互聯(lián)網(wǎng)的電信系統(tǒng)的服務(wù)器計算機,并可以使用移動電話作為裝置和用戶之間的接口。附加地或可選地,移動電話可以適用于實施本發(fā)明。在這樣的系統(tǒng)中,可以將由本發(fā)明的實施例產(chǎn)生的表示這樣的信號的數(shù)據(jù)或修改的語音信號通過鈴音傳遞系統(tǒng)發(fā)送到所選擇的接收方,以用作鈴音或其它識別聲音信號。在本發(fā)明的優(yōu)選實施例中,包括創(chuàng)建向?qū)盘柡托滦盘栔g的依賴于時間的映射函數(shù)的步驟確保了無論向?qū)盘柡托滦盘栔g的實質(zhì)差別如何都在新信號中在適當(dāng)?shù)臅r間進行信號特征修改。時間校準(zhǔn)函數(shù)用于將控制特征函數(shù)數(shù)據(jù)映射到期望的信號修改處理。所述修改處理訪問新信號并按照需要對其進行修改。該行動從新信號創(chuàng)建新的第三音頻信號。相應(yīng)地,第三信號其后具有由作為向?qū)盘柕目刂铺卣髦付ǖ奶卣魉_定的期望的時變特征,在一個實施例中,第二音頻信號(新信號)是使用來自時間校準(zhǔn)函數(shù)的映射信息而被時間修改的(非線性時間壓縮或擴展),從而其時變特征在時間上與第一音頻信號校準(zhǔn)。在上述期望的修改已經(jīng)發(fā)生之前或之后可以產(chǎn)生這樣的時間校準(zhǔn)。在替換實施例中,不對新的波形或修改的波形執(zhí)行時間校準(zhǔn)處理。反之,使用時間規(guī)整路徑來將第一信號的控制特征(向?qū)盘栆纛l控制參數(shù))映射到笫二信號,以修改第二信號的波形的適當(dāng)?shù)牟糠植⒈3制湓〞r。通過執(zhí)行處理而沒有實時處理的限制,可以執(zhí)行向?qū)盘柡托滦盘柕拇鎯Φ陌姹镜脑敿毞治?,開始在時間校準(zhǔn)處理之前處理的兩種信號的統(tǒng)計上顯著且實質(zhì)的量(即達到30秒或甚至是整個信號),并關(guān)于長期信號特性進行關(guān)鍵判斷。相應(yīng)地,可以容納大規(guī)模的時間差異(例如幾秒),并且校正的和本地化的優(yōu)化校準(zhǔn)可以發(fā)生在詞句和樂句之內(nèi)。此外,特征修改也被"離線"完成,允許應(yīng)用最高質(zhì)量的處理以及與修改有關(guān)的數(shù)據(jù)的內(nèi)插和/或平滑,以在應(yīng)用于新信號之前移除明顯的總體錯誤。無需預(yù)先定義新信號的輸出特征值的集合。例如,如果由用戶提供的新信號的音調(diào)將要被校正,從而匹配于以專業(yè)歌手的形式的向?qū)盘柕囊粽{(diào),則無需定義或設(shè)置可接受的音調(diào)值。反之,用戶的語音將被調(diào)整到在向?qū)盘栍涗浿谐尸F(xiàn)和測量的值。無需將新信號限制為類似于向?qū)盘柣蛴膳c向?qū)盘栂嗤穆晫W(xué)處理的類型來生成。例如,可以將單調(diào)話音時間和音調(diào)修改為符合獨奏木管樂器或鳥鳴。只要兩種信號具有可以被相關(guān)地對待的一些時變特征,實現(xiàn)本發(fā)明的方法就可以創(chuàng)建具有適當(dāng)?shù)男薷牡奶匦缘妮敵鲂盘?。此外,新信號和向?qū)盘柕奶卣骺梢栽陬l率上彼此偏離。例如,一個信號的音調(diào)可以是八度音階或更加偏離另一信號。應(yīng)注意,一種或兩種音頻信號可以處在超聲或次聲區(qū)域。通過本發(fā)明的優(yōu)選實施例的操作,可以將在專業(yè)歌手的表演中找到的復(fù)雜和熟練音調(diào)變奏(以及可選地其它特性)精確地傳送到用戶(例如業(yè)余)歌手的數(shù)字化語音。這樣將用戶的表演的方面增強到專業(yè)水準(zhǔn)。本發(fā)明的實施例還可以應(yīng)用于自動對話替換(ADR)領(lǐng)域,以增強演員的ADR影棚記錄的表演。實施例可以用于修改影棚記錄的發(fā)音特性,例如音調(diào)、能量級別和韻律的特征,以匹配或符合在具有圖寸象的位置或設(shè)置上記錄的原唱向?qū)盘柕哪切┨卣?。此外,影棚中的演員可以不同于記錄向?qū)盘柕难輪T。此外,本發(fā)明在可以應(yīng)用的處理的范圍內(nèi)是靈活的。例如,在音調(diào)調(diào)整的情況下,可以作為音調(diào)調(diào)整函數(shù)的函數(shù)來引入例如時間校準(zhǔn)的協(xié)奏生成的另一音調(diào)改變函數(shù),以創(chuàng)建替換的輸出信號。此外,可以由任意函數(shù)將向?qū)盘栔械囊粋€測量的特征映射為控制新信號中的完全不同的特征。可以以具有音頻輸入和輸出的裝置的計算機系統(tǒng)(例如PC或基于計算機的游戲控制臺)中的計算機程序來實現(xiàn)實施本發(fā)明的方法。存在可以實現(xiàn)的處理序列的布置的許多置換,在某些情況下一些置換具有超過其它布置的優(yōu)點。以下關(guān)于處理音調(diào)給出示例,以示出變奏如何影響處理復(fù)雜性和/或減少用于生成輸出信號中的可聽信號偽像(artefact)的潛力。在考慮除了音調(diào)之外的處理特征,例如響度、音調(diào)或共振峰結(jié)構(gòu)過程中,可能出現(xiàn)相似的觀察和結(jié)果。典型地,在實施例中,在開始時,對新信號和向?qū)盘柌蓸?,并對其進行數(shù)字化存儲。接下來,魯棒的獨立于演講者的短時間特征分析提取兩個信號中的特征調(diào)制的簡檔。采用所提供的噪聲和電平補償算法(例如美國專利4,591,928中所描述的),在信號的連續(xù)窗口化的"幀"上每隔10毫秒就進行鐠能量測量。在整個輸入信號執(zhí)行這種分析以最大化處理的精度和魯棒性??梢蕴鎿Q地使用其它短期特征測量,可以在L.R.RabinerandR.W.Schafer(1978)"DigitalProcessingofSpeechSignals,"PrentinceHall中找到其示例。采用音調(diào)確定的示例,將在計算機系統(tǒng)中對記錄的信號及其測量的信號特征數(shù)據(jù)執(zhí)行的其余主要信號處理步驟是方法1(a)在確定并輸出優(yōu)化時間校準(zhǔn)路徑函數(shù)作為數(shù)據(jù)序列的模式匹配算法中處理向?qū)盘柡托滦盘柕囊蕾囉跁r間的特征序列。該路徑優(yōu)化地將新信號的幀映射到向?qū)盘柕膸?b)將來自時間校準(zhǔn)路徑的數(shù)據(jù)用于編輯新信號并生成被時間校準(zhǔn)到向?qū)盘柕男滦盘枴?c)向?qū)盘柋环侄螢殡x散的連續(xù)幀,測量每一幀的音調(diào)。對音調(diào)測量序列值進行平滑以提供向?qū)盘栆粽{(diào)輪廓。(d)對于校準(zhǔn)的(編輯的)新信號重復(fù)步驟(c)中的處理,以生成其音調(diào)輪廓。(e)向?qū)盘柕拿恳灰粽{(diào)輪廓值由對應(yīng)的用于校準(zhǔn)的新信號的音調(diào)輪廓值劃分,并對于八度音階變換而被調(diào)整,以生成校正輪廓,所述校正輪廓是給出校正因子以應(yīng)用于校準(zhǔn)的新信號的每一幀的一組值。所述校正輪廓被平滑以移除任意總體誤差。(f)音調(diào)變換算法用于將校準(zhǔn)的新信號的音調(diào)變換(shift)到根據(jù)來自步驟(e)的平滑的校正輪廓的值,從而生成在時間和音調(diào)上匹配于給出的向?qū)盘柕男滦盘?。方?采用級聯(lián)的兩種編輯算法,并在新信號的音調(diào)經(jīng)歷了編輯的一個步驟之后對其進行測量。因此,方法l中的生成的輸出的質(zhì)量取決于來自步驟(b)的編輯的信號的輸出質(zhì)量。因此,在編輯期間引入的瑕疵在于,信號可能降低步驟(d)和(f)的輸出的質(zhì)量。這將導(dǎo)致在校正的音調(diào)中的偶然性小誤差,并且在生成的輸出中可能創(chuàng)建微小的粗糙度。方法2為了減小這樣的誤差的風(fēng)險,另一實施例組合上述步驟(b)和(f),以形成單個編輯階段。此外,從未修改的新信號而不是從時間校準(zhǔn)的(編輯的)版本測量新信號的任意特性(在該示例中,音調(diào))。通過計算時間校準(zhǔn)路徑的逆路徑來實現(xiàn)該目的。逆路徑將未編輯的新信號的每一幀映射到向?qū)盘柕膶?yīng)的幀。從該映射中,計算用于新信號的音調(diào)校正輪廓,其在時間上被校準(zhǔn)到向?qū)盘?。在效果上,在計算音調(diào)校正輪廓之前,向?qū)盘栐跁r間上被校準(zhǔn)到新信號。下面的步驟總結(jié)了該方法。(a)在確定并輸出優(yōu)化時間校準(zhǔn)路徑函數(shù)作為數(shù)據(jù)序列的模式匹配算法中處理向?qū)盘柡托滦盘柕囊蕾囉跁r間的特征序列,該路徑優(yōu)化地將新信號的幀映射到向?qū)盘柕膸?b)將來自時間校準(zhǔn)路徑的數(shù)據(jù)用于產(chǎn)生將向?qū)盘柕膸成涞叫滦盘柕膶?yīng)的幀的逆路徑函數(shù)。(c)向?qū)盘柋环侄螢殡x散幀,測量每一幀的音調(diào)。對音調(diào)測量序列值進行平滑以提供向?qū)盘栆粽{(diào)輪廓。(d)對于校準(zhǔn)的(未編輯的)新信號重復(fù)步驟(c)中的處理,以生成其音調(diào)輪廓。(e)使用逆路徑函數(shù)以將向?qū)盘栆粽{(diào)輪廓校準(zhǔn)到新信號音調(diào)輪廓,映射的向?qū)盘柕拿恳灰粽{(diào)輪廓值由新信號的對應(yīng)的音調(diào)輪廓值來劃分,并對于八度音階變換而被調(diào)整,以生成校準(zhǔn)的校正輪廓,所述校正輪廓是給出校正因子以應(yīng)用于新信號的每一幀的一組值。所述校準(zhǔn)的校正輪廓被平滑以移除任意總體誤差。(f)使用時間校準(zhǔn)路徑函數(shù)和平滑的校準(zhǔn)的校正輪廓,使用變換其音調(diào)并根據(jù)需要對新信號進行時間壓縮或時間擴展的處理算法來編輯新信號,以生成在時間和音調(diào)上校準(zhǔn)到向?qū)盘柕妮敵鲂盘枴?g)或者,作為步驟(f)的替換,可以應(yīng)用平滑的校準(zhǔn)的校正輪廓,而無需新信號對向?qū)盘柕臅r間校準(zhǔn)。這將保持新信號的原唱定時,但即使新信號在時間上尚未被校準(zhǔn)到向?qū)盘?,也將把音調(diào)校正應(yīng)用于新信號的校正幀。方法2的各種形式在所有詞句和樂句上提供更加可靠和自然的聲音音調(diào)校正,這可以采用并如實地再次創(chuàng)建諸如顛音和其它細節(jié)的精細的細微差別。方法3雖然方法2僅編輯新信號一次,但其同時使用修改音調(diào)和時間校準(zhǔn)的處理技術(shù)。通過稍微改變步驟的順序,能夠分離地處理音調(diào)變換和時間修改,而不使用方法1。雖然這樣引入了兩個編輯階段,但對于每一階段可以分離地選擇最適當(dāng)?shù)膶S锰幚硭惴?。下面的步驟總結(jié)了該方法(a)在確定并輸出優(yōu)化的時間校準(zhǔn)路徑函數(shù)作為優(yōu)化地將新信號幀映射到向?qū)盘柕膸臄?shù)據(jù)序列的模式匹配算法中處理向?qū)盘柡托滦盘柕囊蕾囉跁r間的特征序列。(b)向?qū)盘柋环侄螢殡x散幀,測量每一幀的音調(diào)。對音調(diào)測量序列值進行平滑以提供向?qū)盘栆粽{(diào)輪廓。(c)對于(未編輯的)新信號重復(fù)步驟(b)中的處理,以生成其音調(diào)輪廓。(d)使用時間校準(zhǔn)路徑函數(shù),將新信號的音調(diào)輪廓有效地時間校準(zhǔn)到向?qū)盘栆粽{(diào)輪廓。(e)每一向?qū)盘栆粽{(diào)輪廓由對應(yīng)的時間校準(zhǔn)的新信號的音調(diào)輪廓值來劃分,并且對于八度音階變換調(diào)整結(jié)果。這樣生成包含校正因子的校準(zhǔn)的校正輪廓以應(yīng)用于時間校準(zhǔn)的新信號的每一幀。所述校準(zhǔn)的校正輪廓被平滑以移除任意總體誤差。(f)把來自時間校準(zhǔn)路徑的數(shù)據(jù)用于編輯新信號并生成被時間校準(zhǔn)到向?qū)盘柕男滦盘枴?g)使用音調(diào)變換算法,由在步驟(e)中生成的平滑的校準(zhǔn)的校正輪廓來變換時間校準(zhǔn)的新信號的音調(diào)。這樣給出在時間和音調(diào)上校準(zhǔn)到給定的向?qū)盘柕木庉嫷男滦盘?。方?使用原唱時間校準(zhǔn)路徑函數(shù)而不使用其逆函數(shù)。此外,方法3具有方法2的優(yōu)點測量未修改的新信號的音調(diào)而不是時間校準(zhǔn)的(編輯的)版本的音調(diào)。然而,在沒有首先生成時間校準(zhǔn)的版本(步驟f)的情況下,不能修改新信號的音調(diào)(步驟g)。在其它實施例中,一旦已經(jīng)創(chuàng)建時間校準(zhǔn)函數(shù),就可以修改除了音調(diào)的聲音信號的其它特征,以符合向?qū)盘栔械哪切┨卣鳌T诮o定了用于分析的適合的機制并且指定特征的修改可用的情況下,其它類型的時間同步的可修改的特征包括聲音信號特征(例如瞬時響度、均衡、話音共振峰或共振模式、回響和回音特性)以及甚至詞句本身的修改。在本發(fā)明中,無需視頻信號,可以需要輸入音頻信號以僅伴隨或替代另一音頻信號。在本發(fā)明的優(yōu)選實施例中,包括用于確定時間校準(zhǔn)函數(shù)或時間規(guī)整路徑的裝置,其可以提供與第一(向?qū)?音頻信號中的時變特征對應(yīng)的第二(新的)音頻信號的時變特征之間的優(yōu)化的和充分詳細的時間映射。這種映射確保了時變變化是基于在與被修改的新信號的適當(dāng)?shù)牟糠謱?yīng)的向?qū)?控制)信號的部分中的指定的特征的。在采樣的信號波形的窗口或短部分上,每隔T秒進行用于確定時間校準(zhǔn)的具體時變特征的測量,其中每一窗口持續(xù)時間為T,,T,可以不同于T?;谶B續(xù)的逐幀進行測量,通常采用采樣窗口重疊。這是"短時間,,信號分析,如L.R.RabinerandR.W.Schafer(1978)"DigitalProcessingofSpeechSignals,"PrentinceHall所描述的那樣。應(yīng)理解,對于時間校準(zhǔn)處理測量的特征可能是不同于被改變的特征以及用于控制的特征兩者的特征。必須定義將要改變的特征和控制特征參數(shù)之間的函數(shù)關(guān)系。例如,下文中更詳細地描述的一種簡單關(guān)系,在調(diào)整以維持創(chuàng)建新信號的人的自然音調(diào)范圍的情況下,修改新信號的音調(diào)以匹配于向?qū)盘柕囊粽{(diào)。這種修改函數(shù)的定義以及其它定義可以附加地根據(jù)需要隨著時間而改變??梢栽谝纛l處理計算機系統(tǒng)中將修改函數(shù)編程為輸出值對于輸入值的的數(shù)據(jù)數(shù)組、或算術(shù)函數(shù)、或一組處理規(guī)則。注意,該函數(shù)無需依賴于信號自身,所以信號可能不需要任何分析。在其它步驟中,指定為在第二信號中修改的特征和在笫一信號中的指定的控制特征兩者都被測量為時間的函數(shù)。這些測量被存儲作為數(shù)據(jù)。圖l是適合用于實現(xiàn)本發(fā)明的計算機系統(tǒng)的框圖。圖2是示出可以被添加到實現(xiàn)本發(fā)明的圖1的計算機的附加軟件組件的框圖。圖3是示出用于基于具體不同音調(diào)和定時特性的輸入信號創(chuàng)建具有音調(diào)調(diào)整的輸出音頻信號的信號和處理模塊的本發(fā)明的一個實施例的框圖。圖4是示出用于專業(yè)歌手的記錄的向?qū)дZ音的時間函數(shù)的音調(diào)測量和來自以相同音樂伴奏演唱相同歌曲的未受過訓(xùn)練的用戶的所記錄的新信號上的相同測量的典型示例的示圖。圖5是表示時間規(guī)整函數(shù)或校準(zhǔn)路徑的示圖。圖6是示出(在音調(diào)校正之前)對于左頻率軸的來自圖4的向?qū)盘柕囊粽{(diào)和校準(zhǔn)的新信號音調(diào)以及對于右垂直軸的所計算的經(jīng)過平滑的音調(diào)校正因子的示圖。圖7是在圖6中示出為未校正的、經(jīng)過校正的新信號音調(diào)和向?qū)盘栆粽{(diào)的示圖。圖8是示出用于基于任意輸入信號的時間校準(zhǔn)的特征創(chuàng)建具有任意普通信號特征修改的輸出音頻信號的信號和處理模塊的本發(fā)明的另一實施例的框圖。圖9A是根據(jù)本發(fā)明的具有如下處理的另一實施例的框圖,在所述處理中,以與向?qū)盘柾瑫r的時間校準(zhǔn)或不以與向?qū)盘柾瑫r的時間校準(zhǔn)對新信號的特征修改。圖9B是根據(jù)本發(fā)明的具有如下處理的另一實施例的框圖,在所述處理中將時間校準(zhǔn)路徑用于創(chuàng)建時間校準(zhǔn)的新信號并提供用于精確地確定對時間校準(zhǔn)的新信號進行的修改的映射函數(shù)。圖10(a)是用于使用重疊和相加合成來創(chuàng)建信號s〃(n)的分析窗口的相對位置和形狀的示例的示圖。圖10(b)是用于使用重疊和相加合成來創(chuàng)建信號s〃(n)的合成窗口的相對位置和形狀的示例的示圖。圖ll是使用電信系統(tǒng)的本發(fā)明的另一實施例的框圖。具體實施例方式能夠記錄聲音輸入同時從數(shù)字化的計算機視頻和音頻文件回放聲音和/或視頻信號的計算機系統(tǒng)是公知的。附圖的圖1中示出了可以支持這些函數(shù)的典型的PC系統(tǒng)和環(huán)境的組件,該系統(tǒng)可以用于圖2中的軟件作為提供用于本發(fā)明的多個實施例的硬件和軟件環(huán)境的基礎(chǔ)。在圖1中,示出傳統(tǒng)的計算機系統(tǒng)100,其包括計算機110,具有CPU(中央處理單元)112、RAM(隨機存取存儲器)118;用戶接口硬件,通常包括指示設(shè)備120(例如鼠標(biāo))、鍵盤125、以及顯示屏幕130;內(nèi)部存儲設(shè)備140,例如硬盤或另一RAM;用于訪問固定或可拆卸存儲介質(zhì)165(例如CDROM或DVDROM)上的數(shù)據(jù)的設(shè)備160;并且可選地包括調(diào)制解調(diào)器或網(wǎng)絡(luò)接口170,用于提供對互聯(lián)網(wǎng)175的訪問。指示設(shè)備120控制所顯示的屏幕光標(biāo)(未示出)的位置以及顯示在屏幕130上的函數(shù)的選擇。計算機110可以是任意傳統(tǒng)或商用計算機,例如PC或AppleMacintosh,或是具有指示設(shè)備120并且作為游戲控制器設(shè)備的的專用"游戲機",例如Microsoft⑧XboxTM、或SonyPlaystation2TM。特定游戲機可能缺省圖1中示出的某些組件。圖2示出可以安裝在計算機110中的另一軟件。用戶可以從CDROM或其它裝置獲得包含音頻和可選的伴隨視頻片段的數(shù)字數(shù)據(jù)文件115,所述可選的伴隨視頻片段例如可以是諸如avi或QuickTime電影格式的公共格式,并且例如可以被拷貝和存儲在硬盤140上或存儲到RAM中。計算機110具有已知的操作系統(tǒng)135,例如由Microsoft⑧Windows⑧或MacOS的任意可用版本所提供的操作系統(tǒng);以聲卡150或計算機主板上的等同硬件的形式的音頻軟件或硬件,其包含ADC(模數(shù)轉(zhuǎn)換器),連接到用于進行記錄的麥克風(fēng)159;以及DAC(數(shù)模轉(zhuǎn)換器),連接到一個或多個用于回放音頻的揚聲器156。如圖2所示,這樣的操作系統(tǒng)135通常安裝了音頻記錄和編輯軟件180,支持經(jīng)由聲卡150進行音頻記錄以及編輯函數(shù),例如隨Windows⑧安裝的"SoundRecorder,,應(yīng)用程序。記錄程序和/或其它程序可以使用聲卡150來將到來的模擬音頻信號轉(zhuǎn)換為數(shù)字音頻數(shù)據(jù),并將該數(shù)據(jù)記錄在硬盤驅(qū)動器140上的計算機文件中。音頻/視頻播放軟件190(例如隨Windows⑧安裝的WindowsMediaPlayer和/或其它軟件)可以用于通過聲卡150、其它內(nèi)建的視頻硬件和軟件、顯示屏幕130和揚聲器156播放合成的數(shù)字視頻和音頻文件或僅播放音頻文件。合成的視頻和音頻文件包括視頻數(shù)據(jù)和一個或多個平行的同步的音頻數(shù)據(jù)軌道?;蛘?,可以將音頻數(shù)據(jù)保持為分配給音頻數(shù)據(jù)的存儲多流的分離的文件。音頻數(shù)據(jù)可以是語音數(shù)據(jù),例如對話或歌唱、樂器音樂、"聲效"、或它們的任意組合。結(jié)合135和110,塊180和1卯還可以表示可以實現(xiàn)將在此描述的信號處理系統(tǒng)的軟件或硬件??梢圆捎?00和110中的硬件和軟件系統(tǒng)的替換發(fā)布的實施例,一個示例是由遠程服務(wù)器將計算機系統(tǒng)100的主要元件提供給用戶。在此情況下,在經(jīng)由電話系統(tǒng)和/或互聯(lián)網(wǎng)在用戶和100之間發(fā)送模擬或數(shù)字化音頻信號的情況下,可以由連接到用戶的PC系統(tǒng)的揚聲器和麥克風(fēng)或電話在用戶端處提供輸入和輸出變換器159和156。用戶可以通過包括電話觸摸音鍵盤、計算機鍵盤、語音輸入或其它手段的多種方法來遠程控制系統(tǒng)操作。以非實時消費者卡拉OK系統(tǒng)形式的本發(fā)明的實施例允許公共成員在基于計算機的系統(tǒng)中將他們演唱流行歌曲的語音記錄為音樂視頻。當(dāng)修改用戶記錄的語音其后對其進行回放時,修改的語音被唇同步為原唱歌手的嘴型運動,并且具有與音樂視頻中的替代的歌手相同的音調(diào)。圖2的系統(tǒng)允許以伴奏視頻或不要伴奏視頻對唱歌的原唱表演者進行音頻回放。用戶可以回放歌曲,并且系統(tǒng)將對用戶的語音進行數(shù)字化并將其記錄(存儲)在計算機硬盤或其它存儲器設(shè)備上。由于需要測量原唱歌手語音的精確特征,所以最好使該語音信號與伴奏音樂音軌相分離。可以通過從提供媒體內(nèi)容的錄制公司或組織請求語音的隔離的記錄來最高效地實現(xiàn)該需求。在該實施例中,使用第一信號,向?qū)盘?,其是在隔離中表演歌曲的歌手的數(shù)字化記錄(例如從記錄自原唱記錄會話的多音軌記錄傳送的獨奏聲樂音軌),優(yōu)選地沒有添加諸如回聲或反射。可以將這樣的數(shù)字化的向?qū)盘杇(n)在CD或DVD/ROM165上或經(jīng)由互聯(lián)網(wǎng)175提供給用戶的系統(tǒng)?;蛘?,在另一實施例中,可以在相同系統(tǒng)或另一系統(tǒng)中預(yù)先分析向?qū)盘柕乃杼卣?對于時間校準(zhǔn)和特征修改控制),以提取所需數(shù)據(jù)??梢越?jīng)由165、175或其它數(shù)據(jù)傳送方法將該數(shù)據(jù)輸入到系統(tǒng)100,以用作數(shù)據(jù)文件。圖3示出實施例的數(shù)據(jù)存儲和處理模塊。通過運行聲音記錄并回放節(jié)目,用戶播放可聽見或不可聽見原唱歌手的期望的歌曲,并同時進行演唱。用戶的演唱被數(shù)字化并記錄到數(shù)據(jù)存儲310中的數(shù)據(jù)文件。所述數(shù)字化的信號是笫二信號,即新信號s(n)。圖3的實施例執(zhí)行在前描述的方法1。目的在于校正用戶的新信號的音調(diào)和定時校正以模仿向?qū)盘柕囊粽{(diào)和定時。在此情況下被用作控制函數(shù)的向?qū)盘栔械奶卣饕约霸谛滦盘栔斜恍薷牡奶卣骶哂邢嗤卣?,即各個信號的音調(diào)輪廓。跟蹤時間校準(zhǔn)的新信號音調(diào)測量和向?qū)盘栆粽{(diào)測量之間的差的處理用于計算音調(diào)調(diào)整函數(shù),以制作向?qū)盘柕囊粽{(diào)之后的新信號的音調(diào)。在此假定新信號s(n)在樂節(jié)、內(nèi)容和長度方面相似于向?qū)盘杇(n)。對于非實時卡拉OK類型應(yīng)用,這是合理的假設(shè),因為用戶總是嘗試在定時、音調(diào)和詞語中模仿原唱表演。如下是在此非實時地對數(shù)字音頻數(shù)據(jù)執(zhí)行的方法1。輸入信號描述和測量新信號和向?qū)盘柡懿豢赡茉跊]有處理的情況下被充分地時間校準(zhǔn)。美國專利4591928(Bloom等人)描述了非時間校準(zhǔn)但相似的話音信號的能量模式之間的差以及與能量有關(guān)的測量(例如濾波器組輸出)作為對時間校準(zhǔn)處理的輸入的使用。圖4示出通過測量專業(yè)女性歌手的向?qū)盘柖@得的時間序列Pg(M)(下文中稱為音調(diào)輪廓401)作為音調(diào)測量幀編號M的函數(shù),其中,M=0,1,2,......N,以及示出作為在才艮據(jù)相同時間比例的時間校準(zhǔn)之前典型業(yè)余者的新信號(男性語音)音調(diào)輪廓402的時間序列Ps(M)。兩個信號的音調(diào)輪廓中的差異以及它們的時間上的未校準(zhǔn)是明顯的。在時間上沒有與第二序列Ps(M)校準(zhǔn)的第一序列Pg(M)不能直接用作用于第二信號的控制或目標(biāo)音調(diào)函數(shù)而不生成明顯的可聽見的錯誤。在音調(diào)輪廓401或402中的零HZ示出的數(shù)據(jù)點表示對應(yīng)的音調(diào)測量幀包含靜默或沒有語音的話音。非零測量表示在該幀中的各個信號的音調(diào)測量。在圖4中,新信號音調(diào)輪廓402中的語音化的聲音的非零值段(脈沖)通常落后于向?qū)盘栆粽{(diào)輪廓401中的對應(yīng)的特征,并具有不同的持續(xù)時間。此外,兩個音調(diào)輪廓的語音化的聲音處于不同的八度音階。此外,向?qū)盘栆粽{(diào)輪廓401的每一脈沖中的音調(diào)范圍變化遠比新信號音調(diào)輪廓402中的對應(yīng)的脈沖要寬。由于向?qū)盘栆粽{(diào)輪廓401得自專業(yè)歌手,因此這是理所當(dāng)然的。這是這樣的細節(jié)和將施加到業(yè)余用戶的記錄演唱的向?qū)盘栆粽{(diào)輪廓401的定時。新信號的時間校準(zhǔn)在圖3中,通過使用諸如US4,591,928中描述的技術(shù)來創(chuàng)建中間音頻信號、存儲在例如盤330上的時間校準(zhǔn)的新信號s,(n),從數(shù)據(jù)存儲器310讀取的采樣的新信號波形s(n)在時間上首先校準(zhǔn)到從數(shù)據(jù)存儲器312讀取的向?qū)盘杇(n)。這樣確保了在與向?qū)盘栔械南到y(tǒng)的相對時間出現(xiàn)s,(n)中的能量模式的細節(jié)。這進一步確保了任意所需的唇同步將是有效的,以及從向?qū)盘柕叫滦盘柕奶卣鞯膫鬟f不需要進一步的時間映射。用于創(chuàng)建新信號s(n)和向?qū)盘杇(n)的采樣頻率在該示例中是44.1kHz。US4,591,928中描述的時間校準(zhǔn)處理測量每隔10毫秒就測量鐠能量特征(例如濾波器組輸出),并生成將新信號中相似的譜特征與向?qū)盘栔械淖罱咏膶?yīng)的特征關(guān)聯(lián)的每隔10毫秒具有路徑點的時間校準(zhǔn)或"時間規(guī)整"路徑。圖5示出時間規(guī)整路徑w(k)的示例,k=0,l,2...,其中,新信號的每一特征幀具有幀編號j,向?qū)盘柮恳惶卣鲙哂袔幪杒,幀采樣間隔是T秒,其中,T-10毫秒。在時間校準(zhǔn)處理模塊320之內(nèi)創(chuàng)建這樣的規(guī)整路徑,并且在創(chuàng)建存儲在盤330上的時間校準(zhǔn)的新信號s,(n)中,該路徑用于控制模塊320中的新信號s(n)的編輯(即時間壓縮/擴展)。如US4,591,928中描述的那樣,通過構(gòu)建s(n)的編輯的版本而由模塊320創(chuàng)建時間校準(zhǔn)新信號s,(n),在所述s(n)的編輯的版本中,s(n)的部分已經(jīng)根據(jù)w(k)以及來自編輯系統(tǒng)的附加定時錯誤反饋而被重復(fù)或刪除,這被約束為當(dāng)存在語音化的聲音時進行音調(diào)同步編輯。生成新信號的音調(diào)輪廓在連續(xù)的離散音調(diào)測量幀中使用運動分析漢寧(Hann)窗口從s,(n)的測量來創(chuàng)建校準(zhǔn)的新信號s,(n)的原始音調(diào)輪廓Ps,(M),其中,M是幀編號,M=l,2,3,.......為了獲得精確的音調(diào)測量,推薦分析窗口長度為所測量的最低周期長度的2.5到3倍。因此,在當(dāng)前實施例中,為了測量具有近似0.0139秒周期的低的72Hz的音調(diào),使用1536個采樣(以44.1kHz的采樣頻率)分析窗口(或近似35毫秒)。音調(diào)測量幀的采樣間隔是10毫秒。音調(diào)估計器模塊340的分析窗口以采樣的每一音調(diào)測量幀為中心。對于每一音調(diào)測量幀,使用用于音調(diào)估計的公知方法(例如自動校正、梳狀濾波器等)中的一種方法對音調(diào)進行估計。可以在參考文獻(例如WolfgngHess(1983)"PitchDeterminationofSpeechSignals.AlgorithmsandDevices,"Springer-Verlag;R.J.McAulayandT.F.Quatieri(1990)"Pitchestimationandvoicingdetectionbasedonasinusoidalmodel,"Proc.IntConf.onAcoustics,SpeechandSignalProcessing,Albuquerque,醒pp.249-252;andT.R.Quatieri(2002)"Discrete-TimeSpeechSignalProcessing:PrinciplesandPractices,"PrenticeHall)中找到這些技術(shù)的詳細描述。可以在沒有分析窗口的重疊的情況下進行測量,但通常推薦在25至50%之間的連續(xù)窗口化的數(shù)據(jù)的重疊。在該實施例中,M的測量幀率是100Hz(即10毫秒的間隔),這樣提供了足夠的重疊并且與時間校準(zhǔn)函數(shù)的測量率同樣方便。為了正確地進行分析窗口必須擴展超過可用的數(shù)據(jù)采樣的最先和最后的幾個音調(diào)測量,在進行這些音調(diào)測量之前,將信號的開始和結(jié)束添加到零幅度采樣的一個分析窗口的長度。為了創(chuàng)建最終平滑的音調(diào)輪廓,時間校準(zhǔn)的新信號的P,s,(M)使用平均化濾波器之前的3點中值濾波器在濾波器模塊350處平滑各個幀的音調(diào)測量,此外,時間校準(zhǔn)的新信號s(n)的靜默和非語音化的幀在P,s,(M)中被標(biāo)記為具有零音調(diào)。生成向?qū)У囊粽{(diào)輪廓相似地,在音調(diào)估計器模塊345處,使用與用于創(chuàng)建音調(diào)輪廓Ps,(M)所描述的相同的方法和參數(shù)來創(chuàng)建向?qū)盘杇(n)的音調(diào)輪廓Pg(M)'計算音調(diào)調(diào)整下一處理是用于時間校準(zhǔn)的新信號的每一幀的音調(diào)調(diào)整或校正因子的計算。該處理由音調(diào)調(diào)整模塊370來完成,并且考慮了向?qū)盘栆粽{(diào)對時間校準(zhǔn)的新信號的比率以及八度音階中任意期望的改變。對于具有相同幀編號M的每一對音調(diào)測量幀完成該計算。于是,模塊370內(nèi)的低通濾波器平滑校正因子。這些處理分為兩個步驟確定八度音階并改變新信號的音調(diào)??紤]到關(guān)于音調(diào)的調(diào)整,存在兩個主要選項a)將輸出音調(diào)調(diào)整為與向?qū)盘柕囊粽{(diào)相同,或b)維持輸入新信號的音調(diào)范圍,從而調(diào)整的語音聲音最自然?,F(xiàn)將描述實現(xiàn)后一種效果的八度音階調(diào)整。八度音階調(diào)整模塊358計算八度音階乘數(shù)Q,其在信號的持續(xù)時間被保持為常數(shù)。這樣強調(diào)了在能夠設(shè)置該值之前需要全部新信號或至少分析真實量的新信號。對于時間校準(zhǔn)的新信號的每一音調(diào)分析幀,用于來自音調(diào)估計器模塊350和355的幀M的未平滑的音調(diào)估計被用來計算本地音調(diào)校正,CrXM),其中,M是幀編號,將所述計算限制為這樣的幀時間校準(zhǔn)的新信號及其對應(yīng)的向?qū)盘枎瑑烧叨急徽Z音化,即這兩種幀都具有有效的音調(diào)。在這些幀中,由下式給出本地音調(diào)校正因子Cl(M),其將使得時間校準(zhǔn)的新信號的幀M的音調(diào)與向?qū)盘柕膸琈的音調(diào)相同CL(M)=Pg(M)/Ps'(M)(1)其后,根據(jù)下表通過選擇指數(shù)冪2將每一比率Cl(M)向其最近的八度音階取整<table>tableseeoriginaldocumentpage27</column></row><table>將所有得到的八度音階值輸入到柱狀圖,其后選擇出現(xiàn)最頻繁的八度音階校正值Q。在此情況下,Q不是時間的函數(shù),但是在替換實施例中其可以是時間的函數(shù)。如果需要,則Q將被乘以另一因子以實現(xiàn)音調(diào)頻率中的任意期望的偏移。在模塊358中執(zhí)行Q的計算。八度音階校正值Q被提供給音調(diào)調(diào)整模塊370并用于下面的式(2)以產(chǎn)生八度音階校正的音調(diào)校正因子,C(M),其中C(M)-P'g(M)/(Q*P's'(M))(2〉其中C(M)是在信號的幀M的音調(diào)校正因子,P,s,(M)和P,g(M)分別是在時間校準(zhǔn)的新信號和向?qū)盘柕膸琈處的平滑估計的音調(diào)。為了生成音調(diào)校正信號,在時間校準(zhǔn)的新信號的全部幀中從式(2)計算音調(diào)校正因子c(M),從而修改的時間校準(zhǔn)的新信號的音調(diào)寄存器將最接近地匹配于原唱新信號的音調(diào)寄存器。如果沒有對應(yīng)的向?qū)盘栆粽{(diào)存在于第一信號特征測量M(即向?qū)盘柺欠钦Z音化的,或時間校準(zhǔn)的新信號稍微長于向?qū)盘?,則重新使用在M-1處的最近的校正因子值。在此情況下,還可能使用外插來得到較好的估計。得到的校正處理值的示例是1.0的校正因子C(M)表示在幀M處s(n)沒有改變;0.5表示將音調(diào)降低一個八度音階;2.0表示將音調(diào)升高一個八度音階等。新信號的變換音調(diào)音調(diào)校正信號中的每一值C(M)提供時間校準(zhǔn)的新信號s,(n)的采樣的對應(yīng)的幀M所需的校正乘數(shù)。在該示例中,將C(M)的幀率選擇為與時間校準(zhǔn)算法所使用的相同,也就是100幀每秒(或fps)換句話說,C(M)將具有s,(n)每秒100個采樣。為了正確地運行,一些音調(diào)變換算法必須具有遠低于時間校準(zhǔn)算法的幀率;即sn間隔(分析幀)非常長。例如,如果時域音調(diào)變換技術(shù)工作在向下到50至60Hz的頻率,則它們通常具有大約25至30fps的幀率。然而,在整個信號中,它們的幀率無需是常數(shù),也就是說,幀率可以隨著信號s,(n)的基本音調(diào)而改變。然而,在當(dāng)前實施例中,將固定幀率用于音調(diào)變換。在當(dāng)前實施例中,用于計算音調(diào)校正因子C(M)和運行音調(diào)變換算法的各個幀率是不同的,因此使用線性內(nèi)插從在時間上最接近于音調(diào)變換算法的每一分析幀的中心得到在該中心處所需的音調(diào)校正的估計。如下得到該內(nèi)插校正因子音調(diào)校正信號的幀M具有等于新信號s(n)的Lc個采樣的長度,其中,Lc由下式給出Lc-新信號s(n)的采樣率/C(M)的幀率(3)如下確定在需要音調(diào)校正的估計的音調(diào)變換算法的每一分析幀的中心處沿著s,(n)的釆樣編號如果Nc(Fps-l)是在音調(diào)變換分析幀F(xiàn)ps-l的中心處的沿著s,(n)的采樣編號,則在下一幀F(xiàn)ps的中心處的采樣編號Nc(Fps)是Nc(Fps)=Nc(Fps-1)+Ls(Fps,To(Fps-1))(4)其中,F(xiàn)ps是音調(diào)變換分析幀編號,F(xiàn)ps-0,1,2".并且Ls(Fps,To(Fps-l))-新信號的釆樣率/音調(diào)變換算法幀率。在一般情況下,Ls是幀編號Fps和To(Fps-l)、在Fps-l處的音調(diào)周期持續(xù)時間的函數(shù),以允許隨時間而改變的幀率。在該實施例中,Ls被保持為常數(shù),并被設(shè)置為1536個采樣,即34.83毫秒。在首先計算的幀Nc(-l)和之前的音調(diào)變換分析幀以及首先計算的幀Nc(0)兩者的中心處沿著s,(n)的采樣編號的初始值取決于音調(diào)變換算法。在該實施例中,Nc(-1)=0.5*To(-1)andNc(0)-0。使用Nc(Fps)和Lc,在音調(diào)變換算法中限制或包括特定分析幀F(xiàn)ps處的采樣的C(M)的音調(diào)校正幀編號Fc(M)為Fc(Fps)=Nc(Fps)/Lc.(5)其中/表示整除Fc(Fps)是僅出現(xiàn)在音調(diào)變換算法幀F(xiàn)ps之前或其中心處的C(M)的幀,并且Lc如上被定義。如果Fc(Fps)是出現(xiàn)在音調(diào)變換算法幀僅之前或在其中心處的音調(diào)校正幀,則(Fc(Fps)+l)將是出現(xiàn)在其中心之后的下一音調(diào)校正幀。音調(diào)校正C(Fc(Fps))和C(Fc(Fps)+l)之間的線性內(nèi)插給出在音調(diào)變換分析幀的中心處的內(nèi)插的校正因子Cs(Fps)以控制音調(diào)變換Gs(Fps)=C(Fc(Fps))*(1-alpha)+alpha*C(Fc(Fps)+1)(6)其中<formula>formulaseeoriginaldocumentpage30</formula>并且其中/表示整除,其它符號如上所述。由簡單低通濾波器來平滑內(nèi)插的校正因子值Cs(Fps),以使其變成C,s(Fps)并且表示為提供給音調(diào)改變模塊380的模塊370的輸出。對于音調(diào)校正,在與音調(diào)變換算法幀對應(yīng)的幀F(xiàn)ps中處理時間校準(zhǔn)的新信號s,(n)。時間校準(zhǔn)的新信號s,(n)的每一個這樣的幀在模塊380處根據(jù)其平滑的校正因子在音調(diào)中動態(tài)變換,并且得到的音調(diào)校正且時間校準(zhǔn)的新信號s"(n)被寫入盤390,用于后續(xù)回放背景音樂,并且如果對應(yīng)的音樂視頻可用,則可選地用于對其進行回放。該輸出信號s,(n)將具有所需的時間校準(zhǔn)以及音調(diào)校正,以故回放作為用于向?qū)盘杇(n)的替代,或與其同步。圖7示出將在s,(n)中被觀察作為將時間校準(zhǔn)的新信號s,(n)的音調(diào)值乘以圖6所示的參與到校正因子值的結(jié)果的時間校準(zhǔn)的和校正的音調(diào)輪廓701的示例。向?qū)盘栆粽{(diào)輪廓401的大多數(shù)細節(jié)現(xiàn)在出現(xiàn)在計算的修改的音調(diào)輪廓701的這個示例中。可以使用在諸如以下參考文獻中描述的任意標(biāo)準(zhǔn)音調(diào)變換方法(例如TDHS、PS-OLA、FFT)來實現(xiàn)由模塊380執(zhí)行以在存儲器390處創(chuàng)建校正的時間校準(zhǔn)輸出信號波形s"(n)的音調(diào)變換K.Lent(1989)"Anefficientmethodforpitchshiftingdigitallysampledsound,"ComputerMusicJournalVol.13,No.4,atpages65to71;N.Schnell,G.Peeters,S.Lemouton,P.Manoury,andX.Rodet(2000)"Synthesizingachoirinreal-timeusingPitchSynchronousOverlapAdd(PSOLA),"InternationalComputerMusicConference,atpages102-108;J.LarocheandM.Dolson(1999),"NewPhase-VectorTechniquesforPitch-Shifting,HarmonizingandotherExoticEffects."Proe.1999IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcousticatpages91-94;G.Peeters(1998)"Analyse誦SynthesedessonsmusicauxparlamethodPSOLA,"ProceedingsoftheJourneesd,InformatiqueMusicale,Agelonde,France;andV.GoncharoffandP.Gries(1998),"Analgorithmforaccuratelymarkingpitchpulsesinspeechsignals",ProceedingoftheIASTEDInternationalConferenceSignalandImageProceeding(SIP,98),October28-31。在該實施例中,實質(zhì)上在D.Malah(1979)"TimeDomainAlgorithmsforHarmonicBandwidthReductionandTimeScalingofSpeechSignals",IEEETransactionsAcoustics,SpeechandSignalProceeding,Volume27,No,2,pages121-133中所描述時域算法在模塊380處被使用以變換信號s,(n)的音調(diào)。在s,(n)的每一幀F(xiàn)ps處,測量在此定義為To(Fps)的音調(diào)周期。下文中為了簡明,雖然基于包括To(Fps)的計算的變量也是Fps的變量,但在這些表達式中不暗含參數(shù)Fps。在該實施例中,通過將s,(n)乘以h(p),時間校準(zhǔn)的新信號s,(n)被分解為信號的一系列窗口s,(u,n),按時間周期性變換的分析窗口函數(shù)801,從而s'(u,n)-h(n)*s'(n-ta(u))(7)其中h(p)是長度P采樣的音調(diào)變換窗口,其長度在時間上等于測量的幀F(xiàn)ps的音調(diào)周期的兩倍,即2*To(Fps)。在該實施例中,h(p)是P采樣的漢寧窗口。ta(u)是以語音化的幀的音調(diào)同步速率設(shè)置的第u個分析示例,從而ta(u)國ta(u-l)-To(Fps),其中,u=0,l,2...。對于非語音化的幀,ta(u)被設(shè)置為10毫秒的恒定速率。也可以從語音化的幀將其設(shè)置為To的最近的有效值。從平滑的音調(diào)校正C,s(Fps)計算校正的信號的新的輸出周期To,(Fps)。對于非語音化的信號,在幀F(xiàn)ps中,To,(Fps)-To(Fps)。對于幀F(xiàn)ps中的語音化的信號,To'(Fps)=To(Fps)/C's(Fps)(8)通過這樣的處理,生^短期合成窗口ts(v)的序列802,其被同步到新的輸出周期To,(Fps),從而ts(v)-ts(v-1)=To'(Fps)(9)其中ts(v)是輸出幀中的笫v個合成實例。如圖10(a)和10(b)所示,對于每一ts(v),選擇在時間上最接近的s,(n)數(shù)據(jù)的窗口ta(u)。其后,將所選擇的s,(n)的數(shù)據(jù)的窗口ta(u)添加到輸出流緩沖器(未示出),以根據(jù)組合所有短期合成窗口,一個幀F(xiàn)ps的ts(v)的重疊和添加的已知方法按時間生成一個幀輸出信號流s,,(n)。在效果上,重新組合了具有To,(Fps)的音調(diào)周期而不是To(Fps)的周期的窗口化的采樣s,(u,n)?,F(xiàn)將描述另一實施例。除了包括顫音和形變曲線的音調(diào)之外,可以測量和修改聲音信號的許多其它特征。示例是瞬時響度、聲門特性、話音共振峰或諧振模式、均衡、回響和回聲特性。此外,無需將新信號和向?qū)盘栂拗茷榫哂许嵚傻?、?jié)奏的或聲學(xué)的相似性。在圖8中,示出分別在模塊840和850處作用于新信號和向?qū)盘?,以?chuàng)建fs(N)和fg(M)的特征分析操作。它們被表示為粗體作為特征向量,指定分別在幀N和M處測量的所選擇的特征。這些向量無需具有相同的特征。雖然fg(M)必須包含至少一個特征,但在另一實施例中,fs(N)可以是沒有特征的空向量。必須提供特征調(diào)整函數(shù)A(fs(N),fg(M),M),并且將其輸入到系統(tǒng)作為來自源865的處理規(guī)范。該函數(shù)定義了在第一信號特征測量M和N處的兩個信號的特征之間的期望的關(guān)系,其中,它們可以是相同的幀或可以是不同的幀、由幀參數(shù)M表示的逝去的時間、以及在模塊870處應(yīng)用和在軟件中實現(xiàn)的時變信號修改處理。通常可以由系統(tǒng)程序員定義并輸入該函數(shù)和變量,因此可以將它們表示為可以由系統(tǒng)用戶選擇的一組預(yù)設(shè)和/或提供的用戶定義的變量。使用A(fs(N),fg(M),M)中的兩個不同的特征的示例是在新信號包含運動帶通濾波器組中的能量的條件下,使向?qū)盘柕捻懚瓤刂菩滦盘柹系倪\動帶通濾波器處理的中心頻率。執(zhí)行M的函數(shù)的A還概括了處理以包括可能的對于函數(shù)的基于時間的修改。圖9A示出采用在此之前描述的方法2的另一實施例,其中,沒有生成時間校準(zhǔn)的新信號波形作為第一步驟。相反,在模塊920中圖3和8的實施例中獲得的時間校準(zhǔn)的數(shù)據(jù)被用于模塊960中的時間失真,向?qū)盘柕臏y量的特征被用于新信號中的適當(dāng)?shù)臅r間。模塊970對新信號進行時間校準(zhǔn)的修改??梢栽?將模塊970和975組合為一個算法)同時在特征修改處理模塊970中對修改的新信號,或在后面的處理模塊975中對特征修改的信號執(zhí)行可選的時間校準(zhǔn)。以下給出該方法的進一步的細節(jié)。圖5中的時間校準(zhǔn)函數(shù)的反函數(shù)將在幀k處的向?qū)盘柕钠ヅ鋷成涞皆趲琷處的新信號的每一幀。如果Fs是新信號的幀編號并且W(Fs)是由時間校準(zhǔn)處理模塊920生成的(逆)時間規(guī)整函數(shù)(或映射函數(shù)),則Fag(Fs)-W(Fs)(10)其中,F(xiàn)ag是時間校準(zhǔn)的向?qū)У膶?yīng)的幀編號。通過該映射,生成特征調(diào)整函數(shù)的時間校準(zhǔn)的或規(guī)整的版本,并將其用于圖9A中的調(diào)整模塊960。作為示例,返回音調(diào)校正中的應(yīng)用,如下計算基于式(l)的音調(diào)校正函數(shù)的規(guī)整版本C(Fs)-Pg(Fag(Fs))/Ps(Fs)(11)根據(jù)(10)和(11)C(Fs)=Pg(W(Fs))/Ps(Fs)(12)其中,C(Fs)是新信號的幀F(xiàn)s的校正因子。Ps(Fs)是新信號的幀F(xiàn)s的估計的音調(diào)。W(Fs)是來自規(guī)整函數(shù)的向?qū)е械膶?yīng)的幀。包括八度音階修改(根據(jù)需要)如前所述的C(Fs)的進一步的處理發(fā)生在調(diào)整模塊960中,調(diào)整模塊960然后基于式(2)提供由下式給出的修改函數(shù)C(Fs)=Pg(W(Fs)〉/(Q*P's(Fs))(13)該修改函數(shù)以逐幀為基礎(chǔ)在修改模塊970處應(yīng)用于s(n)以產(chǎn)生修改的輸出s*(n)。圖9A中的處理被概況為在圖8中的描述,以允許指定用于分析和修改的任意信號特征,但不同之處在于,存儲器980中的修改的輸出s氣n)沒有與向?qū)盘枙r間校準(zhǔn),而是具有初始化新信號s(n)的定時。對于同時執(zhí)行模塊970中的特征修改和模塊975中的時間校準(zhǔn)的單個處理中的音調(diào)修改,可以實現(xiàn)對于向?qū)盘杇(n)的修改的輸出s*(n)的時間校準(zhǔn)。用于實現(xiàn)例如(可以減少潛在的處理偽像并改進計算效率的)同時的音調(diào)和時間修改的方法的描述在例如以下參考文獻中可以找到J.McAulayandLQuatieri(1992),"ShapeInvariantTime-ScaleandPitchModificationofSpeech",IEEETrans.Sig.Processing,March,Vol,40No3,pp497-510andD.O'BrienandA.Monaghan(1999),"ShapeInvariantPitchModificationofSpeechUsingaHarmonicModel",EuroSpeech1999,pp1059-1062。這些參考文獻假定基于原唱信號的測量的恒定音調(diào)變換或任意很多音調(diào)變換以確定要應(yīng)用的變換量。例如,如果在原唱語音波形中檢測到非語音化的幀,則正常實踐來切換掉、或至少減少在該幀期間所應(yīng)用的任意時間或音調(diào)4務(wù)改。可選地,可以將正常的時間校準(zhǔn)函數(shù)應(yīng)用于模塊975中的非線性編輯處理,以創(chuàng)建信號s,*(n),信號s,氣n)是特征修改的新信號s*(n)的時間校準(zhǔn)的版本。圖9B示出執(zhí)行方法3的另一實施例,其中,使用模塊920中創(chuàng)建的原唱時間校準(zhǔn)路徑而由模塊975創(chuàng)建存儲命令982中的時間校準(zhǔn)信號s,(n)。在這種布置中,由模塊840從沒有修改的新信號s(n)中產(chǎn)生新信號特征輪廓。在模塊960中式C(M)-P'g(M)/Q*P's(w(M))(14)其中,w(M)是由模塊920生成的時間規(guī)整路徑,實現(xiàn)上式以產(chǎn)生特征修改輪廓C(M)。在模塊972中將這種修改輪廓應(yīng)用于時間校準(zhǔn)的新信號以在輸出存儲模塊987中創(chuàng)建時間校準(zhǔn)的并且特征修改的信號s*,(n)。在另一實施例中,可以將向?qū)盘柦M合為一系列不同的各個向?qū)盘柖皇且粋€連續(xù)的信號,或可以從單個新信號將多個向?qū)盘?例如合聲元音)用于生成多個元音部分。在另一實施例中,無需測量新信號中的特征或?qū)⑵漭斎氲叫滦盘柼卣髡{(diào)整計算,并且可以基于向?qū)盘柕奶卣鞯臏y量簡單對其進行修改。這種操作的示例可以是將回響或EQ應(yīng)用于新信號作為向?qū)盘栔械倪@些特征的函數(shù)。應(yīng)理解,當(dāng)實現(xiàn)在諸如圖l和圖2的系統(tǒng)100的系統(tǒng)中時用于前述實施例的處理模塊將是軟件模塊,但在替換實現(xiàn)中,可以是硬件模塊或硬件和軟件模塊的混合。本發(fā)明的一種應(yīng)用是創(chuàng)建可以提供例如基于計算機的電話系統(tǒng)或移動電話上的電話鈴音的具有用戶語音的個性化聲音文件。其它示例包括在電話呼叫或其它數(shù)據(jù)交換期間替換可以被呈現(xiàn)給主叫或被叫的任意振鈴或其它聲音。這樣的交換可以經(jīng)由電話網(wǎng)絡(luò)、VOIP(基于互聯(lián)網(wǎng)協(xié)議的語音)系統(tǒng)或其它消息傳遞系統(tǒng)而產(chǎn)生。其它示例包括生成用于可以使用個性化的預(yù)先記錄的消息的任意設(shè)備或系統(tǒng)的個性化聲音文件。圖11示出用于使用戶能夠生成、發(fā)送和接收這樣的聲音文件的本發(fā)明的實施例。在操作中,用戶通過電話網(wǎng)絡(luò)1140并從陸地線路手機1110或移動電話手機1120發(fā)起電話呼叫。適當(dāng)?shù)霓D(zhuǎn)換器1150從電話網(wǎng)絡(luò)1140接收信號并將其轉(zhuǎn)換為數(shù)字音頻信號和可操作的命令音調(diào)、以及由服務(wù)器計算機1160處理的那些信號。服務(wù)器計算機1160可以可選地從模塊1165提供交互式語音響應(yīng)(IVR)以給出用戶關(guān)于操作的選擇和反饋。服務(wù)器計算機1160可以在一個或多個計算機中被實現(xiàn),并可以包括用于實現(xiàn)圖3或圖8或圖9A或圖9B中描述的處理的音頻處理模塊1170。計算機1160訪問用于存儲歌曲音頻文件和用于參考這些歌曲文件的數(shù)據(jù)庫的存儲模塊1180。計算機1160還將原唱的和處理過的用戶音頻記錄以及用于參考這些記錄的數(shù)據(jù)庫存儲在存儲模塊1185中。服務(wù)器計算機1160解釋觸摸音或其它信號以發(fā)起操作。例如,采用該實現(xiàn)中的電話鍵盤,用戶可以命令計算機1160進行以下操作(a)選擇"音軌",例如(存儲在模塊1180中)的歌曲的部分;(b)通過轉(zhuǎn)換器1150和網(wǎng)絡(luò)1140將所選擇的音軌發(fā)送到電話手機1110或1120以4吏用戶聽到或復(fù)述。(c)在所選擇的音軌通過電話手機1110或1120重放并且用戶對手機麥克風(fēng)演唱的同時記錄用戶的語音;(d)重放混合了適當(dāng)?shù)谋尘耙糗壍挠脩舻恼Z音的處理過的記錄(例如沒有原唱歌手語音的音軌的版本)。在步驟(c),用戶的語音被記錄在存儲模塊1185中,經(jīng)由處理模塊1170而被處理,示例諸如圖3或圖8或圖9A或圖9B所示的處理,并且結(jié)果被存儲在模塊1185中。最后,用戶于是以鍵盤或他/她的手機1110或1120輸入接收方的移動電話號碼。其后,計算機1160使用諸如"WAPpush"系統(tǒng)的鈴音傳遞系統(tǒng)1190將消息發(fā)送到接收方的號碼。該數(shù)據(jù)消息向接收方給出將處理過的音頻下載到他的移動電話或其它設(shè)備所需的信息。在替換實現(xiàn)中,具有麥克風(fēng)159或揚聲器156的用戶計算機100用于直接經(jīng)由互聯(lián)網(wǎng)175或通過使用VOIP軟件1135的電話呼叫來訪問服務(wù)器計算機1160。其后,用戶可以經(jīng)歷與前述相同的程序,但通過計算機100進行收聽和記錄,并將在計算機100的鍵盤125(未示出)上輸入的命令發(fā)送到服務(wù)器計算機1160。用戶可以根據(jù)其號碼最終指定移動電話以通過傳遞系統(tǒng)1190接收創(chuàng)建的聲音文件。聲音文件還可以在用戶計算機100或另一指定的計算機(例如朋友的計算機)中被使用作為鈴音或指定的計算機的VOIP系統(tǒng)中的其它識別聲音文件。在用戶經(jīng)由互聯(lián)網(wǎng)訪問服務(wù)器計算機1160的另一替換實現(xiàn)中,可以將圖3或圖8或圖9A或圖9B的一些或全部處理模塊下栽到由模塊1130表示的用戶計算機100??梢越?jīng)由互聯(lián)網(wǎng)175或電話網(wǎng)絡(luò)1140將在服務(wù)器計算機1160處在音頻處理模塊的幫助下或沒有音頻處理模塊的幫助而由于使用模塊1130而產(chǎn)生的并存儲在用戶計算機100上或存儲模塊1185上聲音文件發(fā)送到所請求的目的地電話或其它個人計算機。在其它實施例中,可以在電話或包含計算機系統(tǒng)和存儲器以及用于輸入和輸出所需的音頻信號的裝置的任意其它設(shè)備中全部或部分地實現(xiàn)這些處理。在另一實施例中,可以從具有用戶接收的歌曲音頻文件的服務(wù)器計算機1160提供視頻信號(例如音樂視頻)。用戶可以重放這些音頻和視頻信號,并如前所述制作聲音記錄?;旌狭吮尘耙糗壱约巴降囊曨l的處理過的文件被傳遞到指定的電話、個人計算機或其它能夠播放音頻/可視文件的i殳備。歌曲音頻文件并不限于歌曲,并且可以是任意聲音記錄,包括話音、聲效、音樂或它們的任意組合。權(quán)利要求1、一種用于修改音頻信號的至少一個聲學(xué)特征的方法,該方法包括比較第一采樣音頻信號和第二采樣音頻信號,從而從第二信號中的依賴于時間的特征的出現(xiàn)時間和第一信號中的依賴于時間的特征的出現(xiàn)時間之間的定時差而確定時間校準(zhǔn)數(shù)據(jù);在沿著第一信號的所選擇的位置處測量第一信號的至少一個聲學(xué)特征,以從其中產(chǎn)生第一信號特征測量的序列;處理第一信號特征測量的序列以產(chǎn)生特征修改數(shù)據(jù)的序列;以及將特征修改數(shù)據(jù)的序列應(yīng)用于第二信號,以根據(jù)時間校準(zhǔn)數(shù)據(jù)修改第二信號的選擇的部分的至少一個聲學(xué)特征。2、如權(quán)利要求l所述的方法,其中,所述方法包括以下步驟在沿著第二信號的所選擇的位置處測量第二信號的所述至少一個聲學(xué)特征,以從其中產(chǎn)生第二信號特征測量的序列,并且所述處理第一信號測量的序列的步驟包括比較第一信號特征測量和第二信號特征測量,并從這種比較中確定特征修改數(shù)據(jù)。3、如權(quán)利要求1或2所述的方法,其中,所述應(yīng)用特征修改數(shù)據(jù)的步驟包括以下步驟使用時間校準(zhǔn)數(shù)據(jù)來從第二采樣信號產(chǎn)生時間校準(zhǔn)的第二信號,并將特征修改數(shù)據(jù)應(yīng)用于所述時間校準(zhǔn)的第二信號。4、如權(quán)利要求2或3所述的方法,其中,所述處理步躁包括以下步驟使用具有第一信號特征測量的時間校準(zhǔn)數(shù)據(jù)來產(chǎn)生與第二信號特征測量時間校準(zhǔn)的特征修改數(shù)據(jù)。5、如前述任意權(quán)利要求所述的方法,其中,應(yīng)用特征修改數(shù)據(jù)的步驟包括根據(jù)預(yù)定函數(shù)調(diào)制所述特征修改數(shù)據(jù),從而根據(jù)特征修改數(shù)據(jù)和預(yù)定函數(shù)聯(lián)合地修改所述第二信號的所述選擇的部分的所述至少一個聲學(xué)特征。6、如前述任意權(quán)利要求所述的方法,其中,所述第一信號的至少一個聲學(xué)特征是音調(diào)。7、如前述任意權(quán)利要求所述的方法,其中,所述第二信號的至少一個聲學(xué)特征是音調(diào)。8、如前述任意權(quán)利要求所述的方法,其中,所述第一信號和第二信號的依賴于時間的特征是采樣的譜能量測量。9、如權(quán)利要求l所述的方法,其中,第一信號的所述至少一個聲學(xué)特征是音調(diào),第二信號的所述至少一個聲學(xué)特征是音調(diào),所述處理步驟包括以下步驟從第一信號的音調(diào)測量對第二信號的時間校準(zhǔn)的音調(diào)測量的比率的值來確定乘數(shù)因子,從而在所述應(yīng)用特征修改數(shù)據(jù)的步驟中包括所述因子,以便變換在第二信號中在修改的所選擇的信號部分中的音調(diào)改變的頻率范圍。10、如權(quán)利要求9所述的方法,進一步包括以下步驟以指數(shù)冪2來縮放所述乘數(shù)因子,從而根據(jù)所述指數(shù)冪2的選擇來改變所述修改的所選擇的信號部分中的音調(diào)。11、如權(quán)利要求2所述的方法,其中,在沿著第二信號的所選擇的位置進行測量的步驟包括以下步驟使用時間校準(zhǔn)數(shù)據(jù)以從第二采樣信號產(chǎn)生時間校準(zhǔn)的第二信號,在所述時間校準(zhǔn)的第二信號中,笫二采樣信號的所述依賴于時間的特征的出現(xiàn)時間基本上與第一采樣信號中的所述依賴于時間的特征的出現(xiàn)時間一致;以及在被選擇為在定時方面與沿著第一采樣信號的所述所選擇的位置有關(guān)的、沿著時間校準(zhǔn)的第二信號的位置處測量時間校準(zhǔn)的第二信號中的至少一個聲學(xué)特征。12、如權(quán)利要求2所述的方法,其中,第一采樣信號的所述至少一個聲學(xué)特征是音調(diào),所述第二采樣信號的至少一個聲學(xué)特征是音調(diào),所述應(yīng)用特征修改數(shù)據(jù)的步驟包括以下步驟使用時間校準(zhǔn)數(shù)據(jù)以從第二采樣信號產(chǎn)生時間校準(zhǔn)的第二信號,并將特征修改數(shù)據(jù)應(yīng)用于時間校準(zhǔn)的笫二信號以產(chǎn)生音調(diào)修改的時間校準(zhǔn)的第二信號。13、如權(quán)利要求12所迷的方法,其中,應(yīng)用特征修改數(shù)據(jù)的步驟包括根據(jù)預(yù)定函數(shù)調(diào)制特征修改數(shù)據(jù),從而根據(jù)特征修改數(shù)據(jù)和預(yù)定函數(shù)聯(lián)合地修改笫二信號的所述所選擇的部分中的音調(diào)。14、如權(quán)利要求13所述的方法,其中,預(yù)定函數(shù)是笫一采樣信號中的音調(diào)測量對于沿著第二采樣信號的第二采樣信號中的對應(yīng)的音調(diào)測量的比率的值的函數(shù)。15、一種用于修改音頻信號的至少一個聲學(xué)特征的裝置,該裝置包括用于比較第一采樣音頻信號和第二采樣音頻信號,從而從第二信號中的依賴于時間的特征的出現(xiàn)時間和第一信號中的依賴于時間的特征的出現(xiàn)時間之間的定時差而確定時間校準(zhǔn)數(shù)據(jù)的裝置;用于在沿著第一信號的所選擇的位置處測量第一信號的至少一個聲學(xué)特征以從其中產(chǎn)生第一信號特征測量的序列的裝置;用于處理第一信號特征測量的序列以產(chǎn)生特征修改數(shù)據(jù)的序列的裝置;以及用于將特征修改數(shù)據(jù)的序列應(yīng)用于第二信號以根據(jù)時間校準(zhǔn)數(shù)據(jù)修改第二信號的選擇的部分的至少一個聲學(xué)特征的裝置。16、如權(quán)利要求15所述的裝置,進一步包括用于在沿著第二信號的所選擇的位置處測量第二信號的所述至少一個聲學(xué)特征以從其中產(chǎn)生第二信號特征測量的序列的裝置,并且其中,用于處理第一信號測量的序列的裝置包括用于比較第一信號特征測量和第二信號特征測量并從這種比較中確定特征修改數(shù)據(jù)的裝置。17、如權(quán)利要求15或16所述的裝置,其中,所述用于應(yīng)用特征修改數(shù)據(jù)的裝置包括用于使用時間校準(zhǔn)數(shù)據(jù)來從第二采樣信號產(chǎn)生時間校準(zhǔn)的第二信號并將特征修改數(shù)據(jù)應(yīng)用于所述時間校準(zhǔn)的第二信號的裝置。18、如權(quán)利要求16或17所述的裝置,其中,所述處理裝置包括用于使用具有第一信號特征測量的時間校準(zhǔn)數(shù)據(jù)來產(chǎn)生與笫二信號特征測量時間校準(zhǔn)的特征修改數(shù)據(jù)的裝置。19、如權(quán)利要求15所述的裝置,其中,用于應(yīng)用特征修改數(shù)據(jù)的裝置包括用于根據(jù)預(yù)定函數(shù)調(diào)制所述特征修改數(shù)據(jù)從而根據(jù)特征修改數(shù)據(jù)和預(yù)定函數(shù)聯(lián)合地修改第二信號的所述選擇的部分的所述至少一個聲學(xué)特征的裝置。20、如權(quán)利要求15所述的裝置,其中,第一信號的所述至少一個聲學(xué)特征是音調(diào)。21、如權(quán)利要求15所述的裝置,其中。第二信號的所述至少一個聲學(xué)特征是音調(diào)。22、如權(quán)利要求15所述的裝置,其中,所述第一信號和第二信號的依賴于時間的特征是采樣的鐠能量測量。23、如權(quán)利要求15所述的裝置,第一信號的所述至少一個聲學(xué)特征是音調(diào),第二信號的所述至少一個聲學(xué)特征是音調(diào),所述處理裝置包括用于從第一信號的音調(diào)測量對第二信號的時間校準(zhǔn)的音調(diào)測量的比率的值來確定乘數(shù)因子,從而在應(yīng)用特征修改數(shù)據(jù)過程中包括所述因子,以便變換在第二信號中在修改的所選擇的信號部分中的音調(diào)改變的頻率范圍的裝置。24、如權(quán)利要求23所述的裝置,進一步包括用于以指數(shù)冪2來縮放所述乘數(shù)因子,從而根據(jù)所述指數(shù)冪2的選擇來改變第二修改的所選擇的信號部分中的音調(diào)的裝置。25、如權(quán)利要求16所述的裝置,其中,用于在沿著第二信號的所選擇的位置進行測量的裝置包括用于使用時間校準(zhǔn)數(shù)據(jù)以從第二采樣信號產(chǎn)生時間校準(zhǔn)的第二信號的裝置,在所述時間校準(zhǔn)的第二信號中,第二采樣信號的所述依賴于時間的特征的出現(xiàn)時間基本上與第一采樣信號中的所迷依賴于時間的特征的出現(xiàn)時間一致;以及用于在被選擇為在定時方面與沿著第一采樣信號的所述所選擇的位置有關(guān)的、沿著時間校準(zhǔn)的第二信號的位置處測量時間校準(zhǔn)的第二信號中的至少一個聲學(xué)特征的裝置。26、如權(quán)利要求25所述的裝置,其中,所述被選擇為在定時方面有關(guān)的位置基本上在定時方面與沿著第一采樣信號的所述所選擇的位置一致。27、如權(quán)利要求16所述的裝置,其中,第一采樣信號的所述至少一個聲學(xué)特征是音調(diào),第二采樣信號的所述至少一個聲學(xué)特征是音調(diào),所述用于應(yīng)用特征修改數(shù)據(jù)的裝置包括用于使用時間校準(zhǔn)數(shù)據(jù)以從第二采樣信號產(chǎn)生時間校準(zhǔn)的第二信號,并將特征修改數(shù)據(jù)應(yīng)用于時間校準(zhǔn)的第二信號以產(chǎn)生音調(diào)修改的時間校準(zhǔn)的第二信號的裝置。28、如權(quán)利要求27所述的裝置,其中,用于應(yīng)用特征修改數(shù)據(jù)的裝置包括用于根據(jù)預(yù)定函數(shù)調(diào)制特征修改數(shù)據(jù)從而根據(jù)特征修改數(shù)據(jù)和預(yù)定函數(shù)聯(lián)合地修改第二信號的所述所選擇的部分中的音調(diào)的裝置。29、如權(quán)利要求28所述的裝置,其中,預(yù)定函數(shù)是第一采樣信號中的音調(diào)測量對于沿著第二采樣信號的第二采樣信號中的對應(yīng)的音調(diào)測量的比率的值的函數(shù)。30、一種音頻信號修改裝置,包括時間校準(zhǔn)模塊,被布置為接收新信號和向?qū)б纛l信號并從其中產(chǎn)生時間校準(zhǔn)的新信號;第一音調(diào)測量模塊,耦合到時間校準(zhǔn)模塊,并被布置為測量時間校準(zhǔn)的新信號中的音調(diào);第二音調(diào)測量模塊,被布置為接收向?qū)б纛l信號并測量向?qū)б纛l信號中的音調(diào);音調(diào)調(diào)整計算器,耦合到第一音調(diào)測量模塊和第二音調(diào)測量模塊,并被布置為計算音調(diào)校正因子;以及音調(diào)調(diào)制器,耦合到時間校準(zhǔn)模塊,以接收時間校準(zhǔn)的新信號,并耦合到音調(diào)調(diào)整計算器,以接收音調(diào)校正因子,并且被布置為根據(jù)音調(diào)校正因子修改時間校準(zhǔn)的新信號中的音調(diào)。31、一種音頻信號修改裝置,包括時間校準(zhǔn)模塊,被布置為接收新音頻信號和向?qū)б纛l信號并從其中產(chǎn)生時間校準(zhǔn)的新信號;第一聲學(xué)特征測量模塊,被布置為接收向?qū)б纛l信號,并測量向?qū)б纛l信號的至少一個聲學(xué)特征;聲學(xué)特征調(diào)整計算器,耦合到第一聲學(xué)特征測量模塊,并被布置為計算聲學(xué)特征修改因子;以及聲學(xué)特征調(diào)制器,耦合到時間校準(zhǔn)模塊,以接收時間校準(zhǔn)的新信號,并耦合到聲學(xué)特征調(diào)整計算器,以接收聲學(xué)特征修改因子,并且被布置為根據(jù)聲學(xué)特征修改因子修改時間校準(zhǔn)的新信號的所述至少一個聲學(xué)特征。32、如權(quán)利要求31所述的音頻信號修改裝置,其中,處理函數(shù)模塊耦合到特征調(diào)整計算器以對其提供信號函數(shù),特征調(diào)整計算器適用于根據(jù)信號函數(shù)計算聲學(xué)特征修改因子。33、如權(quán)利要求31或32所述的音頻信號修改裝置,其中,第二聲學(xué)特征測量模塊耦合到時間校準(zhǔn)模塊,并且被布置為測量時間校準(zhǔn)的新信號的至少一個聲學(xué)特征;聲學(xué)特征調(diào)整計算器耦合到第二聲學(xué)特征測量模塊。34、如權(quán)利要求31所述的音頻信號修改裝置,其中,笫二聲學(xué)測量模塊被布置為接收新音頻信號,并測量新音頻信號的所述至少一個聲學(xué)特征,并且其中,聲學(xué)特征調(diào)整計算器耦合到第二聲學(xué)特征測量模塊和時間校準(zhǔn)模塊,并且適用于將新音頻信號的測量的聲學(xué)特征校準(zhǔn)到向?qū)б纛l信號的測量的聲學(xué)特征。35、一種音頻信號修改裝置,包括時間校準(zhǔn)模塊,被布置為接收新音頻信號和向?qū)б纛l信號并從其中產(chǎn)生時間校準(zhǔn)數(shù)據(jù);第一聲學(xué)特征測量模塊,被布置為接收向?qū)б纛l信號,并測量向?qū)б纛l信號的至少一個聲學(xué)特征;聲學(xué)特征調(diào)整計算器,耦合到時間校準(zhǔn)模塊和第一聲學(xué)特征測量模塊,并被布置為計算聲學(xué)特征修改因子的時間校準(zhǔn)的值;以及聲學(xué)特征調(diào)制器,被耦合以接收新音頻信號,以及被耦合到聲學(xué)特征調(diào)整計算器以接收聲學(xué)特征修改因子的時間校準(zhǔn)的值,并且被布至少一個聲學(xué)特征,從而產(chǎn)生修改的新音頻信號,36、如權(quán)利要求35所述的音頻信號修改裝置,其中,時間校準(zhǔn)器被耦合到聲學(xué)特征調(diào)制器,以接收修改的新音頻信號,并耦合到時間校準(zhǔn)模塊,以接收時間校準(zhǔn)數(shù)據(jù),并且被布置為根據(jù)所述修改的新音頻信號和時間校準(zhǔn)數(shù)據(jù)產(chǎn)生時間校準(zhǔn)的修改的新信號。37、如權(quán)利要求35或36所述的音頻信號修改裝置,其中,第二聲學(xué)特征測量模塊被布置為接收新音頻信號并測量新音頻信號的至少一個聲學(xué)特征;以及聲學(xué)特征調(diào)整計算器耦合到第二聲學(xué)特征測量模塊。38、如權(quán)利要求l所述的方法,其中,所述應(yīng)用步驟包括由此產(chǎn)生表示修改的第二信號的數(shù)據(jù)。39、如權(quán)利要求38所述的方法,進一步包括以下步驟將表示修改的第二信號的數(shù)據(jù)提供給電信裝置。40、如權(quán)利要求39所述的方法,其中,所述提供步驟包括通過鈴聲傳遞系統(tǒng)發(fā)送表示修改的第二信號的數(shù)據(jù)。41、如權(quán)利要求16所述的裝置,其中,所述比較裝置、所述測量裝置、所述處理裝置以及所述應(yīng)用裝置被合并在電信裝置中。42、如權(quán)利要求41所述的裝置,其中,電信裝置包括適于耦合到電信網(wǎng)絡(luò)的服務(wù)器計算機。43、如權(quán)利要求41所述的裝置,其中,電信裝置包括移動電話。44、如權(quán)利要求41所述的裝置,其中,電信裝置適于將表示修改的第二信號的數(shù)據(jù)提供給鈴音傳遞系統(tǒng)。45、如權(quán)利要求43所述的裝置,其中,移動電話適于將表示修改的第二信號的數(shù)據(jù)提供給鈴音傳遞系統(tǒng)。全文摘要將數(shù)字化音頻信號(310)(例如業(yè)余演唱)以及數(shù)字向?qū)б纛l信號(312)提供給產(chǎn)生與向?qū)盘栠M行時間校準(zhǔn)的時間校準(zhǔn)的新信號(330)的時間校準(zhǔn)處理(320)。在處理(340)和(345)中,測量沿著時間校準(zhǔn)的新信號(330)和沿著向?qū)盘?312)的音調(diào),在處理(340)和(345)中,將這些測量提供給音調(diào)調(diào)整計算器(370),音調(diào)調(diào)整計算器(370)從這些測量以及信號的最接近的八度音階比率來計算音調(diào)校正因子C(Fp)。音調(diào)改變處理(380)調(diào)制時間校準(zhǔn)的新信號(330)的音調(diào),以產(chǎn)生時間校準(zhǔn)且音調(diào)調(diào)整的新信號(390)。文檔編號G10L25/90GK101111884SQ200680003410公開日2008年1月23日申請日期2006年1月26日優(yōu)先權(quán)日2005年1月27日發(fā)明者喬納森·紐蘭德,威廉·J.·埃爾伍德,菲利普·J.·布盧姆申請人:森闊藝術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
高尔夫| 丰原市| 奎屯市| 襄垣县| 溆浦县| 马龙县| 灵武市| 新绛县| 朔州市| 乌拉特前旗| 湖口县| 呼图壁县| 娄底市| 五河县| 木里| 宁远县| 托克逊县| 来宾市| 江城| 东源县| 松溪县| 黄浦区| 唐海县| 金沙县| 天等县| 界首市| 靖江市| 綦江县| 观塘区| 罗山县| 综艺| 师宗县| 剑阁县| 康乐县| 博乐市| 彝良县| 尚志市| 达日县| 吴旗县| 潜山县| 台南县|