聲音合成設(shè)備的制作方法與工藝

文檔序號：12039825閱讀：159來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及合成聲音的技術(shù)。

背景技術(shù)：
傳統(tǒng)上已經(jīng)提出了分段連接型的聲音合成技術(shù)，其中，針對合成的每個單元（例如音符，下文中稱其為“單位聲音”）指定持續(xù)時間和發(fā)音內(nèi)容（例如，歌詞），并且將與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個聲音分段互連，從而生成期望合成的聲音。根據(jù)JP-B-4265501，將對應(yīng)于與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的元音音素的聲音分段延長，從而可以生成在期望的持續(xù)時間內(nèi)發(fā)出每個單位聲音的發(fā)音內(nèi)容的合成聲音。存在這樣的情況，其中，例如將由多個元音耦合在一起構(gòu)成的復(fù)合元音（雙元音、三合元音）指定為一個單位聲音的發(fā)音內(nèi)容。作為用于確保關(guān)于上述指定了復(fù)合元音的一個單位聲音有足夠的持續(xù)時間的配置，例如，考慮延長復(fù)合元音的第一個元音的聲音分段的配置。但是，使用將延長目標(biāo)固定為該單位聲音的第一個元音的配置，存在使可生成的合成聲音受限的問題。例如，假設(shè)將包含復(fù)合元音的發(fā)音內(nèi)容“fight”（一個音節(jié)）指定為一個單位聲音的情況，其中，元音音素/a/和元音音素/I/在一個音節(jié)中連續(xù)，盡管可以生成復(fù)合元音的第一音素/a/被延長的合成聲音“[fa:It]”，但是不能生成后面音素/I/被延長的合成聲音“[faI:t]”（符號“:”是指延長的聲音）。盡管以上的描述示出了復(fù)合元音的情況作為示例，但是當(dāng)多個音素在一個音節(jié)中連續(xù)時，不管它們是元音還是輔音，都會出現(xiàn)類似的問題。鑒于上述狀況，本公開的目的是通過減輕延長聲音分段時的這種約束來生成各種合成聲音。

技術(shù)實現(xiàn)要素：
為了實現(xiàn)上述目的，根據(jù)本發(fā)明，提供了一種聲音合成方法，其包括：對指定了每個單位聲音的持續(xù)時間和發(fā)音內(nèi)容的合成信息進(jìn)行獲取；針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個來設(shè)置是允許延長還是禁止延長；以及通過連接與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個聲音分段來生成對應(yīng)于合成信息的合成聲音，其中在生成過程中，對于在與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素當(dāng)中的與允許延長的音素相對應(yīng)的聲音分段，按照單位聲音的持續(xù)時間來對該聲音分段進(jìn)行延長。例如，在設(shè)置過程中，響應(yīng)于來自用戶的指令來設(shè)置對每個音素是允許還是禁止延長。例如，所述聲音合成方法還包括：顯示設(shè)置圖像，該設(shè)置圖像提供了與用戶在由所述合成信息指定的多個單位聲音當(dāng)中選出的一個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素，顯示該設(shè)置圖像用以從用戶接收關(guān)于對該多個音素中的每一個是允許延長還是禁止延長的指令。例如，所述聲音合成方法還包括：在顯示裝置上顯示與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個的音素符號，從而以不同的顯示模式來顯示允許延長的音素和禁止延長的音素。例如，在顯示模式中，對允許延長的音素應(yīng)用具有高亮、下劃線部分、圓圈、以及點中的至少一種的音素符號。例如，在設(shè)置過程中，針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的時間上可持續(xù)的持續(xù)音素來設(shè)置是允許延長還是禁止延長。例如，所述聲音合成方法還包括：顯示設(shè)置圖像，該設(shè)置圖像提供了與用戶在由所述合成信息指定的多個單位聲音當(dāng)中選出的一個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素，顯示該設(shè)置圖像用以從用戶接收關(guān)于該多個音素的持續(xù)時間的指令，其中在設(shè)置過程中，延長與該單位聲音的發(fā)音內(nèi)容相對應(yīng)的聲音分段，以使得與該單位聲音的發(fā)音內(nèi)容相對應(yīng)的音素中的每一個的持續(xù)時間符合在設(shè)置圖像中接收到的指令所指定的音素的持續(xù)時間當(dāng)中的比率。根據(jù)本發(fā)明，還提供一種聲音合成設(shè)備，其包括：耦接至存儲器的處理器，該處理器被配置來執(zhí)行計算機可執(zhí)行單元，該計算機可執(zhí)行單元包括：信息獲取器，其適合于對指定了每個單位聲音的持續(xù)時間和發(fā)音內(nèi)容的合成信息進(jìn)行獲??；延長設(shè)置器，其適合于針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個來設(shè)置是允許延長還是禁止延長；以及聲音合成器，其適合于通過連接與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個聲音分段來生成對應(yīng)于所述合成信息的合成聲音，其中所述聲音合成器對于在與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素當(dāng)中的與允許延長的音素相對應(yīng)的聲音分段來按照單位聲音的持續(xù)時間對該聲音分段進(jìn)行延長。根據(jù)本發(fā)明，還提供一種計算機可讀介質(zhì)，其上存儲有用于使計算機實現(xiàn)所述聲音合成方法的程序。根據(jù)本發(fā)明，還提供一種聲音合成方法，其包括：對指定了每個單位聲音的持續(xù)時間和發(fā)音內(nèi)容的合成信息進(jìn)行獲?。会槍εc每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的至少一個來設(shè)置是允許延長還是禁止延長；以及通過連接與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個聲音分段來生成對應(yīng)于所述合成信息的合成聲音，其中在生成過程中，對于在與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素當(dāng)中的與允許延長的音素相對應(yīng)的聲音分段，按照單位聲音的持續(xù)時間來對該聲音分段進(jìn)行延長。附圖說明通過參照附圖來詳細(xì)描述本公開的優(yōu)選示例實施例，本公開的上述目的及優(yōu)點將變得更顯而易見，附圖中：圖1是根據(jù)本公開的第一實施例的聲音合成設(shè)備的框圖；圖2是合成信息的簡要示圖；圖3是樂譜區(qū)域的簡要示圖；圖4是樂譜區(qū)域和設(shè)置圖像的簡要示圖；圖5是聲音合成器的操作（聲音分段的延長）的說明示圖；圖6是聲音合成器的操作（聲音分段的延長）的說明示圖；圖7是第二實施例中的樂譜區(qū)域和設(shè)置圖像的簡要示圖；以及圖8是修改實施例中的樂譜區(qū)域的簡要示圖。具體實施方式<第一實施例>圖1是根據(jù)本公開的第一實施例的聲音合成設(shè)備100的框圖。聲音合成設(shè)備100是通過分段連接型的聲音合成來生成歌聲的聲音信號S的信號處理設(shè)備，如圖1所示，其被實現(xiàn)為計算機系統(tǒng)，包括算術(shù)處理單元12、存儲裝置14、顯示裝置22、輸入裝置24和發(fā)聲裝置26。聲音合成設(shè)備100被實現(xiàn)為例如固定信息處理設(shè)備（個人計算機）或便攜式信息處理設(shè)備（便攜式電話或個人數(shù)字助理）。算術(shù)處理單元12執(zhí)行存儲在存儲裝置14中的程序PGM，從而實現(xiàn)用于生成聲音信號S的多個功能（顯示控制器32、信息獲取器34、延長設(shè)置器36和聲音合成器38）。還可以采用以下配置：算術(shù)處理單元12的功能分布到多個設(shè)備的配置；以及用專用電子電路（例如，DSP）實現(xiàn)算術(shù)處理單元12的功能中的一些的配置。顯示裝置22（例如，液晶顯示面板）顯示算術(shù)處理單元12所指定的圖像。輸入裝置24是從用戶接收指令的裝置（例如，鼠標(biāo)或鍵盤）。可以采用與顯示裝置22一體構(gòu)建的觸摸面板作為輸入裝置24。發(fā)聲裝置26（例如，耳機或揚聲器）重現(xiàn)對應(yīng)于算術(shù)處理單元12所生成的聲音信號S的聲音。存儲裝置14存儲算術(shù)處理單元12執(zhí)行的程序PGM以及算術(shù)處理單元12使用的各種數(shù)據(jù)（聲音分段組DA、合成信息DB）?？呻S意采用諸如半導(dǎo)體存儲介質(zhì)或磁記錄介質(zhì)之類的已知記錄介質(zhì)、或者多種記錄介質(zhì)的組合來作為存儲裝置14。聲音分段組DA是由被用作聲音合成材料的多種聲音分段的分段數(shù)據(jù)P構(gòu)成的聲音合成庫。分段數(shù)據(jù)P中的每一個定義了例如聲音分段的時間域波形以及聲音分段的頻域頻譜的樣本序列。聲音分段的每一個是單個音素或音素鏈，單個音素（例如，一個元音或一個輔音）是從語言角度劃分聲音時的最小單元（單音），在音素鏈中多個音素耦合在一起（例如，雙音或三合音）。各音素的聲音分段的分段數(shù)據(jù)P表示該音素的連續(xù)發(fā)音的聲音的波形穩(wěn)定的部分（聲學(xué)特性保持穩(wěn)定的部分）。另一方面，音素鏈的聲音分段的分段數(shù)據(jù)P表示從前一音素向后一音素過渡的發(fā)音。音素被分成其發(fā)音在時間上可持續(xù)的音素（下文中稱其為“持續(xù)音素”）和其發(fā)音在時間上不持續(xù)（或難以持續(xù)）的音素（下文中稱其為“不持續(xù)音素”）。盡管持續(xù)音素的典型示例為元音，但是諸如塞擦音、摩擦音和流音（鼻音）之類的輔音（濁輔音、清輔音）也可以包含于持續(xù)音素中。另一方面，不持續(xù)音素是其發(fā)音短暫地執(zhí)行的音素（例如，通過處于關(guān)閉狀態(tài)下的聲道的暫時變形發(fā)音的音素）。例如，爆破音是不持續(xù)音素的典型示例。存在這樣的差別，在保持聲音聽起來自然的情況下，持續(xù)音素可以在時間上延長，而不持續(xù)音素難以在時間上延長。存儲在存儲裝置14中的合成信息DB是按時間順序（以時序方式）將合成聲音指定為聲音合成目標(biāo)的數(shù)據(jù)（譜數(shù)據(jù)），并且如圖2所示，包括對應(yīng)于不同單位聲音（音符）的多個單元信息U。單位聲音是例如對應(yīng)于一個音符的合成單元。單元信息U的每一個指定音調(diào)信息XA、時間信息XB、發(fā)音信息XC和延長信息XD。這里，單元信息U中可以包括除以上所示元素之外的信息（例如，用于控制每個單位聲音的諸如音量和顫音之類的音樂表達(dá)的變量）。圖1中的信息獲取器34響應(yīng)于來自用戶的指令來生成以及編輯合成信息DB。圖2中的音調(diào)信息XA指定該單位聲音的音調(diào)（對應(yīng)于該音調(diào)的音符編號）?？梢酝ㄟ^音調(diào)信息XA來指定與該單位聲音的音調(diào)相對應(yīng)的頻率。時間信息XB指定該單位聲音在時間軸上的發(fā)音時間段。如圖2中所示，第一實施例的時間信息XB指定表示該單位聲音的發(fā)音開始時間的發(fā)音時間XB1以及表示該單位聲音的發(fā)音持續(xù)時長（音值）的持續(xù)時間XB2。持續(xù)時間XB2可以由每個單位聲音的發(fā)音時間XB1和聲音消失時間指定。發(fā)音信息XC是指定該單位聲音的發(fā)音內(nèi)容（字素）的信息，并且包括字素信息XC1和音素信息XC2。字素信息XC1指定表示每個單位聲音的發(fā)音內(nèi)容的發(fā)音字母（字素）。在第一實施例中，與一個單位聲音相對應(yīng)的發(fā)音字母（例如，歌詞的一個字母串）的一個音節(jié)由字素信息XC1指定。音素信息XC2指定與字素信息XC1所指定的發(fā)音字母相對應(yīng)的多個音素的音素符號。字素信息XC1不是單位聲音合成的必要元素，其可以省略。圖2中的延長信息XD針對與發(fā)音信息XC所指定的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個（即，音素信息XC2指定音素符號的音素）來指定是允許還是禁止時間延長。例如，使用將是允許還是禁止音素的延長表達(dá)為兩個值（數(shù)值“1”表示允許延長并且數(shù)值“0”表示禁止延長）的標(biāo)識序列作為延長信息XD。第一實施例的延長信息XD針對持續(xù)音素指定是允許延長還是禁止延長，而不針對不持續(xù)音素指定是允許延長還是禁止延長。對于不持續(xù)音素，可以總是禁止延長。圖1中的延長設(shè)置器36針對每個單位聲音的多個音素（持續(xù)音素）中的每一個設(shè)置是允許延長還是禁止延長（延長信息XD）。圖1中的顯示控制器32在顯示裝置22上顯示圖3中的編輯屏幕，以表示合成信息DB的內(nèi)容（多個單位聲音的時間序列）。如圖3中所示，顯示在顯示裝置22上的編輯屏幕包括樂譜區(qū)域50。樂譜區(qū)域50是設(shè)置相互交叉的時間軸（橫軸）AT和音調(diào)軸（縱軸）AF的鋼琴作用型坐標(biāo)平面。象征每個單位聲音的圖形（下文中稱其為“聲音指示符”）52置于樂譜區(qū)域50中。編輯屏幕的具體格式不局限于特定的一種。例如，還可以采用以列表形式顯示合成信息DB的內(nèi)容的配置以及以樂譜形式顯示單位聲音的配置。用戶可以通過操作輸入裝置24來指示聲音合成設(shè)備100在樂譜區(qū)域50中布置聲音指示符52（添加單位聲音）。顯示控制器32在樂譜區(qū)域50中布置用戶所指定的聲音指示符52，信息獲取器34將與布置在樂譜區(qū)域50中的聲音指示符52相對應(yīng)的單元信息U添加到合成信息DB。根據(jù)聲音指示符52在音調(diào)軸AF方向上的位置來選擇與用戶布置的聲音指示符52相對應(yīng)的單元信息U的音調(diào)信息XA。根據(jù)聲音指示符52在時間軸AT方向上的位置來選擇與聲音指示符52相對應(yīng)的單元信息U的時間信息XB的發(fā)音時間XB1，以及根據(jù)聲音指示符52在時間軸AT方向上的顯示長度來選擇時間信息XB的持續(xù)時間XB2。響應(yīng)于用戶對樂譜區(qū)域50中先前布置的聲音指示符52的指令，顯示控制器32改變聲音指示符52在時間軸AT上的位置及其顯示長度，信息獲取器34改變與該聲音指示符52相對應(yīng)的單元信息U的音調(diào)信息XA和時間信息XB。通過適當(dāng)操作輸入裝置24，用戶可以選擇樂譜區(qū)域50中給定單位聲音的聲音指示符52，并且指定期望的發(fā)音內(nèi)容（發(fā)音字母）。信息獲取器34設(shè)置指定用戶所指定發(fā)音字母的字素信息XC1和指定與該發(fā)音字母相對應(yīng)的音素符號的音素信息XC2，作為用戶所選單位聲音的單元信息U。延長設(shè)置器36設(shè)置用戶所選單位聲音的延長信息XD作為初始值（例如，禁止每個音素延長的數(shù)值）。如圖3中所示，顯示控制器32在與每個單位聲音的聲音指示符52相對應(yīng)的位置（例如，如圖3中所示覆蓋聲音指示符52的位置）處布置由該單位聲音的字素信息XC1指定的發(fā)音字母54和由音素信息XC2指定的音素符號56。當(dāng)用戶提供指令來改變每個單位聲音的發(fā)音內(nèi)容時，信息獲取器34響應(yīng)于來自用戶的該指令來改變該單位聲音的字素信息XC1和音素信息XC2，顯示控制器32響應(yīng)于來自用戶的該指令來改變顯示在顯示裝置22上的發(fā)音字母54和音素符號56。在以下的描述中，音素將由符合SAMPA（語言評估法語音字母表）的符號來表達(dá)。該表達(dá)類似于X-SAMPA（擴展SAMPA）的情況。當(dāng)用戶選擇期望單位聲音（下文中稱其為“所選單位聲音”）的聲音指示符52并且對輸入裝置24施加預(yù)定操作時，如圖4中所示，顯示控制器32在與所選單位聲音（在圖4中為對應(yīng)于發(fā)音字母“fight”的單位聲音）的聲音指示符52相對應(yīng)的位置（例如，在聲音指示符52旁邊）處顯示設(shè)置圖像60。設(shè)置圖像60是這樣的圖像，其用于向用戶呈現(xiàn)與所選單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素（由所選單位聲音的音素信息XC2指定的多個音素）以及用于從用戶接收是允許還是禁止每個音素的延長的指令。如圖4中所示，設(shè)置圖像60包括分別針對與所選單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素（在第一實施例中為持續(xù)音素）的操作圖像62。通過在設(shè)置圖像60中操作期望音素的操作圖像62，用戶可以任意指定是允許還是禁止該音素的延長（允許/禁止）。延長設(shè)置器36響應(yīng)于用戶對設(shè)置圖像60的指令，針對每個音素更新由所選單位聲音的延長信息XD指定的延長是允許還是禁止。具體地，延長設(shè)置器36將其延長被指定為允許的音素的延長信息XD設(shè)置為數(shù)值“1”，將其延長被指定為禁止的音素的延長信息XD設(shè)置為數(shù)值“0”。顯示控制器32在顯示裝置22上以不同模式（用戶可以從視覺上對彼此進(jìn)行區(qū)分的模式）顯示其延長信息XD指示延長允許的音素的音素符號56以及其延長信息XD指示延長禁止的音素的音素符號56。圖3和圖4示出了在其延長被指定為允許的音素/a/的音素符號56下面劃線以及不在其延長被禁止的音素的音素符號56下面劃線的情況。但是，不同的模式不限于帶下劃線的音素符號以及不帶下劃線的音素符號。這里，可以采用下述配置：根據(jù)是允許延長還是禁止延長來使音素符號56的諸如高亮（例如，亮度（灰度）、色度、色調(diào)）、大小和字母類型之類的顯示模式不同的配置；對允許延長的音素應(yīng)用諸如下劃線部分、圓圈、和點之類的顯示模式作為音素符號的配置；以及根據(jù)是允許還是禁止音素的延長來使音素符號56的背景的顯示模式不同的配置（例如，使背景的圖案不同的配置以及使存在或不存在閃爍不同的配置）。圖1中的聲音合成器38交替地連接時間軸上與由信息獲取器34所生成的合成信息DB按時間順序指定的單位聲音中的每一個的發(fā)音信息XC相對應(yīng)的多個聲音分段（分段數(shù)據(jù)P），從而生成合成聲音的聲音信號S。具體地，聲音合成器38首先從存儲裝置14的聲音分段組DA中順次選擇與每個單位聲音的發(fā)音信息XC相對應(yīng)的聲音分段的分段數(shù)據(jù)P（音素信息XC2所指示的音素符號），其次，將每個分段數(shù)據(jù)P調(diào)整為由單元信息U的音調(diào)信息XA所指定的音調(diào)以及由時間信息XB的持續(xù)時間XB2所指定的時間長度。然后，聲音合成器38將其音調(diào)和時間長度調(diào)整了的分段數(shù)據(jù)P置于由時間信息XB的發(fā)音時間XB1所指定時間處，并且將其互連，從而生成聲音信號S。聲音合成器38所生成的聲音信號S被提供給發(fā)聲裝置26并被重現(xiàn)為聲波。圖5和圖6是聲音合成器38延長分段數(shù)據(jù)P的處理的說明視圖。在以下的描述中，為了與音素的表達(dá)區(qū)分，為了說明目的而使用括號[]來表達(dá)聲音分段。例如，將音素/a/和音素/I/的音素鏈（雙元音）的聲音分段表達(dá)為符號[a-I]。為了描述的目的，使用“#”將靜音表達(dá)為一個音素。圖5中的部分（A）示出了音素/f/（清唇齒摩擦音）、音素/a/（半前開非圓唇元音）、音素/I/（近閉合近前非圓唇元音）和音素/t/（清齒槽爆破音）連續(xù)的發(fā)音字母“fight”的一個音節(jié)作為示例。音素/a/和音素/I/構(gòu)成復(fù)合元音（雙元音）。針對音素為持續(xù)音素的發(fā)音字母“fight”的音素（/f/、/a/和/I/）中的每一個，響應(yīng)于用戶對設(shè)置圖像60的指令來分別指定是允許延長還是禁止延長。另一方面，從將被延長的目標(biāo)中排除為不持續(xù)音素的爆破音/t/。當(dāng)音素/a/的延長信息XD指定允許延長而音素/f/和音素/I/中的每一個的延長信息XD指定禁止延長時，如圖5中的部分（B）所示，聲音合成器38從聲音分段組DA中選擇聲音分段[#-f]、[f-a]、[a]、[a-I]、[I-t]和[t-#]中的每一個的分段數(shù)據(jù)P，并且將與允許延長的音素/a/相對應(yīng)的聲音分段[a]的分段數(shù)據(jù)P延長至對應(yīng)于持續(xù)時間XB2的時間長度（整個單位聲音的持續(xù)時間為持續(xù)時間XB2的時間長度）。聲音分段[a]的分段數(shù)據(jù)P表示通過發(fā)出音素/a/而產(chǎn)生的聲音的波形保持穩(wěn)定的部分。對于聲音分段（分段數(shù)據(jù)P）的延長，可以任意采用已知技術(shù)。例如，通過在時間軸上重復(fù)聲音分段的特定部分（例如，對應(yīng)于一個周期的部分）來延長該聲音分段。另一方面，不延長包含禁止延長音素（/f/、/I/和/t/）的聲音分段（[#-f]、[f-a]、[a-I]、[I-t]和[t-#]）中的每一個的分段數(shù)據(jù)P。當(dāng)音素/I/的延長信息XD指定允許延長而音素/f/和音素/a/中的每一個的延長信息XD指定禁止延長時，如圖5中的部分（C）所示，聲音合成器38選擇聲音分段[#-f]、[f-a]、[a-I]、[I]、[I-t]和[t-#]，并且將與允許延長的音素/I/相對應(yīng)的聲音分段[I]延長至對應(yīng)于持續(xù)時間XB2的時間長度。另一方面，不延長包含禁止延長音素（/f/、/a/和/t/）的聲音分段（[#-f]、[f-a]、[a-I]、[I-t]和[t-#]）中的每一個的分段數(shù)據(jù)P。當(dāng)音素/a/和音素/I/中的每一個的延長信息XD指定允許延長而音素/f/的延長信息XD指定禁止延長時，如圖5中的部分（D）所示，聲音合成器38選擇聲音分段[#-f]、[f-a]、[a]、[a-I]、[I]、[I-t]和[t-#]，并且將音素/a/的聲音分段[a]和音素/I/的聲音分段[I]延長至對應(yīng)于持續(xù)時間XB2的時間長度。圖6中的部分（A）示出了音素/f/（清唇齒摩擦音）、音素/V/（半開后非圓唇元音）和音素/n/（齒槽鼻音）連續(xù)的發(fā)音字母“fun”的一個音節(jié)作為示例。針對構(gòu)成發(fā)音字母“fun”的音素（持續(xù)音素）/f/、/V/和/n/中的每一個，響應(yīng)于來自用戶的指令來分別指定是允許延長還是禁止延長。當(dāng)音素/V/的延長信息XD指定允許延長而音素/f/和音素/n/中的每一個的延長信息XD指定禁止延長時，如圖6中的部分（B）所示，聲音合成器38選擇聲音分段[#-f]、[f-V]、[V]、[V-n]和[n-#]，并且將與允許延長的音素/V/相對應(yīng)的聲音分段[V]延長至對應(yīng)于持續(xù)時間XB2的時間長度。不延長包含禁止延長的音素（/f/和/n/）的聲音分段（[#-f]、[f-V]、[V-n]和[n-#]）。另一方面，當(dāng)音素/n/的延長信息XD指定允許延長而音素/f/和音素/V/中的每一個的延長信息XD指定禁止延長時，如圖6中的部分（C）所示，聲音合成器38選擇聲音分段[#-f]、[f-V]、[V-n]、[n]和[n-#]，并且將與允許延長的音素/n/相對應(yīng)的聲音分段[n]延長至對應(yīng)于持續(xù)時間XB2的時間長度。不延長包含禁止延長音素（/f/和/V/）的聲音分段（[#-f]、[f-V]、[V-n]和[n-#]）。當(dāng)音素/V/和音素/n/中的每一個的延長信息XD指定允許延長而音素/f/的延長信息XD指定禁止延長時，如圖6中的部分（D）所示，聲音合成器38選擇聲音分段[#-f]、[f-V]、[V]、[V-n]、[n]和[n-#]，并且將音素/V/的聲音分段[V]和音素/n/的聲音分段[n]延長至對應(yīng)于持續(xù)時間XB2的時間長度。如從上述示例理解的那樣，聲音合成器38根據(jù)一個單位聲音的持續(xù)時間XB2來延長與該單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中對應(yīng)于延長設(shè)置器36允許延長的音素的聲音分段。具體地，從聲音分段組DA中選擇與延長設(shè)置器36允許延長的各音素相對應(yīng)的聲音分段（在圖5所示示例中為聲音分段[a]和[I]以及在圖6的示例中為聲音分段[V]和[n]），并且根據(jù)持續(xù)時間XB2對其進(jìn)行延長。如上所述，根據(jù)第一實施例，由于分別針對與一個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個來設(shè)置是允許延長還是禁止延長，因此，例如與延長復(fù)合元音的第一個元音的聲音分段的配置相比較，可以減輕對聲音分段的延長的約束。從而，提供了可以生成各種合成聲音的優(yōu)點。例如，對于圖5中的示例所示的發(fā)音字母“fight”，可以生成延長音素/a/的合成聲音“[fa:It]”（圖5中的部分（B））、延長音素/I/的合成聲音“[faI:t]”（圖5中的部分（C））以及延長音素/a/和音素/I/二者的合成聲音“[fa:I:t]”（圖5中的部分（D））。特別地，在第一實施例中，由于響應(yīng)于來自用戶的指令來設(shè)置是允許還是禁止每個音素的延長，因此提供了可以生成符合用戶意愿的各種合成聲音的優(yōu)點。<第二實施例>以下將描述本公開的第二實施例。在作為示例的下述模式中，類似于第一實施例中的動作和功能的元素仍然由參照第一實施例的描述的參考符號來表示，以下視情況而省略其詳細(xì)描述。圖7是第二實施例的顯示控制器32顯示在顯示裝置22上的設(shè)置圖像70的簡要視圖。如第一實施例中的設(shè)置圖像60，第二實施例中的設(shè)置圖像70是這樣的圖像，其向用戶呈現(xiàn)與用戶從樂譜區(qū)域50中選擇的所選單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素以及從用戶接收是允許還是禁止每個音素的延長的指令。具體地，如圖7所示，設(shè)置圖像70包括對應(yīng)于所選單位聲音的聲音指示符72和操作圖像74（74A和74B），以指示所選單位聲音的多個音素的串聯(lián)中音素之間的邊界。聲音指示符72是在時間軸AT方向（橫向）上延伸的條形（或線性）圖形，以表達(dá)所選單位聲音的發(fā)音部分。通過適當(dāng)?shù)夭僮鬏斎胙b置24，用戶可以在時間軸AT方向上任意移動操作圖像74。以操作圖像74的時間點劃分聲音指示符72而獲得的部分的顯示長度對應(yīng)于所選單位聲音的音素的持續(xù)時間。具體地，將對應(yīng)于發(fā)音字母“fun”的三個音素（/f/、/V/和/n/）的第一個音素/f/的持續(xù)時間定義為聲音指示符72的左端與操作圖像74A之間的距離，將音素/V/的持續(xù)時間定義為操作圖像74A與操作圖像74B之間的距離，以及將最后一個音素/n/的持續(xù)時間定義為操作圖像74B與聲音指示符72的右端之間的距離。第二實施例的延長設(shè)置器36根據(jù)設(shè)置圖像70中操作圖像74的位置來設(shè)置是允許還是禁止每個音素的延長。聲音合成器38延長每個聲音分段以使得與一個單位聲音相對應(yīng)的音素的持續(xù)時間符合設(shè)置圖像70上所指定的音素的持續(xù)時間之間的比率。即，在第二實施例中，如在第一實施例中一樣，針對每個單位聲音的多個音素中的每一個分別設(shè)置是允許延長還是禁止延長。從而，在第二實施例中實現(xiàn)了與第一實施例中的類似的效果。<修改>可以對上述實施例進(jìn)行各種修改。以下將示出具體的修改?？梢赃m當(dāng)?shù)睾喜⑾率鲂薷闹械娜我鈨蓚€或更多個修改。（1）盡管在上述實施例中示出了生成英語（發(fā)音字母“fight”和“fun”）的發(fā)音的合成聲音的情況作為示例，但是合成聲音的語言可以為任意語言。在一些語言中，存在可以將第一輔音、元音和第二輔音（C-V-C）的一個音節(jié)的音素鏈指定為一個單位聲音的發(fā)音字母的情況。例如，在韓語中，存在由第一輔音、元音和第二輔音構(gòu)成的音素鏈。該音素鏈包括被稱為“patchim”的第二輔音（在音節(jié)的末端的輔音）。當(dāng)?shù)谝惠o音和第二輔音為持續(xù)音素時，如在上述第一和第二實施例中一樣，分別設(shè)置是允許還是禁止第一輔音、元音和第二輔音中的每一個的延長的配置是合適的。例如，當(dāng)將由第一輔音音素/h/、元音音素/a/和第二輔音音素/n/構(gòu)成的一個音節(jié)發(fā)音字母“han”指定為一個單位聲音時，可以選擇性地生成延長音素/a/的合成聲音“[ha:n]”和延長音素/n/的合成聲音“[han:]”。盡管在第一實施例中所參照的圖5示出了包含音素/a/和音素/I/在一個音節(jié)中連續(xù)的雙元音的發(fā)音字母“fight”作為示例，但是，在漢語中，可以將三個元音在一個音節(jié)中連續(xù)的復(fù)合元音（三合音）指定為一個單位聲音的發(fā)音字母。因此，其中針對三合音的三個元音的音素中的每一個分別設(shè)置是允許延長還是禁止延長的配置是合適的。（2）盡管在上述實施例中信息獲取器34響應(yīng)于來自用戶的指令而生成合成信息DB，但是可以采用以下配置：信息獲取器34例如通過通信網(wǎng)絡(luò)從外部設(shè)備獲取合成信息DB的配置；以及信息獲取器34從便攜式記錄介質(zhì)獲取合成信息DB的配置。即，可以省略響應(yīng)于來自用戶的指令而生成或編輯合成信息DB的配置。如從以上描述所理解的那樣，信息獲取器34被包括作為獲取合成信息DB的元件（從外部設(shè)備獲取合成信息DB的元件或自己生成合成信息DB的元件）。（3）盡管在上述實施例中示出了將發(fā)音字母的一個音節(jié)指定為一個單位聲音的情況，但是也可以將發(fā)音字母的一個音節(jié)分配給多個單位聲音。例如，如圖8中所示，可以將發(fā)音字母“fun”的一個音節(jié)整體及其最后一個音素/n/分配給不同的單位聲音。根據(jù)該配置，可以在合成聲音的一個音節(jié)內(nèi)改變音調(diào)。（4）盡管在上述實施例中示出了針對不持續(xù)音素不指定是允許延長還是禁止延長的配置，但是也可以采用能夠針對不持續(xù)音素指定是允許延長還是禁止延長的配置。不持續(xù)音素的聲音分段包括不持續(xù)音素發(fā)音之前的靜音部分。因此，當(dāng)允許不持續(xù)音素延長時，聲音合成器38例如延長不持續(xù)音素的聲音分段的靜音部分。[新的]這里，將上述實施例的細(xì)節(jié)總結(jié)如下。本公開的聲音合成設(shè)備包括：信息獲取器（例如，信息獲取器34），用于獲取指定每個單位聲音的持續(xù)時間和發(fā)音內(nèi)容的合成信息；延長設(shè)置器（例如，延長設(shè)置器36），用于針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個設(shè)置是允許延長還是禁止延長；以及聲音合成器（例如，聲音合成器38），用于通過連接與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個聲音分段來生成對應(yīng)于合成信息的合成聲音，該聲音合成器根據(jù)每個單位聲音的持續(xù)時間來延長與該單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中對應(yīng)于延長設(shè)置器允許延長的音素的聲音分段。根據(jù)該配置，由于針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個來設(shè)置是允許延長還是禁止延長，因此與例如總是延長與每個單位聲音相對應(yīng)的多個音素（例如，復(fù)合元音）中的第一音素的配置相比，提供了這樣的優(yōu)點，即，減輕了合成聲音生成時對聲音分段的延長的限制，從而可以生成各種合成聲音。例如，延長設(shè)置器響應(yīng)于來自用戶的指令來設(shè)置是允許還是禁止每個音素的延長。根據(jù)該配置，由于響應(yīng)于來自用戶的指令而設(shè)置是允許還是禁止每個音素的延長，因此提供了這樣的優(yōu)點，即，可以生成復(fù)合用戶意愿的各種合成聲音。例如，提供了這樣的聲音合成設(shè)備，其具有第一顯示控制器（例如，顯示控制器32），用于提供與用戶在由所述合成信息指定的多個單位聲音中選出的單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素，以及顯示設(shè)置圖像（例如，設(shè)置圖像60或設(shè)置圖像70），以從用戶接收是允許還是禁止每個音素的延長的指令。根據(jù)該配置，由于在顯示裝置上顯示了提供與用戶所選擇的單位聲音相對應(yīng)的多個音素以及從用戶接收指令的設(shè)置圖像，因此提供了這樣的優(yōu)點，即，用戶可以容易地針對多個單位聲音中的每一個指定是允許還是禁止每個音素的延長。聲音合成設(shè)備提供有第二顯示控制器（例如，顯示控制器32），用于在顯示裝置上顯示與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個的音素符號，從而以不同顯示模式來顯示延長設(shè)置器允許延長的音素和延長設(shè)置器禁止延長的音素。根據(jù)該配置，由于根據(jù)是允許延長還是禁止延長來以不同顯示模式顯示音素的音素符號，因此提供了這樣的優(yōu)點，即，用戶可以容易地檢查是允許還是禁止每個音素的延長。顯示模式是指用戶可以從視覺上區(qū)分的圖像特征，顯示模式的典型示例為亮度（灰度）、色度、色調(diào)和格式（字母類型、字母大小、是否存在諸如下劃線之類的突出顯示）。此外，除了使其音素符號的顯示模式不同的配置之外，還可以包括這樣的配置，其中根據(jù)是允許還是禁止音素的延長來使音素符號的背景（基礎(chǔ)）的顯示模式不同。例如，可以采用以下配置：使音素符號的背景圖案不同的配置；以及使音素符號的背景閃爍的配置。而且，延長設(shè)置器針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的時間上可持續(xù)的持續(xù)音素設(shè)置是允許延長還是禁止延長。根據(jù)該配置，由于針對持續(xù)音素設(shè)置是允許延長還是禁止延長，因此提供了這樣的優(yōu)點，可以在保持每個音素的聲音聽起來自然的情況下生成合成聲音。通過諸如CPU（中央處理單元）之類的通用算術(shù)處理單元和程序的協(xié)作以及通過諸如DSP（數(shù)字信號處理器）之類的專用于合成聲音生成的硬件（電子電路）來實現(xiàn)根據(jù)上述實施例的聲音合成設(shè)備。本公開的程序使計算機執(zhí)行：信息獲取處理，用于獲取指定每個單位聲音的持續(xù)時間和發(fā)音內(nèi)容的合成信息；延長設(shè)置處理，用于針對與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中的每一個來設(shè)置是允許延長還是禁止延長；以及聲音合成處理，用于通過連接與每個單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個聲音分段來生成對應(yīng)于合成信息的合成聲音，該聲音合成處理根據(jù)每個單位聲音的持續(xù)時間來延長與該單位聲音的發(fā)音內(nèi)容相對應(yīng)的多個音素中與延長設(shè)置處理允許延長的音素相對應(yīng)的聲音分段。根據(jù)該配置，實現(xiàn)了與本公開的音樂數(shù)據(jù)編輯設(shè)備類似的工作和效果。本公開的程序以通過通信網(wǎng)絡(luò)的分發(fā)形式提供而安裝于計算機上，以及通過以存儲在計算機可讀記錄介質(zhì)中的形式提供而安裝于計算機上。盡管已針對特定優(yōu)選實施例而示出和描述了本發(fā)明，但是，對于本領(lǐng)域技術(shù)人員而言顯然的是，可以根據(jù)本發(fā)明的教導(dǎo)來進(jìn)行各種改變和修改。顯然，這些改變和修改在所附權(quán)利要求所定義的本發(fā)明的精神、范圍、和意圖內(nèi)。本申請基于2012年3月28日提交的日本專利申請No.2012-074858，該日本專利申請的內(nèi)容以引用的方式并入本文。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：嘉山啟;小笠原基
技術(shù)所有人：雅馬哈株式會社
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聲音合成器相關(guān)技術(shù)

聲音合成相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲音合成設(shè)備的制作方法與工藝