專利名稱:腳本數(shù)據(jù)生成方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于生成具備關(guān)于音頻數(shù)據(jù)的匹配信息的腳本數(shù)據(jù)的方法及裝置。
背景技術(shù):
最近,隨著便攜式電子設(shè)備和互聯(lián)網(wǎng)等的發(fā)展,各種內(nèi)容的多媒體內(nèi)容被廣泛地普及并利用。例如,用于學(xué)習(xí)英語(yǔ)、日語(yǔ)、中文等語(yǔ)言的各種聽(tīng)取學(xué)習(xí)用語(yǔ)音文件被普及并利用。在存在用于學(xué)習(xí)語(yǔ)言的一個(gè)語(yǔ)音文件和與此對(duì)應(yīng)的文字形式的腳本的情況下,為了在腳本的所希望的位置再現(xiàn)與此對(duì)應(yīng)的語(yǔ)音文件的聲音區(qū)間,在制造語(yǔ)音文件時(shí),需要將相應(yīng)信息插入到語(yǔ)音文件內(nèi)。但是,在具備以往的規(guī)定的再現(xiàn)位置信息的語(yǔ)音文件的情況下,只不過(guò)是包括了可按段落再現(xiàn)的信息,實(shí)際上在想要再現(xiàn)長(zhǎng)度長(zhǎng)的段落內(nèi)的特定文章時(shí),需要直接搜索語(yǔ)音文件的對(duì)應(yīng)聲音區(qū)間,因此存在難以使用語(yǔ)音文件的問(wèn)題。另外,在未存儲(chǔ)有再現(xiàn)位置信息的語(yǔ)音文件的情況下,難以任意再現(xiàn)與腳本的特定單詞或句子對(duì)應(yīng)的語(yǔ)音文件的聲音區(qū)間。例如,在未存儲(chǔ)有再現(xiàn)位置信息的語(yǔ)音文件中,為了再現(xiàn)與腳本的所希望的單詞或句子或者文章對(duì)應(yīng)的聲音區(qū)間,存在需要使用者自己親自手動(dòng)操作倒帶或快進(jìn)按鈕而確認(rèn)語(yǔ)音文件的內(nèi)容的同時(shí)找出相應(yīng)部分的問(wèn)題。
發(fā)明內(nèi)容
技術(shù)課題本發(fā)明是為了解決上述問(wèn)題點(diǎn)而研發(fā)的,本發(fā)明的主要目的在于,提供具備將腳本內(nèi)的文章或者單詞與語(yǔ)音文件的實(shí)際聲音區(qū)間容易進(jìn)行匹配的信息的腳本數(shù)據(jù)生成方法。本發(fā)明的另一目的在于提供能夠采用所述腳本數(shù)據(jù)生成方法的腳本數(shù)據(jù)生成裝置。解決課題的手段為了解決上述技術(shù)課題,根據(jù)本發(fā)明的一方面,提供一種腳本數(shù)據(jù)生成方法,基于音頻數(shù)據(jù)和記載有音頻數(shù)據(jù)的內(nèi)容的文本數(shù)據(jù)而生成腳本數(shù)據(jù),該腳本數(shù)據(jù)具有與文本數(shù)據(jù)的單詞或者句子對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置信息,該腳本數(shù)據(jù)生成方法包括:第一步驟,獲得針對(duì)音頻數(shù)據(jù)的聲音區(qū)間的全部時(shí)間信息;第二步驟,基于文本數(shù)據(jù)獲得針對(duì)聲音區(qū)間的全部音節(jié)數(shù)信息;第三步驟,基于全部時(shí)間信息和全部音節(jié)數(shù)信息運(yùn)算與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間信息;第四步驟,掌握文本數(shù)據(jù)中需要預(yù)測(cè)的單詞或者句子之前的至少一個(gè)聲音區(qū)間所占的區(qū)間音節(jié)數(shù)信息;第五步驟,基于區(qū)間音節(jié)數(shù)信息和單位音節(jié)時(shí)間信息,針對(duì)音頻數(shù)據(jù)中需要預(yù)測(cè)的單詞或者句子的預(yù)測(cè)再現(xiàn)位置信息;第六步驟,對(duì)將音頻數(shù)據(jù)的各聲音區(qū)間的時(shí)間信息依次相加得到的值與預(yù)測(cè)再現(xiàn)位置信息進(jìn)行比較;以及第七步驟,在將各聲音區(qū)間的時(shí)間信息依次相加得到的值與預(yù)測(cè)再現(xiàn)位置信息一致時(shí),將與預(yù)測(cè)再現(xiàn)位置信息最鄰近的停滯區(qū)間內(nèi)的規(guī)定位置作為針對(duì)需要預(yù)測(cè)的單詞或者句子的實(shí)際再現(xiàn)位置而存儲(chǔ)到文本數(shù)據(jù)中。在一實(shí)施例中,第一步驟包括如下步驟:根據(jù)振幅信息提取針對(duì)各聲音區(qū)間的時(shí)間信息,其中,該振幅信息是基于音頻數(shù)據(jù)的時(shí)間的振幅信息。在一實(shí)施例中,第一步驟包括如下步驟:根據(jù)振幅信息提取音頻數(shù)據(jù)內(nèi)的停滯區(qū)間,其中,該振幅信息是基于音頻數(shù)據(jù)的時(shí)間的振幅信息;以及基于由停滯區(qū)間的提取而獲得的各停滯區(qū)間的時(shí)間信息和音頻數(shù)據(jù)本身的全部時(shí)間信息,獲得針對(duì)聲音區(qū)間的全部時(shí)間信息。在一實(shí)施例中,第二步驟包括如下步驟:基于由音節(jié)文字或具有音節(jié)文字的屬性的文字或符號(hào)標(biāo)記文本數(shù)據(jù)的發(fā)音辭典信息,獲得針對(duì)文本數(shù)據(jù)的單詞或者句子的音節(jié)數(shù)。在一實(shí)施例中,第四步驟包括如下步驟:作為需要預(yù)測(cè)的單詞或者句子,從文本數(shù)據(jù)的第一個(gè)單詞或者句子起依次逐一選擇到最后的單詞或者句子。在一實(shí)施例中,第六步驟包括如下步驟:將從音頻數(shù)據(jù)的第一個(gè)聲音區(qū)間到音頻數(shù)據(jù)的最后聲音區(qū)間的各聲音區(qū)間的時(shí)間信息依次逐一相加而搜索與預(yù)測(cè)再現(xiàn)位置信息一致的位置,其中,該第一個(gè)聲音區(qū)間與文本數(shù)據(jù)的第一個(gè)單詞或者句子對(duì)應(yīng),該最后聲音區(qū)間與最后的單詞或者句子對(duì)應(yīng)。根據(jù)本發(fā)明的另一方面,提供一種腳本數(shù)據(jù)生成裝置,其基于音頻數(shù)據(jù)和記載有音頻數(shù)據(jù)的內(nèi)容的文本數(shù)據(jù)而生成腳本數(shù)據(jù),該腳本數(shù)據(jù)具備與文本數(shù)據(jù)的單詞或者句子對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置信息,該腳本數(shù)據(jù)生成裝置包括:振幅比較部,其獲得針對(duì)音頻數(shù)據(jù)的聲音區(qū)間的全部時(shí)間信息;音節(jié)數(shù)提取部,其基于文本數(shù)據(jù)獲得針對(duì)聲音區(qū)間的全部音節(jié)數(shù)信息;單位時(shí)間運(yùn)算部,其基于從振幅比較部得到的全部時(shí)間信息和從音節(jié)數(shù)提取部得到的全部音節(jié)數(shù)信息,運(yùn)算與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間信息;再現(xiàn)位置預(yù)測(cè)部,其基于文本數(shù)據(jù)中需要預(yù)測(cè)的單詞或者句子之前的至少一個(gè)聲音區(qū)間所占的區(qū)間音節(jié)數(shù)和單位音節(jié)時(shí)間信息,獲得針對(duì)音頻數(shù)據(jù)的需要預(yù)測(cè)的單詞或句子的預(yù)測(cè)再現(xiàn)位置信息;以及再現(xiàn)位置搜索部,其對(duì)將音頻數(shù)據(jù)的各聲音區(qū)間的時(shí)間信息依次相加得到的值與預(yù)測(cè)再現(xiàn)位置信息進(jìn)行比較,在所述值與預(yù)測(cè)再現(xiàn)位置信息一致時(shí),將與預(yù)測(cè)再現(xiàn)位置信息最鄰近的停滯區(qū)間內(nèi)的規(guī)定位置作為針對(duì)需要預(yù)測(cè)的單詞或者句子的實(shí)際再現(xiàn)位置而存儲(chǔ)到文本數(shù)據(jù)中。在一實(shí)施例中,振幅比較部根據(jù)振幅信息提取聲音區(qū)間,根據(jù)所提取的各聲音區(qū)間的時(shí)間信息運(yùn)算全部時(shí)間信息,其中,該振幅信息是音頻數(shù)據(jù)的時(shí)間的振幅信息。在一實(shí)施例中,振幅比較部根據(jù)振幅信息提取音頻數(shù)據(jù)內(nèi)的停滯區(qū)間,根據(jù)所提取的各停滯區(qū)間的時(shí)間信息和所述音頻數(shù)據(jù)本身的全部時(shí)間信息運(yùn)算聲音區(qū)間的全部時(shí)間信息,其中,該振幅信息是基于音頻數(shù)據(jù)的時(shí)間的振幅信息。在一實(shí)施例中,音節(jié)數(shù)提取部基于音節(jié)文字或具有音節(jié)文字的屬性的文字或符號(hào)標(biāo)記文本數(shù)據(jù)的發(fā)音辭典信息獲得針對(duì)文本數(shù)據(jù)的單詞或者句子的音節(jié)數(shù)。在一實(shí)施例中,再現(xiàn)位置預(yù)測(cè)部從文本數(shù)據(jù)的第一個(gè)單詞或者句子依次逐一選擇到最后的單詞或者句子,作為需要預(yù)測(cè)的單詞或者句子。在一實(shí)施例中,再現(xiàn)位置搜索部將從音頻數(shù)據(jù)的第一個(gè)聲音區(qū)間到音頻數(shù)據(jù)的最后聲音區(qū)間的各聲音區(qū)間的時(shí)間信息依次逐一相加而搜索與預(yù)測(cè)再現(xiàn)位置信息一致的位置,其中,該第一個(gè)聲音區(qū)間與文本數(shù)據(jù)的第一個(gè)單詞或者句子對(duì)應(yīng),該最后聲音區(qū)間與最后的單詞或者句子對(duì)應(yīng)。發(fā)明效果根據(jù)本發(fā)明,能夠提供通過(guò)使得與規(guī)定的語(yǔ)音文件對(duì)應(yīng)的文字形式的腳本文件上的特定位置與語(yǔ)音文件內(nèi)的對(duì)應(yīng)聲音區(qū)間簡(jiǎn)單地匹配,從而提高語(yǔ)音文件的利用率,并提高使用者的方便性的腳本數(shù)據(jù)生成方法和由該方法而制造的腳本數(shù)據(jù)。另外,能夠提供在利用本發(fā)明的腳本數(shù)據(jù)而在記錄和/或再現(xiàn)裝置中驅(qū)動(dòng)的程序應(yīng)用或記錄有腳本數(shù)據(jù)的計(jì)算機(jī)中可執(zhí)行的存儲(chǔ)介質(zhì)。另外,根據(jù)本發(fā)明,不僅能以文章為單位來(lái)在語(yǔ)音文件內(nèi)匹配對(duì)應(yīng)再現(xiàn)位置,還對(duì)于腳本內(nèi)的任意句子或單詞,也能夠在語(yǔ)音文件內(nèi)匹配對(duì)應(yīng)再現(xiàn)位置。因此,能夠在腳本數(shù)據(jù)上任意地指定音頻數(shù)據(jù)的所希望的再現(xiàn)位置,因此能夠解除因親自確認(rèn)并搜索音頻數(shù)據(jù)的內(nèi)容而帶來(lái)的不便,能夠在語(yǔ)言聽(tīng)取學(xué)習(xí)等用途中大大提高腳本數(shù)據(jù)的活用度。
圖1是能夠采用本發(fā)明的腳本數(shù)據(jù)生成方法的記錄和/或再現(xiàn)裝置的一例的概略結(jié)構(gòu)圖。圖2是關(guān)于在本發(fā)明的腳本數(shù)據(jù)生成方法中能夠采用的辭典準(zhǔn)備過(guò)程的一實(shí)施例的順序圖。圖3a是關(guān)于在圖2的辭典準(zhǔn)備過(guò)程中能夠采用的文本數(shù)據(jù)的一實(shí)施例的圖。圖3b是關(guān)于在圖2的辭典準(zhǔn)備過(guò)程中能夠采用的音頻數(shù)據(jù)的一實(shí)施例的圖。圖4是關(guān)于根據(jù)本發(fā)明的一實(shí)施例的腳本數(shù)據(jù)生成方法的順序圖。圖5a是關(guān)于在圖4的腳本數(shù)據(jù)生成方法中能夠采用的文本數(shù)據(jù)的一實(shí)施例的圖。圖5b是關(guān)于利用圖5a的文本數(shù)據(jù)而生成的本發(fā)明的腳本數(shù)據(jù)的一實(shí)施例的圖。圖6是關(guān)于在圖4的腳本數(shù)據(jù)生成方法中能夠采用的音頻數(shù)據(jù)的一實(shí)施例的圖。圖7a及圖7b是關(guān)于在圖4的腳本數(shù)據(jù)生成方法中能夠采用的發(fā)音辭典信息的一實(shí)施例的圖。圖8是用于說(shuō)明在圖4的腳本數(shù)據(jù)生成方法中預(yù)測(cè)及搜索與腳本數(shù)據(jù)的特定位置對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置的過(guò)程的圖。圖9是根據(jù)本發(fā)明的一實(shí)施例的腳本數(shù)據(jù)生成裝置的框圖。
具體實(shí)施例方式下面,參照附圖,對(duì)根據(jù)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說(shuō)明。圖1是能夠采用本發(fā)明的腳本數(shù)據(jù)生成方法的記錄和/或再現(xiàn)裝置的一例的概略結(jié)構(gòu)圖。參照?qǐng)D1,體現(xiàn)本發(fā)明的腳本數(shù)據(jù)生成方法的記錄和/或再現(xiàn)裝置是執(zhí)行音頻數(shù)據(jù)而輸出語(yǔ)音或者聲音,通過(guò)規(guī)定的程序用畫面能夠看到文本數(shù)據(jù)(140)的裝置。例如,記錄和/或再現(xiàn)裝置包括:具備顯示畫面且與揚(yáng)聲器(110)連接的計(jì)算機(jī)裝置(120);如智能手機(jī)這樣具備計(jì)算機(jī)功能的移動(dòng)終端(130);能夠記錄并再現(xiàn)多媒體文件,作為便攜式計(jì)算機(jī)的一種的個(gè)人便攜信息終端(PDA:Personal digital assistant);具備接觸面板畫面,與耳機(jī)或揚(yáng)聲器連接而輸出音頻數(shù)據(jù)的MP3播放器等音頻再現(xiàn)裝置。這樣的記錄和/或再現(xiàn)裝置(下面,簡(jiǎn)單稱為再現(xiàn)裝置)具備存儲(chǔ)介質(zhì)。在本實(shí)施例中,在再現(xiàn)裝置的存儲(chǔ)介質(zhì)中存儲(chǔ)有體現(xiàn)腳本數(shù)據(jù)生成方法的程序和用于執(zhí)行該程序的應(yīng)用。另外,在存儲(chǔ)介質(zhì)中存儲(chǔ)有用于體現(xiàn)根據(jù)本實(shí)施例的腳本數(shù)據(jù)生成方法的數(shù)據(jù)。例如,數(shù)據(jù)包括:音頻數(shù)據(jù)的實(shí)際聲音區(qū)間的時(shí)間信息;基于文本數(shù)據(jù)而獲得的針對(duì)聲音區(qū)間的全部音節(jié)數(shù)信息;與文本數(shù)據(jù)的一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間信息;與文本數(shù)據(jù)的各單詞或者句子對(duì)應(yīng)的聲音區(qū)間為止的區(qū)間音節(jié)數(shù)信息;以及基于區(qū)間音節(jié)數(shù)信息和單位音節(jié)時(shí)間信息而與特定單詞或者句子對(duì)應(yīng)的音頻數(shù)據(jù)的實(shí)際再現(xiàn)位置信息等。本實(shí)施例的再現(xiàn)裝置可利用于英語(yǔ)、日語(yǔ)、中文等的聽(tīng)取學(xué)習(xí)。就是說(shuō),本實(shí)施例的再現(xiàn)裝置在例如為了英語(yǔ)聽(tīng)取學(xué)習(xí)而存在語(yǔ)音文件(或者音頻數(shù)據(jù))和與此對(duì)應(yīng)的文字形式的腳本(或者文本數(shù)據(jù))的情況下,能夠具備對(duì)與腳本的各單詞、句子、或者文章對(duì)應(yīng)的聲音區(qū)間進(jìn)行匹配的算法或者與此相應(yīng)的程序。為了與下面的在本實(shí)施例的詳細(xì)說(shuō)明中所涉及的腳本數(shù)據(jù)區(qū)別開(kāi),將腳本稱為腳本原件或者文本數(shù)據(jù)。在此,文本數(shù)據(jù)或者腳本原件是指未記錄有根據(jù)本實(shí)施例的實(shí)際再現(xiàn)位置信息的以往的腳本。為了提供由所述的再現(xiàn)裝置而體現(xiàn)的算法或者腳本數(shù)據(jù),本發(fā)明人在由英語(yǔ)、日語(yǔ)、中文等的規(guī)定語(yǔ)言構(gòu)成的音頻數(shù)據(jù)和與此對(duì)應(yīng)的文字形式的腳本原件中,基于與腳本原件對(duì)應(yīng)的音節(jié)文字,掌握對(duì)音頻數(shù)據(jù)的聲音區(qū)間的音節(jié)數(shù),從而預(yù)測(cè)與腳本原件的特定文章或句子或者單詞對(duì)應(yīng)的音頻數(shù)據(jù)內(nèi)的再現(xiàn)位置,提供能夠?qū)⒛_本原件與音頻數(shù)據(jù)匹配的腳本數(shù)據(jù)生成方案。在腳本數(shù)據(jù)生成方案中,為了掌握針對(duì)音頻數(shù)據(jù)的聲音區(qū)間的音節(jié)數(shù),先進(jìn)行將腳本原件變換為音節(jié)文字或與此相應(yīng)的文字或者符號(hào)的辭典作業(yè)。在該情況下,音節(jié)文字或與此相應(yīng)的文字或者符號(hào)作為能夠?qū)⒛_本原件按照發(fā)音而文字化的語(yǔ)言的文字,包括日語(yǔ)的假名、韓語(yǔ)的韓文、塞浦路斯文字、美國(guó)印第安人的切羅基文字、或者作為在世界各國(guó)過(guò)去或現(xiàn)在曾經(jīng)使用或正在使用的語(yǔ)言的音節(jié)文字或至少具有音節(jié)文字的屬性的文字。在此,音節(jié)文字是指用一個(gè)字來(lái)表示聲音的一個(gè)音節(jié)的文字。在一實(shí)施例中,本發(fā)明人考慮到與英語(yǔ)不同地,韓文是具有音節(jié)文字的屬性的文字,對(duì)相當(dāng)于各個(gè)英語(yǔ)單詞的發(fā)音辭典化為韓文,由此預(yù)測(cè)腳本原件的英語(yǔ)單詞以何種程度的長(zhǎng)度發(fā)音,從語(yǔ)音文件中選擇與預(yù)測(cè)的長(zhǎng)度最合適的區(qū)間,從而提供能夠使得腳本原件與語(yǔ)音文件任意地匹配的腳本數(shù)據(jù)生成方法。在基于腳本原件而將針對(duì)英語(yǔ)腳本原件的各單詞或者句子的音節(jié)數(shù)用韓文音節(jié)來(lái)掌握的情況下,例如,在利用英語(yǔ)-韓文發(fā)音辭典的情況下,為了提高預(yù)測(cè)的準(zhǔn)確度,在韓文發(fā)音中利用長(zhǎng)音符號(hào)。另外,作為另一辭典作業(yè),先進(jìn)行將準(zhǔn)備好的語(yǔ)音文件分為與各個(gè)聽(tīng)取段落例如按照英語(yǔ)聽(tīng)取問(wèn)題而區(qū)分的各段落對(duì)應(yīng)的語(yǔ)音信息的作業(yè)。在此,將與各段落或者各段落的至少一個(gè)文章對(duì)應(yīng)的語(yǔ)音信息稱為音頻數(shù)據(jù)。進(jìn)行所述過(guò)程是為了在構(gòu)成為多個(gè)聽(tīng)取段落的語(yǔ)音文件以一個(gè)文件提供的情況下,防止以全部區(qū)間為對(duì)象進(jìn)行預(yù)測(cè)時(shí)所發(fā)生的誤差的擴(kuò)散,減少對(duì)主要在段落與段落之間插入的并非所希望的聲音區(qū)間的例如引導(dǎo)表述、電話鈴聲音、嘈雜聲音等聲音的壞影響。
如果對(duì)所述的辭典作業(yè)進(jìn)行更加具體的說(shuō)明,則正如圖2所示。圖2是關(guān)于在本發(fā)明的腳本數(shù)據(jù)生成方法中能夠采用的辭典準(zhǔn)備過(guò)程的一實(shí)施例的順序圖。在下面的詳細(xì)說(shuō)明中,以作為預(yù)測(cè)對(duì)腳本原件的單詞或句子的音節(jié)數(shù)的手段而利用具有音節(jié)文字的屬性的韓文的情況為例進(jìn)行說(shuō)明。參照?qǐng)D2,首先在體現(xiàn)根據(jù)本發(fā)明的一實(shí)施例的腳本數(shù)據(jù)生成方法的再現(xiàn)裝置中輸入文字形式的腳本原件(S210)。腳本原件可以是與圖3a圖示的試卷對(duì)應(yīng)的文本數(shù)據(jù)(參照?qǐng)D5a)。然后,掌握聽(tīng)取段落(問(wèn)題)的數(shù)量(S215)。聽(tīng)取段落的數(shù)量是根據(jù)位于腳本原件的相鄰文本段落彼此之間的空線或在語(yǔ)音文件的相鄰段落彼此之間插入的相對(duì)長(zhǎng)的停滯區(qū)間而掌握的。然后,判斷語(yǔ)音文件是否按照段落而提供(S220 )。如果在本步驟(S220 )中的判斷結(jié)果為語(yǔ)音文件并未按照段落而提供,則將語(yǔ)音文件輸入到規(guī)定裝置例如體現(xiàn)本實(shí)施例的腳本數(shù)據(jù)生成方法的辭典作業(yè)的裝置,以使對(duì)于具備多個(gè)段落的語(yǔ)音文件能夠進(jìn)行下面的規(guī)定作業(yè)(S225)。然后,以基于語(yǔ)音文件的時(shí)間的振幅信息為基礎(chǔ),提取不出聲音的停滯區(qū)間(S230)。然后,將停滯區(qū)間按照長(zhǎng)度例如針對(duì)時(shí)間的區(qū)間長(zhǎng)度以降序排列(S235)。當(dāng)排列停滯區(qū)間時(shí),段落與段落之間的長(zhǎng)停滯區(qū)間相比于段落或者文章內(nèi)的相對(duì)短的停滯區(qū)間具備相對(duì)大的值即優(yōu)先級(jí),因此由此能夠容易掌握聽(tīng)取段落(問(wèn)題)的數(shù)量。然后,選擇與聽(tīng)取段落數(shù)量相應(yīng)的區(qū)間,將一個(gè)語(yǔ)音文件按照段落而進(jìn)行分離(S240)。本步驟的目的是,基于相對(duì)清楚地區(qū)分的長(zhǎng)停滯區(qū)間的數(shù)量而掌握聽(tīng)取段落的數(shù)量,按照段落準(zhǔn)備與此對(duì)應(yīng)的語(yǔ)音信息。然后,判斷各語(yǔ)音信息是否與實(shí)際語(yǔ)音文件的各段落一致(S245)。在本步驟(S245)中進(jìn)行判斷的結(jié)果,如果各語(yǔ)音信息與實(shí)際語(yǔ)音文件的各段落一致,則完成與語(yǔ)音文件的各聽(tīng)取段落相應(yīng)的語(yǔ)音信息的準(zhǔn)備(S250)。準(zhǔn)備的語(yǔ)音信息存儲(chǔ)于再現(xiàn)裝置的規(guī)定的存儲(chǔ)器或存儲(chǔ)裝置。另一方面,在上述步驟(S245)中進(jìn)行判斷的結(jié)果,如果各語(yǔ)音信息與實(shí)際語(yǔ)音文件的各段落彼此不一致,則進(jìn)行針對(duì)語(yǔ)音信息的修正作業(yè)(S255)。各語(yǔ)音信息與實(shí)際語(yǔ)音文件的各段落彼此不一致的情況主要是語(yǔ)音文件包括與腳本無(wú)關(guān)的引導(dǎo)表述或音響效果等的情況,在這樣的情況下,使用者可以進(jìn)行使得與腳本無(wú)關(guān)的聲音區(qū)間在匹配過(guò)程中通過(guò)或排除的處理??梢酝ㄟ^(guò)搭載于再現(xiàn)裝置的音頻編輯程序的用戶接口而進(jìn)行修正作業(yè)。當(dāng)通過(guò)修正作業(yè)使得各語(yǔ)音信息與實(shí)際腳本段落一致時(shí),完成與各聽(tīng)取段落(問(wèn)題)相應(yīng)的語(yǔ)音信息的準(zhǔn)備(S250)。另一方面,在上述步驟(S220)中進(jìn)行判斷的結(jié)果,如果按照段落提供語(yǔ)音文件,則輸入按照段落所提供的各個(gè)語(yǔ)音文件(S260 )。根據(jù)本步驟(S260 ),存在按照段落提供的各個(gè)語(yǔ)音文件,因此在腳本中選擇規(guī)定段落(問(wèn)題)時(shí)移動(dòng)到與此對(duì)應(yīng)的語(yǔ)音文件,由此在無(wú)需生成按照段落的語(yǔ)音信息的情況下能夠完成本辭典作業(yè)。圖3a是關(guān)于在圖2的辭典準(zhǔn)備過(guò)程中可采用的文本數(shù)據(jù)的一實(shí)施例的圖。圖3b是關(guān)于在圖2的辭典準(zhǔn)備過(guò)程中可采用的音頻數(shù)據(jù)的一實(shí)施例的圖。
如圖3a所示,用于體現(xiàn)根據(jù)本實(shí)施例的腳本數(shù)據(jù)生成方法的辭典準(zhǔn)備作業(yè)可適用于關(guān)于“2011學(xué)年度大學(xué)修習(xí)能力考試模擬評(píng)價(jià)試題外語(yǔ)(英語(yǔ))領(lǐng)域”的試卷(300)或者與此對(duì)應(yīng)的腳本原件。例如,準(zhǔn)備成當(dāng)用鼠標(biāo)或接觸面板等輸入裝置選擇第二題(320)前所示的方框標(biāo)記(322)時(shí),再現(xiàn)與此對(duì)應(yīng)的音頻數(shù)據(jù)的聲音區(qū)間。關(guān)于試卷(300)的第二至第七(在此,第三至第六是為了方便圖示而進(jìn)行了省略)的各聽(tīng)取段落的語(yǔ)音信息如圖3b所示。例如,在圖3a及圖3b中,試卷(300)的第二題至第七題對(duì)應(yīng)于包括各段落的語(yǔ)音信息的語(yǔ)音文件(380)的六個(gè)聲音區(qū)間(P2至P7)的各個(gè)區(qū)間。根據(jù)本實(shí)施例,在一個(gè)語(yǔ)音文件內(nèi)存在多個(gè)按照聽(tīng)取段落的語(yǔ)音信息的情況下,根據(jù)基于語(yǔ)音文件的時(shí)間的振幅信息而提取停滯區(qū)間(在此,包括停滯區(qū)間SI至S6),并基于提取的停滯區(qū)間,將與第二題至第七題對(duì)應(yīng)的六個(gè)聽(tīng)取段落(P2至P7)按照段落而區(qū)分或者分離,準(zhǔn)備按照段落的語(yǔ)音信息。圖4是關(guān)于根據(jù)本發(fā)明的一實(shí)施例的腳本數(shù)據(jù)生成方法的順序圖。參照?qǐng)D4,在本實(shí)施例的腳本數(shù)據(jù)生成方法中,首先選擇在語(yǔ)音文件中進(jìn)行作業(yè)的語(yǔ)音信息(S410)。在本步驟(S410)中,語(yǔ)音信息可以是對(duì)包括多個(gè)聽(tīng)取段落的語(yǔ)音文件,通過(guò)圖2所示的方式包括針對(duì)辭典作業(yè)后的特定段落的語(yǔ)音信息或一個(gè)聽(tīng)取段落的語(yǔ)音文件。包括一個(gè)段落的語(yǔ)音信息或者一個(gè)語(yǔ)音信息的語(yǔ)音文件對(duì)應(yīng)于音頻數(shù)據(jù)。然后,在所選擇的音頻數(shù)據(jù)中基于振幅信息而掌握發(fā)生實(shí)際聲音的聲音區(qū)間的全部時(shí)間(S415)。本步驟的目的是為了掌握從相應(yīng)段落例如與聽(tīng)取學(xué)習(xí)的一個(gè)問(wèn)題區(qū)間對(duì)應(yīng)的段落的語(yǔ)音信息中除去停滯區(qū)間而實(shí)際發(fā)生聲音的全部聲音區(qū)間[參照?qǐng)D6的(b)中白色波形區(qū)間]的時(shí)間?;谡穹畔⒍鴮⒙曇魠^(qū)間與停滯區(qū)間區(qū)分包括將規(guī)定的基準(zhǔn)振幅以上作為聲音區(qū)間而獲得的情況。例如,將最高的聲音設(shè)為100%時(shí),可以用具有3%、5%、或者7%以下的大小的聲音來(lái)判斷停滯區(qū)間。然后,基于音頻數(shù)據(jù)的相應(yīng)腳本原件而掌握聲音區(qū)間的全部音節(jié)數(shù)(S420 )。在本步驟(S420)中,可以掌握針對(duì)例如腳本原件內(nèi)的英語(yǔ)單詞的韓文音節(jié)而求出聲音區(qū)間的全部音節(jié)數(shù)。由于韓文具有音節(jié)文字的屬性,因此韓文音節(jié)可作為說(shuō)者和聽(tīng)者考慮一致的發(fā)話單位而利用。另外,在本步驟(S420)中,在一實(shí)施例中可以基于記錄有與英語(yǔ)單詞對(duì)應(yīng)的韓文音節(jié)的英語(yǔ)-韓文發(fā)音辭典信息而掌握聲音區(qū)間的全部音節(jié)數(shù)。英語(yǔ)-韓文發(fā)音辭典信息可包括圖7a所示的發(fā)音辭典信息。然后,將在上述步驟(S415)中獲得的全部時(shí)間(下面,稱為A)除以在上述的另一步驟(S420)中獲得的全部音節(jié)數(shù)(下面,稱為B)而運(yùn)算與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間(下面,稱為C)(S425)。將在本步驟中求出的單位音節(jié)時(shí)間用數(shù)學(xué)式表示時(shí),如下面的數(shù)學(xué)式I所示。[數(shù)學(xué)式I]C=A/B然后,掌握特定的或者需要預(yù)測(cè)的單詞或者句子之前的聲音區(qū)間所占的音節(jié)數(shù)(S430)。在此,為了將所掌握的音節(jié)數(shù)和全部音節(jié)數(shù)區(qū)分開(kāi)而稱為區(qū)間音節(jié)數(shù)。
然后,將區(qū)間音節(jié)數(shù)和單位音節(jié)時(shí)間(C)相乘而預(yù)測(cè)相應(yīng)單詞或者句子之前的聲音區(qū)間所占的時(shí)間(S435)。在本步驟(S435)中,預(yù)測(cè)的單詞或者句子之前的聲音區(qū)間所占的時(shí)間與針對(duì)相應(yīng)單詞或者句子的預(yù)測(cè)再現(xiàn)位置對(duì)應(yīng)。然后,將音頻數(shù)據(jù)的各聲音區(qū)間以時(shí)間為基準(zhǔn)從前至后依次逐一相加,直到到達(dá)針對(duì)相應(yīng)單詞或者句子的預(yù)測(cè)再現(xiàn)位置(S440)。然后,判斷從上述的步驟(S440)中獲得的聲音區(qū)間之和是否與預(yù)測(cè)再現(xiàn)位置信息的預(yù)測(cè)再現(xiàn)位置一致(S445)。在本步驟(S445)中進(jìn)行判斷的結(jié)果,如果不一致,則返回到之前步驟(S440),將之后的聲音區(qū)間相加之后,判斷聲音區(qū)間之和是否與預(yù)測(cè)再現(xiàn)位置一致(S445)。所述兩個(gè)步驟(S440,S445)重復(fù)執(zhí)行到聲音區(qū)間之和與預(yù)測(cè)再現(xiàn)位置實(shí)質(zhì)性地—致。然后,在所述步驟(S445)中進(jìn)行判斷的結(jié)果,如果聲音區(qū)間之和與預(yù)測(cè)再現(xiàn)位置一致,則搜索與預(yù)測(cè)再現(xiàn)位置最鄰近的停滯區(qū)間,將所搜索的最鄰近的停滯區(qū)間作為針對(duì)相應(yīng)單詞或者句子的實(shí)際再現(xiàn)位置而進(jìn)行存儲(chǔ)(S450)??梢酝ㄟ^(guò)以下方式來(lái)搜索與預(yù)測(cè)再現(xiàn)位置最鄰近的停滯區(qū)間:按時(shí)間順序?qū)⒁纛l數(shù)據(jù)的聲音區(qū)間和停滯區(qū)間依次逐一相加而提取包括預(yù)測(cè)再現(xiàn)位置的聲音區(qū)間,分別比較位于所提取的聲音區(qū)間的兩側(cè)的兩個(gè)停滯區(qū)間與預(yù)測(cè)再現(xiàn)位置之間的距離。在此,到音頻數(shù)據(jù)的預(yù)測(cè)再現(xiàn)位置為止的聲音區(qū)間的時(shí)間之和與預(yù)測(cè)再現(xiàn)位置的時(shí)間一致。即,其表示根據(jù)本實(shí)施例的方法能夠排除由音頻數(shù)據(jù)內(nèi)的停滯區(qū)間帶來(lái)的誤差。實(shí)際再現(xiàn)位置可以是停滯區(qū)間內(nèi)的規(guī)定位置例如相應(yīng)停滯區(qū)間的開(kāi)始時(shí)間、中間時(shí)間、或者結(jié)束時(shí)間。 然后,判斷是否完成對(duì)音頻數(shù)據(jù)內(nèi)的所有文章的處理(S455 )。在本步驟(S455 )中進(jìn)行判斷的結(jié)果,如果對(duì)所有文章的所述預(yù)測(cè)及搜索未結(jié)束,則返回到特定步驟(S430),選擇音頻數(shù)據(jù)內(nèi)的下一個(gè)單詞或者句子之后,獲得需要預(yù)測(cè)的下一個(gè)單詞或者句子之前的聲音區(qū)間所占的區(qū)間音節(jié)數(shù),基于該區(qū)間音節(jié)數(shù)和單位音節(jié)時(shí)間信息而預(yù)測(cè)相應(yīng)聲音區(qū)間的再現(xiàn)位置,進(jìn)行搜索實(shí)際再現(xiàn)位置的之后過(guò)程。然后,在所述步驟(S455)中進(jìn)行判斷的結(jié)果,如果對(duì)所有文章的處理已結(jié)束,則對(duì)于剩余音頻數(shù)據(jù)即剩余段落的語(yǔ)音信息判斷根據(jù)所述過(guò)程的預(yù)測(cè)及搜索是否完成(S460)。在上述步驟(S460)中進(jìn)行判斷的結(jié)果,如果對(duì)所有音頻數(shù)據(jù)的處理未結(jié)束,則返回到特定步驟(S410),選擇與作業(yè)進(jìn)行中的語(yǔ)音文件內(nèi)的下一個(gè)段落對(duì)應(yīng)的語(yǔ)音信息即下一個(gè)音頻數(shù)據(jù),對(duì)于下一個(gè)音頻數(shù)據(jù)進(jìn)行特定步驟之后的過(guò)程。本過(guò)程進(jìn)行到對(duì)所有音頻數(shù)據(jù)的處理結(jié)束為止。并且,在上述步驟(S460)中進(jìn)行判斷的結(jié)果,如果對(duì)所有音頻數(shù)據(jù)的處理結(jié)束,則完成對(duì)于相應(yīng)語(yǔ)音文件及其腳本原件的匹配(S465)。當(dāng)匹配結(jié)束時(shí),針對(duì)文本數(shù)據(jù)的各段落、各文章、或者各單詞的相應(yīng)再現(xiàn)位置信息能夠存儲(chǔ)到文本數(shù)據(jù)中,由此能夠生成根據(jù)本實(shí)施例的腳本數(shù)據(jù)。下面,對(duì)于本實(shí)施例的語(yǔ)音文件和與此對(duì)應(yīng)的腳本原件的匹配過(guò)程,以語(yǔ)音文件內(nèi)的特定音頻數(shù)據(jù)[參照?qǐng)D6的(b)]和與此對(duì)應(yīng)的腳本原件(參照?qǐng)D5a)的匹配過(guò)程為例進(jìn)行說(shuō)明。圖5a是關(guān)于在圖4的腳本數(shù)據(jù)生成方法中可采用的文本數(shù)據(jù)的一實(shí)施例的圖。圖5b是關(guān)于利用圖5a的文本數(shù)據(jù)而生成的本發(fā)明的腳本數(shù)據(jù)的一實(shí)施例的圖。圖6是關(guān)于在圖4的腳本數(shù)據(jù)生成方法中可采用的音頻數(shù)據(jù)的一實(shí)施例的圖。圖7a及圖7b是關(guān)于在圖4的腳本數(shù)據(jù)生成方法中可采用的發(fā)音辭典信息的一實(shí)施例的圖。參照?qǐng)D5a,文本數(shù)據(jù)(500)是圖3a所圖示的“2011學(xué)年度大學(xué)修習(xí)能力考試模擬評(píng)價(jià)試題外語(yǔ)(英語(yǔ))領(lǐng)域”試卷中與問(wèn)題二對(duì)應(yīng)的腳本原件。為了關(guān)于這樣的腳本原件(500)的所希望的文章、句子、或者單詞重新聽(tīng)到與此對(duì)應(yīng)的語(yǔ)音文件內(nèi)的聲音區(qū)間,存在使用者需要親自搜索語(yǔ)音文件內(nèi)的相應(yīng)聲音區(qū)間的難題。但是,根據(jù)圖5b所示的本實(shí)施例的腳本數(shù)據(jù)(500a),能夠根據(jù)針對(duì)聽(tīng)取段落內(nèi)的文章的再現(xiàn)位置信息(530)、或者針對(duì)單詞的再現(xiàn)位置信息(540)而移動(dòng)到語(yǔ)音文件內(nèi)的對(duì)應(yīng)位置,從而直接再現(xiàn)相應(yīng)聲音區(qū)間。在上述兩個(gè)再現(xiàn)位置信息(530、540)中至少任一個(gè)以基于超級(jí)文本傳送協(xié)議方式的鏈接信息形態(tài)具備在腳本數(shù)據(jù)中,以使在實(shí)際腳本數(shù)據(jù)(500a)上看不到。例如,如圖6所示,為了預(yù)測(cè)包括對(duì)多個(gè)聽(tīng)取段落的語(yǔ)音信息(610、611、612、613、614,615)的語(yǔ)音文件(601)中與特定段落的語(yǔ)音信息例如第一個(gè)語(yǔ)音信息(610)內(nèi)的特定聲音區(qū)間的音頻數(shù)據(jù)(620)對(duì)應(yīng)的腳本文章(參照?qǐng)D5b的550)或者針對(duì)該文章內(nèi)的單詞或句子的聲音區(qū)間,首先掌握針對(duì)相應(yīng)文章(550)的音頻數(shù)據(jù)(620)的實(shí)際聲音區(qū)間的全部時(shí)間。在本實(shí)施例中,要進(jìn)行作業(yè)的音頻數(shù)據(jù)(620)的全部長(zhǎng)度約為1.952秒,停滯區(qū)間(632,634)為約從0.623秒到約0.646秒和從約1.413秒到約1.439秒,因此實(shí)際聲音區(qū)間的全部時(shí)間是從音頻數(shù)據(jù)(620) 的全部時(shí)間約1.952秒中減去停滯區(qū)間的全部時(shí)間約
0.049秒后的約1.903秒。然后,求出針對(duì)所述文章(550)的全部音節(jié)數(shù)。本實(shí)施例的英語(yǔ)文章(550) “Howdo you like your new job, Chelsea ”的音節(jié)數(shù)是可以參照表音文字,更具體地,參照音節(jié)文字的發(fā)音辭典信息而獲得,在本實(shí)施例中,如圖7a及圖7b所示,可以將記錄了針對(duì)所述文章(550)的韓文音節(jié)的盤(710)或記錄了針對(duì)所述文章(550)的日語(yǔ)的假名音節(jié)的表(720)作為發(fā)音辭典信息而進(jìn)行利用。在本實(shí)施例中,所述文章(550)的音節(jié)數(shù)為16.5。然后,求出與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間。在本實(shí)施例中,單位音節(jié)時(shí)間為將約
1.903秒除以16.5得到的值即約0.115333秒。然后,求出針對(duì)想要預(yù)測(cè)的句子或者單詞的區(qū)間音節(jié)數(shù)。并且,將區(qū)間音節(jié)數(shù)和單位音節(jié)時(shí)間相乘而求出預(yù)測(cè)再現(xiàn)位置,然后搜索與預(yù)測(cè)再現(xiàn)位置最鄰近的停滯區(qū)間,從而獲得對(duì)該句子或者單詞的實(shí)際再現(xiàn)位置信息。另一方面,在圖5b的腳本原件中求出音節(jié)數(shù)時(shí),優(yōu)先為,將韓文表述,“Μ: ”及“W:”這樣的特定表示字等省略或者排除。當(dāng)然,更優(yōu)先為,在腳本原件中不包括所述韓文表述和特定表示字。下面,參照?qǐng)D8,對(duì)所述的再現(xiàn)位置的預(yù)測(cè)及搜索過(guò)程進(jìn)行進(jìn)一步的詳細(xì)說(shuō)明。圖8是用于說(shuō)明在圖4的腳本數(shù)據(jù)生成方法中預(yù)測(cè)及搜索與腳本數(shù)據(jù)的特定位置對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置的過(guò)程的圖。首先,假設(shè)存在如圖8的(a)所示的音頻數(shù)據(jù)(620)。如下面記載,音頻數(shù)據(jù)(620)具備與規(guī)定文章(參照?qǐng)D5b的550)對(duì)應(yīng)的聲音區(qū)間?!癏ow do you like your new job, Chelsea ”并且,假設(shè)要預(yù)測(cè)的單詞是“Chelsea ”。那么,從現(xiàn)在開(kāi)始對(duì)預(yù)測(cè)并搜索與所述單詞“Chelsea ”對(duì)應(yīng)的音頻數(shù)據(jù)的聲音區(qū)間的過(guò)程的一實(shí)施例進(jìn)行詳細(xì)說(shuō)明。在本實(shí)施例中,音頻數(shù)據(jù)(620)具備三個(gè)聲音區(qū)間(810、820、830)和兩個(gè)停滯區(qū)間(632、634)。第一個(gè)聲音區(qū)間(810)與所述文章(550)的第一個(gè)句子“How do you like”對(duì)應(yīng),第二個(gè)聲音區(qū)間(820)與所述文章(550)的第二個(gè)句子“your new job”對(duì)應(yīng),并且第三個(gè)聲音區(qū)間(830)與所述文章(550)的第三個(gè)句子“Chelsea ”對(duì)應(yīng)。首先,掌握針對(duì)音頻數(shù)據(jù)(620)的聲音區(qū)間的全部時(shí)間。全部時(shí)間是三個(gè)聲音區(qū)間(810、820、830)的時(shí)間之和。在本實(shí)施例中,第一個(gè)聲音區(qū)間(810)是O到約0.623秒為止,第二個(gè)聲音區(qū)間(820)是從約0.646秒到約1.413秒為止,并且第三個(gè)聲音區(qū)間(830)是從約1.439秒到約1.9 52秒。由此,聲音區(qū)間的全部時(shí)間為約1.903秒。然后,基于所述文章(550 )而掌握針對(duì)音頻數(shù)據(jù)(620 )的聲音區(qū)間的全部音節(jié)數(shù)。例如可以利用韓文音節(jié)如下述這樣求出全部音節(jié)數(shù)(參照?qǐng)D7a)?!啊?■罕早πΒΙ 0| 3異 0 期巨人丨-,,(“ Howdoyoulikeyournew job,Chelsea ”的韓文發(fā)音標(biāo)記)在上述的韓文音節(jié)中如果假設(shè)長(zhǎng)音符號(hào)(_)相當(dāng)于0.5音節(jié),則在本實(shí)施例中針對(duì)音頻數(shù)據(jù)或者該文章(550)的全部音節(jié)數(shù)是16.5音節(jié)。然后,計(jì)算音頻數(shù)據(jù)(620)的I音節(jié)發(fā)音時(shí)所需的時(shí)間。在本實(shí)施例中,對(duì)I音節(jié)發(fā)音時(shí)所需的時(shí)間進(jìn)行計(jì)算時(shí),其為將聲音區(qū)間的全部時(shí)間除以全部音節(jié)數(shù)的值。即,1.903 秒 /16.5 音節(jié)=0.115333 秒 / 音節(jié)然后,掌握想要預(yù)測(cè)的單詞為止的聲音區(qū)間所占的區(qū)間音節(jié)數(shù)。在本實(shí)施例中,到所述單詞“Chelsea ”為止的聲音區(qū)間包括第一個(gè)聲音區(qū)間(810)和第二個(gè)聲音區(qū)間(820 )。因此,對(duì)該兩個(gè)聲音區(qū)間的音節(jié)數(shù)和其長(zhǎng)度掌握如下。作為第一個(gè)句子的“Howdoyoulike”是韓文音節(jié)的7音節(jié),對(duì)與該句子相應(yīng)的聲音區(qū)間的時(shí)間進(jìn)行預(yù)測(cè)則如下:7 音節(jié) X0.115333 秒 / 音節(jié)=0.807331 秒并且,作為第二個(gè)句子的“yournewjob”是韓文音節(jié)的6音節(jié),對(duì)與該句子相應(yīng)的聲音區(qū)間的時(shí)間進(jìn)行預(yù)測(cè)則如下:6 音節(jié) X0.115333 秒 / 音節(jié)=0.691998 秒這表不與第一個(gè)句子和第二個(gè)句子相應(yīng)的聲音區(qū)間之和占與約1.499329秒相應(yīng)的聲音區(qū)間。在本實(shí)施例中,預(yù)測(cè)的時(shí)間與預(yù)測(cè)再現(xiàn)位置對(duì)應(yīng),因此預(yù)測(cè)再現(xiàn)位置為約1.499329。然后,對(duì)于音頻數(shù)據(jù)(620)的語(yǔ)音波形,依次分析從開(kāi)始時(shí)點(diǎn)到各個(gè)停滯區(qū)間(632 ;634)為止的聲音區(qū)間的長(zhǎng)度。在此,分析進(jìn)行到發(fā)現(xiàn)聲音區(qū)間的長(zhǎng)度通過(guò)上述的過(guò)程與預(yù)測(cè)的時(shí)間即預(yù)測(cè)再現(xiàn)位置最接近的停滯區(qū)間為止。S卩,如圖8的(b)及(C)所示,在所述文章(550)的音頻數(shù)據(jù)(620)中,到第一個(gè)停滯區(qū)間(632)為止的聲音區(qū)間(810)的長(zhǎng)度為約0.623秒。到第二個(gè)停滯區(qū)間(634)為止的聲音區(qū)間(810,820)的長(zhǎng)度為約1.412秒。并且,到第三個(gè)停滯區(qū)間(未圖示)為止的聲音區(qū)間(810、820、830)的長(zhǎng)度為約1.925秒。因此,對(duì)第二個(gè)停滯區(qū)間(634)和第三個(gè)停滯區(qū)間進(jìn)行比較時(shí),最靠近預(yù)測(cè)再現(xiàn)位置的停滯區(qū)間是第二個(gè)停滯區(qū)間(634)。即,位于與作為預(yù)測(cè)再現(xiàn)位置的聲音區(qū)間的約1.499329秒最鄰近的位置的第二個(gè)停滯區(qū)間作為與所述單詞“Chelsea ”對(duì)應(yīng)的實(shí)際再現(xiàn)位置而進(jìn)行存儲(chǔ)。在此,實(shí)際再現(xiàn)位置可以選擇在作為第二個(gè)停滯區(qū)間的約1.413秒到約
1.439秒內(nèi)的任意時(shí)間或者位置。所搜索的實(shí)際再現(xiàn)位置以超級(jí)鏈接形態(tài)與該單詞、句子、或者文章結(jié)合而存儲(chǔ)到腳本原件。根據(jù)上述結(jié)構(gòu),能夠從音頻數(shù)據(jù)內(nèi)容易且準(zhǔn)確地查找與腳本原件的“Chelsea ”這一單詞對(duì)應(yīng)的聲音區(qū)間,將這樣的方式的分析過(guò)程應(yīng)用到腳本原件全部的單詞、句子、或者文章時(shí),能夠容易進(jìn)行腳本原件全部與語(yǔ)音文件之間的匹配,由此將對(duì)音頻數(shù)據(jù)的各單詞、句子、或者文章的匹配信息即再現(xiàn)位置信息插入腳本原件而生成根據(jù)本實(shí)施例的腳本數(shù)據(jù)。所生成的腳本數(shù)據(jù)不僅可以作為與音頻數(shù)據(jù)對(duì)應(yīng)的腳本數(shù)據(jù)本身而利用,而且也可以搭載或結(jié)合到存儲(chǔ)有音頻數(shù)據(jù)或者腳本數(shù)據(jù)的可作為計(jì)算機(jī)執(zhí)行的存儲(chǔ)介質(zhì)或執(zhí)行其存儲(chǔ)介質(zhì)的再現(xiàn)和/或記錄裝置的程序應(yīng)用而利用。另一方面,在上述詳細(xì)說(shuō)明中,圖7a及圖7b的發(fā)音辭典信息僅用于對(duì)本發(fā)明的一實(shí)施例進(jìn)行說(shuō)明,并不是對(duì)本發(fā)明進(jìn)行限制 。圖9是關(guān)于根據(jù)本發(fā)明的一實(shí)施例的腳本數(shù)據(jù)生成裝置的框圖。參照?qǐng)D9,本實(shí)施例的腳本數(shù)據(jù)生成裝置(900)是用于基于音頻數(shù)據(jù)和將該音頻數(shù)據(jù)的內(nèi)容用文字形式記載的文本數(shù)據(jù)而生成具備與文本數(shù)據(jù)的單詞、句子、或者文章對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置信息的腳本數(shù)據(jù)的裝置。在一實(shí)施例中,腳本數(shù)據(jù)生成裝置(900)具備微處理器(910)和存儲(chǔ)裝置(920),微處理器(910)根據(jù)存儲(chǔ)于存儲(chǔ)裝置(920)的程序和/或應(yīng)用而執(zhí)行腳本數(shù)據(jù)生成過(guò)程。這樣的腳本數(shù)據(jù)生成裝置(900)具備微處理器(910)或者根據(jù)由微處理器(910)執(zhí)行的程序應(yīng)用而進(jìn)行動(dòng)作的功能部例如振幅比較部(930)、音節(jié)數(shù)提取部(940)、單位時(shí)間運(yùn)算部(950 )、再現(xiàn)位置預(yù)測(cè)部(960 )、及再現(xiàn)位置搜索部(970 )。振幅比較部(930)獲取語(yǔ)音信息或者音頻數(shù)據(jù)的實(shí)際聲音區(qū)間的全部時(shí)間信息。在一實(shí)施例中,振幅比較部(930)基于根據(jù)音頻數(shù)據(jù)的時(shí)間的振幅信息而提取實(shí)際聲音區(qū)間,從所提取的各聲音區(qū)間獲得全部時(shí)間信息。在另一實(shí)施例中,振幅比較部(930)根據(jù)基于音頻數(shù)據(jù)的時(shí)間的振幅信息而提取音頻數(shù)據(jù)內(nèi)的停滯區(qū)間,從所提取的停滯區(qū)間獲得停滯區(qū)間的全部時(shí)間信息,基于從音頻數(shù)據(jù)的全部時(shí)間減去停滯區(qū)間的全部時(shí)間的時(shí)間信息而運(yùn)算聲音區(qū)間的全部時(shí)間信息。音節(jié)數(shù)提取部(940 )基于與腳本原件或者文本數(shù)據(jù)的文字對(duì)應(yīng)的音節(jié)文字信息獲得對(duì)聲音區(qū)間的全部音節(jié)數(shù)信息。在一實(shí)施例中,音節(jié)數(shù)提取部(940 )基于用音節(jié)文字標(biāo)記文本數(shù)據(jù)的發(fā)音辭典信息而獲得針對(duì)文本數(shù)據(jù)的單詞或者句子的音節(jié)數(shù)。音節(jié)文字可以包括能夠用音節(jié)單位記錄音頻數(shù)據(jù)內(nèi)的各單詞的日語(yǔ)或者具有這樣的音節(jié)文字的屬性的韓語(yǔ)等。單位時(shí)間運(yùn)算部(950)基于從振幅比較部(930)獲得的發(fā)生區(qū)間的時(shí)間信息和從音節(jié)數(shù)提取部(940)獲得的全部音節(jié)數(shù)量信息而運(yùn)算對(duì)應(yīng)于一個(gè)音節(jié)的單位音節(jié)時(shí)間信肩、O再現(xiàn)位置預(yù)測(cè)部(960)從振幅比較部(930)和音節(jié)數(shù)提取部(940)獲得各文章或者需要預(yù)測(cè)的單詞、句子、或者文章的之前聲音區(qū)間為止所占的區(qū)間音節(jié)數(shù)信息和單位音節(jié)時(shí)間信息,基于這樣的信息而獲得與該單詞、句子、或者文章對(duì)應(yīng)的音頻數(shù)據(jù)的聲音區(qū)間的長(zhǎng)度即預(yù)測(cè)再現(xiàn)位置信息。再現(xiàn)位置搜索部(970)基于從再現(xiàn)位置預(yù)測(cè)部(960)獲得的預(yù)測(cè)再現(xiàn)位置,從位于預(yù)測(cè)再現(xiàn)位置的之前或者之后的音頻數(shù)據(jù)的停滯區(qū)間中,將與預(yù)測(cè)再現(xiàn)位置最鄰近的停滯區(qū)間決定為實(shí)際再現(xiàn)位置信息。本實(shí)施例的腳本數(shù)據(jù)生成裝置(900)以應(yīng)用形態(tài)搭載于圖1圖示的記錄和/或再現(xiàn)裝置而生成所述的腳本數(shù)據(jù)。以上,參照優(yōu)先實(shí)施例對(duì)本發(fā)明進(jìn)行了說(shuō)明,但本發(fā)明不限于所述的實(shí)施例,本領(lǐng)域技術(shù)人員從這樣的記載可進(jìn)行各種修正及變形。因此,本發(fā)明應(yīng)該參照所附的權(quán)利要求書(shū)及附圖等的全部記載而進(jìn)行解釋,而這樣的均等或者等價(jià)變形應(yīng)該全部屬于本發(fā)明的思想范圍內(nèi)。
權(quán)利要求
1.一種腳本數(shù)據(jù)生成方法,基于音頻數(shù)據(jù)和記載有所述音頻數(shù)據(jù)的內(nèi)容的文本數(shù)據(jù)而生成腳本數(shù)據(jù),該腳本數(shù)據(jù)具有與所述文本數(shù)據(jù)的單詞或者句子對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置信息,該腳本數(shù)據(jù)生成方法包括: 第一步驟,獲得針對(duì)所述音頻數(shù)據(jù)的聲音區(qū)間的全部時(shí)間信息; 第二步驟,基于所述文本數(shù)據(jù)獲得針對(duì)所述聲音區(qū)間的全部音節(jié)數(shù)信息; 第三步驟,基于所述全 部時(shí)間信息和所述全部音節(jié)數(shù)信息運(yùn)算與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間信息; 第四步驟,掌握所述文本數(shù)據(jù)中需要預(yù)測(cè)的單詞或者句子之前的至少一個(gè)聲音區(qū)間所占的區(qū)間音節(jié)數(shù)信息; 第五步驟,基于所述區(qū)間音節(jié)數(shù)信息和所述單位音節(jié)時(shí)間信息,獲得針對(duì)所述音頻數(shù)據(jù)中需要所述預(yù)測(cè)的單詞或者句子的預(yù)測(cè)再現(xiàn)位置信息; 第六步驟,對(duì)將所述音頻數(shù)據(jù)的各聲音區(qū)間的時(shí)間信息依次相加得到的值與所述預(yù)測(cè)再現(xiàn)位置信息進(jìn)行比較;以及 第七步驟,在將所述各聲音區(qū)間的時(shí)間信息依次相加得到的值與所述預(yù)測(cè)再現(xiàn)位置信息一致時(shí),將與所述預(yù)測(cè)再現(xiàn)位置信息最鄰近的停滯區(qū)間內(nèi)的規(guī)定位置作為針對(duì)需要所述預(yù)測(cè)的單詞或者句子的實(shí)際再現(xiàn)位置而存儲(chǔ)到所述文本數(shù)據(jù)中。
2.根據(jù)權(quán)利要求1所述的腳本數(shù)據(jù)生成方法,其中,所述第一步驟包括如下步驟:根據(jù)振幅信息提取針對(duì)各聲音區(qū)間的時(shí)間信息,其中,該振幅信息是基于所述音頻數(shù)據(jù)的時(shí)間的振幅信息。
3.根據(jù)權(quán)利要求1所述的腳本數(shù)據(jù)生成方法,其中,所述第一步驟包括如下步驟:根據(jù)振幅信息提取所述音頻數(shù)據(jù)內(nèi)的停滯區(qū)間,其中,該振幅信息是基于所述音頻數(shù)據(jù)的時(shí)間的振幅信息;以及根據(jù)由所述停滯區(qū)間的提取獲得的各停滯區(qū)間的時(shí)間信息和所述音頻數(shù)據(jù)本身的全部時(shí)間信息而獲得針對(duì)所述聲音區(qū)間的全部時(shí)間信息。
4.根據(jù)權(quán)利要求1所述的腳本數(shù)據(jù)生成方法,其中,所述第二步驟包括如下步驟:根據(jù)由音節(jié)文字標(biāo)記所述文本數(shù)據(jù)的發(fā)音辭典信息獲得針對(duì)所述文本數(shù)據(jù)的單詞或者句子的音節(jié)數(shù)。
5.根據(jù)權(quán)利要求1所述的腳本數(shù)據(jù)生成方法,其中,所述第四步驟包括如下步驟:從所述文本數(shù)據(jù)的第一個(gè)單詞或者句子依次逐一選擇到最后的單詞或者句子為止,作為需要所述預(yù)測(cè)的單詞或者句子。
6.根據(jù)權(quán)利要求5所述的腳本數(shù)據(jù)生成方法,其中,所述第六步驟包括如下步驟:將從與所述文本數(shù)據(jù)的第一個(gè)單詞或者句子對(duì)應(yīng)的所述音頻數(shù)據(jù)的第一個(gè)聲音區(qū)間到與所述最后的單詞或者句子對(duì)應(yīng)的所述音頻數(shù)據(jù)的最后聲音區(qū)間為止的各聲音區(qū)間的時(shí)間信息依次逐一相加而搜索與所述預(yù)測(cè)再現(xiàn)位置信息一致的位置。
7.一種腳本數(shù)據(jù)生成裝置,其基于音頻數(shù)據(jù)和記載有所述音頻數(shù)據(jù)的內(nèi)容的文本數(shù)據(jù)而生成腳本數(shù)據(jù),該腳本數(shù)據(jù)具有與所述文本數(shù)據(jù)的單詞或者句子對(duì)應(yīng)的音頻數(shù)據(jù)的再現(xiàn)位置信息,該腳本數(shù)據(jù)生成裝置包括: 振幅比較部,其獲得針對(duì)所述音頻數(shù)據(jù)的聲音區(qū)間的全部時(shí)間信息; 音節(jié)數(shù)提取部,其基于所述文本數(shù)據(jù)獲得針對(duì)所述聲音區(qū)間的全部音節(jié)數(shù)信息; 單位時(shí)間運(yùn)算部,其基于從所述振幅比較部獲得的所述全部時(shí)間信息和從所述音節(jié)數(shù)提取部獲得的所述全部音節(jié)數(shù)信息運(yùn)算與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間信息; 再現(xiàn)位置預(yù)測(cè)部,其基于所述文本數(shù)據(jù)中需要預(yù)測(cè)的單詞或者句子之前的至少一個(gè)聲音區(qū)間所占的區(qū)間音節(jié)數(shù)和所述單位音節(jié)時(shí)間信息獲得針對(duì)所述音頻數(shù)據(jù)的相應(yīng)部分的預(yù)測(cè)再現(xiàn)位置信息;以及 再現(xiàn)位置搜索部,其對(duì)將所述音頻數(shù)據(jù)的各聲音區(qū)間的時(shí)間信息依次相加得到的值與所述預(yù)測(cè)再現(xiàn)位置信息進(jìn)行比較,在所述值與所述預(yù)測(cè)再現(xiàn)位置信息一致時(shí),將與所述預(yù)測(cè)再現(xiàn)位置信息最鄰近的停滯區(qū)間內(nèi)的規(guī)定位置作為針對(duì)需要所述預(yù)測(cè)的單詞或者句子的實(shí)際再現(xiàn)位置而存儲(chǔ)到所述文本數(shù)據(jù)中。
8.根據(jù)權(quán)利要求7所述的腳本數(shù)據(jù)生成裝置,其中,所述振幅比較部根據(jù)振幅信息提取所述聲音區(qū)間,根據(jù)所提取的各聲音區(qū)間的時(shí)間信息運(yùn)算所述全部時(shí)間信息,其中,該振幅信息是基于所述音頻數(shù)據(jù)的時(shí)間的振幅信息。
9.根據(jù)權(quán)利要求7所述的腳本數(shù)據(jù)生成裝置,其中,所述振幅比較部根據(jù)振幅信息提取所述音頻數(shù)據(jù)內(nèi)的停滯區(qū)間,根據(jù)所提取的各停滯區(qū)間的時(shí)間信息和所述音頻數(shù)據(jù)本身的全部時(shí)間信息運(yùn)算所述聲音區(qū)間的全部時(shí)間信息,其中,該振幅信息是基于所述音頻數(shù)據(jù)的時(shí)間的振幅信息。
10.根據(jù)權(quán)利要求7所述的腳本數(shù)據(jù)生成裝置,其中,所述音節(jié)數(shù)提取部基于由音節(jié)文字標(biāo)記所述文本數(shù)據(jù)的發(fā)音辭典信息獲得針對(duì)所述文本數(shù)據(jù)的單詞或者句子的音節(jié)數(shù)。
11.根據(jù)權(quán)利要求7所述的腳本數(shù)據(jù)生成裝置,其中,所述再現(xiàn)位置預(yù)測(cè)部從所述文本數(shù)據(jù)的第一個(gè)單詞或者句子依次逐一選擇到最后的單詞或者句子為止,作為需要所述預(yù)測(cè)的單詞或者句子。
12.根據(jù)權(quán)利要求11所述的腳本數(shù)據(jù)生成裝置,其中,所述再現(xiàn)位置搜索部將從與所述文本數(shù)據(jù)的第一個(gè)單詞或者句子對(duì)應(yīng)的所述音頻數(shù)據(jù)的第一個(gè)聲音區(qū)間到與所述最后的單詞或者句子對(duì)應(yīng)的所述音頻數(shù)據(jù)的最后聲音區(qū)間為止的各聲音區(qū)間依次逐一相加而搜索與所述預(yù)測(cè)再現(xiàn)位置信息一致的位置。
全文摘要
本發(fā)明涉及生成針對(duì)音頻數(shù)據(jù)的腳本數(shù)據(jù)的方法及裝置,提供包括如下步驟的腳本數(shù)據(jù)生成方法獲得針對(duì)音頻數(shù)據(jù)的實(shí)際聲音區(qū)間的全部時(shí)間信息;基于文本數(shù)據(jù)而獲得針對(duì)聲音區(qū)間的全部音節(jié)數(shù)信息;基于全部時(shí)間信息和全部音節(jié)數(shù)信息而運(yùn)算與一個(gè)音節(jié)對(duì)應(yīng)的單位音節(jié)時(shí)間信息;基于在文本數(shù)據(jù)中需要預(yù)測(cè)的單詞或者句子所占的聲音區(qū)間的區(qū)間音節(jié)數(shù)信息和單位音節(jié)時(shí)間信息而獲得針對(duì)音頻數(shù)據(jù)的對(duì)應(yīng)聲音區(qū)間的預(yù)測(cè)再現(xiàn)位置信息;將位于預(yù)測(cè)再現(xiàn)位置的之前或之后的音頻數(shù)據(jù)的停滯區(qū)間中與預(yù)測(cè)再現(xiàn)位置最鄰近的停滯區(qū)間作為實(shí)際再現(xiàn)位置信息而進(jìn)行存儲(chǔ)。
文檔編號(hào)G11B27/34GK103210447SQ201180053847
公開(kāi)日2013年7月17日 申請(qǐng)日期2011年11月9日 優(yōu)先權(quán)日2010年11月10日
發(fā)明者任礦淳, 金仁松 申請(qǐng)人:任礦淳, 金仁松