欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信號(hào)處理裝置、信號(hào)處理方法和程序的制作方法

文檔序號(hào):2831095閱讀:223來(lái)源:國(guó)知局
專利名稱:信號(hào)處理裝置、信號(hào)處理方法和程序的制作方法
技術(shù)領(lǐng)域
的音樂(lè)速度。
音樂(lè)的音拍是代表由音頻信號(hào)所表示的音樂(lè)(樂(lè)曲、聲音等)的音樂(lè)特 征的特征量,并被用作用來(lái)推薦或搜索音樂(lè)的重要特征量。該音拍是進(jìn)行 預(yù)處理以進(jìn)行復(fù)雜的音樂(lè)分析并使音樂(lè)與機(jī)器人舞蹈和其它多媒體同步 所需的,因而具有廣泛的應(yīng)用。
所演奏的聲音的長(zhǎng)度由音拍和音樂(lè)iiJL這兩個(gè)音樂(lè)時(shí)間要素來(lái)決定。 因此,從所演奏的聲音的長(zhǎng)度來(lái)同時(shí)確定音拍和音樂(lè)itJL是一種不能從數(shù) 學(xué)上唯一確定解的不適定問(wèn)題。進(jìn)而,當(dāng)成為音樂(lè)速度或音拍的時(shí)刻有波 動(dòng)時(shí)難以準(zhǔn)確地獲得音拍。
在本實(shí)施例中,進(jìn)行使用概率模型的音拍分析,以從音樂(lè)等的音頻信 號(hào)獲得音拍。在該音拍分析中,通過(guò)對(duì)于從音頻信號(hào)中檢測(cè)出的發(fā)音時(shí)刻 而獲得最有可能的音拍,從而可以概率方式從音頻信號(hào)中估計(jì)音拍。換句 話說(shuō),在根據(jù)本發(fā)明的音拍分析中,當(dāng)提供與音頻信號(hào)的發(fā)音時(shí)刻相關(guān)的 信息時(shí),與該發(fā)音時(shí)刻T對(duì)應(yīng)的發(fā)音是音頻信號(hào)中的音拍的概率被設(shè)置 為目的函數(shù),并獲得使該目的函數(shù)最大化的音拍。對(duì)音樂(lè)iUL的存在以概
7率方式進(jìn)行處置的框架可包括表示從音頻信號(hào)的功率包絡(luò)(power envelope)的自相關(guān)函數(shù)獲得的音樂(lè)速度的可信度的信息(音樂(lè)速度的概率 分布),因而可執(zhí)行健壯的估計(jì)。即使在音樂(lè)的音樂(lè)速度變化的情況下, 如音樂(lè)iUL在一首樂(lè)曲內(nèi)漸漸加快/放慢,也可估計(jì)該音樂(lè)的音樂(lè)速度。
在根據(jù)本實(shí)施例的概率模型中,以概率方式對(duì)從音樂(lè)中演奏的音拍和 該演奏中波動(dòng)的音樂(lè)速度而生成發(fā)音時(shí)刻的序列這一過(guò)程進(jìn)行模型化。在 使用包含音樂(lè)速度作為潛在變量的概率模型的音拍估計(jì)中,以概率方式考 慮音樂(lè)速度的存在獲得目的函數(shù)的最大值(準(zhǔn)最佳解),而不是唯一地限定 作為潛在變量的音樂(lè)速度的值。這是使用用于進(jìn)行使目的函數(shù)增加的音拍 更新的輔助函數(shù)來(lái)實(shí)現(xiàn)的。輔助函數(shù)(Q函數(shù))是使得從潛在變量的期望值 得到的后驗(yàn)概率的對(duì)數(shù)單調(diào)增加的音拍的更新算法,且具體地例如EM (Expectation-Maximization,期望最大)算法,其中潛在變量是音樂(lè)速 度。
在使用該概率模型的音拍分析中,根據(jù)具有作為概率的多個(gè)要素(發(fā) 音時(shí)刻、音拍、音樂(lè)速度等)的框架,可以以邏輯一致性將多個(gè)模型及其 目的函數(shù)結(jié)合在一起。
下面參照

圖1來(lái)定義本說(shuō)明書中的術(shù)語(yǔ)。圖1是示出了音拍和發(fā)音時(shí) 刻之間的關(guān)系的i兌明圖。
"音拍分析"是獲得由音頻信號(hào)所表示的音樂(lè)演奏的音樂(lè)時(shí)刻(單位 "拍")的處理。
"發(fā)音時(shí)刻"是當(dāng)音頻信號(hào)所含的樂(lè)聲開始時(shí)的時(shí)刻,并由實(shí)際時(shí)間 軸上的時(shí)刻M示。如圖1所示,"發(fā)音時(shí)刻,,代表音頻信號(hào)所含的發(fā)音 事件的發(fā)生時(shí)刻。以下,將音頻信號(hào)所含的各樂(lè)聲的發(fā)音時(shí)刻稱作t[l、 t[2].....t[N,其統(tǒng)稱為"發(fā)音時(shí)刻T" (T=t[l]、 t[2.....t[N)。
"發(fā)音時(shí)刻的間隔(Inter-Onset Interval, IOI)"狄音時(shí)刻的實(shí)際 時(shí)間中的時(shí)間間隔(單位[秒)。如圖1所示,"發(fā)音時(shí)刻的間隔"代^ 音頻信號(hào)所含的多個(gè)發(fā)音事件中、與音拍對(duì)應(yīng)的重要發(fā)音事件之間的時(shí) 間。以下,將音頻信號(hào)所含的各樂(lè)聲之間的發(fā)音時(shí)刻的間隔稱作x[l、
x[2.....x[N],其統(tǒng)稱為"發(fā)音時(shí)刻的間隔X"(或"發(fā)音時(shí)刻間隔
X" )(X=x[l]、 x[2.....x[N)。
"音拍,,是由從音頻信號(hào)的基準(zhǔn)時(shí)刻點(diǎn)(例如,音樂(lè)的演奏開始)起計(jì) 數(shù)的拍所指定的音樂(lè)時(shí)刻。該音拍代表音頻信號(hào)所含的樂(lè)聲在音樂(lè)的時(shí)間軸上的開始時(shí)刻,并由作為音樂(lè)時(shí)刻的單位的拍來(lái)指定,如一拍、兩拍等等。
"音拍長(zhǎng)度"是音拍的間隔(由音拍指定的音樂(lè)時(shí)刻點(diǎn)之間的長(zhǎng)度), 單位為[拍。該音拍長(zhǎng)度代表音樂(lè)時(shí)間中的時(shí)間間隔,且對(duì)應(yīng)于上述實(shí)際 時(shí)間軸上的"發(fā)音時(shí)刻的間隔"。以下,將音頻信號(hào)所含的各樂(lè)聲之間的
音拍長(zhǎng)度稱作q[l、q[2.....q[N,其統(tǒng)稱為"音拍長(zhǎng)度Q" (Q=q[l、
q[2.....q[N])。
"音樂(lè)速度"是將發(fā)音時(shí)刻的間隔[秒除以音拍長(zhǎng)度[拍所得的值(單 位[秒/拍),或是將音拍長(zhǎng)度[拍除以發(fā)音時(shí)刻的間隔[秒所得的值(單位 [拍/分鐘])。音樂(lè)速度的功能是用作將發(fā)音時(shí)刻的間隔[秒轉(zhuǎn)換成音拍長(zhǎng)度 [拍的參數(shù)。盡管一般使用[BPM:拍每分或[拍/分],但在本實(shí)施例中使
用前者并將秒/拍用作音樂(lè)速度的單位。以下,將音頻信號(hào)所含的各樂(lè)聲
處的音樂(lè)速度稱作z[l、z[2.....z[N,其統(tǒng)稱為"音樂(lè)速度Z" (Z=z[l]、
z[2.....z[N)。
該音樂(lè)速度Z是表示發(fā)音時(shí)刻的間隔(IOI)X和音拍長(zhǎng)度Q之間的關(guān) 系的^lt(Z-X/Q)。 M音時(shí)刻間隔X、音拍長(zhǎng)度Q和音樂(lè)速度Z的關(guān)系 可知如果不提供發(fā)音時(shí)刻間隔X和音樂(lè)速度Z這兩者,則一般不能獲 得音拍長(zhǎng)度Q。然而, 一般很難從音頻信號(hào)準(zhǔn)確地獲得發(fā)音時(shí)刻間隔X 和音樂(lè)速度Z這兩者。因此在本實(shí)施例中,從音頻信號(hào)中獲得發(fā)音時(shí)刻T 作為發(fā)音時(shí)刻間隔X的候選,并且不將音樂(lè)速度Z限定于預(yù)定的固定值 而以概率方式來(lái)處置音樂(lè)速度Z,從而使得能夠針對(duì)音樂(lè)itJL的時(shí)間變化 和音拍的波動(dòng)估計(jì)更健壯的音拍長(zhǎng)度Q。
下面說(shuō)明執(zhí)行音拍分析處理的信號(hào)處理裝置的配置。根據(jù)本實(shí)施例的 信號(hào)處理裝置可應(yīng)用于各種電子設(shè)備,只要該設(shè)備包括用于處理音頻信號(hào) 的處理器、存儲(chǔ)器等。作為具體的實(shí)例,信號(hào)處理裝置可應(yīng)用于如個(gè)人計(jì) 算機(jī)的信息處理裝置,如PDA(個(gè)人數(shù)字助理)、家用游戲機(jī)和DVD/HDD 記錄機(jī)的記錄和再現(xiàn)裝置,如電視接收機(jī)的信息消費(fèi)電器,如便攜型音樂(lè) 播放器、視聽組合、便攜型游戲設(shè)備、便攜型電話和PHS的便攜終端, 數(shù)字照相機(jī)、攝影機(jī)、車載音響設(shè)備、機(jī)器人、如電子鋼琴的電子樂(lè)器、 無(wú)線/有線通信設(shè)備等。
由信號(hào)處理裝置處置的音頻信號(hào)內(nèi)容不僅是音樂(lè)(樂(lè)曲、聲音等)、講 話、廣播節(jié)目等的音頻內(nèi)容所含的音頻信號(hào),還可以是電影、電視節(jié)目、 視頻節(jié)目等的視頻內(nèi)容,以及游戲、軟件等所含的音頻信號(hào)。輸入信號(hào)處理裝置的音頻信號(hào)可以是從包括如音樂(lè)CD、 DVD、存儲(chǔ)卡的可移動(dòng)存儲(chǔ) 介質(zhì)、HDD和半導(dǎo)M儲(chǔ)器在內(nèi)的各種存儲(chǔ)裝置讀出的音頻信號(hào),或是 經(jīng)過(guò)包括如因特網(wǎng)、電話線路網(wǎng)、衛(wèi)星通信網(wǎng)和廣播通信網(wǎng)的公眾線路網(wǎng)、 如L AN(局域網(wǎng))等的專用線路網(wǎng)在內(nèi)的網(wǎng)絡(luò)而接收的音頻信號(hào)。
下面參照?qǐng)D2來(lái)說(shuō)明根據(jù)本實(shí)施例的信號(hào)處理裝置10的硬件配置。 在圖2中,示出了信號(hào)處理裝置10被配置成包括個(gè)人計(jì)算機(jī)等的例子, 但根據(jù)本發(fā)明的信號(hào)處理裝置不限于這種例,而是可應(yīng)用于各種電子設(shè) 備。
如圖2所示,信號(hào)處理裝置10包括CPU(中央處理單元)101、ROM(只 讀存儲(chǔ)器)102、 RAM(隨M取存儲(chǔ)器)103、主機(jī)總線104、橋105、外部 總線106、接口 107、輸入裝置108、輸出裝置109、存儲(chǔ)裝置UO(例如 HDD)、驅(qū)動(dòng)器lll、連接端口112和通信裝置113。
CPU 101的功能是用作計(jì)算處理裝置和控制裝置,根據(jù)各種程序而工 作并控制信號(hào)處理裝置10的各單元。該CPU 101根據(jù)存儲(chǔ)在ROM 102 中的程序或從存儲(chǔ)裝置110載入RAM 103的程序而執(zhí)行各種處理。ROM 102存儲(chǔ)CPU 101所使用的程序、計(jì)算參數(shù)等,并還作為減輕從CPU 101 對(duì)存儲(chǔ)裝置110的存取的緩沖器而發(fā)揮功能。RAM 103暫時(shí)地存儲(chǔ)在CPU 101的執(zhí)行中使用的程序、在該執(zhí)行中適當(dāng)變化的參數(shù)等。以上這些由被 配置成包括CPU總線等在內(nèi)的主機(jī)總線104相互連接。主機(jī)總線104經(jīng) 過(guò)橋105而連接至如PCI(周邊元件互連/接口)總線的外部總線106。
輸入裝置108被配置成包括鼠標(biāo)、鍵盤、觸摸板、 、開關(guān)、控制 桿等。信號(hào)處理裝置10的用戶^Mt該輸入裝置108從而對(duì)信號(hào)處理裝置 10輸入各種數(shù)據(jù)并指示處理操作。輸出裝置109被配置成包括如CRT(陰 極射線管)顯示裝置和液晶顯示器(LCD)的顯示裝置、如揚(yáng)聲器的音頻輸出 裝置等。
存儲(chǔ)裝置110是用于存儲(chǔ)各種數(shù)據(jù)的裝置,并被配置成包括HDD(硬 盤驅(qū)動(dòng)器)等。存儲(chǔ)裝置110被配置成包括作為存儲(chǔ)介質(zhì)的硬盤、以及用 于驅(qū)動(dòng)多更盤的驅(qū)動(dòng)器,并存儲(chǔ)要由CPU 101執(zhí)行的程序和各種數(shù)據(jù)。驅(qū) 動(dòng)器111是用于可移動(dòng)介質(zhì)的驅(qū)動(dòng)裝置,并容納在或從外部附接至信號(hào)處 理裝置10。驅(qū)動(dòng)器111關(guān)于裝載于信號(hào)處理裝置10上的如CD、 DVD、 藍(lán)光盤和存儲(chǔ)卡的可移動(dòng)介質(zhì)進(jìn)行各種數(shù)據(jù)的寫^/讀出。例如,驅(qū)動(dòng)器 111對(duì)記錄在音樂(lè)CD、存儲(chǔ)卡等上的音樂(lè)內(nèi)容進(jìn)##出和再現(xiàn)。于是將 音樂(lè)內(nèi)容的音頻信號(hào)輸入信號(hào)處理裝置10。連接端口 112是用于連接外部周邊設(shè)備的端口 (例如USB端口 ),并具 有USB、 IEEE1394等的連接端子。連接端口 U2連接至接口 107并經(jīng)過(guò) 外部總線106、橋105、主機(jī)總線104等而連接至CPU101等。該連接端 口 112與如USB存儲(chǔ)器的帶連接器的可移動(dòng)介質(zhì)、以及如便攜型電影/音 樂(lè)播放機(jī)、PDA和HDD的外部設(shè)備連接。從可移動(dòng)^h質(zhì)、外部設(shè)備等轉(zhuǎn) 移的音樂(lè)內(nèi)容的音頻信號(hào)經(jīng)過(guò)該連接端口 112而輸入至信號(hào)處理裝置10。
通信裝置113是用于連接至如因特網(wǎng)和LAN的各種網(wǎng)絡(luò)5的通信接 口,其中通信方式可以是無(wú)線/有線通信。該通信裝置113與經(jīng)過(guò)網(wǎng)絡(luò)而 連接的外部設(shè)備進(jìn)行各種數(shù)據(jù)的發(fā)送和接收。例如,通信裝置113從內(nèi)容 分布服務(wù)器接收音樂(lè)內(nèi)容、電影內(nèi)容等。然后將從外部接收的音樂(lè)內(nèi)容的 音頻信號(hào)輸入信號(hào)處理裝置10。
下面參照?qǐng)D3~5來(lái)說(shuō)明根據(jù)本實(shí)施例的信號(hào)處理裝置10的功能配 置。圖3是示出了根據(jù)本實(shí)施例的信號(hào)處理裝置10的配置的功能框圖。 圖4是示出了由根據(jù)本實(shí)施例的信號(hào)處理裝置10執(zhí)行的信號(hào)處理方法(音 拍和音樂(lè)速度分析方法)的概要的說(shuō)明圖。圖5是示出了音頻信號(hào)的功率 包絡(luò)的自相關(guān)函數(shù)和音樂(lè)速度的概率分布之間的關(guān)系的說(shuō)明圖。
如圖3所示,根據(jù)本實(shí)施例的信號(hào)處理裝置10包括發(fā)音時(shí)刻檢測(cè) 單元12,用于基于音頻信號(hào)的信號(hào)水平iM^測(cè)發(fā)音時(shí)刻T;發(fā)音時(shí)刻存 儲(chǔ)單元14,被配置成包括如閃存和RAM的存儲(chǔ)器;音樂(lè)速度概率分布 設(shè)置單元16,用于使用與音頻信號(hào)的信號(hào)水平相關(guān)的自相關(guān)函數(shù)來(lái)對(duì)音 樂(lè)速度Z的初始概率分布Po(Z)進(jìn)行設(shè)置;音拍長(zhǎng)度計(jì)算單元18,用于基 于與檢測(cè)出的發(fā)音時(shí)刻T相關(guān)的信息(發(fā)音時(shí)刻的間隔X)和音樂(lè)速度Z的 初始概率分布P。(Z)來(lái)計(jì)算由音頻信號(hào)所代表的音樂(lè)的音拍長(zhǎng)度;音樂(lè)速 度計(jì)算單元20,用于基于所估計(jì)的音拍和檢測(cè)出的發(fā)音時(shí)刻的間隔X來(lái) 計(jì)算由音頻信號(hào)所代表的音樂(lè)的音樂(lè)速度;特征量存儲(chǔ)單元22,被配置 成包括如閃存和RAM的存儲(chǔ)器;以及特征量使用單元24,用于使用如 音拍和音樂(lè)速度Z的特征量。
如圖4所示,發(fā)音時(shí)刻檢測(cè)單元12對(duì)從外部輸入的音頻信號(hào)進(jìn)行分 析,并檢測(cè)音頻信號(hào)所含的多個(gè)樂(lè)聲(發(fā)音事件)的發(fā)音時(shí)刻T。例如,發(fā) 音時(shí)刻檢測(cè)單元12獲得音頻信號(hào)的功率(信號(hào)水平)的時(shí)間變化(即,音頻 信號(hào)的功率包絡(luò)),提取音頻信號(hào)所含的多個(gè)峰值,并將緊挨在^值之 前的時(shí)刻估計(jì)為發(fā)音時(shí)刻T。發(fā)音時(shí)刻檢測(cè)單元12將以上述方式檢測(cè)出 的發(fā)音時(shí)刻T保存在發(fā)音時(shí)刻存儲(chǔ)單元14中。該發(fā)音時(shí)刻檢測(cè)單元12所進(jìn)行的發(fā)音時(shí)刻檢測(cè)處理的詳情將在后面說(shuō)明(參見圖7等)。
如圖4和圖5所示,音樂(lè)速度概率分布設(shè)置單元16分析音頻信號(hào)的 信號(hào)水平以獲得音頻信號(hào)的功率包絡(luò)的自相關(guān)函數(shù)。在該功率包絡(luò)的自相 關(guān)函數(shù)中,自相關(guān)高的頻率具有較高的成為音樂(lè)速度的概率。因此,音樂(lè) 速度概率分布設(shè)置單元16使用自相關(guān)函數(shù)來(lái)計(jì)算音樂(lè)速度Z的初始概率 分布P。(Z),并將該初始概率分布Po(Z)設(shè)置為后面要說(shuō)明的音樂(lè)速度Z 的概率分布P(Z)的初始值。該音樂(lè)速度概率分布設(shè)置單元16所進(jìn)行的音 樂(lè)速度Z的初始概率分布設(shè)置處理的詳情將在后面說(shuō)明(參見圖8等)。
音拍長(zhǎng)度計(jì)算單元18使用包含音樂(lè)速度Z作為概率變量的概率模型 來(lái)進(jìn)行音拍分析,并獲得音頻信號(hào)的音拍長(zhǎng)度Q。如圖4所示,音拍長(zhǎng)度 計(jì)算單元18針對(duì)音頻信號(hào)的發(fā)音時(shí)刻間隔X,使用EM算法以概率方式 來(lái)估計(jì)最有可能的音拍長(zhǎng)度Q。如果獲得音頻信號(hào)的各樂(lè)聲(發(fā)音事件)的 音拍長(zhǎng)度Q,則可從該音拍長(zhǎng)度Q獲得音拍或音頻信號(hào)的樂(lè)聲的音樂(lè)時(shí) 刻。
在音拍長(zhǎng)度計(jì)算單元18所進(jìn)行的音拍估計(jì)處理中,音拍長(zhǎng)度計(jì)算單 元18通過(guò)計(jì)算由發(fā)音時(shí)刻檢測(cè)單元12檢測(cè)出的多個(gè)發(fā)音時(shí)刻T的差從 而獲得發(fā)音時(shí)刻的間隔X。音拍長(zhǎng)度計(jì)算單元18使用由音樂(lè)速度概率分 布設(shè)置單元16獲得的音樂(lè)速度Z的初始概率分布P。(Z)來(lái)設(shè)置目的函數(shù) P(QIX)和輔助函數(shù)(Q函數(shù)),其中目的函數(shù)P(QIX)表示與發(fā)音時(shí)刻的間隔 X對(duì)應(yīng)的發(fā)音是音頻信號(hào)的音拍的概率,輔助函數(shù)(Q函數(shù))用于引導(dǎo)使目 的函數(shù)P(QIX)單調(diào)增加(單調(diào)非減少)的音拍長(zhǎng)度Q的更新。音拍長(zhǎng)度計(jì)
至最大值的更新,以獲得目的函數(shù)P(QIX)的準(zhǔn)最佳解。EM算法包含E 步驟(期望值步驟)和M步驟(最大化步驟)。在E步驟中,音拍長(zhǎng)度計(jì)算單 元18進(jìn)行作為潛在變量的音樂(lè)速度Z的概率分布P(Z|X, Q)的估計(jì)處理, 并獲得輔助函數(shù)(Q函數(shù))。在M步驟中,音拍長(zhǎng)度計(jì)算單元18通過(guò)維特 比算法等使得輔助函數(shù)(Q函數(shù))最大化。通過(guò)反復(fù)進(jìn)行E步驟和M步驟, 使得輔助函數(shù)(Q函數(shù))收斂,并從收斂的Q函數(shù)獲得音拍長(zhǎng)度Q。
音拍長(zhǎng)度計(jì)算單元18將如上述估計(jì)的音拍長(zhǎng)度Q保存在特征量存儲(chǔ) 單元22中。該音拍長(zhǎng)度計(jì)算單元18所進(jìn)行的音拍(音拍長(zhǎng)度Q)的計(jì)算處 理的詳情將在后面說(shuō)明(參見圖8等)。
音樂(lè)速度計(jì)算單元20基于由音拍長(zhǎng)度計(jì)算單元18計(jì)算的音拍長(zhǎng)度Q 和發(fā)音時(shí)刻間隔X來(lái)計(jì)算音樂(lè)速度Z。例如,音樂(lè)速度計(jì)算單元20將音頻信號(hào)所含的各樂(lè)聲的發(fā)音時(shí)刻間隔x[秒除以該各樂(lè)聲的音拍長(zhǎng)度
q[拍,以獲得該各樂(lè)聲中的音樂(lè)速度Z[秒/拍(z-x/q)。而且,音樂(lè)iiA計(jì) 算單元20將如上述計(jì)算的音拍長(zhǎng)度Q保存在特征量存儲(chǔ)單元22中。該 音樂(lè)速度計(jì)算單元20所進(jìn)行的音樂(lè)速度Z的計(jì)算處理的詳情將在后面說(shuō) 明(參見圖9等)。
特征量使用單元24使用存儲(chǔ)在特征量存儲(chǔ)單元22中的音頻信號(hào)的特 征量(音拍長(zhǎng)度Q,音樂(lè)速度Z等)對(duì)電子設(shè)備的用戶提供各種應(yīng)用。使用 如音拍長(zhǎng)度Q或音樂(lè)速度Z的特征量的方法延伸到很廣的范圍上,包括 針對(duì)音樂(lè)內(nèi)M供元數(shù)據(jù)、搜索音樂(lè)內(nèi)容、推薦音樂(lè)內(nèi)容、整理音樂(lè)作品、
為使機(jī)器人隨音樂(lè)的節(jié)拍跳舞而與機(jī)器人舞蹈同步、與圖片的幻燈片放映 同步、自動(dòng)記鐠、音樂(lè)分析等。特征量除了音拍長(zhǎng)度Q和音樂(lè)速度Z以 外,還可包括通過(guò)對(duì)音拍自身、音拍長(zhǎng)度Q和音樂(lè)ilJLZ進(jìn)行計(jì)算和處 理而得的任意信息,只要該信息是表示音頻信號(hào)所代表的音樂(lè)的特征的信 息即可。
以上說(shuō)明了根據(jù)本實(shí)施例的信號(hào)處理裝置10的功能配置。發(fā)音時(shí)刻 檢測(cè)單元12、音樂(lè)速度概率分布設(shè)置單元16、音拍長(zhǎng)度計(jì)算單元18、音 樂(lè)速度計(jì)算單元20或特征量使用單元24可部分或全部地由軟件來(lái)配置或 由硬件來(lái)配置。當(dāng)由軟件來(lái)配置時(shí),使計(jì)算機(jī)執(zhí)行各單元的處理的計(jì)算機(jī) 程序被安裝在信號(hào)處理裝置10上。該程序例如經(jīng)過(guò)任意的存儲(chǔ)介質(zhì)或任 意的通信介質(zhì)而提供給信號(hào)處理裝置10。
下面參照?qǐng)D6來(lái)說(shuō)明根據(jù)本實(shí)施例的、作為信號(hào)處理方法的一例的音 拍分析方法。圖6是示出了根據(jù)本實(shí)施例的音拍分析方法的流程圖。
如圖6所示,根據(jù)本實(shí)施例的音拍分析方法包含作為音拍估計(jì)處理的 預(yù)處理的從音頻信號(hào)中檢測(cè)發(fā)音時(shí)刻T的發(fā)音時(shí)刻檢測(cè)處理(SIO)、以及 基于在S10中獲得的發(fā)音時(shí)刻T而以概率方式獲得音拍的音拍估計(jì)處理 (S20)。
在發(fā)音時(shí)刻檢測(cè)處理(S10)中,對(duì)音頻信號(hào)進(jìn)行處理,檢測(cè)由音頻信 號(hào)所代表的音樂(lè)(所演奏的樂(lè)聲)的發(fā)音時(shí)刻T,并獲得發(fā)音時(shí)刻間隔X。 作為檢測(cè)發(fā)音時(shí)刻T的方法,在現(xiàn)有技術(shù)中提議了各種方法。在根據(jù)本 實(shí)施例的音拍分析方法中,以該發(fā)音時(shí)刻檢測(cè)處理用作預(yù)處理,發(fā)音時(shí)刻 T的檢測(cè)處理S10和M音時(shí)刻T獲得音拍的音拍估計(jì)處理S20是獨(dú)立 的處理。因而,在根據(jù)本實(shí)施例的音拍分析方法中,使用條件原則上不局 限于與發(fā)音時(shí)刻檢測(cè)方法的組合。下面參照?qǐng)D7來(lái)說(shuō)明根據(jù)本實(shí)施例的發(fā)音時(shí)刻檢測(cè)處理(圖6的S10) 的具體實(shí)例。圖7是示出了圖6的發(fā)音時(shí)刻檢測(cè)處理SIO的實(shí)例的流程圖。
如圖7所示,在發(fā)音時(shí)刻檢測(cè)處理S10中,首先,信號(hào)處理裝置10 的發(fā)音時(shí)刻檢測(cè)單元12獲得所輸入的音頻信號(hào)的功率(信號(hào)水平)的時(shí)間 變化(即功率包絡(luò)),并提取該功率的時(shí)間變化的峰值(步驟S11 S13)。更 具體地,發(fā)音時(shí)刻檢測(cè)單元12計(jì)算音頻信號(hào)的每一短時(shí)間量(例如約幾十 微秒)的能量,并生成代表該每一短時(shí)間量的音頻信號(hào)的功率的時(shí)間變化 (即功率包絡(luò))的水平信號(hào)(步驟Sll)。發(fā)音時(shí)刻檢測(cè)單元12從音頻信號(hào)的 功率的時(shí)間變化(水平信號(hào))中去除無(wú)音區(qū)間(步驟S12),并使衰減部分平 滑(步驟S13)。此后,發(fā)音時(shí)刻檢測(cè)單元12提取在S12和S13中的處理后 的水平信號(hào)的峰值(步驟S14),并將緊挨在峰值之前的水平信號(hào)變成最小
值的這一時(shí)刻估計(jì)為發(fā)音時(shí)刻T(=t[l、t[2.....t[N)(步驟S15)。接著,
發(fā)音時(shí)刻檢測(cè)單元12將在S15中估計(jì)的發(fā)音時(shí)刻T保持在發(fā)音時(shí)刻存儲(chǔ) 單元14中(步驟S16)。
以上說(shuō)明了發(fā)音時(shí)刻檢測(cè)處理。以上檢測(cè)的發(fā)音時(shí)刻T可包含與音 拍對(duì)應(yīng)的發(fā)音事件(樂(lè)聲)的發(fā)音時(shí)刻,但一般來(lái)說(shuō),有可能檢測(cè)出不與音 拍對(duì)應(yīng)的發(fā)音事件的發(fā)音時(shí)刻,或者有可能在原本存在音拍的時(shí)刻處未檢 測(cè)出發(fā)音時(shí)刻。因此,優(yōu)選地M測(cè)出的發(fā)音時(shí)刻T中選擇與音拍對(duì)應(yīng) 的適當(dāng)?shù)陌l(fā)音時(shí)刻T,并在原本存在音拍的時(shí)刻處補(bǔ)充發(fā)音時(shí)刻T。于是, 在以下"i兌明的音拍估計(jì)處理中,進(jìn)行使用概率模型的音拍分析,以將從檢 測(cè)出的發(fā)音時(shí)刻T中獲得的發(fā)音時(shí)刻的間隔X(單位[秒)轉(zhuǎn)換成適當(dāng)?shù)?音拍長(zhǎng)度(單位[拍)。
以下說(shuō)明使用根據(jù)本實(shí)施例的概率模型的音拍分析的原理。首先,計(jì)
算在發(fā)音時(shí)刻檢測(cè)處理(S10)中檢測(cè)出的多個(gè)發(fā)音時(shí)刻T(=t
)間的差,以獲得發(fā)音時(shí)刻間隔(IOI)X(-x[l、x[2.....x[N)。例如,
發(fā)音時(shí)刻t
和發(fā)音時(shí)刻t[l之間的差成為發(fā)音時(shí)刻間隔x[l。將存在不 與音拍對(duì)應(yīng)的發(fā)音時(shí)刻、以及不存在與音拍對(duì)應(yīng)的發(fā)音時(shí)刻這樣的可能性
包含在內(nèi),而獲得與發(fā)音時(shí)刻間隔x[l.....x[N(單位[秒)對(duì)應(yīng)的音
拍長(zhǎng)度q的時(shí)間系列(單位)。
以概率方式將包括音樂(lè)速度Z、音拍模式和演奏的波動(dòng)在內(nèi)的各種波
動(dòng)考慮進(jìn)去,假設(shè)從由音頻信號(hào)所得的發(fā)音時(shí)刻間隔X(-x[l].....x[N)
而獲得音拍長(zhǎng)度Q(=q[l.....q[N])這一問(wèn)題作為關(guān)于檢測(cè)出的X獲得
最有可能的Q這一問(wèn)題,則可公式化為以下等式(l)。由于P(Q|X) P(XIQ)P(Q),因而進(jìn)行模型化以提供P(XIQ)P(Q),其中如果可獲得其最 大化方法則可獲得Q。
5二argmax尸(2l義)^argmax尸(Jn0、尸(0 …(1)
P(Q|X):后驗(yàn)概率 P(XIQ):似然度 P(Q):先驗(yàn)概率
這種估計(jì)方法稱作最大后驗(yàn)概率(maximum a posteriori probability, MAP),其中P(QIX)"P(XIQ)P(Q)稱作后驗(yàn)概率。以下說(shuō)明反根據(jù)本實(shí)施 例的音拍分析中,用于M音時(shí)刻間隔X獲得音拍長(zhǎng)度Q的模型化和用 于使用該模型來(lái)實(shí)際地獲得音拍的計(jì)算方法。
此處,在各音拍長(zhǎng)度q[n]中存在以其演奏音拍的稱作音樂(lè)速度z[n
的另一音樂(lè)要素,因此不考慮音樂(lè)速度z就無(wú)法考慮發(fā)音時(shí)刻間隔(音 長(zhǎng))x[n和音拍長(zhǎng)度q[ii的關(guān)系。即,如果不以包含音樂(lè)速度的模型來(lái)考慮, 音拍長(zhǎng)度Q和發(fā)音時(shí)刻間隔X之間的關(guān)系就無(wú)法被模型化。
盡管是對(duì)P(X, ZIQ)進(jìn)行模型化,但在本實(shí)施例中要獲得的是 P(XIQ)P(Q)。(以下為了筒化,暫時(shí)省略"P(XIQ)P(Q)"的"P(Q)"。該 P(Q)將在后面處理。在這種情況下,不進(jìn)行MAP估計(jì)而是進(jìn)行最大似然 (maximum likelihood, ML)估計(jì)。)。在根據(jù)本實(shí)施例的音拍估計(jì)方法中, 應(yīng)用EM算法作為使用提供了 P(X, ZIQ)的模型來(lái)獲得使P(XIQ)最大化 的Q的方法。EM算法作為似然度P(XIQ)的估計(jì)方法而已知,但即使對(duì) 于包含先驗(yàn)概率P(Q)的概率模型,也可使用該方法,其中當(dāng)包含先驗(yàn)知 識(shí)P(Q)時(shí),本方法應(yīng)用EM算法。
在EM算法中,在以下關(guān)系式(2)中使用當(dāng)假設(shè)某音拍長(zhǎng)度Q時(shí)的 音樂(lè)速度Z(潛在變量)的概率分布P(ZIX, Q)來(lái)獲得log P(X, ZIQ,)的期 望值,其中從數(shù)學(xué)上證明當(dāng)獲得使輔助函數(shù)(Q函數(shù))最大化的Q,時(shí),將 音拍長(zhǎng)度從Q更新至Q,時(shí)的對(duì)數(shù)似然度的差"log P(X|Q,) - log P(X|Q)" 的期望值為正(非負(fù))。以式(3)來(lái)表達(dá)Q函數(shù)或輔助函數(shù)。EM算法通過(guò)重 復(fù)獲得Q函數(shù)的E步驟(期望值步驟)和使Q函數(shù)最大化的M步驟(最大 化步驟)從而使對(duì)數(shù)似然度log P(XIQ)單調(diào)增加至最大值。<formula>formula see original document page 16</formula>…(3)
在本實(shí)施例中,將該EM算法應(yīng)用于音拍分析。以下說(shuō)明以概率方 式來(lái)提供給出了 P(X, ZIQ)的音樂(lè)速度Z、音拍長(zhǎng)度Q和發(fā)音時(shí)刻間隔X 之間的關(guān)系的模型、當(dāng)使用該模型時(shí)的Q函數(shù)、以及當(dāng)使用該Q函數(shù)時(shí) 的EM算法的具體計(jì)算方法。
在概率模型化中,首先對(duì)音樂(lè)速度Z的波動(dòng)以概率方式進(jìn)行模型化。 音樂(lè)速度Z具有逐漸波動(dòng)的特性,才艮據(jù)該特性,可進(jìn)行模型化以使音樂(lè) 速度Z成為恒定值的概率高。例如,音樂(lè)速度Z的波動(dòng)可^L模型化為馬 爾可夫過(guò)程該馬爾可夫過(guò)程遵循以0為中心的概率分布p(z[n]lz[n-l)(例 如正態(tài)分布和對(duì)數(shù)正態(tài)分布)。此處,z[n對(duì)應(yīng)于第n個(gè)發(fā)音時(shí)刻t[n處的 音樂(lè)速度。
對(duì)發(fā)音時(shí)刻間隔X(=x[l、x[2.....x[N)的波動(dòng)進(jìn)行模型化。發(fā)音
時(shí)刻間隔x[n的波動(dòng)提供了依賴于音樂(lè)速度z[n和音拍長(zhǎng)度q[n的概率。 在音樂(lè)速度恒定且沒(méi)有發(fā)音時(shí)刻T中的波動(dòng)和檢測(cè)中的誤差這一理想情 況下,發(fā)音時(shí)刻間隔(音長(zhǎng))xn](單位秒)等于音樂(lè)速度z[n(單位秒/拍) 和音拍長(zhǎng)度q[n](單位拍)的乘積(x[n卜z[n].q[n)。然而,由于實(shí)際上包 含演奏者的演奏表現(xiàn)所形成的音樂(lè)速度Z和發(fā)音時(shí)刻T中的波動(dòng)和發(fā)音 時(shí)刻的檢測(cè)誤差,它們一般并不相等。這種情況的誤差可以以概率方式來(lái) 考慮。概率分布p(x[nlq[n], z[n])可使用正態(tài)分布或?qū)?shù)正態(tài)分布來(lái)進(jìn)行 模型化。
考慮到發(fā)音時(shí)刻T處音頻信號(hào)的音量, 一般地i^為音量大的聲音比 音量小的聲音具有更高的成為音拍的傾向。該傾向還可以以音量被加至特 征量的一個(gè)而包含在P(XIQ, Z)中,并可祐^:供給概率模型。
將以上兩者組^來(lái),當(dāng)音拍長(zhǎng)度為Q=q[l.....q[N時(shí),音樂(lè)速
度是Z-z[l.....z[N,且給出發(fā)音時(shí)刻的間隔(IOI)X為X=xl.....
x[N的概率P(X, Z|Q)。
對(duì)于音拍長(zhǎng)度的模式q[l.....q[N可考慮出現(xiàn)的概率。例如,考慮
到出現(xiàn)頻率高的音拍長(zhǎng)度模式和可寫在樂(lè)鐠上但在現(xiàn)實(shí)中卻未出現(xiàn)的音 拍長(zhǎng)度模式,其中自然會(huì)想到可由該模式的出現(xiàn)概率的高低來(lái)處置這些模 式。因此,通過(guò)由N-gram模型對(duì)q的時(shí)間系列進(jìn)行模型化,或由N-gram模型對(duì)預(yù)定的音拍長(zhǎng)度的模板模式的出現(xiàn)概率或該模板模式進(jìn)行模型化, 從而可以以概率方式對(duì)音拍長(zhǎng)度模式進(jìn)行模型化。由該模型提供的音拍長(zhǎng)
度Q的概率是P(Q)。
考慮到P(Q), Q函ltA如下函數(shù)將log P(Q)加至當(dāng)對(duì)似然度應(yīng)用 EM算法時(shí)的Q函數(shù),從而可使用該Q函數(shù)作為在MAP估計(jì)時(shí)引導(dǎo)后 驗(yàn)概率P(QIX)的對(duì)數(shù)增加的輔助函數(shù)。
通過(guò)使用該模型所給的P(X, Z|Q),音樂(lè)速度Z的概率分布P(ZIX, Q)可由下式(4)給出。然后可計(jì)算出上述Q函數(shù)。因此,在這種情況下, Q函數(shù)由下式(5)給出。
尸(Z關(guān)"草觀…(4)
G(2,2') = X = z I Z,0 logp(;:["],= z IA + log尸(e') + co"仏
…(5)
具體地期望計(jì)算p(z[n^zlX, Q),以計(jì)算使式(5)的Q函數(shù)最大化的Q,。 以下說(shuō)明該潛在變量(音樂(lè)速度Z)的概率分布的計(jì)算方法(對(duì)應(yīng)于E步驟)。
用于使Q函數(shù)最大化所需的p(z[n]=z|X, Q)是由以下算法獲得的。 這一方法是以HMM(隱馬爾可夫模型)來(lái)應(yīng)用稱作"Baum-Welch算法" 的方法。使用下式(6)的前向概率a—n(z)和下式(7)的后向概率P_n(z), 可由下式(8 )來(lái)計(jì)算p(z[n=z|X, Q)。前向概率c^n(z)和后向概率p_n(z) 是使用下式(9)和(10)、由高效的遞歸計(jì)算而獲得的。與HMM的 "Baum-Wdch算法"不同點(diǎn)在于g型不以獲得遷移概率為目的,而 且M型的潛在變量是取連續(xù)值的變量,而不是作為隱含狀態(tài)而處置的離 散變量。
<formula>formula see original document page 17</formula>然后獲得使如上計(jì)算出的Q函數(shù)G(Q, Q,)最大化的Q,(對(duì)應(yīng)于M步驟)。此處使用的算法依賴于P(Q),并且如果是基于馬爾可夫模型,則可 以像在維特比算法中那樣、以基于DP(Dynamic Programming,動(dòng)態(tài)編程) 的算法來(lái)優(yōu)化。如果Q,是包含可變數(shù)量的音拍長(zhǎng)度Q的模板的馬爾可夫 模型,則根據(jù)如時(shí)間同步維特比搜索或2階段動(dòng)態(tài)編程的給出P(Q)的模 型來(lái)選擇適當(dāng)?shù)乃惴?。從而獲得使Q函數(shù)最大化的音拍長(zhǎng)度Q。
因此,如果給出某發(fā)音時(shí)刻間隔IOI的序列X,則可以通過(guò)重復(fù)計(jì)算 前向概率a和后向概率p的E步驟和基于該a和p來(lái)獲得使Q函數(shù)最大 化的Q的M步驟,使Q函數(shù)或輔助函數(shù)收斂,以獲得與各發(fā)音時(shí)刻T 對(duì)應(yīng)的音拍長(zhǎng)度Q(Q-q[l]、 q[2.....q[M)。
一般地,在EM算法中,收斂的解依賴于為了開始重復(fù)的計(jì)算而給 出的初始值,因而提供初始值的方式對(duì)性能有重要影響??梢詫?duì)于音樂(lè)速 度而不是音拍而獲得給出初始值的有希望的線索。當(dāng)使用音頻信號(hào)的功率 的時(shí)間變化(功率包絡(luò))的自相關(guān)函數(shù)時(shí),認(rèn)為自相關(guān)大的周期具有較高的 該周期是音樂(lè)速度的概率,因而可使用使自相關(guān)的對(duì)象關(guān)系反映在概率的 大小關(guān)系上的音樂(lè)速度的概率分布。使用該音樂(lè)速度的初始概率分布Po(Z) 作為初始值,來(lái)應(yīng)用EM算法。
使用如上述獲得的音拍長(zhǎng)度Q^q[1、q[2.....q[M),基于音拍長(zhǎng)
度Q按需要對(duì)音拍的發(fā)音時(shí)刻進(jìn)行間插,以獲得音拍,從而獲得每一拍 或每?jī)膳难葑嗟囊襞摹?br> 以上說(shuō)明了根據(jù)本實(shí)施例的音拍分析方法的原理。根據(jù)該音拍分析方 法,即使音頻信號(hào)的音樂(lè)速度Z變化,也可獲得音頻信號(hào)的各位置處的 適當(dāng)?shù)囊襞拈L(zhǎng)度Qeq[l]、 q[2.....q[M)和音拍。
下面參照?qǐng)D8來(lái)詳細(xì)說(shuō)明使用上述音拍分析的音拍估計(jì)處理(圖6的 S20)的例子。圖8是示出了圖6的音拍估計(jì)處理S20的例子的流程圖。該 音拍估計(jì)處理S20可在發(fā)音時(shí)刻檢測(cè)處理(S10)后的任意定時(shí)處執(zhí)行。
如圖8所示,在發(fā)音時(shí)刻檢測(cè)處理S10中,首先,信號(hào)處理裝置10 的音拍長(zhǎng)度計(jì)算單元18計(jì)算檢測(cè)出的發(fā)音時(shí)刻T的間隔X(步驟S21)。具 體地,音拍長(zhǎng)度計(jì)算單元18從發(fā)音時(shí)刻存儲(chǔ)單元14中讀出在發(fā)音時(shí)刻檢 測(cè)處理(S10)中檢測(cè)出的多個(gè)發(fā)音時(shí)刻T(=t[l、t[2]、…、t[N),計(jì)算各發(fā)
音時(shí)刻t之間的差,并獲得發(fā)音時(shí)刻間隔(IOI)X(-x[l、x[2.....x[N)。
例如,通it^UL音時(shí)刻t[2中減去發(fā)音時(shí)刻t[ll,從而獲得發(fā)音時(shí)刻間隔 x[l。音樂(lè)速度概率分布設(shè)置單元16獲得音頻信號(hào)的功率包絡(luò)的自相關(guān)函 數(shù)(參見圖5)(步驟S22)。具體地,音樂(lè)速度概率分布設(shè)置單元16對(duì)所輸 入的音頻信號(hào)的功率(信號(hào)水平)進(jìn)行分析,以生成音頻信號(hào)的功率的時(shí)間 變化(即音頻信號(hào)的功率包絡(luò))。該功率包絡(luò)的生成處理與圖7的Sll相似, 因而省略其詳細(xì)說(shuō)明。音樂(lè)速度概率分布設(shè)置單元16可不獲得功率包絡(luò), 而是使用由發(fā)音時(shí)刻檢測(cè)單元12獲得的功率包絡(luò)。然后音樂(lè)速度概率分 布設(shè)置單元16獲得音頻信號(hào)的功率包絡(luò)的自相關(guān)函數(shù)。
而且,音樂(lè)iUL概率分布設(shè)置單元16使用在S22中獲得的音頻信號(hào) 的功率包絡(luò)的自相關(guān)函數(shù),來(lái)計(jì)算作為潛在變量的音樂(lè)速度Z的初始概 率分布P。(Z),并將該P(yáng)。(Z)設(shè)置為音樂(lè)速度Z的概率分布P(Z)的初始值(步 驟S23)。如上所述,利用功率包絡(luò)的自相關(guān)高的周期具有較高的概率能 成為音樂(lè)速度Z這一事實(shí),音樂(lè)速度概率分布設(shè)置單元16將該自相關(guān)函 數(shù)轉(zhuǎn)換成音樂(lè)速度Z的初始概率分布Po(Z)。
然后音拍長(zhǎng)度計(jì)算單元18設(shè)置目的函數(shù)P(QIX)和輔助函數(shù)(Q函 數(shù))(步驟S24)。目的函數(shù)P(QIX)是當(dāng)提供音頻信號(hào)所代表的音樂(lè)的發(fā)音時(shí) 刻間隔X時(shí)、發(fā)音時(shí)刻間隔X對(duì)應(yīng)于該音樂(lè)的音拍間的音拍長(zhǎng)度Q的概 率。換句話說(shuō),目的函數(shù)P(QIX)是當(dāng)提供音樂(lè)的發(fā)音時(shí)刻T時(shí)、發(fā)音時(shí) 刻T對(duì)應(yīng)于該音樂(lè)的音拍的概率。輔助函數(shù)(Q函數(shù))是這樣的函數(shù)其引 導(dǎo)音拍長(zhǎng)度Q的更新,以使目的函數(shù)P(QIX)單調(diào)增加(單調(diào)非減少)。具 體地,輔助函數(shù)(Q函數(shù))是使將音樂(lè)速度Z作為潛在變量并取潛在變量的 期待值而得的后驗(yàn)概率的對(duì)數(shù)單調(diào)增加(單調(diào)非減少)的音拍長(zhǎng)度Q的更 新算法。該輔助函數(shù)(Q函數(shù))是由上述EM算法而導(dǎo)出的(式(3)),且如 上所述可使用為適應(yīng)于音拍分析而修正的式(5)。
為了i兌明的方4更,以下式(11)來(lái)表達(dá)Q函數(shù)。對(duì)于式(11)的Q 函數(shù)中的音樂(lè)速度Z(潛在變量)的概率分布P(Z),將在S23中獲得的初始 概率分布P。(Z)用作初始值,此后,使用在如后面說(shuō)明的EM算法的E步 驟S26 ~ S28中獲得的P(Z|X, Q)。
。 = J>(Z) logZ I 。必...(11) P(Z) = P0(Z)
尸(z):尸(zi義,e)
然后音拍長(zhǎng)度計(jì)算單元18通過(guò)EM算法,使用輔助函數(shù)(Q函數(shù))來(lái)
19更新音拍長(zhǎng)度Q以將對(duì)數(shù)似然度log P(XIQ)引導(dǎo)至最大值。EM算法包括 獲得使Q函數(shù)最大化的Q的M步驟S25和估計(jì)音樂(lè)速度Z的概率分布 P(Z)并獲得Q函數(shù)的E步驟S26 ~ S28。
首先,在M步驟中音拍長(zhǎng)度計(jì)算單元18通過(guò)維特比算法或2階段 DP,如下式(12)那樣使輔助函數(shù)(Q函數(shù))最大化(步驟S25)。通過(guò)獲得 使Q函數(shù)最大化的Q,可估計(jì)與所給的發(fā)音時(shí)刻間隔X對(duì)應(yīng)的音拍長(zhǎng)度 Q。音拍的脫落/插入被包含于在該步驟S中獲得的音拍長(zhǎng)度Q中,直到 在步驟S29中判斷Q函數(shù)收斂為止。
^ = argmaxG(e,^') = argmax J>(Z). log尸(Z,Z 10') "Z …(12)
在E步驟S26 ~ S28中,音拍長(zhǎng)度計(jì)算單元18使用前向概率a和后 向概率p來(lái)高效地計(jì)算P(Zt|X, Q)。首先,通過(guò)前向算法來(lái)計(jì)算下式(13 ) 所示的前向概率a(步驟S26),然后通過(guò)后向算法來(lái)計(jì)算下式(14)所示 的后向概率P(步驟S27)。此后,音拍長(zhǎng)度計(jì)算單元18如式(15 )那樣將 前向概率a和后向概率p相乘,并獲得P(ZtlX, Q)。
A(z)^尸(Z,zlw",② …(13)
A(z) = P(H,...,^,0 …(14) p(A"l義,0xa"(z).A(z)…(15)
此后,音拍長(zhǎng)度計(jì)算單元18判斷Q函lbl否收斂(S29),如果不收斂 則返回步驟S25并重復(fù)EM算法,直到Q函數(shù)收斂為止(S25 ~ S29)。如 果Q函數(shù)收斂,則處理進(jìn)行到步驟S30,并將收斂的Q函數(shù)設(shè)為音拍長(zhǎng) 度Q(步驟S30)。
以下說(shuō)明根據(jù)本實(shí)施例的音拍分析方法??墒褂迷谏鲜鲆襞姆治鎏幚?中獲得的音拍長(zhǎng)度Q和發(fā)音時(shí)刻間隔X來(lái)計(jì)算音樂(lè)速度Z。可根據(jù)目的 通過(guò)以下方法來(lái)獲得最佳音樂(lè)速度Z。
例如,當(dāng)想要觀察演奏的細(xì)微波動(dòng)時(shí),將各發(fā)音時(shí)刻間隔X除以與 之對(duì)應(yīng)的音拍長(zhǎng)度Q,以準(zhǔn)確地獲得音樂(lè)速度Z作為一拍的時(shí)間(Z=X/Q)。
參照?qǐng)D9來(lái)說(shuō)明根據(jù)本實(shí)施例的、作為信號(hào)處理方法的一例的音樂(lè)速 度分析方法。圖9是示出根據(jù)本實(shí)施例的音樂(lè)速度分析方法的流程圖。如圖9所示,首先執(zhí)行發(fā)音時(shí)刻檢測(cè)處理(步驟S40),然后執(zhí)行音拍 估計(jì)處理(步驟S41)。該發(fā)音時(shí)刻檢測(cè)處理S40與圖7的處理S11~S16 相似,而音拍估計(jì)處理S41與圖8的處理S21 ~ S30相似,因而省略詳細(xì) 說(shuō)明。
然后將4發(fā)音時(shí)刻檢測(cè)處理S40中檢測(cè)出的發(fā)音時(shí)刻T獲得的各
發(fā)音時(shí)刻間隔X(-x[l、x[2.....x[N)除以在音拍估計(jì)處理S41中所得
的各音拍長(zhǎng)度Q(=q[l、q[2.....q[N),以獲得各音樂(lè)速度Z(=z[l、
z[2].....z[N)(步驟S42)。
如果在假設(shè)概率模型所模型化的音樂(lè)速度Z平滑地波動(dòng)這一特征的 情況下而獲得音樂(lè)速度Z,則可以通過(guò)下式(16)獲得模型中最有可能的 音樂(lè)速度Z。除了通過(guò)使音樂(lè)速度Z的波動(dòng)平滑而獲得的方法以外,還可 通過(guò)例如使平方誤差最小化以使音樂(lè)速度與恒定值或模板匹配的各種方 法來(lái)獲得音樂(lè)速度。
Z = argmax尸(義| Z,Q)'尸(Z) …(16) z
下面參照?qǐng)D10來(lái)說(shuō)明由根據(jù)本實(shí)施例的信號(hào)處理方法進(jìn)行的音拍和 音樂(lè)速度的分析結(jié)果的具體例子。圖10A示出在根據(jù)本實(shí)施例的信號(hào)處 理裝置10的顯示畫面上顯示音拍和音樂(lè)速度的分析結(jié)果的例子。圖10A 示出預(yù)處理后(發(fā)音時(shí)刻的檢測(cè)后、音樂(lè)速度色概率音拍分析前)、音拍分 析處理后的顯示畫面,圖IOB示出音拍分析后的顯示畫面。
如圖10A所示,音拍分析前的顯示畫面顯示有音頻信號(hào)的功率包絡(luò)、 從功率包絡(luò)檢測(cè)出的發(fā)音時(shí)刻X和從功率包絡(luò)的自相關(guān)獲得的音樂(lè)速度 Z的初始概率分布。在音拍分析前的圖IOA的階段,不顯示音拍的位置, 而音樂(lè)速度的概率分布不很明確(以縱軸方向的對(duì)比度來(lái)表現(xiàn)概率的高 低,白的部分比黑的部分具有更高的概率)。
在音拍分析后的顯示畫面上,以雙點(diǎn)劃線來(lái)顯示由音拍分析所估計(jì)的 音拍的位置。所估計(jì)的音拍與多個(gè)發(fā)音時(shí)刻X的與音樂(lè)的音拍對(duì)應(yīng)的一 部分的發(fā)音時(shí)刻X相匹配。關(guān)于所估計(jì)的音樂(lè)速度的概率分布,與圖10A 相比,概率高的白的部分呈帶狀清楚地顯示。進(jìn)而,音樂(lè)速度隨時(shí)間流逝 而逐漸降低,可精確地獲取數(shù)秒中音樂(lè)速度的變化。即使音頻信號(hào)的音樂(lè) 速度變化,也可根據(jù)該音樂(lè)速度的變化而適當(dāng)?shù)毓烙?jì)音拍。
如上所述,在根據(jù)本實(shí)施例的音拍分析方法中,對(duì)于檢測(cè)出的發(fā)音時(shí)刻T獲得最有可能的音拍并以概率方式估計(jì)音拍,以從音頻信號(hào)所表示 的音樂(lè)獲得音拍。即,當(dāng)給出音樂(lè)的發(fā)音時(shí)刻間隔X時(shí),設(shè)置目的函數(shù) P(QIX)和輔助函數(shù),該目的函數(shù)P(QIX)表示是音樂(lè)的音拍間的音拍長(zhǎng)度 Q的概率,該輔助函數(shù)引導(dǎo)使該目的函數(shù)P(QIX)單調(diào)增加的音拍長(zhǎng)度Q 的更新。重復(fù)使用輔助函數(shù)將對(duì)數(shù)似然度log P(XIQ)引導(dǎo)至最大值的更 新,以獲得使目的函數(shù)最大化的音拍。這樣可準(zhǔn)確地獲得音樂(lè)的音拍。
作為Q函數(shù)中包含的音樂(lè)速度Z的概率分布的初始值而應(yīng)用從音頻 信號(hào)的功率包絡(luò)的自相關(guān)函數(shù)獲得的音樂(lè)速度Z的初始概率分布,因而 可進(jìn)行健壯的音拍估計(jì)。
而且,即使在如音樂(lè)速度在一首音樂(lè)(例如, 一首樂(lè)曲)內(nèi)漸漸加快/ 放慢的音樂(lè)的音樂(lè)速度變化的情況下,也可才艮據(jù)該音樂(lè)速度的變化而獲得 適當(dāng)?shù)囊襞摹?br> 音拍和音樂(lè)速度是音樂(lè)的基本特征量,根據(jù)本實(shí)施例的音拍和音樂(lè)速 度分析方法在以下說(shuō)明的各種應(yīng)用中有用。
音樂(lè)的元數(shù)據(jù)的提供
如果存在大量的音樂(lè)內(nèi)^!t據(jù)(樂(lè)曲),則對(duì)這些樂(lè)曲的所有音樂(lè)速度 進(jìn)行標(biāo)記是非常繁重的工作。特別地,由于音樂(lè)速度一般在歌曲中間變化, 因而需要很大的努力來(lái)逐個(gè)音拍或逐個(gè)小節(jié)地對(duì)音樂(lè)iiA進(jìn)行標(biāo)記,il* 實(shí)際上不可能。在本實(shí)施例中,自動(dòng)地獲得每首樂(lè)曲的音樂(lè)速度和在樂(lè)曲 內(nèi)變化的音樂(lè)速度,并將其作為元數(shù)據(jù)而添加到音樂(lè)內(nèi)容,因而可減輕勞 動(dòng)量。
音樂(lè)搜索
可以以從音拍分析獲得的音樂(lè)速度或音拍作為如"音樂(lè)速度快的音 樂(lè)"、"八拍的音樂(lè)"等的問(wèn)題,應(yīng)用于音樂(lè)內(nèi)容的搜索。
音樂(lè)推薦
還可應(yīng)用于將喜愛(ài)的歌曲推薦給收聽者。例如,當(dāng)制作與用戶的喜愛(ài) 相匹配的播放列表時(shí),將音樂(lè)速度用作音樂(lè)的重要特征量。
樂(lè)曲的整理
此外,可基于音樂(lè)速度來(lái)計(jì)算樂(lè)曲的相似度。期望獲得音樂(lè)速度和音 拍的信息,以對(duì)用戶擁有的大量樂(lè)曲進(jìn)行自動(dòng)分類。
與舞蹈同通過(guò)得知音樂(lè)的音拍,可創(chuàng)建使得機(jī)器人等隨音樂(lè)的音拍跳舞的程 序。例如,正在開發(fā)具有音樂(lè)再現(xiàn)功能的機(jī)器人,該機(jī)器人在對(duì)音樂(lè)進(jìn)行 再現(xiàn)的同時(shí)自動(dòng)地進(jìn)行歌曲分析,并創(chuàng)建動(dòng)作,且在移動(dòng)的同時(shí)再現(xiàn)音樂(lè)
(動(dòng)作再現(xiàn))。為了使得該機(jī)器人隨音樂(lè)的音拍跳舞,檢測(cè)音樂(lè)的音拍, 且實(shí)際上分布包含音拍檢測(cè)功能的軟件??梢云诖鶕?jù)本實(shí)施例的音拍分 析方法進(jìn)一步強(qiáng)化了在該場(chǎng)景中使用的音拍檢測(cè)。
與圖片的幻燈片放映同步
在隨音樂(lè)呈現(xiàn)圖片的幻燈片放映中,要求使切換圖片的定時(shí)與切換音 樂(lè)的定時(shí)一致。根據(jù)本實(shí)施例的音拍分析,可提供音拍的發(fā)音時(shí)刻作為切 換圖片的定時(shí)的候選。
自動(dòng)記鐠
在樂(lè)譜中記述的基本要素是音高(音符的高度)和音拍(音符的長(zhǎng)度), 因而,通過(guò)將音高提取和根據(jù)本實(shí)施例的音拍估計(jì)組^來(lái),可將音樂(lè)變 換成樂(lè)鐠。
音樂(lè)分析
如在音樂(lè)分析技術(shù)的碼分析中那樣,可將音拍作為音頻信號(hào)(音樂(lè)/聲 音信號(hào))的觸發(fā)而分析各種音樂(lè)的特征。例如,以在本實(shí)施例中估計(jì)的音 拍作為單位、對(duì)音高提取和如音色的特征進(jìn)行分析,并對(duì)包含副部
(refrain)和重復(fù)模式在內(nèi)的樂(lè)曲的結(jié)構(gòu)進(jìn)行分析。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解根據(jù)設(shè)計(jì)需求和其它因素,可出現(xiàn)各種變 形、組合、子組合和修正,只要它們落入權(quán)利要求書或其等同物的范圍內(nèi)。
在上述實(shí)施例中,說(shuō)明了使用概率模型來(lái)應(yīng)用EM算法的例子,但 本發(fā)明不限于該概率模型的例子。例如,只要可導(dǎo)出基于與概率相同地對(duì) 花費(fèi)進(jìn)行正規(guī)化的參數(shù)(對(duì)應(yīng)于概率)、以及對(duì)于該模型所設(shè)置的目的函數(shù) (對(duì)應(yīng)于后驗(yàn)概率)的凸性(對(duì)應(yīng)于對(duì)數(shù)函數(shù))來(lái)使目的函數(shù)單調(diào)增加(或單 調(diào)減少)的輔助函數(shù)(對(duì)應(yīng)于Q函數(shù)),就可進(jìn)行與該實(shí)施例相似的應(yīng)用。
權(quán)利要求
1. 一種對(duì)音頻信號(hào)進(jìn)行處理的信號(hào)處理裝置,包括發(fā)音時(shí)刻檢測(cè)單元,用于基于音頻信號(hào)的水平來(lái)檢測(cè)發(fā)音時(shí)刻;和音拍長(zhǎng)度計(jì)算單元,用于通過(guò)設(shè)置目的函數(shù)P(Q|X)和輔助函數(shù)以及重復(fù)所述輔助函數(shù)的最大化以使得所述輔助函數(shù)收斂,來(lái)獲得音拍長(zhǎng)度Q,所述目的函數(shù)P(Q|X)表示當(dāng)給出所述發(fā)音時(shí)刻的間隔X時(shí)該間隔X是所述音拍長(zhǎng)度Q的概率,所述輔助函數(shù)用于引導(dǎo)造成所述目的函數(shù)P(Q|X)的單調(diào)增加的所述音拍長(zhǎng)度Q和音樂(lè)速度z二者的更新。
2. 根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中所述輔助函數(shù)是基于 所述音拍長(zhǎng)度Q的更新算法來(lái)設(shè)置的,其中將所述音頻信號(hào)的所述音樂(lè) 速度Z設(shè)為潛在變量,并使得后驗(yàn)概率P(QIX)的對(duì)數(shù)單調(diào)增加,該后驗(yàn) 概率P(QIX)是通過(guò)獲得所述潛在變量的期望值而獲得的。
3. 根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中所述音拍長(zhǎng)度計(jì)算單 元從EM算法來(lái)導(dǎo)出所述輔助函數(shù)。
4. 根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中所述音拍長(zhǎng)度計(jì)算單號(hào)的所述音樂(lè)速度Z的初始概率分布,并將該音樂(lè)速度Z的初始概率分 布用作所述輔助函數(shù)所含的所述音樂(lè)速度Z的概率分布的初始值。
5. 根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,進(jìn)一步包括音樂(lè)速度計(jì)算 單元,用于基于由所述音拍長(zhǎng)度計(jì)算單元獲得的所述音拍長(zhǎng)度Q和所述 間隔X來(lái)獲得所述音頻信號(hào)的所述音樂(lè)速度Z。
6. —種對(duì)音頻信號(hào)進(jìn)行處理的信號(hào)處理方法,包括以下步驟基于所述音頻信號(hào)的水平來(lái)檢測(cè)發(fā)音時(shí)刻;和通過(guò)設(shè)置目的函數(shù)P(QIX)和輔助函數(shù)以及重復(fù)所述輔助函數(shù)的最大 化以使得所述輔助函數(shù)收斂,來(lái)獲得音拍長(zhǎng)度Q,所述目的函數(shù)P(QIX) 表示當(dāng)給出所U音時(shí)刻的間隔X時(shí)該間隔X是所述音拍長(zhǎng)度Q的概率, 所述輔助函數(shù)用于引導(dǎo)造成所述目的函數(shù)P(QIX)的單調(diào)增加的所述音拍 長(zhǎng)度Q和音樂(lè)速度Z 二者的更新。
7. —種用于使計(jì)算機(jī)執(zhí)行以下步驟的程序 基于所述音頻信號(hào)的水平來(lái)檢測(cè)發(fā)音時(shí)刻;以及通過(guò)設(shè)置目的函數(shù)P(QIX)和輔助函數(shù)以及重復(fù)所述輔助函數(shù)的最大 化以使得所述輔助函數(shù)收斂,來(lái)獲得音拍長(zhǎng)度Q,所述目的函數(shù)P(QIX)所述輔助函數(shù)用于引導(dǎo)造成所述目的函數(shù)P(QIX)的單調(diào)增加的所述音拍 長(zhǎng)度Q和音樂(lè)速度Z二者的更新。
全文摘要
本發(fā)明提供了一種用于對(duì)音頻信號(hào)進(jìn)行處理的信號(hào)處理裝置,該信號(hào)處理裝置包括發(fā)音時(shí)刻檢測(cè)單元,用于基于所述音頻信號(hào)的水平來(lái)檢測(cè)發(fā)音時(shí)刻;和音拍長(zhǎng)度計(jì)算單元,用于通過(guò)如下方式來(lái)獲得音拍長(zhǎng)度Q設(shè)置目的函數(shù)P(Q|X)和輔助函數(shù),該目的函數(shù)P(Q|X)表示當(dāng)給出所述發(fā)音時(shí)刻的間隔X時(shí)該間隔X是所述音拍長(zhǎng)度Q的概率,該輔助函數(shù)用于引導(dǎo)造成所述目的函數(shù)P(Q|X)的單調(diào)增加的所述音拍長(zhǎng)度Q和音樂(lè)速度Z二者的更新;并重復(fù)所述輔助函數(shù)的最大化以使得所述輔助函數(shù)收斂。
文檔編號(hào)G10H1/40GK101452696SQ200810185718
公開日2009年6月10日 申請(qǐng)日期2008年12月8日 優(yōu)先權(quán)日2007年12月7日
發(fā)明者武田晴登 申請(qǐng)人:索尼株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
县级市| 湟源县| 兴义市| 葫芦岛市| 道真| 乌拉特后旗| 错那县| 抚松县| 祁阳县| 辽源市| 南投市| 新邵县| 山阳县| 宁海县| 鸡西市| 五峰| 贵溪市| 印江| 云霄县| 阿克苏市| 平舆县| 华容县| 喜德县| 漾濞| 阿克苏市| 枣强县| 犍为县| 江安县| 保定市| 永城市| 桂林市| 新竹市| 涞水县| 余庆县| 泰安市| 天祝| 内江市| 苍溪县| 宜城市| 玛纳斯县| 金门县|