專利名稱:基于音樂(lè)的搜索引擎的制作方法
基于音樂(lè)的搜索引擎交叉引用本申請(qǐng)要求2007年2月14日提交的標(biāo)題為"COLLABORATIVE MUSIC SHARING"(律師簽號(hào)026287-000300US )的共同未決的美國(guó)臨 時(shí)專利申請(qǐng)?zhí)?0/889,816以及2007年2月14日才是交的標(biāo)題為 "MUSIC-BASED SEARCH ENGINE"(律師簽號(hào)026287-000400US )的 共同未決的美國(guó)臨時(shí)專利申請(qǐng)?zhí)?0/889,821的優(yōu)先權(quán)利益,這兩個(gè)專利 申請(qǐng)由此通過(guò)引用被并入,如在本文件中為了所有的目的充分闡述的。本 申請(qǐng)要求2008年2月13日提交的Robert D.Taub等人的標(biāo)題為"MUSIC SCORE DECONSTRUCTION"(律師簽號(hào)026287-000500US )的美國(guó)臨時(shí) 專利申請(qǐng)?zhí)?1/028,490的優(yōu)先權(quán)利益。要求該臨時(shí)申請(qǐng)?zhí)峤蝗盏膬?yōu)先權(quán), 且該臨時(shí)申請(qǐng)的公開為了所有目的在這里通過(guò)引用被并入。本申請(qǐng)進(jìn) 一 步涉及2008年2月 14 日4是交的標(biāo)題為 "COLLABORATIVE MUSIC CREATION"(律師簽號(hào)026287-000310US )的共同未決的美國(guó)臨時(shí)專利申請(qǐng)?zhí)朹,其同本申請(qǐng)同時(shí)提交并由此通過(guò)引用被并入,如在本文件中為了所有的目的充分闡述的。背景本發(fā)明通常涉及音頻應(yīng)用,尤其是涉及基于音樂(lè)的搜索。通常,當(dāng)關(guān)于音頻(例如,藝術(shù)家、標(biāo)題等)的信息未知時(shí),找到 音頻樣本、專輯曲目或其它音頻信息可能是合乎需要的。例如,在廣播電 臺(tái)上聽到歌曲之后,人們可能希望在互聯(lián)網(wǎng)上找到該歌曲。如果人回想起 了旋律但不知道歌曲的名稱、歌曲的歌詞或甚至藝術(shù)家,則可能很難使用 傳統(tǒng)(例如,基于文本的)搜索引擎找到該歌曲。一些現(xiàn)有的搜索引擎可提供根據(jù)手工提供給數(shù)據(jù)庫(kù)的關(guān)于音頻成分 的元數(shù)據(jù)來(lái)組織音頻成分的能力。例如,可能給數(shù)據(jù)庫(kù)提供關(guān)于歌曲類別、 拍速、音高序列、音高音程序列、發(fā)行日期、藝術(shù)家等的信息。該信息可 接著由傳統(tǒng)搜索引擎使用來(lái)幫助找出特定的歌曲。然而,提供這種能力需 要手工(且常常主觀地)確定關(guān)于音頻成分的信息以及將該信息儲(chǔ)存到數(shù) 據(jù)庫(kù)。這往往可能效率低、不準(zhǔn)確,且就可得到什么類型的信息而言,是 受限的。
一些現(xiàn)有的搜索引擎可進(jìn)一步提供從某些類型的音頻文件提取元數(shù)
據(jù)的能力。例如,MPEG-7文件格式和其它文件格式可配置成儲(chǔ)存關(guān)于音 頻內(nèi)容的某些類型的信息。搜索引擎可接著能夠從文件的頭部信息中提取 上述信息。
又一些其它搜索引擎可提供按一個(gè)特定的高級(jí)模式給歌曲分組的能 力。例如,高級(jí)節(jié)奏拍號(hào)可從音頻信號(hào)的包絡(luò)提取,且那些高級(jí)拍號(hào)可用 于給歌曲分組。這可消除手工輸入某些類型的信息的需要,但可能仍然對(duì) 搜索有限制。 一個(gè)限制是,搜索可能限于單一非文本維度。例如,用戶可 能只能對(duì)節(jié)奏拍號(hào)進(jìn)行搜索,而成百萬(wàn)的歌曲可共享類似的節(jié)奏拍號(hào)。另 一限制是,單維搜索可能不足以元素化來(lái)才是供有用的結(jié)果。例如,用戶可 能希望啤合唱的旋律或敲打出節(jié)奏的一部分,這兩者可能都不可對(duì)照高級(jí) 模式來(lái)搜索。
至少由于這些原因,在基礎(chǔ)級(jí)別提供對(duì)音樂(lè)搜索的提高的能力可能 是合乎需要的。
概述
除了其它許多東西以外,還描述了基于音樂(lè)的搜索的方法、系統(tǒng)和 設(shè)備。
本發(fā)明的實(shí)施方式提供了各種特征和功能。 一些實(shí)施方式接受不同 類型的搜索輸入(例如,文本、音頻、樂(lè)譜圖像等)并產(chǎn)生不同類型的搜 索輸出(例如,文本列表、音頻輸出、樂(lè)譜輸出等)。本發(fā)明的其它實(shí)施方式支持對(duì)文本信息的智能解析、對(duì)音頻和樂(lè)譜圖像數(shù)據(jù)解構(gòu)來(lái)產(chǎn)生音樂(lè) 元素、正交和加權(quán)的搜索能力、以及纟艮多其它功能。其它實(shí)施方式配置成 在本地(例如,個(gè)人計(jì)算機(jī)或局域網(wǎng))操作;而在其它實(shí)施方式中,本發(fā) 明配置成遠(yuǎn)程(例如,通過(guò)互聯(lián)網(wǎng)或使用遠(yuǎn)程服務(wù)器)操作。其它實(shí)施方 式支持輸出功能,包括產(chǎn)生搜索結(jié)果的文本、樂(lè)譜、音頻輸出。
在一個(gè)實(shí)施方式中,提供了一種執(zhí)行音樂(lè)搜索的計(jì)算機(jī)方法。該方
法包括接收指定音樂(lè)元素的音樂(lè)查詢;根據(jù)接收到的音樂(lè)查詢所指定的 音樂(lè)元素來(lái)產(chǎn)生一組搜索參數(shù);將該組搜索參數(shù)導(dǎo)向包括很多數(shù)據(jù)記錄的 數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)記錄與 一樂(lè)曲以及與該樂(lè)曲所涉及的一組音樂(lè)元素有 關(guān),其中,與至少一個(gè)數(shù)據(jù)記錄相關(guān)的該組音樂(lè)元素包括從至少一首樂(lè)曲 解構(gòu)的數(shù)據(jù);識(shí)別數(shù)據(jù)庫(kù)中的一組匹配的數(shù)據(jù)記錄,該組匹配的數(shù)據(jù)記錄 包括匹配該組搜索參數(shù)的數(shù)據(jù)記錄;識(shí)別數(shù)據(jù)庫(kù)中的一組匹配的樂(lè)曲,該 組匹配的樂(lè)曲包括與該組匹配的數(shù)據(jù)記錄相關(guān)的樂(lè)曲;以及產(chǎn)生包括排列 在排序的列表中的匹配的樂(lè)曲的搜索輸出。
的其它特4正和優(yōu)點(diǎn)應(yīng)纟艮明顯。 附圖的簡(jiǎn)要說(shuō)明
參考下列附圖可實(shí)現(xiàn)對(duì)本發(fā)明的性質(zhì)和優(yōu)點(diǎn)的進(jìn)一步的理解。在附 圖中,相似的部件或特征可具有相同的參考符號(hào)。進(jìn)一步地,通過(guò)在參考 標(biāo)記后跟有破折號(hào)和區(qū)分開相似部件的第二標(biāo)記,可區(qū)分開相同類型的各 種部件。如果在說(shuō)明書中只使用第一參考標(biāo)記,則此描述適用于具有相同 的第一參考標(biāo)記的相似部件中的任一個(gè),而不考慮第二參考標(biāo)記。
圖1示出用于基于音樂(lè)的搜索的根據(jù)本發(fā)明構(gòu)造的系統(tǒng)的高級(jí)簡(jiǎn)化 結(jié)構(gòu)圖。
圖2示出根據(jù)本發(fā)明的用于基于音樂(lè)的搜索的示例性方法的流程圖。
圖3示出根據(jù)本發(fā)明的用于產(chǎn)生音頻搜索串的各種例證性類型的音 樂(lè)輸入。圖4A示出根據(jù)本發(fā)明的用于解構(gòu)音樂(lè)輸入數(shù)據(jù)的方法的流程圖。 圖4B示出根據(jù)本發(fā)明的用于解構(gòu)音樂(lè)微元素的方法的實(shí)施方式。
例性系統(tǒng)的簡(jiǎn)化結(jié)構(gòu)圖。
圖5B示出根據(jù)本發(fā)明的音頻解構(gòu)單元的一個(gè)實(shí)施方式的低級(jí)結(jié)構(gòu)圖。
圖6A示出根據(jù)本發(fā)明處理音樂(lè)圖像數(shù)據(jù)以提供光學(xué)字符識(shí)別 (OCR)特征的示例性系統(tǒng)。
圖6B示出從圖6A所示捕獲設(shè)備產(chǎn)生的、作為輸入提供到OCR處理 器的示例性圖像數(shù)據(jù)。
圖7示出根據(jù)本發(fā)明的基于音樂(lè)的搜索引擎的GUI的實(shí)施方式。
圖8提供用于實(shí)現(xiàn)本發(fā)明的某些實(shí)施方式的計(jì)算系統(tǒng)的結(jié)構(gòu)圖。
圖9示出根據(jù)本發(fā)明的作為手持式消費(fèi)電子設(shè)備的產(chǎn)品的例證性實(shí) 施方式。
圖IO提供示出與圖9所示設(shè)備類似的設(shè)備的實(shí)施方式的操作的簡(jiǎn)化 處理流程圖。
詳細(xì)描述
該描述僅提供示例性實(shí)施方式,且不是用來(lái)限制本發(fā)明的范圍、適 用性或配置。更確切地,實(shí)施方式的隨后描述將給本領(lǐng)域技術(shù)人員提供用 于實(shí)現(xiàn)本發(fā)明實(shí)施方式的可^f亍的描述??稍谠墓δ芎筒贾蒙线M(jìn)行各種 變化,而不偏離本發(fā)明的實(shí)質(zhì)和范圍。
因此,不同實(shí)施方式可在適合時(shí)省略、替換或添加不同的程序或部 件。例如,應(yīng)認(rèn)識(shí)到,在可選實(shí)施方式中,可按不同于所描述的順序執(zhí)行 方法,并可添加、省略或合并不同的步驟。此外,關(guān)于某些實(shí)施方式描述 的特征,可合并在不同的其它實(shí)施方式中。實(shí)施方式的不同方面和元件可按類似的方式合并。
還應(yīng)認(rèn)識(shí)到,下面的系統(tǒng)、方法和軟件可單獨(dú)地或共同為一較大系 統(tǒng)的部件,其中其它程序可優(yōu)于其應(yīng)用,或以其他方式更改其應(yīng)用。此外, 在下面的實(shí)施方式之前、之后或與其同時(shí),可能需要一定數(shù)量的步驟。
綜述
本發(fā)明的實(shí)施方式提供了關(guān)于基于音樂(lè)的搜索的新功能。在一方面,
本發(fā)明的技術(shù)可被實(shí)現(xiàn)為網(wǎng)絡(luò)站點(diǎn),例如門戶網(wǎng)站或內(nèi)聯(lián)網(wǎng)(LAN)站 點(diǎn)。在其它方面,本發(fā)明可被設(shè)置為客戶端軟件、對(duì)現(xiàn)有4叟索環(huán)境的附加 功能或?qū)S迷O(shè)備和系統(tǒng)。
本發(fā)明的實(shí)施方式提供了各種特征和功能。 一些實(shí)施方式接受不同 類型的搜索輸入(例如,文本、音頻、樂(lè)譜圖像等)并產(chǎn)生不同類型的搜 索輸出(例如,文本列表、音頻輸出、樂(lè)譜輸出等)。在某些實(shí)施方式中, 本發(fā)明支持對(duì)文本信息的智能解析、解構(gòu)音頻和樂(lè)譜圖像數(shù)據(jù)來(lái)產(chǎn)生音樂(lè) 元素、正交和加權(quán)的搜索能力、以及很多其它功能。本發(fā)明的一些實(shí)施方 式配置成在本地(例如,個(gè)人計(jì)算機(jī)或局域網(wǎng))搡作;而在其它實(shí)施方式 中,本發(fā)明配置成遠(yuǎn)程(例如,通過(guò)互聯(lián)網(wǎng)或使用遠(yuǎn)程服務(wù)器)操作。又 一些其它實(shí)施方式支持輸出功能,包括產(chǎn)生4叟索結(jié)果的文本、樂(lè)譜、音頻 輸出。
圖1示出用于基于音樂(lè)的搜索的根據(jù)本發(fā)明構(gòu)造的系統(tǒng)100的高級(jí) 簡(jiǎn)化結(jié)構(gòu)圖。系統(tǒng)100包括通過(guò)網(wǎng)絡(luò)110連接到多個(gè)工作站104的搜索引 擎160。工作站104可通過(guò)用戶界面訪問(wèn)搜索引擎。網(wǎng)絡(luò)110可為多個(gè)工 作站104之間的通信的任何服務(wù)商。例如,網(wǎng)絡(luò)IIO可為互聯(lián)網(wǎng)或局域網(wǎng) (LAN)。在某些實(shí)施方式中,搜索引擎160可駐留在工作站104 (未示 出)上并可配置成搜索駐留在工作站104上的凄t據(jù)或?qū)ぷ髡?04遠(yuǎn)程的 數(shù)據(jù)。
工作站104可為配置成與網(wǎng)絡(luò)IIO通信并接收搜索輸入102的任何設(shè) 備或系統(tǒng)。在一些實(shí)施方式中,工作站104是多功能設(shè)備。例如,工作站 104可為計(jì)算機(jī)(例如,膝上型計(jì)算機(jī)、桌上型計(jì)算機(jī)等)。在其它實(shí)施方式中,工作站104是專用設(shè)備。例如,工作站104可為專用便攜式設(shè)備, 其特別凈歧展來(lái)提供基于音樂(lè)的搜索引擎,包括接收搜索輸入102和與網(wǎng) 絡(luò)110通信,以及產(chǎn)生搜索輸出106。在某些實(shí)施方式中,工作站104是, 或提供,用于輸入音頻、樂(lè)譜信息、文本或其它作為搜索輸入的信息的接 口。例如,工作站104可為電子吉他、數(shù)字音頻部件或用于記錄樂(lè)譜的圖 像的攝像頭的直接網(wǎng)絡(luò)接口 。
應(yīng)認(rèn)識(shí)到,根據(jù)本發(fā)明,存在工作站104接收搜索輸入102的很多 方式。例如,可通過(guò)內(nèi)部或外部麥克風(fēng)、線路電平音頻端口、文件傳輸(例 如,來(lái)自固定的或可移除的存儲(chǔ)器,或通過(guò)網(wǎng)絡(luò))、樂(lè)譜圖像捕獲設(shè)備等 接收^臾索輸入102。下面進(jìn)一步討論音樂(lè)1#入實(shí)施方式。搜索輸入可包括 查詢,其被導(dǎo)向數(shù)據(jù)庫(kù)以找出包括搜索引擎輸出的匹配。
在一些實(shí)施方式中,工作站104配置成產(chǎn)生搜索輸出106。在一個(gè)實(shí) 施方式中,搜索輸出106包括配置成通過(guò)揚(yáng)聲器播放的音頻輸出。在另一 實(shí)施方式中,搜索輸出106包括配置成被儲(chǔ)存、播放和/或在網(wǎng)絡(luò)上共享 的音頻文件。在又一實(shí)施方式中,搜索輸出106包括由其它相容的系統(tǒng)使 用的音樂(lè)元素?cái)?shù)據(jù)(例如,音高、音程、拍速、音調(diào)、振幅等)。在再一 實(shí)施方式中,搜索輸出106包括樂(lè)譜表示數(shù)據(jù),其配置成由樂(lè)譜編輯軟件 使用、#皮發(fā)送到文件編輯或7>布系統(tǒng)、或#1打印。在又一實(shí)施方式中,搜 索輸出106包括搜索結(jié)果的一維或多維列表。
根據(jù)搜索輸入102的類型,從搜索輸入102解構(gòu)音樂(lè)元素可能是合 乎需要的。在一個(gè)例子中,搜索輸入102被作為音頻信號(hào)接收(例如,搜 索者使用吉他朝麥克風(fēng)演奏主調(diào)旋律)。在另一例子中,搜索輸入102被 作為樂(lè)譜的被掃描的圖像接收。在任一例子中,從搜索輸入102解構(gòu)出音 樂(lè)元素以用于產(chǎn)生搜索參數(shù)可能是合乎需要的。下面更充分描述音樂(lè)(例 如,音頻和樂(lè)鐠)解構(gòu)。
- 在一些實(shí)施方式中,系統(tǒng)100包括用于提供音樂(lè)解構(gòu)功能的一個(gè)或 多個(gè)音樂(lè)解構(gòu)單元120。在某些實(shí)施方式中,音樂(lè)解構(gòu)單元120駐留在工 作站104上。例如,音樂(lè)解構(gòu)單元120可被實(shí)現(xiàn)為客戶級(jí)軟件。在這些實(shí) 施方式中,搜索輸入102在被通過(guò)網(wǎng)絡(luò)IIO發(fā)送到搜索引擎160之前,可
12被解構(gòu)成音樂(lè)元素。在其它實(shí)施方式中,音樂(lè)解構(gòu)單元120可設(shè)置為搜索 引擎160的一部分(例如,元件120-2)。搜索輸入102可在工作站104 被接收,通過(guò)網(wǎng)絡(luò)110被發(fā)送到搜索引擎160,并接著在搜索引擎160被 解構(gòu)成音樂(lè)元素。
在某些實(shí)施方式中,^_索引擎160可與一個(gè)或多個(gè)凄t據(jù)存儲(chǔ)器115 操作性地通信。在一些實(shí)施方式中,搜索引擎160通過(guò)網(wǎng)絡(luò)110與數(shù)據(jù)存 儲(chǔ)器115通信。在其它實(shí)施方式中,搜索引擎160與數(shù)據(jù)存儲(chǔ)器115直接 通信。數(shù)據(jù)存儲(chǔ)器115可配置成存儲(chǔ)關(guān)于搜索輸入102或搜索輸出106 的一種或多種類型的信息。例如,數(shù)據(jù)存儲(chǔ)器115可配置成存儲(chǔ)原始音頻 文件(例如,包含數(shù)字化音頻信號(hào)凄d居的文件)、編碼的音頻文件(例如, 包含關(guān)于文件內(nèi)容數(shù)據(jù)或音頻信號(hào)數(shù)據(jù)的元數(shù)據(jù)的文件)、音樂(lè)元素信息 (例如,儲(chǔ)存在多維關(guān)系數(shù)據(jù)庫(kù)中的、與其相應(yīng)的音樂(lè)稿件相關(guān)的被解構(gòu) 的音樂(lè)元素)等。
應(yīng)認(rèn)識(shí)到,在本發(fā)明的實(shí)施方式中,某些類型的數(shù)據(jù)安全可能是合 乎需要的。在一些實(shí)施方式中,數(shù)據(jù)存儲(chǔ)器115配置成使用某些類型的數(shù) 據(jù)安全(例如,加密、口令保護(hù)等)來(lái)存儲(chǔ)數(shù)據(jù)。在其它實(shí)施方式中,系 統(tǒng)100的不同部件之間的物理和虛擬通信鏈才妄是安全的(例如,通過(guò)安全 套接層加密)。例如,搜索引擎160和工作站104之間或4叟索引擎160和 數(shù)據(jù)存儲(chǔ)器115之間的網(wǎng)絡(luò)通信可能是安全的。在又一些其它實(shí)施方式 中,搜索輸出106可被保護(hù)以防止復(fù)制、刪除等。例如,某些數(shù)字版權(quán)管 理(DRM)技術(shù)可用于限制搜索輸出106文件的未經(jīng)授權(quán)的復(fù)制或共享。
在一些實(shí)施方式中,搜索引擎160通過(guò)網(wǎng)絡(luò)接口單元150與網(wǎng)絡(luò)110 進(jìn)行通信。網(wǎng)絡(luò)接口單元150的某些實(shí)施方式通過(guò)提供某些類型的網(wǎng)絡(luò)功 能來(lái)促進(jìn)搜索引擎160和網(wǎng)絡(luò)IIO之間的通信。例如,網(wǎng)絡(luò)接口單元150 可發(fā)送和/或解譯網(wǎng)絡(luò)業(yè)務(wù),以允許搜索引擎160的有效合作、文件傳輸 和其它能力。
網(wǎng)絡(luò)接口單元150的各種實(shí)施方式提供了增強(qiáng)的能力。在一些實(shí)施 方式中,網(wǎng)絡(luò)接口單元150配置成通過(guò)網(wǎng)絡(luò)110 4妄收和處理來(lái)自工作站 104的登錄信息。在一個(gè)實(shí)施方式中,登錄信息用于驗(yàn)證工作站104的用戶,以確定用戶對(duì):t叟索引擎160的訪問(wèn)權(quán)。訪問(wèn)權(quán)可確定例如是否用戶可
進(jìn)入搜索引擎160,用戶可訪問(wèn)哪些文件,用戶可使用搜索引擎160的哪 些功能,等等。
應(yīng)認(rèn)識(shí)到,根據(jù)本發(fā)明,搜索引擎160的很多實(shí)施方式是可能的。 在一些實(shí)施方式中,搜索引擎160配置成通過(guò)網(wǎng)頁(yè)瀏覽器被使用,并且可 通過(guò)網(wǎng)絡(luò)地址定位。在這些實(shí)施方式的某些中,搜索引擎160配置成可擴(kuò) 展到很多不同的瀏覽環(huán)境(例如,通過(guò)用XML、 HTML或另一可擴(kuò)展標(biāo) 記語(yǔ)言編寫的)。在其它實(shí)施方式中,搜索引擎160被實(shí)現(xiàn)為駐留在工作 站104上的客戶端應(yīng)用程序。在這些實(shí)施方式中,可在服務(wù)器上實(shí)現(xiàn)某種 功能(例如,文件管理),而在客戶工作站104上進(jìn)行很多搜索處理。在 又一些其它實(shí)施方式中,搜索引擎160可駐留在局域網(wǎng)的分離的網(wǎng)絡(luò)服務(wù) 器上,或工作站104可用于向網(wǎng)絡(luò)提供應(yīng)用。
搜索引擎160的實(shí)施方式包括搜索接口單元130。在各種實(shí)施方式中, 搜索接口單元130配置成執(zhí)行搜索引擎160的核心功能,包括輸入和查詢 處理、搜索參數(shù)化、結(jié)果檢索和排序、結(jié)果顯示等。下面更充分描述搜索 接口單元130的實(shí)施方式和功能。
搜索引擎160的實(shí)施方式進(jìn)一步包括輸出產(chǎn)生單元140。在一些實(shí)施 方式中,輸出產(chǎn)生單元140可配置成從4叟索接口單元130接收輸出,并產(chǎn) 生輸出數(shù)據(jù)。由輸出產(chǎn)生單元140產(chǎn)生的數(shù)據(jù)可被傳遞到數(shù)據(jù)存儲(chǔ)器115 (例如,直接地或通過(guò)網(wǎng)絡(luò)110)或工作站104。在一些實(shí)施方式中,由 輸出產(chǎn)生單元140產(chǎn)生的輸出數(shù)據(jù)可為搜索輸出106。在其它實(shí)施方式中, 由輸出產(chǎn)生單元140產(chǎn)生的輸出數(shù)據(jù)可由工作站104使用來(lái)產(chǎn)生搜索輸出 106。
圖2示出才艮據(jù)本發(fā)明的用于基于音樂(lè)的搜索的示例性方法200的流 程圖。使用如圖1所示系統(tǒng)100的系統(tǒng)可實(shí)現(xiàn)方法200的一些實(shí)施方式。 方法200在塊202通過(guò)接收音樂(lè)查詢輸入而開始。在各種實(shí)施方式中,在 塊202接收的音樂(lè)查詢輸入可包括文本輸入102-1、音頻輸入102-2 (例 如,音頻信號(hào)或音頻文件)和/或樂(lè)語(yǔ)輸入102-1 (例如,音樂(lè)元素?cái)?shù)據(jù)的 樂(lè)譜圖像或樂(lè)譜輸入)。
14在塊204,方法200處理查詢輸入以產(chǎn)生在基于音樂(lè)的搜索中使用的 數(shù)據(jù)。在一些實(shí)施方式中,音頻輸入102-2或樂(lè)譜輸入102-3被解構(gòu),以 產(chǎn)生一組可識(shí)別的音樂(lè)元素。在其它實(shí)施方式中,文本輸入102-1可^^皮解 析和以其他方式處理,以將查詢轉(zhuǎn)換成可識(shí)別的音樂(lè)元素。在塊204的很 多其它類型的處理是可能的,包括,例如,標(biāo)準(zhǔn)化音頻信號(hào)或移除噪聲以 幫助解構(gòu),評(píng)估任何被提供的信息是否與其它纟皮提供的信息不相容或不一 致。
在一些實(shí)施方式中,方法200進(jìn)一步在塊206接收一組查詢偏好。 在某些實(shí)施方式中,查詢偏好包括對(duì)各種搜索元素的一組加權(quán)偏好。例如, 搜索者可能想要具有每分鐘大約100拍的拍速(bpm)以及優(yōu)選地小號(hào)旋 律的所有爵士歌曲。搜索者可搜索所有那些元素,但給小號(hào)元素較低的加 權(quán)。因此,具有在優(yōu)選范圍之外的拍速的爵士小號(hào)演奏可能被排列成低于 沒(méi)有小號(hào)旋律的在100 bpm的爵士演奏。
應(yīng)認(rèn)識(shí)到,根據(jù)本發(fā)明,很多類型的加權(quán)和偏好是可能的。例如, 搜索者可搜索出現(xiàn)在演奏的第一分鐘內(nèi)的某個(gè)時(shí)間的信息。對(duì)于另 一例 子,搜索者可提供音頻和文本輸入(例如,搜索者使用鍵盤給搜索引擎演 奏一主調(diào)旋律,并通過(guò)使用文本輸入字段告訴搜索引擎只在古典音樂(lè)中尋 找),且與音頻輸入相比,對(duì)文本輸入更強(qiáng)地加權(quán)。
在塊208,方法200可使用在塊202接收的輸入和在塊206接收的偏 好來(lái)產(chǎn)生一組搜索參數(shù)。在一些實(shí)施方式中,在塊208產(chǎn)生搜索參數(shù)僅僅 包括對(duì)從塊202和206接收的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。例如,解構(gòu)的音樂(lè)元素、解 析的文本數(shù)據(jù)和其它信息可轉(zhuǎn)換成對(duì)數(shù)據(jù)庫(kù)運(yùn)行的查詢語(yǔ)言。在其它實(shí)施
方式中,在塊208產(chǎn)生搜索參數(shù)包括對(duì)從塊202和206接收的數(shù)據(jù)進(jìn)行解 譯。例如,如果搜索者朝搜索引擎吹出一旋律,則搜索引擎可確定搜索者 是打算表達(dá)一旋律、表達(dá)拍速或節(jié)奏、表達(dá)歌曲是通過(guò)吹口哨表演的還是 一些其它信息或信息的組合。在又一些其它實(shí)施方式中,在塊208產(chǎn)生搜 索參數(shù)可包括例如評(píng)估布爾運(yùn)算、將明語(yǔ)輸入轉(zhuǎn)換成與查詢相容的輸入 等。
—旦在塊208產(chǎn)生了搜索參數(shù),方法200就可在塊210運(yùn)行搜索,并接收搜索結(jié)果。塊210的實(shí)施方式可對(duì)一個(gè)或多個(gè)預(yù)定的數(shù)據(jù)庫(kù)、對(duì)數(shù) 據(jù)的網(wǎng)絡(luò)(例如,通過(guò)互聯(lián)網(wǎng)可得到的翁:據(jù))、對(duì)本地?cái)?shù)據(jù)存儲(chǔ)器或?qū)θ?何其它計(jì)算機(jī)可訪問(wèn)的地點(diǎn)運(yùn)行搜索,以找到可搜索的音樂(lè)數(shù)據(jù)。某些實(shí) 施方式通過(guò)返回音頻文件來(lái)返回結(jié)果,而其它實(shí)施方式將返回對(duì)音頻文件 的指針、與音頻文件有關(guān)的文本或樂(lè)譜表示信息、或任何其它有用的信息。
在塊212,方法200排序并顯示結(jié)果。應(yīng)認(rèn)識(shí)到,才艮據(jù)本發(fā)明可用很 多方法來(lái)執(zhí)行對(duì)結(jié)果的排序。結(jié)果排序可能涉及在確定音樂(lè)元素中(例如, 在所儲(chǔ)存的數(shù)據(jù)中或在搜索輸入中)的置信度值、所匹配的參數(shù)的數(shù)量以 及匹配到什么程度、用戶所提供或搜索引擎推斷的加權(quán)和其它偏好。
在一些情況下,塊212可能產(chǎn)生搜索者不希望有的或不符合某組要 求的結(jié)果列表。例如,該列表從用戶的觀點(diǎn)來(lái)看可能無(wú)趣、太多、太短、 順序不正確等。因此,在塊214,方法200確定是否修改搜索。在一些實(shí) 施方式中,搜索者決定修改搜索(例如,通過(guò)添加或更改現(xiàn)有的搜索參數(shù)), 而在其它實(shí)施方式中,搜索引擎根據(jù)結(jié)果參數(shù)自動(dòng)修改搜索。例如,假定 搜索者對(duì)在吉他上演奏的某些類型的歌曲查詢搜索引擎,但沒(méi)有搜索結(jié)果 返回。搜索引擎可自動(dòng)修改搜索,以包括在其它樂(lè)器例如班卓琴、貝司或 錫塔爾琴上演奏的歌曲。在使用修改的搜索找到結(jié)果之后,搜索引擎可給 搜索者返回有點(diǎn)象下列內(nèi)容的通知"你對(duì)吉他的搜索"返回O個(gè)結(jié)果。 將搜索擴(kuò)展到包括"班卓琴",產(chǎn)生12個(gè)結(jié)果。點(diǎn)擊[這里],顯示"班卓 琴的結(jié)果"??赏ㄟ^(guò)搜索引擎產(chǎn)生其它自動(dòng)搜索修改。
如果方法200在塊214確定了應(yīng)》務(wù)改搜索,則可在塊216接收到新 的或更改的輸入。這些新的或更改的輸入可在塊208到塊212^f吏用,以產(chǎn) 生具有新結(jié)果的搜索。因此,用戶可能想要提交包括新的或更改的輸入的 額外的查詢。搜索可因此以反復(fù)的方式進(jìn)行。
如果方法200在塊214確定了不應(yīng)^f'務(wù)改搜索(例如,搜索者以接收 到的結(jié)果繼續(xù)進(jìn)行或結(jié)果滿足了結(jié)果參數(shù)),則可在塊218輸出或解構(gòu)搜 索結(jié)果。在一些實(shí)施方式中,所接收的結(jié)果包括音頻文件、樂(lè)譜圖像或其 它信息。在這些實(shí)施方式的某些中,對(duì)結(jié)果進(jìn)行解構(gòu)以產(chǎn)生某些輸出,這 可能是合乎需要的(例如,與某些音樂(lè)元素106-1有關(guān)的文本輸出、具有某些參數(shù)106-2的音頻輸出、樂(lè)譜表示輸出106-3等)。
應(yīng)認(rèn)識(shí)到,關(guān)于圖1和2描述的實(shí)施方式用來(lái)提供本發(fā)明的示例性 結(jié)構(gòu)和示例性功能的綜述。因此,上面提供的描述不應(yīng)被解釋為限制本發(fā) 明的范圍。為了另外的清楚,下面進(jìn)一步討論確定的功能的進(jìn)一步描述。
搜索輸入
用于產(chǎn)生音樂(lè)稿件的很多不同類型的搜索輸入是可能的。圖3示出 根據(jù)本發(fā)明的用于產(chǎn)生音樂(lè)稿件的各種例證性類型的搜索輸入102。應(yīng)認(rèn) 識(shí)到,圖3所示的搜索輸入設(shè)備只提供很多可能的搜索輸入設(shè)備中的一 些,且不應(yīng)被解釋為限制本發(fā)明的能力。
搜索輸入的一個(gè)實(shí)施方式包括原始音頻文件302。原始音頻文件302 可包括被數(shù)字化成數(shù)字信號(hào)表示的音頻信號(hào)數(shù)據(jù)。例如,數(shù)字信號(hào)信息可 包括樣本,每個(gè)樣本有時(shí)間戳和電壓電平,其中該樣本代表音頻信號(hào)的模 擬版本。在其它例子中,數(shù)字信號(hào)信息可被編碼,以在算法上(例如,包 括誤差校正信息、編解碼信息等)表示音頻信號(hào)。
搜索輸入的另一實(shí)施方式包括增強(qiáng)型音頻文件304。增強(qiáng)型音頻文件 304可包括補(bǔ)充或代替存在于原始音頻文件302中的數(shù)據(jù)的信息。在某些 實(shí)施方式中,增強(qiáng)型音頻文件304可包括關(guān)于該文件的內(nèi)容、其格式或其 它有用信息的元數(shù)據(jù)。例如,元數(shù)據(jù)可包括手工輸入的關(guān)于音頻文件的信 息,包括聲道名稱、專輯名稱、藝術(shù)家名稱、風(fēng)格等。在另一例子中,元 數(shù)據(jù)可與其它系統(tǒng)相容(例如,專輯序列號(hào)和歌曲的聲道號(hào)可被提供到元 數(shù)據(jù)中,以允許某個(gè)數(shù)據(jù)庫(kù)搜索來(lái)返回關(guān)于歌曲的其它信息,例如其標(biāo) 題)。
通過(guò)將原始音頻文件302傳送通過(guò)編碼器330來(lái)產(chǎn)生增強(qiáng)型音頻文 件304的一些實(shí)施方式。例如,增強(qiáng)型音頻文件304可由MPEG-7編碼 器產(chǎn)生,MPEG-7編碼器可使用XML來(lái)存儲(chǔ)元數(shù)據(jù)并將元數(shù)據(jù)附到增強(qiáng) 型音頻文件304內(nèi)的某些時(shí)間戳。在其它實(shí)施方式中,通過(guò)將原始音頻文 件302傳送通過(guò)音頻解構(gòu)器320,可產(chǎn)生增強(qiáng)型音頻文件304。音頻解構(gòu) 器320可從原始音頻文件302解構(gòu)音樂(lè)元素(如下面更充分描述的),并將它們儲(chǔ)存在增強(qiáng)型音頻文件304中。
搜索輸入的又一實(shí)施方式包括來(lái)自相容的樂(lè)器306的數(shù)字化輸出。 在一個(gè)實(shí)施方式中,樂(lè)器數(shù)字接口 (MIDI)裝置(例如鍵盤)用于產(chǎn)生 MIDI數(shù)據(jù)。MIDI數(shù)據(jù)可包括音樂(lè)元素。在一些情況下,所包括的音樂(lè) 元素可用于產(chǎn)生其它音樂(lè)元素。例如,MIDI數(shù)據(jù)可包括音符音高,而該 音符音高可^皮分析來(lái)確定音調(diào)。在其它實(shí)施方式中,相容的樂(lè)器306可操 作來(lái)以可用的格式輸出數(shù)據(jù)。例如,鍵盤可具有可與其它部件相容的數(shù)字 同軸、光學(xué)或其它類型的輸出。
搜索輸入的又一實(shí)施方式包括來(lái)自傳感器308的模擬輸出。在一個(gè) 實(shí)施方式中, 一個(gè)或多個(gè)麥克風(fēng)用于檢測(cè)一個(gè)或多個(gè)樂(lè)器所產(chǎn)生的壓力 波,并將它們轉(zhuǎn)換成模擬音頻信號(hào)。在另一實(shí)施方式中,電磁拾音器用于 將電吉他的鋼弦中的運(yùn)動(dòng)轉(zhuǎn)換成模擬音頻信號(hào)。
搜索輸入的另一實(shí)施方式甚至包括可編輯的樂(lè)譜文件310??删庉嫷?樂(lè)譜文件310可為包括可編輯的樂(lè)譜數(shù)據(jù)的任何類型的文件。例如,可編 輯的樂(lè)譜文件310可使用樂(lè)譜編輯軟件340來(lái)產(chǎn)生。搜索輸入的一些實(shí)施 方式包括樂(lè)譜圖像312。樂(lè)譜圖像312的實(shí)施方式可包括任何類型的可用 數(shù)字圖像。在一個(gè)實(shí)施方式中,樂(lè)譜圖像312是打印出的物理樂(lè)譜的數(shù)字 化表示(例如,活頁(yè)樂(lè)語(yǔ)),其通過(guò)借助于圖像捕獲設(shè)備(例如,掃描儀、 數(shù)碼照相機(jī)或視頻攝像機(jī)等)將打印出的樂(lè)譜轉(zhuǎn)換成數(shù)字圖像來(lái)產(chǎn)生。在 其它實(shí)施方式中,通過(guò)將樂(lè)譜圖像312傳送通過(guò)樂(lè)譜解構(gòu)器350來(lái)將樂(lè)譜 圖像312轉(zhuǎn)換成可編輯的樂(lè)譜文件310。樂(lè)語(yǔ)解構(gòu)器350可操作來(lái)從樂(lè)譜 圖像解構(gòu)音樂(lè)元素,如下面更充分描述的。
搜索輸入的其它實(shí)施方式包括一個(gè)或多個(gè)文本查詢314。文本查詢 314可包括任何類型的文本數(shù)據(jù),其可被解i奪為對(duì)基于音樂(lè)的搜索的搜索 查詢。在一個(gè)實(shí)施方式中,文本查詢314包4舌以查詢語(yǔ)言i殳計(jì)的文本,該 查詢語(yǔ)言配置成^f皮解碼成搜索參^t。在另一實(shí)施方式中,文本查詢314 包括明語(yǔ)數(shù)據(jù)。在又一實(shí)施方式中,文本查詢314包括其它參數(shù),例如布 爾算子、字段名、特殊字符等。在某些實(shí)施方式中,文本查詢314被傳輸 通過(guò)文本解析器360或其它文本處理單元,以產(chǎn)生搜索輸入。在某些實(shí)施方式中,編碼器330、音頻解構(gòu)器320、樂(lè)譜解構(gòu)器350、 樂(lè)譜編輯器340、文本解析器360或其它應(yīng)用可駐留在工作站104、服務(wù) 器計(jì)算才幾上或網(wǎng)絡(luò)IIO上。在其它實(shí)施方式中,音樂(lè)輸入102可以是或可 用于產(chǎn)生基于音樂(lè)的搜索的可搜索的元素。在某些實(shí)施方式中,可搜索的 元素可儲(chǔ)存在搜索數(shù)據(jù)庫(kù)115中,作為對(duì)基于音樂(lè)的搜索的素材。在其它 實(shí)施方式中,可4叟索的元素可傳遞到網(wǎng)絡(luò)110,以用于基于音樂(lè)的搜索。
音頻解構(gòu)
在本發(fā)明的一些實(shí)施方式中,提供從音樂(lè)輸入數(shù)據(jù)如音頻信號(hào)數(shù)據(jù) 和樂(lè)譜圖像數(shù)據(jù)解構(gòu)出音樂(lè)元素可能是合乎需要的。應(yīng)認(rèn)識(shí)到,存在很多 方法來(lái)從不同類型的音樂(lè)輸入數(shù)據(jù)解構(gòu)出音樂(lè)元素。在一些情況下,數(shù)據(jù) 儲(chǔ)存在音頻文件中的方式可使解構(gòu)起來(lái)簡(jiǎn)單。例如,音樂(lè)元素?cái)?shù)據(jù)可作為 頭部信息儲(chǔ)存在增強(qiáng)型音頻文件中。然而在其它情況下,從音樂(lè)輸入數(shù)據(jù) 提取某些類型的音樂(lè)元素可能并不簡(jiǎn)單。
圖4A示出才艮據(jù)本發(fā)明的用于解構(gòu)音樂(lè)輸入數(shù)據(jù)的方法400的流程 圖。方法400開始為,在塊402接收音樂(lè)輸入數(shù)據(jù)。在一些實(shí)施方式中, 在塊402接收的音樂(lè)輸入數(shù)據(jù)可包括音樂(lè)搜索輸入、儲(chǔ)存在搜索數(shù)據(jù)庫(kù)中 的音樂(lè)或音樂(lè)元素、或與基于音樂(lè)的搜索相容的其它音樂(lè)數(shù)據(jù)。
在塊410,從音樂(lè)輸入解構(gòu)音樂(lè)微元素。作為例子,音樂(lè)微元素可包 括音符音高和值、時(shí)間戳、音符包絡(luò)和音色、音調(diào)、拍速和其它類似的元 素。在某些實(shí)施方式中,音樂(lè)微元素可包括其它音樂(lè)微元素(例如,連音、 三連音、按聲道或樂(lè)器分組的音符、按小節(jié)分組的音符、按投稿人分組的 音符等)的組。在其它實(shí)施方式中,音樂(lè)微元素可包括其它音樂(lè)微元素的 組成部分(例如,符干、符尾、附點(diǎn)等)。
在塊450,解構(gòu)音樂(lè)宏元素。作為例子,音樂(lè)宏元素可包括從分析音 樂(lè)微元素的組和模式產(chǎn)生的信息。在一些實(shí)施方式中,音樂(lè)宏元素包括關(guān) 于音樂(lè)微元素(例如,節(jié)奏調(diào)號(hào)、重復(fù)的樂(lè)旨、和弦/音調(diào)變化、曲式(例 如,A-B-A或合唱-獨(dú)唱-獨(dú)唱-合唱)等)的組的局部和全局模式信息。 在其它實(shí)施方式中,音樂(lè)宏元素包括從音樂(lè)微元素的集合中得到的統(tǒng)計(jì)信 息(例如,音符或節(jié)奏模式的柱狀圖等)。接著,可在塊4卯輸出音樂(lè)微元素和宏元素。
圖4B示出根據(jù)本發(fā)明的用于解構(gòu)音樂(lè)微元素的方法410的流程圖。 方法410開始為,在塊402接收音樂(lè)輸入信號(hào)。在一些實(shí)施方式中,可預(yù) 處理音樂(lè)輸入信號(hào)。例如,音頻信號(hào)可從模擬轉(zhuǎn)換到數(shù)字、下變頻到較低 的采樣率、為與某些編碼器或解碼器的相容轉(zhuǎn)換代碼、解析成單音調(diào)音頻 聲道、或任何其它有用的處理。
在一些實(shí)施方式中,在塊412 4是取音高信息并在塊414提取音符開 始事件。在方法410的一些實(shí)施方式中,在塊412提取的音高信息和在塊 414提取的音符開始事件用于從在塊402接收到的音頻信號(hào)提取和處理其 它信息。
在某些實(shí)施方式中,上述信息用于在塊416確定音符時(shí)值、在塊418 確定休止符、在塊420確定時(shí)間窗上的拍速、在塊424確定窗上的音調(diào)、 以及在塊428確定樂(lè)器。在其它實(shí)施方式中,在塊416確定的音符時(shí)值、 在塊418確定的休止符以及在塊420確定的拍速用于在塊422確定音符 值;在塊424確定的音調(diào)用于在塊426確定音調(diào)音高標(biāo)志;以及在塊428 確定的樂(lè)器用于在塊430確定聲道。在不同實(shí)施方式中,塊412-430的輸 出配置成用于在塊490-1產(chǎn)生作為音樂(lè)微元素的輸出。
圖4C示出根據(jù)本發(fā)明的用于解構(gòu)音樂(lè)宏元素的方法450的流程圖。 方法450開始為,在塊452接收(例如,來(lái)自圖4B的方法410的)音樂(lè) 微元素。音樂(lè)微元素可用于產(chǎn)生很多類型的音樂(lè)宏元素。
在一些實(shí)施方式中,音樂(lè)孩t元素用于在塊454確定曲式(例如,前 奏-獨(dú)唱-合唱-獨(dú)唱-過(guò)渡樂(lè)節(jié)-合唱-合唱-終奏);在塊456確定風(fēng)格(例如, 搖滾、古典、爵士、印度古典等);在塊458確定節(jié)奏調(diào)號(hào)(例如,第一 樂(lè)章是以每分鐘90拍的拍速(bpm)的4/4拍,第二樂(lè)章是以120 bpm 的拍速的3/4拍,而第三樂(lè)章返回到4/4拍,同時(shí)保持在120 bpm的拍速); 在塊460確定輪廓(例如,歌曲僅以鼓聲和低音樂(lè)器在相對(duì)低的音量和快 的拍速開始,且一分鐘之后,歌曲在中等音量和較慢的拍速增加干凈的吉 他線);在塊462確定音調(diào)變化(例如,歌曲以C大調(diào)的音調(diào)開始,變調(diào) 到F大調(diào),快速變調(diào)到D小調(diào)和G大調(diào),并返回到C大調(diào));以及在塊
20464確定和弦變化(例如,歌曲的一部分從紐7變化到Dm7、到Gm7、 到C7、到F6,或歌曲從iii 變化到vi7、到ii7、到V7、到I6)。在各種實(shí) 施方式中,塊454-464的輸出配置成用于在塊490-2產(chǎn)生作為音樂(lè)宏元素 的輸出。
應(yīng)認(rèn)識(shí)到,根據(jù)本發(fā)明,很多其它類型的音樂(lè)微元素和音樂(lè)宏元素 是可能的。進(jìn)一步地,根據(jù)搜索所需要的音樂(lè)元素的類型,音樂(lè)輸入信號(hào) 可在按很多不同的級(jí)別進(jìn)行解構(gòu)。例如,臨時(shí)鼓聲道可只用于提供節(jié)奏信 息。在這種情況下,解構(gòu)或保留關(guān)于音高、音色、音調(diào)等的音樂(lè)元素可能 是對(duì)資源的浪費(fèi)。在另一例子中,聲樂(lè)線可用于提供對(duì)歌曲的一個(gè)樂(lè)段中 的音高變化的輪廓的一般指示。在這種情況下,解構(gòu)準(zhǔn)確的音高、音符時(shí) 值等可能不重要;更確切地,僅以近似的音高值和時(shí)值來(lái)提取音高移動(dòng)的 大致方向可能是更有效的。
應(yīng)進(jìn)一步認(rèn)識(shí)到,根據(jù)可用的音樂(lè)數(shù)據(jù)的類型和各種應(yīng)用需要,可 能存在從音樂(lè)輸入解構(gòu)出音樂(lè)元素的很多方法。圖5A示出根據(jù)本發(fā)明的 實(shí)施方式的用于解構(gòu)音頻信號(hào)輸入以產(chǎn)生音樂(lè)元素的示例性系統(tǒng)的簡(jiǎn)化 結(jié)構(gòu)圖。如所示,輸入102由音樂(lè)解構(gòu)單元120接收,音樂(lè)解構(gòu)單元120 解構(gòu)輸入102以產(chǎn)生被解構(gòu)的輸出570。
在一些實(shí)施方式中,輸入102由音樂(lè)解構(gòu)單元120在音頻接收器單 元506接收。在一個(gè)實(shí)施方式中,樂(lè)曲由麥克風(fēng)或麥克風(fēng)陣列實(shí)時(shí)地接收, 并轉(zhuǎn)換成模擬電子輸入102,供音頻^接收器單元506 "^妄收。在其它實(shí)施方 式中,輸入102可包括數(shù)字?jǐn)?shù)據(jù),例如適合于重放的已錄制的音樂(lè)文件。 如果輸入102是模擬信號(hào),則它可由音頻接收器單元506轉(zhuǎn)換成數(shù)字表示, 以備由信號(hào)處理器單元510、音符處理器單元530和樂(lè)譜處理器單元550 進(jìn)行數(shù)字信號(hào)處理。當(dāng)輸入102被實(shí)時(shí)地接收時(shí),可能沒(méi)有方法來(lái)預(yù)先確 定輸入102的全長(zhǎng)。因此,輸入102可按預(yù)定的間隔(例如,消逝時(shí)間的 量、數(shù)字樣本的數(shù)量、所使用的存儲(chǔ)器的量等)被接收和存儲(chǔ),并可被相 應(yīng)地處理。在另一實(shí)施方式中,已錄制的聲音片斷由音頻接收器506接收 并被數(shù)字化,從而具有固定的持續(xù)時(shí)間。
圖5B提供了音樂(lè)解構(gòu)單元120的一個(gè)實(shí)施方式的低 結(jié)構(gòu)圖。 一個(gè)或多個(gè)音頻源502可用于產(chǎn)生音樂(lè)輸入信號(hào)102。音頻源502可為能夠向 音頻接收器506提供音樂(lè)輸入信號(hào)102的任何東西。在一些實(shí)施方式中, 一個(gè)或多個(gè)麥克風(fēng)、轉(zhuǎn)換器和/或其它傳感器用作音頻源502。麥克風(fēng)可 將來(lái)自現(xiàn)場(chǎng)表演演奏(或已錄制的演奏的重放)的壓力或電磁波轉(zhuǎn)換成電 信號(hào),以用作音樂(lè)輸入信號(hào)102。例如,在現(xiàn)場(chǎng)表演的音頻演奏中,麥克 風(fēng)可用于檢測(cè)和轉(zhuǎn)換來(lái)自歌手的音頻,而電磁"拾音器"可用于檢測(cè)和轉(zhuǎn) 換來(lái)自吉他和貝司的音頻。在其它實(shí)施方式中,音頻源502可包括配置成 提供音樂(lè)輸入信號(hào)102或音頻文件的模擬或數(shù)字設(shè)備,從音頻文件可讀取 音樂(lè)輸入信號(hào)102。例如,數(shù)字化音頻文件能夠以音頻格式儲(chǔ)存在存儲(chǔ)介 質(zhì)上,并作為音樂(lè)輸入信號(hào)102由存儲(chǔ)介質(zhì)才是供給音頻接收器506。
應(yīng)認(rèn)識(shí)到,根據(jù)音頻源502,音樂(lè)輸入信號(hào)102可具有不同的特征。 音樂(lè)輸入信號(hào)102可為單音調(diào)或復(fù)調(diào)的,可包括音頻數(shù)據(jù)的多個(gè)聲道,可 包括來(lái)自很多類型的樂(lè)器的音頻,并可包括某種文件格式,等等。類似地, 應(yīng)認(rèn)識(shí)到,音頻接收器506可為能夠接收音樂(lè)輸入信號(hào)102的任何東西。 進(jìn)一步地,音頻接收器506可包括一個(gè)或多個(gè)端口、解碼器、或與音頻源 502連接、接收或解釋音樂(lè)輸入信號(hào)102所必需的其它部件。
音頻接收器506可提供額外的功能。在一個(gè)實(shí)施方式中,音頻接收 器506將模擬音樂(lè)輸入信號(hào)102轉(zhuǎn)換成數(shù)字音樂(lè)輸入信號(hào)102。在另 一實(shí) 施方式中,音頻接收器506配置成將音樂(lè)輸入信號(hào)102下變頻到較4氐的采 樣率,以減小系統(tǒng)500的計(jì)算負(fù)擔(dān)。在一個(gè)實(shí)施方式中,音樂(lè)輸入信號(hào) 102被下采樣到大約8-9kHz。這可提供音樂(lè)輸入信號(hào)102的較高的頻率分 辨率,并可減小對(duì)系統(tǒng)500的設(shè)計(jì)的某些限制(例如,濾波器規(guī)范)。
在又一實(shí)施方式中,音頻接收器506包括閾值檢測(cè)部件,其配置成 在檢測(cè)到音頻電平超過(guò)某個(gè)閾值時(shí)開始接收音樂(lè)輸入信號(hào)102(例如,開 始錄制)。例如,閾值檢測(cè)部件可在規(guī)定的一段時(shí)間內(nèi)分析音頻,以檢測(cè) 音樂(lè)輸入信號(hào)102的振幅是否在某個(gè)預(yù)定量的時(shí)間內(nèi)保持在預(yù)定閾值之 上。閾值檢測(cè)部件可進(jìn)一步配置成當(dāng)音樂(lè)輸入信號(hào)102的振幅在預(yù)定量的 時(shí)間內(nèi)落在預(yù)定閾值之下時(shí)停止接收音樂(lè)輸入信號(hào)102(例如,停止錄 制)。在又一實(shí)施方式中,閾值;險(xiǎn)測(cè)部件可用于為系統(tǒng)500產(chǎn)生標(biāo)志,其表示音樂(lè)輸入信號(hào)102的振幅在一定量的時(shí)間內(nèi)超過(guò)閾值或落在閾值之 下的條件,而不是實(shí)際上開始或終止對(duì)音樂(lè)輸入信號(hào)102的接收。
根據(jù)圖5B,音頻接收器506將音樂(lè)輸入信號(hào)102傳送到包括振幅提 取單元512和頻率提取單元514的信號(hào)處理器單元510。振幅提取單元512 配置成從音樂(lè)輸入信號(hào)102提取與振幅有關(guān)的信息。頻率提取單元514 配置成從音樂(lè)輸入信號(hào)102提取與頻率有關(guān)的信息。
在一個(gè)實(shí)施方式中,頻率提取單元514使用變換算法將信號(hào)從時(shí)域 變換到頻域。例如,當(dāng)在時(shí)域中時(shí),音樂(lè)輸入信號(hào)102可被表示為振幅隨 著時(shí)間的變化。然而,在應(yīng)用快速傅立葉(FFT)算法之后,同一音樂(lè)輸 入信號(hào)102可被表示為其每個(gè)頻率分量的振幅的曲線(例如,在頻率范圍 內(nèi)的每個(gè)頻帶的相對(duì)強(qiáng)度或組成,如泛音系列一樣,信號(hào)將在該泛音系列 上被處理)。對(duì)于處理效率,可能希望將該算法限制到某個(gè)頻率范圍。例 如,頻率范圍可只覆蓋可聽聲譜(例如,大約20Hz到20kHz )。
在不同實(shí)施方式中,信號(hào)處理器單元510可用其它方式:R取與頻率 有關(guān)的信息。例如,很多變換算法以固定寬度的線性頻率"存儲(chǔ)段 (bucket)"輸出信號(hào)。這可限制變換的可能頻率分辨率或有效性,特別 是考慮到,音頻信號(hào)在本質(zhì)上內(nèi)在地可以是對(duì)數(shù)的(而不是線性的)。用 于從音樂(lè)輸入信號(hào)102提取與頻率有關(guān)的信息的很多算法在本領(lǐng)域中是 已知的。
振幅提取單元512所提取的與振幅有關(guān)的信息和頻率提取單元514 所提取的與頻率有關(guān)的信息可接著由音符處理單元530的不同部件使用。 在一些實(shí)施方式中,音符處理單元530包括音符開始檢測(cè)器單元532、音 符時(shí)值才全測(cè)器單元534、音高檢測(cè)器單元536、休止符檢測(cè)器單元544、 包絡(luò)檢測(cè)器單元538、音色檢測(cè)器單元540和音符力度強(qiáng)弱檢測(cè)器單元542 中的全部或一些。
音符開始檢測(cè)器單元532配置成檢測(cè)音符的開始。音符的開始(或 起始) 一般在樂(lè)曲中表現(xiàn)為音高的變化(例如圓滑奏)、振幅的變化(例 如包絡(luò)的附加部分)或音高和振幅的變化的一些組合。因此,音符開始檢 測(cè)器單元532可配置成每當(dāng)有頻率(或音高)和/或振幅的某種類型的變化時(shí)產(chǎn)生音符開始事件。
音樂(lè)音符也可以其時(shí)值(例如,音符以秒或樣本的數(shù)量為單位持續(xù) 的時(shí)間的量)為特征。在一些實(shí)施方式中,音符處理單元530包括音符時(shí)
值檢測(cè)器單元534,其配置成檢測(cè)音符開始事件所標(biāo)記的音符的時(shí)值。
值得注意的是,樂(lè)曲的某些特征是心理聲學(xué)的,而不純粹地是信號(hào) 的物理屬性。例如,頻率是信號(hào)的物理特性(例如,表示正弦波每秒所傳 播的周期數(shù)),但音高是更復(fù)雜的心理聲學(xué)現(xiàn)象。 一個(gè)原因是樂(lè)器所演奏 的單個(gè)音高的音符通常由很多頻率組成,每個(gè)頻率振幅不同,被稱為音色。 大腦可檢測(cè)那些頻率之一 (例如, 一般是基頻)作為"音高",而其它頻 率僅是感測(cè)到給音符添加了 "和聲色彩"。在一些情況下,聽者所感受到 的音符的音高可能為信號(hào)最缺乏或完全缺乏的頻率。
在一些實(shí)施方式中,音符處理單元530包括音高4全測(cè)器單元536,其 配置成檢測(cè)由音符開始事件標(biāo)記的音符的音高。在其它實(shí)施方式中,音高 檢測(cè)器單元536配置成跟蹤音樂(lè)輸入信號(hào)102的音高,而不是(或除了 ) 跟蹤個(gè)別音符的音高。應(yīng)認(rèn)識(shí)到,音高4全測(cè)器單元536在一些情況下可由 音符開始檢測(cè)單元532使用,以確定音樂(lè)輸入信號(hào)102的超過(guò)閾值的音高 的變化。
音符處理單元530的一些實(shí)施方式包括配置成檢測(cè)音樂(lè)輸入信號(hào)102 內(nèi)休止符的存在的休止符檢測(cè)器單元544。休止符檢測(cè)器單元544的一個(gè) 實(shí)施方式使用振幅提取單元512所提取的與振幅有關(guān)的信息和音高檢測(cè) 器單元536所得到的置信度信息。例如,與振幅有關(guān)的信息可揭示音樂(lè)輸 入信號(hào)102的振幅在某個(gè)時(shí)間窗內(nèi)相對(duì)低(例如,在本底噪聲處或附近)。 在相同的時(shí)間窗內(nèi),音高檢測(cè)器單元536可確定特定音高的存在的非常低 的置信度。使用這個(gè)和其它信息,休止符檢測(cè)器單元544檢測(cè)休止符的存 在以;S^木止符可能開始的時(shí)間位置。
在一些實(shí)施方式中,音符處理單元530包括音色4企測(cè)器單元540。振 幅提取單元512所提取的與振幅有關(guān)的信息和頻率提取單元514所提取的 與頻率有關(guān)的信息可由音色檢測(cè)器單元540使用,來(lái)對(duì)音樂(lè)輸入信號(hào)102 的一部分檢測(cè)音色信息。音色信息可揭示音頻信號(hào)102的該部分的諧波成
24分。在一些實(shí)施方式中,音色檢測(cè)器單元540可檢測(cè)關(guān)于在音符開始事件
處開始的特定音符的音色信息。
在音色檢測(cè)器單元540的一個(gè)實(shí)施方式中,與振幅有關(guān)的信息和與 頻率有關(guān)的信息與高斯濾波器巻積,以產(chǎn)生濾波的頻譜。濾波的頻譜可接 著用于產(chǎn)生在音高檢測(cè)器單元536所檢測(cè)到的音高周圍的包絡(luò)。該包絡(luò)可 相應(yīng)于在該音高處的音符的音色。
在一些實(shí)施方式中,音符處理單元530包"fe包絡(luò)才企測(cè)器單元538。振 幅提取單元512所提取的與振幅有關(guān)的信息可由包絡(luò)檢測(cè)器單元538使 用,來(lái)對(duì)音樂(lè)輸入信號(hào)102的一部分^r測(cè)包絡(luò)信息。例如,擊鋼琴上的鍵 可使音槌擊打一組弦,導(dǎo)致具有大起奏振幅的音頻信號(hào)。該振幅經(jīng)歷快速 衰減,直到它在弦共振的地方維持在稍微穩(wěn)態(tài)的振幅(當(dāng)然,當(dāng)弦中的能 量耗盡時(shí),振幅可在包絡(luò)的該部分上緩慢地減小)。最后,當(dāng)鋼琴鍵被釋 放時(shí),制音器落在弦上,使振幅快速下降到零。這種類型的包絡(luò)一4殳稱為 ADSR(起奏、衰減、維持、釋放)包絡(luò)。包絡(luò)檢測(cè)器單元538可配置成 檢測(cè)ADSR包絡(luò)的一些或所有部分,或任何其它類型的有用包絡(luò)信息。
在不同實(shí)施方式中,音符處理單元530還包括音符力度強(qiáng)弱檢測(cè)器 單元542。在某些實(shí)施方式中,對(duì)于在某些音符開始事件處開始的特定音 符,音符力度強(qiáng)弱檢測(cè)器單元542提供與包絡(luò)檢測(cè)器單元538類似的功能。 在其它實(shí)施方式中,音符力度強(qiáng)弱檢測(cè)器單元542配置成檢測(cè)相對(duì)于被包 絡(luò)檢測(cè)器單元538檢測(cè)到的包絡(luò)模式是異常的或符合某種預(yù)定的模式的 音符包絡(luò)。例如,斷奏音符可以以急劇的起奏和其ADSR包絡(luò)的短持續(xù) 部分為特征。在另一例子中,重音音符可以明顯大于周圍音符的起奏振幅 的起奏振幅為特征。
應(yīng)認(rèn)識(shí)到,音符力度強(qiáng)弱;險(xiǎn)測(cè)器單元542和其它音符處理單元可用 于識(shí)別音符的多個(gè)其它屬性,這些屬性可被描述為被解構(gòu)的輸出570的部 分。例如,音符可被標(biāo)記為圓滑奏、重音、斷奏、裝飾音符等。根據(jù)本發(fā) 明可提取4艮多其它音符特征。
與多個(gè)音符或音符開始事件(包括休止符)有關(guān)的信息可用于產(chǎn)生 其它信息。才艮據(jù)圖5B的實(shí)施方式,音符處理單元530的不同部件可與樂(lè)語(yǔ)處理單元550的不同部件操作性地通信。樂(lè)譜處理單元550可包括拍速才全測(cè)單元552、節(jié)拍檢測(cè)單元554、音調(diào)4企測(cè)單元556、樂(lè)器識(shí)別單元558、聲道才全測(cè)單元562和全局力度強(qiáng)弱^r測(cè)單元564中的全部或一些。
在一些實(shí)施方式中,樂(lè)譜處理單元550包括拍速檢測(cè)單元552,其配置成在一時(shí)間窗內(nèi)檢測(cè)音樂(lè)輸入信號(hào)102的拍速。 一般, 一首樂(lè)曲的拍速(例如,樂(lè)曲似乎在心理聲學(xué)上傳遞的速度)可部分地由音符和休止符的存在和時(shí)值影響。因此,拍速檢測(cè)單元552的某些實(shí)施方式使用來(lái)自音符開始檢測(cè)器單元532、音符時(shí)值檢測(cè)器單元534和休止符檢測(cè)器單元544的信息來(lái)確定拍速。拍速檢測(cè)單元552的其它實(shí)施方式進(jìn)一步使用所確定的拍速來(lái)給音符和休止符分配音符值(例如,四分音符、八分音符等)。
節(jié)拍指示在音樂(lè)的每個(gè)小節(jié)中有多少拍,以及哪個(gè)音符值被認(rèn)為是單拍。例如,4/4的節(jié)拍表示每個(gè)小節(jié)有四拍(分子),以及單拍由四分音符(分母)表示。由于這個(gè)原因,節(jié)拍可幫助確定音符和小節(jié)線位置,以及提供有用的解構(gòu)輸出570可能需要的其它信息。在一些實(shí)施方式中,樂(lè)i普處理單元550包括配置成檢測(cè)音樂(lè)輸入信號(hào)102的節(jié)拍的節(jié)拍檢測(cè)單元554。
在一些實(shí)施方式中,/人拍速信息和拍速檢測(cè)單元552所4是取的音符值并從其它信息(例如,音符力度強(qiáng)弱檢測(cè)器單元542所提取的音符力度強(qiáng)弱信息)推斷簡(jiǎn)單的節(jié)拍。然而,通常,確定節(jié)拍是涉及復(fù)雜的模式識(shí)別的復(fù)雜任務(wù)。
例如,假定音符值的下列序列從音樂(lè)輸入信號(hào)102 ^皮提取四分音符、四分音符、八分音符、八分音符、八分音符、八分音符。此簡(jiǎn)單的序列可被表示為4/4的一個(gè)小節(jié)、2/4的兩個(gè)小節(jié)、1/4的四個(gè)小節(jié)、8/8的一個(gè)小節(jié)或很多其它節(jié)拍?!﹊定在第一個(gè)四分音符和第一個(gè)八分音符上有重音(例如,增加的起奏振幅),這可使序列更可能為2/4的兩個(gè)小節(jié)、4/8的兩個(gè)小節(jié)或4/4的一個(gè)小節(jié)。進(jìn)一步地,假定4/8是非常罕見的節(jié)拍,則可足以消除此猜測(cè)。更進(jìn)一步地,若知道音樂(lè)輸入信號(hào)102的風(fēng)格是民謠,則最可能的候選節(jié)拍更可能是4/4。
上面的例子示出涉及即使是非常簡(jiǎn)單的音符值序列的復(fù)雜性。很多音符序列復(fù)雜得多,涉及不同值的很多音符、跨越多個(gè)小節(jié)的音符、附點(diǎn)音符和裝飾音符、切分音以及在解釋節(jié)拍中的其它困難。由于這個(gè)原因,
傳統(tǒng)計(jì)算算法可能難于準(zhǔn)確地確定節(jié)拍。因此,節(jié)拍檢測(cè)單元554的不同實(shí)施方式使用被培訓(xùn)來(lái)檢測(cè)那些復(fù)雜模式的人工神經(jīng)網(wǎng)絡(luò)(ANN) 560。通過(guò)給ANN 560可提供不同節(jié)拍的很多樣本和針對(duì)每個(gè)樣本改進(jìn)的代價(jià)函數(shù)來(lái)培訓(xùn)ANN 560。在一些實(shí)施方式中,使用學(xué)習(xí)范式來(lái)培訓(xùn)ANN560。學(xué)習(xí)范式可包括例如有監(jiān)督的學(xué)習(xí)、沒(méi)有監(jiān)督的學(xué)習(xí)或強(qiáng)化學(xué)習(xí)算法。
應(yīng)認(rèn)識(shí)到,通過(guò)使用拍速和節(jié)拍信息中的任一個(gè)或兩個(gè)可產(chǎn)生很多有用類型的信息,以用作音樂(lè)元素或解構(gòu)的輸出570。例如,這些信息可允許確定在哪里將音符分為小節(jié)(例如,作為八分音符組),而不是使用符尾單獨(dú)地指定音符;何時(shí)將一音符分在兩個(gè)小節(jié)中,并將其用連接線連起來(lái);或何時(shí)將音符組指定為三連音符(或高階組)、裝飾音符、顫音或波音、滑音等。
在產(chǎn)生音樂(lè)元素或解構(gòu)的輸出570中可能有用的另一組信息涉及音樂(lè)輸入信號(hào)102的一部分的音調(diào)。音調(diào)信息可包括例如被識(shí)別的根音高和相關(guān)調(diào)式。例如,"A小調(diào)"表示音調(diào)的根音高是"A",而調(diào)式是小調(diào)。每個(gè)音調(diào)以調(diào)號(hào)為特征,調(diào)號(hào)標(biāo)識(shí)"在音調(diào)中"(例如,與音調(diào)關(guān)聯(lián)的全音階的部分)和"在音調(diào)外"(例如,在音調(diào)的范式中的臨時(shí)記號(hào))的音符。"A小調(diào)"例如不包含升號(hào)或降號(hào),而"D大調(diào)"包含兩個(gè)升號(hào)且不包含降號(hào)。
在一些實(shí)施方式中,樂(lè)譜處理單元550包括配置成檢測(cè)音樂(lè)輸入信號(hào)102的音調(diào)的音調(diào)4企測(cè)單元556。音調(diào)4僉測(cè)單元556的一些實(shí)施方式基于將音高序列與 一組代價(jià)函數(shù)進(jìn)行比較來(lái)確定音調(diào)。代價(jià)函數(shù)可例如試圖最小化一首樂(lè)曲在特定的時(shí)間窗內(nèi)的臨時(shí)記號(hào)的數(shù)量。在其它實(shí)施方式中,音調(diào)4企測(cè)單元556可使用人工神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行或改進(jìn)復(fù)雜的音調(diào)確定。在又一些其它實(shí)施方式中,可對(duì)照代價(jià)函數(shù)來(lái)評(píng)估音調(diào)變化的序列,以改進(jìn)音調(diào)確定。在另一些其它實(shí)施方式中,音調(diào)檢測(cè)單元556所得到的音調(diào)信息可用于給音符(或音符開始事件)J 武予特定的音調(diào)音高標(biāo)志。例如,F(xiàn)大調(diào)中的"B"可被指定為"B-本位音"。當(dāng)然,音調(diào)信息可用于產(chǎn)生調(diào)號(hào)或樂(lè)譜表示的其它信息。在一些實(shí)施方式中,音調(diào)信息可進(jìn)一步用于產(chǎn)生和弦或其它和聲信息。例如,以弦線樂(lè)語(yǔ)的格式可產(chǎn)生吉他和弦,或可提供爵士和弦。
在其它實(shí)施方式中,樂(lè)i普處理單元550還包:^舌配置成識(shí)別正演奏音樂(lè)輸入信號(hào)102的樂(lè)器的樂(lè)器識(shí)別單元558。樂(lè)器常常凈皮_〖人為具有特定的音色。然而,根據(jù)被演奏的音符或音符被演奏的方式,在單個(gè)樂(lè)器上可能有音色的差異。例如,根據(jù)例如在其構(gòu)造中使用的材料、演奏者的觸摸、被演奏的音符(例如,在開弦上演奏的音符具有與在用手指彈奏的弦上演奏的相同音符不同的音色,以及在小提琴音區(qū)下部的音符具有與上部音區(qū)中的音符不同的音色)、音符是用弓拉的還是彈撥的等,每個(gè)小提琴的音色不同。然而,在小提琴音符之間仍然可能有足夠的類似,以將其識(shí)別為小提琴,而不是另一樂(lè)器。
樂(lè)器識(shí)別單元558的實(shí)施方式配置成比較單個(gè)或多個(gè)音符的特征,以確定明顯由音樂(lè)輸入信號(hào)102的樂(lè)器演奏的音高的音域、由該樂(lè)器在那些音高的每個(gè)音高處產(chǎn)生的音色、和/或在該樂(lè)器上演奏的音符的振幅包絡(luò)。在一個(gè)實(shí)施方式中,音色差異被用于通過(guò)將樂(lè)器的一般音色符號(hào)樣本與來(lái)自音樂(lè)輸入信號(hào)102的檢測(cè)到的音色進(jìn)行比較,以4企測(cè)不同的樂(lè)器。例如,即使以相同音量演奏相同時(shí)值的相同音符時(shí),薩克斯和鋼琴由于其不同的音色也可能發(fā)出非常不同的聲音。當(dāng)然,如上所述,只基于音色的識(shí)別的準(zhǔn)確性可能是有限的。
在另一實(shí)施方式中,音高音域用于檢測(cè)不同的樂(lè)器。例如,大提琴一般可演奏范圍從中央C音之下的大約兩個(gè)八度到中央C音之上的大約一個(gè)八度的音符。然而,小提琴一般可演奏范圍從恰好在中央C音之下到中央C音之上的大約四個(gè)八度的音符。因此,即使小提琴和大提琴可具有相似的音色(它們都是拉奏弦樂(lè)器),其音高音域可充分不同以用于識(shí)別。當(dāng)然,假定音域在某種程度上確實(shí)交疊,存在誤差是可能的。進(jìn)一步地,其它樂(lè)器(例如鋼琴)具有可與很多樂(lè)器交疊的較大音域。
在又一實(shí)施方式中,包絡(luò)檢測(cè)用于識(shí)別不同的樂(lè)器。例如,在槌打樂(lè)器(例如鋼琴)上演奏的音符的發(fā)聲可能不同于在木管樂(lè)器(例如長(zhǎng)笛)、簧樂(lè)器(例如雙簧管)、銅管樂(lè)器(例如小號(hào))或弦樂(lè)器(例如小提琴)上演奏的音符。然而,每種樂(lè)器能夠產(chǎn)生很多不同類型的包絡(luò),取決于音符如何被演奏。例如,小提琴可被彈撥或拉奏,或音符可被連奏或斷奏。
至少由于上面提到的困難,準(zhǔn)確的樂(lè)器識(shí)別可能需要檢測(cè)復(fù)雜的模式,包括可能在多個(gè)音符上的音樂(lè)輸入信號(hào)102的多個(gè)特征。因此,樂(lè)器
識(shí)別單元558的一些實(shí)施方式利用被培訓(xùn)來(lái)檢測(cè)這些復(fù)雜模式的組合的人工神經(jīng)網(wǎng)絡(luò)560。
樂(lè)譜處理單元550的一些實(shí)施方式包括配置成識(shí)別來(lái)自音樂(lè)輸入信號(hào)102內(nèi)的音頻聲道的聲道^r測(cè)單元562。在一些情況下,音樂(lè)輸入信號(hào)102可以為已經(jīng)被聲道分離的格式。例如,在某些數(shù)字音頻磁帶(DAT)上的音頻可被儲(chǔ)存為8個(gè)分離的數(shù)字音頻聲道。在這些情況下,聲道檢測(cè)單元562可配置成僅僅識(shí)別這些分立的音頻聲道。
然而在其它情況下,多個(gè)聲道可^l存在單個(gè)音樂(lè)輸入信號(hào)102中,且需要通過(guò)從音樂(lè)輸入信號(hào)提取某些數(shù)據(jù)來(lái)進(jìn)行識(shí)別。因此,聲道檢測(cè)單元562的一些實(shí)施方式配置成使用從音樂(lè)輸入信號(hào)102提取的信息來(lái)識(shí)別分開的音頻聲道。例如,演奏可包括同時(shí)演奏的5種樂(lè)器(例如爵士五重奏)??赡芟M麑⒛切┓珠_的樂(lè)器識(shí)別為分開的聲道。
聲道檢測(cè)可用很多不同的方式完成。在一個(gè)實(shí)施方式中,聲道檢測(cè)單元562使用音高檢測(cè)來(lái)確定是否不同的音符序列表現(xiàn)為被限制到某些音高音域。在另一實(shí)施方式中,聲道檢測(cè)單元562使用來(lái)自樂(lè)器識(shí)別單元558的樂(lè)器識(shí)別信息來(lái)確定不同的聲道。
很多樂(lè)鐠也包含關(guān)于樂(lè)曲或演奏的全局力度強(qiáng)弱的信息。與上述音符力度強(qiáng)弱不同,全局力度強(qiáng)弱指跨越多個(gè)音符的力度強(qiáng)弱。例如,整個(gè)曲子或曲子的一部分可^^皮標(biāo)記為強(qiáng)的(高聲)或弱的(輕柔)。在另一例子中,音符的序列可在聲音漸強(qiáng)中逐漸增大。為了產(chǎn)生這種類型的信息,樂(lè)譜處理單元550的一些實(shí)施方式包括全局力度強(qiáng)弱檢測(cè)單元564。全局力度強(qiáng)弱檢測(cè)單元564的實(shí)施方式使用振幅信息,在一些情況下包括音符力度強(qiáng)弱信息和/或包絡(luò)信息,以檢測(cè)全局力度強(qiáng)弱。在某些實(shí)施方式中,從音樂(lè)輸入信號(hào)102預(yù)先確定或適應(yīng)性地產(chǎn)生
閾值,以幫助力度強(qiáng)弱確定。例如,搖滾演奏的平均音量可被認(rèn)為是強(qiáng)的。 超過(guò)該平均值某個(gè)數(shù)量(例如,閾值、標(biāo)準(zhǔn)偏差等)的振幅可被認(rèn)為是極 強(qiáng)的,而落在該平均值之下某個(gè)數(shù)量的振幅可被認(rèn)為是弱的。
某些實(shí)施方式可進(jìn)一步考慮力度強(qiáng)弱變化出現(xiàn)的時(shí)值。例如,以兩 分鐘的平靜音符開始并隨后轉(zhuǎn)換到兩分鐘的較大聲的音符段的部分可被 認(rèn)為弱音段后跟隨有強(qiáng)音段。另一方面,在幾個(gè)音符的過(guò)程中增加、對(duì)幾 個(gè)更多的音符保持在該較高的音量并接著返回到原始振幅的平靜段,可被 認(rèn)為漸強(qiáng)段跟隨有漸弱段。
可產(chǎn)生上面描述的所有不同類型的信息以及任何其它有用的信息,
以用作音樂(lè)元素或解構(gòu)的輸出570。除了參考系統(tǒng)的各種部件描述的音樂(lè) 元素或解構(gòu)的輸出570以外,任何數(shù)量的其它音樂(lè)元素或解構(gòu)的輸出570 也可從相同的或其它信息產(chǎn)生。在一個(gè)例子中,例如,音符被確定為斷奏 附點(diǎn)八分音符。其它音樂(lè)元素570可包括音符主體、符干、符尾、時(shí)值附 點(diǎn)、斷奏附點(diǎn)和音符的其它特征。其它音樂(lè)元素570甚至也可包括在顯示 器上的或打印出的音符表示的風(fēng)格和顏色、符干的方向(例如,該方向可 以是默認(rèn)的,或根據(jù)其在五線譜上的位置來(lái)指示其反向,或它可被改變以 指明音符是特定音符序列的部分)、音符主體的大小(例如,它可為了易 讀性按大小排列,以將它與其它音符區(qū)分開,或?yàn)榱四硞€(gè)其它原因)、音 符符頭的形狀(例如,對(duì)于擊發(fā)聲,它可為不同的形狀)、或任何其它有 用的信息。在其它例子中,音樂(lè)元素或解構(gòu)的輸出570可包括五線譜線、 譜號(hào)、小節(jié)號(hào)、歌詞、歌詞對(duì)齊、頁(yè)標(biāo)題、五線譜標(biāo)題、頁(yè)邊空白、樂(lè)器 數(shù)據(jù)、重放數(shù)據(jù)等。在又一些其它實(shí)施方式中,音樂(lè)元素或解構(gòu)的輸出 570可包括對(duì)提高基于音樂(lè)的搜索的效率有用的其它信息。音樂(lè)元素或解 構(gòu)的輸出570可被^f呆存或輸出。
應(yīng)認(rèn)識(shí)到,上面描述的各種單元和部件可用各種方法實(shí)現(xiàn),而不偏 離本發(fā)明。例如,某些單元可為其它單元的部件,或可實(shí)現(xiàn)為另一單元的 額外功能。進(jìn)一步地,根據(jù)本發(fā)明,可用很多方法連接單元,且數(shù)據(jù)可在 其間以^艮多方式流動(dòng)。更進(jìn)一步地,在2008年2月1日提交的RobertD.Taub等人的標(biāo)題為"MUSIC TRANSCRIPTION"的美國(guó)申請(qǐng)?zhí)?12/024,981中進(jìn)一步描述了的涉及音頻解構(gòu)的各種實(shí)施方式,該專利申請(qǐng) 為了所有目的在這里通過(guò)引用被并入。
樂(lè)譜解構(gòu)
除了或代替從音頻信號(hào)解構(gòu)出音樂(lè)元素,從樂(lè)譜圖像解構(gòu)出音樂(lè)元 素在一些情況下可能是合乎需要的。本發(fā)明的實(shí)施方式配置成接受樂(lè)譜圖 像作為輸入。應(yīng)認(rèn)識(shí)到,從樂(lè)譜圖像解構(gòu)出音樂(lè)元素或執(zhí)行樂(lè)譜解構(gòu)的很 多方法是可能的。
圖6A示出根據(jù)本發(fā)明處理音樂(lè)圖像數(shù)據(jù)以提供光學(xué)字符識(shí)別 (OCR)特征的系統(tǒng)。OCR處理器602接收使用樂(lè)鐠捕獲設(shè)備606例如 攝像機(jī)或掃描儀捕獲的樂(lè)譜604的圖像數(shù)據(jù)。OCR處理器602產(chǎn)生包括 相應(yīng)于樂(lè)譜輸入的數(shù)據(jù)的樂(lè)譜輸出,但是是以可被多樣化地利用的數(shù)字形 式。樂(lè)譜的數(shù)字表示可容易由其它系統(tǒng)處理,包括但不限于,打印出的輸 出,供搜索機(jī)構(gòu)使用,用于分配和與多個(gè)用戶合作,并用于例如使用MIDI 部件產(chǎn)生音頻輸出。例如,圖6A示出樂(lè)譜可被提供到打印功能608、搜 索功能610、分配功能612和音頻/MIDI輸出614。
所捕獲的樂(lè)譜圖像可使用任何圖像捕獲設(shè)備產(chǎn)生,包括網(wǎng)絡(luò)攝像頭、 電話攝像機(jī)、對(duì)準(zhǔn)即拍攝像機(jī)以及其它的和更復(fù)雜的攝像機(jī)。 一旦樂(lè)譜的 圖像被捕獲,它就被提供給OCR處理器用于調(diào)節(jié)和額外的處理。
圖6B示出從捕獲設(shè)備606 (圖6A)產(chǎn)生的、作為輸入提供到OCR 處理器602的示例性圖像數(shù)據(jù)652。圖6B示出,OCR處理器602包括接 收?qǐng)D像數(shù)據(jù)的圖像預(yù)處理部件654。圖像數(shù)據(jù)可以為例如位像 (.bmp)、 JPEG數(shù)據(jù)、TIFF數(shù)據(jù)的形式和數(shù)碼攝像機(jī)通常使用的其它文 件格式等。圖像處理部件執(zhí)行二值化、圖像的傾斜校正以及不相關(guān)的背景 成分的移除。二值化操作涉及對(duì)所捕獲的圖像中的亮度和對(duì)比度的調(diào)節(jié)。 傾斜校正操作涉及圖像的校正,這些圖像從一方向旋轉(zhuǎn),將音樂(lè)五線鐠線 對(duì)齊為平行于圖像的底部邊緣。不相關(guān)的背景成分移除通過(guò)移除噪聲偽像 和其它不需要的背景成分來(lái)清理圖像。如果需要,預(yù)處理操作可由外部圖 像處理例程或模塊執(zhí)行。預(yù)處理部件654向神經(jīng)網(wǎng)絡(luò)(NN)處理部件656提供所產(chǎn)生的數(shù)據(jù)。 NN處理部件656識(shí)別在所捕獲的圖像中的音樂(lè)符號(hào),并執(zhí)行對(duì)光學(xué)圖像 的認(rèn)知處理。也就是說(shuō),神經(jīng)網(wǎng)絡(luò)執(zhí)行識(shí)別在所捕獲的音樂(lè)圖像中的音樂(lè) 符號(hào)的計(jì)算機(jī)過(guò)程,且在必要的場(chǎng)合認(rèn)知地解譯識(shí)別出的符號(hào)并從輸入數(shù) 據(jù)推斷,以確定在所捕獲的圖像中的偽像或符號(hào)的適當(dāng)標(biāo)記。
NN處理部件656包括被培訓(xùn)的神經(jīng)網(wǎng)絡(luò),其接收經(jīng)調(diào)節(jié)的樂(lè)譜圖像。 如果需要,被培訓(xùn)的神經(jīng)網(wǎng)絡(luò)可利用其輸出來(lái)提供反饋并調(diào)節(jié)其操作。這 樣的反饋可能需要因子圖操作,以利用反向傳播技術(shù)或調(diào)節(jié)已被培訓(xùn)的神 經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)節(jié)點(diǎn)權(quán)重。使用輸出作為反饋的其它技術(shù)對(duì)本領(lǐng)域技術(shù)人員 是已知的。
NN處理部件656的輸出被提供到產(chǎn)生NN的輸出的后處理部件658。 后處理部件的輸出可接著被提供到各種功能,例如圖6A所示的打印、搜 索、分配和音頻功能。后處理部件對(duì)NN輸出^丸行解譯功能,以確定NN 所識(shí)別的哪些偽像類型可能是正確的。由后處理部件658所進(jìn)行的解譯是 基于NN所產(chǎn)生的置信度值。本領(lǐng)域」忮術(shù)人員應(yīng)熟悉對(duì)NN置信度值輸出 數(shù)據(jù)的解譯技術(shù)。后處理接著產(chǎn)生以適當(dāng)格式的OCR處理器輸出,例如 音樂(lè)音符信息或相應(yīng)于識(shí)別出的音樂(lè)偽像的其它信息。例如,音樂(lè)信息可 采取電子樂(lè)器表示的形式,例如MIDI格式、或其它數(shù)據(jù)格式、或信息的 其它組合。
應(yīng)認(rèn)識(shí)到,上面描述的各種單元和部件可用各種方法實(shí)現(xiàn),而不偏 離本發(fā)明。例如,某些單元可為其它單元的部件,或可實(shí)現(xiàn)為另一單元的 額外功能。進(jìn)一步地,根據(jù)本發(fā)明,可用很多方法連接單元,且數(shù)據(jù)可在 其間以很多方式流動(dòng)。更進(jìn)一步地,在2008年2月13日提交的Robert D.Taub等人的標(biāo)題為"MUSIC SCORE DECONSTRUCTION"的美國(guó)臨 時(shí)申請(qǐng)?zhí)?1/028,490中進(jìn)一步描述了的涉及樂(lè)譜分解的各種實(shí)施方式, 該專利申請(qǐng)為了所有目的在這里通過(guò)引用被并入。在2005年12月15曰 提交的Robert D.Taub的標(biāo)題為"SYSTEM AND METHOD FOR MUSIC SCORE CAPTURE AND SYNCHRONIZED AUDIO PERFORMANCE WITH SYNCHRONIZED PRESENTATION"的美國(guó)專利申請(qǐng)第11/303,812號(hào)中可找到樂(lè)語(yǔ)捕獲技術(shù)的其它方面,該專利申請(qǐng)為了所有目的在這里通 過(guò)引用被并入。
搜索引擎
本發(fā)明的很多方面涉及搜索引擎的功能和/或結(jié)構(gòu)。在一些實(shí)施方式
中,搜索引擎可實(shí)現(xiàn)為圖1的搜索引擎160。合作門戶的各種實(shí)施方式可 提供關(guān)于搜索輸入和輸出處理、搜索執(zhí)行和結(jié)果處理、以及文件管理、音 樂(lè)觀看、音樂(lè)和文本編輯、以及基于音樂(lè)的搜索的其它方面的功能。應(yīng)認(rèn) 識(shí)到,就圖形用戶界面(GUI)設(shè)計(jì)和實(shí)現(xiàn)、合作門戶所允許的用戶互動(dòng) 的水平、GUI控制的類型、模塊和部件之間的功能交叉和依賴性、網(wǎng)絡(luò) 設(shè)計(jì)和接口、搜索引擎的其它方面而言,可有4艮多可能性。因此,下面的 描述用來(lái)l又僅說(shuō)明本發(fā)明的一些示例性實(shí)施方式,且本領(lǐng)域技術(shù)人員應(yīng)認(rèn) 識(shí)到,本發(fā)明的范圍并不受所公開的特定實(shí)施方式限制。
圖7示出根據(jù)本發(fā)明的用于基于音樂(lè)的搜索引擎的實(shí)施方式的圖形 用戶界面(GUI)的一個(gè)示例性配置。GUI 700包括至少兩個(gè)主要的區(qū)(在 圖7中示為框)4叟索輸入?yún)^(qū)702和搜索結(jié)果區(qū)750。搜索輸入?yún)^(qū)702除 了其它操作以外還負(fù)責(zé)接收和處理各種類型的搜索輸入,并使用它們來(lái)產(chǎn) 生搜索參數(shù)。搜索結(jié)果區(qū)750除了其它操作以外還負(fù)責(zé)接收搜索結(jié)果、顯 示搜索結(jié)果并產(chǎn)生4叟索輸出。
搜索輸入?yún)^(qū)702包括與輸入接收、輸入顯示和輸入?yún)^(qū)控制有關(guān)的多 個(gè)GUI元素。根據(jù)本發(fā)明,很多類型的輸入接收是可能的,包括關(guān)鍵字 輸入704、音頻輸入706和樂(lè)i普輸入708 (如圖7所示)。關(guān)鍵字輸入、音 頻輸入和樂(lè)譜輸入被接收為同一查詢的部分,或可按反復(fù)的方式連續(xù)地或 以任何順序被接收。關(guān)鍵字輸入704包括任何類型的字母數(shù)字、文本或與 文本有關(guān)的輸入的接收。在一個(gè)實(shí)施方式中,關(guān)鍵字輸入704包括明語(yǔ)文 本,其被解譯以產(chǎn)生一組關(guān)鍵字。在另一實(shí)施方式中,關(guān)鍵字輸入704 包括可操作來(lái)轉(zhuǎn)換成關(guān)鍵字的專用文本。例如,專用文本可包括字段輸入、 布爾算子等。該文本可接著以任何有用的方式(例如,通過(guò)使用以標(biāo)記語(yǔ) 言如XML形式的文件類型定義)被處理。
在又一個(gè)實(shí)施方式中,使用音頻信號(hào)處理器來(lái)接收關(guān)鍵字輸入704。例如,用戶可點(diǎn)擊錄制按鈕710,這開始語(yǔ)音錄制。語(yǔ)音錄制結(jié)果可接著 由語(yǔ)音到文本處理器來(lái)處理。經(jīng)處理的文本接著以任何有用的方式(包括 上面討論的方式)進(jìn)一步被處理成關(guān)鍵字,用于查詢輸入。
在一個(gè)實(shí)施方式中,所接收的關(guān)鍵字輸入704是"拍速('90-100')&風(fēng)格 ('爵士或藍(lán)調(diào))&起始音調(diào)('D小調(diào)')&音頻輸入(解構(gòu)('節(jié)奏'))"( "TEMPO('90-100') & GENRE('jazz or blues') & STARTKEY('D-minor') &AUDIO—INPUT(DECONSTRUCT('rhythm'))")。應(yīng)認(rèn)識(shí)到,這個(gè)接收到的 關(guān)鍵字輸入704旨在為僅僅是例證性的,且輸入可包括關(guān)鍵字輸入的其它 內(nèi)容和類型。這個(gè)示例性的關(guān)4泉字輸入704可表示搜索者希望找到具有在 90和100bpm之間的拍速、爵士或藍(lán)調(diào)的風(fēng)格、D小調(diào)的起始音調(diào)和與從接 收到的音頻輸入解構(gòu)出的節(jié)奏類似的節(jié)奏的歌曲。值得注意的是,"&"表 示布爾"和,,運(yùn)算。進(jìn)一步值得注意的是,用于接收和處理關(guān)鍵字輸入的 很多方法在本領(lǐng)域中是已知的,其中很多方法允許用戶輸入關(guān)鍵字,而不 用學(xué)習(xí)專門的語(yǔ)法。
音頻輸入706可用很多不同的方法接收和處理。為了適應(yīng)各種可能的 接收和處理功能,可設(shè)置一組GUI控制。例如,如所示,可設(shè)置用于接收 音頻輸入信號(hào)(例如,從麥克風(fēng)或其它音頻輸入源)、裝入音頻輸入文件 或?qū)⒔邮盏降囊纛l信號(hào)或文件解構(gòu)成音樂(lè)元素的按鈕。音頻輸入可包括多 種類型的輸入。例如,旋律部分可包括呼或唱的曲調(diào),而口述詞部分可包 括口述詞。部分分隔符可設(shè)置在音頻輸入中的各類型之間,用于自動(dòng)檢測(cè) 這些部分,并可包括例如預(yù)定的詞。
樂(lè)_潛輸入708可類似地以^艮多不同的方式^皮接收和處理。為了適應(yīng)各 種可能的接收和處理功能,可設(shè)置一組GUI控制。例如,如所示,可設(shè)置 用于接收樂(lè)譜圖像(例如,來(lái)自攝像機(jī),掃描儀,或其它數(shù)字成像設(shè)備)、 裝入樂(lè)譜圖像文件或?qū)⒔邮盏降臉?lè)譜圖像解構(gòu)成音樂(lè)元素的按鈕。
在一些實(shí)施方式中,輸入顯示框720#1設(shè)置來(lái)用于顯示關(guān)于接收到的 和/或經(jīng)處理的輸入的信息。輸入顯示框720的某些實(shí)施方式包括音頻和/或 樂(lè)譜解構(gòu)結(jié)果信息722、原始和/或解構(gòu)的音樂(lè)元素表示顯示724以及重放/ 可視化/錄制控制726。在一個(gè)實(shí)施方式中,搜索者通過(guò)錄制對(duì)著麥克風(fēng)拍或啤的節(jié)奏來(lái)接收
音頻輸入706。音頻輸入706接著被分解以提取關(guān)于節(jié)奏(例如,音符開始 和時(shí)值、休止符、拍速等)的音樂(lè)元素。在音頻和/或樂(lè)譜解構(gòu)結(jié)果信息722 區(qū)中提供信息,表示節(jié)奏已從音頻輸入信號(hào)成功地解構(gòu)出來(lái)。在原始和/ 或解構(gòu)的音樂(lè)元素表示顯示724區(qū)中,為搜索者顯示解構(gòu)的音樂(lè)元素的圖 示。上面描述了由音頻和/或樂(lè)譜解構(gòu)產(chǎn)生的音樂(lè)元素的類型。搜索者可使 用音頻和/或樂(lè)譜解構(gòu)結(jié)果信息722區(qū)以及原始和/或解構(gòu)的音樂(lè)元素表示 顯示724區(qū)中的信息來(lái)確定搜索引擎700是否如用戶所希望的進(jìn)行了錄制 和分解。
重放/可視化/錄制按鈕726可包括用于處理重放、可視化、錄制或可 能影響輸入顯示框720的其它方面的任何有用的控制。例如,重放/可視 化/錄制控制726可包括重^/錄制按鈕(例如,錄制、播放、暫停、停止、 快進(jìn)、插入、翻錄、修剪等)、重^/錄制按鈕進(jìn)度指示器(例如,存儲(chǔ)器 指示器、消逝時(shí)間指示器、位置指示器等)、可視化控制(例如,縮放和 搖攝控制、模式轉(zhuǎn)換控制(例如,樂(lè)譜表示模式、音頻信號(hào)/包絡(luò)表示模 式、鋼琴巻簾表示模式等)等)和/或其它有用的控制。
搜索輸入?yún)^(qū)702的實(shí)施方式包括輸入?yún)^(qū)控制。應(yīng)認(rèn)識(shí)到,可提供很 多類型的控制(例如,滑塊、旋鈕、開關(guān)、按鈕等)來(lái)控制搜索輸入?yún)^(qū) 702的很多功能。在一些實(shí)施方式中,輸入?yún)^(qū)控制包括一組輸入控制按鈕 730,例如設(shè)置按鈕730-1、重置按鈕730-2、修改按鈕730-3和搜索按鈕 730-4。
設(shè)置按鈕730-1可控制搜索輸入?yún)^(qū)702的任何數(shù)量的設(shè)置。在一些實(shí) 施方式中,點(diǎn)擊設(shè)置按鈕使設(shè)置菜單出現(xiàn),其提供對(duì)任何數(shù)量的設(shè)置的訪 問(wèn)途徑。 一些設(shè)置可涉及接收搜索輸入,包括文件管理(例如,將搜索引 擎700配置為接受某些文件類型或從某些端口或部件接收音頻或視頻)、 語(yǔ)言學(xué)(例如,將搜索引擎700配置為接受以某些語(yǔ)義格式的文本)等。 其它設(shè)置可涉及處理接收到的輸入,包括配置加權(quán)(例如,將搜索引擎 700配置為用不同的方式對(duì)不同的搜索輸入加權(quán)等)、音頻和樂(lè)語(yǔ)解構(gòu)(例 如,設(shè)置最小量化值(例如,音符時(shí)值、音高變化等)、將搜索引擎700配置為僅僅檢測(cè)某些類型或組的音樂(lè)元素等)等。
例如,在圖7所示的例證性實(shí)施方式中,這些設(shè)置可用很多方式配
置搜索引擎700。搜索引擎700可配置成通過(guò)工作站中的聲卡接受音頻輸 入、只尋找有節(jié)奏的音樂(lè)元素、只尋找在某個(gè)闞值音量(或起奏水平)之 上的音頻,并將所有音符和休止符值量化到最近的八分音符。搜索引擎 700可進(jìn)一步配置成,將解構(gòu)的節(jié)奏的權(quán)重設(shè)置為高于文本輸入(例如, 這使得被解構(gòu)的節(jié)奏將被作為更重要的搜索項(xiàng)來(lái)對(duì)待),并將拍速關(guān)鍵字 輸入作為第二最重要的搜索項(xiàng)來(lái)加權(quán)。
重置按鈕730-2可配置成重置搜索參數(shù)(例如,以返回到默認(rèn)配置、 清除關(guān)鍵字字段、清除加權(quán)等)。修改按鈕730-3可配置成在結(jié)果被返回 之后修改搜索。例如,可能希望在結(jié)果中搜索更具體的結(jié)果,根據(jù)其它搜 索輸入過(guò)濾結(jié)果,改變搜索輸入的全部或部分,修改加權(quán)等。以這種方式, 用戶可連續(xù)或反復(fù)地輸入搜索標(biāo)準(zhǔn),同時(shí),搜索結(jié)果的字l殳變得越來(lái)越具 體或精確。搜索按鈕730-4可配置成根據(jù)搜索輸入產(chǎn)生搜索參數(shù),并使用 搜索參數(shù)來(lái)"^丸行對(duì)一個(gè)或多個(gè)數(shù)據(jù)庫(kù)的搜索。
一旦搜索輸入被接收并處理成關(guān)鍵字、加權(quán)等,它們就可用于產(chǎn)生 一組^^索參凄t。例如,它們可轉(zhuǎn)變成SQL查詢,用于徹底一平面文件數(shù) 據(jù)庫(kù)。可用任何有用的方式設(shè)計(jì)或產(chǎn)生這組搜索參數(shù),這可能取決于被搜 索的數(shù)據(jù)庫(kù)的類型和/或數(shù)據(jù)庫(kù)中儲(chǔ)存的數(shù)據(jù)的類型。
在一些實(shí)施方式中,數(shù)據(jù)庫(kù)儲(chǔ)存原始音頻和/或樂(lè)譜文件(或?qū)υ?音頻文件的指針),其可在"運(yùn)行時(shí)"(例如,在或接近搜索時(shí)刻)被解構(gòu)。 在其它實(shí)施方式中,lt據(jù)庫(kù)儲(chǔ)存關(guān)于音頻文件的元數(shù)據(jù)(例如,其解構(gòu)自 音頻文件、"l是取自音頻文件中的元數(shù)據(jù)、手工輸入、由一些其它系統(tǒng)產(chǎn)生 等)。在又一些其它實(shí)施方式中,數(shù)據(jù)庫(kù)儲(chǔ)存多種類型的文件,其可以多 種方式用于基于音樂(lè)的搜索。
在不同實(shí)施方式中,數(shù)據(jù)在數(shù)據(jù)庫(kù)上的儲(chǔ)存條件下被預(yù)過(guò)濾或以其 他方式被預(yù)處理。在一個(gè)實(shí)施方式中,某些預(yù)定類型的音樂(lè)元素可被確定 為是可能的搜索候選項(xiàng)并可被預(yù)解構(gòu)。例如,假定搜索者傾向于搜索以特 定拍速的歌曲。作為一種預(yù)分類或預(yù)過(guò)濾過(guò)程,可從文件預(yù)解構(gòu)出拍速。在某些實(shí)施方式中,可按不同于最終解構(gòu)的級(jí)別(例如,分辨率)來(lái)執(zhí)行 預(yù)解構(gòu)。例如,為了搜索具有某個(gè)主調(diào)旋律的歌曲,可能首先完成對(duì)歌曲 中音高輪廓的粗略解構(gòu),以限制可能的匹配候選項(xiàng)的列表。接著可只對(duì)該 有限的候選項(xiàng)列表執(zhí)行更徹底的解構(gòu),以更準(zhǔn)確地確定匹配。在其它實(shí)施 方式中,涉及文件(例如,風(fēng)格、作者、樂(lè)器列表等)的元數(shù)據(jù)或其它信 息可用于預(yù)過(guò)濾或預(yù)分類數(shù)據(jù)。例如,可預(yù)分類特定風(fēng)格的所有歌曲,或 可將歌曲預(yù)分類為"快速的"或"慢速的"。以這些和其它方式,多層預(yù) 處理可用于保留系統(tǒng)資源,加速搜索時(shí)間,改進(jìn)結(jié)果,以及用于其它原因。
一旦檢索到搜索結(jié)果,就可根據(jù)本發(fā)明以很多不同的方式處理它們。 在一些實(shí)施方式中,搜索結(jié)果被排序。應(yīng)認(rèn)識(shí)到,可能有很多類型的和用 于對(duì)結(jié)果排序的過(guò)程。 一些排序涉及特定的候選項(xiàng)匹配搜索輸入的接近程 度。其它排序進(jìn)一步考慮搜索者所提供的不同加權(quán)和其它偏好。又一些其 它排序考慮一個(gè)或多個(gè)置信度值(例如,從各種代價(jià)函數(shù)產(chǎn)生的誤差值)。 一種類型的置信度值可涉及音樂(lè)元素的解構(gòu),表示解構(gòu)產(chǎn)生正確結(jié)果的概
率(例如,由于各種原因,拍速可按90%的置信度被確定為96 bpm,包 括異常值或稍微表現(xiàn)的變化)。當(dāng)然,解構(gòu)可涉及對(duì)搜索輸入的解構(gòu)和/ 或?qū)Ρ粰z索的數(shù)據(jù)的解構(gòu)(例如,儲(chǔ)存在數(shù)據(jù)庫(kù)中的數(shù)據(jù))。另一類型的 置信度值可涉及搜索置信度。例如,用作搜索輸入的主調(diào)旋律可按99% 的置信度匹配從數(shù)據(jù)庫(kù)中檢索出的主調(diào)旋律(例如,在檢索出的旋律中的 少數(shù)音符不能準(zhǔn)確地匹配輸入旋律)。
接著,結(jié)果(例如,被排序的結(jié)果)可顯示在GUI 700的搜索結(jié)果 區(qū)750中。搜索結(jié)果區(qū)750包括與結(jié)果顯示和結(jié)果區(qū)控制有關(guān)的多個(gè)GUI 元素。雖然很多類型的結(jié)果顯示是可能的,圖7示出結(jié)果列表顯示區(qū)760 和結(jié)果細(xì)節(jié)顯示區(qū)770。
結(jié)果列表顯示區(qū)760配置成顯示從一個(gè)或多個(gè)數(shù)據(jù)庫(kù)檢索出的結(jié)果 的列表。在一些實(shí)施方式中,結(jié)果列表顯示區(qū)包括窗控制。例如,結(jié)果列 表顯示區(qū)可包括在底部和側(cè)面上的滾動(dòng)條762,以允許搜索者更容易在全 部結(jié)果中滾動(dòng)。
如所示,結(jié)果列表顯示區(qū)可包括關(guān)于總的搜索結(jié)果的信息,如"顯示'拍速(90-100) &風(fēng)格(爵士或藍(lán)調(diào))&起始音調(diào)(D小調(diào))&音頻輸入(解 構(gòu)(節(jié)奏))'('TEMPO(90-100) & GENRE(jazz or blues) & STARTKEY(D-minor) & AUDIO—INPUT(DECONSTRUCT(rhythm))')的搜 索結(jié)果1到20 (共238個(gè))"。這種類型的信息可響應(yīng)于在搜索輸入?yún)^(qū) 702中提供的例證性搜索輸入向搜索者指示當(dāng)前列表正顯示從數(shù)據(jù)庫(kù)中 檢索出的總共238個(gè)結(jié)果中的前20個(gè)結(jié)果。結(jié)果列表區(qū)也可包括被排序 的列表的顯示(例如,作為圖表)。圖表可包括關(guān)于結(jié)果的高級(jí)信息,包 括例如歌曲標(biāo)題、藝術(shù)家、置信度值等。
在所示例子中,第二檢索出的結(jié)果764是Ed Washington的標(biāo)題為 "Walking in Darkness"的歌曲。值得注意的是,所示結(jié)果由構(gòu)造的數(shù)據(jù)組 成,且不是用來(lái)以任何方式指實(shí)際樂(lè)曲或藝術(shù)家。置信度值被顯示為 "97%(99%/99%/97%/92%)"。這可表示對(duì)于97%的加權(quán)的總置信度值,搜 索返回關(guān)于拍速的99%置信度、關(guān)于風(fēng)格的99%置信度、關(guān)于起始音調(diào) 的97°/。置信度以及關(guān)于從音頻搜索輸入分解的節(jié)奏的92%置信度。在一 些情況下,由于各種原因,可能希望給搜索者^(guò):供合并到^:索中的一些或 全部置信度值。例如,搜索者可能希望知道,雖然總起來(lái)一個(gè)結(jié)果可能有 相對(duì)高的置信度值,但是, 一個(gè)參數(shù)明顯偏離搜索輸入。這可允許搜索者 更有效地修改未來(lái)的搜索,以檢索更多合適的結(jié)果。
結(jié)果細(xì)節(jié)顯示區(qū)770可配置成確定與特定結(jié)果的細(xì)節(jié)有關(guān)的任何數(shù) 量的不同類型的翁:據(jù)。在一個(gè)實(shí)施方式中,顯示出與選定結(jié)果相關(guān)的音頻 的各種表示。例如,可顯示樂(lè)譜表示、音頻信號(hào)表示、鋼琴巻簾表示或任 何其它有用的表示。在另一實(shí)施方式中,可提供與在結(jié)果列表顯示區(qū)760 中所提供的內(nèi)容相同的文本信息,或其它文本信息(例如,使用較大的字 體、提供更多的細(xì)節(jié)、提供歌曲的專輯封面的封面藝術(shù)圖像、提供購(gòu)買歌 曲或訪問(wèn)樂(lè)隊(duì)網(wǎng)站的超鏈接,等等)。在一些實(shí)施方式中,結(jié)果細(xì)節(jié)顯示 區(qū)770包括重》t/可視化/錄制控制774 (例如,類似于在輸入顯示框720 的實(shí)施方式中提供的重放/可視化/錄制控制726 )。
搜索結(jié)果區(qū)750的實(shí)施方式包括結(jié)果區(qū)控制。應(yīng)認(rèn)識(shí)到,可提供控 制搜索結(jié)果區(qū)750的很多功能的很多類型的控制(例如,滑塊、旋鈕、開
38關(guān)、按鈕等)。在一些實(shí)施方式中,結(jié)果區(qū)控制包括一組結(jié)果控制按鈕780, 例如i殳置按鈕780-1、上一個(gè)4安鈕780-2、下一個(gè)4耍4丑780-3和輸出按鈕 780-4。
設(shè)置按鈕780-1可控制搜索結(jié)果區(qū)702的任何數(shù)量的設(shè)置。在一些實(shí) 施方式中,點(diǎn)擊設(shè)置按鈕使設(shè)置菜單出現(xiàn),提供對(duì)任何數(shù)量的設(shè)置的訪問(wèn) 途徑。 一些設(shè)置可涉及如何接收結(jié)果(例如,結(jié)果的最大數(shù)量、排序的類 型等)、如何顯示結(jié)果(例如,什么列顯示在結(jié)果列表顯示區(qū)760中,哪 些表示或什么文本顯示在結(jié)果細(xì)節(jié)顯示區(qū)770中等)等。
上一個(gè)按鈕780-2和下一個(gè)按鈕780-3可配置成分別跳到結(jié)果列表中 的上一個(gè)或下一個(gè)結(jié)果。當(dāng)然,其它導(dǎo)航控制是可能的(例如,下一頁(yè)、 分類、過(guò)濾等)。輸出按鈕780-4可配置成以一種或多種方式輸出搜索結(jié) 果。在一些實(shí)施方式中,輸出可由圖1的輸出產(chǎn)生單元140產(chǎn)生。應(yīng)認(rèn)識(shí) 到,很多不同類型的數(shù)據(jù)的很多類型的輸出是可能的。例如,結(jié)果數(shù)據(jù)可 被輸出為原始音頻數(shù)據(jù)(例如,配置成通過(guò)揚(yáng)聲器、媒體播放設(shè)備、聲卡 等播放的信號(hào))、被編碼的音頻數(shù)據(jù)(例如,用于儲(chǔ)存在存儲(chǔ)介質(zhì)(例如, 光盤)上、用于通過(guò)媒體播放軟件重放、用于通過(guò)網(wǎng)絡(luò)共享等)、樂(lè)譜表 示數(shù)據(jù)(例如,與樂(lè)譜創(chuàng)作和/或編輯軟件相容的樂(lè)譜圖像和音樂(lè)元素等)、 文本數(shù)據(jù)(例如,與用于儲(chǔ)存為文件的、打印出的結(jié)果列表或結(jié)果細(xì)節(jié)有 關(guān)的文本等)、或任何其它有用的信息。進(jìn)一步地,輸出可包括搜索輸入 的曰志或記錄、搜索歷史記錄、搜索統(tǒng)計(jì)資料、數(shù)據(jù)庫(kù)統(tǒng)計(jì)資料、設(shè)置等。
在一些實(shí)施方式中,搜索引擎700集成在合作環(huán)境中(例如通過(guò)互 聯(lián)網(wǎng))。搜索引擎可接著以各種方式使用來(lái)利用合作環(huán)境,反之亦然。例 如,可與網(wǎng)絡(luò)上的其他人共享搜索輸入和/或結(jié)果。在一個(gè)實(shí)施方式中, 用戶可搜索具有相似的搜索模式的其他人,或用戶可根據(jù)其經(jīng)驗(yàn)建議某些 搜索結(jié)果。例如,在執(zhí)行對(duì)"X"的搜索之后,搜索引擎700可報(bào)告"搜 索'X'的用戶也對(duì)'Y'感興趣',。其他用戶、確定搜索習(xí)慣和模式的智能算法、 廣告商或任何其它設(shè)備、人或?qū)嶓w可產(chǎn)生這種結(jié)果以及類似類型的結(jié)果。
示例性實(shí)施方式
上面描述的系統(tǒng)和方法可用很多方式實(shí)現(xiàn)。 一種這樣的實(shí)現(xiàn)包括各
39種電子部件。例如,使用適合于在硬件中執(zhí)行一些或全部適用功能的一個(gè)
或多個(gè)專用集成電路(ASIC),可單獨(dú)地或共同地實(shí)現(xiàn)各種系統(tǒng)的單元。 可選地,功能可由一個(gè)或多個(gè)其它處理單元(或核心)在一個(gè)或多個(gè)集成 電路上執(zhí)行。在其它實(shí)施方式中,可使用其它類型的集成電路(例如,結(jié) 構(gòu)化的/平臺(tái)ASIC、現(xiàn)場(chǎng)可編程門陣列(FPGA)和其它半定制IC),其 可用本領(lǐng)域已知的任何方式編程。每個(gè)單元的功能也可使用包含在存儲(chǔ)器 中的指令來(lái)整體或部分地實(shí)現(xiàn),這些指令被設(shè)計(jì)成由一個(gè)或多個(gè)通用或?qū)?用處理器執(zhí)行。
圖8提供了用于實(shí)現(xiàn)本發(fā)明的某些實(shí)施方式的計(jì)算系統(tǒng)800的結(jié)構(gòu) 圖。在一個(gè)實(shí)施方式中,計(jì)算系統(tǒng)800可起圖l所示的門戶160的作用。 應(yīng)注意,圖8只表示提供各種部件的一般化圖示,在適合時(shí)可利用這些部 件中的任-f可一個(gè)或全部。因此,圖8廣泛示出各個(gè)系統(tǒng)元件可如何以相對(duì) 分開的或相對(duì)更綜合的方式實(shí)現(xiàn)。
示出包括硬件元件的計(jì)算機(jī)系統(tǒng)800,這些硬件元件可通過(guò)總線826 電連接(或可在適當(dāng)時(shí)以其他方式進(jìn)行通信)。硬件元件可包括 一個(gè)或 多個(gè)處理器802,其包括但不限于, 一個(gè)或多個(gè)通用處理器和/或一個(gè)或 多個(gè)專用處理器(例如,^t字信號(hào)處理芯片、圖形加速芯片和/或類似物); 一個(gè)或多個(gè)輸入設(shè)備804,其可包括但不限于,鼠標(biāo)、鍵盤和/或類似物; 以及一個(gè)或多個(gè)輸出設(shè)備806,其可包括但不限于,顯示i殳備、打印機(jī)和 /或類似物。
計(jì)算系統(tǒng)800可進(jìn)一步包括(和/或與其通信的) 一個(gè)或多個(gè)存儲(chǔ)設(shè) 備808,其可包括但不限于,本地和/或網(wǎng)絡(luò)可訪問(wèn)的存儲(chǔ)器,和/或可包 括但不限于,磁盤驅(qū)動(dòng)器、驅(qū)動(dòng)器陣列、光學(xué)存儲(chǔ)設(shè)備、固態(tài)存儲(chǔ)設(shè)備例 如隨機(jī)存取存儲(chǔ)器(RAM)和/或只讀存儲(chǔ)器(ROM),這些存儲(chǔ)器可為 可編程的、可快速更新的,等等。計(jì)算系統(tǒng)800也可包括通信子系統(tǒng)8M, 其可包括但不限于,調(diào)制解調(diào)器、網(wǎng)卡(無(wú)線或有線)、紅外通信設(shè)備、 無(wú)線通信設(shè)備和/或芯片組(例如藍(lán)牙設(shè)備、802.11設(shè)備、WiFi設(shè)備、WiMax 設(shè)備、蜂窩通信設(shè)備等)和/或類似物。通信子系統(tǒng)814可允許使用網(wǎng)絡(luò) (例如,下面描述的網(wǎng)絡(luò),列舉一個(gè)例子)和/或這里描述的任何其它設(shè)備交換數(shù)據(jù)。在很多實(shí)施方式中,計(jì)算系統(tǒng)800將進(jìn)一步包括工作存儲(chǔ)器
818,其可包括RAM或ROM設(shè)備,如上所述。
計(jì)算系統(tǒng)800也可包括被顯示為當(dāng)前位于工作存儲(chǔ)器818內(nèi)的軟件元件,包括4喿作系統(tǒng)824和/或其它代碼,例如一個(gè)或多個(gè)應(yīng)用程序822,應(yīng)用程序822可包括本發(fā)明的計(jì)算機(jī)程序,和/或可設(shè)計(jì)成實(shí)現(xiàn)本發(fā)明的方法和/或配置本發(fā)明的系統(tǒng),如這里所述的。僅僅作為例子,關(guān)于上面討論的方法描述的一個(gè)或多個(gè)程序可被實(shí)現(xiàn)為計(jì)算機(jī)(和/或計(jì)算機(jī)內(nèi)的處理器)可執(zhí)行的代碼和/或指令。在一個(gè)實(shí)施方式中,圖1的音頻和/或樂(lè)譜解構(gòu)單元120以及各種其它客戶端方法被實(shí)現(xiàn)為計(jì)算系統(tǒng)800可讀取的應(yīng)用程序822。
這些指令和/或代碼的集合可儲(chǔ)存在計(jì)算機(jī)可讀介質(zhì)810b上。在一些實(shí)施方式中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)810b是上面描述的存儲(chǔ)設(shè)備808。在其它實(shí)施方式中,計(jì)算^L可讀存儲(chǔ)介質(zhì)810b可包括在計(jì)算機(jī)系統(tǒng)內(nèi)。在又一些其它實(shí)施方式中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)810b可與計(jì)算機(jī)系統(tǒng)分離(即,可移除的介質(zhì),例如光盤等)和/或設(shè)置在安裝包中,使得存儲(chǔ)介質(zhì)可用于使用儲(chǔ)存在其上的指令/代碼給通用計(jì)算機(jī)編程。這些指令可采取可由計(jì)算機(jī)系統(tǒng)800執(zhí)行的可執(zhí)行代碼的形式,和/或可采取源代碼和/或可安裝的代碼的形式,源代碼和/或可安裝的代碼當(dāng)在計(jì)算機(jī)系統(tǒng)800上編譯和/或安裝(例如,使用各種通??傻玫降木幾g器、安裝程序、壓縮/解壓縮工具等)時(shí)接著呈現(xiàn)可執(zhí)行代碼的形式。在這些實(shí)施方式中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)810b可由計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)閱讀器810a讀取。
對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)很明顯,可根據(jù)特定的要求進(jìn)行相當(dāng)多的變化。例如,也可使用定制的硬件,和/或特定的元件可在硬件、軟件(包括可移植軟件,例如小程序等)或兩者中實(shí)現(xiàn)。進(jìn)一步地,可使用到其它計(jì)算設(shè)備例如網(wǎng)絡(luò)輸入/輸出設(shè)備的連接。
在一些實(shí)施方式中, 一個(gè)或多個(gè)輸入設(shè)備804可與音頻接口 830-1連接。音頻接口 830-1可配置成通過(guò)與麥克風(fēng)、樂(lè)器、lt字音頻設(shè)備或其它音頻信號(hào)或文件源例如物理地、光學(xué)地、電》茲地等連接來(lái)接收音樂(lè)稿件102-1。在其它實(shí)施方式中, 一個(gè)或多個(gè)輸入i殳備804可與樂(lè)譜4妄口 830-2連接。樂(lè)譜接口 830-2可配置成通過(guò)與攝像機(jī)、掃描儀、數(shù)字成像設(shè)備或其它數(shù)字圖像源連接來(lái)接收樂(lè)譜稿件102-2。
進(jìn)一步地,在一些實(shí)施方式中, 一個(gè)或多個(gè)輸出設(shè)備806可與音頻輸出設(shè)備106-1連接。音頻輸出設(shè)備106-1可配置成將本發(fā)明的實(shí)施方式產(chǎn)生的音頻信號(hào)數(shù)據(jù)輸出到能夠處理該數(shù)據(jù)的 一個(gè)或多個(gè)系統(tǒng)或設(shè)備,例如揚(yáng)聲器、音頻部件、數(shù)模轉(zhuǎn)換器、光盤燒錄器等。在其它實(shí)施方式中,一個(gè)或多個(gè)輸出設(shè)備806可與樂(lè)語(yǔ)輸出設(shè)備106-2連接。樂(lè)譜輸出設(shè)備106-2可配置成將本發(fā)明的實(shí)施方式產(chǎn)生的樂(lè)譜表示數(shù)據(jù)輸出到能夠處理該數(shù)據(jù)的一個(gè)或多個(gè)系統(tǒng)或設(shè)備,例如樂(lè)譜轉(zhuǎn)錄軟件、樂(lè)譜公布系統(tǒng)、文件存儲(chǔ)設(shè)備等。
在一個(gè)實(shí)施方式中,本發(fā)明使用計(jì)算機(jī)系統(tǒng)(例如計(jì)算系統(tǒng)800)來(lái)執(zhí)行本發(fā)明的方法。根據(jù)一組實(shí)施方式,響應(yīng)于處理器802執(zhí)行包含在工作存儲(chǔ)器818中的一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列(其可合并到操作系統(tǒng)824和/或其它代碼中,例如應(yīng)用禾呈序822 ),這樣的方法的一些或全部程序由計(jì)算系統(tǒng)800來(lái)實(shí)現(xiàn)。這樣的指令可從另一機(jī)器可讀介質(zhì)被讀取到工作存儲(chǔ)器818中,例如一個(gè)或多個(gè)存儲(chǔ)設(shè)備808(或810 )。僅作為例子,包含在工作存儲(chǔ)器818中的指令的序列的執(zhí)行可使處理器802執(zhí)行這里描述的方法的 一個(gè)或多個(gè)程序。
如這里使用的術(shù)語(yǔ)"機(jī)器可讀介質(zhì)"和"計(jì)算機(jī)可讀介質(zhì)"指參與提供使機(jī)器以特定的方式操作的數(shù)據(jù)的任何介質(zhì)。在使用計(jì)算系統(tǒng)800實(shí)現(xiàn)的實(shí)施方式中,各種機(jī)器可讀介質(zhì)可包括向處理器802提供供執(zhí)行的指令/代碼,和/或可用于儲(chǔ)存和/或承載這樣的指令/代碼(例如,作為信號(hào))。在很多實(shí)現(xiàn)中,計(jì)算機(jī)可讀介質(zhì)是物理和/或可觸知的存儲(chǔ)介質(zhì)。這樣的介質(zhì)可采耳又很多形式,包括但不限于,非易失性介質(zhì)、易失性介質(zhì)和傳輸介質(zhì)。非易失性介質(zhì)包括例如光盤或磁盤,例如存儲(chǔ)設(shè)備(1608或810)。易失性介質(zhì)包括但不限于,動(dòng)態(tài)存儲(chǔ)器,例如工作存儲(chǔ)器818。傳輸介質(zhì)包括同軸電纜、銅線和光纖,包括構(gòu)成總線826的導(dǎo)線以及通信子系統(tǒng)814的不同部件(和/或通信子系統(tǒng)814提供與其它設(shè)備的通信的介質(zhì))。因此,傳輸介質(zhì)也可采取波的形式(包括Y旦不限于,無(wú)線電波、聲波和/或光波,例如在無(wú)線電波和紅外數(shù)據(jù)傳輸期間產(chǎn)生的波)。
物理和/或可觸知的計(jì)算機(jī)可讀介質(zhì)的一般形式包括,例如,軟盤、
軟碟、硬盤、磁帶或任何其它磁性介質(zhì)、CD-ROM、任何其它光學(xué)介質(zhì)、穿孔卡片、紙帶、具有孔的圖案的任何其它物理介質(zhì)、RAM、 PROM、EPROM、 FLASH-EPROM、任何其它存儲(chǔ)器芯片或盒式磁帶、諸如以下描述的載波、或計(jì)算機(jī)可從其讀取指令和/或代碼的任何其它介質(zhì)。
機(jī)器可讀介質(zhì)的各種形式可涉及將一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列傳送到處理器802用于執(zhí)行。僅作為例子,指令可最初被承載在遠(yuǎn)程計(jì)算機(jī)的磁盤和/或光盤上。遠(yuǎn)程計(jì)算機(jī)可將指令裝入其動(dòng)態(tài)存儲(chǔ)器中,并在傳輸介質(zhì)上作為信號(hào)發(fā)送指令,以被計(jì)算系統(tǒng)800接收和/或執(zhí)行。根據(jù)本發(fā)明的不同實(shí)施方式,形式可能為電磁信號(hào)、聲信號(hào)、光信號(hào)和/或類似信號(hào)的這些信號(hào),都是指令可編碼在其上的載波的例子。
通信子系統(tǒng)814 (和/或其部件)通常接收信號(hào),且總線826接著可能將該信號(hào)(和/或該信號(hào)所承載的數(shù)據(jù)、指令等)傳送到工作存儲(chǔ)器818,處理器802從工作存儲(chǔ)器818取回并執(zhí)行這些指令。工作存儲(chǔ)器818所接收的指令可在被處理器802 4丸行之前或之后可選地儲(chǔ)存在存儲(chǔ)設(shè)備808上。
應(yīng)認(rèn)識(shí)到,根據(jù)本發(fā)明,可以或可以不包括關(guān)于圖8描述的部件或功能的系統(tǒng)的很多實(shí)施方式是可能的。在一些實(shí)施方式中,系統(tǒng)被實(shí)現(xiàn)為專用設(shè)備。該設(shè)備可包括一個(gè)或多個(gè)內(nèi)部麥克風(fēng),其配置成檢測(cè)聲壓并將其轉(zhuǎn)換成由系統(tǒng)使用的搜索輸入。可選地,該設(shè)備可包括用于與外部麥克風(fēng)、媒體設(shè)備、數(shù)據(jù)存儲(chǔ)器或其它音頻源連接的一個(gè)或多個(gè)音樂(lè)輸入端口 。在這些實(shí)施方式中的某些中,設(shè)備可為手持式或便攜式設(shè)備。在其它實(shí)施方式中,系統(tǒng)可在多功能或通用設(shè)備中實(shí)現(xiàn)(例如,作為儲(chǔ)存在計(jì)算機(jī)可讀介質(zhì)上的軟件模塊,用于由計(jì)算機(jī)執(zhí)行)。在這些實(shí)施方式中的某些中,音頻源可為聲卡、外部麥克風(fēng)或所儲(chǔ)存的音頻文件。輸入接著被產(chǎn)生并提供到該系統(tǒng)。
系統(tǒng)的其它實(shí)施方式可被實(shí)現(xiàn)為簡(jiǎn)化或單聲道形式,以作為從用戶接收音頻的聽音設(shè)備來(lái)操作,這些用戶對(duì)著一個(gè)麥克風(fēng)演奏樂(lè)器或演唱某
43個(gè)曲調(diào)或旋律或其一部分。在單麥克風(fēng)布置中,系統(tǒng)相繼地將來(lái)自一個(gè)麥克風(fēng)的已錄制的樂(lè)曲轉(zhuǎn)換成相應(yīng)的樂(lè)譜。這可提供文本到語(yǔ)音軟件的音樂(lè)等價(jià)物,其將口語(yǔ)單詞和句子轉(zhuǎn)換成計(jì)算^L可讀的文本。作為聲音到音符轉(zhuǎn)換,曲調(diào)或旋律將被記錄下來(lái),就好像一個(gè)樂(lè)器正在演奏。
應(yīng)認(rèn)識(shí)到,系統(tǒng)的不同實(shí)現(xiàn)也可包4舌涉及與用戶和其它系統(tǒng)的相容性的不同類型的接口和功能。例如,可為線路電平輸入(例如,來(lái)自立體聲系統(tǒng)或吉他放大器)、麥克風(fēng)輸入、網(wǎng)絡(luò)輸入(例如,來(lái)自互聯(lián)網(wǎng))或其它數(shù)字音頻部件提供輸入端口。類似地,可為揚(yáng)聲器、音頻部件、計(jì)算機(jī)和網(wǎng)絡(luò)等的輸出提供輸出端口。進(jìn)一步地,在一些實(shí)現(xiàn)中,系統(tǒng)可提供用戶輸入(例如,物理或虛擬鍵盤、滑塊、旋鈕、開關(guān)等)和/或用戶輸出(例如,顯示器、揚(yáng)聲器等)。例如,可提供接口能力,以允許用戶聽錄制品或由系統(tǒng)從錄制品提取的數(shù)據(jù)。
在一個(gè)實(shí)施方式中,本發(fā)明的特征在包括可安裝在數(shù)字計(jì)算機(jī)上的應(yīng)用程序的軟件中實(shí)現(xiàn)。軟件實(shí)現(xiàn)優(yōu)選地為演奏者提供輸入和輸出接口 。也就是說(shuō),安裝有軟件的主機(jī)計(jì)算機(jī)一般包括用于產(chǎn)生演奏者可閱讀的樂(lè)語(yǔ)的視覺表示的顯示器,以隨著演奏者的樂(lè)器演唱或演奏該樂(lè)器。計(jì)算機(jī)也一般包括用于錄制演奏者的會(huì)話的輸入接口,例如麥克風(fēng),并包括輸出接口,例如揚(yáng)聲器,以使演奏者能夠聽已錄制的演奏。計(jì)算機(jī)實(shí)現(xiàn)可包括圖像捕獲,其中包括五線譜上的音符的樂(lè)譜可通過(guò)光學(xué)輸入裝置被數(shù)字化,并接著輸入到計(jì)算機(jī)中。數(shù)字化的樂(lè)譜可通過(guò)OCR技術(shù)被解譯,這樣形成的已解譯的數(shù)據(jù)被處理,以便產(chǎn)生樂(lè)譜的合成音頻再現(xiàn),在適當(dāng)時(shí)包括使單詞與適當(dāng)音高匹配的合成的聲樂(lè)再現(xiàn),使得音頻再現(xiàn)與樂(lè)鐠的視覺表示同步。在下面提供的額外詳細(xì)的描述中,計(jì)算機(jī)軟件實(shí)現(xiàn)被稱為
"Level X"實(shí)現(xiàn)或被稱為"eMuse X"產(chǎn)品(名稱"eMuse,,指來(lái)自美國(guó)普林斯頓、新澤西的MuseAmi公司一本發(fā)明中所有權(quán)利的受讓人一的產(chǎn)品實(shí)施方式)。
在另一實(shí)施方式中,本發(fā)明的特征體現(xiàn)在一可包括顯示器、輸入接口、音頻和視覺輸出接口以及OCR圖像解譯接口的手持式設(shè)備中。該手持式設(shè)備實(shí)現(xiàn)包括各種方便的用戶控制旋鈕和用于設(shè)備功能的方便導(dǎo)航的機(jī)制。該顯示器支持由用戶對(duì)功能進(jìn)行選擇的菜單選項(xiàng)的視覺表示。
如下面進(jìn)一 步詳細(xì)描述的,計(jì)算設(shè)備通過(guò)從外部源接收樂(lè)譜數(shù)據(jù), 并隨后產(chǎn)生樂(lè)譜數(shù)據(jù)的合成音頻再現(xiàn)和樂(lè)譜的同步視覺表示來(lái)解譯和處 理樂(lè)譜數(shù)據(jù)。
外部源可由通過(guò)網(wǎng)絡(luò)連接向計(jì)算設(shè)備提供樂(lè)譜數(shù)據(jù)的網(wǎng)絡(luò)數(shù)據(jù)源組 成。網(wǎng)絡(luò)連接可由通過(guò)無(wú)線連接的計(jì)算設(shè)備和網(wǎng)絡(luò)之間的通信組成。
將記錄有數(shù)據(jù)的介質(zhì)接受進(jìn)入計(jì)算設(shè)備的閱讀器中,而該閱讀器接 著從該記錄有數(shù)據(jù)的介質(zhì)獲得樂(lè)譜數(shù)據(jù),通過(guò)這種方式,可從記錄有數(shù)據(jù) 的介質(zhì)讀取樂(lè)譜數(shù)據(jù)。記錄有數(shù)據(jù)的介質(zhì)包含充足的數(shù)據(jù),來(lái)根據(jù)合成音 樂(lè)制作的MIDI規(guī)范合成音頻再現(xiàn)。也就是說(shuō),計(jì)算設(shè)備可接收指定樂(lè)譜 的數(shù)據(jù),并可按選定的拍速、音色、譜號(hào)、調(diào)號(hào)、拍號(hào)等產(chǎn)生或合成相應(yīng)
的音樂(lè)樂(lè)音。記錄有凝:據(jù)的介質(zhì)可包括閃存設(shè)備。
可給計(jì)算設(shè)備提供用于錄制用戶對(duì) 一 樂(lè)譜的演奏并提供已錄制的用 戶演奏的重放的能力。用戶演奏重放可獨(dú)立于合成樂(lè)譜再現(xiàn)而發(fā)生,或可 與其同時(shí)發(fā)生。此外,可將用戶演奏重放連同相應(yīng)于該已錄制的用戶演奏 的樂(lè)譜的視覺表示一起提供給用戶。以這種方式,提供了 "聽音"特征。
在一個(gè)可選方案中,通過(guò)光學(xué)地捕獲樂(lè)譜的數(shù)字圖像、接著解譯并 處理數(shù)字信息以產(chǎn)生表示適當(dāng)?shù)囊魳?lè)音符的數(shù)據(jù)的集合、因而產(chǎn)生相應(yīng)于 該樂(lè)譜的數(shù)據(jù),由此,該設(shè)備可獲得由其用來(lái)產(chǎn)生合成音頻再現(xiàn)和樂(lè)譜的 同步視覺表示的樂(lè)譜數(shù)據(jù)。
此外,可提供用于確定樂(lè)譜數(shù)據(jù)的合成音頻再現(xiàn)的特征的音樂(lè)情境 信息,其中所有特征都可被用戶調(diào)節(jié)。這樣的音樂(lè)情境信息可包括多個(gè)調(diào) 號(hào)、拍號(hào)、音色、拍速和表現(xiàn)性術(shù)語(yǔ),例如連奏、漸強(qiáng)、漸慢等。
在另一可選方案中,通過(guò)與網(wǎng)絡(luò)數(shù)據(jù)源的通信來(lái)實(shí)現(xiàn)產(chǎn)生樂(lè)譜數(shù)據(jù) 的音頻重放和音樂(lè)音符的視覺表示。如果需要,網(wǎng)絡(luò)數(shù)據(jù)源向計(jì)算設(shè)備提 供樂(lè)譜數(shù)據(jù)。在又一可選方案中,網(wǎng)絡(luò)數(shù)據(jù)源可向計(jì)算設(shè)備提供決定樂(lè)語(yǔ) 數(shù)據(jù)的合成音頻再現(xiàn)的音樂(lè)特征的音樂(lè)情境信息。此外,網(wǎng)絡(luò)數(shù)據(jù)源可通 過(guò)無(wú)線連接提供音樂(lè)情境信息。在一個(gè)可選方案中,通過(guò)將記錄有數(shù)據(jù)的介質(zhì)插入計(jì)算設(shè)備的閱讀 器中來(lái)實(shí)現(xiàn)產(chǎn)生樂(lè)譜數(shù)據(jù)的合成音頻再現(xiàn)和樂(lè)譜的合成視覺表示。如果需 要,計(jì)算設(shè)備從記錄有數(shù)據(jù)的介質(zhì)獲得樂(lè)譜數(shù)據(jù),且記錄有數(shù)據(jù)的介質(zhì)也 可向計(jì)算設(shè)備提供用于確定樂(lè)鐠數(shù)據(jù)的合成音頻再現(xiàn)的音樂(lè)特征的音樂(lè) 情境信息。
一個(gè)可選的特征是提供對(duì)樂(lè)譜的用戶樂(lè)器演奏和/或聲樂(lè)演奏的錄
制。另一可選方案是根據(jù)MIDI規(guī)范產(chǎn)生合成音頻再現(xiàn)。此外,產(chǎn)生視覺 表示可包括顯示與相應(yīng)的合成音頻再現(xiàn)同步的樂(lè)譜。另 一選4奪是同時(shí)提供 同步的重放、樂(lè)譜數(shù)據(jù)的視覺表示和音頻再現(xiàn)的重放,以及已錄制的用戶 演奏的音頻組成和用戶演奏所產(chǎn)生的樂(lè)譜的同步的相應(yīng)視覺表示。
根據(jù)本發(fā)明,計(jì)算設(shè)備可以可選地?cái)?shù)字地捕獲樂(lè)譜并解譯數(shù)字圖像, 以及產(chǎn)生樂(lè)譜數(shù)據(jù)的合成音頻再現(xiàn)和樂(lè)譜的同步視覺表示,該數(shù)字圖像為 計(jì)算設(shè)備產(chǎn)生的相應(yīng)于數(shù)字捕獲的樂(lè)譜的樂(lè)錯(cuò)數(shù)據(jù)。該計(jì)算設(shè)備可接收音 樂(lè)情境信息,該音樂(lè)情境信息由計(jì)算設(shè)備使用來(lái)確定樂(lè)譜數(shù)據(jù)的合成音頻 再現(xiàn)的音樂(lè)特征。類似于上面描述的可選實(shí)施方式,音樂(lè)情境信息可包括 多個(gè)調(diào)號(hào)、拍號(hào)、音色、拍速和表現(xiàn)性術(shù)語(yǔ),例如連奏、漸強(qiáng)、漸慢等, 這些信息可由用戶選擇來(lái)確定樂(lè)譜數(shù)據(jù)的合成音頻再現(xiàn)的音樂(lè)特征。作為 選擇,該計(jì)算設(shè)備從光學(xué)地?cái)?shù)字捕獲的樂(lè)譜來(lái)識(shí)別出音樂(lè)情境信息,并可 選地可以從網(wǎng)絡(luò)數(shù)據(jù)源獲得音樂(lè)情境信息。如果需要,網(wǎng)絡(luò)數(shù)據(jù)源通過(guò)與 計(jì)算設(shè)備的無(wú)線連接來(lái)提供音樂(lè)情境信息。
可給計(jì)算設(shè)備提供其自己的擴(kuò)音器,用于所合成的再現(xiàn)和/或用戶所 錄制的演奏的音頻重放。此外,該設(shè)備可包括用于連"I矣到耳^L或外部擴(kuò)音 器等的輸出插孔,并可設(shè)置有允許設(shè)備向無(wú)線聲音重放系統(tǒng)(例如使用無(wú) 線部件實(shí)現(xiàn)的家庭立體聲系統(tǒng))傳輸音頻演奏的無(wú)線傳輸能力。該設(shè)備具 有充足的計(jì)算存儲(chǔ)器,使它能夠儲(chǔ)存預(yù)定長(zhǎng)度的樂(lè)段。
下面額外詳細(xì)的描述涉及在手持式設(shè)備實(shí)現(xiàn)中的特征的各種實(shí)現(xiàn), 且分別被稱為"Level 1"和"Level 2"或"eMuse 1"和"eMuse2"。
下面的討論描述了可安裝在一 系列數(shù)字計(jì)算設(shè)備上的音樂(lè)重放軟 件,并且也描述了手持式活頁(yè)樂(lè)譜閱讀設(shè)備的實(shí)施方式,這些設(shè)備在這里被共同稱為eMuse產(chǎn) 品o
圖9示出作為手持式的、電池供電的"對(duì)準(zhǔn)即拍"消費(fèi)電子設(shè)備900 的產(chǎn)品的例證性實(shí)施方式,設(shè)備900從活頁(yè)樂(lè)譜捕獲選定樂(lè)段一幾個(gè)小節(jié) 或甚至整頁(yè)一的圖像,數(shù)字地設(shè)計(jì)該樂(lè)^險(xiǎn)的形式并編碼該樂(lè)段,接著演奏 選定的樂(lè)段,全部都是實(shí)際上即時(shí)實(shí)時(shí)地進(jìn)行的。重放聲音是針對(duì)樂(lè)器的, 即,以用戶選擇的音色(例如,鋼琴、小提琴、長(zhǎng)笛的聲音)演奏??赏?時(shí)演奏多種音色。設(shè)備900設(shè)計(jì)成識(shí)別音樂(lè)變量,例如調(diào)號(hào)、節(jié)拍、音量 和拍速,并解釋樂(lè)文術(shù)語(yǔ),例如強(qiáng)音、輕聲演奏、漸強(qiáng)音、連奏等。當(dāng)該 設(shè)備正重放樂(lè)段904時(shí),LCD屏幕902顯示樂(lè)段904,每個(gè)被演奏的音符 以獨(dú)特的顏色加亮,以便將其與樂(lè)譜的其余部分區(qū)別開。
圖9的設(shè)備900包括數(shù)字"音樂(lè)卡"特征,其支持編碼有一個(gè)或多 個(gè)已錄制的或下載的樂(lè)曲的數(shù)據(jù)卡(未示出)的插入,并允^4夬速參考特 定的小節(jié)。數(shù)據(jù)卡可包括可記錄的介質(zhì),例如一般由便攜式電話和數(shù)字?jǐn)z 像機(jī)使用的介質(zhì)。數(shù)據(jù)卡被接收到設(shè)備900的卡插槽906中。設(shè)備900 也使用表示被編碼的樂(lè)曲的數(shù)字?jǐn)?shù)據(jù)來(lái)工作。下載的文件也可保存在設(shè)備 的存儲(chǔ)器內(nèi)。被編碼的樂(lè)曲提供了豐富的收聽體驗(yàn),允許快速參考樂(lè)譜的 特定小節(jié)。
設(shè)備卯0的錄制/重放特征允許用戶立即參考樂(lè)譜來(lái)評(píng)估已錄制的演 奏。也就是說(shuō),設(shè)備900可錄制用戶對(duì)樂(lè)曲的演奏,并重放用戶的演奏, 以及(或同時(shí))重放接收到的樂(lè)曲。用戶演奏重放能夠呈現(xiàn)相應(yīng)的視覺表 示,提供"聽音"特征。節(jié)拍器和音樂(lè)調(diào)音器能力也合并到該設(shè)備中,且 可對(duì)"缺一音樂(lè)(music minus one)"特征調(diào)節(jié)該設(shè)備。在多音度線或多 聲部樂(lè)曲中,"缺一音樂(lè)"特征允許用戶確定樂(lè)曲的哪些部分將由MIDI 接口重放。這允許用戶隨著設(shè)備演奏/唱特定的部分。
圖9示出具有翻轉(zhuǎn)頂部908的手持式設(shè)備900, LCD屏幕902合并 到蓋或頂部908的下側(cè)。該設(shè)備也包括用于音樂(lè)重放的揚(yáng)聲器910 (在圖 9中示出了立體聲對(duì))以及用于錄制用戶演奏的麥克風(fēng)912。可實(shí)現(xiàn)圖像 捕獲能力,如圖9所示的,其中翻轉(zhuǎn)頂部908包括攝像才幾系統(tǒng),其包括安 裝在翻轉(zhuǎn)頂部卯8的外側(cè)表面中的并為了圖像捕獲的目的由鏡頭快門按
47鈕914觸發(fā)的光學(xué)透鏡。提供了各種用戶界面控制,其被示為用于調(diào)節(jié)音 量916、重放拍速918、菜單導(dǎo)航920和位置922的拇指輪。,沒(méi)備卯0可 設(shè)置有用于更容易與網(wǎng)絡(luò)或其它設(shè)備連接的USB端口 924。開/關(guān)開關(guān)925 打開和關(guān)閉設(shè)備900。
如圖9所示,控制按鈕也被提供來(lái)用于控制涉及樂(lè)譜的再現(xiàn)(合成 演奏)和用戶演奏的重放的功能。圖9示出用于播》文/暫停926、停止928、 下一首/重置930和錄制932的功能的示例性控制按鈕。圖9也示出節(jié)拍 器讀出顯示器934,其顯示定時(shí)指示器并與重放拍速918關(guān)聯(lián)。結(jié)合菜單 拇指輪920和/或位置拇指輪922的操作使用LCD屏幕902的菜單導(dǎo)航來(lái) 實(shí)現(xiàn)對(duì)節(jié)拍器功能和設(shè)備900的其它特征的選擇??赏ㄟ^(guò)下一首/重置控 制按鈕930的操作來(lái)實(shí)現(xiàn)選擇。鍵盤或輔助鍵盤935可用于通過(guò)輔助鍵盤 935的專用功能鍵的輸入或來(lái)自輔助鍵盤935的字母數(shù)字輸入。在LCD 屏幕902上,提供了來(lái)自音樂(lè)樂(lè)段904的音樂(lè)音符的圖形圖像,其在整個(gè) 屏幕內(nèi)移動(dòng),單獨(dú)的音符出現(xiàn)在屏幕上或在顯示器中被加亮,作為被演奏 的音符。顯示器優(yōu)選地提供在重放期間擴(kuò)展的音樂(lè)五線譜圖像,由此,預(yù) 定數(shù)量的音樂(lè)音符或小節(jié)顯示為被演奏的音樂(lè)樂(lè)段904。
在設(shè)備900的一個(gè)實(shí)施方式中,數(shù)字?jǐn)z像機(jī)系統(tǒng)914捕獲樂(lè)譜內(nèi)的 樂(lè)段(單個(gè)音符、幾個(gè)小節(jié)或甚至整頁(yè))的圖像。數(shù)字?jǐn)z像機(jī)可構(gòu)造到設(shè) 備900中,并可包括類似于本領(lǐng)域技術(shù)人員熟悉的透鏡和圖像傳感器組 合。LCD屏幕902允許用戶準(zhǔn)確地確定捕獲哪些小節(jié)。該設(shè)備可讀取單 個(gè)五線譜表樂(lè)曲行、二重奏、三重奏、四重奏或甚至完整的樂(lè)隊(duì)指揮樂(lè)語(yǔ)。 設(shè)備900提供了多個(gè)同時(shí)的音色。
OCR模塊可接收音樂(lè)摘錄的"照片",其包括數(shù)字化的圖像數(shù)據(jù)。重 要的額外音樂(lè)情境信息,例如調(diào)號(hào)和節(jié)拍也通過(guò)樂(lè)譜數(shù)字圖像或通過(guò)列出 所有可用的調(diào)號(hào)和拍號(hào)的"備忘單,,(例如從網(wǎng)站下載,接著無(wú)線地或通 過(guò)USB端口傳輸?shù)皆撛O(shè)備,見下文)發(fā)送到OCR模塊。"備忘單"也可 包括用戶可從其選擇期望音色的部分,或者,用戶可手工指定(輸入)期 望的音色。
在另一實(shí)施方式中,設(shè)備900可提供MIDI合成器功能。OCR模塊可將聲音信息發(fā)送到產(chǎn)生合成聲音的MIDI模塊。這提供了可調(diào)節(jié)的音 色;用戶為特定的樂(lè)段或樂(lè)曲指定樂(lè)器的類型(鋼琴、小提琴、長(zhǎng)笛等)。 該才莫塊也可提供可調(diào)節(jié)的拍速,以便用戶可聽到比在樂(lè)譜中指示的節(jié)拍器 (如果有的話)慢(或快)的樂(lè)段,而沒(méi)有音高的任何改變。該設(shè)備通過(guò) 其自己的小擴(kuò)音器重放,并且還具有用于耳機(jī)和/或外部揚(yáng)聲器的耳機(jī)插 孔934和無(wú)線能力。
在各種實(shí)施方式中,設(shè)備900可提供某些視覺顯示能力。例如,LCD 屏幕902可幫助用戶確保被捕獲(拍攝)的小節(jié)是預(yù)期要聽到的小節(jié)。包 括游標(biāo)936的LCD屏幕902將音樂(lè)樂(lè)段904顯示為被重力丈的樂(lè)段,其來(lái) 自用戶所拍攝的樂(lè)段或來(lái)自具有存儲(chǔ)的數(shù)據(jù)的音樂(lè)卡。游標(biāo)指示當(dāng)音樂(lè)樂(lè) 段904實(shí)時(shí)地播放時(shí)當(dāng)前被演奏的音符的樂(lè)譜中的確切的音樂(lè)位置,而不 管固定的拍速。不同于傳統(tǒng)類型的移動(dòng)游標(biāo),當(dāng)音符被演奏時(shí),游標(biāo)936 可替代地通過(guò)加亮音符(例如,使其更亮)或通過(guò)給與它不同于其它音符 的顯示顏色來(lái)指示正被演奏的音符。另 一選擇是LCD屏幕卯2顯示音符 938的名稱(用英語(yǔ)和用視唱標(biāo)記),特別是對(duì)于單旋律音樂(lè)樂(lè)段904。如 果音樂(lè)樂(lè)段904由多個(gè)同時(shí)的音樂(lè)旋律組成,則用戶可指定音符938的名 稱所顯示針對(duì)的旋律。
LCD屏幕902也可顯示被選擇用于播放的音樂(lè)樂(lè)段904的指示符。 指示符稱為樂(lè)段標(biāo)記939。在圖9中,樂(lè)段標(biāo)記939被示為包圍在圓圈中 的數(shù)字"1"。數(shù)字"1"指示當(dāng)前正顯示音樂(lè)樂(lè)段904的第一小節(jié),且圓 圈指示重放在第一小節(jié)開始。如果重^:繼續(xù)到下一小節(jié),"2"將代替"1" 被顯示,但"2"將被包圍。 ^
在另一實(shí)施方式中,設(shè)備900可提供錄制傳感器功能。例如,麥克 風(fēng)912可配置成使得用戶可錄制他/她自己演奏(和/或演唱)的有問(wèn)題的 音樂(lè)樂(lè)段卯4,并重放該錄制結(jié)果,以比較該用戶的演奏與設(shè)備900的演 奏(即,以前錄制的演奏或合成的再現(xiàn))。該特征對(duì)進(jìn)行音符、調(diào)音、節(jié) 奏和力度強(qiáng)弱的調(diào)節(jié)的學(xué)生可能有幫助。如上所述,可通過(guò)麥克風(fēng)912 錄制用戶演奏以提供"聽音"特征。
設(shè)備900的一些實(shí)施方式^是供了無(wú)線能力。例如,設(shè)備900可操作來(lái)允許與網(wǎng)絡(luò)和其它有無(wú)線能力的設(shè)備進(jìn)行無(wú)線通信,并允許下載具有情境信息的被編碼的音樂(lè)文件??衫缤ㄟ^(guò)安裝到無(wú)線平臺(tái)例如PDA或智 能電話的eMuse軟件來(lái)為便攜式的音樂(lè)互動(dòng)提供這里描述的特征。此外, 設(shè)備900可使用家用PC和/或立體聲系統(tǒng)或另 一部件的計(jì)算和存儲(chǔ)器(以 及重放音頻)。在另一實(shí)施方式中,用戶的演奏可由設(shè)備卯0錄制,且用戶的演奏 可被音樂(lè)音符解"^處理,以產(chǎn)生數(shù)據(jù), >匸人該數(shù)據(jù)產(chǎn)生相應(yīng)于用戶的已錄制 的演奏的音樂(lè)音符的顯示。以這種方式,該設(shè)備可采用"聽音"并可將用 戶的現(xiàn)場(chǎng)表演的音頻演奏轉(zhuǎn)換成相應(yīng)于該演奏的樂(lè)-譜的視覺顯示。因此, 該設(shè)備的音樂(lè)解i奪特征可處理光學(xué)或電子網(wǎng)絡(luò)通信所接收的樂(lè)譜-數(shù)據(jù),并 可處理用戶的現(xiàn)場(chǎng)表演的演奏所產(chǎn)生的、麥克風(fēng)所捕獲的樂(lè)譜數(shù)據(jù)。這里描述的軟件可用在各種平臺(tái)上。在一個(gè)實(shí)施方式中,eMuse的某 些方面被嵌入高端便攜式電話中,在高端便攜式電話中的便攜式電話攝像 機(jī)拍攝樂(lè)謙中的特定樂(lè)段。所捕獲的圖像接著被壓縮,并發(fā)送到遠(yuǎn)程服務(wù) 器,其對(duì)圖像數(shù)據(jù)執(zhí)行OCR操作,以將圖像解譯成相應(yīng)的音樂(lè)音符信息。 該服務(wù)器接著發(fā)送回MIDI文件和圖形文件,使該版本的eMuse能夠播放 被拍才聶的音樂(lè),并在播放該音樂(lè)時(shí),將音符顯示在LCD上。圖10提供了示出圖9中設(shè)備卯0的實(shí)施方式的操作的處理流程圖的 簡(jiǎn)化圖示。在初始操作中,樂(lè)譜的數(shù)字表示被提供到該設(shè)備。該數(shù)字表示 可通過(guò)視覺表示1002例如打印出的頁(yè)接收到設(shè)備,視覺表示1002使用數(shù) 字圖像捕獲設(shè)備1004例如與設(shè)備一起操作的數(shù)字?jǐn)z像機(jī)被數(shù)字地捕獲。 從光學(xué)輸入1006得到的數(shù)字?jǐn)?shù)據(jù)接著被提供到音符數(shù)據(jù)解譯過(guò)程1008。 可選地,樂(lè)潘的數(shù)字表示可被電子地提供(1010),例如通過(guò)相應(yīng)于樂(lè)譜 的數(shù)字?jǐn)?shù)據(jù)的無(wú)線傳輸或在網(wǎng)絡(luò)上數(shù)據(jù)的有線傳輸,或通過(guò)存儲(chǔ)介質(zhì)例如 存儲(chǔ)卡或其它介質(zhì)輸入。樂(lè)譜1010的電子接收的版本被提供到音符數(shù)據(jù) 解譯過(guò)程1008。音符數(shù)據(jù)解譯過(guò)程1008接收相應(yīng)于樂(lè)譜的數(shù)字?jǐn)?shù)據(jù),并對(duì)其進(jìn)行處 理,以產(chǎn)生一組音樂(lè)音符和足夠的附隨信息,以指定音樂(lè)音符并能通過(guò)適 當(dāng)?shù)挠布佻F(xiàn)。過(guò)程1008包括使用機(jī)器學(xué)習(xí)技術(shù)培訓(xùn)的處理器,以識(shí)別樂(lè)譜數(shù)字?jǐn)?shù)據(jù)1006、 1010,并產(chǎn)生經(jīng)適當(dāng)轉(zhuǎn)換的數(shù)據(jù)。過(guò)程1008可例如 使用神經(jīng)網(wǎng)絡(luò)軟件工程技術(shù)被培訓(xùn),以將解譯過(guò)程的準(zhǔn)確性增加到實(shí)質(zhì)上 100%的準(zhǔn)確性。根據(jù)本發(fā)明,輸入的樂(lè)譜數(shù)據(jù)必須被產(chǎn)生來(lái)用于對(duì)用戶 的實(shí)時(shí)的視頻和視覺顯示,因此,輸入的樂(lè)譜數(shù)據(jù)的解譯必須是實(shí)時(shí)的, 且必須達(dá)到100%的解譯(轉(zhuǎn)換)準(zhǔn)確性。過(guò)程1008利用光學(xué)字符識(shí)別 (OCR)技術(shù),但被調(diào)整為適于音樂(lè)音符識(shí)別并適于將(電子或光學(xué)掃 描得到的)數(shù)字?jǐn)?shù)據(jù)解譯為適合的表示。解譯過(guò)程輸出1012包括被提供到設(shè)備的顯示屏1014的樂(lè)譜的視覺 表示,以及還包括被提供到適當(dāng)?shù)脑O(shè)備系統(tǒng)和硬件1016的樂(lè)譜的合成音 頻再現(xiàn),該合成音頻再現(xiàn)用于通過(guò)該設(shè)備的擴(kuò)音器或類似物進(jìn)行音頻表 示。其它能力應(yīng)認(rèn)識(shí)到,除了上面描述的能力以外,很多其它處理能力也是可能 的。 一組額外的處理能力包括增加提供給用戶的可定制性的量。例如,實(shí) 施方式可允許本發(fā)明的各種部件和方法的增強(qiáng)的可定制性。在一些實(shí)施方式中,由于各種原因,部件和方法的不同閾值、窗和 其它輸入每一個(gè)都是可調(diào)節(jié)的。例如,如果音調(diào)確定看起來(lái)進(jìn)行得太頻繁 (例如,用戶可能不希望與音調(diào)的短暫偏離作為音調(diào)變化展現(xiàn)在樂(lè)譜上), 用戶能夠調(diào)節(jié)音調(diào)提取窗。對(duì)于另一例子,錄制品可包括在錄制時(shí)因在演 奏期間使用的60 Hz電源而出現(xiàn)的背景噪聲。用戶可能希望調(diào)節(jié)各種濾波 算法.以忽略此60Hz音高,以便不將它表示為樂(lè)譜上的下部音符。在又 一例子中,用戶可調(diào)節(jié)音高被量化成的樂(lè)曲盒(bin)的分辨率,以調(diào)節(jié) 音符音高分辨率。在其它實(shí)施方式中,可給用戶提供較小的可定制性。在一個(gè)實(shí)施方 式中,用戶能夠調(diào)節(jié)表示準(zhǔn)確性水平。根據(jù)一個(gè)或多個(gè)參^t,包括選^^對(duì) 單獨(dú)的樂(lè)謙表示元素如拍速和音高的準(zhǔn)確性,用戶可輸入(例如,通過(guò)物 理或虛擬滑塊、旋鈕、開關(guān)等)系統(tǒng)是應(yīng)產(chǎn)生更準(zhǔn)確的還是較不準(zhǔn)確的樂(lè) 語(yǔ)表示。得最小音符值是十六分音符。 通過(guò)調(diào)節(jié)表示的準(zhǔn)確性,較長(zhǎng)或較短的時(shí)值可被檢測(cè)到并表示為最小值。 這可能在演奏者不嚴(yán)格按恒定拍子演奏(例如,沒(méi)有打擊樂(lè)器組,沒(méi)有節(jié) 拍器)的情況下是有用的,且如果太靈敏的話,系統(tǒng)可產(chǎn)生不合需要的表 示(例如,三拍附點(diǎn)音符)。作為另一例子,很多內(nèi)部設(shè)置可一起起作用, 以便最小音高變化是半音級(jí)(即,以半音音階計(jì)的音符)。在又一些其它實(shí)施方式中,可給用戶提供甚至更小的可定制性。在 一個(gè)實(shí)施方式中,用戶可輸入他或她是新用戶還是高級(jí)用戶。在另一實(shí)施 方式中,用戶可輸入系統(tǒng)是應(yīng)具有高靈敏性還是低靈敏性。在任一實(shí)施方 式中,在很多部件或方法中的很多不同的參數(shù)可在一起調(diào)節(jié),以符合期望 水平。例如,在一種情況下,歌手可能希望準(zhǔn)確地轉(zhuǎn)錄音高和時(shí)值中的每 個(gè)波動(dòng)(例如,作為對(duì)找到錯(cuò)誤或以所有其美學(xué)的細(xì)微之處忠實(shí)地再現(xiàn)特定的演奏的實(shí)際幫助);而在另一情況下,歌手可能希望通過(guò)使系統(tǒng)忽略 小偏差來(lái)產(chǎn)生容易閱讀的樂(lè)譜用于發(fā)表。在某些實(shí)施方式中,可定制性的水平、功能的類型以及系統(tǒng)和方法 的其它方面可用不同的方式指定。在一個(gè)實(shí)施方式中,用戶可選擇某些偏 好,操作某些物理或虛擬控制,或以其他方式有效地與系統(tǒng)進(jìn)行互動(dòng)以確 定這些方面。在另一實(shí)施方式中,系統(tǒng)可自動(dòng)選擇不同的方面(例如,根 據(jù)與用戶有關(guān)的登錄和/或配置文件信息,根據(jù)用戶使用該系統(tǒng)的模式 等)。另 一組額外的處理能力包括使用不同類型的輸入來(lái)改進(jìn)或以其他方 式影響對(duì)輸入音頻信號(hào)的處理。一個(gè)實(shí)施方式使用一個(gè)或多個(gè)經(jīng)培訓(xùn)的人 工神經(jīng)網(wǎng)絡(luò)(ANN)來(lái)改進(jìn)某些確定。例如,心理聲學(xué)確定(例如,節(jié) 拍、音調(diào)、樂(lè)器等)可完全適合于使用經(jīng)培訓(xùn)的ANN。另一實(shí)施方式給用戶提供使多個(gè)聲道分層的能力(例如, 一人樂(lè)隊(duì))。 用戶可通過(guò)演奏鼓聲道來(lái)開始, <吏用本發(fā)明的系統(tǒng)實(shí)時(shí)地處理該鼓聲道。 用戶可接著相繼地演奏吉他聲道、4定盤聲道和聲樂(lè)聲道,其中每個(gè)都被處 理。在一些情況下,用戶可選擇多個(gè)聲道來(lái)一起處理,而在其它情況下, 用戶可選擇使每個(gè)聲道被單獨(dú)地處理。來(lái)自 一些聲道的信息可接著用于改進(jìn)或引導(dǎo)對(duì)其它聲道的處理。例如,鼓聲道可^fe獨(dú)立地處理,以產(chǎn)生高置 信度拍速和節(jié)拍信息。拍速和節(jié)拍信息可接著與其它聲道一起使用來(lái)更準(zhǔn) 確地確定音符時(shí)值和音符值。對(duì)于另一例子,吉他聲道可在小時(shí)間窗內(nèi)提 供很多音高,這可使確定音調(diào)更容易。該音調(diào)確定可接著用于將音調(diào)音高 確定分配給4建盤聲道中的音符。對(duì)于又一例子,多個(gè)聲道可在一維或多維 中被排列、量化或標(biāo)準(zhǔn)化(例如,聲道可被標(biāo)準(zhǔn)化為具有相同的拍速、平 均音量、音高音域、音高分辨率、最小音符時(shí)值等)。進(jìn)一步地,在"一 人樂(lè)隊(duì)"的一些實(shí)施方式中,用戶可使用一個(gè)樂(lè)器來(lái)產(chǎn)生音頻信號(hào),接著 使用本系統(tǒng)或方法來(lái)轉(zhuǎn)換到不同的樂(lè)器(例如,使用鍵盤演奏四重奏的所 有四個(gè)聲道,并使用該系統(tǒng)來(lái)將鍵盤輸入轉(zhuǎn)換成弦樂(lè)四重奏)。在一些情 況下,這可包括調(diào)節(jié)音色、使音樂(lè)旋律變調(diào)和其它處理。又一實(shí)施方式使用音頻輸入信號(hào)之外的輸入來(lái)改進(jìn)或引導(dǎo)處理。在 一個(gè)實(shí)施方式中,從用戶、從另一系統(tǒng)(例如,計(jì)算機(jī)系統(tǒng)或互聯(lián)網(wǎng))或 從數(shù)字音頻文件中的頭部信息來(lái)接收風(fēng)格信息,以改進(jìn)各種代價(jià)函數(shù)。例如,音調(diào)代價(jià)函數(shù)可對(duì)藍(lán)調(diào)、印度古典、民謠等不同;或不同的樂(lè)器可能 在不同的風(fēng)格中更可能(例如,"風(fēng)琴類"聲音可能在贊美詩(shī)音樂(lè)中更可 能是管風(fēng)琴,而在波爾卡音樂(lè)中更可能是手風(fēng)琴)。另 一組額外的處理能力包括使用在多個(gè)部件或方法中的信息來(lái)改進(jìn) 復(fù)雜的確定。在一個(gè)實(shí)施方式中,樂(lè)器識(shí)別方法的輸出用于才艮據(jù)所識(shí)別的 樂(lè)器的已知能力或限制來(lái)改進(jìn)確定。例如,比如樂(lè)器識(shí)別方法確定樂(lè)曲譜 線可能是由鋼琴演奏的。然而,音高識(shí)別方法確定該樂(lè)曲旋律包含快速微 弱的顫音(例如,在^r測(cè)到的音調(diào)音高標(biāo)志的^f叉一個(gè)或兩個(gè)半音程內(nèi)的音 高的顫音)。因?yàn)檫@一般不可能是在鋼琴上產(chǎn)生的效果,系統(tǒng)可確定該旋 律正由另一樂(lè)器(例如,電子鍵盤或風(fēng)琴)演奏。又一組額外的能力涉及使用用于處理鈴聲(例如,用于便攜式電話、 互聯(lián)網(wǎng)協(xié)議的語(yǔ)音電話和其它設(shè)備)的系統(tǒng)和方法的各種功能。在一個(gè)實(shí) 施方式中,解構(gòu)的音樂(lè)元素被操作以符合鈴聲的規(guī)范。例如, 一些設(shè)備可 能對(duì)鈴聲的帶寬、復(fù)調(diào)深度和音樂(lè)長(zhǎng)度有限制。因此,在一些情況下,系53提示根據(jù)那些規(guī)范引導(dǎo)用戶所需要或要求的信息。用戶可接著能夠例如聽 鈴聲,將鈴聲下載到便攜式電話或其它設(shè)備(或存儲(chǔ)位置),在網(wǎng)絡(luò)上與 其他人共享鈴聲,拍賣或出售鈴聲,等等。又一組額外的能力涉及將音頻或樂(lè)譜輸出配置為用于出售或拍賣的 產(chǎn)品。例如,搜索門戶可包括音樂(lè)拍賣功能或音樂(lè)商店功能。購(gòu)買功能可 包括與以下項(xiàng)有關(guān)的能力版稅和定價(jià)、投票表決(例如,展示在給定時(shí) 間跨度內(nèi)最流行的,或優(yōu)勝者獲得門戶上的特別節(jié)目)、按設(shè)備或規(guī)范搜 索、不同的付款處理、安全的電子商務(wù)、版權(quán)保護(hù)和數(shù)字版權(quán)管理等。又一組額外的能力涉及使用解構(gòu)的或接收到的音樂(lè)元素來(lái)搜索類似 的作品,以避免(檢測(cè))版權(quán)侵犯。該能力可能需要被合并到系統(tǒng)中的額 外模塊或被合并到方法中的額外步驟,以調(diào)整搜索來(lái)獲得該特定結(jié)果。例 如,在一些實(shí)施方式中,可提供關(guān)于版權(quán)法和政策的信息,以幫助系統(tǒng)和 方法確定是否有潛在的侵權(quán)。應(yīng)認(rèn)識(shí)到,根據(jù)本發(fā)明,很多這樣的額外處理能力是可能的。進(jìn)一 步地,應(yīng)注意,上面討論的方法、系統(tǒng)和設(shè)備只被確定為例子。必須強(qiáng)調(diào), 不同實(shí)施方式可在適合時(shí)省略、替換或添加各種程序或部件。例如,應(yīng)認(rèn) 識(shí)到,在可選實(shí)施方式中,方法可按不同于所描述的順序執(zhí)行,且可添加、 省略或合并不同的步驟。此外,關(guān)于某些實(shí)施方式描述的特征可合并在各 種其它實(shí)施方式中。實(shí)施方式的不同方面和元件可以類似的方式合并。此 外,應(yīng)強(qiáng)調(diào)技術(shù)是發(fā)展的,因此,這些元件中的很多是例子,且不應(yīng)被解 釋為限制本發(fā)明的范圍。在說(shuō)明書中給出了具體的細(xì)節(jié),以提供對(duì)實(shí)施方式的徹底理解。然 而,本領(lǐng)域普通技術(shù)人員應(yīng)理解,在沒(méi)有這些具體細(xì)節(jié)的情況下可實(shí)現(xiàn)該 實(shí)施方式。例如,在沒(méi)有不必要的細(xì)節(jié)的情況下示出了公知的電路、過(guò)程、 算法、結(jié)構(gòu)和技術(shù),以便避免使實(shí)施方式含糊。進(jìn)一步地,這里提供的標(biāo) 題只用來(lái)有助于對(duì)不同實(shí)施方式的清楚描述,且不應(yīng)被解釋為限制本發(fā)明 的范圍或本發(fā)明的任何部分的功能。例如,某些方法或部件可被實(shí)現(xiàn)為其 它方法或部件的部分,即使它們是在不同的標(biāo)題下描述的。此外,注意,實(shí)施方式可被描述為一過(guò)程,其被描繪為流程圖或結(jié)構(gòu)圖。雖然每個(gè)實(shí)施方式可將操作描述為順序的過(guò)程,但這些操作中的很 多操作可并行或同時(shí)執(zhí)行。此外,可重新排列搡作的順序。過(guò)程可以有未 包括在附圖中的額外步驟。
權(quán)利要求
1.一種用于執(zhí)行音樂(lè)搜索的計(jì)算機(jī)方法,所述方法包括接收指定音樂(lè)元素的音樂(lè)查詢;根據(jù)接收到的音樂(lè)查詢所指定的音樂(lè)元素來(lái)產(chǎn)生一組搜索參數(shù);將所述一組搜索參數(shù)導(dǎo)向包括多個(gè)數(shù)據(jù)記錄的數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)記錄與一樂(lè)曲以及該樂(lè)曲所涉及的一組音樂(lè)元素有關(guān),其中與至少一個(gè)數(shù)據(jù)記錄相關(guān)的所述一組音樂(lè)元素包括從至少一首樂(lè)曲解構(gòu)的數(shù)據(jù);識(shí)別所述數(shù)據(jù)庫(kù)中的一組匹配的數(shù)據(jù)記錄,所述一組匹配的數(shù)據(jù)記錄包括匹配所述一組搜索參數(shù)的數(shù)據(jù)記錄;識(shí)別所述數(shù)據(jù)庫(kù)中的一組匹配的樂(lè)曲,所述一組匹配的樂(lè)曲包括與所述一組匹配的數(shù)據(jù)記錄相關(guān)的樂(lè)曲;產(chǎn)生搜索輸出,該搜索輸出包括排列在排序的列表中的匹配的樂(lè)曲。
2. 如權(quán)利要求l所述的方法,進(jìn)一步包括 接收至少 一個(gè)額外音樂(lè)查詢; 產(chǎn)生解構(gòu)的額外音樂(lè)查詢;將所述解構(gòu)的額外音樂(lè)查詢導(dǎo)向包含解構(gòu)的樂(lè)曲的選定數(shù)據(jù)庫(kù);識(shí)別匹配所述解構(gòu)的額外音樂(lè)查詢的解構(gòu)的樂(lè)曲;產(chǎn)生搜索輸出,該4叟索輸出包括排列在排序的列表中的識(shí)別出的樂(lè)曲。
3. 如權(quán)利要求2所述的方法,其中所述導(dǎo)向步驟包括將所述解構(gòu)的 額外音樂(lè)查詢導(dǎo)向被識(shí)別為先前音樂(lè)查詢的輸出的一組樂(lè)曲。
4. 如權(quán)利要求2所述的方法,其中所述排序的列表根據(jù)加權(quán)值排列。
5. 如權(quán)利要求l所述的方法,其中接收查詢的所述步驟包括接收音頻輸入。
6. 如權(quán)利要求5所述的方法,其中所述音頻輸入包括口述詞部分和旋律部分。
7. 如權(quán)利要求6所述的方法,其中部分分隔符在所述音頻輸入中出 現(xiàn)在所述口述詞部分和所述旋律部分之間。
8. 如權(quán)利要求7所述的方法,其中所述部分分隔符包括預(yù)定的口述詞。
9. 如權(quán)利要求5所述的方法,其中所述音頻輸入包括通過(guò)計(jì)算機(jī)輸 入端口接收的音頻段。
10. 如權(quán)利要求5所述的方法,其中所述音頻輸入包括MIDI序列。
11. 如權(quán)利要求1所述的方法,其中接收查詢的所述步驟包括接收樂(lè) 語(yǔ)圖像。
12. 如權(quán)利要求11所述的方法,其中所述樂(lè)譜圖像包括具有音樂(lè)元 素的OCR豐命出。
13.如權(quán)利要求l所述的方法,其中接收查詢的所述步驟包括接收針 對(duì)所述音樂(lè)元素的用戶指定的輸入?yún)?shù)。
14. 如權(quán)利要求13所述的方法,其中所述用戶指定的輸入?yún)?shù)被作 為口述詞^妄收。
15. 如權(quán)利要求13所述的方法,其中所述用戶指定的輸入?yún)?shù)被作 為字母數(shù)字輸入接收。
16. 如權(quán)利要求1所述的方法,其中接收查詢的所述步驟包括接收針 對(duì)樂(lè)曲元數(shù)據(jù)的用戶指定的輸入?yún)?shù)。
17. 如權(quán)利要求16所述的方法,其中所述用戶指定的輸入?yún)?shù)被作 為口述詞4妄j)欠。
18. 如權(quán)利要求16所述的方法,其中所述用戶指定的輸入?yún)?shù)被作 為字母數(shù)字輸入接收。
19. 如權(quán)利要求1所述的方法,其中對(duì)解構(gòu)的音樂(lè)查詢進(jìn)行導(dǎo)向的所述步驟包括接收4叟索所導(dǎo)向的用戶指定的數(shù)據(jù)庫(kù)。
20. 如權(quán)利要求19所述的方法,其中所述用戶指定的數(shù)據(jù)庫(kù)包括計(jì) 算機(jī)的數(shù)據(jù)庫(kù)。
21. —種執(zhí)行音樂(lè)搜索的計(jì)算機(jī)系統(tǒng),所述系統(tǒng)包括輸入接口,其適合于接收指定音樂(lè)段的音樂(lè)查詢;查詢輸入處理器,其適合于產(chǎn)生解構(gòu)的音樂(lè)查詢,該解構(gòu)的音樂(lè)查詢 包括所接收的音樂(lè)查詢的音樂(lè)元素;查詢引擎,其適合于將所述解構(gòu)的音樂(lè)查詢導(dǎo)向包括解構(gòu)的樂(lè)曲的選 定數(shù)據(jù)庫(kù)、識(shí)別所述數(shù)據(jù)庫(kù)中匹配所述解構(gòu)的音樂(lè)查詢的解構(gòu)的樂(lè)曲、識(shí) 別并產(chǎn)生包括排列在排序的列表中的識(shí)別出的樂(lè)曲的搜索輸出。
22. 如權(quán)利要求21所述的系統(tǒng),其中 所述輸入接口接收至少 一個(gè)額外音樂(lè)查詢; 所述查詢輸入處理器產(chǎn)生解構(gòu)的額外音樂(lè)查詢;所述查詢引擎將所述解構(gòu)的額外音樂(lè)查詢導(dǎo)向包含解構(gòu)的樂(lè)曲的選 定數(shù)據(jù)庫(kù)、識(shí)別匹配所述解構(gòu)的額外音樂(lè)查詢的解構(gòu)的樂(lè)曲、并產(chǎn)生搜索 輸出,該搜索輸出包括排列在排序的列表中的識(shí)別出的樂(lè)曲。
23. 如權(quán)利要求22所述的系統(tǒng),其中所述系統(tǒng)將所述額外音樂(lè)查詢 導(dǎo)向被識(shí)別為先前音樂(lè)查詢的輸出的 一組樂(lè)曲。
24. 如權(quán)利要求22所述的系統(tǒng),其中所述排序的列表根據(jù)加權(quán)值排列。
25. 如權(quán)利要求21所述的系統(tǒng),其中所述接收查詢包括接收音頻輸入。
26.如權(quán)利要求25所述的系統(tǒng),其中所述音頻輸入包^r口述詞部分 和旋律部分。
27.如權(quán)利要求26所述的系統(tǒng),其中部分分隔符在所述音頻輸入中 出現(xiàn)在所述口述詞部分和所述旋律部分之間。
28. 如權(quán)利要求27所述的系統(tǒng),其中所述部分分隔符包括預(yù)定的口 &寸司。
29. 如權(quán)利要求25所述的系統(tǒng),其中所述音頻輸入包括通過(guò)計(jì)算機(jī) 輸入端口接收的音頻段。
30. 如權(quán)利要求25所述的系統(tǒng),其中所述音頻輸入包括MIDI序歹'J。
31. 如權(quán)利要求21所述的系統(tǒng),其中所述接收查詢包括接收樂(lè)譜圖像。
32. 如權(quán)利要求31所述的系統(tǒng),其中所述樂(lè)譜圖像包括具有音樂(lè)元 素的OCR輸出。
33. 如權(quán)利要求21所述的系統(tǒng),其中所接收的查詢包括針對(duì)所述音 樂(lè)元素的用戶指定的輸入?yún)?shù)。
34. 如權(quán)利要求33所述的系統(tǒng),其中所述用戶指定的輸入?yún)?shù)被作 為口述詞接收。
35. 如權(quán)利要求33所述的系統(tǒng),其中所述用戶指定的輸入?yún)?shù)被作 為字母數(shù)字輸入接收。
36. 如權(quán)利要求21所述的系統(tǒng),其中所接收的查詢包括針對(duì)樂(lè)曲元 數(shù)據(jù)的用戶指定的輸入?yún)?shù)。
37. 如權(quán)利要求36所述的系統(tǒng),其中所述用戶指定的輸入?yún)?shù)被作 為口述詞接收。
38. 如權(quán)利要求36所述的系統(tǒng),其中所述用戶指定的輸入?yún)?shù)被作 為字母數(shù)字輸入接收。
39. 如權(quán)利要求21所述的系統(tǒng),其中所述解構(gòu)的音樂(lè)查詢包括搜索 所導(dǎo)向的用戶指定的^t據(jù)庫(kù)。
40. 如權(quán)利要求39所述的系統(tǒng),其中所述用戶指定的數(shù)據(jù)庫(kù)包括計(jì) 算機(jī)的數(shù)據(jù)庫(kù)。
41. 一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其具有包括在其中的計(jì)算機(jī)可讀程序, 所述計(jì)算機(jī)可讀程序用于引導(dǎo)基于音樂(lè)的搜索引擎的操作,所述計(jì)算機(jī)可讀程序包括用于4艮據(jù)下列操作進(jìn)行基于音樂(lè)的搜索的指令 接收指定音樂(lè)元素的音樂(lè)查詢;根據(jù)接收到的音樂(lè)查詢所指定的音樂(lè)元素來(lái)產(chǎn)生 一組4叟索參數(shù);將所述一組搜索參數(shù)導(dǎo)向包括多個(gè)數(shù)據(jù)記錄的數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)記錄 與一樂(lè)曲以及所述樂(lè)曲涉及的一組音樂(lè)元素有關(guān),其中與至少 一個(gè)數(shù)據(jù)記錄相關(guān)的所述一組音樂(lè)元素包括從至少 一首 樂(lè)曲解構(gòu)的數(shù)據(jù);識(shí)別所述數(shù)據(jù)庫(kù)中的 一組匹配的凄t據(jù)記錄,所述一組匹配的數(shù)據(jù)記錄 包括匹配所述一組搜索參數(shù)的數(shù)據(jù)記錄;識(shí)別所述凄t據(jù)庫(kù)中的一組匹配的樂(lè)曲,所述一組匹配的樂(lè)曲包括與所 述一組匹配的數(shù)據(jù)記錄相關(guān)的樂(lè)曲;產(chǎn)生搜索輸出,該搜索輸出包括排列在排序的列表中的匹配的樂(lè)曲。
全文摘要
描述了用于基于音樂(lè)的搜索的方法、系統(tǒng)和設(shè)備。本發(fā)明的實(shí)施方式接收指定音樂(lè)元素的音樂(lè)查詢,該查詢使用文本、音頻和/或樂(lè)譜數(shù)據(jù)。音樂(lè)查詢可用于根據(jù)所指定的音樂(lè)元素產(chǎn)生搜索參數(shù),所述搜索參數(shù)在一些情況下被加權(quán)。搜索參數(shù)可接著被導(dǎo)向包括數(shù)據(jù)記錄的數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)記錄與一樂(lè)曲以及與涉及到該樂(lè)曲的一組音樂(lè)元素有關(guān)。匹配數(shù)據(jù)庫(kù)中的數(shù)據(jù)記錄可接著根據(jù)搜索參數(shù)和相關(guān)的樂(lè)曲之間共有的音樂(lè)元素來(lái)識(shí)別。接著可用各種方式排序、顯示和輸出搜索輸出。
文檔編號(hào)G06F17/30GK101657817SQ200880012053
公開日2010年2月24日 申請(qǐng)日期2008年2月14日 優(yōu)先權(quán)日2007年2月14日
發(fā)明者G·圖特洛特, J·A·卡瓦尼利亞, R·D·陶布 申請(qǐng)人:繆斯亞米有限公司