專利名稱:用于分布式語音搜索的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動通信設(shè)備,并且具體涉及使用移動通信設(shè)備
的語音搜索。
背景技術(shù):
諸如蜂窩電話的移動通信設(shè)備是被所有語言的人們使用的 非常普遍的通信設(shè)備。這些設(shè)備的使用已經(jīng)擴(kuò)展遠(yuǎn)遠(yuǎn)超過了單純的語 音通信。用戶現(xiàn)在能夠?qū)⒁苿油ㄐ旁O(shè)備用作記錄筆記、會議、消息等 的語音記錄器。用戶也可以用語音來注釋設(shè)備上的諸如照片、視頻和 應(yīng)用的內(nèi)容。 .雖然已經(jīng)擴(kuò)展了這些能力,但是限制了對在移動通信設(shè)備上 存儲的音頻內(nèi)容的搜索能力。由于用按鈕瀏覽內(nèi)容的困難,移動通信 設(shè)備用戶可以發(fā)現(xiàn)能夠快速找到語音注釋的內(nèi)容、存儲的語音記錄的 談話、筆記和消息是有用的。
發(fā)明內(nèi)容
公開了一種用于使用移動通信設(shè)備的語音搜索的方法和裝 置。該方法可以包括從移動通信設(shè)備的用戶接收搜索查詢,將搜索查 詢中的語音部分轉(zhuǎn)換成語言表征(representation),基于語言表征來生 成搜索音素網(wǎng)格,從所生成的搜索音素網(wǎng)格中提取査詢特征,基于所 提取的査詢特征生成粗略搜索特征向量,使用所生成的粗略搜索特征 向量來執(zhí)行粗略搜索并將所生成的粗略搜索特征向量發(fā)送至遠(yuǎn)程語音 搜索處理單元,基于所生成的粗略搜索特征向量從遠(yuǎn)程語音搜索處理 單元接收網(wǎng)絡(luò)索引,使用粗略搜索的結(jié)果、遠(yuǎn)程網(wǎng)絡(luò)索引和所生成的 精細(xì)搜索特征向量來執(zhí)行精細(xì)搜索,以及向用戶顯示精細(xì)搜索結(jié)果。
為了描述可以獲得本發(fā)明的以上記載及其他優(yōu)點(diǎn)和特征的 方式,以上簡要描述的發(fā)明的更具體的描述將通過參考在附圖中圖示 的本發(fā)明的具體實(shí)施例來呈現(xiàn)??梢岳斫膺@些附圖僅描述本發(fā)明的典
型實(shí)施例,并且因此不應(yīng)當(dāng)被視為限制它的范圍,將通過使用附圖用 附加的特性和細(xì)節(jié)來描述和解釋本發(fā)明,在附圖中圖1圖示了根據(jù)本發(fā)明可能實(shí)施例的通信網(wǎng)絡(luò)環(huán)境的示例 性視圖;圖2圖示了根據(jù)本發(fā)明可能實(shí)施例的示例性移動通信設(shè)備 的框圖;圖3圖示了根據(jù)本發(fā)明可能實(shí)施例的語音搜索引擎的示例 性框圖;圖4圖示了根據(jù)本發(fā)明可能實(shí)施例的示例性遠(yuǎn)程語音搜索 處理單元的框圖; '圖5是圖示根據(jù)本發(fā)明一個(gè)可能實(shí)施例的一個(gè)可能的語音 搜索處理的示例性流程圖;以及圖6是圖示根據(jù)本發(fā)明一個(gè)可能實(shí)施例的一個(gè)可能的遠(yuǎn)程 語音搜索處理的示例性流程圖。
具體實(shí)施例方式本發(fā)明的附加特征和優(yōu)點(diǎn)將在以下描述中闡明,并部分地將 從描述中顯而易見,或者可以通過本發(fā)明的實(shí)施而獲知。本發(fā)明的特 征和優(yōu)點(diǎn)可以通過權(quán)利要求中特別指出的裝置及組合來實(shí)現(xiàn)和獲得。 本發(fā)明的這些和其它特征從以下描述和權(quán)利要求中將變得更加完全顯 而易見,或者可以通過如此處闡明的本發(fā)明的實(shí)踐來獲知。以下詳細(xì)討論本發(fā)明的各種實(shí)施例。雖然討論了具體的實(shí) 現(xiàn),但是應(yīng)當(dāng)理解這么做僅是為了說明的目的。相關(guān)領(lǐng)域技術(shù)人員將 認(rèn)識到,在不脫離本發(fā)明的精神和范圍的情況下可以使用其它組件和配置。本發(fā)明包括多種實(shí)施例,諸如方法和裝置以及涉及本發(fā)明基
本概念的其它實(shí)施例。本發(fā)明涉及一種可以用于快速檢索在移動設(shè)備上的語音注 釋內(nèi)容和語音消息的語言獨(dú)立索引和搜索處理。語音注釋或語音消息 可以轉(zhuǎn)換成音素網(wǎng)格,并通過從語音注釋或語音消息中自動提取的一 元(unigram)和二元(bigram)特征向量來索引。語音消息或注釋被 分段并且每個(gè)音頻分段可以由其成分是音素網(wǎng)格的一元和二元統(tǒng)計(jì)的 調(diào)制特征向量來表示。 一元統(tǒng)計(jì)可以是音素網(wǎng)格的音素頻率計(jì)數(shù)。二 元統(tǒng)計(jì)可以是兩個(gè)連續(xù)音素的頻率計(jì)數(shù)。搜索處理可以包括兩個(gè)階段 查找索引和快速返回一組候選語音注釋或語音消息的粗略搜索;以及 通過使用動態(tài)編程來將查詢語音的最佳路徑與候選注釋或消息的音素 網(wǎng)格進(jìn)行比較的精細(xì)搜索。圖1是根據(jù)本發(fā)明可能實(shí)施例的通信網(wǎng)絡(luò)環(huán)境的示例性視 圖。通信網(wǎng)絡(luò)環(huán)境IOO可以包括通信網(wǎng)絡(luò)110、多個(gè)移動通信設(shè)備120、 遠(yuǎn)程語音搜索處理單元130、因特網(wǎng)140、以及多個(gè)因特網(wǎng)瀏覽器/搜索 引擎150。本領(lǐng)域技術(shù)人員將理解,通信網(wǎng)絡(luò)環(huán)境100可以是移動通信 設(shè)備120可以與另一移動通信設(shè)備120以及連接到因特網(wǎng)140的設(shè)備 通信的任何可能的配置。同樣地,通信網(wǎng)絡(luò)110可以代表可以通過移 動通信設(shè)備120訪問的任何可能的通信,諸如電話網(wǎng)絡(luò)、無線網(wǎng)絡(luò)、 有線電視網(wǎng)絡(luò)、衛(wèi)星電視網(wǎng)絡(luò)、衛(wèi)星無線電網(wǎng)絡(luò)等。因特網(wǎng)(網(wǎng)絡(luò)) 140可以代表內(nèi)聯(lián)網(wǎng),或者能夠主管(hosting)包含例如可以被下載和 /或播放的可搜索文本和媒體內(nèi)容的域的任何其它網(wǎng)絡(luò)系統(tǒng)。移動通信設(shè)備120可以代表具有內(nèi)部或外部記錄和或存儲
8音頻的能力的任何移動或便攜式設(shè)備,包括移動電話、蜂窩電話、無
線收音機(jī)、便攜式計(jì)算機(jī)、膝上型電腦、MP3播放器、衛(wèi)星收音機(jī)、
及衛(wèi)星電視。因特網(wǎng)瀏覽器/搜索引擎150可以代表能夠搜索和索引位于 因特網(wǎng)上的內(nèi)容的任何已知的網(wǎng)絡(luò)瀏覽器和/或搜索引擎,諸如Yahoo, Google等。圖2圖示了根據(jù)本發(fā)明可能實(shí)施例的具有語音搜索引擎280 的示例性移動通信設(shè)備120的框圖。示例性移動通信設(shè)備120可以包 括總線210、處理器220、存儲器230、天線240、收發(fā)器250、通信接 口 260、輸入/輸出(I/O)設(shè)備270、語音搜索引擎280、以及顯示器 290??偩€210可以允許在移動通信設(shè)備120的組件之間的通信。處理器220可以包括解釋和執(zhí)行指令的至少」個(gè)常規(guī)處理 器或微處理器。存儲器230可以是隨機(jī)訪問存儲器(RAM)或存儲用 于由處理器220執(zhí)行的信息和指令的另一類型的動態(tài)存儲設(shè)備。存儲 器230也可以包括只讀存儲器(ROM),它可以包括常規(guī)ROM設(shè)備 或存儲用于處理器220的靜態(tài)信息和指令的另一類型的靜態(tài)存儲設(shè)備。收發(fā)器250可以包括一個(gè)或多個(gè)發(fā)送機(jī)和接收機(jī)。收發(fā)器 250可以包括足夠的功能以與任何網(wǎng)絡(luò)或通信站對接,并可以用本領(lǐng)域 技術(shù)人員己知的任何方式通過硬件或軟件來定義。處理器220可與收 發(fā)器250協(xié)同操作以支持通信網(wǎng)絡(luò)110中的操作。輸入/輸出設(shè)備(1/0設(shè)備)270可以包括允許用戶將信息輸 入至移動通信設(shè)備120的一個(gè)或多個(gè)常規(guī)輸入機(jī)構(gòu),諸如麥克風(fēng)、觸 摸板、小鍵盤、鍵盤、鼠標(biāo)、筆、光筆、語音識別設(shè)備、按鈕等。輸 出設(shè)備可以包括將信息輸出給用戶的一個(gè)或多個(gè)常規(guī)機(jī)構(gòu),包括顯示 器、打印機(jī)、 一個(gè)或多個(gè)揚(yáng)聲器、諸如存儲器、磁盤或光盤及磁盤驅(qū)動器等的存儲介質(zhì),和/或用于以上裝置的接口。顯示器2卯可以是能
夠?qū)⑿畔@示給移動通信設(shè)備120的用戶的設(shè)備。通信接口 260可以包括便于經(jīng)由通信網(wǎng)絡(luò)的通信的任何機(jī) 構(gòu)。例如,通信接口 260可以包括調(diào)制解調(diào)器。替代地,通信接口260 可以包括用于協(xié)助收發(fā)器250經(jīng)由無線連接與其它設(shè)備和/或系統(tǒng)通信 的其它機(jī)構(gòu)。下面將結(jié)合圖3和圖5更詳細(xì)地討論語音搜索引擎280的功移動通信設(shè)備120可以通過執(zhí)行包含在例如像存儲器230 這樣的計(jì)算機(jī)可讀介質(zhì)中的指令序列來執(zhí)行響應(yīng)于處理器220這樣的
功能。這樣的指令可以從諸如存儲設(shè)備的另一計(jì)算機(jī)可讀介質(zhì)或經(jīng)由 通信接口 260從分離的設(shè)備讀入存儲器230。 '圖3圖示了根據(jù)本發(fā)明可能實(shí)施例的具有語音搜索引擎280 的語音搜索系統(tǒng)300的示例性框圖。語音搜索引擎280可以包括搜索 ASR 310、搜索音素網(wǎng)格發(fā)生器320、粗略搜索特征向量發(fā)生器330、 粗略搜索模塊340、精細(xì)搜索特征向量發(fā)生器350、精細(xì)搜索模塊360、 以及元數(shù)據(jù)數(shù)據(jù)庫370。為了便于討論,語音搜索引擎280被顯示為直 接耦合到遠(yuǎn)程語音搜索處理單元130,但是如以上所解釋的,這種耦合 可以通過因特網(wǎng)140來發(fā)生。例如,元數(shù)據(jù)數(shù)據(jù)庫370可以包含諸如文本消息、文檔、電 子郵件等的文本文件,諸如音頻記錄、語音郵件、會談、筆記、消息、 注釋等的音頻文件,或諸如圖片、照片、視頻剪輯等的照片/視頻文件。為了說明的目的,下面將結(jié)合圖l-3所示的框圖描述圖5中 語音搜索引擎280及它的相應(yīng)處理。
10
圖4圖示了根據(jù)本發(fā)明可能實(shí)施例的示例性遠(yuǎn)程語音搜索 處理單元130的框圖。示例性遠(yuǎn)程語音搜索處理單元130可以包括總 線410、處理器420、存儲器430、只讀存儲器(ROM) 440、存儲設(shè) 備450、輸入設(shè)備460、輸出設(shè)備470、通信接口 480、以及網(wǎng)絡(luò)搜索 處理模塊490??偩€410可以允許在遠(yuǎn)程搜索處理單元130的組件之間 的通信。處理器420可以包括解釋和執(zhí)行指令的至少一個(gè)常規(guī)處理 器或微處理器。存儲器430可以是隨機(jī)訪問存儲器(RAM)或存儲用 于由處理器420執(zhí)行的信息和指令的另一類型的動態(tài)存儲設(shè)備。存儲 器430也可以存儲在處理器420執(zhí)行指令期間使用的臨時(shí)變量或其它 中間信息。ROM440可以包括常規(guī)ROM設(shè)備或存儲用于處理器420的 靜態(tài)信息和指令的另一類型的靜態(tài)存儲設(shè)備。存儲設(shè)備450可以包括 例如像磁或光記錄介質(zhì)及它的相應(yīng)驅(qū)動器這'樣的任何類型的介質(zhì)。輸入設(shè)備460可以包括允許用戶將信息輸入至遠(yuǎn)程搜索處 理單元130的一個(gè)或多個(gè)常規(guī)機(jī)構(gòu),諸如鍵盤、鼠標(biāo)、筆、語音識別 設(shè)備等。輸出設(shè)備470可以包括將信息輸出給用戶的一個(gè)或多個(gè)常規(guī) 機(jī)構(gòu),包括顯示器、打印機(jī)、 一個(gè)或多個(gè)揚(yáng)聲器、或者諸如存儲器、 或者磁或光盤及相應(yīng)磁盤驅(qū)動器的介質(zhì)。通信接口 480可以包括使得遠(yuǎn)程搜索處理單元130能夠經(jīng)由 網(wǎng)絡(luò)進(jìn)行通信的任何類收發(fā)器的機(jī)構(gòu)。例如,通信接口 480可以包括 調(diào)制解調(diào)器,或用于經(jīng)由局域網(wǎng)(LAN)通信的以太網(wǎng)接口。替代地,通信接口 480可以包括用于經(jīng)由有線、無線或光連 接與其它設(shè)備和/或系統(tǒng)通信的其他機(jī)構(gòu)。在通信網(wǎng)絡(luò)環(huán)境100的一些
實(shí)現(xiàn)中,當(dāng)遠(yuǎn)程搜索處理完全在遠(yuǎn)程搜索處理單元130中實(shí)現(xiàn)時(shí),通 信接口 480可以不被包括在示例性遠(yuǎn)程搜索處理單元130中。
遠(yuǎn)程搜索處理單元130可以通過執(zhí)行包含在例如像存儲器 430、磁盤、或光盤這樣的計(jì)算機(jī)可讀介質(zhì)中的指令序列來執(zhí)行響應(yīng)于 處理器420這樣的功能。這樣的指令可以從像存儲設(shè)備450這樣的另 一計(jì)算機(jī)可讀介質(zhì)或經(jīng)由通信接口 480從分離的設(shè)備中讀入存儲器 430。下面將結(jié)合圖5和6中的流程圖進(jìn)一步分別描述移動通信設(shè) 備120/語音搜索引擎280及遠(yuǎn)程搜索處理單元130/網(wǎng)絡(luò)搜索處理模塊 490的操作和它們相關(guān)的處理。圖5是圖示根據(jù)本發(fā)明一個(gè)可能實(shí)施例的如包括語音搜索 引擎280的移動通信設(shè)備120所執(zhí)行的一個(gè)可能的語音搜索處理的示 例性流程圖。該處理在步驟5100開始并繼續(xù)到步驟5150,其中語音搜 索引擎280從移動通信設(shè)備120的用戶接收搜索查詢。'下面將結(jié)合語 音搜索引擎280的組件來描述該處理。在步驟5200,語音搜索引擎280的搜索ASR 310將在搜索 查詢中的語音部分轉(zhuǎn)換成語言表征。ASR310識別結(jié)果可以是覆蓋移動 通信設(shè)備的用戶所選擇語言的通用語言表征的形式。例如,中國用戶 可以選擇中文和英文作為用于通信設(shè)備的語言。美國用戶可以選擇英 文和西班牙文作為設(shè)備使用的語言。無論如何,用戶可以選擇至少一 種語言來使用。通用語言表征可以包括音素表征、音節(jié)表征、語素表 征、詞語表征等。在步驟5250,搜索音素網(wǎng)格發(fā)生器320基于語言表征來產(chǎn) 生搜索音素網(wǎng)格。搜索音素網(wǎng)格發(fā)生器320產(chǎn)生諸如音素的語言表征 的網(wǎng)格,以代表語音流。網(wǎng)格由一系列連接的節(jié)點(diǎn)和邊界組成。每個(gè) 邊界可以表示具有分?jǐn)?shù)的音素,所述分?jǐn)?shù)為假設(shè)的概率的對數(shù)。每個(gè) 邊界的兩端上的節(jié)點(diǎn)表示音素的開始時(shí)間和結(jié)束時(shí)間。多個(gè)邊界(假設(shè))可以在兩個(gè)節(jié)點(diǎn)之間出現(xiàn)并且從起點(diǎn)到終點(diǎn)的最可能的路徑被稱 為"最佳路徑"。在步驟5300,粗略搜索特征向量發(fā)生器330從所產(chǎn)生的搜 索音素網(wǎng)格中提取查詢特征。粗略搜索特征向量發(fā)生器330從所產(chǎn)生 的音素網(wǎng)格中提取索引條目或"特征"。例如,可以根據(jù)它們的概率(正 確性)來提取這些特征。在步驟5350,粗略搜索特征向量發(fā)生器330基于所提取的 査詢特征來產(chǎn)生粗略搜索特征向量。用這種方式,粗略搜索特征向量 發(fā)生器330將每個(gè)提取的特征映射到特征出現(xiàn)的所產(chǎn)生的音素網(wǎng)格。在步驟5400,粗略搜索模塊340使用粗略搜索特征向量來 執(zhí)行粗略搜索。對于給定的搜索查詢,將一組最高級的候選消息(通 常是最終搜索結(jié)果的4到5倍的數(shù)量)返回用于'詳細(xì)的搜索。實(shí)際上, 粗略搜索模塊340可以通過將消息分類在樹結(jié)構(gòu)中來優(yōu)化處理,使得 用于在搜索查詢和目標(biāo)搜索結(jié)果之間進(jìn)行匹配的計(jì)算可以進(jìn)一步減 少。在步驟5450,語音搜索引擎280使用收發(fā)器250將所產(chǎn)生 的粗略搜索特征向量發(fā)送給遠(yuǎn)程語音搜索處理單元130。在步驟5500, 語音搜索引擎280通過收發(fā)器250從遠(yuǎn)程語音搜索處理單元130接收 網(wǎng)絡(luò)索引。步驟5450和5500可以在步驟540Q之前或之后同時(shí)并行執(zhí) 行,但是通常,應(yīng)當(dāng)在步驟5550之前完成。在步驟5550,精細(xì)搜索特征向量發(fā)生器350產(chǎn)生精細(xì)搜索 特征向量,并且精細(xì)搜索模塊360使用粗略搜索的結(jié)果、所接收到的 網(wǎng)絡(luò)索引以及所產(chǎn)生的精細(xì)搜索特征向量來執(zhí)行精細(xì)搜索。例如,精 細(xì)搜索模塊360在搜索查詢最佳路徑和候選消息的音素網(wǎng)格之間進(jìn)行 精確的對比。
為了節(jié)省計(jì)算的成本,精細(xì)搜索模塊360可以根據(jù)查詢消息最佳路徑的長度將它們分類為長和短消息。對于長消息,在査詢和目標(biāo)最佳路徑之間的匹配可以足夠可靠,盡管有高的音素誤差率??梢允褂镁庉嬀嚯x來測量兩個(gè)最佳路徑之間的相似性。然而,對于短消息,由于高的音素誤差率,最佳路徑也許不可靠,并且在查詢最佳路徑和整個(gè)目標(biāo)音素網(wǎng)格之間的完全匹配是必要的。精細(xì)搜索模塊360可以被配置成產(chǎn)生單個(gè)最佳匹配結(jié)果或者可能的候選結(jié)果的相對受限的列表。在步驟5600,顯示器290將精細(xì)搜索結(jié)果顯示給用戶。處理轉(zhuǎn)到步驟5500,并結(jié)束。替代地,顯示器290可以將精細(xì)搜索結(jié)果顯示給用戶并等待用戶例如響應(yīng)于提示選擇一個(gè)特定結(jié)果。所選結(jié)果可以被語音搜索引擎280使用收發(fā)器250發(fā)送給遠(yuǎn)程語音磁索處理單元130,信息可以從因特網(wǎng)140檢索。然后,與該用戶選擇有關(guān)的檢索信息可以由移動通信設(shè)備120接收以在顯示器290上查看。在另一個(gè)可能的替代中,語音搜索引擎280可以將來自精細(xì)搜索結(jié)果的最佳候選自動地發(fā)送給遠(yuǎn)程語音搜索處理單元130。然后,語音搜索引擎280從遠(yuǎn)程語音搜索處理單元130接收特定于最佳候選信息并在顯示器290上將該信息顯示給用戶。圖6是圖示根據(jù)本發(fā)明一個(gè)可能實(shí)施例的一個(gè)可能的遠(yuǎn)程語音搜索處理的示例性流程圖。處理在步驟6100開始并轉(zhuǎn)到步驟6200,其中在遠(yuǎn)程語音搜索處理單元130中的網(wǎng)絡(luò)搜索處理模塊490從移動通信設(shè)備120接收產(chǎn)生的粗略搜索特征向量。在步驟6300,網(wǎng)絡(luò)搜索處理模塊490使用一個(gè)或多個(gè)網(wǎng)絡(luò)搜索引擎來執(zhí)行網(wǎng)絡(luò)搜索。在步驟6400,網(wǎng)絡(luò)搜索處理模塊490從一
14個(gè)或多個(gè)網(wǎng)絡(luò)搜索引擎接收被索引的網(wǎng)絡(luò)搜索結(jié)果。在步驟6500,網(wǎng)絡(luò)搜索處理模塊490將被索引的網(wǎng)絡(luò)搜索 結(jié)果及它們的語言表征發(fā)送給移動通信設(shè)備120。然后,該處理轉(zhuǎn)到步 驟6600并結(jié)束。在本發(fā)明范圍內(nèi)的實(shí)施例也可以包括用于承載或上面存儲 有計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)可讀介質(zhì)。這樣的計(jì)算機(jī)可 讀介質(zhì)可以是可以由通用或?qū)S糜?jì)算機(jī)訪問的任何可用介質(zhì)。舉例而 并非限制,這樣的計(jì)算機(jī)可讀介質(zhì)可以包括RAM、 ROM、 EEPROM、 CD-ROM或其它光盤存儲器、磁盤存儲器或其它磁存儲設(shè)備,或可以 用于承載或存儲計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的期望的程序代碼 裝置的任何其它介質(zhì)。當(dāng)信息通過網(wǎng)絡(luò)或另一通信連接(硬連線、無 線、或其組合)被傳送或提供給計(jì)算機(jī)時(shí),計(jì)算機(jī)適當(dāng)?shù)匕言撨B接看 作計(jì)算機(jī)可讀介質(zhì)。因此,任何'這樣的連接適當(dāng)?shù)乇环Q作計(jì)算機(jī)可讀
介質(zhì)。以上的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。例如,計(jì)算機(jī)可執(zhí)行指令包括使通用計(jì)算機(jī)、專用計(jì)算機(jī)、 或?qū)S锰幚碓O(shè)備執(zhí)行特定功能或特定組功能的指令和數(shù)據(jù)。計(jì)算機(jī)可 執(zhí)行指令也包括由在單機(jī)或網(wǎng)絡(luò)環(huán)境中由計(jì)算機(jī)執(zhí)行的程序模塊。通 常,程序模塊包括執(zhí)行特殊任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程 序、對象、組件、以及數(shù)據(jù)結(jié)構(gòu)等。計(jì)算機(jī)可執(zhí)行指令、關(guān)聯(lián)的數(shù)據(jù) 結(jié)構(gòu)、以及程序模塊代表用于執(zhí)行此處所公開方法的步驟的程序代碼 的示例。這樣的可執(zhí)行指令或關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)的特定序列代表用于實(shí)現(xiàn) 在這樣的步驟中描述的功能的相應(yīng)動作的示例。盡管以上描述可以包含具體細(xì)節(jié),但他們不應(yīng)當(dāng)被解釋為以 任何方式限制權(quán)利要求。所描述的本發(fā)明的實(shí)施例的其它配置是本發(fā) 明范圍的一部分。例如,本發(fā)明的原理可以適用于每個(gè)單獨(dú)的用戶, 其中每個(gè)用戶可以單獨(dú)地部署這樣的系統(tǒng)。這使得每個(gè)用戶能夠利用本發(fā)明的好處,即使大量可能的應(yīng)用中的任何一個(gè)均不需要此處所述
的功能。換句話說,在圖2-3中可以有語音搜索引擎280的多個(gè)實(shí)例, 其中每一個(gè)以各種可能的方式來處理內(nèi)容。它不一定是由所有終端用 戶使用的一個(gè)系統(tǒng)。因此,應(yīng)當(dāng)是權(quán)利要求及它們的法定等同物而不 是任何給定的具體示例來唯一地限定本發(fā)明。
權(quán)利要求
1.一種用于使用移動通信設(shè)備的語音搜索的方法,包括從所述移動通信設(shè)備的用戶接收搜索查詢;將在所述搜索查詢中的語音部分轉(zhuǎn)換成語言表征;基于所述語言表征產(chǎn)生搜索音素網(wǎng)格;從所產(chǎn)生的搜索音素網(wǎng)格提取查詢特征;基于所提取的查詢特征產(chǎn)生粗略搜索特征向量;使用所產(chǎn)生的粗略搜索特征向量來執(zhí)行粗略搜索并將所產(chǎn)生的粗略搜索特征向量發(fā)送給遠(yuǎn)程語音搜索處理單元;基于所產(chǎn)生的粗略搜索特征向量從所述遠(yuǎn)程語音搜索處理單元接收網(wǎng)絡(luò)索引;使用所述粗略搜索的所述結(jié)果、所述遠(yuǎn)程網(wǎng)絡(luò)索引以及所產(chǎn)生的精細(xì)搜索特征向量來執(zhí)行精細(xì)搜索;以及將所述精細(xì)搜索結(jié)果顯示給用戶。
2. 根據(jù)權(quán)利要求l所述的方法,其中,所述語言表征是至少一種 語言的詞語、語素、音節(jié)、以及音素中的至少一個(gè)。
3. 根據(jù)權(quán)利要求l所述的方法,其中,所述粗略搜索特征向量和 所述精細(xì)搜索特征向量是使用來自元數(shù)據(jù)數(shù)據(jù)庫的元數(shù)據(jù)而產(chǎn)生,該 元數(shù)據(jù)是音頻文件、音頻記錄、語音郵件、記錄的會談、筆記、消息、 文本消息、以及注釋中的至少一個(gè)。
4. 根據(jù)權(quán)利要求l所述的方法,其中,所述網(wǎng)絡(luò)索引是由至少一 個(gè)網(wǎng)絡(luò)搜索引擎進(jìn)行的至少一個(gè)搜索的所述結(jié)果。
5. 根據(jù)權(quán)利要求l所述的方法,其中,所述粗略搜索結(jié)果和所述 網(wǎng)絡(luò)索引包含基于所述粗略搜索特征向量的多個(gè)候選選擇。
6. 根據(jù)權(quán)利要求l所述的方法,其中,所述精細(xì)搜索結(jié)果包含出自所述粗略搜索結(jié)果和所述網(wǎng)絡(luò)索引中的最佳候選。
7. 根據(jù)權(quán)利要求6所述的方法,進(jìn)一步包括.-將所述最佳候選發(fā)送到所述遠(yuǎn)程語音搜索處理單元;以及 從所述遠(yuǎn)程語音搜索處理單元接收特定于所述最佳候選的信息。
8. 根據(jù)權(quán)利要求l所述的方法,其中,所述精細(xì)搜索結(jié)果包含出 自所述粗略搜索結(jié)果和所述網(wǎng)絡(luò)索引中的多個(gè)最佳候選,并且將所述 多個(gè)候選顯示給用戶。
9. 根據(jù)權(quán)利要求8所述的方法,進(jìn)一步包括 從所述用戶接收對所述多個(gè)最佳候選中的至少一個(gè)的選擇; 將所述用戶的選擇發(fā)送給所述遠(yuǎn)程語音搜索處理單元;以及 從所述遠(yuǎn)程語音搜索處理單元接收特定于所述最佳候選的信息。'
10. —種移動通信設(shè)備,包括語音搜索引擎,所述語音搜索引擎從所述移動通信設(shè)備的用戶接 收搜索査詢,將在所述搜索查詢中的語音部分轉(zhuǎn)換成語言表征,基于 所述語言表征產(chǎn)生搜索音素網(wǎng)格,從所產(chǎn)生的搜索音素網(wǎng)格提取查詢 特征,基于所提取的査詢特征產(chǎn)生粗略搜索特征向量,使用所產(chǎn)生的 粗略搜索特征向量來執(zhí)行粗略搜索;以及收發(fā)器,所述收發(fā)器將所產(chǎn)生的粗略搜索特征向量發(fā)送給遠(yuǎn)程語 音搜索處理單元并基于所產(chǎn)生的粗略搜索特征向量從所述遠(yuǎn)程語音搜 索處理單元接收網(wǎng)絡(luò)索引,其中所述語音搜索引擎使用所述粗略搜索 的所述結(jié)果、所述遠(yuǎn)程網(wǎng)絡(luò)索引以及所產(chǎn)生的精細(xì)搜索特征向量來執(zhí) 行精細(xì)搜索;以及顯示器,所述顯示器將所述精細(xì)搜索結(jié)果顯示給用戶。
11.根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,其中,所述語言表征是至少一種語言的詞語、語素、音節(jié)、以及音素中的至少一個(gè)。
12. 根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,進(jìn)一步包括 元數(shù)據(jù)數(shù)據(jù)庫,所述元數(shù)據(jù)數(shù)據(jù)庫存儲元數(shù)據(jù),其中所述粗略搜索特征向量和所述精細(xì)搜索特征向量是使用來自元數(shù)據(jù)數(shù)據(jù)庫的元數(shù) 據(jù)而產(chǎn)生,該元數(shù)據(jù)是音頻文件、音頻記錄、語音郵件、記錄的會談、 筆記、消息、文本消息、以及注釋中的至少一個(gè)。
13. 根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,其中,所述網(wǎng)絡(luò)索引 是由至少一個(gè)網(wǎng)絡(luò)搜索引擎進(jìn)行的至少一個(gè)搜索的所述結(jié)果。
14. 根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,其中,所述粗略搜索結(jié)果和所述網(wǎng)絡(luò)索引包含基于所述粗略搜索特征向量的多個(gè)候選選 擇。
15. 根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,其中,所述精細(xì)搜索 結(jié)果包含出自所述粗略搜索結(jié)果和所述網(wǎng)絡(luò)索引中的最佳候選。
16. 根據(jù)權(quán)利要求15所述的移動通信設(shè)備,其中,所述收發(fā)器將 所述最佳候選發(fā)送到所述遠(yuǎn)程語音搜索處理單元并從所述遠(yuǎn)程語音搜 索處理單元接收特定于所述最佳候選的信息。
17. 根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,其中,所述精細(xì)搜索 結(jié)果包含出自所述粗略搜索結(jié)果和所述網(wǎng)絡(luò)索引中的多個(gè)最佳候選, 并且所述顯示器將所述多個(gè)候選顯示給用戶。
18. 根據(jù)權(quán)利要求17所述的移動通信設(shè)備,其中,所述語音搜索 引擎從用戶接收對所述多個(gè)最佳候選中的至少一個(gè)的選擇,并且所述收發(fā)器將所述用戶的選擇發(fā)送給所述遠(yuǎn)程語音搜索處理單元并從所述 遠(yuǎn)程語音搜索處理單元接收特定于所述最佳候選的信息。
19.根據(jù)權(quán)利要求IO所述的移動通信設(shè)備,其中,所述移動通信設(shè)備是以下中的一個(gè)移動電話、蜂窩電話、無線收音機(jī)、便攜式計(jì) 算機(jī)、膝上型電腦、MP3播放器、衛(wèi)星收音機(jī)以及衛(wèi)星電視。
20. —種響應(yīng)于來自移動通信設(shè)備的用戶的語音搜索查詢而執(zhí)行 因特網(wǎng)(網(wǎng)絡(luò))搜索的方法,包括從移動通信設(shè)備接收產(chǎn)生的粗略搜索特征向量;使用至少一個(gè)因特網(wǎng)搜索引擎來執(zhí)行基于所接收到的粗略搜索特 征向量的網(wǎng)絡(luò)搜索;從所述至少一個(gè)因特網(wǎng)搜索引擎接收被索引的網(wǎng)絡(luò)搜索結(jié)果;以及將所述被索引的網(wǎng)絡(luò)搜索結(jié)果和它們的語言表征發(fā)送給所述移動 通信設(shè)備。
全文摘要
公開了一種用于語音搜索的方法和裝置。該方法可以包括從移動通信設(shè)備(120)的用戶接收搜索查詢(5150),將在搜索查詢中的語音部分轉(zhuǎn)換成語言表征,基于語言表征產(chǎn)生搜索音素網(wǎng)格(5200),從所產(chǎn)生的搜索音素網(wǎng)格中提取查詢特征(5250),基于所提取的查詢特征產(chǎn)生粗略搜索特征向量(5300),使用所產(chǎn)生的粗略搜索特征向量來執(zhí)行粗略搜索(5350),將所產(chǎn)生的粗略搜索特征向量發(fā)送到遠(yuǎn)程語音搜索處理單元(130)(5400),基于所產(chǎn)生的粗略搜索特征向量從遠(yuǎn)程語音搜索處理單元(130)接收網(wǎng)絡(luò)索引(5450),使用粗略搜索的結(jié)果、遠(yuǎn)程網(wǎng)絡(luò)索引以及產(chǎn)生的精細(xì)搜索特征向量來執(zhí)行精細(xì)搜索(5600),并將精細(xì)搜索結(jié)果顯示給用戶(5650)。
文檔編號G06F17/30GK101681365SQ200880011544
公開日2010年3月24日 申請日期2008年3月31日 優(yōu)先權(quán)日2007年4月10日
發(fā)明者程燕鳴 申請人:摩托羅拉公司