專利名稱:將語音和備選項輸入形式組合到移動設(shè)備中的制作方法
將語音和備選項輸入形式組合到移動設(shè)備中祖旦 疼足由于對用于相對較小的移動設(shè)備(諸如蜂窩電話和個人數(shù)字助理)的應(yīng)用 程序的使用的增加,在這種設(shè)備上的文本輸入變得越來越流行。 一些這樣的應(yīng)用程序包括電子郵件(e-mail)和短消息服務(wù)(SMS)。然而,移動電話、個人數(shù)字助理和其他這樣的移動設(shè)備一般不具有和臺式 計算機(jī)上一樣方便的鍵盤。例如,移動電話往往僅具有數(shù)字鍵區(qū),其上多個字 母被映射到相同的鍵。某些PDA僅具有從指示筆或類似的項目接收輸入的觸 敏屏幕。由此,這種設(shè)備當(dāng)前提供了允許用戶使用多種不同方法中的一種通過數(shù)字 鍵區(qū)或觸摸屏幕或其他輸入設(shè)備來輸入文本的界面。 一個這樣的方法是稱為多 次輕叩(multi-tap)界面的確定性界面。在多次輕叩界面中,根據(jù)用戶期望的 相應(yīng)字母,用戶按下一數(shù)字鍵給定的次數(shù)。例如,當(dāng)鍵區(qū)具有對應(yīng)于字母"abc" 的數(shù)字"2"鍵時,擊鍵"2"對應(yīng)于"a",擊鍵"22"對應(yīng)于"b",擊鍵"222" 對應(yīng)于"c",而擊鍵"2222"對應(yīng)于數(shù)字"2"。在另一示例中,擊鍵輸入844 444 7777會對應(yīng)于單詞"this"。另一種已知類型的界面是預(yù)測性系統(tǒng),并且被稱為Tegic通信的T9界面。 T9界面允許用戶輕叩對應(yīng)于一期望字母的鍵一次,并且使用先前的擊鍵順序 來預(yù)測期望的單詞。雖然這減少了按鍵的次數(shù),但是這種類型的預(yù)測性界面會 遭受由共享相同的鍵序列的單詞導(dǎo)致的模糊性。例如,鍵序列"4663"可以對 應(yīng)于單詞"home" 、 "good" 、 "gone" 、 "hood"或"hone"。在這些情況 下,該界面顯示從該鍵序列生成的預(yù)測單詞的列表,并且用戶按下"next (下 一個)"鍵來滾動通過各備選項。此外,由于不能預(yù)測字典外或該界面的詞匯 表外的單詞,因此T9類型的界面通常與其他回退(fallback)策略,諸如多次 輕叩結(jié)合,以便處理詞匯表外的單詞。一些當(dāng)前的界面也提供對單詞補(bǔ)全和單詞預(yù)測的支持。例如,基于初始的鍵序列"466"(對應(yīng)于字母"goo"),可以預(yù)測單詞"good"。類似地,從初始的鍵序列"6676"(對應(yīng)于字母"mom"),可以預(yù)測單詞"morning"。類似地,基于n元語法語言模型預(yù)測,可以預(yù)測單詞"a"作為跟在單詞序列"this is"之后的下一單詞。這些界面中沒有一個真正容許任何類型的快速文本輸入。實(shí)際上,這些方法的新用戶通常僅能達(dá)到每分鐘5-10個單詞的文本輸入速率。為了增加在這種通信設(shè)備上的信息輸入帶寬,某些設(shè)備實(shí)現(xiàn)了語音識別。 語音具有相對高的通信帶寬,估計為大約每分鐘250個單詞。然而,由于用戶 檢査和糾正語音識別差錯所花費(fèi)的時間,使用常規(guī)的自動語音識別系統(tǒng)的文本 輸入的帶寬在實(shí)踐中要低得多,而這些語音識別差錯對于當(dāng)前的語音識別系統(tǒng) 是不可避免的。具體地,某些當(dāng)前的基于語音的文本輸入方法允許用戶通過在每個單詞之 間有輕微停頓地說話來將文本輸入到蜂窩電話中。該語音識別系統(tǒng)接著顯示一 識別結(jié)果。由于直接檢測通常導(dǎo)致差錯,尤其在存在噪音時,因此用戶必須選 擇識別結(jié)果中的錯誤,并接著使用備選項列表或回退輸入方法來糾正它們。孤立的單詞識別要求用戶每次僅說出一個單詞。該一個單詞被處理并輸 出。用戶接著糾正該單詞。雖然孤立的單詞識別的確改進(jìn)了識別準(zhǔn)確度,但是 孤立的單詞識別界面是不自然的,并且相對于其中用戶一次可說出整個詞組或 句子的使用連續(xù)語音識別實(shí)現(xiàn)的系統(tǒng)而言降低了數(shù)據(jù)輸入速率。然而,連續(xù)語音識別中的糾錯存在問題。傳統(tǒng)上,連續(xù)語音識別的語音識 別結(jié)果是通過顯示整個詞組或句子的最佳假設(shè)來呈現(xiàn)的。為了糾錯,用戶接著 選擇誤識別的單詞,并從一下拉列表選擇一備選項。由于差錯通常成群地并且 跨詞界地出現(xiàn),因此許多系統(tǒng)允許糾正整個誤識別的詞組。例如,話語"canyou recognize speech"(你能識別語音嗎)會被不正確地識別為"can you wreck a nice beach"(你能破壞一個美麗的沙灘嗎)。在這種情況下,由于不正確的單詞 分割,不可能簡單地一次一個單詞地糾正識別。由此,要求用戶選擇短語"wreck a nice beach"并為整個短語選擇一備選項。雖然當(dāng)識別準(zhǔn)確度較高且諸如鼠標(biāo)等指點(diǎn)設(shè)備可用時這種方法能很好地 工作,但是假定通常嘈雜的環(huán)境以及有限的處理器能力,在沒有指針且其中不能呈現(xiàn)識別準(zhǔn)確度的移動設(shè)備上,它就變得麻煩。在只有硬件按鈕、鍵區(qū)或觸 摸屏等的設(shè)備上,難以設(shè)計出允許用戶選擇一定范圍的單詞以供糾正,而同時將擊鍵保持在合理次數(shù)的界面。以上討論僅提供了一般的背景信息,并不旨在用于協(xié)助確定所要求保護(hù)的 主題的范圍。概述本發(fā)明使用語音和備選形式輸入(諸如鍵區(qū)輸入)的組合來將信息傳遞給 移動設(shè)備。用戶說出包括多個單詞(諸如詞組或句子)的話語。語音識別結(jié)果 接著被一次一個單詞地呈現(xiàn)給用戶,以便確定或糾正。在屏幕上從第一個單詞 開始一次一個單詞地向用戶呈現(xiàn)最佳假設(shè)和一選擇列表。如果在屏幕上呈現(xiàn)的 最佳假設(shè)單詞是正確的,那么用戶可以容易地指示它。否則,如果期望單詞在 備選項列表中,那么在用戶方面只要很少的努力(例如很少的按下按鈕、擊鍵 等),用戶可以快速地導(dǎo)航到該備選項列表,并使用各種備選輸入形式之一來 輸入單詞。在一個實(shí)施例中,如果沒有在備選項列表中找到單詞,則用戶可以使用鍵 區(qū)開始輸入單詞。類似地,在一個實(shí)施例中,該系統(tǒng)可以使用通過將來自鍵區(qū)輸入的單詞前綴的信息、語音識別結(jié)果點(diǎn)陣(lattice)、已經(jīng)被糾正的當(dāng)前單 詞之前的單詞、語言模型等組合而獲取的后驗(yàn)概率來重新計算最佳假設(shè)單詞和 備選項列表。該過程可以對輸入句子中的后續(xù)單詞重復(fù)??梢允褂弥T如軟鍵盤、觸摸屏輸入、手寫輸入等其他輸入形式作為鍵區(qū)輸 入的代替或附加。提供本概述以便用簡化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一 些代表性概念。本概述并不旨在確定所要求保護(hù)的主題的關(guān)鍵特征或必要特 征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。附圖簡述圖i是其中可使用本發(fā)明的一個說明性計算環(huán)境的框圖。圖2—4示出了其上可采用本發(fā)明的設(shè)備的不同示例性、簡化的圖示實(shí)施例。圖5示出了語音識別系統(tǒng)的一個說明性實(shí)施例。圖6是依照一個實(shí)施例被配置成實(shí)現(xiàn)用戶界面系統(tǒng)的設(shè)備的框圖。圖6A是示出圖l一6所示的系統(tǒng)的總體操作的一個實(shí)施例的流程圖。 圖6B是示出生成語音識別假設(shè)點(diǎn)陣過程中的系統(tǒng)操作的一個實(shí)施例的流 程圖。圖6C示出了 一個示例性的初步假設(shè)點(diǎn)陣。 圖6D示出了用于選擇單詞的示例性用戶界面顯示。 圖6E示出了在給定用戶對假設(shè)中的單詞的糾正的時經(jīng)修改的假設(shè)點(diǎn)陣。 圖6F示出了用于選擇語音識別假設(shè)中的單詞的一個示例性用戶界面顯示。圖7示出了說明對假設(shè)的重新計算的一個示例性流程圖。 圖8示出了顯示預(yù)測性單詞補(bǔ)全的一個示例性用戶界面顯示。詳細(xì)描述本發(fā)明涉及將語音和備選輸入形式組合,以便改進(jìn)移動設(shè)備上的文本輸入 效率和穩(wěn)健性。然而,在更詳細(xì)地描述本發(fā)明之前,將描述其中可使用本發(fā)明 的一個說明性環(huán)境。以下在
圖1中所示的計算設(shè)備IO通常包括至少某種形式的計算機(jī)可讀介 質(zhì)。計算機(jī)可讀介質(zhì)可以是可由設(shè)備IO訪問的任何可用介質(zhì)。作為示例而非 局限,計算機(jī)可讀介質(zhì)可以包括計算機(jī)存儲介質(zhì)和通信介質(zhì)。計算機(jī)存儲介質(zhì) 包括以用于儲存諸如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息 的任一方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性,可移動和不可移動介質(zhì)。計算機(jī) 存儲介質(zhì)包括但不限于,RAM、 ROM、 EEPROM、閃存或其它存儲器技術(shù)、 CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁帶、磁盤存儲或 其它磁存儲設(shè)備、或可以用來儲存所期望的信息并是設(shè)備10的一部分或可由 設(shè)備IO訪問的任一其它介質(zhì)。通信介質(zhì)通常以諸如載波或其它傳輸機(jī)制等已 調(diào)制數(shù)據(jù)信號來體現(xiàn)計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包 括任一信息傳送介質(zhì)。術(shù)語"已調(diào)制數(shù)據(jù)信號"指以對信號中的信息進(jìn)行編碼的方式設(shè)置或改變其一個或多個特征的信號。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直接連線連接,以及無線介質(zhì),如聲學(xué)、RF、紅外 和其它無線介質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計算機(jī)可讀介質(zhì)的范圍之內(nèi)。圖l是移動設(shè)備IO的一個實(shí)施例的框圖。如圖所示,移動設(shè)備10包括處 理器20、存儲器22、輸入/輸出(I/O)組件24、臺式計算機(jī)通信接口26、收 發(fā)機(jī)27和天線11。在一個實(shí)施例中,移動設(shè)備10的這些組件被耦合,用于通 過合適的總線28與另一移動設(shè)備通信。雖然沒有在圖2中示出,但是移動設(shè) 備10還在I/O組件24內(nèi)包括如以下有關(guān)圖5所示和所討論的話筒。存儲器222被實(shí)現(xiàn)為非易失性電子存儲器,諸如帶有電池后備模塊(未示 出)的隨機(jī)存取存儲器(RAM),使得當(dāng)移動設(shè)備10的總電源被關(guān)閉時,存 儲在存儲器22中的信息不會丟失。存儲器22的一部分被分配為用于程序執(zhí)行 的可尋址存儲器,而存儲器22的另一部分可用于存儲,諸如模擬磁盤驅(qū)動器 上的存儲。存儲器22包含操作系統(tǒng)30,應(yīng)用程序16 (諸如用戶界面應(yīng)用程序、個人 信息管理器(PIM)、日程安排程序、文字處理程序、電子表格程序、因特網(wǎng) 瀏覽器程序以及以下討論的語音識別程序)、用戶界面組件17以及對象存儲 18。在操作過程中,操作系統(tǒng)30被載入到存儲器22中,并且由處理器20從 存儲器22中執(zhí)行。在一個實(shí)施例中,操作系統(tǒng)30是市場上可購買到的來自微 軟公司的Windows CE操作系統(tǒng)。操作系統(tǒng)30可以是為移動設(shè)備設(shè)計的,并 實(shí)現(xiàn)可由PIM、內(nèi)容査看器、語音識別功能等使用的特征。這可以用任何期望 的方式來完成,諸如通過所展示的應(yīng)用程序編程接口或通過專用接口等。對象 存儲18中的對象可以由PIM、內(nèi)容查看器和操作系統(tǒng)30至少部分地響應(yīng)于對 其的調(diào)用來維護(hù)。用戶界面組件17說明性地與其他組件交互,以便將輸出顯示提供給用戶 并用于接收來自用戶的輸入。用戶界面組件17在接收作為語音和鍵區(qū)輸入的 組合的用戶輸入時的的操作的一個實(shí)施例在以下關(guān)于圖6A-8來描述。在一個實(shí)施例中,提供1/0組件24以便于來自移動設(shè)備10的用戶的輸入 和輸出操作。這種組件可以包括顯示器、觸敏屏幕、鍵區(qū)、話筒、揚(yáng)聲器、音 頻發(fā)生器、振動設(shè)備、LED、按鈕、滾輪或用于將信息輸入到設(shè)備10或從設(shè)9備10輸出信息的其他機(jī)制等等。這些僅是作為示例。它們不必都存在,并且 也可以提供其他或不同的機(jī)制。并且,還可以支持其他通信接口和機(jī)制,諸如 有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器等。可任選地提供臺式計算機(jī)通信接口 26作為任何合適的、在市場上可以購 買到的通信接口 。當(dāng)無線收發(fā)機(jī)27不是用于與臺式機(jī)或其他計算機(jī)12通信時, 接口26被用于該目的。接口26可以包括例如紅外線收發(fā)機(jī)或串行或并行連接。收發(fā)機(jī)27是適用于通過期望的傳輸來發(fā)送信號或信息的無線或其他類型 的收發(fā)機(jī)。在其中收發(fā)機(jī)27是無線收發(fā)機(jī)的實(shí)施例中,可以使用天線ll來發(fā) 送信號或信息。收發(fā)機(jī)27也可以通過傳輸來發(fā)送其他數(shù)據(jù)。在一些實(shí)施例中, 收發(fā)機(jī)27從臺式計算機(jī)、信息源提供者或其他移動或非移動設(shè)備或電話接收 信息。收發(fā)機(jī)27被耦合到總線28,用于與處理器20通信以便存儲接收到的信 息并且發(fā)送要傳送的信息。電源35包括用于為移動設(shè)備10供電的電池37??扇芜x地,移動設(shè)備IO 可以從取代內(nèi)置電池37或?yàn)槠涑潆姷耐獠侩娫?1接收電力。例如,外部電源 41可以包括合適的AC或DC適配器,或用于移動設(shè)備10的電源底座。應(yīng)該注意,圖1示出了圖1中所示的其中可實(shí)現(xiàn)本發(fā)明的合適的操作環(huán)境 的一個示例。圖1中所示的操作環(huán)境僅是合適的操作環(huán)境的一個示例,并不旨 在對本發(fā)明的使用范圍或功能提出任何限制。其他可適用于本發(fā)明的公知的計 算系統(tǒng)、環(huán)境和/或配置包括但不局限于蜂窩電話、個人數(shù)字助理、尋呼機(jī)、手 持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費(fèi)電子設(shè) 備、包括任何上述系統(tǒng)或設(shè)備的分布式計算環(huán)境等。也應(yīng)該注意,本發(fā)明可以在諸如可由一個或多個計算機(jī)或其他設(shè)備執(zhí)行的 程序模塊等計算機(jī)可執(zhí)行指令的一般上下文中描述。 一般地,程序模塊包括例 程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽 象數(shù)據(jù)類型。通常程序模塊的功能可以按需在各個實(shí)施例中組合或分布。圖2是可以依照本發(fā)明使用的移動設(shè)備10的一個實(shí)施例的簡化的圖示說 明。在該實(shí)施例中,除了天線11和話筒75之外,移動設(shè)備10還包括小型鍵 盤32、顯示器34、指示筆36以及揚(yáng)聲器86。在圖3所示的實(shí)施例中,顯示器 34是液晶顯示器(LCD),它們使用觸敏顯示屏幕以及指示筆36。指示筆36用于在指定的坐標(biāo)處按下或接觸顯示器34以實(shí)現(xiàn)某些用戶輸入功能。小型鍵 盤32可被實(shí)現(xiàn)為小型字母數(shù)字鍵盤,其具有同樣為了完成某些用戶輸入功能 而提供的任何合適的和期望的功能鍵。話筒75被示為位于天線11的遠(yuǎn)端,但 是它可以方便地被設(shè)置在設(shè)備10上的任何地方。
圖3是依照本發(fā)明的另一實(shí)施例的移動設(shè)備10的另一簡化的圖示說明。 如圖3中所示,移動設(shè)備10包括類似于關(guān)于圖2所描述的那些項目的一些項 目,并且這些項目被類似地編號。例如,如圖3中所示,移動設(shè)備10也包括 置于天線11上的話筒75和置于該設(shè)備的外殼上的揚(yáng)聲器86。當(dāng)然,話筒75 和揚(yáng)聲器86也可以位于其他位置。同樣,移動設(shè)備10包括觸敏顯示器34,它 可以結(jié)合指示筆36使用以便實(shí)現(xiàn)某些用戶輸入功能。應(yīng)該注意,圖2和3中 所示的移動設(shè)備的顯示器34可以是相同尺寸或不同尺寸的,但是通常會比用 于臺式計算機(jī)的常規(guī)顯示器要小得多。例如,圖2和3中所示的顯示器34可 以由僅有240x329個坐標(biāo)或160x160個坐標(biāo)或任何其他合適的大小的矩陣來定 義。
圖3中所示的移動設(shè)備10也包括多個用戶輸入鍵或按鈕(諸如滾動按鈕 38和/或鍵盤32),它們允許用戶輸入數(shù)據(jù)或滾動通過菜單選項或在顯示器34 上顯示的其他顯示選項,而無需接觸顯示屏34。此外,圖3中所示的移動設(shè)備 10也包括電源按鈕40,它可用于開啟和關(guān)閉移動設(shè)備IO的總電源。
也應(yīng)該注意,在圖3所示的實(shí)施例中,移動設(shè)備10可以包括手寫區(qū)域42。 手寫區(qū)域42可以結(jié)合指示筆36使用,使得用戶能夠書寫存儲在存儲器22中 的消息,以供稍后由移動設(shè)備10使用。在一個實(shí)施例中,手寫消息僅以手寫 形式存儲并且可以由用戶檢索并顯示在顯示器34上,使得用戶可以審閱輸入 到移動設(shè)備IO中的手寫消息。在另一實(shí)施例中,移動設(shè)備IO配備有字符識別 模塊,使得用戶可以通過使用指示筆36在區(qū)域42上書寫字母數(shù)字信息來將該 字母數(shù)字消息輸入到移動設(shè)備10中。在該情況中,移動設(shè)備10中的字符識別 模塊識別該字母數(shù)字字符并將該字母轉(zhuǎn)換成計算機(jī)可識別的、可由移動設(shè)備10 中的應(yīng)用程序16使用的字母數(shù)字字符。
圖4示出了依照本發(fā)明的一個實(shí)施例的移動設(shè)備10的另一實(shí)施例的圖示 說明。移動設(shè)備10具有顯示區(qū)域34、電源按鈕504、多個控制按鈕506、 一串附加的控制按鈕508、話筒509和鍵區(qū)510。鍵區(qū)510說明性地包括多個不同 的字母數(shù)字按鈕(其中的一些由標(biāo)號512示出),并且也可以包括鍵盤按鈕514。 用戶可以通過使用指示筆或手指或其他機(jī)制按下按鈕512來將字母數(shù)字信息輸 入到圖4所示的設(shè)備10中。可以使用各種字母輸入技術(shù)中的任一種,諸如確 定性多次輕叩方法、預(yù)測性技術(shù)等,來通過按鈕512輸入字母數(shù)字信息。類似 地,在一個實(shí)施例中,如果用戶期望切換到其它的鍵入方法,用戶只需操縱鍵 盤按鈕514。在該情況下,設(shè)備IO顯示常規(guī)鍵盤的精簡描繪而非字母數(shù)字按鈕 512。接著用戶可以通過使用指示筆輕叩所顯示的鍵盤上的那些字符等, 一次 一個字母地輸入文本信息。此外,也可以在各個實(shí)施例中使用其他備選的輸入 形式,諸如手寫輸入和其他觸摸屏或其他輸入。
在一個實(shí)施例中,設(shè)備IO還包括語音識別系統(tǒng)(這將在下文中關(guān)于圖5 更詳細(xì)地描述),使得用戶可以通過話筒509來將語音信息輸入到設(shè)備10中。 類似地,設(shè)備IO說明性地包括由界面組件17 (圖1中)運(yùn)行的界面,它允許 用戶組合語音和鍵區(qū)輸入以便將信息輸入到設(shè)備10中。尤其是在不具有傳統(tǒng) 的鍵盤的移動設(shè)備上,這改進(jìn)了文本輸入效率和穩(wěn)健性。這在下文中關(guān)于圖 6A-8更詳細(xì)地描述。
圖5是依照一個實(shí)施例可以在上文的圖2-4中所示的移動設(shè)備中的任一種 上使用的語音識別系統(tǒng)200的一個說明性實(shí)施例的框圖。
在圖5中,說話者201 (訓(xùn)練者或用戶)向話筒17說話。由話筒17檢測 到的音頻信號被轉(zhuǎn)換成電信號,該電信號被提供給模數(shù)(A-D)轉(zhuǎn)換器206。
A-D轉(zhuǎn)換器206將來自話筒17的模擬信號轉(zhuǎn)換成一系列數(shù)字值。在若干 個實(shí)施例中,A-D轉(zhuǎn)換器206以16kHz和每個樣本16位來對該模擬信號采樣, 由此創(chuàng)建每秒32千字節(jié)的語音數(shù)據(jù)。該數(shù)字值被提供給幀構(gòu)造器207,在一個 實(shí)施例中,幀構(gòu)造器207將這些值分組成其開頭有10毫秒相隔的25毫秒的幀。
由幀構(gòu)造器207創(chuàng)建的數(shù)據(jù)幀被提供給特征提取器208,特征提取器208 從每個幀中提取特征。特征提取模塊的示例包括用于執(zhí)行線性預(yù)測編碼 (LPC) 、 LPC導(dǎo)出倒譜、感知線性預(yù)測(PLP)、聽覺模型特征提取以及梅 爾頻率(Mel-Frequency)倒譜系數(shù)(MFCC)特征提取的模塊。注意,本發(fā)明 不限于這些特征提取模塊,可以在本發(fā)明的上下文中使用其他模塊。特征提取模塊產(chǎn)生一特征向量流,每個特征向量與一語音信號幀相關(guān)聯(lián)。
也可以使用降噪,使得來自提取器208的輸出是一系列"干凈的"特征向 量。如果輸入信號是訓(xùn)練信號,則該系列"干凈的"特征向量被提供給訓(xùn)練器 224,該訓(xùn)練器如下文中更詳細(xì)描述的那樣使用"干凈的"特征向量和訓(xùn)練文 本226來訓(xùn)練聲學(xué)模型218或其他模型。
如果輸入信號是測試信號,則該"干凈的"特征向量被提供給解碼器212, 該解碼器基于特征向量流、詞典204、語言模型216和聲學(xué)模型218來標(biāo)識最 可能的單詞序列。解碼所使用的具體方法對本發(fā)明而言不重要,并且可以使用 用于解碼的若干個已知方法中的任一種。
最可能的假設(shè)單詞序列作為語音識別點(diǎn)陣被提供給置信度測量模塊220。 置信度測量模塊220部分地基于一輔助聲學(xué)模型(未示出)來標(biāo)識哪些單詞最 可能被語音識別器不正確地標(biāo)識。置信度測量模塊220接著將點(diǎn)陣中假設(shè)單詞 序列連同指示哪些單詞可能被不正確地標(biāo)識的標(biāo)識符一起提供給輸出模塊 222。本領(lǐng)域的技術(shù)人員將認(rèn)識到,置信度測量模塊222對于本發(fā)明的實(shí)現(xiàn)不 是必需的。
圖6是用戶界面系統(tǒng)550的框圖,其中設(shè)備10被配置成實(shí)現(xiàn)依照本發(fā)明 的一個實(shí)施例的界面。圖6A是示出依照一個實(shí)施例的移動設(shè)備10及其界面的 操作,并且將彼此結(jié)合地描述圖6和6A。雖然該界面可被部署在上文中關(guān)于 圖2-4討論的任一種移動設(shè)備上,但是僅是為了示例起見,以下討論將關(guān)于圖 4中所示的設(shè)備IO來進(jìn)行。
依照本發(fā)明的一個實(shí)施例,該界面允許用戶將語音輸入552和備選形式輸 入554組合以便將信息輸入到設(shè)備10中。備選形式輸入可以是使用上述形式
(軟鍵盤、觸摸屏輸入、手寫識別等)中的任一種的輸入。然而,僅是為了示 例起見,此處將按照鍵區(qū)輸入554來描述備選形式輸入。由此,依照一個實(shí)施 例,用戶556首先諸如通過按住一功能按鈕或操縱該用戶界面上任何其他期望 的按鈕提供激活輸入558,來激活設(shè)備10上的語音識別系統(tǒng)200。這由圖6A 中的框600指示。接著,用戶向設(shè)備10上的話筒75說出多單詞語音輸入552
(諸如詞組或句子),并且設(shè)備10中的語音識別系統(tǒng)200接收該多單詞語音 輸入522。這由圖5A中的框602指示。語音識別系統(tǒng)200生成假設(shè)點(diǎn)陣560形式的語音識別結(jié)果并將點(diǎn)陣560提供給用戶界面組件17。接著,用戶界面組 件17順序地一次一個單詞地顯示(在用戶界面顯示器34上)語音識別結(jié)果, 以供用戶使用鍵區(qū)510來確認(rèn)或糾正。這由圖5A中的框604來指示。用戶在 順序地顯示每個單詞時說明性地使用鍵區(qū)510上的鍵來糾正它或者確認(rèn)該單詞 是正確的。隨著順序提交的繼續(xù),顯示經(jīng)糾正或確認(rèn)的單詞,并且將下一順序 單詞添加到顯示器以供糾正或確認(rèn)。這繼續(xù)直至顯示全部的語音識別結(jié)果。
初看起來,連續(xù)語音識別與逐個單詞糾正機(jī)制(此處有時稱為順序提交機(jī) 制)的組合可能好像是不是最由的,并且無疑是反直覺的。然而,對于移動設(shè) 備上當(dāng)前的自動語音識別系統(tǒng),相信這有助于更好的總體用戶體驗(yàn)。
例如,自動語音識別差錯通常涉及分段差錯。如在背景一節(jié)中所討論的, 假設(shè)短語"recognized speech"可能被自動語音識別系統(tǒng)誤識別為"wreck a nice beach"。在這種情況下,顯示完整的自動語音識別結(jié)果導(dǎo)致糾正界面的難以 選擇。這導(dǎo)致的一些問題是用戶應(yīng)該選擇哪些單詞來糾正?當(dāng)用戶試圖糾正 單詞"wreck"時,它是否應(yīng)該造成該語音識別結(jié)果中的詞組的剩余部分改變? 如果作為用戶對于不同單詞的糾正的副作用其他單詞開始改變,它會如何影響 用戶的置信度水平?
在設(shè)計界面時所有這些問題都必須被解決,并且很難獲得對所有這些問題 的最優(yōu)解決方案。類似地,在解決這些問題中的每一個并且向用戶提供解決它 們的用戶界面選項時,通常導(dǎo)致需要相對大量的擊鍵以供用戶糾正被誤識別的 句子或詞組。
與此形成對比,通過順序地從左到右呈現(xiàn)一個單詞接一個單詞的結(jié)果以供 用戶確認(rèn)或糾正,基本上避免了所有這些問題。在"wreck a nice beach"的假 設(shè)的誤識別中,本發(fā)明將首先在設(shè)備10的顯示部分34上僅呈現(xiàn)單詞"wreck" 以供用戶確認(rèn)或糾正。連同單詞"wreck" —起,本系統(tǒng)也將說明性地顯示備 選項。由此,識別結(jié)果將可能包括"recognize"作為單詞"wreck"的第二備 選項。 一旦用戶將"wreck"糾正為"recognize",那么本系統(tǒng)將說明性地重 新計算與各個語音識別假設(shè)相關(guān)聯(lián)的概率,并且接著輸出下一個單詞"speech" 作為第一個假設(shè),而非"a"(給定用戶作出先前糾正("wreck"到"recognize") 的上下文)。在一個說明性實(shí)施例中,如圖4中所示,顯示部分34顯示語音識別結(jié)果 以及顯示用于當(dāng)前正被確認(rèn)或糾正的單詞的各個備選項的下拉菜單503。如果 在語音識別結(jié)果中顯示的單詞是正確的,用戶可以只需操縱"OK"按鈕,或 者用戶可以滾動通過下拉菜單503中顯示的各個備選項,并且為所顯示的單詞 選擇正確的備選項。在所示的實(shí)施例中,"OK"按鈕可以位于功能按鈕串508 中,或者它可以位于鍵區(qū)510上,或者它可以是按鈕506中的一個等。當(dāng)然, 也可以使用其他實(shí)施例。
更具體地,在圖4中對設(shè)備IO所示的示例中,用戶輸入了語音輸入552 "this is speech recognition"(這是語音識別)。系統(tǒng)接著向用戶顯示第一個單 詞"this",并且它已由用戶確認(rèn)。圖4中的系統(tǒng)被示為己向用戶顯示了識別 假設(shè)中的第二個單詞,并且用戶已從下拉菜單503中的備選項列表中選擇了 "is"。系統(tǒng)接著重新計算與各個識別假設(shè)相關(guān)聯(lián)的概率,以找出最可能的單 詞以便作為假設(shè)中的第三個單詞來顯示,這還未在圖4中示出。
在一個說明性實(shí)施例中,備選項下拉菜單503是出現(xiàn)在假設(shè)的語音識別結(jié) 果中的當(dāng)前插入點(diǎn)之下的浮動列表框,并且顯示符合識別結(jié)果的當(dāng)前所選的預(yù) 測。顯示被格式化以突出顯示指定的前綴。此外,在一個說明性實(shí)施例中,框 503中的列表的高度可以被設(shè)置成任意期望的數(shù)字,并且認(rèn)為大約四個可見項 目的列表限制了預(yù)測列表引入的注意力分散的量。類似地,可以將下拉菜單503 的寬度調(diào)整為列表中最長的單詞。此外,如果識別結(jié)果中的插入點(diǎn)太靠近文檔 窗口的邊界,使得下拉菜單503中的列表框延伸到邊界之外,則識別結(jié)果中的 插入點(diǎn)和下拉菜單503中的預(yù)測列表可以換到下一行。
通過鍵區(qū)510接收用戶確認(rèn)或糾正作為鍵區(qū)輸入554由圖6A中的框606 示出。當(dāng)然,應(yīng)該注意用戶可以用各種不同的方式來提供鍵區(qū)輸入554,而非 僅是從備選項下拉菜單503中選擇一備選項。
對于理想的語音識別,用戶只需對每個正確識別的單詞按下"OK",從 而得出非常高效的文本輸入。然而,對于不理想的語音識別,用戶對每個正確 識別的單詞按下"OK",并且對于誤識別的單詞,可以或者向下滾動到期望 的備選項并從備選項菜單503中選擇它,或者開始一次一個字母地拼寫正確的 單詞直至在下拉菜單503的預(yù)測列表中出現(xiàn)了期望的單詞。
15剛才所描述的基于各個用戶輸入首先向用戶顯示的建議的單詞和備選項
是說明性地從假設(shè)點(diǎn)陣560取得的,該假設(shè)點(diǎn)陣560由語音識別系統(tǒng)200響應(yīng) 于語音輸入552而生成。然而,可能發(fā)生語音識別系統(tǒng)200誤識別語音輸入以 至于要顯示的正確單詞實(shí)際上沒有出現(xiàn)在假設(shè)點(diǎn)陣560中。為了處理未出現(xiàn)在 點(diǎn)陣560中的單詞,可以將來自假設(shè)點(diǎn)陣560的預(yù)測與來自語言模型(諸如n 元語法語言模型)的預(yù)測合并,并且按照概率來排序。這樣,通??梢暂斎胝Z 音識別系統(tǒng)200的詞匯表中的單詞而無需拼寫出整個單詞,在某些情況下無需 鍵入一個字母,即使它們不出現(xiàn)在識別結(jié)果的假設(shè)點(diǎn)陣560中。這很大程序上 減少了輸入在最初的識別點(diǎn)陣560中沒有找到的單詞所需的擊鍵。
也可能發(fā)生用戶輸入的單詞不僅沒有出現(xiàn)在識別點(diǎn)陣560中,也沒有出現(xiàn) 在語音識別系統(tǒng)200的詞典或詞匯表中。在這種情況下,在一個實(shí)施例中,用 戶界面組件17被配置成切換到允許用戶通過鍵區(qū)510拼寫詞匯表之外的單詞 的確定性的、逐個字母的輸入配置。這種逐個字母的配置可以包括例如多次輕 叩輸入配置或鍵盤輸入配置。
對于鍵盤配置,圖4中所示的設(shè)備10包括軟鍵盤鍵514。當(dāng)用戶操縱該 鍵時,示出鍵盤的顯示并且用戶可以使用指示筆方便地使用"看一鍵打一字" 來逐個字母地輸入不在語音識別系統(tǒng)200的原始詞匯表中的單詞。接著可以按 需將這些單詞添加到詞匯表中。
類似地,可以在下拉菜單503的備選項顯示的結(jié)尾處(或者在下拉菜單 503中的任何其他位置)提供鍵盤選項,而非具有不變地顯示的鍵盤按鈕514。 當(dāng)用戶從備選項列表中操縱該選項時,再次顯示鍵盤并且用戶可以一次一個地 輸入字母。 一旦提交了詞匯表之外的單詞,鍵盤說明性地消失,并且設(shè)備10 中的用戶界面組件17如上所述地轉(zhuǎn)變回其先前的操作模式(可能是一次一個 單詞地顯示以供用戶確認(rèn)或糾正)。
語音識別等待時間也會成為移動設(shè)備上的問題。然而,由于本系統(tǒng)是順序 遞交系統(tǒng)(因?yàn)樗鼜木渥拥淖髠?cè)開始一次一個單詞地向用戶提供語音識別結(jié)果 以供確認(rèn)或糾正,并向右側(cè)前進(jìn)),因此本系統(tǒng)可以利用從不完全的假設(shè)點(diǎn)陣 生成的中間自動語音識別假設(shè)。換而言之,在自動語音識別系統(tǒng)200完全完成 了用于語音識別結(jié)果的整個假設(shè)點(diǎn)陣560的處理之前,本系統(tǒng)可以開始一次一個地向用戶呈現(xiàn)單詞假設(shè)。由此,在初始超時期限(諸如500毫秒或任何其他 期望的超時期限)后,而在語音識別系統(tǒng)200生成對于用戶輸入的完整文本片 斷或句子的假設(shè)之前,本系統(tǒng)可以向用戶顯示語音識別結(jié)果中的第一個假設(shè)的 單詞。這使用戶能以很短的等待時間開始糾正或確認(rèn)語音識別結(jié)果,即使當(dāng)前 的移動設(shè)備具有相對有限的計算資源。
圖6B是更好地說明該系統(tǒng)如何減小語音識別等待時間的流程圖。首先, 用戶向移動設(shè)備10說出完整的多單詞語音輸入552。這由圖6B中的框650示 出。接著解碼器開始計算假設(shè)點(diǎn)陣560。這由框652示出。
解碼器接著判定點(diǎn)陣計算是否完成。這由框654示出。如果否,那么判定 是否己經(jīng)過了預(yù)定超時期限。這由框656示出。換而言之,即使還沒有計算出 完整的假設(shè)點(diǎn)陣,本系統(tǒng)也將在預(yù)先指定的超時期限后輸出中間點(diǎn)陣560。由 此,如果在框656處已經(jīng)過了超時期限,那么系統(tǒng)輸出初步的假設(shè)點(diǎn)陣560, 并且界面組件17向用戶顯示在語音識別結(jié)果中的第一個假設(shè)的單詞(來自初 步假設(shè)點(diǎn)陣560)。這由圖6B中的框658指示。
在該時間期間,解碼器在框652處繼續(xù)計算完整的假設(shè)點(diǎn)陣。然而,界面 組件17說明性地使用初步的假設(shè)點(diǎn)陣保持向用戶呈現(xiàn)單詞以供確認(rèn)或糾正, 直至完成了完整的假設(shè)點(diǎn)陣。 一旦完成了完整的假設(shè)點(diǎn)陣560,就輸出完整的 點(diǎn)陣以供界面組件17用于順序地向用戶呈現(xiàn)單詞(一次一個單詞)以供確認(rèn) 或糾正。這由圖6B中的框660指示。
在一個替換實(shí)施例中,當(dāng)解碼器計算假設(shè)點(diǎn)陣,并且之后計算出初步的點(diǎn) 陣之后,用戶對語音識別結(jié)果的任何確認(rèn)或糾正被反饋給解碼器,使得它能夠 考慮該用戶確認(rèn)或糾正信息來完成假設(shè)點(diǎn)陣的處理。這由框655指示。通過向 識別器200提供所提交的單詞序列,這提供了可由識別器用于縮小搜索空間的 信息。實(shí)際上,有了該信息,識別器200可以剪除與所提交的單詞序列不一致 的所有搜索路徑,以便顯著加速搜索過程。當(dāng)然,搜索路徑剪除不僅加速了搜 索,還通過允許引擎搜索與已經(jīng)提交的單詞序列一致的更多路徑(否則的話可 能被剪除)來提高準(zhǔn)確度
此時一個示例可以增強(qiáng)理解。假設(shè)用戶556激活了設(shè)備IO上的語音識別 系統(tǒng)200。還假設(shè)用戶通過其話筒75將多單詞語音輸入552 "this is speechrecognition"輸入到設(shè)備10中。設(shè)備10中的自動語音識別系統(tǒng)200開始處理 該語音輸入,以便創(chuàng)建指示假設(shè)的語音識別結(jié)果和備選項的假設(shè)點(diǎn)陣560。然 而,在自動語音識別系統(tǒng)200計算出整個假設(shè)點(diǎn)陣之前,可以說明性地計算初 步點(diǎn)陣560。圖6D示出了從示例性語音輸入生成的一個示例性的部分(或初 步)假設(shè)點(diǎn)陣。該假設(shè)點(diǎn)陣一般地由圖6D中的標(biāo)號662示出。依照一個實(shí)施 例,向用戶界面組件17提供點(diǎn)陣662,使得用戶界面組件17可以開始向用戶 556 —次一個單詞地呈現(xiàn)來自假設(shè)的語音識別結(jié)果的單詞,以供確認(rèn)或糾正。
假設(shè)在點(diǎn)陣662中,單詞"this"是該點(diǎn)陣中表示最佳假設(shè)單詞的第一個 單詞。由此會將單詞"this"呈現(xiàn)給用戶以供確認(rèn)或糾正。圖6E示出了設(shè)備 10的顯示器34的一部分,示出將單詞"this"連同下拉菜單503中以概率得分 順序呈現(xiàn)的來自假設(shè)點(diǎn)陣662的備選項一起呈現(xiàn)給用戶。在菜單503中列出的 備選項是"Miss"和"Mrs."。可以從點(diǎn)陣662看出點(diǎn)陣中有對于"this"的其 他可能的備選項。用戶然后可以或者通過方便地操縱"OK"按鈕來接受所顯 示的結(jié)果"this",或者用戶可以選擇如上所述的備選項之一。
在用戶作出確認(rèn)或糾正所顯示的語音識別結(jié)果的選擇期間,解碼器繼續(xù)處 理語音輸入,以便完成語音識別點(diǎn)陣的計算。這可能只需花費(fèi)幾秒種。由此, 可能甚至在用戶已糾正或確認(rèn)了一個或兩個單詞的假設(shè)單詞之前,解碼器就已 經(jīng)完整地計算出整個假設(shè)點(diǎn)陣。
圖6E示出了解碼器對示例性語音輸入"this is speech recognition"計算出 的完整的假設(shè)點(diǎn)陣664。由于用戶選擇了 "this"作為語音識別結(jié)果中的第一個 單詞,因此在點(diǎn)陣664上劃去其他兩個備選項"Mrs."和"Miss"以顯示在假 設(shè)語音識別結(jié)果中的其他單詞時不再考慮它們。實(shí)際上,由于用戶已確認(rèn)了單 詞"this",解碼器肯定地知道"this"是識別結(jié)果中正確的第一個單詞。接著, 解碼器可以為點(diǎn)陣664中的所有其他的單詞重新計算概率,并且用戶界面組件 17可以基于該重新計算將最高得分的單詞呈現(xiàn)給用戶,作為識別結(jié)果中的下一 個假設(shè)單詞。
圖6F示出了現(xiàn)在向用戶顯示單詞"is"作為語音識別結(jié)果中"this"之后 的最高得分的假設(shè)單詞的界面。圖6F示出了下拉菜單502也顯示了對單詞"is" 的多個備選項,以及如果用戶通過選擇備選單詞之一而選擇糾正語音識別結(jié)果時可用于在各個備選項之間滾動的滾動條。
也應(yīng)該注意,在圖6F所示的實(shí)施例中,下拉菜單503包括"鍵盤"選項, 用戶可以操縱該選項來顯示鍵盤,使得用戶能夠使用指示筆或其他合適的輸入 機(jī)制一次一個字母地輸入單詞。
圖7是依照本發(fā)明的一個實(shí)施例更好地示出在使用初步的和完整的點(diǎn)陣 662和664時,圖6中所示的系統(tǒng)的操作的流程圖。如以上關(guān)于圖6B所討論 的,用戶界面組件17首先接收初步假設(shè)點(diǎn)陣(諸如圖6D中所示的點(diǎn)陣662)。 這由圖6中的框680示出。
用戶界面組件17接著輸出語音識別結(jié)果中當(dāng)前單詞的最佳單詞假設(shè)。例 如,如果這是向用戶顯示以供糾正或確認(rèn)的第一個單詞,那么用戶界面組件17 為語音識別結(jié)果中的第一個單詞位置從初步假設(shè)點(diǎn)陣選擇最佳得分單詞,并將 其顯示給用戶。這由圖6中的框682示出,并且其示例在圖6E中示出。
用戶界面組件17接著接收關(guān)于當(dāng)前所顯示的單詞的用戶糾正或確認(rèn)輸入 554。這由圖6中的框684示出。再一次,這可以通過用戶從備選項列表中選 擇一備選項、通過用戶開始鍵入不在假設(shè)點(diǎn)陣中但是仍可以在自動語音識別系 統(tǒng)200使用的字典或詞匯表中找到的單詞、或通過用戶輸入先前沒有出現(xiàn)在自 動語音識別系統(tǒng)200的詞匯表或詞典中的新單詞來完成。
應(yīng)該注意,在第二種情況下(其中用戶開始鍵入不在假設(shè)點(diǎn)陣中但是仍可 以在自動語音識別系統(tǒng)200使用的詞典中找到的單詞)可以使用前綴反饋。這 在圖8中更好地示出。例如,假設(shè)所考慮的語音識別結(jié)果的正確的單詞是 "demonstrates"。還假設(shè)基于語音輸入552,單詞"demonstrates"未出現(xiàn)在 自動語音識別系統(tǒng)200生成的假設(shè)點(diǎn)陣中。然而,假設(shè)單詞"demonstrates"在 自動語音識別系統(tǒng)200使用的詞典中。在這種情況下,用戶將開始一次一個字 母地鍵入單詞(諸如通過選擇鍵盤選項或多次輕叩輸入選項)。隨著用戶輸入 每個字母,自動語音識別系統(tǒng)200基于已經(jīng)輸入的前綴字母使用預(yù)測性單詞補(bǔ) 全。在一個說明性實(shí)施例中,系統(tǒng)還突出顯示用戶已經(jīng)輸入的字母,使得用戶 可以方便地確定已經(jīng)輸入了哪些字母。從圖8中可以看出用戶已經(jīng)輸入了字母 "demon"并且已經(jīng)預(yù)測到單詞"demonstrates"。
也應(yīng)該注意,即時當(dāng)單詞已經(jīng)出現(xiàn)在假設(shè)點(diǎn)陣中時也可以使用該選項(一次一個字母地輸入單詞)。換而言之,用戶可以方便地輸入允許用戶一次一個
字母地輸入單詞的輸入配置,而非用戶滾動通過下拉菜單503中的備選項列表 以便找到正確的備選項?;谟脩糨斎氲拿總€字母,系統(tǒng)200重新計算各個單 詞的概率并且基于給定前綴的情況下最高概率的單詞來重新排列所顯示的替換項。
在一個實(shí)施例中,為了重新排列單詞,在給定用戶識別出先前單詞的上下 文以及給定用戶輸入的前綴字母的情況下,不僅基于由用戶已經(jīng)輸入的前綴字 母,而且還基于出現(xiàn)在語音識別假設(shè)中的該單詞位置中的單詞以及也基于用戶 已經(jīng)確認(rèn)或糾正的先前的單詞,并且進(jìn)一步基于其他排序組件,諸如上下文相 關(guān)組件(例如n元語法語言模型)來執(zhí)行重新排列。
無論如何,接收用戶糾正或確認(rèn)輸入554由圖7中的框684示出。用戶界 面組件17基于用戶輸入糾正或確認(rèn)單詞,如圖6中框686所示。
如果剛確認(rèn)或糾正的單詞是語音識別結(jié)果中前幾個單詞中的一個,則可能 用戶界面組件17正基于初步點(diǎn)陣向用戶提供假設(shè)單詞,如以上有關(guān)圖6B所描 述的。因此,判定是否己經(jīng)接收到完整的點(diǎn)陣。這由圖6中的框688示出。如 果是,那么如框690所示為所有今后的處理使用完整的點(diǎn)陣。如果還沒有接收 到完整的點(diǎn)陣,那么再次使用初步點(diǎn)陣來處理語音識別結(jié)果中的下一個單詞。
一旦用戶確認(rèn)或糾正了正在處理的當(dāng)前單詞,用戶界面組件17判定在假 設(shè)的語音識別結(jié)果中是否有更多的單詞。這由圖7中的框692示出。
如果是,那么自動語音識別解碼器為可能作為語音識別結(jié)果中的下一個單 詞提議的每個可能的單詞重新計算得分。再一次,這一對下一單詞的得分的重 新計算可以基于由用戶已經(jīng)確認(rèn)或糾正的單詞、基于在假設(shè)點(diǎn)陣中找到的單
詞、基于語言模型得分或基于其他期望的建模得分。
為了從點(diǎn)陣生成候選單詞,首先確定通過對應(yīng)于該結(jié)果的已確認(rèn)單詞序列 可以從初始點(diǎn)陣節(jié)點(diǎn)獲得哪個候選單詞集。來自這些候選節(jié)點(diǎn)的與點(diǎn)陣中的外 出弧相關(guān)聯(lián)的該單詞列表形成了由點(diǎn)陣預(yù)測的候選單詞。例如,在圖6F所示 的點(diǎn)陣664中,假設(shè)用戶己確認(rèn)或糾正了單詞"this is",則在給定已經(jīng)確認(rèn) 的單詞情況下,接著在語音識別結(jié)果中可能的備選項是"speech" 、 "beach" 和"bee"。為了確定每個候選單詞的概率,通過使用動態(tài)編程組合匹配路徑的概率來 計算每個候選節(jié)點(diǎn)的前向概率。對于每個候選單詞過渡,從后驗(yàn)前向概率、局
部過渡概率和底向得分來計算總體過渡概率。通過組合來自相應(yīng)的候選單詞過 渡的概率來確定每個候選單詞的最終概率。在一個實(shí)施例中,可以通過添加概
率來準(zhǔn)確地計算概率組合,或通過取最大值以Viterbi方式來估算概率組合。 為了減少計算,隨著用戶提交每個單詞遞增地計算候選節(jié)點(diǎn)和對應(yīng)的概率。當(dāng) 然應(yīng)該注意,這僅是計算與語音識別結(jié)果中的下一個單詞相關(guān)聯(lián)的得分的一種 方式?;谠撔畔⒅匦掠嬎愕梅衷趫D7中由框696示出。
在框692處,如果沒有更多的單詞要處理,那么語音識別結(jié)果完成,并且 處理結(jié)束。
可以看出,通過組合用于移動設(shè)備上的文本輸入的鍵區(qū)和語音輸入,當(dāng)單 詞被誤識別時,順序提交范例優(yōu)于傳統(tǒng)的隨機(jī)訪問糾正。它采用較少的擊鍵, 并且話語允許系統(tǒng)顯示具有不同分割的單詞備選項,而同時以非常直接的方式 呈現(xiàn)結(jié)果。因此,當(dāng)識別點(diǎn)陣表示正確的識別時,用戶無需因?yàn)椴徽_的單詞 分割而糾正多單詞短語,由此導(dǎo)致更少的擊鍵。當(dāng)選擇多個單詞以供糾正時, 這也避免了備選項的組合激增的問題。
此外,知道先前提交的單詞使得系統(tǒng)能夠基于語言模型和與已提交單詞的 聲學(xué)對齊依照它們的后驗(yàn)概率來重新排列假設(shè)。由此,感知到的準(zhǔn)確度比傳統(tǒng) 系統(tǒng)高,在傳統(tǒng)系統(tǒng)中在糾正之后不能改變對話語的剩余部分的假設(shè)。通過僅 顯示要糾正和提交的下一個單詞,順序提交系統(tǒng)改進(jìn)了感知的準(zhǔn)確度并且導(dǎo)致 擊鍵的減少。
類似地,順序提交是基于現(xiàn)有文本輸入方法的用戶熟悉的一次一個單詞的 輸入界面。在語音輸入不合適的情況下,用戶可以方便地跳過說出期望話語的 第一步驟,而開始僅使用鍵區(qū)來輸入文本。由此,該系統(tǒng)是非常靈活的。
盡管以對結(jié)構(gòu)特征和/或方法動作專用的語言描述了本主題,但是可以理 解,所附權(quán)利要求書中定義的本主題不必限于先前所描述的具體特征或動作。 相反,這些具體特征和動作是作為實(shí)現(xiàn)權(quán)利要求書的示例來公開的。
權(quán)利要求
1. 一種用于將信息輸入到移動設(shè)備(10)中的方法,包括 從用戶(556)處接收(602)多單詞語音輸入(552); 對所述語音輸入(552)執(zhí)行語音識別(200)以獲得語音識別結(jié)果;以及 一次一個單詞地順序地顯示(604)所述語音識別結(jié)果(560)以供用戶確認(rèn)或糾正(606)。
2. 如權(quán)利要求l所述的方法,其特征在于,還包括-接收(606)指示對給定的、所顯示的單詞的用戶糾正或確認(rèn)的用戶輸入 (554)。
3. 如權(quán)利要求1所述的方法,其特征在于,執(zhí)行語音識別包括計算(652) 對應(yīng)于所述語音輸入(552)的可能單詞序列,并且所述方法還包括在將下一單詞添加到所述語音識別結(jié)果的顯示之前,在給定的所顯示的單詞之后,基于指示所述給定的所顯示單詞的用戶糾正或確認(rèn)(684)的用戶輸 入(554),重新計算(696)所述可能單詞序列。
4. 如權(quán)利要求3所述的方法,其特征在于,顯示包括 基于所述可能單詞序列的重新計算(696),將下一單詞添加(682)到所述顯示。
5. 如權(quán)利要求2所述的方法,其特征在于,接收(684)用戶輸入包括 接收指示對所述移動設(shè)備(10)上的輸入機(jī)制(554)的用戶操縱的備選形式輸入(554)。
6. 如權(quán)利要求1所述的方法,其特征在于,執(zhí)行語音識別包括 基于所述語音輸入(552)計算(652)指示多個語音識別假設(shè)的假設(shè)點(diǎn)陣(560)。
7. 如權(quán)利要求6所述的方法,其特征在于,計算(652)假設(shè)點(diǎn)陣(560) 包括在完成計算(652)所述假設(shè)點(diǎn)陣之前,輸出(658)—初步假設(shè)點(diǎn)陣(560);以及接著繼續(xù)計算(652)所述假設(shè)點(diǎn)陣(560);其中順序地顯示(604)所述語音識別結(jié)果以供用戶糾正或確認(rèn)包括首先 使用所述初步假設(shè)點(diǎn)陣(560)來顯示所述語音識別結(jié)果,直至完全計算(654) 出所述假設(shè)點(diǎn)陣(560),接著使用所述完全計算出的假設(shè)點(diǎn)陣(560)來顯示 (660)所述語音識別結(jié)果。
8. 如權(quán)利要求5所述的方法,其特征在于, 一次一個單詞地順序顯示(604) 所述語音識別結(jié)果包括顯示(682)最佳假設(shè)單詞;以及 顯示接近所述最佳假設(shè)的備選單詞的列表(503)。
9. 如權(quán)利要求8所述的方法,其特征在于,接收備選形式輸入包括 接收(684)對所述備選單詞之一的用戶選擇。
10. 如權(quán)利要求8所述的方法,其特征在于,接收備選形式輸入包括 接收(606)指示用戶一次一個字母地輸入期望單詞的用戶鍵入輸入。
11. 一種移動設(shè)備(10),包括 語音識別器(200);以及用戶界面組件(17),它被配置成從所述語音識別器(200)接收指示一 多單詞語音輸入(552)的識別的語音識別結(jié)果(560),并通過僅在所述語音 識別結(jié)果(560)中先前輸出的單詞被用戶(556)確認(rèn)或糾正(606)以后才 輸出所述語音識別結(jié)果(560)中的下一單詞來順序地輸出(604)所述語音識 別結(jié)果(560)。
12. 如權(quán)利要求ll所述的移動設(shè)備(10),其特征在于,還包括 顯示器(34),所述用戶界面組件(17)被配置成通過在所述顯示器(34)上順序地顯示所述語音識別結(jié)果來輸出所述語音識別結(jié)果。
13. 如權(quán)利要求12所述的移動設(shè)備(10),其特征在于,所述用戶界面 組件(17)被配置成與所述語音識別結(jié)果(560) —起顯示多個備選單詞(503) 作為對給定的所顯示的單詞的備選項。
14. 如權(quán)利要求12所述的移動設(shè)備(10),其特征在于,所述語音識別 器(200)被配置成通過計算(652)可能單詞序列來將所述語音識別結(jié)果(560) 提供給所述用戶界面組件(17),并且其中,所述語音識別器(200)被配置 成基于用戶對所顯示的單詞的確認(rèn)或糾正來重新計算(696)所述可能單詞序列,其中所述用戶界面組件(17)被配置成基于所述可能單詞序列的重新計算(696)來顯示下一個單詞。
15. 如權(quán)利要求12所述的移動設(shè)備(10),其特征在于,所述語音識別 器(200)通過輸出(658)初步的可能單詞序列來提供所述語音識別結(jié)果(560), 并且其中所述用戶界面組件(17)被配置成最初基于所述初步的可能單詞序列 來向用戶顯示所述語音識別結(jié)果(560)。
16. —種移動設(shè)備(10)上的用戶界面,包括 用戶可操縱的輸入形式組件(24);顯示器(34);以及用戶界面組件(17),它被配置成顯示指示一多單詞語音輸入(552)的 單詞列表,所述列表中的每一單詞在顯示所述列表中的下一個單詞之前被順序 地顯示(604)以供用戶確認(rèn)或糾正(606)。
17. 如權(quán)利要求16所述的用戶界面,其特征在于,所述用戶界面組件(17) 被配置成向語音識別系統(tǒng)(200)提供指示用戶對所顯示的單詞的糾正或確認(rèn) 的糾正或確認(rèn)信息(554),用于重新計算(696)指示所述多單詞語音輸入(552) 的可能單詞的剩余部分。
18. 如權(quán)利要求16所述的用戶界面,其特征在于,所述用戶確認(rèn)或糾正 是通過所述用戶可操縱輸入形式組件(24)來提供的。
19. 如權(quán)利要求18所述的用戶界面,其特征在于,所述用戶可操縱輸入 形式組件(24)包括鍵區(qū)(32、 510)、軟鍵盤(514)、手寫輸入組件(42) 以及觸摸屏(34)之一。
20. 如權(quán)利要求16所述的用戶界面,其特征在于,所述用戶界面組件(17) 被配置成與所述列表中的每個單詞一起顯示一組備選單詞(503)以供用戶選 擇。
全文摘要
當(dāng)將說出的信息輸入到移動設(shè)備中時同時使用語音和備選形式的輸入。該備選形式輸入可用于執(zhí)行對語音識別結(jié)果中的單詞的順序提交。
文檔編號G06F3/16GK101313276SQ200680040198
公開日2008年11月26日 申請日期2006年10月16日 優(yōu)先權(quán)日2005年10月28日
發(fā)明者A·艾斯洛, B-J·蘇, M·V·瑪哈簡 申請人:微軟公司