專利名稱:字符的受控處理的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及話音識別軟件應(yīng)用,并且更為具體地,涉及通過話音識別應(yīng)用來處理單詞的字符的方法。
背景技術(shù):
語音可能是人類最古老的溝通方式,許多科學(xué)家現(xiàn)在相信通過發(fā)聲來通信的能力在生物學(xué)上說是人類大腦天生固有的。因此,允許用戶使用自然用戶界面(NUI)(如語音)來與計算機進行通信一向是人類追求的目標。事實上,近來,在實現(xiàn)這個目標方面已經(jīng)取得了極大的進步。例如,現(xiàn)在,一些計算機包括允許用戶口頭輸入用于操作計算機的命令和要被轉(zhuǎn)換為文本的口述材料的語音識別應(yīng)用。這些應(yīng)用一般通過周期性地記錄從話筒采集的聲音采樣、分析這些采樣以辨別用戶所講的音素、以及識別所講的音素所構(gòu)成的單詞來進行操作。
盡管語音識別現(xiàn)在變得愈發(fā)普通,但使用易于使有經(jīng)驗的用戶受挫以及使新用戶疏遠的傳統(tǒng)的語音識別應(yīng)用仍然存在一些缺點。一個這樣的缺點涉及講話人和計算機之間的交互。例如,對于人類之間的交互,人們往往根據(jù)他們察覺的聽眾的反應(yīng)來控制他們的語音。這樣,在談話期間,聽眾可通過點頭或作出口頭響應(yīng)(比如“嗯”或“啊哈”)來提供反饋,以指示他或她聽懂了對他們說的話。此外,如果聽眾沒有聽懂對他們說的話,聽眾就會做出疑惑的表情,向前探身或做出其他口頭或非口頭的暗示。響應(yīng)于這種反饋,講話人一般會改變他或她正在說話的方式,并且在某些情況下,講話人可以講得更慢、更大聲、更頻繁地停頓,或者甚至重復(fù)陳述,通常沒有聽眾意識到講話人正在改變與聽眾交互的方式。因此,談話期間的反饋是非常重要的元素,它通知講話人他們是否被聽懂。然而,不幸的是,傳統(tǒng)的聲音識別應(yīng)用仍不能對由人機接口促使的語音輸入/命令提供這種類型的“自然用戶界面(NUI)”反饋響應(yīng)。
近來,話音識別應(yīng)用已經(jīng)實現(xiàn)了90%到98%的正確率。這就意味著,當用戶使用一般的話音識別應(yīng)用口述一個文檔時,話音識別應(yīng)用大約90%到98%的時間是可以正確識別他們的語音的。因此,話音識別應(yīng)用記錄的每一百個(100)字母中,大約兩(2)到十個(10)字母需要被校正。解決這個問題并修改誤識別的字母或單詞的兩種常用的方式包括字母或單詞的重復(fù),或重述或者請求更換另一個語音。然而,這兩種方式并非在每次用戶執(zhí)行校正時都會起作用,因此對于那些在執(zhí)行校正時必須使用語音的一類用戶(例如那些在身體上不能使用鍵盤的用戶)來說,這是尤為不利的。
解決這個問題以及校正顯示屏上顯示的誤識別的字母或單詞的另一種方法包括刪除整個單詞并從頭重新拼寫該單詞。例如,為了將單詞“intent”改為“indent”,用戶必須說“刪除intent”,然后通過說“i”、“n”、“d”、“e”、“n”、“t”來重新拼寫想要的單詞。解決這個問題以及校正顯示屏上顯示的誤識別的單詞的又一種方法包括通過話音來控制鍵盤以改變錯誤的字母。這種情況下,用戶必須刪除單詞內(nèi)所有的字母直到需要改變的字母為止。然后,他們重新拼寫剩余的字母。例如,為了將單詞“intent”改為“indent”,用戶會說“退格退格退格退格”(backspace),然后通過說“d”、“e”、“n”、“t”來重新拼寫想要的單詞。
然而,不幸的是,這些方法還有許多與之相關(guān)的不利之處。首先,改變一個字母需要大量的命令。其次,這些方法依賴于大量字母的重新拼寫,因為語音識別領(lǐng)域的現(xiàn)有水平的正確率只是10個子母中有9個是正確的,這就意味著僅在通過重新拼寫校正僅僅兩三個單詞之后,在統(tǒng)計上,用戶就可能出錯。這意味著每個字母之后用戶都要停頓以確保它是正確的(這增加了時間),或者用戶必須多次忍受他們將可能必須說“退格退格……”然后再次重新拼寫整個單詞的事實。第三,因為語音識別錯誤經(jīng)常是只有幾個字母與用戶想要的單詞不同,經(jīng)常,用戶正在處理的單詞的拼寫非常接近用戶想要的單詞。這些不利之處不僅容易使常用的用戶受挫,而且也容易使新用戶心生沮喪,很可能導(dǎo)致用戶拒絕繼續(xù)使用該話音識別應(yīng)用。
發(fā)明內(nèi)容
提供了一種操縱顯示屏上顯示的字符的方法,其中該方法包括識別所選擇的單詞,所選擇的單詞包括要被修改的至少一個字符。該方法進一步包括將至少一個字符中的每一個與唯一數(shù)值相關(guān)聯(lián),以及接收選擇命令和修改命令,其中選擇命令是與所選擇的字符相對應(yīng)的唯一數(shù)值。此外,這種方法包括響應(yīng)于修改命令來修改所選擇的字符以產(chǎn)生已修改的單詞。
提供了一種為實現(xiàn)用于操縱顯示屏上顯示的字符的方法的系統(tǒng),其中該系統(tǒng)包括存儲裝置,其中該存儲裝置包括被配置成接收輸入命令的音頻模塊。該系統(tǒng)還包括用于接收輸入命令的輸入裝置和顯示裝置,其中顯示裝置包括用于顯示輸入命令的顯示屏。此外,該系統(tǒng)包括處理裝置,其中該處理裝置與存儲裝置、輸入裝置和顯示裝置進行通信,這樣處理裝置接收指令以便在顯示屏上顯示拼寫UI并響應(yīng)于輸入命令來操縱顯示的數(shù)據(jù)。
提供了一種機器可讀的計算機程序代碼,其中該程序代碼包括用于導(dǎo)致處理裝置實現(xiàn)用于操縱顯示屏上顯示的字符的方法的指令。該方法包括識別所選擇的單詞,其中所選擇的單詞包括要被修改的至少一個字符,以及將至少一個字符中的每一個與唯一數(shù)值相關(guān)聯(lián)。這種方法進一步包括接收選擇命令和修改命令,其中選擇命令是與所選擇的字符相對應(yīng)的唯一數(shù)值,以及響應(yīng)于修改命令修改所選擇的字符以產(chǎn)生已修改的單詞。
提供了一種用機器可讀的計算機程序代碼編碼的媒質(zhì),其中該程序代碼包括用于導(dǎo)致處理裝置實現(xiàn)用于操縱顯示屏上顯示的字符的方法的指令。該方法包括識別所選擇的單詞,其中所選擇的單詞包括要被修改的至少一個字符,以及將至少一個字符中的每一個與唯一數(shù)值相關(guān)聯(lián)。這種方法進一步包括接收選擇命令和修改命令,其中選擇命令是與所選擇的字符相對應(yīng)的唯一數(shù)值,以及響應(yīng)于修改命令修改所選擇的字符以產(chǎn)生已修改的單詞。
從下面說明性的實施例的詳細描述,并結(jié)合相應(yīng)的附圖,可以更為全面地理解本發(fā)明的前述和其他特征以及優(yōu)點,附圖中相同的元素用相同的數(shù)字表示。
圖1描述了依照示例性的實施例,用于實現(xiàn)使用具有拼寫用戶界面(UI)的語音識別軟件應(yīng)用來操縱顯示屏上顯示的字符的方法的系統(tǒng)的示意性框圖;圖2描述了依照示例性的實施例,使用具有拼寫用戶界面(UI)的語音識別軟件應(yīng)用來操縱顯示屏上顯示的字符的方法的框圖;
圖3是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖4是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖5是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖6是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖7是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖8是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖9是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖10是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖11是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖12是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;圖13是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖;以及圖14是圖1中描述圖2中的方法的系統(tǒng)的顯示屏的前視圖。
具體實施例方式
盡管這里描述的本發(fā)明是在使用語音識別應(yīng)用來接收并識別用戶輸入的話音命令的通用計算機實現(xiàn)的系統(tǒng)中使用的孤立和/或集成的應(yīng)用模塊的上下文環(huán)境中來進行描述的,然而應(yīng)該理解,這里披露的本發(fā)明也可以在適合于想要的最終目的的任何上下文中使用。例如,本發(fā)明可以是目標軟件應(yīng)用中集成的軟件例程或功能部件(feature),比如具有實施在顯示屏上定位軟件用戶界面(UI)窗口的方法的語音識別模塊的MicrosoftWord,和/或本發(fā)明可以是通用計算機的操作系統(tǒng)中的例程或功能部件。作為面向?qū)ο蟮膽?yīng)用程序,應(yīng)用模塊可給出客戶程序可以訪問以便與應(yīng)用模塊通信的標準界面。應(yīng)用模塊也可以允許多個不同的客戶程序,比如字處理程序、桌面發(fā)布程序、應(yīng)用程序等,本地化地和/或通過網(wǎng)絡(luò)(如WAN、LAN和/或基于Internet的載體)來使用它。例如,任何具有文本字段的應(yīng)用和/或控件,比如電子郵件應(yīng)用或MicrosoftWord,都可以本地化地或通過Internet訪問點來訪問和使用該應(yīng)用模塊。然而,在描述本發(fā)明的各方面之前,下面描述能夠結(jié)合本發(fā)明并從中獲益的適合的計算環(huán)境的一個實施例。
參考圖1,顯示了用于實現(xiàn)使用具有拼寫用戶界面(UI)的語音識別軟件應(yīng)用來操縱目標軟件應(yīng)用在顯示屏上顯示的字符的方法的系統(tǒng)100的框圖。該系統(tǒng)包括通用計算機系統(tǒng)102,它包括處理裝置104、系統(tǒng)存儲器106和系統(tǒng)總線108,其中系統(tǒng)總線108將系統(tǒng)存儲器106耦合到處理裝置104。系統(tǒng)存儲器106可包括只讀存儲器(ROM)110和隨機存取存儲器(RAM)112?;据斎?輸出系統(tǒng)114(BIOS)存儲在ROM 110內(nèi),它包含如啟動時幫助在通用計算機系統(tǒng)102內(nèi)的元件間傳輸信息的基本例程。通用計算機系統(tǒng)102進一步包括存儲裝置116,比如硬盤驅(qū)動器118、磁盤驅(qū)動器120(例如對可移動的磁盤122進行讀寫)和光盤驅(qū)動器124(例如對CD-ROM盤126進行讀取或者對其他光學(xué)媒質(zhì)進行讀寫)。存儲裝置116可通過存儲裝置接口(比如硬盤驅(qū)動器接口130、磁盤驅(qū)動器接口132和光盤驅(qū)動器接口134)連接到系統(tǒng)總線108。這些驅(qū)動器及其相關(guān)的計算機可讀的媒質(zhì)為通用計算機系統(tǒng)102提供了非易失的存儲器。盡管以上涉及硬盤、可移動的磁盤和CD-ROM盤描述了計算機可讀的媒質(zhì),然而應(yīng)該理解到,計算機系統(tǒng)可讀的和適合于想要的最終目的的其他類型的媒質(zhì)也是可以用的,比如磁帶盒、閃存卡、數(shù)字視頻盤、伯努利(Bernoulli)盒式磁盤等等。
用戶可以通過傳統(tǒng)的輸入裝置135(包括鍵盤136、如鼠標135之類的頂點設(shè)備和話筒140)將命令和信息輸入到通用計算機系統(tǒng)102中,其中可以使用話筒140將諸如語音之類的音頻輸入到通用計算機系統(tǒng)102中。此外,用戶可以通過用筆在書寫板142上繪制圖形信息,將圖形信息(如圖畫或手寫稿)輸入到通用計算機系統(tǒng)102中。通用計算機系統(tǒng)102還可以包括適合于想要的最終目的其它的輸入裝置,比如操作桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等??梢酝ㄟ^耦合至系統(tǒng)總線108的音頻適配器144將話筒140連接到處理裝置104。而且,經(jīng)常通過耦合至系統(tǒng)總線108的串口接口146將其他輸入裝置連接到處理裝置104,但也可以是使用其他的接口,比如游戲端口或通用串行總線(USB)進行連接。
通過如視頻適配器150之類的接口將具有顯示屏148的顯示裝置147(如監(jiān)視器或其他類型的顯示裝置147)連接到系統(tǒng)總線108。除顯示屏148之外,通用計算機系統(tǒng)102一般還可以包括其他外圍輸出裝置,比如揚聲器和/或打印機。通用計算機系統(tǒng)102可以工作在使用到一個或多個遠程計算機系統(tǒng)152的邏輯連接的網(wǎng)絡(luò)化環(huán)境中。遠程計算機系統(tǒng)152可以是服務(wù)器、路由器、對等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點,并可包括與通用計算機系統(tǒng)102相關(guān)的任何或所有上述元件,盡管圖1中僅說明了遠程存儲器存儲裝置154。圖1所示的邏輯連接包括局域網(wǎng)(LAN)156和廣域網(wǎng)(WAN)158。這種網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍的計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)以及Internet。
當用于LAN網(wǎng)絡(luò)環(huán)境中時,通過網(wǎng)絡(luò)接口160將通用計算機系統(tǒng)102連接到LAN 156。當用于WAN環(huán)境中時,通用計算機系統(tǒng)102一般包括調(diào)制解調(diào)器162或用于通過WAN 158(如Internet)建立通信的其他裝置。調(diào)制解調(diào)器162可以是內(nèi)置或外置的,它可通過串口接口146連接到系統(tǒng)總線108。在網(wǎng)絡(luò)化環(huán)境內(nèi),所述與通用計算機系統(tǒng)102相關(guān)的程序模塊或其中的一部分可被存儲在遠程存儲器存儲裝置154內(nèi)。應(yīng)該理解到,所示的網(wǎng)絡(luò)連接是示例性的,可以使用在計算機系統(tǒng)間建立通信鏈路的其他手段。還應(yīng)該理解到,應(yīng)用模塊除了在通用計算機系統(tǒng)上實現(xiàn)之外還可等效地在主機或服務(wù)器計算機系統(tǒng)上實現(xiàn),并且可以通過除了CD-ROM之外的手段(例如通過網(wǎng)絡(luò)連接接口160)等效地傳送給主機計算機系統(tǒng)。
而且,許多程序模塊可被存儲在通用計算機系統(tǒng)102的驅(qū)動器和RAM112中。程序模塊控制通用計算機系統(tǒng)102如何運行并與用戶、I/O裝置或其他計算機交互。程序模塊包括例程、操作系統(tǒng)164、目標應(yīng)用程序模塊166、數(shù)據(jù)結(jié)構(gòu)、瀏覽器和其他軟件或固件組件。本發(fā)明的方法可包括在應(yīng)用模塊中,并且該應(yīng)用模塊可在一個或多個程序模塊(如基于此處描述的方法的語音引擎校正模塊170)中方便地實現(xiàn)。目標應(yīng)用程序模塊166可包括結(jié)合本發(fā)明使用的各種應(yīng)用,其中一些顯示在圖2中。關(guān)于圖2的文本描述中更為全面地討論了這些程序模塊中的一些的用途及其間的交互。這些包括具有文本字段的任何應(yīng)用和/或控件,例如,電子郵件應(yīng)用、字處理程序(比如華盛頓州的雷蒙德市的微軟公司制作的MicrosoftWord)、手寫識別程序模塊、語音識別校正模塊170和輸入方式編輯器(IME)。
應(yīng)該理解到,并沒有描述用于執(zhí)行詳細描述中描述的各種程序的特定的編程語言,因為考慮到在附圖中描述并說明的操作、步驟和程序已被充分披露,允許本領(lǐng)域的普通技術(shù)人員來實施本發(fā)明的示例性的實施例。而且,許多計算機和操作系統(tǒng)可被用于實施示例性的實施例,因此,并沒有提供所有這些不同系統(tǒng)能應(yīng)用的詳細的計算機程序。特定計算機的每個用戶會意識到對用戶的需要和目的來說最有用的語言和工具。
參考圖2,根據(jù)用戶使用語音識別軟件應(yīng)用在目標軟件應(yīng)用中輸入單詞,顯示并討論了使用具有拼寫用戶界面(UI)的語音識別軟件應(yīng)用來操縱目標軟件應(yīng)用在顯示屏148上顯示的字符的方法200的框圖。
如圖3所示,為了將文本輸入到目標軟件應(yīng)用中,用戶可通過操作語音識別軟件應(yīng)用和目標軟件應(yīng)用,以通過目標軟件應(yīng)用將至少一個字符顯示在顯示屏148上。應(yīng)該理解到,處理裝置104可響應(yīng)于通過話筒輸入裝置135輸入的用戶指令來操作語音識別軟件應(yīng)用,和/或處理裝置104可響應(yīng)于操作系統(tǒng)164在啟動時識別的指令,比如“引導(dǎo)”指令,來執(zhí)行語音識別軟件應(yīng)用。根據(jù)語音識別軟件應(yīng)用的起動,用戶可以通過話筒輸入裝置140口頭上將命令傳遞到語音識別軟件應(yīng)用以激活目標軟件應(yīng)用,其中目標軟件應(yīng)用可以是具有文本字段的任何應(yīng)用和/或控件,比如,電子郵件應(yīng)用和MicrosoftWord。一旦目標軟件應(yīng)用被激活了,在顯示屏148上就顯示目標軟件應(yīng)用窗口302。然后,用戶可經(jīng)由話筒輸入裝置140通過輸入文本來操作語音識別軟件應(yīng)用,以使語音識別軟件應(yīng)用通過目標軟件應(yīng)用窗口302顯示輸入的文本304。這種情況下,一系列輸入的文本304已經(jīng)被輸入到系統(tǒng)100中,其中該系列的輸入文本304被輸入為“I”、“t”、“空格”、“i”、“s”、“空格”、“t”、“h”、“e”、“空格”、“i”、“n”、“t”、“e”、“n”、“t”。然而,語音識別軟件應(yīng)用所“聽到”該系列的已輸入的文本304為“I”、“t”、“空格”、“i”、“s”、“空格”、“t”、“h”、“e”、“空格”、“i”、“n”、“v”、“e”、“n”、“t”,因此,最后的單詞“invent”需要被修改為“intent”。應(yīng)該理解到,以上的文本已經(jīng)被口述作為一個完整的單詞或是作為字母(字符)并且該口述能力可以是操作系統(tǒng)級的組件。
參考圖4,為了修改這個單詞,啟動拼寫命令以調(diào)用拼寫UI,以允許向通用計算機系統(tǒng)102口頭上傳遞要被修改的單詞,即“拼寫intent”。一旦通用計算機系統(tǒng)102接收了拼寫命令,就識別已選擇的單詞,并通過將至少一個空格404追加到該已選擇的單詞來創(chuàng)建經(jīng)追加的單詞402,其中該經(jīng)追加的單詞402包括要被修改的至少一個字符406,如操作框202所示。然后,該經(jīng)追加的單詞中的每一個字符408被賦值并與唯一的數(shù)值410相關(guān),如操作框204所示。然后,通過顯示屏148顯示經(jīng)追加的單詞402,以便直觀地傳達經(jīng)追加的單詞402中的每個字符408和它們被賦值的唯一數(shù)值410之間的相關(guān)性??赏ㄟ^在顯示屏148上經(jīng)追加的單詞402周圍畫框412,并把每個唯一數(shù)值410相鄰地顯示在經(jīng)追加的單詞402內(nèi)的所賦值的字符408上,來直觀地傳達這種相關(guān)性。這樣,每個字符408被“賦值”有與該字符408相關(guān)的唯一數(shù)值410。例如,希望將單詞“invent”414改為“intent”的用戶口頭將命令(如“拼寫invent”)輸入到語音識別軟件應(yīng)用中。這將執(zhí)行拼寫UI并使框412顯示在單詞“invent”414周圍的顯示屏418上。這還使得單詞“invent”414內(nèi)的每個字母被賦予一個唯一數(shù)值410,它顯示在相應(yīng)的字符408的附近,兩者都在圖4中示出。這將允許用戶改變和/或修改單詞“invent”內(nèi)的任何字母。
這樣的話,通用計算機系統(tǒng)102可接收選擇命令和修改命令,其中選擇命令是與所選擇的字符相應(yīng)的唯一數(shù)值410,如操作框206所示。這向通用計算機系統(tǒng)102指示出經(jīng)追加的單詞402中的哪一個字符要被改變。一旦通用計算機系統(tǒng)102接收修改命令,響應(yīng)于修改命令,通過修改所選擇的字符來產(chǎn)生經(jīng)修改的單詞,如操作框208所示。應(yīng)該理解到,用戶可以輸入多個修改命令,比如“刪除”、“插入”或要增加的字母/字符,下面討論每一種情況。
例如,參考圖5,考慮用戶希望刪除顯示屏148上顯示的經(jīng)追加的單詞“invent_”504內(nèi)的字母“v”502的上述情況。如上所述,用戶向通用計算機系統(tǒng)102傳遞與要改變的字符相應(yīng)的唯一數(shù)值。應(yīng)該理解到,盡管這些唯一數(shù)值508從1開始逐1遞增,然而可以指定任何唯一的數(shù)值508和增量。如所示,經(jīng)追加的單詞“invent_”504內(nèi)的字母“v”502被賦予唯一數(shù)值“3”。這樣,用戶將口頭將數(shù)值“3”傳遞給通用計算機系統(tǒng)102。這就“選擇”了與數(shù)值“3”相應(yīng)并相關(guān)的字母,如由脫字符510所指出的那樣,在該情況中是經(jīng)追加的單詞“invent”504內(nèi)的字母“v”502。然后,用戶可以輸入想要的修改命令,比如“刪除”,這將使得從經(jīng)追加的單詞“invent”504中刪除字母“v”502,剩下“inent”512,如圖6所示。這樣,修改命令“刪除”會從經(jīng)追加的單詞中移除所選擇的字母及其相應(yīng)的空間,并且選擇脫字符510將選擇下一個接著的字符,即“e”。
另一方面,參考圖7,考慮用戶希望在顯示屏148上顯示的單詞“invent”中的字母“n”704和字母“v”706之間插入字符,比如字母或空格的情況。其實,用戶希望在與唯一數(shù)值“3”相應(yīng)的地點插入字符。如上所述,用戶可通過口頭傳遞命令“拼寫invent”來執(zhí)行拼寫UI。這使得將空格被追加到單詞“invent”以創(chuàng)建經(jīng)追加的單詞“invent_”708,以及使得在經(jīng)追加的單詞“invent_”708周圍顯示框710,以及賦予唯一數(shù)值712并顯示在經(jīng)追加的單詞“invent_”708內(nèi)鄰近每個字符附近。如所示,經(jīng)追加的單詞內(nèi)的字母“v”706被賦予“3”這個唯一數(shù)值712。這樣,用戶就能口頭將數(shù)值“3”傳遞給通用計算機系統(tǒng)102。這使得通用計算機系統(tǒng)102“選擇”與數(shù)值“3”相應(yīng)并相關(guān)的字母,如脫字符714所指示的那樣,在該情況中是經(jīng)追加的單詞“invent_”708內(nèi)的字母“v”706。然后,用戶可以輸入修改命令,使通用計算機系統(tǒng)102以適當?shù)姆绞巾憫?yīng)。例如,如果用戶傳遞修改命令“插入”,然后傳遞單詞“空格”,則在字母“n”704和字母“v”706之間會插入空格,這就有效地將經(jīng)追加的單詞“invent_”708改為“in vent_”716,如圖8所示。這種情況下,脫字符714仍然保持在原地,以指示出與該唯一數(shù)值“3”相關(guān)的空格已被選擇。然而,如果用戶傳遞命令“插入”然后傳遞字母“p”,則在字母“n”704和字母“v”706之間插入字母“p”,這就有效地將經(jīng)追加的單詞“invent_”708改為“inpvent_”718,如圖9所示,并且選擇脫字符714將移到下一字符以指示出該下一字符(即與唯一數(shù)值“4”相應(yīng)的字符)已被選擇。
類似地,參考圖10,考慮用戶簡單地希望改變顯示屏148上顯示的單詞“invent”內(nèi)的字母的情況。如上所述,用戶可通過口頭傳遞命令“拼寫invent”來執(zhí)行拼寫UI。這使得空格將被追加到單詞“invent”,以創(chuàng)建經(jīng)追加的單詞“invent_”902,以及使得框904顯示在經(jīng)追加的單詞“invent_”902周圍,以及唯一數(shù)值906被賦予并顯示在經(jīng)追加的單詞“invent_”902內(nèi)的每個字符908附近。如所示,經(jīng)追加的單詞“invent_”902內(nèi)的字母“v”912被賦予“3”這個唯一數(shù)值906。這樣,用戶就能口頭將數(shù)值“3”傳遞給計算機系統(tǒng)102。這使得選擇與數(shù)值“3”相應(yīng)并相關(guān)的字母,如脫字符910所指示出的那樣,在該情況中是經(jīng)追加的單詞“invent_”902內(nèi)的字母“v”912。然后,用戶可以輸入使計算機系統(tǒng)以適當?shù)姆绞巾憫?yīng)的修改命令(這種情況下,命令僅是字母)。例如,如果用戶在數(shù)值“3”之后傳遞修改命令“t”,則字母“v”912將被字母“t”替代,這就有效地將經(jīng)追加的單詞“invent_”902修改為單詞“intent”914,如圖11所示。這里,選擇脫字符910將移向下一字符以指示該下一字符(即與唯一數(shù)值“4”相應(yīng)的字符)已被選擇。
應(yīng)該理解到,一旦用戶輸入與要改變的字母相應(yīng)的唯一數(shù)值,可顯示建議的修改命令的菜單,比如下拉菜單,其中每個建議的動作被賦予其自己的唯一數(shù)值。例如,參考圖12,考慮用戶希望改變顯示屏148上顯示的單詞“invent”內(nèi)的字母的情況。用戶通過口頭傳遞命令“拼寫invent”來執(zhí)行拼寫UI。這使得空格被追加到所選擇的單詞“invent”,以創(chuàng)建經(jīng)追加的單詞“invent_”1002,以及使得框1004顯示在經(jīng)追加的單詞“invent_”1002周圍,以及唯一數(shù)值1006被顯示在經(jīng)追加的單詞“invent_”1002內(nèi)的每個字母附近。如所示,經(jīng)追加的單詞“invent_”1002內(nèi)的字母“v”1008被賦予“3”這個唯一的數(shù)值1006。這樣,用戶就能口頭將數(shù)值“3”傳遞給通用計算機系統(tǒng)102。這樣,用戶口頭將數(shù)值“3”傳遞給通用計算機系統(tǒng)102,以“選擇”與唯一數(shù)值“3”相應(yīng)和相關(guān)的字符,如脫字符1010所指示的那樣,在該情況中是經(jīng)追加的單詞“invent_”1002內(nèi)的字母“v”1008。參考圖13,可在顯示屏148上顯示給用戶多個修改命令選擇的菜單,其中每個命令被賦予第二唯一數(shù)值1014。然后,用戶可輸入作為與導(dǎo)致語音識別軟件應(yīng)用以適當方式響應(yīng)的所希望的修改命令相關(guān)的第二唯一數(shù)值1014的修改命令。例如,如果用戶在數(shù)值“3”之后傳遞數(shù)值“4”,則字母“v”1008將被字母“d”取代,這就有效地將經(jīng)追加的單詞“invent_”1002改變?yōu)閱卧~“indent”1018,如圖14所示。如上所述,選擇脫字符1010將移向下一字符,以指示該下一字符(即與唯一數(shù)值“4”相應(yīng)的字符)已被選擇。
應(yīng)該理解到,建議的修改命令的菜單1012可包括適合于想要的最終目的的任何修改命令,比如在聽覺上類似于所選擇的字母或單詞的字符/單詞菜單,例如如果選擇“v”,那么菜單1012將包含“d”、“t”、“e”、“g”、“3”。此外,菜單1012也可包含大寫形式的字符,例如“V”,以及來自拼寫檢查程序的自動完成列表。如此,對這個例子,菜單1012可包括單詞“indent”、“intent”、“amend”。而且,應(yīng)該理解到,本發(fā)明可包括同時執(zhí)行多個功能的話音命令,例如,“按照eagle將3改為“e””,或如果所選擇的單詞內(nèi)只有一個字母“t”,“將t改為g”會把字母“t”改成字母“g”。如果在所選擇的單詞內(nèi)有兩個字母“t”,可向用戶提供反饋以更為精確。而且,也可以提供其他命令,比如將先前改變的字符恢復(fù)為從前的狀態(tài)的“撤銷”,例如如果用戶說“cap that”(大寫所選擇的字母),但該輸入被識別為“caret”,那么用戶可以說“撤銷”,以將字母恢復(fù)為從前的狀態(tài)。
依照示例性的實施例,可以通過響應(yīng)于機器可讀的計算機程序操作的控制器來全部或者部分地實現(xiàn)圖2的處理。為了執(zhí)行描述的功能和想要的處理以及由此產(chǎn)生的計算(例如,執(zhí)行控制算法、這里描述的控制進程等等),控制器可包括但不限于處理器、計算機、內(nèi)存、存儲器、寄存器、定時、中斷、通信接口和輸入/輸出信號接口,以及包含所述的至少一種的結(jié)合。
而且,本發(fā)明可以計算機或控制器執(zhí)行的過程來的形式來表現(xiàn)。本發(fā)明也可以包含收錄于有形的媒質(zhì),比如軟盤、CD-ROM、硬盤驅(qū)動器和/或任何其他的計算機可讀的媒質(zhì)中的指令的計算機程序代碼的形式來表現(xiàn),其中當計算機程序代碼被載入并由計算機或控制器執(zhí)行時,計算機或控制器成為用于實施本發(fā)明的裝置。本發(fā)明也可以計算機程序代碼的形式來表現(xiàn),例如,無論是存儲在存儲器媒質(zhì)中、載入和/或由計算機或控制器執(zhí)行,或者是通過某些傳輸媒質(zhì)傳輸,比如通過電線或電纜,通過光纖或通過電磁輻射,其中當計算機程序代碼被載入并被計算機或控制器執(zhí)行時,計算機或控制器就成為用于實施本發(fā)明的裝置。當在通用微處理器上執(zhí)行時,計算機程序代碼段可以配置微處理器來創(chuàng)建特定的邏輯電路。
盡管本發(fā)明已經(jīng)關(guān)于示例性的實施例做出了描述,然而本領(lǐng)域的技術(shù)人員應(yīng)該明白,可以做出各種變化、刪除和/或增加,并且其中的元件可用等價物來取代,而不會脫離本發(fā)明的精神和范圍。此外,可以做出許多修改以適合本發(fā)明的教義的特定情況或材料,這不會脫離其范圍。因此,應(yīng)該懂得本發(fā)明不限定披露的特定實施例是執(zhí)行本發(fā)明的最佳模式,但是本發(fā)明包括落入附加的權(quán)利要求的范圍中的所有實施例。而且,除非特別聲明,否則術(shù)語第一、第二等等的任何使用并不表示任何順序或重要性,術(shù)語第一、第二等僅是用于區(qū)別一個元件和另一個元件。
權(quán)利要求
1.一種用于操縱顯示屏上顯示的字符的方法,所述方法包括識別所選擇的單詞,其中所述所選擇的單詞包括要被修改的至少一個字符;將所述至少一個字符中的每一個字符與唯一數(shù)值相關(guān)聯(lián);接收選擇命令和修改命令,其中所述選擇命令是與所述所選擇的單詞內(nèi)的所選擇的字符相應(yīng)的所述唯一數(shù)值;以及響應(yīng)于所述修改命令修改所述所選擇的字符,以產(chǎn)生經(jīng)修改的單詞。
2.如權(quán)利要求1所述的方法,其特征在于,所述識別進一步包括啟動拼寫命令,以調(diào)用允許用戶口頭傳遞所述所選擇的單詞的拼寫用戶界面。
3.如權(quán)利要求1所述的方法,其特征在于,所述將所述至少一個字符中的每一個字符與唯一數(shù)值相關(guān)聯(lián)進一步包括在顯示屏上顯示所述所選擇的單詞,以直觀地傳達所述至少一個字符中的每一個字符與所述唯一數(shù)值中的每一個之間的相關(guān)性。
4.如權(quán)利要求3所述的方法,其特征在于,所述顯示包括在顯示屏上所述所選擇的單詞周圍畫框;以及將所述唯一數(shù)值中的每一個顯示在所述至少一個字符中的每一個字符附近。
5.如權(quán)利要求1所述的方法,其特征在于,所述識別包括識別所選擇的單詞,并向所述所選擇的單詞追加至少一個空格,以創(chuàng)建經(jīng)追加的單詞,其中所述經(jīng)追加的單詞包括要被修改的至少一個字符。
6.如權(quán)利要求5所述的方法,其特征在于,所述將所述至少一個字符中的每一個字符與唯一數(shù)值相關(guān)聯(lián)進一步包括在顯示屏上顯示所述經(jīng)追加的單詞,以直觀地傳達所述至少一個字符中的每一個字符與所述唯一數(shù)值的每一個之間的相關(guān)性。
7.如權(quán)利要求6所述的方法,其特征在于,所述顯示包括在顯示屏上所述所選擇的單詞周圍畫框;以及將所述唯一數(shù)值中的每一個顯示在所述至少一個字符的每一個字符附近。
8.如權(quán)利要求5所述的方法,其特征在于,如果所述修改命令是“刪除”,則所述修改包括從所述經(jīng)追加的單詞中刪除所述所選擇的字符。
9.如權(quán)利要求1所述的方法,其特征在于,所述接收包括通過音頻輸入裝置接收所述選擇命令和所述修改命令。
10.如權(quán)利要求1所述的方法,其特征在于,如果所述修改命令是替代字符,則所述修改包括用所述替代字符替代所述所選擇的字符。
11.如權(quán)利要求1所述的方法,其特征在于,如果所述修改命令是“刪除”,則所述修改包括從所述所選擇的單詞中刪除所述所選擇的字符。
12.如權(quán)利要求1所述的方法,其特征在于,如果所述修改命令是“插入”,則所述修改包括在所述所選擇的字符和緊接著的前一個字符之間插入空格。
13.如權(quán)利要求12所述的方法,其特征在于,所述修改進一步包括選擇所述空格,并直觀地在顯示屏上指示出所述空格。
14.如權(quán)利要求1所述的方法,其特征在于,所述修改進一步包括選擇隨后的字符,其中所述隨后的字符位于緊接著所述所選擇的字符之后。
15.如權(quán)利要求14所述的方法,其特征在于,所述修改進一步包括直觀地在顯示屏上指示出所述隨后的字符。
16.如權(quán)利要求2所述的方法,其特征在于,還包括允許用戶通過退出命令口頭退出拼寫UI。
17.如權(quán)利要求16所述的方法,其特征在于,所述允許進一步包括響應(yīng)于所述退出命令,用所述經(jīng)修改的單詞替代所述所選擇的單詞。
18.如權(quán)利要求16所述的方法,其特征在于,所述退出命令為“OK”。
19.如權(quán)利要求1所述的方法,其特征在于,所述接收進一步包括顯示至少一個可允許的字符修改的列表,其中所述列表包括與所述至少一個可允許的字符修改相應(yīng)的第二唯一數(shù)值。
20.如權(quán)利要求19所述的方法,其特征在于,所述修改命令是所述第二唯一數(shù)值。
21.如權(quán)利要求1所述的方法,其特征在于,所述修改命令是“改變”和“撤銷”中的至少一個。
22.如權(quán)利要求2所述的方法,其特征在于,所述識別進一步包括拼寫UI通過音頻輸入裝置接收音頻信號。
23.如權(quán)利要求1所述的方法,其特征在于,該方法可作為孤立的應(yīng)用模塊和與目標軟件應(yīng)用、語音識別軟件應(yīng)用和操作系統(tǒng)中的至少一個集成的應(yīng)用模塊中的至少一個來實現(xiàn)。
24.如權(quán)利要求1所述的方法,其特征在于,所述方法可以作為與目標軟件應(yīng)用集成的集成應(yīng)用模塊來實現(xiàn),其中,所述目標軟件應(yīng)用包括字處理應(yīng)用、電子數(shù)據(jù)表應(yīng)用和電子郵件應(yīng)用中的至少一個。
25.一種用機器可讀的計算機程序代碼編碼的計算機可讀的媒質(zhì),該程序代碼包括用于使處理裝置實現(xiàn)操縱顯示屏上顯示的字符的方法的指令,該方法包括識別所選擇的單詞,其中所述所選擇的單詞包括要被修改的至少一個字符;將所述至少一個字符的每一個字符與唯一數(shù)值相關(guān)聯(lián);接收選擇命令和修改命令,其中所述選擇命令是與所選擇的字符相應(yīng)的唯一數(shù)值;以及響應(yīng)于所述修改命令修改所述所選擇的字符,以產(chǎn)生經(jīng)修改的單詞。
全文摘要
一種用于操縱顯示屏上顯示的字符的方法和系統(tǒng),其中該方法包括識別所選擇的單詞,其中該所選擇的單詞包括要被修改的至少一個字符。該方法進一步包括將至少一個字符中的每一個字符與唯一數(shù)值關(guān)聯(lián),以及接收選擇命令和修改命令,其中選擇命令是與所選擇的字符相應(yīng)的唯一數(shù)值。而且,該方法包括響應(yīng)于修改命令修改所選擇的字符,以創(chuàng)建經(jīng)修改的單詞。
文檔編號G10L15/22GK1779781SQ200510116498
公開日2006年5月31日 申請日期2005年10月24日 優(yōu)先權(quán)日2004年11月24日
發(fā)明者D.莫厄特, F.G.T.I.安德魯, R.L.錢伯斯 申請人:微軟公司