欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別設(shè)備和語音識別程序的制作方法

文檔序號:2822069閱讀:228來源:國知局
專利名稱:語音識別設(shè)備和語音識別程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于識別通過話筒等輸入的人語音的語音識別技術(shù)。
背景技術(shù)
通常,語音識別設(shè)備從聲學(xué)上分析基于用戶所發(fā)出的聲音而生成的語音輸入信號,比較語音輸入信號與先前準(zhǔn)備的詞模型的多個(gè)候選者以計(jì)算相應(yīng)的聲學(xué)似然性(likelihood)(即相似性),并確定具有最高聲學(xué)似然性的候選者(以下被稱為“第一候選者”)為識別結(jié)果。當(dāng)?shù)谝缓蜻x者具有足夠高的識別可靠性時(shí),語音識別設(shè)備判斷沒有正確的識別結(jié)果存在,用“請?jiān)僬f一次”的語音消息執(zhí)行回話(talk-back)操作以提示用戶再發(fā)聲,并再次進(jìn)行識別處理。
常規(guī)語音識別設(shè)備具有識別結(jié)果的低可靠性,并且即使當(dāng)用戶被請求再次發(fā)出他/她的聲音時(shí),仍利用與先前所使用的相同的候選者再次進(jìn)行識別處理。因此,以與先前發(fā)聲相同的方式由用戶重復(fù)發(fā)聲導(dǎo)致與先前所獲得的相同的識別結(jié)果,結(jié)果是再發(fā)聲的識別率不能被顯著提高。
日本專利No.3112037公開了改進(jìn)上述問題的語音識別技術(shù)之一。當(dāng)通過用于用戶第一發(fā)聲的識別處理不能獲得具有足夠高可靠性的識別結(jié)果時(shí),該識別技術(shù)應(yīng)用范圍縮小(narrowing)過程以將候選者縮小范圍(narrow down)到具有高可靠性的一些候選者。另外,已通過用于第一發(fā)聲的識別處理獲得的具有高可靠性的候選者的同義詞(convertible word)被附加給候選者,并且用戶被提示再次發(fā)聲以使識別處理被再次進(jìn)行。
然而,在已基于第一識別結(jié)果而被縮小范圍、具有高可靠性的候選者不包括正確答案的情況下,識別處理不能依照上述方法被進(jìn)行。即使具有高可靠性的同義詞被附加給候選者,使用與用戶先前所用的相同的詞也使得同義詞的附加沒有用。
日本公開專利申請H11-119792公開了另一種類型的語音識別技術(shù)。依照該出版物中所述的方法,在聲學(xué)上彼此類似的一套命令(將被稱為“類音型命令”)和對應(yīng)于其的一套釋義命令已被定義和存儲。當(dāng)短語“推上去窗戶”和“拉下來窗戶”例如被設(shè)置為類音型命令時(shí),短語“打開窗戶”和“關(guān)閉窗戶”被準(zhǔn)備為相對于這些類音型命令的釋義命令。當(dāng)用戶發(fā)出類音型命令的聲音時(shí),用戶被請求使用前者命令的釋義命令再次發(fā)聲。
在上述方法中,需要預(yù)先設(shè)置類音型命令和釋義命令之間的對應(yīng)關(guān)系并將其存儲在存儲器中。因此,將在系統(tǒng)中使用的命令數(shù)的增加導(dǎo)致命令存儲容量的增加,由此導(dǎo)致成本增加。
發(fā)明概述因此,針對上述問題的本發(fā)明的目的是提供一種語音識別設(shè)備和程序,其允許使給用戶的再發(fā)聲請求的數(shù)量最小并給出有效和精確的識別。
為了達(dá)到上述目的,本發(fā)明第一方面的語音識別設(shè)備包括語音輸入裝置,用于接收來自用戶的語音輸入;識別處理裝置,用于進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理,確定對應(yīng)于所述語音輸入的多個(gè)詞候選者;判斷裝置,用于判斷所述多個(gè)詞候選者是否包括正確答案;以及設(shè)置裝置,用于確定所述多個(gè)詞候選者中最可識別的候選者及其同義詞候選者的組合,并在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,將它設(shè)置用于將在接下來的識別處理中使用的所述備用詞組。
上述語音識別設(shè)備接收來自用戶的語音輸入如命令,并通過與預(yù)設(shè)備用詞的匹配處理,確定對應(yīng)于來自用戶的語音輸入的詞候選者。然后判斷詞候選者是否包括正確答案。在判斷裝置判斷詞候選者包括正確答案的情況下,詞候選者被輸出為識別結(jié)果??蛇x的是,在判斷裝置判斷詞候選者不包括正確答案的情況下,確定這些詞候選者中最可識別的候選者和每個(gè)都具有前者詞候選者的相同含義的同義詞候選者的組合以在接下來的識別處理中使用。因此,利用包括同義詞的詞候選者中的可識別候選者來進(jìn)行接下來的識別處理,由此使得有可能提高用戶再發(fā)聲的識別率。
在上述語音識別設(shè)備的實(shí)施例中,所述設(shè)置裝置可包括分析單元,用于為所述多個(gè)詞候選者及其同義詞候選者中的每個(gè)分析組成相應(yīng)詞候選者的音素;以及設(shè)置單元,用于將具有最小數(shù)量相同音素的詞候選者的組合設(shè)置為所述備用詞。
依照這樣的實(shí)施例,包括同義詞候選者的詞候選者在組成相應(yīng)詞候選者的音素方面被分析,并且具有最小數(shù)量相同音素的詞候選者的組合被用作備用詞。因此,有可能在詞在語音識別處理中可被彼此區(qū)分的狀態(tài)下進(jìn)行識別處理。
在上述語音識別設(shè)備的另一個(gè)實(shí)施例中,所述設(shè)置裝置可包括分析單元,用于為所述多個(gè)詞候選者及其同義詞候選者中的每個(gè)分析組成相應(yīng)詞候選者的音素;以及設(shè)置單元,用于將具有最小數(shù)量相同音素和最大總數(shù)音素的詞候選者的組合設(shè)置為所述備用詞。
依照這樣的實(shí)施例,包括同義詞候選者的詞候選者在組成相應(yīng)詞候選者的音素方面被分析,并且具有最小數(shù)量相同音素和最大總數(shù)音素的詞候選者的組合被用作備用詞。因此,有可能在詞在語音識別處理中可彼此被較顯著區(qū)分的狀態(tài)下進(jìn)行識別處理。
在上述語音識別設(shè)備的另一個(gè)實(shí)施例中,所述設(shè)置裝置可包括所述備用詞組中的備用錯(cuò)誤詞,所述備用錯(cuò)誤詞表示來自用戶的語音輸入對應(yīng)于除了被包括在所述備用詞中的詞候選者以外的詞候選者。依照這樣的實(shí)施例,在當(dāng)前備用詞包括正確答案的情況下,用戶發(fā)出備用錯(cuò)誤詞的聲音,由此使得有可能判斷當(dāng)前備用詞是否包括正確答案。
在上述語音識別設(shè)備的再另一個(gè)實(shí)施例中,所述設(shè)置裝置可包括用于存儲先前所使用的備用詞組的存儲單元,在所述判斷裝置判斷所述備用錯(cuò)誤詞為正確答案的情況下,所述設(shè)置裝置將被存儲于所述存儲單元中的最后的備用詞組設(shè)置用于將在接下來的識別處理中使用的備用詞組。依照這樣的實(shí)施例,在當(dāng)前備用詞組包括正確答案的情況下,有可能擴(kuò)展備用詞的范圍以搜索正確答案。
在上述語音識別設(shè)備的再另一個(gè)實(shí)施例中,所述備用錯(cuò)誤詞可以是“其它的”及其同義詞。
在上述語音識別設(shè)備的再另一個(gè)實(shí)施例中,當(dāng)來自所述用戶的語音輸入包括所述備用錯(cuò)誤詞時(shí),在此時(shí)的所述備用詞組的詞候選者中,除了對應(yīng)于所述備用錯(cuò)誤詞的詞候選者以外的詞候選者可從將包括在接下來的備用詞組中的詞候選者中被排除。依照這樣的實(shí)施例,備用錯(cuò)誤詞表示當(dāng)前備用詞組中的詞候選者不包括正確答案,結(jié)果是將它們包括在接下來的備用詞組中是沒有用的。從接下來的詞候選者中排除已發(fā)現(xiàn)為不正確答案的詞候選者使得有可能將詞候選者縮小范圍,由此有效地獲得正確答案。
在上述語音識別設(shè)備的再另一個(gè)實(shí)施例中,設(shè)備可進(jìn)一步包括通知裝置,用于在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,通過字符表示和合成語音的輸出的至少一個(gè),向所述用戶通知屬于由所述設(shè)置裝置設(shè)置的備用詞組的備用詞。依照這樣的實(shí)施例,通過合成語音,用戶被通知備用詞,由此使得用戶容易識別將被再次發(fā)聲的詞。
在上述語音識別設(shè)備的再另一個(gè)實(shí)施例中,每次當(dāng)所述識別處理被重復(fù)時(shí),所述判斷裝置可放寬所述詞候選者將被判斷為正確答案的準(zhǔn)則。依照這樣的實(shí)施例,每次當(dāng)識別處理被重復(fù)時(shí),有可能容易地獲得正確答案,由此提高了識別處理的效率。在優(yōu)選實(shí)施例中,當(dāng)詞候選者的可靠性超過預(yù)定閾值時(shí),所述判斷裝置可判斷所述詞候選者為正確答案,并且每次當(dāng)所述識別處理被重復(fù)時(shí)降低所述閾值。
在本發(fā)明的另一方面中,語音識別程序?qū)⒂捎?jì)算機(jī)來執(zhí)行,其中所述程序使所述計(jì)算機(jī)起到以下作用語音輸入裝置,用于接收來自用戶的語音輸入;識別處理裝置,用于進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理,確定對應(yīng)于所述語音輸入的多個(gè)詞候選者;判斷裝置,用于判斷所述多個(gè)詞候選者是否包括正確答案;以及設(shè)置裝置,用于確定所述多個(gè)詞候選者中最可識別的候選者及其同義詞候選者的組合,并在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,將它設(shè)置用于將在接下來的識別處理中使用的所述備用詞組。
借助計(jì)算機(jī)執(zhí)行上述語音識別程序使得上述語音識別設(shè)備能被實(shí)施。
附圖簡述

圖1為示出本發(fā)明實(shí)施例的語音識別設(shè)備的示意性結(jié)構(gòu)的方?jīng)Q圖2為如圖1中所示再發(fā)聲控制單元的內(nèi)部結(jié)構(gòu)的方塊圖;并且圖3為示出依照圖1中所示語音識別設(shè)備的語音識別處理的流程圖。
優(yōu)選實(shí)施例詳述現(xiàn)在將參照附圖在以下詳述本發(fā)明的優(yōu)選實(shí)施例。
〔語音識別設(shè)備的結(jié)構(gòu)〕圖1示出依照本發(fā)明實(shí)施例的語音識別設(shè)備的功能結(jié)構(gòu)。如圖1中所示,語音識別設(shè)備10包括子詞聲學(xué)模型存儲單元1、詞典2、詞模型生成單元3、聲音分析單元4、識別處理單元5、附加信息收集單元6、識別可靠性計(jì)算單元7、再發(fā)聲控制單元8、合成語音生成單元9、揚(yáng)聲器11、話筒12和開關(guān)SW1。
子詞聲學(xué)模型存儲單元1在子詞單元中存儲聲學(xué)模型,如先前所學(xué)的音素。作為從區(qū)別性功能的觀點(diǎn)來看可在其基礎(chǔ)上分析和限定為特定詞所生成的聲音的最小單位,“音素”被分類為輔音和元音?!白釉~”為組成單獨(dú)詞的單位,因此一套子詞組成了單個(gè)詞。子詞聲學(xué)模型存儲單元1存儲對應(yīng)于相應(yīng)音素如元音和輔音的子詞聲學(xué)模型。在例如給出詞“aka”(注該詞在日語中含義為“紅”)(以下稱為“aka”(紅))的情況下,子詞“a”、“k”和“a”組成那個(gè)詞。
詞典2存儲有關(guān)經(jīng)歷語音識別處理的詞的詞信息。更具體而言,用于組成多個(gè)詞中每個(gè)的子詞的組合被存儲。在示例詞“aka”(紅)的情況下,存儲了子詞“a”、“k”和“a”組成那個(gè)詞的信息。
詞模型生成單元3生成詞模型,其為相應(yīng)詞的聲學(xué)模型。更具體而言,詞模型生成單元3利用存儲在詞典2中的詞信息和存儲在子詞聲學(xué)模型存儲單元1中的子詞聲學(xué)模型來生成特定詞的詞模型。在示例詞“aka”(紅)的情況下,子詞“a”、“k”和“a”組成詞“aka”(紅)的事實(shí)被存為詞典2中的詞信息。對應(yīng)于子詞“a”、“k”和“a”的子詞聲學(xué)模型被存儲于子詞聲學(xué)模型存儲單元1。因此,詞模型生成單元3向詞典2查詢組成詞“aka”(紅)的子詞,從子詞聲學(xué)模型存儲單元1獲得對應(yīng)于這些子詞的子詞聲學(xué)模型,并將其組合以生成詞“aka”(紅)的詞模型。
聲音分析單元4從聲學(xué)上分析已通過話筒12輸入到語音識別設(shè)備10中的所講語音信號以將其轉(zhuǎn)換為特征向量系列。識別處理單元5比較從聲音分析單元4獲得的所講語音的特征向量與由詞模型生成單元3生成的詞模型(即,進(jìn)行匹配處理),從而計(jì)算相應(yīng)詞模型相對于用戶所講語音的聲學(xué)似然性。將在該階段被查詢的詞模型將被稱為“詞候選者”。識別處理單元5執(zhí)行先前設(shè)置的詞候選者和對應(yīng)于用戶所講語音的特征向量系列之間的匹配處理以計(jì)算相應(yīng)詞候選者的聲學(xué)似然性。
在實(shí)際情況下,當(dāng)用戶發(fā)出特定詞的聲音時(shí),在當(dāng)前狀況下被期望由用戶發(fā)聲的一些詞(將被稱為“備用詞”)被確定為詞候選者。當(dāng)對應(yīng)于用戶發(fā)聲的特征向量系列被獲得之后,進(jìn)行特征向量系列和先前設(shè)置詞候選者(即,備用詞)之間的匹配處理以獨(dú)立計(jì)算相對于相應(yīng)詞候選者的聲學(xué)似然性。
附加信息收集單元6收集附加信息,如用戶的過去發(fā)聲歷史。在本發(fā)明語音識別設(shè)備被用于汽車導(dǎo)航設(shè)備的命令輸入單元的情況下,附加信息包括在其上安裝汽車導(dǎo)航設(shè)備的車輛的位置信息?;谝延勺R別處理單元5計(jì)算的相應(yīng)詞候選者相對于用戶發(fā)聲的聲學(xué)似然性,識別可靠性計(jì)算單元7計(jì)算相應(yīng)詞候選者的識別可靠性。識別可靠性是表示詞候選者對應(yīng)于用戶實(shí)際發(fā)聲詞的似然性程度的索引。有較高的識別可靠性,則詞候選者與用戶實(shí)際發(fā)聲詞相同的概率將變高,更具體而言,獲得正確答案的概率將變高。另外,有較低的識別可靠性,獲得正確答案的概率將變低。
更具體而言,通過使用由附加信息收集單元6獲得的附加信息,識別可靠性計(jì)算單元7給已由識別處理單元5計(jì)算的相應(yīng)詞候選者的聲學(xué)似然性施加權(quán)重,從而計(jì)算相應(yīng)詞候選者相對于用戶所講語音的識別可靠性。在由附加信息收集單元6收集的附加信息包括例如表示用戶頻繁發(fā)出特定詞聲音的事實(shí)的歷史的情況下,所設(shè)置的高識別可靠性被給予與上述特定詞相同的詞候選者。當(dāng)用戶發(fā)出涉及車輛當(dāng)前位置的詞的聲音時(shí),詞的可靠性可被設(shè)置為高。所述僅為用于計(jì)算識別可靠性的措施的實(shí)例。用于計(jì)算識別可靠性的其它種類的措施可被應(yīng)用于本發(fā)明。
作為在本發(fā)明中扮演中心角色的元件,再發(fā)聲控制單元8控制再發(fā)聲期間的詞候選者。圖2示出再發(fā)聲控制單元8的內(nèi)部結(jié)構(gòu)。如圖2中所示,再發(fā)聲控制單元8包括可靠性分析部分81、候選者選擇部分82、備用詞選擇部分83、第一候選者信息提取部分84、合成語音信息生成部分85和開關(guān)SW2。
可靠性信息20從識別可靠性計(jì)算單元7被輸入到再發(fā)聲控制單元8中??煽啃孕畔?0包括詞候選者信息,其表示相對于用戶所講語音的詞候選者;以及相應(yīng)詞候選者的識別可靠性信息,其已借助識別可靠性計(jì)算單元7被計(jì)算。更具體而言,可靠性信息20表示相應(yīng)詞候選者的可靠性程度。
可靠性分析部分81判斷在被包括在可靠性信息20中的詞候選者中,具有最高可靠性的詞候選者(以下被稱為“第一詞候選者”)是否可被確定為識別結(jié)果,更具體而言,第一詞候選者是否可被認(rèn)為是正確答案。例如利用第一詞候選者的可靠性和第二詞候選者的可靠性可進(jìn)行上述判斷。更具體而言,在滿足了兩個(gè)要求的情況下,即第一詞候選者的可靠性足夠高并等于或大于預(yù)定閾值“α”(要求1)且第一詞候選者和第二詞候選者之間的可靠性差足夠大并等于或大于預(yù)定閾值“β”(要求2),第一詞候選者被判斷為正確答案。可選的是,在要求1和2的任何一個(gè)不滿足的情況下,第一詞候選者不被判斷為正確答案。關(guān)于確定第一詞候選者為正確答案的措施,可應(yīng)用除了以上的其它措施。判斷第一詞候選者是否為正確答案可例如利用具有高可靠性的預(yù)定數(shù)量“n”的詞候選者的可靠性來進(jìn)行。
在第一詞候選者被判斷為正確答案的情況下,可靠性分析部分81將控制信號提供給如圖1中所示的開關(guān)SW1以及如圖2中所示的開關(guān)SW2以翻轉(zhuǎn)(flip)開關(guān)SW1和SW2到其相應(yīng)的端子T1側(cè)??蛇x的是,在第一詞候選者不被判斷為正確答案的情況下,可靠性分析部分81將控制信號提供給開關(guān)SW1和開關(guān)SW2以翻轉(zhuǎn)開關(guān)SW1和SW2到其相應(yīng)的端子T2側(cè)。
在可靠性分析部分81判斷第一詞候選者為正確答案的情況下,第一候選者信息提取部分84通過開關(guān)SW2從識別可靠性計(jì)算單元7接收可靠性信息20。然后,第一候選者信息提取部分84將表示第一詞候選者為正確答案的信息、表示第一詞候選者的實(shí)質(zhì)將被判斷為正確答案的信息、以及有關(guān)第一詞候選者的發(fā)音信息提供給合成語音信息生成部分85。另外,第一候選者信息提取部分84將第一詞候選者的實(shí)質(zhì)信息外部輸出為識別結(jié)果。
在第一詞候選者被判斷為正確答案的情況下,在來自第一候選者信息提取部分84的信息的基礎(chǔ)上,合成語音信息生成部分85生成合成語音信息,通過它用戶將被通知識別結(jié)果,并將由此生成的合成語音信息輸出到合成語音生成單元9。
在從合成語音信息生成部分85輸入的合成語音信息的基礎(chǔ)上,如圖1中所示的合成語音生成單元9生成包括已被判斷為正確答案的詞的合成語音,并將由此生成的合成語音從揚(yáng)聲器11輸出,由此向用戶通知識別結(jié)果。在已被判斷為正確答案的詞候選者為例如“aka”(紅)的情況下,向用戶通知識別結(jié)果意味著“aka-desu-ne?”(注該短語在日語中含義是“那是紅的,不是嗎?”)的合成語音被輸出。這使得用戶能識別識別結(jié)果。該實(shí)施例利用了通過來自揚(yáng)聲器的語音輸入向用戶通知識別結(jié)果的措施??蛇x地,或除了這種措施以外,亦可通過顯示單元向用戶可視地通知識別結(jié)果。
可選的是,在可靠性分析部分81判斷第一詞候選者為不正確答案的情況下,語音識別設(shè)備10提示用戶再次發(fā)聲。在此情況下,開關(guān)SW2被翻轉(zhuǎn)到端子T2側(cè)以使可靠性信息20被提供給候選者選擇部分82。開關(guān)SW1亦被翻轉(zhuǎn)到T2側(cè)以使備用詞選擇部分83被電連接于詞模型生成單元3。候選者選擇部分82將范圍縮小過程應(yīng)用于具有已被計(jì)算的可靠性的所有詞候選者,從而將其縮小范圍到具有高可靠性的一些詞候選者(以下被稱為“正確詞候選者”)。在示例的情況下,與第一詞候選者的可靠性差等于或低于預(yù)定閾值“γ”的詞候選者被設(shè)置為正確詞候選者。然后,所確定的正確詞候選者的區(qū)別性信息被提供給備用詞選擇部分83。
備用詞選擇部分83確定相對于用戶再發(fā)聲的備用詞組(即,將在用于用戶再發(fā)聲的識別處理中用作詞候選者的詞的組合)。對此的最典型方式是將已由候選者選擇部分82選擇的正確詞候選者設(shè)置為備用詞。因此,在用于最后發(fā)聲的識別處理中具有高可靠性的候選者被設(shè)置為備用詞。然而,有可能用戶最后發(fā)聲完全等于其再發(fā)聲的情況(例如,“aka”(紅)的發(fā)聲僅被重復(fù))不能使識別結(jié)果以與最后發(fā)聲相同的方式被判斷為正確答案??紤]到這個(gè)問題,在本發(fā)明中,在再發(fā)聲中被用作備用詞的詞被設(shè)置為不同的詞,其為正確詞候選者的同義詞并可在識別處理中被識別,由此提高了再發(fā)聲中的識別率。更具體而言,基于從候選者選擇部分82提供的正確詞候選者,備用詞選擇部分83將作為正確詞候選者的同義詞并可識別的詞的組合設(shè)置為用于再發(fā)聲的備用詞?!翱勺R別詞的組合”的優(yōu)選實(shí)例是具有小數(shù)量相同音素(要求A)和大總數(shù)音素(要求B)、作為正確詞候選者的同義詞的詞的組合。原因是,當(dāng)就語音識別的觀點(diǎn)從聲學(xué)上相互比較詞時(shí),較小數(shù)量的相同音素和較大總數(shù)的音素提供對詞的容易識別。
上述內(nèi)容將在以下被詳述。具有相同含義但發(fā)音彼此不同的相同含義詞(即,同義詞)被準(zhǔn)備在詞典2中。假定由候選者選擇部分82選擇的正確詞候選者為“aka”(紅)和“ao”(注該詞在日語中含義為“藍(lán)”)(以下被稱為“ao”(藍(lán)))。此外,假定“reddo”(“紅”以羅馬字母來寫)(以下被稱為“reddo”(紅))在詞典2中被存為“aka”(紅)的同義詞,而“buruu”(“藍(lán)”以羅馬字母來寫)(以下被稱為“buruu”(藍(lán)))在其中被存為“ao”(藍(lán))的同義詞。在此情況下,“aka”(紅)和“ao”(藍(lán))具有相同的音素“a”,而“reddo”(紅)和“ao”(藍(lán))具有相同的音素“o”。根據(jù)要求A,可識別詞的組合為“aka”(紅)和“buruu”(藍(lán))的組合,或“reddo”(紅)和“buruu”(藍(lán))的組合。此外,考慮到要求B,在這些組合中,“reddo”(紅)和“buruu”(藍(lán))的組合具有較大總數(shù)的音素?!皉eddo”(紅)和“buruu”(藍(lán))的組合最終被設(shè)置為備用詞。在“mizuiro”(注該詞在日語中含義為“淺藍(lán)”)(以下被稱為“mizuiro”(淺藍(lán)))在詞典2中被另外存為“ao”(藍(lán))的可轉(zhuǎn)換項(xiàng)的其它實(shí)例中,在具有最小數(shù)量相同音素的詞組合中,具有最大總數(shù)音素的“aka”(紅)和“mizuiro”(淺藍(lán))的組合被設(shè)置為備用詞。在本發(fā)明中,對于正確詞候選者及其同義詞,最可識別的詞以這種方式被設(shè)置為用于接下來再發(fā)聲的備用詞,由此提高了用于再發(fā)聲的識別處理中的識別精度。
另外,在本發(fā)明中,表示被包括在回話中以提示用戶再發(fā)聲的詞不同于正確詞的詞如“others”、“other than”和“different”,被包括在回話中以提示用戶再發(fā)聲。因此,在通過回話提示用戶再發(fā)聲的詞不包括正確答案的情況下,語音識別設(shè)備10可認(rèn)識到該狀態(tài)。假定第一發(fā)聲的識別結(jié)果將正確詞候選者縮小范圍到“aka”(紅)和“ao”(藍(lán)),并且另外的“aka”(紅)和“mizuiro”(淺藍(lán))被最終設(shè)置為備用詞。在此情況下,在提示用戶再發(fā)聲的回話中,語音識別設(shè)備10問用戶,例如“aka-desu-ka?,mizuiro-desu-ka?orothers”(注該短語在日語中含義為“那是紅的、淺藍(lán)的還是其它的?”)當(dāng)用戶響應(yīng)于回話而發(fā)出“others”的聲音時(shí),認(rèn)識到由用戶發(fā)聲的詞既不是“aka”(紅)也不是“mizuiro”(淺藍(lán))。因此,語音識別設(shè)備10最后的范圍縮小是不正確的,由此使得有可能搜索除了“aka”(紅)和“mizuiro”(淺藍(lán))以外的詞候選者。
備用詞選擇部分83將作為備用詞信息83a、包括再發(fā)聲備用詞候選者數(shù)、其發(fā)音和含義(基本詞的閱讀)的信息通過開關(guān)SW1提供給詞模型生成單元3以及合成語音信息生成部分85。在此情況下,詞模型生成單元3生成被包括在備用詞信息83a中的備用詞的詞模型,從而使這些詞模型能在用于再發(fā)聲的識別處理期間由識別處理單元5使用于匹配處理。更具體而言,在上述實(shí)例中,“aka”(紅)、“mizuiro”(淺藍(lán))和“others”經(jīng)受再發(fā)聲詞的識別處理中的匹配處理。在備用詞信息83a的基礎(chǔ)上,合成語音信息生成部分85生成提示用戶再發(fā)聲的回話形式的“aka-desu-ka?,mizuiro-desu-ka?or others”(注該短語在日語中含義為“那是紅的、淺藍(lán)的還是其它的?”)的合成語音信息。合成語音信息借助合成語音生成單元9以合成語音的形式從揚(yáng)聲器11被輸出。
語音識別設(shè)備10使將在回話中包括的正確詞候選者中的可識別詞和表示這些詞不同于可識別詞的另外詞如“others”的組合被包括在其中,從而提示用戶再發(fā)聲。這使得有可能提高再發(fā)聲期間的識別精度。
在第一詞候選者即使在再發(fā)聲之后的識別處理中仍不能被判斷為正確答案的情況下,相同的再發(fā)聲處理可被重復(fù)。對于再發(fā)聲處理,可靠性分析部分81可逐漸放寬當(dāng)判斷第一詞候選者為正確答案時(shí)將使用的閾值,由此促進(jìn)正確答案的判斷。
在對應(yīng)于詞“others”的詞候選者在再發(fā)聲期間(包括多次再發(fā)聲)被判斷為正確答案的情況下,換句話說,在用戶判斷回話中指定的當(dāng)前備用詞候選者不包括正確答案的情況下,備用詞選擇部分83使備用詞返回發(fā)聲的最后狀態(tài)。其原因?qū)⒃谝韵玛愂?。例如在第一詞候選者在用于第“m”次發(fā)聲的識別處理中被判斷為不正確答案的情況下,用于第“(m+1)”次發(fā)聲的備用詞僅被縮小范圍到具有高可靠性的候選者。然而,在第“(m+1)”次發(fā)聲中“others”的用戶發(fā)聲意味著在該階段設(shè)置的備用詞候選者不包括正確詞,并且在范圍縮小處理中存在錯(cuò)誤(即,備用錯(cuò)誤)。因此,備用詞被返回范圍縮小處理尚未進(jìn)行的狀態(tài)(即,第“m”次發(fā)聲狀態(tài))以擴(kuò)展詞候選者的范圍,并根據(jù)場合的要求,提示用戶再發(fā)聲。
在此情況下,可靠性分析部分81使開關(guān)SW1和SW2被翻轉(zhuǎn)到其相應(yīng)的端子T2側(cè)。當(dāng)確定用于接下來發(fā)聲的備用詞組時(shí),備用詞選擇部分83存儲最后的備用詞組。更具體而言,當(dāng)有備用錯(cuò)誤時(shí),已存儲了所有過去備用詞組的備用詞選擇部分83在用于接下來發(fā)聲的識別處理中利用最后的備用詞組。
在根據(jù)需要重復(fù)再發(fā)聲之后,在可靠性分析部分81最終判斷特定第一詞候選者為正確答案的情況下,第一詞候選者作為識別結(jié)果從語音識別設(shè)備10被發(fā)送到外部設(shè)備。該外部設(shè)備為根據(jù)命令利用來自語音識別設(shè)備10的識別結(jié)果的設(shè)備。當(dāng)語音識別設(shè)備10被用于如上所述的汽車導(dǎo)航設(shè)備的輸入單元時(shí),識別結(jié)果被提供給汽車導(dǎo)航設(shè)備的控制器以執(zhí)行對應(yīng)于內(nèi)容(即,命令)的處理。
〔語音識別處理〕現(xiàn)在將參照圖3描述由上述語音識別設(shè)備10執(zhí)行的語音識別處理。圖3為語音識別處理的流程圖。
首先,在步驟S1中,執(zhí)行用于用戶第一發(fā)聲識別的初始化。更具體而言,再發(fā)聲控制單元8使開關(guān)SW1被翻轉(zhuǎn)到端子T1側(cè)以將已存儲了用于識別的詞候選者信息的詞典2中的所有詞設(shè)置為用于第一發(fā)聲的備用詞。發(fā)聲計(jì)數(shù)器“c”被設(shè)置為“1”。發(fā)聲計(jì)數(shù)器表示用于待識別發(fā)聲的備用詞組。更具體而言,發(fā)聲計(jì)數(shù)器“c=1”對應(yīng)于用于第一發(fā)聲的備用詞組(即,在上述實(shí)例中在詞典2中存儲的所有詞),而發(fā)聲計(jì)數(shù)器“c=2”對應(yīng)于在第一發(fā)聲之后已經(jīng)受單個(gè)范圍縮小處理的備用詞組。
然后,在步驟S2中,詞模型生成單元3利用在子詞聲學(xué)模型存儲單元1中存儲的子詞聲學(xué)模型來生成詞模型。因此,準(zhǔn)備了對應(yīng)于用于第一發(fā)聲的備用詞組的所有詞模型。
然后,在步驟S3中,語音識別處理被進(jìn)行。更具體而言,用戶發(fā)聲以使相應(yīng)的所講語音信號通過話筒12被輸入到聲音分析單元4中。聲音分析單元4從聲學(xué)上分析所講語音信號以獲得特征向量系列。識別處理單元5執(zhí)行所講語音信號的特征向量和在步驟S2中準(zhǔn)備的相應(yīng)詞模型之間的匹配處理,從而為每個(gè)詞模型計(jì)算其之間的聲學(xué)似然性。
然后,在步驟S4中,識別可靠性計(jì)算單元7使已由識別處理單元5計(jì)算的相應(yīng)詞候選者的聲學(xué)似然性經(jīng)受使用由附加信息收集單元6收集的附加信息的權(quán)重,從而計(jì)算相應(yīng)詞候選者的識別可靠性。附加信息包括用戶的過去發(fā)聲歷史和其上安裝汽車導(dǎo)航設(shè)備的車輛的位置信息。
然后,在步驟S5中,在相應(yīng)詞候選者的識別可靠性的基礎(chǔ)上,可靠性分析部分81分析具有最高識別可靠性的第一詞候選者是否為正確答案。可例如利用如上所述第一詞候選者的可靠性和第二詞候選者的可靠性來進(jìn)行該分析。
然后,在步驟S6中,在步驟S5中的分析結(jié)果的基礎(chǔ)上,可靠性分析部分81判斷第一詞候選者是否為正確答案。在第一詞候選者被判斷為正確答案的情況下,處理前進(jìn)到步驟S7??蛇x的是,在第一詞候選者被判斷為不正確答案的情況下,處理前進(jìn)到步驟S14。
在第一詞候選者在步驟S6中被判斷為正確答案的情況下,可靠性分析部分81在步驟S7中判斷上述第一詞候選者是否為對應(yīng)于“others”的詞。如以上所述,在由于備用詞的范圍縮小處理而使正確詞從備用詞被排除的情況下,對應(yīng)于“others”的詞候選者被用于校正備用詞組。當(dāng)?shù)谝辉~候選者對應(yīng)于“others”時(shí),處理前進(jìn)到步驟S10??蛇x的是,當(dāng)?shù)谝辉~候選者不對應(yīng)于“others”時(shí),處理前進(jìn)到步驟S8。
處理前進(jìn)到步驟S8意味著第一詞候選者為正確答案,但不是“others”的詞候選者。更具體而言,確定第一詞候選者為識別結(jié)果是合理的。因此,第一候選者信息提取部分84從可靠性信息20提取第一詞候選者,將表示第一詞候選者為正確答案的信息、表示第一詞候選者實(shí)質(zhì)被判斷為正確答案的信息、以及對應(yīng)于第一詞候選者的發(fā)音信息提供給合成語音信息生成部分85,并將表示第一詞候選者的實(shí)質(zhì)的信息作為識別結(jié)果輸出到外部。
在步驟S9中,合成語音信息生成部分85生成合成語音信息并將其提供給合成語音生成單元9,從而使合成語音信息生成部分85從揚(yáng)聲器11輸出合成語音形式的第一詞候選者的閱讀。在第一詞候選者為例如“aka”(紅)的情況下,“aka-desu-ne?”(注該短語在日語中含義是“那是紅的,不是嗎?”)的合成語音從揚(yáng)聲器被輸出,由此向用戶通知識別結(jié)果。
在第一詞候選者在步驟S6中被判斷為不正確答案的情況下,候選者選擇部分82在步驟S14中選擇正確詞候選者。更具體而言,候選者選擇部分82利用第一詞候選者的識別可靠性來選擇正確詞候選者。上述處理使將在用于接下來發(fā)聲的識別處理中使用的詞候選者經(jīng)受范圍縮小處理。
然后,在步驟S15中,在由候選者選擇部分82選擇的正確詞候選者的基礎(chǔ)上,備用詞選擇部分83生成具有彼此不同的發(fā)音的可識別詞的組合。更具體而言,備用詞選擇部分83確定在對應(yīng)于正確詞候選者的同義詞的組合中具有最小數(shù)量相同音素和最大總數(shù)音素的詞候選者為備用詞。包括這些備用詞的備用詞組然后被設(shè)置。除了上述詞以外,備用詞組還包括對應(yīng)于“others”的詞。然后,備用詞選擇部分83從詞典2獲得對應(yīng)于這些備用詞的詞信息并將其發(fā)送給詞模型生成單元3以生成相應(yīng)的詞模型。備用詞組以這種方式被更新。
備用詞選擇部分83存儲尚未被更新的備用詞組。原因是,當(dāng)用戶在接下來的發(fā)聲中發(fā)出“others”的聲音時(shí),需要再次使用最后的備用詞組。備用詞選擇部分83亦將所選的備用詞組提供給合成語音信息生成部分85。
在步驟S16中,合成語音信息生成部分85和合成語音生成單元9將在步驟S15中確定的用于備用詞的合成語音輸出為提示用戶再發(fā)聲的回話。在例如“aka”(紅)、“ao”(藍(lán))和“others”在步驟S15中被確定為備用詞的情況下,“aka-desu-ka?,mizuiro-desu-ka?or others”(注該短語在日語中含義為“那是紅的、淺藍(lán)的還是其它的?”)的合成語音被輸出。
然后,在步驟S17中,發(fā)聲計(jì)數(shù)器“c”被增量“1”。作為結(jié)果,被增量的發(fā)聲計(jì)數(shù)器“c”變?yōu)楸硎緜溆迷~組已被轉(zhuǎn)變到相對于最后備用詞組的第一更新狀態(tài)。然后,處理返回步驟S2以使在步驟S15中確定的備用詞組中所包括的詞的詞模型被生成,并且用于再發(fā)聲的識別處理被執(zhí)行。
在步驟S7中判斷第一詞候選者對應(yīng)于“others”表示備用詞組在該階段不包括正確詞,也就是說,有備用錯(cuò)誤。因此,處理前進(jìn)到步驟S10以判斷發(fā)聲計(jì)數(shù)器“c”的值是否為“1”。在發(fā)聲計(jì)數(shù)器“c=1”的情況下,當(dāng)前識別處理對第一發(fā)聲而被進(jìn)行,并且該階段的備用詞組合被設(shè)置用于在詞典2中包括的所有詞候選者。這表示詞典2內(nèi)并不包括由用戶發(fā)聲的詞。在此情況下沒有候選者,這導(dǎo)致識別處理的終止。
可選的是,在發(fā)聲計(jì)數(shù)器“c”不為“1”的情況下,處理前進(jìn)到步驟S11。在步驟S11中,備用詞選擇部分83將發(fā)聲計(jì)數(shù)器“c”的值減去“1”以設(shè)置作為先前所存的最后備用詞組?!皁thers”的用戶發(fā)聲表示當(dāng)前備用詞組不包括正確詞??紤]到這個(gè)事實(shí),返回到已在最后識別處理中被利用的備用詞組的步驟被進(jìn)行,從而再次執(zhí)行識別處理。在完成了步驟S14中備用詞的更新之后,備用詞選擇部分83存儲尚未被更新的備用詞組。因此,讀出這樣的詞組并設(shè)置其為足夠。在該階段,備用詞選擇部分83使對應(yīng)于“others”的詞(以下被稱為“備用錯(cuò)誤詞”)被包括在備用詞組中。
然后,在步驟S12中,備用詞選擇部分83將由此確定的備用詞組提供給詞模型生成單元3和合成語音信息生成部分85。詞模型生成單元3生成對應(yīng)于這些備用詞的詞模型以在接下來的識別處理中使用。合成語音信息生成部分85和合成語音生成單元9利用有關(guān)所提供備用詞的信息來輸出對應(yīng)于詞的合成語音。
識別處理以與上述相同的方式被進(jìn)行,同時(shí)依照用戶發(fā)聲的內(nèi)容來更新備用詞組,直到第一詞候選者被判斷為正確答案并且第一詞候選者被輸出為識別結(jié)果(步驟S9),或沒有候選者,導(dǎo)致識別處理的終止(步驟S10中的Yes)。在第一詞候選者的可靠性過低以至于不能判斷其為正確答案的情況下,備用詞經(jīng)受基于可靠性的范圍縮小處理。另外,作為對于備用詞已被縮小范圍所得的詞的同義詞并在聲學(xué)上可識別的詞的組合被設(shè)置為用于接下來發(fā)聲的備用詞,從而更新備用詞組。再發(fā)聲的識別率可因此被提高,由此使得有可能快速有效地識別用戶的所講語音。
〔修改〕在如圖2中所示的再發(fā)聲控制單元8中,可靠性分析部分81利用第一詞候選者和第二詞候選者來確定第一詞候選者是否為正確答案??蛇x的是,其可被配置為,可靠性分析部分81利用具有高識別可靠性的前面的“n”個(gè)詞候選者來確定第一詞候選者是否為正確答案。在此情況下,在判斷第一詞候選者是否為正確答案期間確定具有高可靠性的前“n”個(gè)詞候選者。當(dāng)具有高可靠性的前“n”個(gè)詞候選者被確定時(shí),有可能在完成范圍縮小處理之后將其設(shè)置為正確詞候選者。這使得可靠性分析部分81能執(zhí)行候選者選擇部分82的處理,由此使得有可能省略候選者選擇部分82。在此情況下,有關(guān)正確詞候選者的信息從可靠性分析部分81被輸入到備用詞選擇部分83。
在如圖3中所示的語音識別處理中,第一詞候選者在步驟S7中被判斷為對應(yīng)于“others”,并且在發(fā)聲計(jì)數(shù)器“c”被判斷為不同于“1”的情況下,發(fā)聲計(jì)數(shù)器的值被減去“1”,從而利用用于接下來發(fā)聲的最后備用詞組。然而,步驟S7中的判斷“Yes”表示最后的備用詞組不包括正確詞,結(jié)果是在接下來的備用詞組中包括這些詞是沒有用的?!癮ka”(紅)、“ao”(藍(lán))和“others”的備用詞組中“others”的用戶發(fā)聲表示用戶發(fā)聲詞既不是“aka”(紅)也不是“ao”(藍(lán))。因此,備用詞選擇部分83允許從在步驟S11中獲得的最后備用詞組排除“aka”(紅)和“ao”(藍(lán))及其同義詞而設(shè)置備用詞組。這使得已被明確揭示為不正確的詞從備用詞組被排除,由此使得有可能實(shí)現(xiàn)較為有效的識別處理。
上述語音識別設(shè)備10的結(jié)構(gòu)部件可被配置為計(jì)算機(jī)程序的形式,因此被提供有計(jì)算機(jī)的設(shè)備中的程序執(zhí)行使得有可能實(shí)現(xiàn)上述語音識別設(shè)備10。例如,將上述計(jì)算機(jī)程序應(yīng)用于被提供有計(jì)算機(jī)的汽車導(dǎo)航設(shè)備或視聽設(shè)備使得有可能實(shí)現(xiàn)語音輸入功能。
在上述實(shí)施例中,正確答案候選者中最可識別候選者及其同義詞候選者的組合被設(shè)置用于將在接下來識別處理中使用的備用詞。然而,最可識別候選者的組合可僅從正確答案候選者的同義詞候選者被確定。
另外,備用錯(cuò)誤詞表示被包括在提示用戶再發(fā)聲的回話中的詞對應(yīng)于除了正確答案詞以外的詞,該備用錯(cuò)誤詞亦被附加給正確答案候選者及其同義詞候選者以確定最可識別候選者的組合。
依照如以上詳述的本發(fā)明,在識別結(jié)果較有可能錯(cuò)誤的情況下,通過提示用戶再發(fā)聲有可能減小錯(cuò)誤識別的可能性。在不能判斷用于特定發(fā)聲的識別結(jié)果為正確答案的情況下,作為已被實(shí)際利用的備用詞的同義詞并在聲學(xué)上可識別的詞被設(shè)置為用于接下來發(fā)聲的備用詞,從而避免相同識別結(jié)果的重復(fù),由此提高接下來發(fā)聲的識別率。此外,表示除了當(dāng)前備用詞的詞的諸如“others”的詞之外被包括在提示用戶再發(fā)聲的回話中,從而去除了不正確詞,由此以有效和快速的方式獲得正確答案。
提交于2002年5月15日的日本專利申請No.2002-140550的整個(gè)公開內(nèi)容,包括說明書、權(quán)利要求、附圖和概述,其全部在此引入作為參考。
權(quán)利要求
1.一種語音識別設(shè)備,包括語音輸入裝置(12),用于接收來自用戶的語音輸入;識別處理裝置(5),用于進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理,確定對應(yīng)于所述語音輸入的多個(gè)詞候選者;判斷裝置,用于判斷所述多個(gè)詞候選者是否包括正確答案;以及設(shè)置裝置(8),用于確定所述多個(gè)詞候選者中最可識別的候選者及其同義詞候選者的組合,并在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,將它設(shè)置用于將在接下來的識別處理中使用的所述備用詞組。
2.權(quán)利要求1的設(shè)備,其中所述設(shè)置裝置(8)包括分析單元(4),用于為所述多個(gè)詞候選者及其同義詞候選者中的每個(gè)分析組成相應(yīng)詞候選者的音素;以及設(shè)置單元,用于將具有最小數(shù)量相同音素的詞候選者的組合設(shè)置為所述備用詞。
3.權(quán)利要求1的設(shè)備,其中所述設(shè)置裝置(8)包括分析單元(4),用于為所述多個(gè)詞候選者及其同義詞候選者中的每個(gè)分析組成相應(yīng)詞候選者的音素;以及設(shè)置單元,用于將具有最小數(shù)量相同音素和最大總數(shù)音素的詞候選者的組合設(shè)置為所述備用詞。
4.權(quán)利要求1到3的任何一個(gè)的設(shè)備,其中所述設(shè)置裝置(8)包括所述備用詞組中的備用錯(cuò)誤詞,所述備用錯(cuò)誤詞表示來自用戶的語音輸入對應(yīng)于除了被包括在所述備用詞中的詞候選者之外的詞候選者。
5.權(quán)利要求4的設(shè)備,其中所述設(shè)置裝置(8)包括用于存儲先前所使用的備用詞組的存儲單元,在所述判斷裝置判斷所述備用錯(cuò)誤詞為正確答案的情況下,所述設(shè)置裝置(8)將被存儲于所述存儲單元中的最后的備用詞組設(shè)置用于將在接下來的識別處理中使用的備用詞組。
6.權(quán)利要求4或5的設(shè)備,其中所述備用錯(cuò)誤詞為“其它的”及其同義詞。
7.權(quán)利要求4到6的任何一個(gè)的設(shè)備,其中當(dāng)來自所述用戶的語音輸入包括所述備用錯(cuò)誤詞時(shí),對于此時(shí)的所述備用詞組的詞候選者,除了對應(yīng)于所述備用錯(cuò)誤詞的詞候選者之外的詞候選者從將包括在接下來的備用詞組中的詞候選者中被排除。
8.權(quán)利要求1到7的任何一個(gè)的設(shè)備,進(jìn)一步包括通知裝置,用于在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,通過字符表示和合成語音的輸出的至少一個(gè),向所述用戶通知屬于由所述設(shè)置裝置(8)設(shè)置的備用詞組的備用詞。
9.權(quán)利要求1到8的任何一個(gè)的設(shè)備,其中每次當(dāng)所述識別處理被重復(fù)時(shí),所述判斷裝置放寬所述詞候選者將被判斷為正確答案的準(zhǔn)則。
10.權(quán)利要求9的設(shè)備,其中當(dāng)詞候選者的可靠性超過預(yù)定閾值時(shí),所述判斷裝置判斷所述詞候選者為正確答案,并且每次當(dāng)所述識別處理被重復(fù)時(shí)降低所述閾值。
11.一種將由計(jì)算機(jī)來執(zhí)行的語音識別程序,其中所述程序使所述計(jì)算機(jī)起到以下作用語音輸入裝置(12),用于接收來自用戶的語音輸入;識別處理裝置(5),用于進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理,確定對應(yīng)于所述語音輸入的多個(gè)詞候選者;判斷裝置,用于判斷所述多個(gè)詞候選者是否包括正確答案;以及設(shè)置裝置(8),用于確定所述多個(gè)詞候選者中最可識別的候選者及其同義詞候選者的組合,并在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,將它設(shè)置用于將在接下來的識別處理中使用的所述備用詞組。
12.權(quán)利要求4的設(shè)備,其中所述設(shè)置裝置確定所述多個(gè)詞候選者中最可識別的候選者、其同義詞候選者以及所述備用錯(cuò)誤詞的組合,并將其設(shè)置為將在接下來的識別處理中使用的所述備用詞組。
13.一種語音識別設(shè)備,包括語音輸入裝置,用于接收來自用戶的語音輸入;識別處理裝置,用于進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理,確定對應(yīng)于所述語音輸入的多個(gè)詞候選者;判斷裝置,用于判斷所述多個(gè)詞候選者是否包括正確答案;以及設(shè)置裝置,用于確定所述多個(gè)詞候選者的同義詞候選者中最可識別的候選者的組合,并在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,將其設(shè)置為將在接下來的識別處理中使用的所述備用詞組。
14.權(quán)利要求13的設(shè)備,其中所述設(shè)置裝置包括分析單元,用于為所述多個(gè)詞候選者的同義詞候選者中的每個(gè)分析組成相應(yīng)詞候選者的音素;以及設(shè)置單元,用于將具有最小數(shù)量相同音素的詞候選者的組合設(shè)置為所述備用詞。
15.權(quán)利要求13的設(shè)備,其中所述設(shè)置裝置包括分析單元,用于為所述多個(gè)詞候選者的同義詞候選者中的每個(gè)分析組成相應(yīng)詞候選者的音素;以及設(shè)置單元,用于將具有最小數(shù)量相同音素和最大總數(shù)音素的詞候選者的組合設(shè)置為所述備用詞。
16.權(quán)利要求13的設(shè)備,其中所述設(shè)置裝置包括所述備用詞組中的備用錯(cuò)誤詞,所述備用錯(cuò)誤詞表示來自用戶的語音輸入對應(yīng)于除了被包括在所述備用詞中的詞候選者以外的詞候選者。
17.權(quán)利要求16的設(shè)備,其中所述設(shè)置裝置包括用于存儲先前所使用的備用詞組的存儲單元,在所述判斷裝置判斷所述備用錯(cuò)誤詞為正確答案的情況下,所述設(shè)置裝置將被存儲于所述存儲單元中的最后的備用詞組設(shè)置用于將在接下來的識別處理中使用的備用詞組。
18.權(quán)利要求16的設(shè)備,其中所述備用錯(cuò)誤詞為“其它的”及其同義詞。
19.權(quán)利要求16的設(shè)備,其中當(dāng)來自所述用戶的語音輸入包括所述備用錯(cuò)誤詞時(shí),在此時(shí)的所述備用詞組的詞候選者中,除了對應(yīng)于所述備用錯(cuò)誤詞的詞候選者以外的詞候選者從將包括在接下來的備用詞組中的詞候選者中被排除。
20.權(quán)利要求13的設(shè)備,進(jìn)一步包括通知裝置,用于在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,通過字符表示和合成語音的輸出的至少一個(gè),向所述用戶通知屬于由所述設(shè)置裝置(8)設(shè)置的備用詞組的備用詞。
21.權(quán)利要求13的設(shè)備,其中每次當(dāng)所述識別處理被重復(fù)時(shí),所述判斷裝置放寬所述詞候選者將被判斷為正確答案的準(zhǔn)則。
22.權(quán)利要求21的設(shè)備,其中當(dāng)詞候選者的可靠性超過預(yù)定閾值時(shí),所述判斷裝置判斷所述詞候選者為正確答案,并且每次當(dāng)所述識別處理被重復(fù)時(shí)降低所述閾值。
23.一種將由計(jì)算機(jī)來執(zhí)行的語音識別程序,其中所述程序使所述計(jì)算機(jī)起到以下作用語音輸入裝置,用于接收來自用戶的語音輸入;識別處理裝置,用于進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理,確定對應(yīng)于所述語音輸入的多個(gè)詞候選者;判斷裝置,用于判斷所述多個(gè)詞候選者是否包括正確答案;以及設(shè)置裝置,用于確定所述多個(gè)詞候選者的同義詞候選者中最可識別的候選者的組合,并在所述判斷裝置判斷所述多個(gè)詞候選者不包括正確答案的情況下,將其設(shè)置用于將在接下來的識別處理中使用的所述備用詞組。
24.權(quán)利要求13的設(shè)備,其中所述設(shè)置裝置確定所述多個(gè)詞候選者的同義詞候選者中最可識別的候選者以及所述備用錯(cuò)誤詞的組合,并將其設(shè)置用于將在接下來的識別處理中使用的所述備用詞組。
全文摘要
一種語音識別設(shè)備包括語音輸入裝置、識別處理裝置、判斷裝置和設(shè)置裝置。語音輸入裝置接收來自用戶的語音輸入。識別處理裝置進(jìn)行識別處理以通過與預(yù)設(shè)備用詞組中的相應(yīng)備用詞的匹配處理確定對應(yīng)于語音輸入的多個(gè)詞候選者。判斷裝置判斷詞候選者是否包括正確答案。設(shè)置裝置確定詞候選者中最可識別的候選者及其同義詞候選者的組合,并在判斷裝置判斷詞候選者不包括正確答案的情況下,將其設(shè)置用于將在接下來的識別處理中使用的備用詞組。
文檔編號G10L15/22GK1458645SQ0313604
公開日2003年11月26日 申請日期2003年5月15日 優(yōu)先權(quán)日2002年5月15日
發(fā)明者外山聰一, 駒村光彌, 長岐孝一, 川添佳洋, 小林載, 藤田育雄 申請人:日本先鋒公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
双柏县| 县级市| 石首市| 全州县| 八宿县| 宁强县| 北京市| 格尔木市| 华坪县| 长治市| 正定县| 遵义县| 岱山县| 三穗县| 鄯善县| 四会市| 墨脱县| 吴江市| 吴旗县| 寻甸| 绥滨县| 宣城市| 宁远县| 巴塘县| 贞丰县| 石渠县| 林口县| 伊宁市| 隆昌县| 耒阳市| 冕宁县| 交口县| 宜黄县| 通城县| 洛川县| 察隅县| 东阳市| 阜城县| 盐池县| 峡江县| 陕西省|