信息處理裝置、信息處理方法和程序與流程

文檔序號：11451752閱讀：211來源：國知局

本公開內(nèi)容涉及信息處理裝置、信息處理方法和程序。

背景技術(shù)：

近年來，存在通過獲取由麥克風采集的聲音的數(shù)據(jù)(下文中也簡稱為“采集聲音數(shù)據(jù)”)并對采集聲音數(shù)據(jù)進行語音識別來識別字符串的技術(shù)。例如，公開了構(gòu)建用于語音識別的上下文語音模型的方法的示例(例如參見專利文獻1)。

引用列表

專利文獻

專利文獻1：jp2001-195084a

技術(shù)實現(xiàn)要素：

技術(shù)問題

然而，期望提供一種能夠提高針對采集聲音數(shù)據(jù)的語音識別的準確性的技術(shù)。

問題的解決方案

根據(jù)本公開內(nèi)容，提供一種信息處理裝置，其包括：采集聲音數(shù)據(jù)獲取部，其獲取采集聲音數(shù)據(jù)；以及輸出控制器，其使輸出部至少輸出采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。

根據(jù)本公開內(nèi)容，提供一種信息處理方法，包括：獲取采集聲音數(shù)據(jù)；以及使輸出部至少輸出采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。

根據(jù)本公開內(nèi)容，提供一種使計算機用作信息處理裝置的程序，該信息處理裝置包括：采集聲音數(shù)據(jù)獲取部，其獲取采集聲音數(shù)據(jù)；以及輸出控制器，其使輸出部至少輸出采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。發(fā)明的有益效果

根據(jù)本公開內(nèi)容，如上所述提供了能夠提高針對采集聲音數(shù)據(jù)的語音識別的準確度的技術(shù)。注意，上述效果不一定是限制性的。與上述效果一起或代替上述效果，可以實現(xiàn)本說明書中描述的效果中的任何一個效果或者可以從本說明書領(lǐng)會的其他效果。

附圖說明

圖1是示出根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)的配置示例的圖。

圖2是示出根據(jù)實施方式的信息處理系統(tǒng)的功能配置示例的框圖。

圖3是示出從初始畫面的顯示直到確定了作為語音識別的目標的采集聲音數(shù)據(jù)的終止由輸出部130顯示的畫面的轉(zhuǎn)變的示例的圖。

圖4是示出從初始畫面的顯示直到確定了作為語音識別的目標的采集聲音數(shù)據(jù)的終止由輸出部130顯示的畫面的轉(zhuǎn)變的示例的圖。

圖5是示出采集聲音數(shù)據(jù)的量小于可允許范圍的下限時的顯示示例的圖。

圖6是示出采集聲音數(shù)據(jù)的量大于可允許范圍的下限并且采集聲音數(shù)據(jù)的量小于可允許范圍的上限時的顯示示例的圖。

圖7是示出采集聲音數(shù)據(jù)的量大于可允許范圍的上限時的顯示示例的圖。

圖8是示出檢測到無聲部分時的顯示示例的圖。

圖9是示出成功執(zhí)行了語音識別時的顯示示例的圖。

圖10是示出語音識別失敗時的顯示示例的圖。

圖11是示出采集聲音數(shù)據(jù)的量小于可允許范圍的下限時的另一顯示示例的圖。

圖12是示出采集聲音數(shù)據(jù)的量大于可允許范圍的下限并且采集聲音數(shù)據(jù)的量小于可允許范圍的上限時的另一顯示示例的圖。

圖13是示出采集聲音數(shù)據(jù)的量大于可允許范圍的上限時的另一顯示示例的圖。

圖14是示出由根據(jù)本公開內(nèi)容的實施方式的由信息處理系統(tǒng)執(zhí)行的操作的總體流程的示例的流程圖。

圖15是示出根據(jù)噪聲量來更新可允許范圍的下限和上限的操作的流程的示例的流程圖。

圖16是示出各種數(shù)據(jù)庫的配置示例的圖。

圖17是示出更新用于檢測無聲部分的閾值的操作的流程的示例的流程圖。

圖18是示出通過起始詞語音識別的句子標點確定流程的細節(jié)的流程圖。

圖19是示出基于語音識別的中間結(jié)果來確定是否說出句子標點詞的操作的流程的示例的流程圖。

圖20示出了根據(jù)針對語音識別的適宜性確定的修改示例的操作的流程圖。

圖21是示出輸出部的顯示形式的修改示例的圖。

圖22是示出信息處理系統(tǒng)的硬件配置示例的框圖。

具體實施方式

在下文中，將參照附圖詳細描述本公開內(nèi)容的優(yōu)選實施方式。在本說明書和附圖中，用相同的附圖標記表示具有基本相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件，并且省略對這些結(jié)構(gòu)元件的重復說明。

注意，在本說明書和附圖中，有時使用相同附圖標記之后的不同字母彼此區(qū)分具有基本相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件。然而，在不需要特別區(qū)分具有基本相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件時，僅附上相同的附圖標記。

將按照以下順序給出描述。

1.本公開內(nèi)容的實施方式

1.1.系統(tǒng)配置示例

1.2.功能配置示例

1.3.信息處理系統(tǒng)的功能細節(jié)

1.4.用于語音識別的適宜性確定的修改示例

1.5.顯示形式的修改示例

1.6.硬件配置示例

2.結(jié)論

<1.本公開內(nèi)容的實施方式>

[1.1.系統(tǒng)配置示例]

參考附圖描述根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的配置示例。圖1是示出根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的配置示例的圖。如圖1所示，根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10被配置為包括圖像輸入部110、操作輸入部115、聲音采集部120和輸出部130。信息處理系統(tǒng)10能夠?qū)τ脩魎(下文中也簡稱為“用戶”)說出的語音進行語音識別。在下面的描述中，話音(voice)或語音(speech)和聲音(sound)被區(qū)分地使用。

圖像輸入部110具有輸入圖像的功能。在圖1所示的示例中，圖像輸入部110包括嵌入桌子tb1中的兩個攝像機。然而，圖像輸入部110中包括的攝像機的數(shù)量不限于特定數(shù)量，只要它是一個或更多個即可。在這種情況下，圖像輸入部110中包括的一個或更多個攝像機中的每個攝像機被設(shè)置的位置也不限于特定位置。另外，一個或更多個攝像機可以包括單目攝像機或立體攝像機。

操作輸入部115具有輸入用戶u的操作的功能。在圖1所示的示例中，操作輸入部115包括從桌子tb1上方的天花板懸掛的一個攝像機。然而，操作輸入部115中包括的攝像機被設(shè)置的位置不限于特定位置。另外，攝像機可以包括單目攝像機或立體攝像機。另外，操作輸入部115可以是除攝像機之外的任何裝置，只要它具有輸入用戶u的操作的功能即可，并且例如可以是觸摸面板或硬件按鈕。

輸出部130具有在桌子tb1上顯示畫面的功能。在圖1所示的示例中，輸出部130從桌子tb1上方的天花板懸掛。然而，設(shè)置輸出部130的位置不限于特定位置。另外，輸出部130通常可以是能夠?qū)嬅嫱队暗阶雷觮b1的頂表面上的投影儀，但是輸出部130可以是其他類型的顯示器，只要其具有顯示畫面的功能即可。

此外，雖然此處主要描述了桌子tb1的頂表面是畫面的顯示表面的情況，但是畫面的顯示表面可以不同于桌子tb1的頂表面。畫面的顯示表面的示例可以包括墻壁、建筑物、地板表面、地面、天花板或其他地方的表面。另外，在輸出部130具有其自己的顯示表面的情況下，畫面的顯示表面可以是輸出部130的顯示表面。

聲音采集部120具有采集聲音的功能。在圖1所示的示例中，聲音采集部120包括總共六個麥克風，即，在桌子tb1上方的三個麥克風和存在于桌子tb1的上表面上的三個麥克風。然而，聲音采集部120中包括的麥克風的數(shù)量不限于特定數(shù)量，只要它是一個或更多個即可。在這種情況下，聲音采集部120中包括的一個或更多個麥克風被設(shè)置的位置也不限于特定位置。

然而，如果聲音采集部120包括多個麥克風，則可以基于由多個麥克風中的每個麥克風采集的采集聲音數(shù)據(jù)來估計聲音的到達方向。如果聲音采集部120包括具有方向性的麥克風，則可以基于由具有方向性的麥克風采集的采集聲音數(shù)據(jù)來估計聲音的到達方向。

關(guān)于根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的配置示例給出了以上描述。

[1.2.功能配置示例]

隨后，描述根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的功能配置示例。圖2是示出根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的功能配置示例的框圖。如圖2所示，根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10被配置為包括圖像輸入部110、操作輸入部115、聲音采集部120、輸出部130和信息處理裝置140(下文也稱為“控制器140”)。

信息處理裝置140控制信息處理系統(tǒng)10的每個部件。在一個示例中，信息處理裝置140生成要從輸出部130輸出的信息。另外，在一個示例中，信息處理裝置140將由圖像輸入部110、操作輸入部115和聲音采集部120中的每個輸入的信息并入要從輸出部130輸出的信息中。如圖2所示，信息處理裝置140包括輸入圖像獲取部141、采集聲音數(shù)據(jù)獲取部142、操作檢測部143、識別控制器144、語音識別部145和輸出控制器146。稍后將詳細描述這些各個功能塊。

此外，信息處理裝置140可以由例如中央處理單元(cpu)構(gòu)成。在信息處理裝置140由諸如cpu的處理裝置構(gòu)成的情況下，該處理裝置可以由電子電路構(gòu)成。

關(guān)于根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的功能配置示例給出了以上描述。

[1.3.信息處理系統(tǒng)的功能細節(jié)]

接下來，將描述根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的功能細節(jié)。根據(jù)本公開內(nèi)容的實施方式，采集聲音數(shù)據(jù)獲取部142獲取由聲音采集部120采集的采集聲音數(shù)據(jù)，并且輸出控制器146使輸出部130至少輸出采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。由于用戶可以通過使用這樣的配置識別采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別來調(diào)整說話，因此可以提高針對采集聲音數(shù)據(jù)的語音識別的準確度。

作為采集聲音數(shù)據(jù)的適合于語音識別的狀態(tài)，可以假設(shè)各種狀態(tài)。作為示例，在采集聲音數(shù)據(jù)的量在預定的可允許范圍內(nèi)時，可以認為采集聲音數(shù)據(jù)的狀態(tài)適合于語音識別。因此，將描述輸出控制器146使輸出部130輸出采集聲音數(shù)據(jù)的量是否在預定的可允許范圍內(nèi)作為采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別的示例。

此處，不具體限制采集聲音數(shù)據(jù)的量。例如，采集聲音數(shù)據(jù)的量可以包括采集聲音數(shù)據(jù)的時間長度。采集聲音數(shù)據(jù)的量可以包括從采集聲音數(shù)據(jù)提取的音素的數(shù)量。采集聲音數(shù)據(jù)的量可以包括采集聲音數(shù)據(jù)中的類似聲音的部分的時間長度。采集聲音數(shù)據(jù)的量可以是語音識別的單位(更具體地，從作為集體語音識別的目標的一個或更多個采集聲音數(shù)據(jù)項的開頭到終止的累積量)。

圖3和圖4是示出從初始畫面的顯示直到確定了作為語音識別的目標的采集聲音數(shù)據(jù)的終止由輸出部130顯示的畫面的轉(zhuǎn)變的示例的圖。參照圖3，輸出控制器146使初始畫面g10-1被顯示。初始畫面g10-1包括用于開始語音識別的語音識別開始操作對象g14以及作為通過語音識別獲取的字符串(下文也稱為“識別字符串”)的顯示部的識別字符串顯示部g11。

此外，初始畫面g10-1包括用于刪除識別字符串的整體的全刪除操作對象g12和用于決定識別字符串的決定操作對象g13。此外，初始畫面g10-1包括用于向后移動識別字符串處的光標位置的移動操作對象g15，用于向前移動識別字符串處的光標位置的移動操作對象g16，以及用于刪除光標位置處的字符或詞的刪除操作對象g17。

首先，用戶如畫面g10-2所示執(zhí)行選擇語音識別開始操作對象g14的操作，并且如果通過操作輸入部115輸入了選擇語音識別開始操作對象g14的操作，則由操作檢測部143檢測該操作，并且輸出控制器146使聲音采集開始畫面g10-3被顯示。如果輸出控制器146使聲音采集開始畫面g10-3被顯示，則用戶開始朝向聲音采集部120說話。

如果由聲音采集部120采集的采集聲音數(shù)據(jù)被采集聲音數(shù)據(jù)獲取部142獲取，則輸出控制器146使預定對象(下文也稱為“顯示對象”)mu在聲音采集期間如畫面g10-4所示地被顯示。顯示對象mu可以保持靜止或可以具有如畫面g10-4所示的移動。在顯示對象mu具有移動時，例如，顯示對象mu的移動方向de可以取決于從聲音源到聲音采集部120的用戶的說話話音的到達方向。估計用戶說話話音的到達方向的方法也不具體限制。

例如，識別控制器144可以將與已執(zhí)行了選擇語音識別開始操作對象g14的操作的用戶的手指的方向(例如從手指的根部到尖端的方向)一致或相似的一個到達方向估計為用戶的說話話音的到達方向?？梢灶A先確定相似度的范圍?？梢酝ㄟ^分析輸入圖像來獲取手指的方向。

可替選地，識別控制器144可以將由聲音采集部120輸入的聲音的到達方向估計為用戶的說話話音的到達方向。如果存在多個聲音到達方向，則可以將多個到達方向中的最初輸入的聲音的到達方向估計為用戶的說話話音的到達方向，或者可以將多個到達方向中的與已執(zhí)行選擇語音識別開始操作對象g14的操作的用戶的手指的方向一致或相似的一個到達方向估計為用戶的說話話音的到達方向。

可替選地，識別控制器144可以將多個到達方向中的由聲音采集部120輸入的具有最大音量的聲音的到達方向估計為用戶的說話話音的到達方向。以這種方式，可以估計用戶的說話話音的到達方向。相反，識別控制器144可以獲取由聲音采集部120從除了用戶的說話話音的到達方向之外的方向輸入的聲音作為噪聲。

圖4示出了輸出控制器146在用戶的說話話音的到達方向(移動方向de)上移動顯示對象mu的示例。以這種方式，用戶能夠直觀地識別出用戶自己的說話話音正被聲音采集部120采集。然而，顯示對象mu的移動不限于這樣的移動。圖4示出了顯示對象mu的目的地是語音識別開始操作對象g14的示例。然而，顯示對象mu的目的地不限于這樣的示例。

雖然圖4示出了輸出控制器146使已依次出現(xiàn)的圓形顯示對象mu根據(jù)由聲音采集部120執(zhí)行的聲音采集而移動的示例，但是顯示對象mu的顯示狀態(tài)不限于這樣的示例。例如，輸出控制器146可以根據(jù)采集聲音數(shù)據(jù)，基于預定信息(例如采集聲音數(shù)據(jù)的語音可能性和音量)來控制顯示對象mu的各種參數(shù)。此時使用的采集聲音數(shù)據(jù)可以是來自用戶的說話話音的到達方向的采集聲音數(shù)據(jù)。顯示對象mu的參數(shù)可以包括顯示對象mu的形狀、透明度、顏色、大小和運動中的至少任一個。

不具體限制評價采集聲音數(shù)據(jù)中的語音可能性的方法。例如，也可以采用專利文獻(jp2010-38943a)中描述的方法作為評價采集聲音數(shù)據(jù)中的語音可能性的方法。還可以采用專利文獻(jp2007-328228a)中描述的方法作為評價采集聲音數(shù)據(jù)中的語音可能性的方法。雖然本文將描述通過輸出控制器146執(zhí)行評估語音可能性的示例，但是語音可能性的評估也可以由附圖中未示出的服務(wù)器執(zhí)行。

識別控制器144使語音識別部145開始針對由采集聲音數(shù)據(jù)獲取部142獲取的采集聲音數(shù)據(jù)的語音識別。開始語音識別的定時不受限制。例如，識別控制器144可以在顯示對象mu到達語音識別開始操作對象g14之后使語音識別部145開始針對與顯示對象mu對應(yīng)的采集聲音數(shù)據(jù)的語音識別。如識別期間的畫面g10-5所示，可以顯示已到達語音識別開始操作對象g14的顯示對象mu，使得顯示對象mu聚集在語音識別開始操作對象g14處。

輸出控制器146可以使輸出部130輸出可允許范圍的下限或上限中的至少一個。由于這使得用戶能夠在識別可允許范圍的下限或上限中的至少一個的情況下說話，所以可以容易地將采集聲音數(shù)據(jù)的量設(shè)置在可允許范圍內(nèi)，并且可以提高針對采集聲音數(shù)據(jù)的語音識別的準確度。

此處，輸出控制器146可以在采集聲音數(shù)據(jù)的量小于可允許范圍的下限時使輸出部130輸出采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示以促使用戶進一步說話。不具體限制采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示。圖5是示出采集聲音數(shù)據(jù)的量小于可允許范圍的下限時的顯示示例的圖。

如畫面g10-6所示，采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由應(yīng)用于識別字符串顯示部g11的預定顏色(例如粉紅色)表示?？商孢x地，如畫面g10-6所示，采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由應(yīng)用于語音識別開始操作對象g14的預定顏色(例如粉紅色)表示?？商孢x地，如圖畫面g10-6所示，采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由應(yīng)用于顯示對象mu的預定顏色(例如灰色)表示。

輸出控制器146可以使輸出部130輸出采集聲音數(shù)據(jù)的量。以這種方式，可以預期用戶在識別采集聲音數(shù)據(jù)的量的情況下說話，從而易于將采集聲音數(shù)據(jù)的量設(shè)置在可允許范圍內(nèi)，并且提高針對采集聲音數(shù)據(jù)的語音識別的準確度。在圖5所示的示例中，語音識別開始操作對象g14的框與可允許范圍的上限對應(yīng)，并且顯示對象mu的大小與采集聲音數(shù)據(jù)的量對應(yīng)。

在采集聲音數(shù)據(jù)的量大于可允許范圍的下限并且采集聲音數(shù)據(jù)的量小于可允許范圍的上限時，輸出控制器146可以使輸出部130輸出用戶說話量適合的指示。不具體限制采集聲音數(shù)據(jù)適合于語音識別的狀態(tài)的指示。圖6是示出在采集聲音數(shù)據(jù)的量大于可允許范圍的下限并且采集聲音數(shù)據(jù)的量小于可允許范圍的上限時的顯示示例的圖。

如畫面g10-7所示，采集聲音數(shù)據(jù)適合于語音識別的狀態(tài)的指示可以由應(yīng)用于識別字符串顯示部g11的預定顏色(例如比上述粉紅色更深的顏色)表示。可替選地，如畫面g10-7所示，采集聲音數(shù)據(jù)適合于語音識別的狀態(tài)的指示可以由應(yīng)用于語音識別開始操作對象g14的預定顏色(例如比上述粉紅色更深的顏色)表示?？商鎿Q地，如畫面g10-7所示，采集聲音數(shù)據(jù)適合于語音識別的狀態(tài)的指示可以被表示為應(yīng)用于顯示對象mu的預定顏色(例如比上述灰色更深的顏色)。

輸出控制器146可以在采集聲音數(shù)據(jù)的量大于可允許范圍的上限時使輸出部130輸出采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示，以促使用戶停止說話。如上所述，不具體限制采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示。圖7是示出在采集聲音數(shù)據(jù)的量大于可允許范圍的上限時的顯示示例的圖。

如畫面g10-8所示，采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由應(yīng)用于識別字符串顯示部g11的預定顏色(例如粉紅色)表示?？商孢x地，如畫面g10-8所示，采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由應(yīng)用于語音識別開始操作對象g14的預定顏色(例如粉紅色)表示?？商孢x地，如畫面g10-8所示，采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由應(yīng)用于顯示對象mu的預定顏色(例如灰色)表示。

如畫面g10-8所示，在采集聲音數(shù)據(jù)的量大于可允許范圍的上限時，輸出控制器146可以將表示從語音識別開始操作對象g14的溢出的動畫應(yīng)用于顯示對象mu。在采集聲音數(shù)據(jù)的量大于可允許范圍的上限時，輸出控制器146可以將表示多種顏色之間(例如灰色和黑色之間)的切換的動畫應(yīng)用于顯示對象mu。

此處，可以以任何方式確定作為語音識別的目標的部分的終止。例如，識別控制器144可以檢測采集聲音數(shù)據(jù)中是否存在音量在超過閾值的時間段內(nèi)小于預定音量的部分(以下也簡稱為“無聲部分”)，并且可以基于檢測到無聲部分的時刻來確定作為語音識別的目標的部分的終止。圖8是示出檢測到無聲部分時的顯示示例的圖。

如畫面g10-9所示，檢測到無聲部分的時刻可以被確定為作為語音識別的目標的部分的終止。畫面g10-10是確定了作為語音識別的目標的部分終止之后的畫面。參照畫面g10-10，顯示對象mu增加了，并且在語音識別開始操作對象g14上顯示的消息已從“請進行”改變?yōu)椤罢埳院颉薄ｋS后，語音識別部145使語音識別部145針對采集聲音數(shù)據(jù)的一部分或全部執(zhí)行語音識別。具體地，識別控制器144使語音識別部145針對除了無聲部分之外的采集聲音數(shù)據(jù)執(zhí)行語音識別。

語音識別部145針對除了無聲部分之外的采集聲音數(shù)據(jù)執(zhí)行語音識別。例如，語音識別部145可以通過針對來自用戶的說話話音的到達方向的采集聲音數(shù)據(jù)執(zhí)行語音識別來獲取識別字符串。以這種方式，與直接對聲音采集部120所輸入的語音執(zhí)行語音識別的情況相比，可以以較少噪聲對語音執(zhí)行語音識別，從而預期提高語音識別的準確度。接下來的操作根據(jù)是否已成功執(zhí)行了語音識別而不同。

圖9是示出在已成功執(zhí)行語音識別時的顯示示例的圖。如畫面g10-11所示，如果語音識別部145已成功執(zhí)行了語音識別，輸出控制器146可以將顯示對象mu移動到識別字符串顯示部g11側(cè)。這使得用戶能夠預測將在識別的字符串顯示部g11上顯示字符串。如畫面g10-12所示，輸出控制器146可以進一步將顯示對象mu移動到識別字符串顯示部g11側(cè)。

參照畫面g10-12，輸出控制部146使識別的字符串“idroveyourcartoairports”顯示在識別字符串顯示部g11中。另外，輸出控制器146使選擇候選顯示部g18、選擇候選切換操作對象g19等被顯示。盡管不具體限制選擇候選顯示部分g18中顯示的選擇候選，在畫面g10-12所示的示例中，預測轉(zhuǎn)換類別、短語類別和原始形式類別等被顯示為選擇候選。

圖10是示出語音識別失敗時的顯示示例的圖。如果由語音識別部145進行的語音識別失敗，則輸出控制器146可以將顯示對象mu移動到不存在識別字符串顯示部g11的側(cè)(例如下側(cè))，如畫面g10-13所示。這使得用戶能夠預測語音識別已失敗。如畫面g10-14所示，輸出控制器146可以將顯示對象mu進一步移動到不存在識別字符串顯示部g11的側(cè)(例如下側(cè))。

在圖5所示的示例的描述中，語音識別開始操作對象g14的框與可允許范圍的上限對應(yīng)，并且顯示對象mu的大小與采集聲音數(shù)據(jù)的量對應(yīng)。然而，可以以任何方式表示采集聲音數(shù)據(jù)的可允許范圍和量。圖11是示出在采集聲音數(shù)據(jù)的量小于可允許范圍的下限時的另一顯示示例的圖。如畫面g10-15所示，輸出控制器146可以使指示采集聲音數(shù)據(jù)的量的指示符g18被顯示。如畫面g10-15所示，指示器g18可以包括可允許范圍的下限(t_min)和可允許范圍的上限(t_max)。

如上所述，輸出控制器146可以在采集聲音數(shù)據(jù)的量小于可允許范圍的下限時使輸出部130輸出采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示，以促使用戶進一步說話。采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由用于促使用戶說話的消息表示。如圖11所示，用于促使用戶說話的消息可以是諸如“請繼續(xù)說話”的消息。

圖12是示出采集聲音數(shù)據(jù)的量大于可允許范圍的下限并且采集聲音數(shù)據(jù)的量小于可允許范圍的上限時的另一顯示示例的圖。如上所述，在采集聲音數(shù)據(jù)的量大于可允許范圍的下限并且采集聲音數(shù)據(jù)的量小于可允許范圍的上限時，輸出控制器146可以使輸出部130輸出采集聲音數(shù)據(jù)適合于語音識別的狀態(tài)的指示。采集聲音數(shù)據(jù)適合于語音識別的狀態(tài)的指示可以由諸如如圖12所示的“請進行”的消息表示。

圖13是示出采集聲音數(shù)據(jù)的量大于可允許范圍的上限時的另一顯示示例的圖。如上所述，輸出控制器146可以在采集聲音數(shù)據(jù)的量大于可允許范圍的上限時使輸出部130輸出采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示，以促使用戶停止說話。采集聲音數(shù)據(jù)不適合于語音識別的狀態(tài)的指示可以由用于促使用戶說話的消息表示。如圖13所示，用于促使用戶說話的消息可以是諸如“請停止”的消息。

至此描述了根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的功能細節(jié)。

隨后，將描述根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的操作的總體流程。圖14是示出根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的操作的總體流程的示例的流程圖。圖14的流程圖僅示出根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的操作的總體流程的示例，根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的操作的總體流程不限于圖14中的流程圖所示的示例。

首先，輸出控制器146將零設(shè)置為變量t_acc(s11)。在未獲取采集聲音數(shù)據(jù)時(s12中的“否”)，輸出控制器146完成操作，或在已獲取采集聲音數(shù)據(jù)時(s12中的“是”)，輸出控制器146將獲取的采集聲音數(shù)據(jù)的量添加到變量t_acc(s13)。輸出控制器146在變量t_acc小于可允許范圍的下限(t_min)時(s14中的“是”)確定作為語音識別的目標的單元不是合適量(不足)(s15)，更新ui(畫面)以表示作為語音識別的目標的單元不是合適量(不足)(s16)，并且繼續(xù)進行到s12中的操作。

在變量t_acc大于可允許范圍的下限(t_min)時(s14中的“否”)，輸出控制器146繼續(xù)進行到s17中的操作。然后，輸出控制器146在變量t_acc小于可允許范圍的上限(t_max)時(s17中的“是”)確定作為語音識別目標的單元是合適量(s18)，更新ui(畫面)以表示作為語音識別的目標的單元是合適量(s19)，并且繼續(xù)進行到s12中的操作。

此外，輸出控制器146在變量t_acc小于可允許范圍的上限(t_max)時(s17中的“否”)確定作為語音識別的目標的單元不是合適量(過度)(s20)，更新ui(畫面)以表示作為語音識別的對象的單元不是合適量(過度)(s21)，并且繼續(xù)進行到s12的操作。

至此描述了信息處理系統(tǒng)10的操作的整體流程。雖然此處可允許范圍的上述下限和上限可以總是恒定的，但是可以通過輸出控制器146更新可允許范圍的下限或上限中的至少一個。例如，輸出控制器146可以基于噪聲量來更新可允許范圍的下限或上限中的至少一個。例如，認為語音識別的準確度隨著噪聲量的增大而劣化。因此，輸出控制器146可以更新可允許范圍的上限，使得可允許范圍的上限隨著噪聲量的增大而增大。

圖15是示出根據(jù)噪聲量來更新可允許范圍的下限和上限的操作流程的示例的流程圖。圖15的流程圖僅示出了根據(jù)噪聲量更新可允許范圍的下限和上限的操作流程的示例，根據(jù)噪聲量更新可允許范圍的下限和上限的操作流程不限于圖15的流程圖所示的示例。

首先，輸出控制器146確定是否已獲取采集聲音數(shù)據(jù)(s31)，并且在未獲取采集聲音數(shù)據(jù)時(s31中的“否”)完成操作，或在獲取了采集聲音數(shù)據(jù)時(s31中的“是”)獲取噪聲量作為變量n_noise(s32)。隨后，在變量n_noise小于預定噪聲下限量n_min時(s33中的“是”)，輸出控制器146在不更新可允許范圍的下限(t_min)和可允許范圍的上限(t_max)(s34)的情況下繼續(xù)進行到s31中的操作。

相反，在變量n_noise大于預定噪聲下限量n_min時(s33中的“否”)，輸出控制器146將可允許范圍的下限(t_min)和可允許范圍的上限(t_max)乘以1.5(s35)，并且繼續(xù)進行到s31中的操作。值1.5僅是與可允許范圍的下限(t_min)和可允許范圍的上限(t_max)相乘的值的示例，并且可以使用大于1的另一值來代替值1.5。

至此描述了根據(jù)噪聲量來更新可允許范圍的下限和上限的操作流程的示例。雖然在上述示例中描述了用于檢測無聲部分的閾值，但是用于檢測無聲部分的閾值可以是恒定的或被更新。在采集聲音數(shù)據(jù)包括指示句子的開頭或句子的結(jié)尾的預定表達時，例如，認為用戶說出的句子已到達停止點，因此優(yōu)選地改變用于完成作為語音識別的目標的部分的條件。

因此，在采集聲音數(shù)據(jù)包括指示句子的開頭或句子的結(jié)尾的預定表達時，輸出控制器146優(yōu)選地更新閾值。更具體地，在采集聲音數(shù)據(jù)包括指示句子的開頭或句子的結(jié)尾的預定表達時，認為用戶說出的句子已到達停止點，因此優(yōu)選地放松用于完成作為語音識別的目標的部分的條件。因此，在采集聲音數(shù)據(jù)包括指示句子的開頭或句子的結(jié)尾的預定表達時，輸出控制器146優(yōu)選地設(shè)置較小的閾值。

可以將表示句子的開頭或句子的結(jié)尾的表達(下文中也稱為“起始詞”)作為與語音信息相關(guān)聯(lián)的數(shù)據(jù)預先登記在起始詞登記數(shù)據(jù)庫(db)中。然后，輸出控制器146可以根據(jù)登記在起始詞登記數(shù)據(jù)庫中的語音信息是否被包括在采集聲音數(shù)據(jù)中來確定起始詞是否被包括在采集聲音數(shù)據(jù)中。雖然本文將描述通過輸出控制器146執(zhí)行用于確定起始詞是否包括在采集聲音數(shù)據(jù)中的流程(下文中也稱為“起始詞識別處理流程”)的示例，但是起始詞識別處理流程也可以由附圖中未示出的服務(wù)器執(zhí)行。

此處，將描述起始詞登記數(shù)據(jù)庫。圖16是示出各種數(shù)據(jù)庫的配置示例的圖。圖16所示的起始詞登記數(shù)據(jù)庫是以將起始詞與其語音信息相關(guān)聯(lián)的方式存儲數(shù)據(jù)的數(shù)據(jù)庫。圖16所示的句子標點確定詞數(shù)據(jù)庫是以將表示句子的開頭或句子的結(jié)尾的表達與其語音信息相關(guān)聯(lián)的方式存儲數(shù)據(jù)的數(shù)據(jù)庫。

許可詞數(shù)據(jù)庫是用于也許可說出與句子標點確定詞相似的詞的情況的數(shù)據(jù)庫。許可詞數(shù)據(jù)庫是以將許可詞與其語音信息相關(guān)聯(lián)的方式存儲數(shù)據(jù)的數(shù)據(jù)庫。雖然可以以任何方式生成起始詞登記數(shù)據(jù)庫，但是可以通過將登記在句子標點確定詞數(shù)據(jù)庫中的詞登記在起始詞登記數(shù)據(jù)庫中來生成起始詞登記數(shù)據(jù)庫。另外，可以通過將登記在許可詞數(shù)據(jù)庫中的詞登記在起始詞登記數(shù)據(jù)庫中來形成起始詞登記數(shù)據(jù)庫。

至此描述了起始詞登記數(shù)據(jù)庫。接下來，將描述更新用于檢測無聲部分的閾值的操作的流程。圖17是示出更新用于檢測無聲部分的閾值的操作的流程的示例的流程圖。圖17的流程圖僅示出了更新用于檢測無聲部分的閾值的操作的示例，更新用于檢測無聲部分的閾值的操作的流程不限于圖17的流程圖中所示的示例。

首先，輸出控制器146確定是否獲取了采集聲音數(shù)據(jù)(s41)，并且在未獲取采集聲音數(shù)據(jù)時(s41的“否”)完成操作，或者在已獲取了采集聲音數(shù)據(jù)時(s41中的“是”)基于起始詞語音識別(s43)來劃分采集聲音數(shù)據(jù)(s42)并且執(zhí)行句子標點確定流程。稍后將參照圖18描述基于起始詞語音識別的句子標點確定流程的細節(jié)。

隨后，輸出控制器146在確定已說出句子標點詞時(s44中為“是”)將用于檢測無聲部分的閾值乘以0.1(s45)，并且繼續(xù)進行到s41中的操作。由于值0.1僅是與用于檢測無聲部分的閾值相乘的值的示例，所以可以使用小于1的另一值代替值0.1。相反，輸出控制器146在確定未說出句子標點詞時(s44中的“否”)保持用于檢測無聲部分的閾值(s46)，并且繼續(xù)進行到s41中的操作。

至此描述了更新用于檢測無聲部分的閾值的操作的流程的示例。接下來，將描述基于圖17所示的起始詞語音識別的句子標點確定流程的細節(jié)。圖18是示出基于起始詞語音識別的句子標點確定流程的細節(jié)的流程圖。圖18的流程圖僅示出了基于起始詞語音識別的句子標點確定流程的示例，基于起始詞語音識別的句子標點確定流程不限于圖18的流程圖中所示的示例。

首先，輸出控制器146執(zhí)行上述起始詞識別處理流程(s431)，并且確定是否成功識別了起始詞(s432)。輸出控制器146確定已說出句子標點詞(s433)，并且在已成功識別出起始詞時(s432中的“是”)完成操作。相反，輸出控制器146在對起始詞的識別已失敗時(s432中的“否”)確定未說出句子標點詞(s434)并且完成操作。

至此描述了基于起始詞語音識別的句子標點確定流程的細節(jié)。在以上描述中，描述了這樣的示例：其中將起始詞識別處理流程s431用作確定是否已說出句子標點詞的方法的示例。然而，確定是否已說出句子標點詞的方法不限于這樣示例。例如，在獲得了由語音識別部145進行的語音識別的中間結(jié)果時，輸出控制器146可以基于語音識別的中間結(jié)果來確定是否已說出了句子標點詞(輸出控制器146可以根據(jù)起始詞是否被包括在語音識別的中間結(jié)果中來確定起始詞是否被包括在采集聲音數(shù)據(jù)中)。

圖19是示出基于語音識別的中間結(jié)果來確定是否已說出了句子標點詞的操作的流程的示例的流程圖。圖19的流程圖僅示出了基于語音識別的中間結(jié)果來確定是否已說出了句子標點詞的操作的示例，基于語音識別的中間結(jié)果確定是否已說出句子標點詞的操作的流程不限于圖19的流程圖中所示的示例。

首先，語音識別部145對采集到的聲音數(shù)據(jù)進行語音識別處理(s51)。隨后，在未獲取到語音識別的中間結(jié)果時(s52中的“否”)，輸出控制器146進行到s51中的操作，或者在獲取到語音識別的中間結(jié)果時(s52中的“是”)，輸出控制器146劃分中間結(jié)果(s53)。為了劃分中間結(jié)果，可以使用通過使用語素分析來將中間結(jié)果劃分為語素的處理。隨后，輸出控制器146將處理(s54至s58)重復與通過劃分而獲得的字符串(劃分字符串)的數(shù)目相等的次數(shù)。

輸出控制器146確定劃分字符串是否已登記在起始詞登記數(shù)據(jù)庫中(s55)，當在處理(s54至s58)的重復期間確定起始詞登記數(shù)據(jù)庫中登記了劃分字符串時(s55中的“是”)，確定未說出句子標點詞(s57)，并且返回至處理的重復的開始(s54)。相反，在確定劃分字符串未登記在起始詞登記數(shù)據(jù)庫中時(s55中的“否”)，輸出控制器146確定已說出了句子標點詞(s56)并且離開對處理(s54至s58)的重復。至此描述了基于語音識別的中間結(jié)果來確定是否已說出句子標點詞的操作。

[1.4.針對語音識別的適宜性確定的修改示例]

至此描述了根據(jù)采集聲音數(shù)據(jù)的量是否在預定的可允許范圍內(nèi)來確定采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別的示例。然而，可以通過另一方法來確定采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。例如，假設(shè)如果采集聲音數(shù)據(jù)中存在多個句子，則針對采集聲音數(shù)據(jù)的語音識別的準確度不提高。因此，輸出控制器146可以根據(jù)采集聲音數(shù)據(jù)中是否包括起始詞來確定采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。

也就是說，輸出控制器146可以使輸出部130輸出采集聲音數(shù)據(jù)中是否包括起始詞來作為采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。在下文中，將描述針對這樣的語音識別的適宜性確定的修改示例。圖20示出了根據(jù)針對語音識別的適宜性確定的修改示例的操作的流程。圖20是示出根據(jù)語音識別的適宜性確定的修改示例的操作的流程的示例的流程圖。圖20的流程圖僅示出根據(jù)語音識別的適宜性確定的修改示例的操作的示例，而根據(jù)針對語音識別的適宜性確定的修改示例的操作的流程不限于圖20的流程圖中所示的示例。

首先，輸出控制部146確定是否獲取了采集聲音數(shù)據(jù)(s61)，在未獲取采集聲音數(shù)據(jù)時(s61的“否”)完成操作，或者在已獲取了采集聲音數(shù)據(jù)時(s61中的“是”)基于起始詞語音識別來劃分采集聲音數(shù)據(jù)(s62)并且執(zhí)行句子標點確定流程(s43)?？梢匀缫衙枋龅哪菢訄?zhí)行基于起始詞語音識別的句子標點確定流程。

隨后，在確定已說出句子標點詞時(s64中的“是”)，輸出控制器146確定采集聲音數(shù)據(jù)的狀態(tài)適合于語音識別(s65)，更新ui(畫面)以表示采集聲音數(shù)據(jù)的狀態(tài)適合于語音識別(s66)，并且繼續(xù)進行到s61中的操作。相反，在確定未說出句子標點詞時(s64中的“否”)，輸出控制器146確定采集聲音數(shù)據(jù)的狀態(tài)不適合于語音識別(s67)，更新ui(畫面)以表示采集聲音數(shù)據(jù)的狀態(tài)不適合于語音識別(s68)，并且繼續(xù)進行到s61中的操作。

至此描述了針對語音識別的適宜性確定的修改示例。

[1.5.顯示形式的修改示例]

關(guān)于輸出部130是能夠?qū)嬅嫱队暗阶雷觮b1的頂表面上的投影儀的示例給出了上面的描述。然而，輸出部130的顯示形式不限于該示例。在下文中，將描述輸出部130的顯示形式的修改示例。圖21是示出輸出部130的顯示形式的修改示例的圖。如圖21所示，在信息處理系統(tǒng)10是移動終端的情況下，輸出部130可以設(shè)置在移動終端中。移動終端的類型不限于具體類型，并且其可以是平板終端、智能電話或蜂窩電話。

[1.6.硬件配置示例]

接下來，參考圖22描述根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的硬件配置。圖22是示出根據(jù)本公開內(nèi)容的實施方式的信息處理系統(tǒng)10的硬件配置示例的框圖。

如圖22所示，信息處理系統(tǒng)10包括中央處理單元(cpu)901、只讀存儲器(rom)903和隨機存取存儲器(ram)905。另外，信息處理系統(tǒng)10可以包括主機總線907、橋接器909、外部總線911、接口913、輸入裝置915、輸出裝置917、存儲裝置919、驅(qū)動器921、連接端口923和通信裝置925。信息處理系統(tǒng)10還可以根據(jù)需要包括圖像拍攝裝置933和傳感器935。與cpu901結(jié)合或代替cpu901，信息處理系統(tǒng)10可以具有被稱為數(shù)字信號處理器(dsp)或?qū)Ｓ眉呻娐?asic)的處理電路。

cpu901用作算術(shù)處理單元和控制裝置，并且根據(jù)記錄在rom903、ram905、存儲裝置919或可移除記錄介質(zhì)927中的各種程序來控制信息處理系統(tǒng)10的整體操作或其一部分。rom903存儲例如cpu901使用的程序和操作參數(shù)。ram905臨時存儲例如要由cpu901在執(zhí)行中使用的程序和在執(zhí)行程序時適當改變的參數(shù)。cpu901、rom903和ram905通過由諸如cpu總線的內(nèi)部總線構(gòu)成的主機總線907彼此連接。此外，主機總線907經(jīng)由橋接器909連接到諸如外圍組件互連(pci)/接口總線的外部總線911。

輸入裝置915是例如由用戶操作的裝置，諸如鼠標、鍵盤、觸摸面板、按鈕、開關(guān)和桿。輸入裝置915可以包括用于檢測用戶的話音的麥克風。輸入裝置915可以是例如使用紅外線或其他無線電波的遙控裝置，或可以是符合信息處理系統(tǒng)10的操作的諸如蜂窩電話的外部連接裝置929。輸入裝置915包括基于用戶輸入的信息生成輸入信號并將其輸出到cpu901的輸入控制電路。用戶向信息處理系統(tǒng)10輸入各種數(shù)據(jù)，并指示信息處理系統(tǒng)10通過操作輸入裝置915來執(zhí)行處理操作。此外，稍后將描述的圖像拍攝裝置933還可以通過拍攝用戶的手或手指的移動等用作輸入裝置。在這種情況下，可以根據(jù)手的運動或手指的取向來確定定點位置。

輸出裝置917由能夠?qū)⑺@取的信息可視地或可聽地通知給用戶的裝置構(gòu)成。輸出裝置917可以是諸如液晶顯示器(lcd)、等離子體顯示面板(pdp)、有機電致發(fā)光(el)顯示器和投影儀等顯示裝置、全息顯示裝置、諸如揚聲器和耳機的音頻輸出裝置以及打印機裝置等。輸出裝置917將通過信息處理系統(tǒng)10的處理而獲得的結(jié)果輸出為諸如文本或圖像的視頻，或?qū)⑵漭敵鰹橹T如話音或聲音的音頻。另外，輸出裝置917可以包括例如用于照亮周圍環(huán)境的燈。

存儲裝置919是被配置為信息處理系統(tǒng)10的存儲部分的示例的數(shù)據(jù)存儲裝置。存儲裝置919例如由諸如硬盤驅(qū)動器(hdd)的磁存儲裝置、半導體存儲裝置、光學存儲裝置和磁光存儲裝置構(gòu)成。存儲裝置919存儲由cpu901執(zhí)行的程序、各種數(shù)據(jù)、從外部獲得的各種類型的數(shù)據(jù)等。

驅(qū)動器921是用于諸如磁盤、光盤、磁光盤和半導體存儲器的可移除記錄介質(zhì)927的讀寫器，并且被并入信息處理系統(tǒng)10中或外部附接到信息處理系統(tǒng)10。驅(qū)動器921讀取記錄在附接的可移除記錄介質(zhì)927中的信息并將該信息輸出到ram905。另外，驅(qū)動器921寫入附接的可移除記錄介質(zhì)927。

連接端口923是用于將裝置直接連接到信息處理系統(tǒng)10的端口。連接端口923可以是例如通用串行總線(usb)端口、ieee1394端口或小型計算機系統(tǒng)接口(scsi)端口。另外，連接端口923可以是例如rs-232c端口、光學音頻端子或高清晰度多媒體接口(hdmi，注冊商標)端口。外部連接裝置929連接到連接端口923，因此可以在信息處理系統(tǒng)10與外部連接裝置929之間交換各種數(shù)據(jù)。

通信裝置925是例如由用于連接到通信網(wǎng)絡(luò)931的通信裝置等構(gòu)成的通信接口。通信裝置925可以是例如用于有線或無線局域網(wǎng)(lan)、藍牙(注冊商標)或無線usb(wusb)的通信卡。另外，通信裝置925可以是例如用于光通信的路由器、用于非對稱數(shù)字用戶線路(adsl)的路由器或用于各種通信的調(diào)制解調(diào)器。通信裝置925使用諸如tcp/ip的預定協(xié)議例如與因特網(wǎng)或其他通信裝置發(fā)送和接收信號等。另外，連接到通信裝置925的通信網(wǎng)絡(luò)931是通過有線或無線連接的網(wǎng)絡(luò)，并且是例如因特網(wǎng)、家庭lan、紅外通信、無線電波通信、衛(wèi)星通信等。

圖像拍攝裝置933通過使用諸如電荷耦合器件(ccd)或互補金屬氧化物半導體(cmos)的圖像傳感器和用于控制將對象圖像成像在圖像傳感器上的諸如透鏡的各種構(gòu)件來拍攝真實空間并產(chǎn)生拍攝圖像。圖像拍攝裝置933可以拍攝靜止圖像或運動圖像。

傳感器935是例如各種傳感器，例如，加速度計、陀螺儀傳感器、地磁傳感器、光傳感器和聲音傳感器。傳感器935獲取關(guān)于信息處理系統(tǒng)10本身的狀態(tài)的信息例如信息處理系統(tǒng)10的殼體的姿態(tài)以及關(guān)于信息處理系統(tǒng)10的周圍環(huán)境的信息例如信息周圍的亮度或噪聲。傳感器935還可以包括gps傳感器，其接收全球定位系統(tǒng)(gps)信號并測量裝置的緯度、經(jīng)度和高度。

關(guān)于信息處理系統(tǒng)10的硬件配置的示例給出了以上描述。上述每個部件可以使用通用構(gòu)件來配置，或可以配置有專用于每個部件的功能的硬件。這樣的配置可以根據(jù)實現(xiàn)時的技術(shù)水平適當?shù)馗淖儭?/p>

<2.結(jié)論>

根據(jù)本公開內(nèi)容的實施方式，信息處理裝置140包括獲取采集聲音數(shù)據(jù)的采集聲音數(shù)據(jù)獲取部142和使輸出部至少輸出采集聲音數(shù)據(jù)的狀態(tài)是否適合于如上所述的語音識別的輸出控制器146。由于用戶使用這樣的配置能夠通過識別采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別來調(diào)整說話，因此可以提高針對采集聲音數(shù)據(jù)的語音識別的準確度。

以上已參照附圖描述了本公開內(nèi)容的優(yōu)選實施方式，而本公開內(nèi)容不限于上述示例。本領(lǐng)域的技術(shù)人員可以在所附權(quán)利要求的范圍內(nèi)發(fā)現(xiàn)各種變型和修改，并且應(yīng)當理解，它們將自然地落入本公開內(nèi)容的技術(shù)范圍內(nèi)。

關(guān)于輸出部130的顯示形式的修改示例給出了以上描述，但是輸出部130的顯示形式不限于上述例子。輸出部130可以是例如設(shè)置在除頭戴式顯示器之外的可穿戴終端(例如手表或眼鏡)中的顯示器。另外，輸出部130可以是例如設(shè)置在車載導航系統(tǒng)中的顯示器。另外，輸出部130可以是例如在醫(yī)療領(lǐng)域中使用的顯示器。

此外，可以創(chuàng)建用于使包括在計算機中的諸如cpu、rom和ram等的硬件執(zhí)行與上述信息處理系統(tǒng)10的功能等同的功能的程序。此外，還可以提供其上記錄有該程序的計算機可讀記錄介質(zhì)。

此外，輸出控制器146生成用于將顯示內(nèi)容顯示在輸出部130上的顯示控制信息，并且將所生成的顯示控制信息輸出到輸出部130，因此可以控制輸出部130，使得輸出部130對顯示內(nèi)容進行顯示。顯示控制信息的內(nèi)容可以根據(jù)系統(tǒng)配置適當?shù)馗淖儭?/p>

具體地，用于實現(xiàn)信息處理裝置140的程序可以是例如web應(yīng)用。在這樣的情況下，可以使用諸如超文本標記語言(html)、標準通用標記語言(sgml)和可擴展標記語言(xml)的標記語言來創(chuàng)建顯示控制信息。

每個部件的位置不限于特定位置，只要執(zhí)行上述信息處理系統(tǒng)10的操作即可。在一個具體示例中，圖像輸入部110、操作輸入部115、聲音采集部120、輸出部130和信息處理裝置140可以設(shè)置在經(jīng)由網(wǎng)絡(luò)連接的不同裝置中。在這種情況下，信息處理裝置140例如對應(yīng)于諸如web服務(wù)器或云服務(wù)器的服務(wù)器，并且圖像輸入部110、操作輸入部115、聲音采集部120和輸出部130可以對應(yīng)于經(jīng)由網(wǎng)絡(luò)連接到服務(wù)器的客戶端。

信息處理裝置140中包括的所有部件可以不容置在同一裝置中。例如，輸入圖像獲取部141、采集聲音數(shù)據(jù)獲取部142、操作檢測部143、識別控制器144、語音識別部145和輸出控制器146的一部分可以存在于不同于信息處理裝置140的裝置中。例如，語音識別部145可以存在于服務(wù)器中，該服務(wù)器不同于包括輸入圖像獲取部141、采集聲音數(shù)據(jù)獲取部142、操作檢測部143、識別控制器144和輸出控制器146的信息處理裝置140。

此外，本說明書中描述的效果僅是說明性或示例性的效果，而不是限制性的。也就是說，利用或代替上述效果，根據(jù)本公開內(nèi)容的技術(shù)可以實現(xiàn)對于本領(lǐng)域技術(shù)人員而言根據(jù)本說明書的描述清楚的其他效果。

另外，本技術(shù)還可以被配置如下。

(1)一種信息處理裝置，包括：

采集聲音數(shù)據(jù)獲取部，其獲取采集聲音數(shù)據(jù)；以及

輸出控制器，其使輸出部至少輸出所述采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。

(2)根據(jù)(1)所述的信息處理裝置，

其中，所述輸出控制器使所述輸出部輸出所述采集聲音數(shù)據(jù)的量是否在預定的可允許范圍內(nèi)，以作為所述采集聲音數(shù)據(jù)的狀態(tài)是否適合于所述語音識別。

(3)根據(jù)(2)所述的信息處理裝置，

其中，在所述采集聲音數(shù)據(jù)的量小于所述可允許范圍的下限時，所述輸出控制器使所述輸出部輸出所述采集聲音數(shù)據(jù)不適合于所述語音識別的狀態(tài)的指示。

(4)根據(jù)(2)或(3)所述的信息處理裝置，

其中，在所述采集聲音數(shù)據(jù)的量大于所述可允許范圍的上限時，所述輸出控制器使所述輸出部輸出所述采集聲音數(shù)據(jù)不適合于所述語音識別的狀態(tài)的指示。

(5)根據(jù)(2)至(4)中任一項所述的信息處理裝置，

其中，在所述采集聲音數(shù)據(jù)的量大于所述可允許范圍的下限并且所述采集聲音數(shù)據(jù)的量小于所述可允許范圍的上限時，所述輸出控制器使所述輸出部輸出所述采集聲音數(shù)據(jù)適合于所述語音識別的狀態(tài)的指示。

(6)根據(jù)(2)至(5)中任一項所述的信息處理裝置，

其中，所述輸出控制器使所述輸出部輸出所述可允許范圍的下限和上限中的至少一個。

(7)根據(jù)(1)至(6)中任一項所述的信息處理裝置，

其中，所述輸出控制器使所述輸出部輸出所述采集聲音數(shù)據(jù)的量。

(8)根據(jù)(6)所述的信息處理裝置，

其中，所述采集聲音數(shù)據(jù)的量包括所述采集聲音數(shù)據(jù)的時間長度。

(9)根據(jù)(6)所述的信息處理裝置，

其中，所述采集聲音數(shù)據(jù)的量包括從所述采集聲音數(shù)據(jù)提取的音素的數(shù)量。

(10)根據(jù)(6)所述的信息處理裝置，

其中，所述采集聲音數(shù)據(jù)的量包括所述采集聲音數(shù)據(jù)中的類語音部分的時間長度。

(11)根據(jù)(2)至(10)中任一項所述的信息處理裝置，

其中，所述輸出控制器更新所述可允許范圍的下限和上限中的至少一個。

(12)根據(jù)(11)所述的信息處理裝置，

其中，所述輸出控制器基于噪聲量來更新所述可允許范圍的所述下限和所述上限中的至少一個。

(13)根據(jù)(12)所述的信息處理裝置，

其中，所述輸出控制器更新所述上限使得所述上限隨著所述噪聲量的增大而增大。

(14)根據(jù)(1)所述的信息處理裝置，

其中，所述輸出控制器使所述輸出部輸出所述采集聲音數(shù)據(jù)中是否包括指示句子的開頭或句子的結(jié)尾的預定表達，以作為所述采集聲音數(shù)據(jù)的狀態(tài)是否適合于所述語音識別。

(15)根據(jù)(14)所述的信息處理裝置，

其中，在獲得了所述語音識別的中間結(jié)果時，所述輸出控制器基于所述中間結(jié)果中是否包括所述預定表達來確定所述采集聲音數(shù)據(jù)中是否包括所述預定表達。

(16)根據(jù)(1)至(15)中任一項所述的信息處理裝置，包括：

識別控制器，其使得進行針對所述采集聲音數(shù)據(jù)的一部分或全部的語音識別。

(17)根據(jù)(16)所述的信息處理裝置，

其中，所述識別控制器基于一個時刻來確定作為所述語音識別的目標的部分的終止，在該時刻處，所述采集聲音數(shù)據(jù)中音量小于預定音量的時間段超過閾值。

(18)根據(jù)(17)所述的信息處理裝置，

其中，當所述采集聲音數(shù)據(jù)中包括指示句子的開頭或句子的結(jié)尾的預定表達時，所述輸出控制器更新所述閾值。

(19)一種信息處理方法，所述信息處理方法包括：

獲取采集聲音數(shù)據(jù)；以及

使輸出部至少輸出所述采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。

(20)一種使計算機用作信息處理裝置的程序，所述信息處理裝置包括：

采集聲音數(shù)據(jù)獲取部，其獲取采集聲音數(shù)據(jù)；以及

輸出控制器，其使輸出部至少輸出所述采集聲音數(shù)據(jù)的狀態(tài)是否適合于語音識別。

附圖標記列表

10信息處理系統(tǒng)

110圖像輸入部

115操作輸入部

120聲音采集部

130輸出部

140信息處理裝置(控制器)

141輸入圖像獲取部

142采集聲音數(shù)據(jù)獲取部

143操作檢測部

144識別控制器

145語音識別部

146輸出控制器

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：河野真一;瀧祐平;澀谷崇
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)絡(luò)危機信息處理相關(guān)技術(shù)

百度信息處理相關(guān)技術(shù)

信息處理技術(shù)員相關(guān)技術(shù)

信息處理技術(shù)相關(guān)技術(shù)

信息處理技術(shù)員教程相關(guān)技術(shù)

智能信息處理相關(guān)技術(shù)

陽光政務(wù)信息處理平臺相關(guān)技術(shù)

中文信息處理相關(guān)技術(shù)

信息處理包括相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息處理裝置、信息處理方法和程序與流程