信息處理裝置及其方法和程序的制作方法

文檔序號：2829714閱讀：180來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：信息處理裝置及其方法和程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理裝置及其方法和程序。更特別地，本發(fā)明涉及用于基于附加到內(nèi)容的信息和例如用戶面部表情的信息而識別用戶的情緒的信息處理裝置和方法及其所使用的程序。
背景技術(shù)：
已經(jīng)提出了基于用戶的聲音音調(diào)或面部表情來識別(或估計)人的(或用戶的)情緒的技術(shù)(參見，例如日本未審專利申請公開No.10-228295以及MATSUMOTO等人的“Emotion Recognition Using Face Image and SpeechInformation for Robots(關(guān)于機(jī)器人使用面部圖像和語音信息的情緒識別)”，日本的機(jī)器人學(xué)協(xié)會的第22屆年會)。
在用于識別用戶情緒的相關(guān)現(xiàn)有技術(shù)的方法中，通過利用麥克風(fēng)來獲取用戶的聲音，以及基于聲音的音調(diào)等來識別用戶的情緒。此外，通過利用照相機(jī)來捕捉用戶的臉部圖像，以及基于從所捕捉的圖像中獲得的面部表情來識別用戶的情緒。
然而，在基于從麥克風(fēng)和照相機(jī)獲取的語音和圖像信號來識別用戶情緒的方法中，可能錯誤地確定情緒(即，識別精確度低)。這樣，希望可以以更高的準(zhǔn)確率來識別用戶的情緒(即，希望更可靠地估計用戶的情緒)。
因此希望實現(xiàn)對用戶情緒的高精確識別(或估計)。

發(fā)明內(nèi)容
根據(jù)本發(fā)明實施例的一種信息處理裝置包括獲取裝置，用于獲取關(guān)于內(nèi)容的元信息；預(yù)測裝置，用于根據(jù)該獲取裝置所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及識別裝置，用于利用該預(yù)測裝置所預(yù)測的情緒和從用戶獲取的用戶信息來識別用戶的情緒。
該識別裝置可以根據(jù)該預(yù)測裝置所預(yù)測的情緒針對用戶的情緒執(zhí)行加權(quán)。
該信息處理裝置還可以包括聲音特征值提取裝置，用于收集從用戶發(fā)出的聲音，以及從所收集的聲音提取特征值。該識別裝置可以利用該聲音特征值提取裝置所提取的特征值作為該用戶信息。
該信息處理裝置還可以包括圖像特征值提取裝置，用于捕捉用戶的圖像，以及從所捕捉的圖像提取特征值。該識別裝置可以利用該圖像特征值提取裝置所提取的特征值作為該用戶信息。
所述獲取裝置所獲取的元信息可以是關(guān)于內(nèi)容的文本信息。
當(dāng)內(nèi)容包括音頻信息時，該獲取裝置可以從該音頻信息提取特征值，且可以獲取所提取的特征值作為元信息。
當(dāng)內(nèi)容包括語音信息時，該獲取裝置可以基于該語音信息識別語音，以及可以獲取從所識別的語音提取的文本作為元信息。
當(dāng)內(nèi)容包括視頻信息時，該獲取裝置可以基于該視頻信息獲取與出現(xiàn)在視頻中的表演者有關(guān)的信息作為元信息。
當(dāng)內(nèi)容具有附加到其的時間信息時，該獲取裝置可以基于該時間信息根據(jù)所述內(nèi)容的發(fā)展提取元信息。
該預(yù)測裝置可以包括用于預(yù)測用戶情緒的表格。可以將該識別裝置所識別的用戶情緒提供給該預(yù)測裝置，以及該預(yù)測裝置可以響應(yīng)于提供的所識別的用戶情緒來更新該表格。
根據(jù)本發(fā)明的另一實施例的一種信息處理方法包括以下步驟獲取關(guān)于內(nèi)容的元信息；根據(jù)所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及利用所預(yù)測的情緒和從用戶獲取的信息來識別用戶的情緒。
根據(jù)本發(fā)明的另一實施例的一種程序，使計算機(jī)執(zhí)行包括以下步驟的處理獲取關(guān)于內(nèi)容的元信息；根據(jù)所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及利用所預(yù)測的情緒和從用戶獲取的信息來識別用戶的情緒。
在本發(fā)明的一個實施例中，從用戶觀看的內(nèi)容預(yù)測的用戶情緒和從觀看內(nèi)容的用戶獲取的信息常被用于識別用戶的情緒。
因而，根據(jù)本發(fā)明的實施例，可以識別用戶的情緒。
根據(jù)本發(fā)明的另一實施例，關(guān)于用戶觀看的內(nèi)容的信息以及從用戶的行為獲取的信息可以被用來識別用戶的情緒。

圖1是示出了根據(jù)本發(fā)明一個實施例的系統(tǒng)結(jié)構(gòu)的圖；圖2是詳細(xì)示出了情緒識別單元的實例結(jié)構(gòu)的圖；圖3是示出了存儲在情緒預(yù)測單元中的預(yù)測數(shù)據(jù)的圖；圖4是示出了存儲在情緒預(yù)測單元中的預(yù)測數(shù)據(jù)的圖；圖5是示出了情緒識別設(shè)備的操作的流程圖；以及圖6是示出了記錄媒介的圖。
具體實施例方式
在描述本發(fā)明的實施例之前，下面討論權(quán)利要求的特征與本發(fā)明實施例中披露的特定元素之間的對應(yīng)性。此描述旨在確保支持所要求的發(fā)明的實施例在本說明書中被描述。這樣，即使下面的實施例中的一元素沒有作為涉及到本發(fā)明的某個特征而被描述，這也并不必然表示著該元素與權(quán)利要求的特征不相關(guān)。相反，即使一元素被描述為與權(quán)利要求的某個特征相關(guān)，這也不必然意味著該元素不與權(quán)利要求的其他特征相關(guān)。
根據(jù)本發(fā)明的一種實施例的一種信息處理裝置包括獲取裝置(例如，圖1所示的元信息提取單元34)，用于獲取關(guān)于內(nèi)容的元信息；預(yù)測裝置(例如，圖1所示的情緒預(yù)測單元35)，用于根據(jù)由獲取裝置獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及識別裝置(例如，圖1所示的情緒識別單元36)，用于利用從預(yù)測裝置預(yù)測的情緒以及從用戶獲取的信息來識別用戶的情緒。
該信息處理裝置更進(jìn)一步包括聲音特征值提取裝置(例如，圖2所示的聲學(xué)特征提取單元69)，用于收集從用戶發(fā)出的聲音以及從所收集的聲音提取特征值。
該信息處理裝置更進(jìn)一步包括圖像特征值提取裝置(例如，圖2所示的圖像特征提取單元67)，用于捕捉用戶的圖像以及從所捕捉的圖像提取特征值。
將參考附圖來描述本發(fā)明的一個實施例。
系統(tǒng)配置的實例圖1示出了根據(jù)本發(fā)明的實施例的系統(tǒng)結(jié)構(gòu)。圖1所示的系統(tǒng)可操作來識別(或估計)用戶的情緒。圖1所示的系統(tǒng)獲得從用戶獲取的信息(例如聲音的音調(diào)或面部表情)(下文稱為“用戶信息”)以及被用戶瀏覽(觀看和/或收聽)的內(nèi)容有關(guān)的信息，并且識別用戶的情緒。所識別的用戶情緒可以用作例如用于選擇推薦給用戶的信息的信息。
圖1所示的系統(tǒng)包括向用戶提供內(nèi)容的內(nèi)容再現(xiàn)單元11，識別用戶情緒的情緒識別設(shè)備12，以及獲取用戶信息并將用戶信息提供給情緒識別設(shè)備12的用戶信息獲取單元13。
內(nèi)容再現(xiàn)單元11從情緒識別單元12接收內(nèi)容(內(nèi)容數(shù)據(jù))。該內(nèi)容再現(xiàn)(playback)單元11包括個人計算機(jī)(PC)21、電視接收器22以及音頻再現(xiàn)設(shè)備23。該內(nèi)容再現(xiàn)單元11將被描述為包括但是不限于以上描述的設(shè)備，并且它還可以包括其他設(shè)備。
在下面的討論中，PC 21是用于再現(xiàn)例如比賽等內(nèi)容的設(shè)備；電視接收器22是用于通過再現(xiàn)電視廣播節(jié)目或數(shù)字光盤放像機(jī)(DVD)而再現(xiàn)所獲取的播放內(nèi)容的設(shè)備；以及音頻再現(xiàn)設(shè)備23是用于通過再現(xiàn)音頻廣播程序或只讀光盤(CD)再現(xiàn)所獲取的內(nèi)容的設(shè)備。要由這些設(shè)備再現(xiàn)的內(nèi)容的數(shù)據(jù)由情緒識別設(shè)備12提供。
情緒識別設(shè)備12包括內(nèi)容獲取單元31、內(nèi)容存儲單元32、內(nèi)容提供單元33、元信息提取單元34、情緒預(yù)測單元35以及情緒識別單元36。該內(nèi)容獲取單元31通過電視廣播、音頻廣播或網(wǎng)絡(luò)而獲取內(nèi)容，例如視頻、音樂或比賽。一旦設(shè)備，例如DVD播放器或CD播放器，與網(wǎng)絡(luò)連接，則可以獲取要由該設(shè)備播放的內(nèi)容。
內(nèi)容獲取單元31獲取內(nèi)容，以及關(guān)于內(nèi)容的可得的附加信息，例如電子節(jié)目向?qū)?EPG)數(shù)據(jù)、閉路字幕(closed-caption)信息或評論文本。內(nèi)容存儲單元32存儲由內(nèi)容獲取單元31獲取的內(nèi)容以及附加信息。
內(nèi)容提供單元33將內(nèi)容獲取單元31獲取的內(nèi)容或內(nèi)容存儲單元32中存儲的內(nèi)容提供給內(nèi)容再現(xiàn)單元11的PC 21、電視接收器22以及音頻再現(xiàn)設(shè)備23中的一個，其與內(nèi)容兼容，以使得用戶可以觀看內(nèi)容。
元信息提取單元34提取與內(nèi)容獲取單元31獲取的內(nèi)容或者內(nèi)容存儲單元32中存儲的內(nèi)容有關(guān)的元信息。例如，如果內(nèi)容是電視廣播節(jié)目，則該元信息包括通過分析附加到節(jié)目上的文本信息所獲得的關(guān)鍵字，例如節(jié)目所屬類型(genre)、情節(jié)概要(plot synopsis)以及評論。如果內(nèi)容是音樂，則元信息包括通過分析歌詞、評論等等所獲得的關(guān)鍵字，以及從聲學(xué)上分析一首歌曲諸如一首高拍子或低拍子歌曲或者一首響亮聲音或低沉聲音的歌曲等所獲得的信息。
情緒預(yù)測單元35利用由元信息提取單元34提取的元信息結(jié)合由內(nèi)容提供單元33向內(nèi)容再現(xiàn)單元11提供的內(nèi)容來預(yù)測用戶的情緒。情緒預(yù)測單元35根據(jù)以表格或概率表的形式存儲的信息來執(zhí)行預(yù)測處理，如以下參考圖3和4中所描述的。情緒識別單元36基于用戶信息獲取單元13獲取的用戶信息例如用戶的表情、姿勢(gesture)以及聲音等來識別用戶的情緒。
用戶信息獲取單元13包括照相機(jī)41和麥克風(fēng)42。照相機(jī)41拍下用戶的臉或全身的快照，并且將快照提供給情緒識別單元36。從照相機(jī)41提供給情緒識別單元36的信息可以是靜態(tài)圖像數(shù)據(jù)或運動圖片數(shù)據(jù)。麥克風(fēng)42收集用戶發(fā)出的聲音(例如，聲音或拍手的聲音)，并且將聲音數(shù)據(jù)提供給情緒識別單元36。
如圖1所示，情緒識別設(shè)備12將被描述為包括，但不限于，一種用于提供內(nèi)容數(shù)據(jù)到內(nèi)容再現(xiàn)單元11的設(shè)備。例如，內(nèi)容獲取單元31、內(nèi)容存儲單元32、內(nèi)容提供單元33以及元信息提取單元34可以不被包括在情緒識別設(shè)備12中，并且可以被提供為分開的設(shè)備(獨立的設(shè)備)。
當(dāng)與情緒識別設(shè)備12分開地提供用于提供內(nèi)容數(shù)據(jù)的設(shè)備(下文稱之為“內(nèi)容處理單元”)時，內(nèi)容數(shù)據(jù)和元信息可以被從該內(nèi)容處理單元提供到情緒識別設(shè)備12。例如，內(nèi)容處理單元可以被并入DVD播放器或能夠處理內(nèi)容數(shù)據(jù)的類似設(shè)備中。
圖2特別示出了情緒識別單元36的實例結(jié)構(gòu)。情緒識別單元36包括情緒預(yù)測信息獲取單元61、情緒識別模型選擇單元62、情緒識別模型保持單元63、匹配單元64、情緒信息輸出單元65、圖像數(shù)據(jù)獲取單元66、圖像特征提取單元67、音頻數(shù)據(jù)獲取單元68以及聲學(xué)特征提取單元69。
該情緒預(yù)測信息獲取單元61從情緒預(yù)測單元35(見圖1)獲取預(yù)測信息(預(yù)測結(jié)果)。從情緒預(yù)測信息獲取單元61獲取的預(yù)測信息被提供給情緒識別模型選擇單元62。情緒識別模型選擇單元62基于來自情緒預(yù)測單元35的預(yù)測信息(即，所預(yù)測的用戶情緒)從情緒識別模型保持單元63選擇適當(dāng)?shù)那榫w識別模型，并將所選擇的情緒識別模型提供給匹配單元64。
匹配單元64在從圖像特征提取單元67和聲學(xué)特征提取單元69分別提供的特征值與從情緒識別模型選擇單元62提供的情緒識別模型之間執(zhí)行匹配，并且為各個模型計算分?jǐn)?shù)(score)。根據(jù)從圖像數(shù)據(jù)獲取單元66和音頻數(shù)據(jù)獲取單元68分別提供給圖像特征提取單元67和聲學(xué)特征提取單元69的數(shù)據(jù)，從圖像特征提取單元67和聲學(xué)特征提取單元69將特征值提供給匹配單元64。
特別地，圖像數(shù)據(jù)獲取單元66從照相機(jī)41(見圖1)獲取圖像數(shù)據(jù)，并且將所獲取的圖像數(shù)據(jù)提供給圖像特征提取單元67。圖像特征提取單元67從所提供的圖像數(shù)據(jù)中提取識別用戶情緒所必需的特征值，且將該特征值提供給匹配單元64。
音頻數(shù)據(jù)獲取單元68從麥克風(fēng)42(見圖1)獲取音頻數(shù)據(jù)，且將獲取的音頻數(shù)據(jù)提供給聲學(xué)特征提取單元69。該聲學(xué)特征提取單元69從所提供的音頻數(shù)據(jù)中提取識別用戶情緒所必需的特征值，并且將該特征值提供給匹配單元64。
該匹配單元64在從圖像特征提取單元67和聲學(xué)特征提取單元69提供的特征值與從情緒識別模型選擇單元62提供的情緒識別模型之間執(zhí)行匹配，并且為各個模型計算分?jǐn)?shù)，如前面描述的。
因此，匹配單元64利用(或基于)根據(jù)從照相機(jī)41和麥克風(fēng)42獲取的數(shù)據(jù)所確定的用戶情緒以及從用戶正在觀看的內(nèi)容中所獲得的元信息來執(zhí)行匹配處理(來識別用戶情緒)。這樣，可以實現(xiàn)一種更加詳細(xì)的匹配。
由匹配單元64計算的分?jǐn)?shù)被提供給情緒信息輸出單元65。情緒輸出單元65根據(jù)情緒預(yù)測單元35(見圖1)所預(yù)測的情緒來糾正匹配單元64計算得到的分?jǐn)?shù)，并且輸出最終的情緒識別結(jié)果(情緒信息)。
由情緒信息輸出單元65輸出的情緒信息被用作用戶偏好信息，用于例如，向用戶推薦節(jié)目。當(dāng)通過網(wǎng)絡(luò)等搜索信息時，該情緒信息也可以用作幫助給用戶提供更準(zhǔn)確的信息的信息。
從情緒信息輸出單元65輸出的情緒信息被反饋給情緒預(yù)測單元35。該反饋機(jī)制允許情緒預(yù)測單元35適應(yīng)情緒識別設(shè)備12的用戶，且能增加情緒識別的精確度。特別地，可以基于元信息的當(dāng)前情況和實際所識別的情緒來更新概率表。
由情緒識別模型選擇單元62對情緒識別模型的選擇以及由情緒信息輸出單元65對匹配分?jǐn)?shù)的糾正可以被獨立地執(zhí)行，且可以執(zhí)行它們中的一個或全部。
將參考圖3和4來描述存儲在情緒預(yù)測單元35中的情緒數(shù)據(jù)。圖3和4示出了在內(nèi)容為電視廣播節(jié)目情況情境下的情緒數(shù)據(jù)。情緒數(shù)據(jù)以圖3示出的表格81的形式或以圖4示出的表格82的形式存儲在情緒預(yù)測單元35中。表格81是包括類型信息和可預(yù)測情緒的表。表格82是包括類型信息和各個情緒結(jié)合概率的概率表。
圖3所示的表格81包括彼此相關(guān)聯(lián)的節(jié)目的類型信息和可預(yù)測情緒的列表，該可預(yù)測情緒的列表是將要從節(jié)目類型的信息中預(yù)測的用戶情緒。圖3中所示的表格81包括含有“雜?！?、“運動”、“浪漫劇”以及“恐怖電影”的類型作為類型信息。要被預(yù)測的用戶情緒的列表(即，可預(yù)測的情緒)與每一種類型相關(guān)聯(lián)。
例如，類型信息“雜?！迸c作為可預(yù)測情緒的情緒列表“快樂”、“笑”、“鼓掌”、“驚訝”、“生氣”以及“厭惡”有關(guān)。同樣地，剩余的類型信息與圖3所示的方式中的可預(yù)測情緒有關(guān)。
當(dāng)表格81存儲在情緒預(yù)測單元35中時，與被用戶觀看的內(nèi)容對應(yīng)的可預(yù)測情緒的信息(其為表格81的信息的一部分)被從情緒預(yù)測單元35輸出(且提供給情緒識別單元36)。
圖4所示的表格82包括節(jié)目的類型信息以及可預(yù)測情緒列表，該可預(yù)測情緒列表為要從程序類型上的信息中預(yù)測的用戶情緒。在表格82中，還給出了每種可預(yù)測情緒發(fā)生的概率(概率值)。如同圖3中所示的表格81那樣，圖4中所示的表格82包括含有“雜?！?、“運動”、“浪漫劇”以及“恐怖電影”的類型作為類型信息。
每種類型與將被預(yù)測的用戶情緒(即，可預(yù)測的情緒)相關(guān)聯(lián)。例如，類型信息“雜耍”與作為可預(yù)測情緒的情緒“驚訝”、“恐懼”、“厭惡”、“生氣”、“快樂”、“悲傷”、“笑”、“鼓掌”、“哭泣”以及“大叫”相關(guān)聯(lián)。每一個相關(guān)聯(lián)的可預(yù)測情緒還與概率值相關(guān)聯(lián)。概率值是表示關(guān)于預(yù)定類型的預(yù)定可預(yù)測情緒的發(fā)生概率的值。
例如，可預(yù)測情緒“驚訝”具有關(guān)于類型信息“雜?！钡母怕手?.1。同樣地，剩余的可預(yù)測情緒以及與剩余類型信息相關(guān)的可預(yù)測情緒都和概率值相關(guān)聯(lián)，如圖4所示。
在圖4所示的概率表格82中，如果節(jié)目的類型信息被表示為J，那么表示成P(E|J)的用戶情緒(E)發(fā)生的概率以表格的形式被存儲。
當(dāng)表格82被存儲在情緒預(yù)測單元35中時，關(guān)于可預(yù)測情緒的信息以及與用戶觀看的內(nèi)容對應(yīng)的概率值(其為表格82的信息的一部分)被從情緒預(yù)測單元35輸出(并被提供給情緒識別單元36)。
情緒識別設(shè)備的操作將參考圖5的流程圖來描述情緒識別設(shè)備12的操作。在步驟S11，獲取用戶觀看的內(nèi)容。要獲取的內(nèi)容是如下內(nèi)容，該內(nèi)容是由內(nèi)容提供單元33(見圖1)提供給內(nèi)容再現(xiàn)單元11的，并且是由內(nèi)容獲取單元31獲取的或者是存儲在內(nèi)容存儲單元32中的。
在步驟S12，獲取與所獲取的內(nèi)容有關(guān)的元信息。元信息提取單元34提取與由內(nèi)容提供單元33提供的內(nèi)容有關(guān)的元信息，并且將該元信息提供給情緒預(yù)測單元35。如上所述，如果內(nèi)容是電視廣播節(jié)目，該元信息包括附加到節(jié)目的文本信息，例如節(jié)目所屬的類型、情節(jié)概述以及評論，以及通過分析文本信息獲得的關(guān)鍵字。
如果用戶觀看的內(nèi)容包括語音，則語音識別設(shè)備(未示出)可以從包含在內(nèi)容中的話語中提取關(guān)鍵字作為元信息(即，語音識別設(shè)備可以被配置為對話語進(jìn)行語音識別，將識別出的話語轉(zhuǎn)換成文本，以及從該文本中提取元信息)。在這種情況下，情緒預(yù)測單元35具有用于識別(或分析)語音的設(shè)備。在這種結(jié)構(gòu)中，情緒預(yù)測單元35存儲其中從語音提取的關(guān)鍵字和對應(yīng)于該關(guān)鍵字的情緒彼此相關(guān)聯(lián)的表格(例如，圖3所示的表格81)或概率表(例如，圖4所示的表格82)。
如果用戶觀看(即，收聽)的內(nèi)容是音樂，則可以提取歌曲的聲學(xué)特征值作為元信息。在這種情況下，情緒預(yù)測單元35具有能夠從歌曲中提取特征值的設(shè)備。在這個結(jié)構(gòu)中，情緒預(yù)測單元35存儲一種表格或一種概率表，其中根據(jù)從歌曲中提取的特征值確定的歌曲的總體印象(種類)諸如一首聲音響亮或聲音低沉的歌曲等和可預(yù)測的用戶情緒彼此相關(guān)聯(lián)。
如果用戶觀看的內(nèi)容包括視頻信息，則關(guān)于內(nèi)容中出現(xiàn)的表演者的信息可以用作元信息。當(dāng)關(guān)于表演者的信息用作元信息時，例如，從與內(nèi)容有關(guān)的視頻信息中識別表演者臉部的技術(shù)被用于指定表演者，以及因而關(guān)于表演者的信息被提取作為元信息。在指定表演者的處理中，例如，從關(guān)于內(nèi)容的視頻信息中提取臉部圖像，以及在所提取的圖像和用于指定表演者的圖像(例如，基于表演者的圖像數(shù)據(jù)的圖像，該圖像數(shù)據(jù)被存儲在內(nèi)容存儲單元32中)之間執(zhí)行匹配，由此指定表演者。
指示哪個表演者出現(xiàn)以及在哪個時間區(qū)間表演者出現(xiàn)的信息可以從節(jié)目的EPG數(shù)據(jù)等中獲取。為了指定一表演者，根據(jù)從EPG數(shù)據(jù)獲取的信息來選定給定時間區(qū)間內(nèi)出現(xiàn)的表演者，以及在所選擇的表演者的圖像與從關(guān)于內(nèi)容的視頻信息中獲取的臉部信息之間執(zhí)行匹配。這樣，可以減少執(zhí)行匹配的時間(即，用于指定表演者的時間)，并且可以增加匹配精確度。
諸如EPG數(shù)據(jù)等的信息的使用允許情緒預(yù)測單元35隨時間動態(tài)預(yù)測。EPG數(shù)據(jù)是附加到內(nèi)容的輔助信息，并且與廣播時間、節(jié)目、出現(xiàn)在節(jié)目中的表演者等等相關(guān)聯(lián)。
如上所述，節(jié)目的EPG數(shù)據(jù)的使用有助于指定表演者，或者允許情緒預(yù)測單元35隨時間動態(tài)預(yù)測。情緒預(yù)測單元35的動態(tài)預(yù)測可以通過動態(tài)地改變由元信息提取單元34提取的元信息來實現(xiàn)。
因此，可以更精確地預(yù)測情緒。例如，在喜劇演員出現(xiàn)在電視廣播節(jié)目中的情景下，可以增加笑聲和快樂的預(yù)測值。
可以利用僅一條元信息或多條元信息的組合執(zhí)行預(yù)測。利用各種類型信息作為元信息可以更精確地預(yù)測用戶的情緒，并且因此可以提高預(yù)測精確度。
如上所述，可以根據(jù)內(nèi)容的發(fā)展而動態(tài)地更新表格81或概率表82以提高預(yù)測精確度。
假定內(nèi)容為電視廣播節(jié)目且類型信息被提取作為元信息，給出下面的描述。
在步驟S12，提取(或獲取)元信息。在步驟S13，情緒預(yù)測單元35預(yù)測用戶情緒。情緒預(yù)測單元35存儲圖3所示的表格81或圖4所示的表格82。情緒預(yù)測單元35參考表格81或82，并且從表格81或82提取與所提供的元信息(在此情況下為種類信息)對應(yīng)的信息。將所提取的信息作為預(yù)測的情緒提供給情緒識別單元36(見圖1)。
在步驟S14，基于預(yù)測的情緒選擇情緒識別模型。情緒識別模型可以是直接表示用戶情緒的模型，諸如“生氣”、“快樂”以及“悲傷”，或者可以是間接表示用戶情緒的模型，例如“笑”和“鼓掌”(即，表示當(dāng)用戶感受預(yù)定的情緒時用戶的行為和動作的模型)?？梢岳靡延械幕跈C(jī)器學(xué)習(xí)的模型諸如隱馬爾可夫模型(Hidden Markov model，HMM)或支持向量機(jī)(supportvector machine，SVM)模型實現(xiàn)情緒識別模型。
HMM技術(shù)也可以用來識別表示情緒諸如“生氣”、“厭惡”、“恐懼”、“悲傷”、“快樂”和“驚訝”等的面部表情，。在這個實施例中，不僅使用HMM技術(shù)來識別用戶的情緒，而且使用與用戶觀看的內(nèi)容有關(guān)的信息(元信息)，以便更精確地識別用戶的情緒。
在步驟S14中由情緒識別模型選擇單元62所選擇的情緒識別模型被提供給匹配單元64。在步驟S15，匹配單元64獲取用戶信息。用戶信息從用戶獲得，并且包括從圖像特征提取單元67提供的信息(特征值)例如用戶的面部表情和姿勢，以及從聲學(xué)特征提取單元69提供的信息(特征值)例如用戶聲音和拍手聲音。因此用戶信息是用于從用戶表情或行為識別用戶情緒的信息。
在步驟S16，匹配單元64在從圖像特征提取單元67以及聲學(xué)特征提取單元69提供的特征值與從情緒識別模型選擇單元62提供的情緒識別模型之間進(jìn)行匹配。匹配的結(jié)果是，計算出各個情緒識別模型的分?jǐn)?shù)。即，在從用戶觀看的內(nèi)容識別的情緒識別模型和從當(dāng)用戶觀看內(nèi)容時用戶的真實語言及非語言行為確定(或識別)的用戶情緒之間執(zhí)行匹配(分?jǐn)?shù)計算)。
可以根據(jù)情緒預(yù)測單元35所預(yù)測的信息通過對匹配分?jǐn)?shù)加權(quán)而實現(xiàn)匹配處理。加權(quán)允許更精確的匹配(即，用戶情緒的更精確識別)。
匹配方法(即，用于識別用戶情緒的方法)可以利用例如基于貝葉斯決策規(guī)則的識別方法來實現(xiàn)。在基于貝葉斯決策規(guī)則的識別方法中，如果從傳感器輸入的觀察信號(例如，來自圖像特征提取單元67和聲學(xué)特征提取單元69的特征值)用x表示，以及該時刻的情緒用e表示，則最大化后驗概率p(e|x)的情緒e被用作識別結(jié)果。
后驗概率可以利用貝葉斯定理提供如下p(e|x)＝p(x|e)·p(e)/p(x)這里p(e)表示情緒e的先驗概率。通過利用由情緒預(yù)測單元35確定的概率(即，從關(guān)于內(nèi)容的元信息確定的用戶情緒)作為先驗概率，可以提高識別精確度。
在步驟S17，根據(jù)情緒預(yù)測單元35預(yù)測的情緒，情緒輸出單元65糾正匹配單元64計算的分?jǐn)?shù)，并且輸出最終情緒識別結(jié)果。
從情緒輸出單元65輸出的情緒識別結(jié)果被反饋到情緒預(yù)測單元35，以便情緒預(yù)測單元35可以適應(yīng)于用戶，以增加精確度。即，可以基于元信息的當(dāng)前情況和實際識別的情緒來更新表格(表格81或82)。當(dāng)通過網(wǎng)絡(luò)獲取(或搜索)某些信息時，情緒識別結(jié)果也可以用作指示用戶偏好的信息，以獲取適合于用戶偏好的信息。
情緒識別模型選擇單元62對情緒識別模型的選擇以及由情緒輸出單元65執(zhí)行的對匹配單元64所執(zhí)行的匹配的分?jǐn)?shù)的糾正可以獨立地執(zhí)行，并且可以執(zhí)行它們中的一個或兩者。
在這個實施例中，如上所述，元信息的提取和內(nèi)容的再現(xiàn)是并行執(zhí)行的。然而，可以預(yù)先提取關(guān)于存儲在內(nèi)容存儲單元32中的內(nèi)容的元信息，并且也可以存儲所提取的元信息。在這種情況下，可以減少內(nèi)容再現(xiàn)期間的處理負(fù)載。
因此，關(guān)于用戶觀看的內(nèi)容的元信息被用于識別用戶的情緒，這樣實現(xiàn)了用戶情緒的更精確的識別。因為提取了關(guān)于觀看內(nèi)容的個人偏好信息，所以可以準(zhǔn)確地提取與元信息中所定義的信息相關(guān)的情緒。
根據(jù)本發(fā)明實施例的系統(tǒng)允許關(guān)于用戶觀看內(nèi)容的用戶的評估的更精確的反饋，并且因此可以詳細(xì)闡述關(guān)于內(nèi)容的用戶偏好信息。
記錄媒介圖6是示出了根據(jù)程序執(zhí)行上述一系列處理的個人計算機(jī)的實例結(jié)構(gòu)的方塊圖。中央處理單元(CPU)101根據(jù)存儲在只讀存儲器(ROM)102或存儲單元108內(nèi)的程序來執(zhí)行各種類型的處理。適當(dāng)時，隨機(jī)存取存儲器(RAM)103存儲CPU 101執(zhí)行的程序和數(shù)據(jù)。CPU101、ROM102以及RAM103經(jīng)由總線104彼此連接。
CPU 101也經(jīng)由總線104與輸入/輸出接口105連接。輸入/輸出接口105連接到包括鍵盤、鼠標(biāo)以及麥克風(fēng)的輸入單元106，以及包括顯示器和揚聲器的輸出單元107。CPU 101響應(yīng)于來自輸入單元106的指令輸入而執(zhí)行各種類型的處理。接著，CPU101輸出處理結(jié)果到輸出單元107。
連接到輸入/輸出接口105的存儲單元108包括例如硬盤，并且可操作來存儲CPU 101執(zhí)行的程序和各種數(shù)據(jù)。通信單元109經(jīng)由諸如因特網(wǎng)或局域網(wǎng)的網(wǎng)絡(luò)與外設(shè)通信。
程序可以經(jīng)由通信單元109來獲取，并且可以存儲在存儲單元108中。
驅(qū)動器110與輸入/輸出接口105連接。當(dāng)附接了可移動媒介121例如磁盤、光盤、磁光盤或半導(dǎo)體存儲器時，驅(qū)動器110驅(qū)動所附接的媒介121，且獲取其中存儲的程序和數(shù)據(jù)。必要時，所獲取的程序和數(shù)據(jù)被傳輸?shù)讲⑶掖鎯υ诖鎯卧?08中。
用于存儲安裝在計算機(jī)中且可由計算機(jī)執(zhí)行的程序的程序存儲媒介包括，如圖6所示，可移動媒介121，其為封裝媒介，例如磁盤(包括軟盤)、光盤(包括致密盤只讀存儲器(CD-ROM)和數(shù)字化多功能盤(DVD))、磁光盤(包括小型盤(MD))或者半導(dǎo)體存儲器，其中臨時或永久存儲程序的ROM 102，構(gòu)成存儲單元108的硬盤，等等。如果必要，通過諸如路由器或調(diào)制解調(diào)器等的接口的通信單元109，利用有線或無線通信媒介例如局域網(wǎng)、因特網(wǎng)或數(shù)字衛(wèi)星廣播，將程序存儲在程序存儲媒介中。
在本說明書中，定義存儲在程序存儲媒介中的程序的步驟可以包括按所描述的順序而順序執(zhí)行的處理，并且也可以也可以包括并行或單獨執(zhí)行，而不必要一定是順序的，。
在本文檔中，術(shù)語“系統(tǒng)”意思是包括多個設(shè)備的整個裝置。
上面所述的實施例僅僅是本發(fā)明各個實施例的一個例子，并且在不背離本發(fā)明范圍的前提下可以作出各種修改。
本領(lǐng)域技術(shù)人員應(yīng)該理解的是，可以根據(jù)設(shè)計需求或其它因素而作出各種修改、組合、次組合以及更改，它們均落入所附權(quán)利要求或其等同的范圍中。
本發(fā)明包含與2005年8月5日提交于日本專利局的日本專利申請JP2005-227527有關(guān)的主題，通過引用將其內(nèi)容全部結(jié)合于此。
權(quán)利要求
1.一種信息處理裝置，包括獲取裝置，用于獲取關(guān)于內(nèi)容的元信息；預(yù)測裝置，用于根據(jù)該獲取裝置所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及識別裝置，用于利用該預(yù)測裝置所預(yù)測的情緒和從用戶獲取的用戶信息來識別用戶的情緒。
2.根據(jù)權(quán)利要求1的信息處理裝置，其中，該識別裝置根據(jù)該預(yù)測裝置所預(yù)測的情緒針對用戶的情緒執(zhí)行加權(quán)。
3.根據(jù)權(quán)利要求1的信息處理裝置，還包括聲音特征值提取裝置，用于收集從用戶發(fā)出的聲音，以及從所收集的聲音提取特征值，其中，該識別裝置利用該聲音特征值提取裝置所提取的特征值作為該用戶傳息。
4.根據(jù)權(quán)利要求1的信息處理裝置，還包括圖像特征值提取裝置，用于捕捉用戶的圖像，以及從所捕捉的圖像提取特征值，其中，該識別裝置利用該圖像特征值提取裝置所提取的特征值作為該用戶信息。
5.根據(jù)權(quán)利要求1的信息處理裝置，其中，所述獲取裝置所獲取的元信息包括關(guān)于內(nèi)容的文本信息。
6.根據(jù)權(quán)利要求1的信息處理裝置，其中，當(dāng)所述內(nèi)容包括音頻信息時，該獲取裝置從該音頻信息提取特征值，且獲取所提取的特征值作為元信息。
7.根據(jù)權(quán)利要求1的信息處理裝置，其中，當(dāng)所述內(nèi)容包括語音信息時，該獲取裝置基于該語音信息識別語音，以及獲取從所識別的語音提取的文本作為元信息。
8.根據(jù)權(quán)利要求1的信息處理裝置，其中，當(dāng)所述內(nèi)容包括視頻信息時，該獲取裝置基于該視頻信息獲取與出現(xiàn)在視頻中的表演者有關(guān)的信息作為元信息。
9.根據(jù)權(quán)利要求1的信息處理裝置，其中，當(dāng)所述內(nèi)容具有附加到其的時間信息時，該獲取裝置基于該時間信息根據(jù)所述內(nèi)容的發(fā)展提取元信息。
10.根據(jù)權(quán)利要求1的信息處理裝置，其中該預(yù)測裝置包括用于預(yù)測用戶情緒的表格；將該識別裝置所識別的用戶情緒提供給該預(yù)測裝置；且該預(yù)測裝置響應(yīng)于提供的所識別的用戶情緒來更新該表格。
11.一種信息處理方法，包括以下步驟獲取關(guān)于內(nèi)容的元信息；根據(jù)所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及利用所預(yù)測的情緒和從用戶獲取的信息來識別用戶的情緒。
12.一種程序，使計算機(jī)執(zhí)行以下處理，包括步驟獲取關(guān)于內(nèi)容的元信息；根據(jù)所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及利用所預(yù)測的情緒和從用戶獲取的信息來識別用戶的情緒。
13.一種信息處理裝置，包括獲取單元，其獲取關(guān)于內(nèi)容的元信息；預(yù)測單元，其根據(jù)該獲取單元所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及識別單元，其利用該預(yù)測單元所預(yù)測的情緒和從用戶獲取的用戶信息來識別用戶的情緒。
全文摘要
一種信息處理裝置，包括獲取單元，獲取關(guān)于內(nèi)容的元信息；預(yù)測單元，其根據(jù)該獲取單元所獲取的元信息預(yù)測正在觀看該內(nèi)容的用戶的情緒；以及識別單元，其利用該預(yù)測單元所預(yù)測的情緒和從用戶獲取的用戶信息來識別用戶的情緒。
文檔編號G10L15/02GK1908965SQ20061015156
公開日2007年2月7日申請日期2006年8月7日優(yōu)先權(quán)日2005年8月5日
發(fā)明者淺野康治, 山本則行申請人:索尼株式會社

完整全部詳細(xì)技術(shù)資料下載