信息處理設備,信息處理方法,顯示控制設備和顯示控制方法
【專利摘要】本發(fā)明涉及信息處理設備,信息處理方法,顯示控制設備和顯示控制方法。提供一種信息處理設備,包括信息獲取單元,所述信息獲取單元根據(jù)內容的語言分析,獲得識別包括語音的內容的編輯點的信息,和輸出獲得的信息的信息輸出單元。
【專利說明】信息處理設備,信息處理方法,顯示控制設備和顯示控制方法
【技術領域】
[0001]本公開涉及信息處理設備,信息處理方法,顯示控制設備和顯示控制方法,更具體地,涉及處理包括語音的內容的信息處理設備。
【背景技術】
[0002]現(xiàn)有技術中,已知一種通過考慮并類推用戶的偏好,從內容組中只提取被認為感興趣內容的部分內容,并再現(xiàn)該內容的方法。在識別所有人都覺得有趣的一部分內容的方法中,待提取的內容的數(shù)量減少。因此,必須補充不足的內容,以把該內容用于幻燈片放映。當考慮用戶的偏好時,如何構成數(shù)據(jù)庫,以識別用戶的偏好是一個問題。
[0003]例如,在W02009/025155中提出了根據(jù)包括語音的內容自動生成章節(jié),并再現(xiàn)該章節(jié)的技術。按照該技術,根據(jù)聲音的波形分析,確定語音塊,以語音塊為單位進行章節(jié)跳轉,然后觀看內容。此外,在JP H10-84526A中提出一種根據(jù)聲音分析,自動確定編輯點的技術。按照該技術,當無聲區(qū)間持續(xù)恒定時間時,無聲區(qū)間被保存為編輯點,在以后的編輯時,進行剪裁編輯。
【發(fā)明內容】
[0004]但是,按照在W02009/025155中提出的技術,在傾聽語音的內容時,可能識別不出不必要的區(qū)間,從而不能僅僅剪裁內容的有意義部分,并再現(xiàn)該部分。由于語音塊是依據(jù)聲音的振幅確定的,因此不能確定其中詞尾被拖長的區(qū)間。
[0005]按照在JP H10-84526A中提出的技術,能夠識別被視為在會話或講話時產生的冗長區(qū)間的過長無聲區(qū)間。然而,不能識別除語音以外的聲音區(qū)間,或者在傾聽會話或講話的內容時,不能識別語音的無意義聲音的區(qū)間。通常,要求提出一種確定其中檢測到語音的區(qū)間中的有意義區(qū)間和無意義區(qū)間,從而使會話當中的無意義區(qū)間減至最少的方法。
[0006]理想的是提供識別編輯點的優(yōu)良信息。
[0007]按照本公開的實施例,提供一種信息處理設備,所述信息處理設備包括信息獲取單元,所述信息獲取單元根據(jù)內容的語言分析,獲得識別包括語音的內容的編輯點的信息,和輸出獲得的信息的信息輸出單元。
[0008]在本公開中,信息獲取單元根據(jù)包括語音的內容的語言分析,獲得識別內容的編輯點的信息。例如,識別編輯點的信息可包括利用編輯點的周圍區(qū)間中的語言分析獲得的語言信息。在這種情況下,語言信息可包括語音的發(fā)音信息。
[0009]識別獲得的內容的編輯點的信息由信息輸出單元輸出。例如,信息輸出單元可把獲得的信息與內容關聯(lián)地記錄在記錄介質上。此外,信息輸出單元可按內容的傳輸單位,把獲得的信息傳送給網絡。
[0010]因而,在本公開中,能夠提供識別包括語音的內容的編輯點的信息,所述信息是根據(jù)內容的語言分析獲得的,并被輸出。[0011 ] 在本公開中,信息輸出單元可輸出包含在編輯點的周圍區(qū)間中的內容之中的視頻的運動信息。因而,如果輸出視頻的運動信息,那么能夠提供有用的信息,作為識別編輯點的信息。
[0012]按照本公開的另一個實施例,提供一種顯示控制設備,所述顯示控制設備包括信息獲取單元,所述信息獲取單元獲取識別包含語音的內容的編輯點的信息,所述編輯點是根據(jù)所述內容的語言分析獲得的,和顯示控制單元,所述顯示控制單元根據(jù)獲得的信息,控制與所述內容相關的顯示。
[0013]在本公開中,信息獲取單元獲取識別根據(jù)包含語音的內容的語言分析獲得的所述內容的編輯點的信息。例如,識別編輯點的信息可包括利用編輯點的周圍區(qū)間中的語言分析而獲得的語言信息。在這種情況下,語言信息可包括語音的發(fā)音信息和語音的字符串信息。另外,與內容相關的顯示由顯示控制單元根據(jù)獲得的信息控制。
[0014]例如,顯示控制單元可根據(jù)識別編輯點的信息,識別具有高有用度的內容的第一區(qū)間,和具有低有用度的內容的第二區(qū)間。顯示控制單元可以按照第一區(qū)間和第二區(qū)間可區(qū)分的狀態(tài),顯示內容的時間軸的方式,進行控制。
[0015]這種情況下,顯示控制單元可按依照時間軸的預定區(qū)間的選擇,利用包含在語言信息中的字符串信息,顯示與時間軸的預定區(qū)間的語音對應的字符串的方式,進行控制。此時,顯示控制單元可按顯示與預定區(qū)間的語音對應的字符串,和與在預定區(qū)間前后的區(qū)間的語音對應的字符串,并突出地顯示與預定區(qū)間的語音對應的字符串的方式,進行控制。這種情況下,所述突出顯示可具有與其它區(qū)間的顯示顏色不同的顯示顏色。
[0016]例如,顯示控制單元可按照顯示依據(jù)用包含在語言信息中的字符串信息表示的子句的區(qū)間分割的內容的時間軸,并且對應于時間軸的區(qū)間地顯示與時間軸的每個區(qū)間的語音對應的字符串的方式,進行控制。
[0017]因而,在本公開中,根據(jù)識別包含語音的內容的編輯點的信息,控制與所述內容相關的顯示,所述信息是根據(jù)所述內容的語言分析獲得的。于是,能夠恰當?shù)剡M行與內容相關的顯示,例如,編輯用時間軸的顯示。
[0018]按照上面說明的本公開的實施例,能夠提供識別編輯點的優(yōu)良信息。
【專利附圖】
【附圖說明】
[0019]圖1是圖解說明按照實施例的信息處理設備的結構例子的方框圖;
[0020]圖2是圖解說明語音特征檢測單元的處理序列的例子的流程圖;
[0021]圖3是圖解說明文本轉換單元的處理序列的例子的流程圖;
[0022]圖4圖解說明由語言分析結果記錄格式轉換單元生成的內容關聯(lián)結構和字符串結構的示圖;
[0023]圖5是圖解說明字符串、語音特征區(qū)間(拆分)和視頻數(shù)據(jù)(內容)的對應關系的例子的意圖;
[0024]圖6是圖解說明按照實施例的編輯設備的結構例子的方框圖;
[0025]圖7是圖解說明語言分析信息列表生成單元中的每個句子的子章節(jié)登記的處理序列的例子的流程圖;
[0026]圖8是圖解說明確定語音特征部分的有用度的水平的處理序列的例子的流程圖;[0027]圖9是圖解說明文本信息獲取單元中的字符串數(shù)據(jù)的獲取的處理序列的例子的流程圖;
[0028]圖10是圖解說明顯示在顯示單元上的編輯屏幕的顯示例子的示圖;
[0029]圖11是圖解說明其中當用戶通過鼠標操作,選擇時間軸的預定子章節(jié)區(qū)間時,顯示與所述預定子章節(jié)區(qū)間和在所述預定子章節(jié)區(qū)間前后的區(qū)間的語音對應的字符串的情況的示圖;
[0030]圖12是圖解說明語言分析信息列表生成單元中的每個句子的子章節(jié)登記的處理序列的例子的流程圖;
[0031]圖13是圖解說明其中顯示為每個聲音特征區(qū)間(拆分)分割的時間軸,和對應于每個語音特征區(qū)間地顯示與每個語音特征區(qū)間的語音對應的字符串的情況的示圖;
[0032]圖14是圖解說明表格生成單元中的表格生成的處理序列的例子的流程圖;
[0033]圖15是圖解說明基于單詞選擇的視頻搜索系統(tǒng)的示圖;
[0034]圖16是圖解說明當進行對網絡的直播流媒體發(fā)布時的信息處理設備的結構例子的方框圖;
[0035]圖17是圖解說明當進行網絡傳輸時的內容關聯(lián)結構的例子的示圖;
[0036]圖18是圖解說明信息處理設備的另一個結構例子的方框圖;
[0037]圖19是圖解說明利用分析信息綜合單元生成的內容關聯(lián)結構,和包含在內容關聯(lián)結構中的字符串結構和運動結構的示圖;
[0038]圖20是圖解說明編輯設備的另一個結構例子的方框圖;
[0039]圖21是圖解說明確定聲音特征部分的有用度的水平的處理序列的另一個例子的流程圖;
[0040]圖22是圖解說明計算機的結構例子的示圖。
【具體實施方式】
[0041]下面參考附圖,詳細說明本公開的優(yōu)選實施例。注意在說明書和附圖中,功能和結構基本相同的構成元件用相同的附圖標記表示,這些構成元件的重復說明被省略。
[0042]將按照下述順序進行說明。
[0043]1.實施例
[0044]2.變形例
[0045]〈1.實施例 >
[0046][信息處理設備的結構例子]
[0047]圖1圖解說明信息處理設備10的結構例子。信息處理設備10包括視頻輸入單元101、語音輸入單元102、運動圖像多路復用單元103、語言分析單元104、語言匹配數(shù)據(jù)庫105、運動圖像/語言分析信息關聯(lián)單元106和記錄介質107。
[0048]視頻輸入單元101輸入形成內容的視頻數(shù)據(jù)。語音輸入單元102輸入與輸入視頻輸入單元101的視頻數(shù)據(jù)對應,并形成內容的語音數(shù)據(jù)。運動圖像多路復用單元103多路復用輸入視頻輸入單元101的視頻數(shù)據(jù),和輸入語音輸入單元102的語音數(shù)據(jù),從而生成多路復用數(shù)據(jù)。
[0049]語言分析單元104具有語音特征檢測單元104a、文本轉換單元104b和語言分析結果記錄格式轉換單元104c。語音特征檢測單元104a分析輸入語音輸入單元102的語音數(shù)據(jù),檢測語音特征區(qū)間(拆分)。每當語音特征檢測單元104a檢測到語音特征區(qū)間時,語音特征檢測單元104a輸出表示語音特征的種類的發(fā)音信息,及起點和終點的時間信息。
[0050]語音特征區(qū)間包括(a)元音的長音區(qū)間(例如,ee、ea等),(b)始于爆破音或強重音的區(qū)間,(C)擬音的表現(xiàn)區(qū)間,和(d)語音的音調的變化區(qū)間。(a)的元音的長音區(qū)間很可能是談話時的比較無意義的區(qū)間,從而是用戶在編輯時希望剪切的區(qū)間。(b)的始于爆破音或強重音的區(qū)間是談話者期望強調或者感到驚訝的區(qū)間,從而用戶在編輯時希望采用。
[0051](C)的擬音的表現(xiàn)區(qū)間是其中談話者希望說明某事,但是可能想不起適當?shù)脑~語,或者談話者期望強調某事,并且用戶在編輯時期望采用的區(qū)間。在(d)的語音的音調的變化區(qū)間中,從高音調到低音調的變化區(qū)間主要是更加說明性的部分,而從低音調到高音調的變化區(qū)間主要是感情表現(xiàn)區(qū)間。從高音到低音的變化區(qū)間和從高音到低音的變化區(qū)間是用戶在編輯時希望采用的區(qū)間。
[0052]圖2的流程圖圖解說明語音特征檢測單元104a的處理序列的例子。首先,在步驟ST1,語音特征檢測單元104a接收語音數(shù)據(jù)的輸入。之后,在步驟ST2,語音特征檢測單元104a進行語音分析。然后在步驟ST3,語音特征檢測單元104a判斷語音特征區(qū)間是否從語音特征區(qū)間的起點前進到終點,即,是否檢測到語音特征區(qū)間。
[0053]當未檢測到語音特征區(qū)間時,語音特征檢測單元104a返回步驟ST1,重復和上述處理相同的處理。同時,當檢測到語音特征區(qū)間時,在步驟ST4,語音特征檢測單元104a識別語音特征區(qū)間的種類,并輸出種類信息,及語音特征區(qū)間的起點和終點的時間信息,作為檢測到的語音特征區(qū)間的信息。隨后,語音特征檢測單元104a返回步驟ST1,進行下一個語音特征區(qū)間的檢測處理。
[0054]文本轉換單元104b利用語言匹配數(shù)據(jù)庫105,對輸入語音輸入單元102的語音數(shù)據(jù)進行語言分析,并為運動圖像的每個章節(jié),提取包含在運動圖像的每個章節(jié)中的每個句子的字符串。每當檢測到字符串時,文本轉換單元104b輸出字符串數(shù)據(jù)及起點和終點的時間信息。
[0055]圖3的流程圖圖解說明文本轉換單元104b的處理序列的例子。首先,在步驟ST11,文本轉換單元104b接收語音數(shù)據(jù)的輸入。之后在步驟ST12,文本轉換單元104b判斷會話是否開始,即,句子是否開始。當句子未開始時,文本轉換單元104b返回步驟ST11,重復和上面說明的處理相同的處理。
[0056]當句子開始時,在步驟ST13,文本轉換單元104b對語音數(shù)據(jù)進行語言分析,并進行文本生成處理。之后,在步驟ST14,文本轉換單元104b判斷是否檢測到句子的斷點(語音的斷點)。當未檢測到斷點時,文本轉換單元104b在步驟ST15,輸入語音數(shù)據(jù),并在步驟ST13中進行語言分析和進行文本生成處理,直到檢測到斷點為止。
[0057]當檢測到句子的斷點時,在步驟ST16,文本轉換單元104b輸出句子的信息,即,字符串數(shù)據(jù)及起點和終點的時間信息。隨后,文本轉換單元104b返回步驟ST11,并根據(jù)下一個句子的語言分析,進行文本生成處理。
[0058]返回圖1,語言分析結果記錄格式轉換單元104c把來自語音特征檢測單元104a的每個語音特征區(qū)間的信息的格式,和來自文本轉換單元104b的每個句子的信息的格式轉換成記錄格式。
[0059]這種情況下,語言分析結果記錄格式轉換單元104c為每個章節(jié)生成在圖4(a)中圖解所示的內容關聯(lián)結構?!白R別關聯(lián)內容的ID”是內容的章節(jié)標識信息。包含在該章節(jié)中的每個句子的字符串結構(例示于圖4(b)中)包含在“分析字符串列表”的一部分中。
[0060]字符串結構包括句子的字符串數(shù)據(jù)(圖4(b)的例子中的XXXXAAAAACCCCCCBBBBB的數(shù)據(jù)),以及對應字符串的開始時間和終止時間的信息。在這種情況下,開始時間表示當字符串的發(fā)音開始時的時間,而終止時間表示當字符串的發(fā)音結束時的時間。開始時間和終止時間表示構成內容的視頻數(shù)據(jù)和語音數(shù)據(jù)的對應關系。即,開始時間和終止時間表示字符串對應于內容的哪個區(qū)間,并且在編輯時必須剪裁。
[0061]字符串結構包括句子中的每個語音特征區(qū)間(拆分)的信息。一個語音特征區(qū)間的信息包括開始字符位置、開始時間和發(fā)音信息。開始字符位置表示字符串的斷點位置。開始字符位置是以使字符串和語音特征區(qū)間彼此對應的字符串的編號位置的形式描述的。在圖4(b)的例子中,與字符串的“AAAA”對應的語音特征區(qū)間中的開始字符位置是第5個字符的位置。
[0062]開始時間表示斷點位置的時間,并且表示構成內容的視頻數(shù)據(jù)和語音數(shù)據(jù)的對應關系。發(fā)音信息表示語音特征的種類。語音特征的種類包括元音的長音區(qū)間,以爆破音或強重音開始的區(qū)間,擬音的表現(xiàn)區(qū)間,和語音的音調的變化區(qū)間,如上所述。
[0063]圖5示意地圖解說明字符串、語音特征區(qū)間(拆分)和視頻數(shù)據(jù)(內容)的對應關系的例子。圖5(a)圖解說明字符串,圖5(b)示意地圖解說明具有電影格式的視頻數(shù)據(jù)的每一幀。在這個例子中,4個語音特征區(qū)間(拆分)“拆分[O]?拆分[3]”包含在字符串 “XXXXAAAAACCCCCCBBBBB” 中。
[0064]返回圖1,運動圖像/語言分析信息關聯(lián)單元106使利用運動圖像多路復用單元103獲得的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù),與利用語言分析單元104獲得的內容關聯(lián)結構相互關聯(lián),并把多路復用數(shù)據(jù)和內容關聯(lián)結構記錄在記錄介質107上。這種情況下,通過利用以下的格式(a)?(d),把多路復用數(shù)據(jù)和內容關聯(lián)結構記錄在記錄介質上,能夠進行關聯(lián)。
[0065](a)對于每個章節(jié),向章節(jié)的多路復用數(shù)據(jù)的結尾附加與所述多路復用數(shù)據(jù)對應的內容關聯(lián)結構(參見圖4),并記錄所述多路復用數(shù)據(jù)和內容關聯(lián)結構。(b)對于每個章節(jié),利用相同的文件名和不同的擴展名,記錄章節(jié)的多路復用數(shù)據(jù),和與所述多路復用數(shù)據(jù)對應的內容關聯(lián)結構。(C)對于每個章節(jié),利用任意文件名,記錄章節(jié)的多路復用數(shù)據(jù),和與所述多路復用數(shù)據(jù)對應的內容關聯(lián)結構,但是生成使所述多路復用數(shù)據(jù)和內容關聯(lián)結構彼此關聯(lián)的獨立數(shù)據(jù)庫。
[0066](d)對于每個章節(jié),利用任意文件名,記錄章節(jié)的多路復用數(shù)據(jù),和與所述多路復用數(shù)據(jù)對應的內容關聯(lián)結構,但是在該章節(jié)的內容關聯(lián)結構中,嵌入識別對應的多路復用數(shù)據(jù)的信息,例如,通用唯一標識符(UUID)。
[0067]下面,說明在圖1中圖解說明的信息處理設備10的操作。輸入視頻輸入單元101的視頻數(shù)據(jù)被提供給運動圖像多路復用單元103。另外,輸入語音輸入單元102的語音數(shù)據(jù)被提供給運動圖像多路復用單元103。在運動圖像多路復用單元103中,視頻數(shù)據(jù)和語音數(shù)據(jù)被多路復用,從而獲得多路復用數(shù)據(jù)。[0068]輸入語音數(shù)據(jù)輸入單元102的語音數(shù)據(jù)被提供給語言分析單元104的語音特征檢測單元104a和文本轉換單元104b。在語音特征檢測單元104a中,分析語音數(shù)據(jù),并檢測語音特征區(qū)間(拆分)。在該語音特征檢測單元中,每當檢測到語音特征區(qū)間時,輸出表示語音特征區(qū)間的種類的發(fā)音信息,以及起點和終點的時間信息。
[0069]文本轉換單元104b利用語言匹配數(shù)據(jù)庫105,對語音數(shù)據(jù)進行語言分析,并為運動圖像的每個章節(jié),檢測包含在每個章節(jié)中的每個句子的字符串。每當檢測到每個句子的字符串時,文本轉換單元104b輸出字符串數(shù)據(jù),以及起點和終點的時間信息。
[0070]在語言分析單元104中,語音特征檢測單元104a的輸出信息和文本轉換單元104b的輸出信息被提供給語言分析結果記錄格式轉換單元104c。在格式轉換單元104c中,來自語音特征檢測單元104a的每個語音特征區(qū)間的信息的格式和來自文本轉換單元104b的每個句子的信息被轉換成記錄格式。
[0071]即,在格式轉換單元104c中,為每個章節(jié)生成內容關聯(lián)結構(參見圖4 (a))。在內容關聯(lián)結構中,包含包括在該章節(jié)中的每個句子的字符串結構(參見圖4 (b))。字符串結構包括句子的字符串數(shù)據(jù),以及字符串的開始時間和終止時間的信息。字符串結構包括句子中的每個語音特征區(qū)間(拆分)的信息。在這種情況下,一個語音特征區(qū)間的信息包括開始字符位置、開始時間和發(fā)音信息。
[0072]利用運動圖像多路復用單元103獲得的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)被提供給運動圖像/語言分析信息關聯(lián)單元106。利用語言分析單元104獲得的,并且其格式被轉換成記錄格式的每個句子的信息(內容關聯(lián)結構)被提供給運動圖像/語言分析信息關聯(lián)單元106。在運動圖像/語言分析信息關聯(lián)單元106中,每個句子的信息與視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)關聯(lián),所述信息和多路復用數(shù)據(jù)被記錄在記錄介質107上。
[0073]如上所述,在圖1中圖解說明的信息處理設備10中,對形成內容的語音數(shù)據(jù)進行語言分析,為每個章節(jié)生成內容關聯(lián)結構。內容關聯(lián)結構包括以語音數(shù)據(jù)的分析為基礎的語音特征區(qū)間(拆分)的信息,和以文本轉換為基礎的字符串數(shù)據(jù)。使構成內容的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)和內容關聯(lián)結構相互關聯(lián),并記錄在記錄介質107上。于是,能夠提供識別編輯點的優(yōu)良信息。
[0074][編輯設備的結構例子]
[0075]圖6圖解說明編輯設備20的結構例子。編輯設備20處理由圖1中圖解所示的信息處理設備10記錄在記錄介質107上的各個章節(jié)的多路復用數(shù)據(jù)和內容關聯(lián)結構。編輯設備20包括運動圖像讀取單元201、語言分析信息讀取單元202、運動圖像/語言分析信息關聯(lián)單元203和語言分析信息列表生成單元204。編輯設備20還包括時間軸(章節(jié))生成單元205、顯示控制單元206、文本信息獲取單元207和顯示單元208。
[0076]運動圖像讀取單元201從記錄介質107,讀取與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)。語言分析信息讀取單元202從記錄介質107,讀取與利用運動圖像讀取單元201讀取的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)對應的內容關聯(lián)結構(參見圖4)。此時,運動圖像/語言分析信息關聯(lián)單元203把諸如章節(jié)的標識信息或文件信息之類的關聯(lián)信息傳送給語言分析信息讀取單元202。
[0077]語言分析信息列表生成單元204接收利用語言分析信息讀取單元202讀取的內容關聯(lián)結構,并生成語言分析信息列表。即,在語言分析信息列表中,登記包含在預定章節(jié)中的每個句子的字符串數(shù)據(jù)、開始時間和終止時間。在語言分析信息列表中,登記每個句子的每個語音特征區(qū)間(拆分)的開始字符位置、開始時間和發(fā)音信息。
[0078]在語言分析信息列表中,為每個句子確定每個語音特征區(qū)間(拆分)的有用度的水平,并登記依據(jù)有用度的水平分割的區(qū)間,即,子章節(jié)。在子章節(jié)的登記中,相互關聯(lián)地保存子章節(jié)的標識信息和子章節(jié)的開始位置和終止位置的信息。
[0079]圖7的流程圖圖解說明在語言分析信息列表生成單元204中的每個句子的子章節(jié)登記的處理序列的例子。語言分析信息列表生成單元204在步驟ST31中,開始處理,隨后進入步驟ST32。在步驟ST32,語言分析信息列表生成單元204提取處理對象的字符串結構。
[0080]之后,在步驟ST33,語言分析信息列表生成單元204提取第一語音特征區(qū)間(拆分)的信息,作為處理對象的語音特征區(qū)間。在步驟ST34,語言分析信息列表生成單元204判斷該語音特征區(qū)間是具有高可用度的區(qū)間還是具有低可用度的區(qū)間。
[0081]之后,在步驟ST35,語言分析信息列表生成單元204判斷區(qū)間是否被切換。當區(qū)間未被切換時,語言分析信息列表生成單元204返回步驟ST33,提取下一個語音特征區(qū)間(拆分)的信息,作為處理對象的語音特征區(qū)間。同時,當區(qū)間被切換時,在步驟ST36,語言分析信息列表生成單元204關于切換前的區(qū)間進行子章節(jié)的登記。
[0082]隨后,語言分析信息列表生成單元204返回步驟ST33,提取下一個語音特征區(qū)間(拆分)的信息,作為處理對象的語音特征區(qū)間。當不存在下一個語音特征區(qū)間時,語言分析信息列表生成單元204關于其中未進行子章節(jié)登記的區(qū)間,進行子章節(jié)登記,然后結束處理。
[0083]圖8圖解說明圖7的流程圖中的步驟ST34的區(qū)間判定的處理序列的例子。在步驟ST41,語言分析信息列表生成單元204開始處理,隨后進入步驟ST42。在步驟ST42,語言分析信息列表生成單元204判斷處理對象的語音特征區(qū)間是否是元音的長音區(qū)間。
[0084]當處理對象的語音特征區(qū)間不是元音的長音區(qū)間時,在步驟ST43,語言分析信息列表生成單元204判斷處理對象的語音特征區(qū)間的開始字符串是否存在于字典中。當開始字符串存在于字典中時,在步驟ST44,語言分析信息列表生成單元204把該處理對象的語音特征區(qū)間確定為具有高可用度的區(qū)間。隨后,在步驟ST45,語言分析信息列表生成單元204終止處理。
[0085]當在步驟ST43中,判定開始字符串不存在于字典中時,在步驟ST46,語言分析信息列表生成單元204判斷處理對象的語音特征區(qū)間是否是始于爆破音的區(qū)間。當處理對象的語音特征區(qū)間是始于爆破音的區(qū)間時,在步驟ST44,語言分析信息列表生成單元204把處理對象的語音特征區(qū)間確定為具有高可用度的區(qū)間。隨后,在步驟ST45,語言分析信息列表生成單元204終止處理。
[0086]當在步驟ST42中,確定處理對象的語音特征區(qū)間是元音的長音區(qū)間時,或者當在步驟ST46中,確定處理對象的語音特征區(qū)間不是始于爆破音的區(qū)間時,在步驟ST47,語言分析信息列表生成單元204把處理對象的語音特征區(qū)間確定為具有低可用度的區(qū)間。隨后,在步驟ST45,語言分析信息列表生成單元204終止處理。
[0087]返回圖6,時間軸生成單元205生成利用運動圖像讀取單元201讀取的,與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的時間軸。時間軸的生成是在顯示控制單元206的控制下進行的。顯示控制單元206控制時間軸生成單元205的操作,以致根據(jù)登記在語言分析信息列表中的子章節(jié),按能夠區(qū)分具有高有用度的區(qū)間和具有低有用度的區(qū)間的狀態(tài),生成時間軸。
[0088]文本信息獲取單元207根據(jù)語言分析信息列表,獲取對應于時間軸顯示的字符串數(shù)據(jù)。文本信息的獲取是在顯示控制單元206的控制下進行的。顯示控制單元206根據(jù)來自用戶的時間軸的預定子章節(jié)區(qū)間的選擇信息,控制文本信息獲取單元207的操作,以致獲得與預定子章節(jié)區(qū)間和在所述預定子章節(jié)區(qū)間前后的子章節(jié)區(qū)間的語音對應的字符串數(shù)據(jù)。用戶通過操作指示裝置,比如附圖中未例示的鼠標,選擇所述預定子章節(jié)區(qū)間。
[0089]圖9的流程圖圖解說明文本信息獲取單元207中的字符串數(shù)據(jù)的獲取的處理序列的例子。當用戶請求子章節(jié)的選擇處理時,文本信息獲取單元207在步驟ST51中,開始該處理。
[0090]之后,在步驟ST52,文本信息獲取單元207獲得所選子章節(jié)的開始位置和終止位置的信息。在這種情況下,文本信息獲取單元207根據(jù)從顯示控制單元206提供的所選子章節(jié)的標識信息,從利用語言分析信息列表生成單元204生成的語言分析信息列表中,獲得子章節(jié)的開始位置和終止位置的信息。
[0091]之后,在步驟ST53中,文本信息獲取單元207獲得所述子章節(jié)區(qū)間,和在所述子章節(jié)區(qū)間前后的區(qū)間的字符串數(shù)據(jù)。在這種情況下,文本信息獲取單元207根據(jù)利用步驟ST52獲得的子章節(jié)的開始位置和終止位置的信息,參照語言分析信息列表的對應語音特征區(qū)間(拆分)的信息,從而獲得必需的字符串數(shù)據(jù)。
[0092]返回圖6,顯示單元208是利用諸如液晶顯示器(IXD)之類的顯示器構成的,顯示編輯屏幕。顯示單元208在顯示控制單元206的控制下,顯示利用時間軸生成單元205生成的時間軸和利用文本信息獲取單元207獲得的字符串。
[0093]圖10圖解說明顯示在顯示單元208上的編輯屏幕的顯示例子。
[0094]沿著水平方向延伸的視頻時間軸VTL和語音時間軸ATL被布置和顯示在編輯屏幕的下部。在編輯屏幕的右上部中,設置預覽屏幕區(qū)域PVS。在預覽屏幕區(qū)域中,顯示位于用戶在視頻時間軸VTL上指定的位置的靜止圖像,或者從所述位置起的運動圖像。如在附圖中圖解所示,按能夠利用亮度、色調、飽和度和形狀,區(qū)分具有高有用度的子章節(jié)區(qū)間HS和具有低有用度的子章節(jié)區(qū)間LS的狀態(tài),顯示時間軸VTL和ATL。
[0095]當用戶利用鼠標操作,選擇時間軸的預定子章節(jié)區(qū)間時,如在圖11中圖解所示,顯示與預定子章節(jié)區(qū)間和在所述預定子章節(jié)區(qū)間前后的區(qū)間的語音對應的字符串。在這種情況下,會按相同的狀態(tài),顯示所有的字符串。然而,在本實施例中,通過利用不同地設定預定子章節(jié)區(qū)間的顯示顏色,和在所述預定子章節(jié)區(qū)間前后的區(qū)間的語音的字符串的顯示顏色的方法,突出地顯示與預定子章節(jié)區(qū)間的語音對應的字符串。從而,能夠在視覺上容易地區(qū)分預定子章節(jié)區(qū)間的字符串和其它區(qū)間的字符串。
[0096]下面說明在圖6中圖解所示的編輯設備20的操作。運動圖像讀取單元201從記錄介質107,讀取與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)。語言分析信息讀取單元202從記錄介質107,讀取與利用運動圖像讀取單元201讀取的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)對應的內容關聯(lián)結構(參見圖4)。
[0097]利用語言分析信息讀取單元202讀取的內容關聯(lián)結構被提供給語言分析信息列表生成單元204。語言分析信息列表生成單元204根據(jù)內容關聯(lián)結構,生成語言分析信息列表。在語言分析信息列表中,登記包含在預定章節(jié)中的每個句子的字符串數(shù)據(jù)、開始時間和終止時間。在語言分析信息列表中,登記每個句子的每個語音特征區(qū)間(拆分)的開始章節(jié)位置、開始時間和發(fā)音信息。
[0098]在語言分析信息列表中,為每個句子確定每個語音特征區(qū)間(拆分)的有用度的水平,并登記依據(jù)有用度的水平分割的區(qū)間,即,子章節(jié)。在子章節(jié)的登記中,相互關聯(lián)地保存子章節(jié)的標識信息,和該子章節(jié)的開始位置和終止位置的信息。
[0099]利用運動圖像讀取單元201讀取的與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)被提供給時間軸生成單元205。時間軸生成單元205生成與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的時間軸。在這種情況下,在顯示控制單元206的控制下,根據(jù)登記在語言分析信息列表中的子章節(jié),按能夠區(qū)分具有高有用度的區(qū)間和具有低有用度的區(qū)間的狀態(tài),生成時間軸。
[0100]利用時間軸生成單元205生成的時間軸的信息被提供給顯示單元208。在顯示單元208上,在顯示控制單元206的控制下,顯示視頻時間軸VTL和語音時間軸ATL。在這種情況下,按能夠區(qū)分具有高有用度的區(qū)間HS和具有低有用度的區(qū)間LS的狀態(tài),顯示時間軸VTL和ATL (參見圖10)。
[0101]利用語言分析信息列表生成單元204生成的語言分析信息列表被提供給文本信息獲取單元207。按照來自用戶的時間軸的預定子章節(jié)區(qū)間的選擇,預定子章節(jié)的標識信息從顯示控制單元206被提供給文本信息獲取單元207。
[0102]文本信息獲取單元207根據(jù)語言分析信息列表,獲得與和用戶的選擇相關的預定子章節(jié)區(qū)間,以及在所述預定子章節(jié)區(qū)間前后的子章節(jié)區(qū)間的語音對應的字符串數(shù)據(jù),作為對應于時間軸顯示的字符串數(shù)據(jù)。所述字符串數(shù)據(jù)被提供給顯示單元208。在顯示單元208的編輯屏幕上,顯示與和用戶的選擇相關的預定子章節(jié)區(qū)間,以及在所述預定子章節(jié)區(qū)間前后的子章節(jié)區(qū)間的語音對應的字符串(參見圖11)。
[0103]如上所述,在圖6中圖解所示的編輯設備20中,當從記錄介質107讀取與編輯相關的預定子章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)時,讀取與所述多路復用數(shù)據(jù)關聯(lián)地記錄的內容關聯(lián)結構,從而生成語言分析信息列表。內容關聯(lián)結構包括基于語音數(shù)據(jù)的分析的語音特征區(qū)間(拆分)的信息和基于文本轉換的字符串數(shù)據(jù)。
[0104]當根據(jù)多路復用數(shù)據(jù)生成視頻或語音的時間軸時,根據(jù)登記在語言分析信息列表中的子章節(jié),按能夠區(qū)分具有高有用度的區(qū)間和具有低有用度的區(qū)間的狀態(tài),生成時間軸。因此,在編輯屏幕上,按能夠區(qū)分具有高有用度的區(qū)間HS和具有低有用度的區(qū)間LS的狀態(tài),顯示視頻時間軸VTL和語音時間軸ATL。于是,用戶能夠利用這兩個區(qū)間之間的邊界作為編輯點,并進行適當?shù)木庉嫛?br>
[0105]當用戶利用時間軸上的鼠標操作,選擇預定子章節(jié)時,根據(jù)語言分析信息列表,獲得與和用戶的選擇相關的預定子章節(jié)區(qū)間,以及在所述預定子章節(jié)區(qū)間前后的子章節(jié)區(qū)間的語音對應的字符串數(shù)據(jù)。因此,在編輯屏幕上,顯示與和用戶的選擇相關的預定子章節(jié)區(qū)間,以及在所述預定子章節(jié)區(qū)間前后的子章節(jié)區(qū)間的語音對應的字符串。于是,用戶能夠在不再現(xiàn)內容的情況下,在某種程度上識別內容,從而能夠高效并且有效地進行編輯。
[0106]<2.變形例 >
[0107][子章節(jié)登記的另一示例][0108]在上面說明的實施例中,在編輯設備20的語言分析信息列表生成單元204中,為每個語音特征區(qū)間(拆分)確定有用度的水平,依據(jù)有用度的水平分割的區(qū)間被登記為子章節(jié)。在顯示單元208上,顯示被分割成具有高可用度的區(qū)間HS和具有低可用度的區(qū)間LS的視頻和語音的時間軸。
[0109]不過,也可考慮把每個子句的每個區(qū)間,S卩,每個語音特征區(qū)間(拆分)登記為子章節(jié),在顯示單元208上顯示關于每個子句分割的視頻和語音的時間軸,并且在顯示單元208上顯示對應于每個子句的字符串的方法。
[0110]圖12的流程圖圖解說明語言分析信息列表生成單元204(參見圖6)中的每個句子的子章節(jié)登記的處理序列的例子。語言分析信息列表生成單元204在步驟ST61中,開始處理,隨后進入步驟ST62。在步驟ST62,語言分析信息列表生成單元204提取處理對象的句子的字符串結構。
[0111]之后,在步驟ST63,語言分析信息列表生成單元204提取包含在利用步驟ST62提取的字符串結構中的第一語音特征區(qū)間(拆分)的信息。在步驟ST64,語言分析信息列表生成單元204把該語音特征區(qū)間登記成子章節(jié)。在子章節(jié)的登記中,子章節(jié)的標識信息與子章節(jié)的開始位置和終止位置的信息被相互關聯(lián)并被保存。
[0112]隨后,語言分析信息列表生成單元204返回步驟ST63,并提取下一個語音特征區(qū)間(拆分)的信息,作為處理對象的語音特征區(qū)間。當不存在下一個語音特征區(qū)間時,語言分析信息列表生成單元204終止處理。
[0113]在時間軸生成單元205中,當生成與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的時間軸時,根據(jù)登記在語言分析信息列表中的子章節(jié),生成關于每個語音特征區(qū)間(拆分)分割的時間軸。在文本信息獲取單元207中,從語言分析信息列表獲得與每個語音特征區(qū)間(拆分)的語音對應的字符串數(shù)據(jù)。
[0114]因此,在顯示單元208上,利用時間軸生成單元205生成的時間軸的信息,顯示關于每個語音特征區(qū)間(拆分)分割的時間軸VTL和ATL,如在圖13中圖解所示。在顯示單元208上,根據(jù)利用文本信息獲取單元207獲得的字符串數(shù)據(jù),對應于每個語音特征區(qū)間地顯示與每個語音特征區(qū)間(拆分)的語音對應的字符串。
[0115][基于單詞選擇的視頻搜索系統(tǒng)]
[0116]盡管上面未說明,不過,編輯設備20可根據(jù)利用語言分析信息讀取單元202讀取的,與編輯相關的預定章節(jié)的內容關聯(lián)結構,生成表示構成字符串的單詞和所述單詞所屬于的語音特征區(qū)間(拆分)的對應關系的表格。利用所述表格,能夠構成搜索與所選單詞存在于的語音特征區(qū)間(拆分)對應的視頻的系統(tǒng)。
[0117]圖14的流程圖圖解說明表格生成單元(圖6中未示出)中的表格生成的處理序列的例子。在步驟ST71,表格生成單元開始處理。之后,在步驟ST72,表格生成單元從記錄介質107 (參見圖4),讀取與和編輯相關的預定畫面的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)關聯(lián)的內容關聯(lián)結構。
[0118]之后,在步驟ST73,表格生成單元提取與包含在內容關聯(lián)結構中的每個字符串對應的字符串結構。在步驟ST74,表格生成單元從包含在每個字符串結構中的字符串中,提取單詞。在這種情況下,以單詞的形式,包含擬音。在步驟ST75,表格生成單元把利用步驟ST74提取的單詞和該單詞所屬于的語音特征區(qū)間(拆分)的對應關系登記在表格中。[0119]對所有單詞,反復進行步驟ST74的單詞提取處理,和步驟ST75的表格登記處理。當對于所有單詞的單詞提取處理和表格登記處理結束時,表格生成單元終止處理。
[0120]圖15圖解說明利用如上所述生成的表格的搜索例子。例如,在顯示在顯示單元208上的編輯屏幕上,顯示像以“A”開頭的單詞,以“B”開頭的單詞…那樣地分類的登記在表格中的單詞,如在圖15(a)中圖解所示。
[0121]當用戶從登記在表格中的單詞中選擇預定單詞時,參照所述表格,獲得預定單詞所屬于的語音特征區(qū)間(拆分),在編輯屏幕的預覽屏幕區(qū)域PVS中,顯示對應語音特征區(qū)間的預定幀,例如第一幀和最后一幀的圖像,如在圖15(b)中圖解所示。對應語音特征區(qū)間的運動圖像可被顯示在預覽屏幕區(qū)域PVS中。運動圖像和對應語音特征區(qū)間可被清楚地表示在時間軸上。
[0122][對網絡的傳輸]
[0123]在上面說明的實施例中,說明了其中信息處理設備10(參見圖1)的運動圖像/語言分析信息關聯(lián)單元106使構成內容的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)與語言分析信息(內容關聯(lián)結構)關聯(lián),并把所述多路復用數(shù)據(jù)和語言分析信息記錄在記錄介質107上的情況的例子。
[0124]然 而,當進行對網絡的直播流媒體發(fā)布時,構成內容的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)與語言分析信息被相互關聯(lián),并被傳送。在這種情況下,按傳輸單位(緩存單位),例如4秒,傳送多路復用數(shù)據(jù)。然而,假定語言分析信息也是依據(jù)傳輸單位分割的,以改善參照性能。
[0125]圖16圖解說明當進行對網絡的直播流媒體發(fā)布時,信息處理設備IOA的結構例子。在圖16中,與圖1的構成元件對應的構成元件用相同的附圖標記表示,并省略其詳細說明。
[0126]語言分析單元104的語言分析結果記錄格式轉換單元104cA為構成內容的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)的每個傳輸單位,生成在圖17中圖解所示的內容關聯(lián)結構?!白R別關聯(lián)內容的ID”是內容的章節(jié)標識信息。
[0127]內容關聯(lián)結構包括諸如“參考文本”、“開始時間”、“持續(xù)時間”和“發(fā)音信息”之類的信息?!皡⒖嘉谋尽北硎驹趥鬏攩挝粎^(qū)間中生成的單詞的字符串數(shù)據(jù)?!伴_始時間”表示斷點位置的開始時間位置?!俺掷m(xù)時間”表示斷點位置的持續(xù)時間,并表示等于或小于與傳輸單位區(qū)間對應的最長持續(xù)時間的時間?!鞍l(fā)音信息”表示語音特征的種類。語音特征的種類包括元音的長音區(qū)間,始于爆破音或強重音的區(qū)間,擬音的表現(xiàn)區(qū)間,和語音的音調的變化區(qū)間,如上所述。
[0128]運動圖像/語言分析信息關聯(lián)單元106A按傳輸單位,順序把利用運動圖像多路復用單元103獲得的多路復用數(shù)據(jù)傳送給網絡108。此時,對于每個傳輸單位,運動圖像/語言分析信息關聯(lián)單元106A向多路復用數(shù)據(jù)附加利用語言分析單元104生成的內容關聯(lián)結構(參見圖17),并傳送所述多路復用數(shù)據(jù)和內容關聯(lián)結構。
[0129]在圖16中圖解說明的信息處理設備IOA中,語言匹配數(shù)據(jù)庫105可利用存在于網絡(云)108中的信息,如用虛線箭頭所示。
[0130][運動分析信息的附加]
[0131]在上述實施例中,說明了其中只使語言分析信息與視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)關聯(lián),并記錄或傳送所述多路復用數(shù)據(jù)的情況的例子。然而,還可考慮進一步使從視頻數(shù)據(jù)獲得的運動分析信息和多路復用數(shù)據(jù)關聯(lián),并記錄或傳送語言分析信息、運動分析信息和多路復用數(shù)據(jù)的方法。從而,能夠提供作為識別編輯點的信息的有用信息。
[0132]圖18圖解說明信息處理設備IOB的結構例子。在圖18中,與圖1的構成元件對應的構成元件用相同的附圖標記表示,并省略其詳細說明。信息處理設備IOB包括視頻輸入單元101、語音輸入單元102、運動圖像多路復用單元103、語言分析單元104和語言匹配數(shù)據(jù)庫105。信息處理設備IOB還包括運動特征檢測單元111、運動分析結果記錄格式轉換單元112、分析信息綜合單元113、運動圖像/分析信息關聯(lián)單元106B和記錄介質107。
[0133]語言分析單元104具有語音特征檢測單元104a、文本轉換單元104b和語言分析結果記錄格式轉換單元104cB。語言分析結果記錄格式轉換單元104cB根據(jù)來自語音特征檢測單元104a的每個語音特征區(qū)間的信息,和來自文本轉換單元104b的每個句子的信息,為包含在章節(jié)中的每個句子,生成在圖19(d)中圖解說明的字符串結構。
[0134]字符串結構包括在圖19(b)中圖解說明的分析信息結構。分析信息結構具有“結構種類”、“開始時間”和“終止時間”的信息。在包含在字符串結構中的分析信息結構中,“結構種類”表示結構是字符串結構,開始時間表示字符串的發(fā)音開始的時間,而終止時間表示字符串的發(fā)音終止的時間。
[0135]字符串結構包括句子的字符串數(shù)據(jù)(圖19 (d)的例子中的XXXXAAAAACCCCCCBBBBB的數(shù)據(jù))。字符串結構包括句子中的每個語音特征區(qū)間(拆分)的信息。一個語音特征區(qū)間的信息包括開始字符位置、開始時間和發(fā)音信息。開始字符位置表示字符串中的斷點位置。開始字符位置是以使字符串和語音特征區(qū)間彼此對應的字符串的編號位置的形式描述的。在圖19(d)的例子中,與字符串的“AAAA”對應的語音特征區(qū)間中的開始字符位置是第5個字符的位置。
[0136]運動特征檢測單元111分析輸入視頻輸入單元101的視頻數(shù)據(jù),從而檢測運動特征。這種情況下,檢測的運動特征包括焦點位置移動和成像方向變化。運動特征檢測單元111為每個運動特征區(qū)間,輸出運動特征的種類,及起點和終點的時間信息。
[0137]運動分析結果記錄格式轉換單元112根據(jù)來自運動特征檢測單元111的運動特征區(qū)間的信息,為每個運動特征區(qū)間生成圖19(d)中圖解所示的運動結構。運動結構包括圖19(b)中圖解所示的分析信息結構,和表示運動特征的種類,比如焦點位置移動和成像方向變化的“運動種類”的信息。
[0138]分析信息結構具有“結構種類”、“開始時間”和“終止時間”的信息。在包含在運動結構中的分析信息結構中,“結構種類”表示結構是運動結構,開始時間表示運動特征區(qū)間的開始時間,而終止時間表示運動特征區(qū)間的終止時間。
[0139]分析信息綜合單元113為每個章節(jié),綜合利用語言分析單元104的語言分析結果記錄格式轉換單元104cB生成的字符串結構,和利用運動分析結果記錄格式轉換單元112生成的運動結構,從而生成圖19(a)中圖解所示的內容關聯(lián)結構。“識別關聯(lián)內容的ID”是內容的章節(jié)標識信息。每個句子的字符串結構和每個運動特征區(qū)間的運動結構包含在“分析信息列表”的一部分中。
[0140]運動圖像/分析信息關聯(lián)單元106B使利用運動圖像多路復用單元103獲得的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)與利用分析信息綜合單元113獲得的內容關聯(lián)結構相互關聯(lián),并把多路復用數(shù)據(jù)和內容關聯(lián)結構記錄在記錄介質107上。圖18中圖解說明的信息處理設備IOB的其它結構和操作與圖1中圖解說明的信息處理設備10的結構和操作相同。
[0141]圖20圖解說明編輯設備20B的結構例子。在圖20中,與圖6的構成元件對應的構成元件用相同的附圖標記表示,并省略其詳細說明。編輯設備20B處理由圖18中圖解說明的信息處理設備IOB記錄在記錄介質107上的每個章節(jié)的多路復用數(shù)據(jù)和內容關聯(lián)結構。
[0142]編輯設備20B包括運動圖像讀取單元201、語言分析信息讀取單元202B、運動圖像/分析信息關聯(lián)單元203B和分析信息列表生成單元204B。編輯設備20B還包括時間軸(章節(jié))生成單元205、顯示控制單元206、文本信息獲取單元207和顯示單元208。
[0143]分析信息讀取單元202B從記錄介質107,讀取與利用運動圖像讀取單元201讀取的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)對應的內容關聯(lián)結構(參見圖19)。此時,運動圖像/分析信息關聯(lián)單元203B把諸如章節(jié)的標識信息或文件信息之類的關聯(lián)信息傳送給分析信息讀取單元202A。
[0144]分析信息列表生成單元204B接收利用分析信息讀取單元202B讀取的內容關聯(lián)結構,并生成分析信息列表。即,在分析信息列表中,登記包含在預定章節(jié)中的每個句子的字符串數(shù)據(jù)、開始時間和終止時間。在分析信息列表中,登記每個句子的每個語音特征區(qū)間(拆分)的開始字符位置、開始時間和發(fā)音信息。在分析信息列表中,登記包含在預定章節(jié)中的每個運動特征區(qū)間的種類信息、開始時間和終止時間。
[0145]在分析信息列表中,為每個句子確定每個語音特征區(qū)間(拆分)的有用度的水平,并登記依據(jù)有用度的水平分割的區(qū)間,即,子章節(jié)。在子章節(jié)的登記中,相互關聯(lián)地保存子章節(jié)的標識信息和所述子章節(jié)的開始位置和終止位置的信息。
[0146]與圖6的編輯設備20類似,按照圖7的流程圖,執(zhí)行分析信息列表生成單元204B中的關于每個句子的子章節(jié)登記處理。然而,步驟ST34的區(qū)間確定處理是利用運動分析信息,以及語言分析信息進行的,如在圖21的流程圖中圖解所示,而不是如在圖8的流程圖中圖解所示。
[0147]在步驟ST81,分析信息列表生成單元204B開始處理,然后進入步驟ST82。在步驟ST82,分析信息列表生成單元204b判斷處理對象的語音特征區(qū)間是否是元音的長音區(qū)間。
[0148]當處理對象的語音特征區(qū)間不是元音的長音區(qū)間時,在步驟ST83,分析信息列表生成單元204B判斷處理對象的語音特征區(qū)間的開始字符串是否存在于字典中。當開始字符串存在于字典中時,在步驟ST84,分析信息列表生成單元204B把處理對象的語音特征區(qū)間確定為具有高可用度的區(qū)間。之后,在步驟ST85,分析信息列表生成單元204B終止處理。
[0149]當在步驟ST83中,判定開始字符串不存在于字典中時,在步驟ST86,分析信息列表生成單元204B判斷處理對象的語音特征區(qū)間是否是始于爆破音的區(qū)間。當處理對象的語音特征區(qū)間是始于爆破音的區(qū)間時,在步驟ST84,分析信息列表生成單元204B把處理對象的語音特征區(qū)間確定為具有高有用度的區(qū)間。之后,在步驟ST85,分析信息列表生成單元204B終止處理。
[0150]當在步驟ST82中,確定處理對象的語音特征區(qū)間是元音的長音區(qū)間時,或者當在步驟ST86中,確定處理對象的語音特征區(qū)間不是始于爆破音的區(qū)間時,在步驟ST87,分析信息列表生成單元204B判斷周圍運動信息是否有用。例如,當焦點位置移動或成像方向變化的運動特征區(qū)間存在于周圍部分中時,分析信息列表生成單元204B確定周圍運動信息有用。
[0151]當確定周圍運動信息有用時,在步驟ST84,分析信息列表生成單元204B把處理對象的語音特征區(qū)間確定為具有高可用度的區(qū)間。隨后,在步驟ST85,分析信息列表生成單元204B終止處理。同時,當確定周圍運動信息無用時,在步驟ST87,分析信息列表生成單元204B把處理對象的語音特征區(qū)間確定為具有低可用度的區(qū)間。隨后,在步驟ST85,分析信息列表生成單元204B終止處理。
[0152]返回圖20,時間軸生成單元205生成利用運動圖像讀取單元201讀取的,與編輯相關的預定章節(jié)的視頻數(shù)據(jù)和語音數(shù)據(jù)的時間軸。時間軸是在顯示控制單元206的控制下生成的。顯示控制單元206根據(jù)登記在分析信息列表中的子章節(jié),控制時間軸生成單元205的操作,以致按能夠區(qū)分具有高有用度的區(qū)間和具有低有用度的區(qū)域的狀態(tài),生成時間軸。
[0153]文本信息獲取單元207根據(jù)分析信息列表,獲取對應于時間軸顯示的字符串數(shù)據(jù)。文本信息的獲取是在顯示控制單元206的控制下進行的。顯示控制單元206根據(jù)來自用戶的時間軸的預定子章節(jié)區(qū)間的選擇信息,控制文本信息獲取單元207的操作,以致獲得與預定子章節(jié)區(qū)間和在所述預定子章節(jié)區(qū)間前后的子章節(jié)區(qū)間的語音對應的字符串數(shù)據(jù)。用戶通過操作諸如鼠標(附圖中未例示)之類的指示裝置,選擇預定子章節(jié)區(qū)間。
[0154]顯示單元208是利用諸如液晶顯示器(IXD)之類的顯示器構成的,顯示編輯屏幕。顯示單元208在顯示控制單元206的控制下,顯示利用時間軸生成單元205生成的時間軸,和利用文本信息獲取單元207獲得的字符串。在圖20中圖解說明的編輯設備20B的其它結構和操作與在圖6中圖解說明的編輯設備20的結構和操作相同。
[0155][基于內容關聯(lián)結構的再現(xiàn)控制]
[0156]在上述實施例中,說明了其中對于每個章節(jié),根據(jù)包含在與視頻數(shù)據(jù)和語音數(shù)據(jù)的多路復用數(shù)據(jù)關聯(lián)的內容關聯(lián)結構中的信息,進行編輯屏幕的顯示控制的情況的例子。然而,還可考慮根據(jù)內容關聯(lián)結構,在再現(xiàn)內容的最重要部分時進行控制的方法。例如,根據(jù)內容關聯(lián)結構,被確定為具有低有用度的區(qū)間的區(qū)間可作為不必要的區(qū)間被預先排除。于是,能夠高效地檢測突出場景。
[0157][本公開適用于的計算機]
[0158]上述信息處理設備和編輯設備中的一系列處理可用硬件執(zhí)行,或者可用軟件執(zhí)行。在其中利用軟件執(zhí)行所述一系列處理的情況下,構成所述軟件的程序被安裝在通用計算機中。
[0159]圖22圖解說明其中安裝執(zhí)行所述一系列處理的程序的計算機的結構例子。程序可被預先記錄在起嵌入計算機中的記錄介質作用的存儲單元308或者只讀存儲器(ROM) 302 中。
[0160]程序可被保存(記錄)在可拆卸介質311中??梢运^的套裝軟件的形式,提供可拆卸介質311。在這種情況下,軟盤、光盤只讀存儲器(CD-ROM)、磁光(MO)盤、數(shù)字通用光盤(DVD)、磁盤和半導體存儲器被例舉為可拆卸介質311。
[0161]程序可通過驅動器310,從可拆卸介質311安裝到計算機。另外,程序可通過通信網絡或廣播網絡下載到計算機,然后可被安裝在嵌入式存儲單元308中。S卩,程序可通過數(shù)字衛(wèi)星廣播用人造衛(wèi)星,無線地從下載站點傳送給計算機,或者可通過諸如局域網(LAN)或因特網之類的網絡,有線地從下載站點傳送給計算機。
[0162]計算機具有嵌入其中的中央處理器(CPU) 301,輸入/輸出接口 305通過總線304,連接到CPU301。如果用戶通過操作輸入單元306,經輸入/輸出接口 305輸入命令,那么CPU301按照該命令,執(zhí)行保存在R0M302中的程序。CPU301把保存在存儲單元308中的程序載入隨機存取存儲器(RAM),然后執(zhí)行該程序。
[0163]從而,CPU301執(zhí)行與上述流程圖相應的處理,或者利用上述方框圖的結構進行的處理。另外,CPU301按照必要性,通過輸入/輸出接口 305,從輸出單元307輸出處理結果,從通信單元309傳送處理結果,或者把處理結果記錄在存儲單元308中。輸入單元306是利用鍵盤、鼠標和麥克風構成的。輸出單元307是利用液晶顯示器(LCD)和揚聲器構成的。
[0164]在本公開中,按照所述程序,由計算機執(zhí)行的處理不一定按與如流程圖說明的順序相應的時序進行。即,按照所述程序,由計算機執(zhí)行的處理包括并行地或者單獨地進行的處理(例如,并行處理或者基于對象的處理)。程序可由一個計算機(處理器)處理,或者可被分發(fā)給并由多個計算機處理。另一方面,程序可被傳送給遠程計算機,并由遠程計算機執(zhí)行。
[0165]本領域的技術人員應明白,根據(jù)設計要求和其它因素,可以產生各種修改、組合、子組合和變更,只要它們在所附的權利要求或其等同物的范圍之內。
[0166]另外,還可以如下構成本技術。
[0167](I) 一種信息處理設備,包括:
[0168]信息獲取單元,所述信息獲取單元根據(jù)內容的語言分析,獲得識別包括語音的內容的編輯點的信息;和
[0169]輸出獲得的信息的信息輸出單元。
[0170](2)按照(I)所述的信息處理設備,
[0171]其中識別編輯點的信息包括利用編輯點的周圍區(qū)間中的語言分析獲得的語言信
肩、O
[0172](3)按照⑵所述的信息處理設備,
[0173]其中語目/[目息包括語首的發(fā)首/[目息。
[0174](4)按照⑵或(3)所述的信息處理設備,
[0175]其中語言信息包括語音的字符串信息。
[0176](5)按照(1)-(4)任意之一所述的信息處理設備,
[0177]其中信息輸出單元還輸出包含在編輯點的周圍區(qū)間中的內容之中的視頻的運動信息。
[0178](6)按照(1)-(5)任意之一所述的信息處理設備,
[0179]其中信息輸出單元把獲得的信息與內容關聯(lián)地記錄在記錄介質上。
[0180](7)按照(1)-(5)任意之一所述的信息處理設備,
[0181]其中信息輸出單元按內容的傳輸單位,把獲得的信息傳送給網絡。
[0182](8) 一種信息處理方法,包括:
[0183]根據(jù)內容的語言分析,獲得識別包括語音的內容的編輯點的信息;和
[0184]輸出獲得的信息。
[0185](9) 一種顯示控制設備,包括:[0186]信息獲取單元,所述信息獲取單元獲取識別包含語音的內容的編輯點的信息,所述編輯點是根據(jù)所述內容的語言分析獲得的;和
[0187]顯示控制單元,所述顯示控制單元根據(jù)獲得的信息,控制與所述內容相關的顯示。
[0188](10)按照(9)所述的顯示控制設備,
[0189]其中識別編輯點的信息包括利用編輯點的周圍區(qū)間中的語言分析而獲得的語言信息。
[0190](11)按照(9)或(10)所述的顯示控制設備,
[0191]其中顯示控制單元根據(jù)識別編輯點的信息,識別具有高有用度的內容的第一區(qū)間,和具有低有用度的內容的第二區(qū)間,和
[0192]其中顯示控制單元按照第一區(qū)間和第二區(qū)間可區(qū)分的狀態(tài),顯示內容的時間軸的方式,進行控制。
[0193](12)按照(11)所述的顯示控制設備,
[0194]其中顯示控制單元按依照時間軸的預定區(qū)間的選擇,利用包含在語言信息中的字符串信息,顯示與時間軸的預定區(qū)間的語音對應的字符串的方式,進行控制。
[0195](13)按照(12)所述的顯示控制設備,
[0196]其中顯示控制單元按顯示與預定區(qū)間的語音對應的字符串,和與在預定區(qū)間前后的區(qū)間的語音對應的字符串,并突出地顯示與預定區(qū)間的語音對應的字符串的方式,進行控制。
[0197](14)按照(13)所述的顯示控制設備,
[0198]其中突出顯示具有與其它區(qū)間的顯示顏色不同的顯示顏色。
[0199](15)按照(10)所述的顯示控制設備,
[0200]其中顯示控制單元按照顯示依據(jù)用包含在語言信息中的字符串信息表示的子句的區(qū)間分割的內容的時間軸,并且對應于時間軸的區(qū)間地顯示與時間軸的每個區(qū)間的語音對應的字符串的方式,進行控制。
[0201](16) —種顯示控制方法,包括:
[0202]獲取識別包含語音的內容的編輯點的信息,所述編輯點是根據(jù)所述內容的語言分析獲得的;和
[0203]根據(jù)獲得的信息,控制與所述內容相關的顯示。
[0204]本公開包含與在2012年7月12日向日本專利局提交的日本優(yōu)先權專利申請JP2012-156201中公開的主題相關的主題,該專利申請的整個內容在此引為參考。
【權利要求】
1.一種信息處理設備,包括: 信息獲取單元,所述信息獲取單元根據(jù)對包括語音的內容的語言分析,獲取識別內容的編輯點的信息;和 信息輸出單元,輸出所獲取的信息。
2.按照權利要求1所述的信息處理設備, 其中識別編輯點的信息包括利用編輯點的周圍區(qū)間中的語言分析獲得的語言信息。
3.按照權利要求2所述的信息處理設備, 其中所述語言信息包括語音的發(fā)音信息。
4.按照權利要求2所述的信息處理設備, 其中所述語言信息包括語音的字符串信息。
5.按照權利要求1所述的信息處理設備, 其中信息輸出單元還輸出包含在編輯點的周圍區(qū)間中的內容之中的視頻的運動信息。
6.按照權利要求1所述的信息處理設備, 其中信息輸出單元把所獲 得的信息與內容關聯(lián)地記錄在記錄介質上。
7.按照權利要求1所述的信息處理設備, 其中信息輸出單元按內容的傳輸單位把所獲得的信息傳送給網絡。
8.—種信息處理方法,包括: 根據(jù)對包括語音的內容的語言分析,獲得識別內容的編輯點的信息;和 輸出所獲得的信息。
9.一種顯示控制設備,包括: 信息獲取單元,所述信息獲取單元獲取識別包含語音的內容的編輯點的信息,所述編輯點是根據(jù)對所述內容的語言分析獲得的;和 顯示控制單元,所述顯示控制單元根據(jù)所獲得的信息,控制與所述內容相關的顯示。
10.按照權利要求9所述的顯示控制設備, 其中識別編輯點的信息包括利用編輯點的周圍區(qū)間中的語言分析而獲得的語言信息。
11.按照權利要求9所述的顯示控制設備, 其中顯示控制單元根據(jù)識別編輯點的信息,識別具有高有用度的內容的第一區(qū)間和具有低有用度的內容的第二區(qū)間,和 其中顯示控制單元按照能夠區(qū)分第一區(qū)間和第二區(qū)間的狀態(tài)顯示內容的時間軸的方式,進行控制。
12.按照權利要求11所述的顯示控制設備, 其中顯示控制單元按依照時間軸的預定區(qū)間的選擇,利用包含在語言信息中的字符串信息顯示與時間軸的預定區(qū)間的語音對應的字符串的方式,進行控制。
13.按照權利要求12所述的顯示控制設備, 其中顯示控制單元按顯示與預定區(qū)間的語音對應的字符串和與在預定區(qū)間前后的區(qū)間的語音對應的字符串,并突出地顯示與預定區(qū)間的語音對應的字符串的方式,進行控制。
14.按照權利要求13所述的顯示控制設備, 其中突出顯示具有與其它區(qū)間的顯示顏色不同的顯示顏色。
15.按照權利要求10所述的顯示控制設備,其中顯示控制單元按照顯示內容的時間軸,并且對應于時間軸的區(qū)間地顯示與時間軸的每個區(qū)間的語音對應的字符串的方式,進行控制,所述時間軸用包含在語言信息中的字符串信息表示的子句的區(qū)間來分割。
16.—種顯不控制方法,包括: 獲取識別包含語音的內容的編輯點的信息,所述編輯點是根據(jù)對所述內容的語言分析獲得的;和 根據(jù)所獲得的信息,控制 與所述內容相關的顯示。
【文檔編號】G10L15/04GK103544950SQ201310278580
【公開日】2014年1月29日 申請日期:2013年7月4日 優(yōu)先權日:2012年7月12日
【發(fā)明者】桑原立 申請人:索尼公司