欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

音視頻內(nèi)容信息抽取裝置和方法

文檔序號(hào):7692712閱讀:143來源:國知局
專利名稱:音視頻內(nèi)容信息抽取裝置和方法
技術(shù)領(lǐng)域
本發(fā)明涉及廣播電視領(lǐng)域中一種音視頻信息提取裝置、方法及包 含這種裝置的音視頻處理設(shè)備,特別是一種能夠?qū)σ粢曨l節(jié)目流對(duì)相 關(guān)信息進(jìn)行智能提取的設(shè)備和方法。
背景技術(shù)
隨著音視頻技術(shù)及廣播電視領(lǐng)域相關(guān)技術(shù)的發(fā)展,新的廣播格式 提供了更大的數(shù)據(jù)容量,同時(shí),人們對(duì)清晰度和節(jié)目多樣性方面要求 越來越高,越來越多的音視頻節(jié)目內(nèi)容,通過各種播放終端呈現(xiàn)給用 戶。更多的頻道,更大的數(shù)據(jù)量,更加豐富的內(nèi)容,使得信息的流量 大大增加,為用戶在頻道選擇,數(shù)據(jù)存儲(chǔ),和有效信息的提取方面帶 來了更大的復(fù)雜度。
在眾多的電視節(jié)目中,針對(duì)不同的用戶,每個(gè)人的喜好不同,其 收視的時(shí)間段、感興趣的內(nèi)容以及收視電視節(jié)目時(shí)的工作狀態(tài)各有不 同,即使在一個(gè)頻道/節(jié)目播放中,有用戶非常關(guān)注、并希望進(jìn)行記錄 的,也有更多的、重復(fù)的、強(qiáng)加于用戶的信息。由于廣播方式的特點(diǎn), 在節(jié)目廣播中很難為用戶提供信息定制。各種各樣的信息糅雜在其間, 因此不可避免的對(duì)用戶產(chǎn)生了大量的冗余信息。此外,有一些節(jié)目內(nèi) 容由于特殊原因,音頻與視頻會(huì)有一定的誤差,使得大量的信息之間 的關(guān)系更為復(fù)雜。
針對(duì)不同的用戶,如何將其關(guān)注的電視節(jié)目中最為關(guān)鍵的內(nèi)容識(shí) 別并記錄下來,即從海量復(fù)雜的內(nèi)容中提取關(guān)鍵信息,為用戶提供根 據(jù)其需求篩選過的、簡潔而準(zhǔn)確的信息,并提供精華內(nèi)容的回覽,是 用戶對(duì)音視頻播放設(shè)備的一個(gè)重要需求。
當(dāng)前,針對(duì)如何從海量信息中,根據(jù)不同用戶需求進(jìn)行篩選、推 薦或提取關(guān)鍵信息的方法有很多。比如根據(jù)用戶長期的收視統(tǒng)計(jì)分析, 得出用戶喜好節(jié)目類型,搜索節(jié)目列表并為用戶推薦其喜好節(jié)目的節(jié)目收視推薦系統(tǒng);再如根據(jù)用戶指示,在多個(gè)頻道中搜索、定制節(jié)目 的后續(xù)片段,并進(jìn)行到點(diǎn)提醒或記錄功能;如在用戶收視過程中提供 時(shí)移播放;或通過用戶操作對(duì)在播節(jié)目中的片段進(jìn)行記錄;或者對(duì)特 定節(jié)目根據(jù)音視頻變化情況對(duì)場景進(jìn)行識(shí)別進(jìn)而記錄精彩片段;或者 通過定時(shí)記錄方式,對(duì)節(jié)目內(nèi)容進(jìn)行定時(shí)截屏等功能。這些方式都是 通過簡單方法對(duì)節(jié)目信息進(jìn)行抽取,從而過濾非關(guān)鍵信息,壓縮數(shù)據(jù) 量以方便用戶回覽。
針對(duì)以上所述問題,還有不需要用戶進(jìn)行實(shí)時(shí)操作的智能信息提 取方法,如中國專利文獻(xiàn)CN1863282A《在數(shù)字電視接收裝置上實(shí)現(xiàn)靜 態(tài)圖像捕捉的方法和裝置》(中興通訊股份有限公司,2005.5.13)。
在專利文獻(xiàn)CN1863282A中,描述了一種在數(shù)字電視接收裝置上 實(shí)現(xiàn)靜態(tài)圖像捕捉的方法和裝置。該裝置在視頻解碼模塊和顯示芯片 之間設(shè)有1)視頻抽取模塊,2)存儲(chǔ)器,3)外部控制模塊。視頻抽 取模塊按照外部控制裝置設(shè)定的抽取率,對(duì)從視頻解碼模塊出來的幀 流不停地進(jìn)行抽取,取出特定幀數(shù)據(jù)送入存儲(chǔ)器進(jìn)行存儲(chǔ)??刂破鲝?存儲(chǔ)器中提取圖像按照順序進(jìn)行播放,播放方向和播放速度可以由用 戶通過外部控制模塊進(jìn)行控制。該方法實(shí)現(xiàn)了延遲保存先前看過的圖 像,并提供回覽功能。

發(fā)明內(nèi)容
在如上所述的公知技術(shù)中,采用了定時(shí)對(duì)視頻圖像進(jìn)行采樣并記 錄,沒有考慮到音視頻內(nèi)容的關(guān)聯(lián),不關(guān)注圖片內(nèi)容,對(duì)圖像的記錄 沒有進(jìn)行識(shí)別。該方法只通過定時(shí)記錄,可能記錄大量的冗余圖片, 用戶可能需要手動(dòng)操作以從大量的冗余圖片中再次尋找需要的內(nèi)容。 此外,如果定時(shí)時(shí)間較短,則容易錯(cuò)過精彩的內(nèi)容,如果定時(shí)時(shí)間太 長,則需要記錄的內(nèi)容就太多,需要存儲(chǔ)空間也相應(yīng)變大,而且用戶 需要花費(fèi)較長時(shí)間進(jìn)行二次篩選。為了解決上述問題,方便用戶,我 們提出了一種利用音視頻內(nèi)容關(guān)聯(lián)性,將用戶感興趣的內(nèi)容自動(dòng)識(shí)別 和保存,從而方便用戶瀏覽。本發(fā)明的第一方面涉及一種音視頻處理
裝置,包括接收播放信號(hào)輸出傳輸流的接收單元;對(duì)所述接收單元 輸出的傳輸流進(jìn)行解碼的解碼單元;接收用戶輸入的指定內(nèi)容的用戶接口單元,其特征在于,該音視頻處理裝置還包括提取規(guī)定內(nèi)容的 信息提取單元;和存儲(chǔ)所述規(guī)定內(nèi)容的信息存儲(chǔ)單元,所述指定內(nèi)容 包括指定視頻內(nèi)容或指定音頻內(nèi)容的一方,另一方由預(yù)先存儲(chǔ)的音視 頻對(duì)照關(guān)系表來確定,所述信息提取單元包括音頻識(shí)別單元,從來 自所述解碼單元的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別單元,從 來自所述解碼單元的視頻流中識(shí)別出指定視頻內(nèi)容;和信息匹配單元,
接收來自所述音頻識(shí)別單元的識(shí)別結(jié)果和所述視頻識(shí)別單元的識(shí)別結(jié) 果,確定音頻識(shí)別單元的識(shí)別結(jié)果與所述視頻識(shí)別單元的識(shí)別結(jié)果是 否匹配,在二者匹配的情況下,則將與所述指定視頻內(nèi)容或所述指定 音頻內(nèi)容對(duì)應(yīng)的規(guī)定內(nèi)容記錄在所述信息存儲(chǔ)單元中。
本發(fā)明的第二方面涉及另一種音視頻處理裝置,包括接收播放 信號(hào)輸出傳輸流的接收單元;對(duì)所述接收單元輸出的傳輸流進(jìn)行解碼 的解碼單元;接收用戶輸入的指定內(nèi)容的用戶接口單元,其特征在于, 該音視頻處理裝置還包括提取規(guī)定內(nèi)容的信息提取單元;和存儲(chǔ)所 述規(guī)定內(nèi)容的信息存儲(chǔ)單元,所述指定內(nèi)容包括指定視頻內(nèi)容和指定 音頻內(nèi)容,所述信息提取單元包括音頻識(shí)別單元,從來自所述解碼 單元的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別單元,從來自所述解 碼單元的視頻流中識(shí)別出指定視頻內(nèi)容;和信息匹配單元,接收來自 所述音頻識(shí)別單元的識(shí)別結(jié)果和所述視頻識(shí)別單元的識(shí)別結(jié)果,確定 音頻識(shí)別單元的識(shí)別結(jié)果與所述視頻識(shí)別單元的識(shí)別結(jié)果否匹配,在 二者匹配的情況下,則將與所述指定視頻內(nèi)容和所述指定音頻內(nèi)容對(duì) 應(yīng)的規(guī)定內(nèi)容記錄在所述信息存儲(chǔ)單元中。
本發(fā)明的第三方面涉及一種音視頻處理方法,包括接收播放信 號(hào)輸出傳輸流的接收工序;對(duì)所述接收工序輸出的傳輸流進(jìn)行解碼的 解碼工序;接收用戶輸入的指定內(nèi)容的用戶輸入工序;基于用戶的指 定內(nèi)容提取規(guī)定內(nèi)容的信息提取工序;和存儲(chǔ)所述規(guī)定內(nèi)容的信息存 儲(chǔ)工序,其中,所述指定內(nèi)容包括指定視頻內(nèi)容和指定音頻內(nèi)容的一 方或者兩方,在只包括其中一方的情況下,另一方由預(yù)先存儲(chǔ)的音視 頻對(duì)照關(guān)系表來確定,所述信息提取工序包括音頻識(shí)別工序,從來 自所述解碼工序的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別工序,從 來自所述解碼工序的視頻流中識(shí)別出指定視頻內(nèi)容;和信息匹配工序,根據(jù)所述音頻識(shí)別工序的識(shí)別結(jié)果和所述視頻識(shí)別工序的識(shí)別結(jié)果, 確定音頻識(shí)別結(jié)果與視頻識(shí)別結(jié)果是否匹配,在二者匹配的情況下, 則將與所述指定視頻內(nèi)容和所述指定音頻內(nèi)容對(duì)應(yīng)的規(guī)定內(nèi)容記錄在 信息存儲(chǔ)單元中。


圖1:本發(fā)明所述信息抽取和播放裝置系統(tǒng)構(gòu)成圖。
圖2:傳輸流的解擾、解復(fù)用與解碼單元組成圖。
圖3:信息抽取單元的詳細(xì)功能模塊圖。
圖4:通過用戶接口單元對(duì)制定節(jié)目的參數(shù)配置。
圖5:音視頻節(jié)目內(nèi)容實(shí)例示意圖。
圖6:信息采集結(jié)果的瀏覽。
圖7:本發(fā)明設(shè)備的時(shí)鐘修復(fù)與音視頻同步。
圖8:敏感信息識(shí)別的過程與同步校驗(yàn)。
圖9:敏感信息提取的整體流程。
圖10::視頻圖像識(shí)別在不同觸發(fā)方式的處理流程。
圖11:舉例說明音頻和視頻識(shí)別內(nèi)容的匹配過程。
圖12:為針對(duì)音視頻識(shí)別過程中的匹配是否成功的對(duì)應(yīng)關(guān)系表。
具體實(shí)施例方式
下面參考附圖,詳細(xì)說明本發(fā)明的具體實(shí)施方式
。 值得說明的是,在本發(fā)明中,為了便于說明,我們選擇數(shù)字電視 為例介紹本發(fā)明的實(shí)施方案,以對(duì)節(jié)目進(jìn)行屏幕截取的圖片作為信息 提取的結(jié)果進(jìn)行存儲(chǔ),以指定關(guān)鍵詞作為用戶指定的敏感信息,以模 板匹配的方式進(jìn)行圖片和聲音識(shí)別的實(shí)現(xiàn)方式。但本發(fā)明所述設(shè)備和 方法不僅僅局限于本發(fā)明實(shí)施例中所述的設(shè)備和方法,可以電視機(jī)、
機(jī)頂盒,錄像機(jī)、DVD播放機(jī)等具有音視頻處理的裝置。
本發(fā)明中,當(dāng)用戶對(duì)指定節(jié)目開啟了敏感信息監(jiān)控功能,并設(shè)定 了關(guān)鍵詞后,在該節(jié)目播放過程中,本發(fā)明所述設(shè)備則對(duì)音頻輸出和 視頻輸出進(jìn)行監(jiān)控,根據(jù)所指定的關(guān)鍵詞搜索音視頻輸出中與之匹配 的內(nèi)容,如果音頻和視頻中幾乎同時(shí)檢測到了關(guān)鍵詞的內(nèi)容,則將此時(shí)的視頻截屏圖片存儲(chǔ)下來,并將相關(guān)信息進(jìn)行整理。之后根據(jù)用戶 的請(qǐng)求,可以隨時(shí)瀏覽存儲(chǔ)下來的內(nèi)容。通過本發(fā)明,用戶在收看節(jié) 目的過程中可以不必隨時(shí)對(duì)關(guān)鍵信息進(jìn)行判斷并手工記錄,系統(tǒng)可以 自動(dòng)識(shí)別和記錄,減小了操作復(fù)雜度,智能提取用戶的敏感信息并記 錄,供用戶隨時(shí)瀏覽。
如圖1所示為本發(fā)明的音視頻播放裝置的構(gòu)成示意圖,該裝置可 以是電視機(jī),包括多種廣播方式的數(shù)字和模擬電視、機(jī)頂盒,也包括
如錄像機(jī)、DVD播放機(jī)、MP4、計(jì)算機(jī)等,或者具有類似功能的音視 頻處理設(shè)備。圖中1為用戶接口單元,對(duì)數(shù)字電視可以是遙控器、鍵 盤等輸入設(shè)備;2為節(jié)目接收單元,在數(shù)字電視中為調(diào)諧器,將射頻廣 播信號(hào)轉(zhuǎn)換為包含多個(gè)節(jié)目的傳輸流(TS流);3為解擾、解復(fù)用和解 碼單元,將加密的傳輸流解擾為無加擾的傳輸流,并將用戶指定節(jié)目 相關(guān)的信息進(jìn)行解復(fù)用,輸出為服務(wù)信息數(shù)據(jù)包、音頻數(shù)據(jù)包和視頻 數(shù)據(jù)包,再對(duì)音視頻數(shù)據(jù)包進(jìn)行解碼,形成獨(dú)立連續(xù)的音頻和視頻圖 像輸出;4為信息抽取單元,根據(jù)用戶接口單元輸入的關(guān)鍵詞,指示音 頻識(shí)別單元對(duì)音頻流進(jìn)行監(jiān)控和識(shí)別,指示視頻識(shí)別單元對(duì)視頻流進(jìn) 行監(jiān)控和識(shí)別,識(shí)別結(jié)果由信息匹配單元處理,如果音頻識(shí)別單元和 視頻識(shí)別單元幾乎同時(shí)檢測到指定關(guān)鍵詞,則將當(dāng)前的視頻圖像信息 存儲(chǔ)在5信息存儲(chǔ)單元中,信息存儲(chǔ)單元是指具有記憶功能的存儲(chǔ)介 質(zhì),如硬盤,NVRAM等;在此過程中,實(shí)時(shí)播放的音視頻內(nèi)容由節(jié) 目播放單元6播放給用戶,如果用戶需要,可將信息存儲(chǔ)單元中存儲(chǔ) 的采集圖像由節(jié)目播放單元6展示給用戶,節(jié)目播放單元為顯示屏幕、 投影儀或音視頻輸出接口等。
需要說明的是,音視頻結(jié)果匹配后,記錄在信息存儲(chǔ)單元中的信 息可以是視頻圖像的截屏信息,也可以是音視頻片段,或者是識(shí)別結(jié) 果的文本等。此外信息匹配單元中所述的音視頻識(shí)別成功的時(shí)間,不 一定完全同時(shí),如果在用戶定義的誤差允許范圍內(nèi)也可以被認(rèn)為同時(shí) 識(shí)別成功而進(jìn)行存儲(chǔ)。經(jīng)由用戶接口單元中指定的敏感信息,可以是 關(guān)鍵詞的文本輸入,也可是數(shù)字、聲音、圖片以致音視頻片段等各種 形式,或者為通過某種邏輯關(guān)系而產(chǎn)生的規(guī)則,如指定文本后緊隨為8 位阿拉伯?dāng)?shù)字等。圖2中對(duì)圖1中的3解擾解復(fù)用和解碼單元進(jìn)行了細(xì)化。11為解 擾單元,用于將輸入的加擾的傳輸流進(jìn)行解擾,是一種條件接收的控 制方式,其輸出為已解擾的傳輸流,即透明TS流。 一個(gè)透明TS流中 包含多套節(jié)目的音視頻信息及其服務(wù)信息和控制信息以及數(shù)據(jù)廣播 等。12為解復(fù)用單元,即系統(tǒng)解碼單元,將TS流對(duì)指定節(jié)目,根據(jù) 不同類型進(jìn)行分解,如圖所示可分解為服務(wù)信息包,視頻包,時(shí)鐘控 制信息,音頻包等。視頻包和音頻包分別送入音視頻緩沖區(qū)內(nèi)等待解 碼。音視頻解碼單元(16和17)將輸入的音視頻數(shù)據(jù)包進(jìn)行解碼,輸 出音頻和視頻圖像序列。由于最初的傳輸流中,各種信息為串行傳送, 即同一時(shí)間的音視頻信息被前后順序傳送過來,而在終端,則需要將 發(fā)生在同一時(shí)刻的音視頻圖像同時(shí)播放出來,還原音視頻同步效果, 圖2中的時(shí)鐘控制單元14就是用于使發(fā)送端和播放終端的時(shí)鐘同步以 及音視頻同步,保證從音視頻解碼單元中輸出的音視頻是同步的。
圖3為舉例說明信息提取的過程,也是信息抽取單元的詳細(xì)處理 圖舉例。對(duì)于音頻,由解碼器輸出的音頻信息,由聲音識(shí)別單元21進(jìn) 行監(jiān)視和進(jìn)行語音識(shí)別,將音頻的識(shí)別結(jié)果輸送至關(guān)鍵詞提取與匹配 單元,對(duì)音頻識(shí)別結(jié)果與由用戶接口單元26輸入的關(guān)鍵詞(或者根據(jù) 音視頻對(duì)照關(guān)系確定的音頻指定內(nèi)容)進(jìn)行匹配,如果匹配成功,輸 入時(shí)鐘校正單元進(jìn)行時(shí)間戳信息的檢測,獲取聲音識(shí)別成功時(shí)刻所對(duì) 應(yīng)的表示時(shí)間戳tl。對(duì)于視頻的識(shí)別過程為,由視頻解碼單元輸出的 視頻送到圖像采集單元22,對(duì)視頻圖像進(jìn)行采樣,此處所述的采樣即 每間隔多長時(shí)間提取一張圖片,也可以根據(jù)傳輸標(biāo)準(zhǔn)定制為對(duì)特定幀 進(jìn)行取樣,如只采集I幀。采樣后的圖片序列被依次存入圖像緩存單元 中23,然后由圖像關(guān)鍵詞識(shí)別單元25對(duì)緩存圖像進(jìn)行由用戶接口單元 26輸入的關(guān)鍵詞(或者根據(jù)音視頻對(duì)照關(guān)系確定的視頻指定內(nèi)容)的 搜索與識(shí)別,確定該圖像中是否有用戶指定的關(guān)鍵詞信息。由于圖像 識(shí)別的啟動(dòng)方式可以由用戶指定,如實(shí)時(shí)處理,或者聲音識(shí)別成功后 處理等,因此對(duì)緩存圖像的處理可以為實(shí)時(shí)處理或者集中處理。當(dāng)圖 像識(shí)別成功后,將圖像識(shí)別結(jié)果輸入時(shí)鐘校正單元27,獲取圖像識(shí)別 成功時(shí)刻所對(duì)應(yīng)的表示時(shí)間戳t2,由時(shí)鐘校正單元對(duì)聲音時(shí)間戳tl和 圖像時(shí)間戳t2進(jìn)行校驗(yàn),如果tl和t2的時(shí)間差在允許范圍內(nèi),則認(rèn)定為匹配成功,即聲音出現(xiàn)的同時(shí),畫面上也包含有相同或相關(guān)的內(nèi)容, 即電視節(jié)目中通過聲音和圖像同時(shí)強(qiáng)調(diào)了用戶感興趣的內(nèi)容。再將此
內(nèi)容輸入至信息整理單元28,將采集到的音視頻或圖片信息進(jìn)行再整 理,如對(duì)應(yīng)時(shí)間、頻道、節(jié)目內(nèi)容、檢測使用的關(guān)鍵詞、重播信息等, 編程條目,存入信息存儲(chǔ)單元29中。信息存儲(chǔ)單元對(duì)輸入的條目內(nèi)容 進(jìn)行判斷,如果與該信息完全一樣的信息已經(jīng)存在,則根據(jù)規(guī)則進(jìn)行 處理,如放棄保存,覆蓋保存或者作為新條目保存等。
此處需要說明的是,對(duì)于聲音識(shí)別和視頻識(shí)別的方法可以有多種 方法,如進(jìn)行降噪濾波等處理后進(jìn)行模板匹配等方式。對(duì)圖像緩存單 元,在圖像實(shí)時(shí)識(shí)別模式下,即音視頻識(shí)別相互獨(dú)立,可以采用采集 圖像后立即處理,此時(shí)可以不經(jīng)過圖像緩存單元,或者圖像緩存單元 中的存儲(chǔ)圖像數(shù)目為1。如果對(duì)于圖像識(shí)別的方式為聲音識(shí)別成功后 觸發(fā)圖像識(shí)別,此時(shí)只有在聲音識(shí)別成功后,再將緩存的圖像序列逐 一提取出來進(jìn)行識(shí)別,采用這種方式,可以減少系統(tǒng)處理器的運(yùn)算量, 即圖像識(shí)別單元不是一直處于工作狀態(tài),而受聲音識(shí)別的成功與否而 啟動(dòng)。相同的,也可以將視頻圖像識(shí)別設(shè)置為一直工作,音頻識(shí)別功 能的啟動(dòng)與關(guān)閉受制于視頻圖像識(shí)別的結(jié)果。當(dāng)然,如果系統(tǒng)處理能 力足夠,也可以將音頻和視頻識(shí)別同時(shí)設(shè)置為一直工作狀態(tài),音視頻 識(shí)別并行工作,啟動(dòng)與關(guān)閉不受另外一方工作識(shí)別狀態(tài)影響。
圖4是為了說明用戶通過用戶接口單元對(duì)信息提取功能模塊的參 數(shù)配置舉例。如圖所示,用戶可以指定特定節(jié)目(如圖中的為BTV-1 的電視購物),可以指定信息提取功能的開啟時(shí)間段(如18: 00-20: 00),這些信息都可以通過用戶參閱電子節(jié)目指南EPG來選擇和預(yù)約。 用戶可以指定對(duì)于本節(jié)目的敏感詞匯,即關(guān)鍵詞,如圖所示"聯(lián)系電 話"等。如上面所述,該敏感詞匯可以是文字,也可以是音視頻、圖 片等。用戶可以根據(jù)自己需要隨時(shí)開啟信息提取功能,并通過用戶接 口單元設(shè)定是否針對(duì)此電視節(jié)目的重復(fù)模式,即每天對(duì)此節(jié)目開啟信 息提取功能。用戶可以通過用戶接口單元設(shè)置信息提取模塊的處理參 數(shù),如最終的記錄格式為"單張圖片",即視頻圖片的采樣,當(dāng)然也可 以設(shè)置為記錄音視頻片段,或者識(shí)別結(jié)果的文本等等。對(duì)于圖3所示 的時(shí)間校正單元的處理參數(shù),如音視頻識(shí)別的誤差為土300毫秒,當(dāng)然,也可以根據(jù)用戶需求設(shè)置為0 t之間的任意數(shù)值,(t為一經(jīng)驗(yàn)值, 一般
認(rèn)為為1 2秒),因此識(shí)別時(shí)間誤差可以設(shè)置為士500毫秒、±100毫 秒、士50毫秒或者為0毫秒。在此時(shí)間內(nèi),即認(rèn)為是同時(shí)發(fā)生,如果 設(shè)置誤差時(shí)間為O毫秒,即指音視頻識(shí)別時(shí)間為完全同時(shí)發(fā)生。對(duì)圖3 中的視頻圖像釆集單元的參數(shù)設(shè)置,采樣頻率為每秒5幀。對(duì)信息記 錄單元重復(fù)條目的處理方式為"自動(dòng)覆蓋"。此外用戶還可以以類似的 方式設(shè)置其他處理參數(shù),如音視頻識(shí)別的觸發(fā)方式為獨(dú)立識(shí)別或者 音頻識(shí)別成功開啟視頻圖像識(shí)別等等。
圖5為音視頻識(shí)別場景舉例。圖中舉例為電視購物的場景,對(duì)于 很多的電視購物節(jié)目,對(duì)于一個(gè)產(chǎn)品的各種細(xì)致功能介紹很多,而在 最后的幾秒鐘內(nèi)將之前的介紹的內(nèi)容進(jìn)行總結(jié),并給出聯(lián)系方式。如 圖5所示的為筆記本電腦廣告的最后總結(jié)畫面,有圖片、型號(hào)、特點(diǎn) 和價(jià)格,最重要的是在此畫面中給出詳細(xì)的聯(lián)系方式,如電話、網(wǎng)址、 地址等。如果用戶對(duì)此產(chǎn)品感興趣,聯(lián)系方式是最關(guān)鍵的信息,可以 通過聯(lián)系方式進(jìn)行咨詢和購買,因此如果每個(gè)長達(dá)幾分鐘的廣告,電 視機(jī)都能自動(dòng)記錄類似的關(guān)鍵畫面,對(duì)于用戶則可以非常方便的了解 各個(gè)廣告的內(nèi)容,進(jìn)行回放或根據(jù)記錄的關(guān)鍵畫面中的內(nèi)容聯(lián)系廠商 進(jìn)行購買,而不用隨時(shí)帶上紙筆準(zhǔn)備記錄。
在圖5中,節(jié)目聲音播放聯(lián)系電話的同時(shí),視頻畫面中的圖片也 打出相應(yīng)的聯(lián)系方式,此時(shí),通過以"聯(lián)系電話"為關(guān)鍵詞對(duì)音視頻 進(jìn)行識(shí)別,匹配后進(jìn)行記錄。之所以要求音視頻時(shí)間戳匹配,是只有 節(jié)目中突出強(qiáng)調(diào)并希望用戶引起強(qiáng)烈注意的內(nèi)容,會(huì)通過音視頻兩種 方式同時(shí)播放給用戶,以引起廣泛注意。如果只采取獨(dú)立的音頻識(shí)別 或視頻識(shí)別方式,則很可能記錄很多的無用的內(nèi)容,或者記錄多張內(nèi) 容相同的圖片。如圖5所示,對(duì)視頻畫面,可能有多張采集內(nèi)容相同, 如圖片2和圖片3,而此時(shí),在聲音流中,很可能只說一次關(guān)鍵詞,應(yīng) 用聲音和視頻的雙重識(shí)別,則可以過濾掉較多的重復(fù)信息。
對(duì)于多個(gè)關(guān)鍵詞的情況,如果音視頻同時(shí)檢測到該圖片/音頻符合 多個(gè)關(guān)鍵詞的要求,則說明此圖片作為識(shí)別結(jié)果的可信賴的程度更高。 因此所記錄的內(nèi)容中,也可以通過設(shè)定信賴程度,來區(qū)分各個(gè)記錄相 符與多個(gè)關(guān)鍵詞的匹配程度。圖6為信息記錄單元中記錄的精華信息提取內(nèi)容索引。如圖所示,
包括采集日期、采集時(shí)間、所在頻道、節(jié)目內(nèi)容、其他信息等,以及 最為重要的是屏幕截屏,當(dāng)然記錄結(jié)果可以是屏幕截屏,也可以是音 視頻片段等等多種方式。通過這種方式,用戶可以很容易的知道相關(guān)
節(jié)目內(nèi)容的精華介紹及其聯(lián)系方式,同時(shí),通過關(guān)聯(lián)的EPG信息,可 以知道是否有重播,是否有關(guān)聯(lián)節(jié)目的推薦等等。圖6所示的內(nèi)容條 目可以由用戶定制,如增加匹配級(jí)別,內(nèi)容重復(fù)次數(shù)等,這些都可以 由用戶通過用戶接口單元配置信息存儲(chǔ)單元的參數(shù)進(jìn)行設(shè)定。用戶也 可以根據(jù)需要,隨時(shí)對(duì)信息存儲(chǔ)單元中的記錄進(jìn)行注釋、刪除等操作。
圖7為時(shí)鐘校正原理。廣播端在傳輸流中加入了節(jié)目時(shí)鐘參考 PCR,用來校正信號(hào)廣播端和播放終端的時(shí)間,即系統(tǒng)時(shí)鐘。經(jīng)過校 正的系統(tǒng)時(shí)鐘作為音視頻解碼,以及音視頻和其他信息的輸出基準(zhǔn)。 PTS為音視頻和服務(wù)信息的表示時(shí)間戳,DTS為音視頻的解碼時(shí)間戳。 以系統(tǒng)時(shí)鐘為基準(zhǔn),DTS來保證解碼器解碼音視頻同步,PTS來保證 音視頻輸出時(shí)的同步。所謂的同步,即保證接收解碼端播放的音視頻 與編碼廣播方的一致性,再現(xiàn)廣播方節(jié)目源的內(nèi)容。
當(dāng)然,對(duì)于廣播方的節(jié)目源中出現(xiàn)的內(nèi)容在音視頻方面出現(xiàn)的差 別,通過這種時(shí)鐘校正的方式是得不到解決的,而這種場景在實(shí)際節(jié) 目中也經(jīng)常出現(xiàn),如在體育比賽中,最精彩的環(huán)節(jié)往往是非常短暫的, 而作為節(jié)目評(píng)論,則要對(duì)此環(huán)節(jié)進(jìn)行詳細(xì)講述,容易出現(xiàn)音視頻的不 同步,而這種問題是不能通過圖7所示的方法解決的。再如在股票行 情或天氣預(yù)報(bào)節(jié)目中,分為多個(gè)屏幕介紹全國各個(gè)城市的天氣,在介 紹前一個(gè)屏幕最后一個(gè)城市的天氣時(shí),可能畫面已經(jīng)切換到后一個(gè)屏 幕,此時(shí)聲音所述的城市已經(jīng)不在當(dāng)前畫面中,通過嚴(yán)格的時(shí)間戳控 制取得的聲音和畫面對(duì)關(guān)鍵城市的匹配是不成功的,即聲音和畫面不 同步。對(duì)于這種情況,在本發(fā)明所述的設(shè)備和方法中,已經(jīng)給予考慮, 如圖8所示。
如圖8所示,為了保證音視頻的同步,采用系統(tǒng)時(shí)間、解碼時(shí)間 和表示時(shí)間,使得播放端和接收端在音視頻播放上保持一致性。本發(fā) 明中聲音和視頻的識(shí)別也以系統(tǒng)時(shí)間為基準(zhǔn)對(duì)音視頻流進(jìn)行識(shí)別和采 樣。音視頻采樣窗口表示只對(duì)處于采樣窗口內(nèi)的音視頻流進(jìn)行聲音識(shí)別和圖像緩存,并進(jìn)而進(jìn)行圖像識(shí)別。聲音識(shí)別和圖像識(shí)別的結(jié)果由
圖3中27時(shí)間校正單元進(jìn)行時(shí)間戳和允許時(shí)間誤差校驗(yàn)。如果兩個(gè)時(shí) 間戳的差在一定允許范圍內(nèi),則認(rèn)定此次音視頻識(shí)別匹配成功,并進(jìn) 而進(jìn)行信息存儲(chǔ)。如果時(shí)間誤差較大,超出允許誤差,則認(rèn)為非同時(shí) 發(fā)生,則丟棄此次識(shí)別結(jié)果。如上述的天氣預(yù)報(bào)和體育解說現(xiàn)象,通 過設(shè)定時(shí)間允許誤差范圍,可以確保應(yīng)該同時(shí)發(fā)生而實(shí)際出現(xiàn)誤差的 情況,在本發(fā)明中被有效的成功采集并記錄。
圖9為本發(fā)明所述設(shè)備和方法的工作流程。當(dāng)用戶開機(jī)或者調(diào)臺(tái) 后(101)選擇指定節(jié)目進(jìn)行播放(102),此時(shí)信息采集單元讀取用戶 對(duì)該節(jié)目的配置參數(shù)(103),如果該節(jié)目的配置參數(shù)為開啟敏感信息 提取功能(104),則啟動(dòng)音視頻識(shí)別功能(105)。然后信息采集單元 根據(jù)用戶指定的敏感信息,如關(guān)鍵詞,對(duì)聲音和視頻圖像進(jìn)行關(guān)鍵詞 識(shí)別(106),如果音視頻對(duì)關(guān)鍵詞的識(shí)別都成功(107),則將音視頻 識(shí)別結(jié)果進(jìn)行時(shí)間同步性校驗(yàn),看是否在允許時(shí)間差范圍內(nèi)(108), 如果是,則記錄此次識(shí)別結(jié)果于信息記錄單元(109),之后進(jìn)行下一 次的識(shí)別。如果此功能沒有開啟,或者識(shí)別錯(cuò)誤或時(shí)間不同步,則進(jìn) 行下次識(shí)別。用戶可以根據(jù)需要隨時(shí)通過用戶接口單元控制,讀取己 存儲(chǔ)的成功識(shí)別結(jié)果的記錄(110),然后將識(shí)別結(jié)果回放給用戶收看 (111)。
圖IO為視頻圖像識(shí)別在不同觸發(fā)模式下的工作方式。當(dāng)敏感信息 提取功能被開啟后,視頻圖像識(shí)別功能也被開啟(圖9步驟105)(圖 10步驟201),此時(shí)讀取用戶對(duì)圖像識(shí)別的配置參數(shù),如視頻圖像采集 頻率(202),之后將視頻圖像按照指定的采集頻率采集進(jìn)圖像緩存單 元(203),根據(jù)配置參數(shù),確定圖像識(shí)別的觸發(fā)方式(204),如果為 自動(dòng)識(shí)別,即音視頻相互獨(dú)立根據(jù)指定關(guān)鍵詞進(jìn)行識(shí)別,則實(shí)時(shí)對(duì)采 集的圖像進(jìn)行關(guān)鍵信息識(shí)別(206),如果為音頻優(yōu)先,即音頻識(shí)別成 功后對(duì)視頻進(jìn)行識(shí)別模式,則等待音頻識(shí)別結(jié)果(205),如果音頻識(shí) 別成功,則順序讀取圖像緩存單元中的圖像,再逐一進(jìn)行圖像識(shí)別 (207)。如果圖像識(shí)別也成功(208),則送入時(shí)間校正匹配單元對(duì)音 視頻識(shí)別結(jié)果進(jìn)行時(shí)間判斷(209),判斷音視頻時(shí)間戳是否滿足誤差 要求,如果時(shí)間滿足要求,即在允許誤差范圍內(nèi),則認(rèn)定為一個(gè)成功的信息提取,此時(shí)是否能夠記錄在信息存儲(chǔ)單元中,還要檢查當(dāng)前的
識(shí)別與已存儲(chǔ)的內(nèi)容是否有完全重復(fù)(210),根據(jù)配置參數(shù),選擇丟 棄、更新、覆蓋或者追加記錄(211)。
此處需要說明的是,圖像緩存單元中圖像采集數(shù)量,以及圖像識(shí) 別時(shí)從其中取出的圖片時(shí)間信息,也是可以由用戶進(jìn)行指定,即過于 陳舊的圖片認(rèn)定為已經(jīng)失效,不進(jìn)行圖像識(shí)別, 一般來說可以理解為 在聲音識(shí)別成功之前的一段允許時(shí)間到聲音識(shí)別成功后一段時(shí)間內(nèi)的 圖片,都是與聲音識(shí)別時(shí)刻較為接近的圖片,即可以被認(rèn)為是與聲音 同步播放的視頻畫面。在音視頻同步識(shí)別成功的情況下,如何確定某 一幅圖片是最為接近和可靠的,則可以根據(jù)時(shí)間戳判定,即在多個(gè)成 功識(shí)別且在允許誤差范圍內(nèi)的圖片,他們可能在內(nèi)容上非常相似,且 時(shí)間上也非常接近,此時(shí),則由時(shí)間匹配單元進(jìn)行判斷,與音頻識(shí)別 成功時(shí)刻最為接近的且成功識(shí)別的圖片被認(rèn)為是最為可靠的圖片。由 此,從圖片緩存單元中取出圖像進(jìn)行圖像識(shí)別的方法也可以有多種, 如從音頻識(shí)別成功時(shí)刻開始,向時(shí)間軸的兩側(cè)方向識(shí)別,這樣保證第 一個(gè)識(shí)別成功的圖片即為與音頻識(shí)別時(shí)間最接近的圖片,進(jìn)而進(jìn)行保 存。當(dāng)然也可以順序讀取進(jìn)行識(shí)別,再進(jìn)行時(shí)間判斷。或者不將最接 近音頻識(shí)別成功時(shí)刻作為指標(biāo),只要在時(shí)間誤差的允許范圍內(nèi)的視頻 圖像都可以被信賴而記錄。
圖11為舉例說明匹配的過程。圖中所示,圖像存儲(chǔ)單元存儲(chǔ)了一 段時(shí)間內(nèi)的視頻采集圖像,左側(cè)圖像對(duì)應(yīng)是圖像緩存單元中時(shí)間上比 較靠前的圖像,右側(cè)圖像對(duì)應(yīng)的是圖像緩存單元較為靠后的圖像。由 于圖像緩存單元中存儲(chǔ)一段時(shí)間的圖像,因此可能圖像緩存單元中的 圖像為兩個(gè)不同的內(nèi)容,如之前為銷售電腦的廣告,之后為銷售電話 的廣告。對(duì)于此例子中,識(shí)別的關(guān)鍵詞為"(聯(lián)系電話'+8位以上連續(xù) 阿拉伯?dāng)?shù)字"。當(dāng)音頻中輸出為"聯(lián)系電話8888 6666..."等內(nèi)容時(shí), 根據(jù)識(shí)別規(guī)則,此時(shí)音頻識(shí)別成功。對(duì)于圖像識(shí)別,此時(shí)圖像識(shí)別單 元取出位于圖像緩沖區(qū)中的圖像依次進(jìn)行識(shí)別。對(duì)于左側(cè)圖像,圖片 中出現(xiàn)了 "聯(lián)系電話"的文字,并出現(xiàn)了連續(xù)的8位以上的數(shù)字,根 據(jù)匹配規(guī)則,此時(shí)視頻識(shí)別也成功。對(duì)于左側(cè)圖像識(shí)別和音頻識(shí)別, 按照時(shí)間校正匹配規(guī)則,音頻識(shí)別成功時(shí)刻和視頻圖像識(shí)別成功非常接近,滿足時(shí)間差要求,說明此時(shí)左側(cè)圖像為一個(gè)成功的識(shí)別匹配結(jié) 果,可以進(jìn)行保存處理。而對(duì)于右側(cè)圖像來說,此時(shí)圖像的出現(xiàn)時(shí)刻 有可能與音頻識(shí)別成功時(shí)刻也滿足時(shí)間差的要求,但是此時(shí)右側(cè)圖像 中的內(nèi)容,如"手提電話"和"該電話",雖然與"聯(lián)系電話"可能出
現(xiàn)模糊匹配成功,但是屏幕上只有連續(xù)的4位阿拉伯?dāng)?shù)字,不滿足8 位以上阿拉伯?dāng)?shù)字的要求。因此右側(cè)圖像是不滿足識(shí)別與匹配的要求, 即不對(duì)視頻識(shí)別成功時(shí)刻進(jìn)行后續(xù)處理,如時(shí)間戳比較和存儲(chǔ)。
如圖12所示為針對(duì)音視頻識(shí)別過程中的匹配是否成功的判斷關(guān)系 表。如圖所示,用戶通過用戶接口單元指定了關(guān)鍵詞,如指定兩個(gè)"聯(lián) 系電話"和"電話號(hào)碼",二者為或的關(guān)系,即檢測出其中一個(gè)即為檢 測成功。圖中用戶指定的音視頻識(shí)別規(guī)則是"音頻與用戶指定關(guān)鍵詞 完全一致,視頻為8位以上連續(xù)的阿拉伯?dāng)?shù)字(即0~9)。此時(shí),對(duì)應(yīng) 于音頻識(shí)別成功的原則是,如圖中音視頻關(guān)系表中的音頻匹配列所示, 即音頻檢測中,出現(xiàn)2個(gè)關(guān)鍵詞之中任意一個(gè)詞,即判斷為音頻識(shí)別 成功,即音頻識(shí)別的規(guī)則要求音頻中必須出現(xiàn)與用戶規(guī)定完全一致的 內(nèi)容才認(rèn)定音頻識(shí)別成功。對(duì)音頻識(shí)別的算法,可以采用現(xiàn)有技術(shù), 如采用小波域隱馬爾科夫模型HMM的語音識(shí)別算法,或如美國商用 機(jī)器公司IBM的語音識(shí)別輸入系統(tǒng)ViaVoice等軟件中使用的方法。而 對(duì)視頻識(shí)別方面來說,視頻識(shí)別成功的原則是視頻圖像中含有8位 連續(xù)的阿拉伯?dāng)?shù)字。針對(duì)阿拉伯?dāng)?shù)字的視頻圖像檢測,可利用現(xiàn)有技 術(shù),如通過小波分析后進(jìn)行模板匹配算法等,或如交通監(jiān)視錄像中對(duì) 汽車車牌自動(dòng)識(shí)別系統(tǒng)中所使用的車牌識(shí)別算法,可以檢測出是否出 現(xiàn)多位連續(xù)的,為0~9的阿拉伯?dāng)?shù)字。如果數(shù)字出現(xiàn)位置不連續(xù),則 判斷為不成功,或者如最多是7位連續(xù)數(shù)字,則判斷為不成功,如果 8位或更多連續(xù)數(shù)字,則可以認(rèn)為是成功的。即對(duì)應(yīng)圖中所示的音視頻 關(guān)系表中視頻匹配項(xiàng)目所示。此例中,對(duì)視頻檢測是否成功的認(rèn)定是 識(shí)別的數(shù)字位數(shù)和是否為數(shù)字,而并不關(guān)心8位連續(xù)的阿拉伯?dāng)?shù)字具 體是什么數(shù)字。在音視頻識(shí)別都為成功的情況下,再按照所述的邏輯 關(guān)系圖,進(jìn)行音視頻時(shí)間戳檢驗(yàn)和與存儲(chǔ)單元中的內(nèi)容是否一致性檢 驗(yàn),進(jìn)而進(jìn)行存儲(chǔ)。
當(dāng)然,本發(fā)明所述的方法中,也可以只通過一種識(shí)別方式來實(shí)現(xiàn)對(duì)敏感信息的獲取和保存,這些都可以通過用戶設(shè)置系統(tǒng)的工作方式 來實(shí)現(xiàn)。比如,用戶可以關(guān)閉視頻識(shí)別功能,即只檢測音頻中是否出 現(xiàn)敏感信息,如果檢測到,則將此時(shí)的敏感信息抽取出來并進(jìn)行存儲(chǔ), 此時(shí),系統(tǒng)不關(guān)心視頻流中是否有對(duì)應(yīng)的敏感信息出現(xiàn),即不進(jìn)行音 視頻識(shí)別匹配過程。存儲(chǔ)內(nèi)容也可以為之前所述的視頻圖片、音視頻 片段或識(shí)別結(jié)果等。同樣的,也可以關(guān)閉音頻識(shí)別功能,只檢測視頻 流中是否包含有敏感信息,只需要檢測視頻中的信息與用戶輸入的敏 感信息相匹配,即可認(rèn)為此信息是用戶感興趣的內(nèi)容并將其保存在信 息存儲(chǔ)單元中。
本發(fā)明所述的用戶配置參數(shù)包括以下幾類1)節(jié)目定制參數(shù);2) 工作模式選擇;3)工作參數(shù)設(shè)定;4)敏感信息輸入?yún)?shù)。其中節(jié)目 定制參數(shù)主要包括用戶選擇的節(jié)目名稱、頻道編號(hào)、檢測功能開啟 的時(shí)間、針對(duì)該節(jié)目的每日重復(fù)是否啟用同樣配置等。工作模式選擇 主要包括敏感信息檢測功能的啟動(dòng)模式,如自動(dòng)啟動(dòng)或手動(dòng)啟動(dòng)或 定時(shí)啟動(dòng)等;音視頻檢測的處理模式,如只針對(duì)音頻或者視頻進(jìn)行識(shí) 別,或者音頻識(shí)別一直工作,如果識(shí)別成功觸發(fā)視頻識(shí)別模塊再進(jìn)行 視頻識(shí)別,或者視頻識(shí)別一直工作,視頻識(shí)別成功后啟動(dòng)音頻識(shí)別模 塊再進(jìn)行音頻識(shí)別,或者音視頻識(shí)別都一直在工作等;信息存儲(chǔ)單元 的存儲(chǔ)模式,如對(duì)出現(xiàn)相同內(nèi)容的情況下采用追加記錄,或覆蓋記錄, 或不記錄,是否自動(dòng)編輯信息條目等,以及對(duì)緩沖圖片的識(shí)別順序, 如由音頻識(shí)別成功時(shí)刻開始向前向后交互識(shí)別,還是由緩沖區(qū)單元中 按照時(shí)間順序進(jìn)行圖片識(shí)別等。對(duì)工作參數(shù)的設(shè)定主要包括音頻識(shí) 別采樣窗口的長度,如5秒或10秒;視頻緩沖區(qū)的大小,如緩存5張 圖片或10張;視頻采樣頻率,如每秒采樣5張圖片或10張,或只采 樣I幀圖像等;時(shí)間校正匹配單元的參數(shù),如音視頻識(shí)別成功的時(shí)刻誤 差在1秒之內(nèi)的認(rèn)為是同步發(fā)生,或者是0.5秒等。對(duì)敏感信息的輸入 參數(shù)包括敏感信息內(nèi)容,如"聯(lián)系電話",敏感信息的處理方式,如
精確匹配或模糊匹配,或者是通過某種邏輯關(guān)系。所謂精確匹配是指 識(shí)別結(jié)果完全等于輸入內(nèi)容,所謂模糊匹配是指對(duì)輸入內(nèi)容的同義詞 近義詞也進(jìn)行匹配,如輸入是"聯(lián)系電話"而檢測到"聯(lián)系方式"、"熱 線電話"、"電話號(hào)碼"等時(shí)也視為檢測成功,當(dāng)然,音視頻檢測到的內(nèi)容可以不一致,但類似上述的近義詞時(shí)也視為檢測成功。所述的邏 輯關(guān)系是指用戶可以通過指定某種邏輯關(guān)系而設(shè)定敏感信息,如固定 詞+非指定詞,舉例如"'聯(lián)系電話'+連續(xù)8位以上阿拉伯?dāng)?shù)字";或 者是對(duì)音視頻識(shí)別內(nèi)容指定某種邏輯關(guān)系,舉例如音頻檢測"聯(lián)系電 話",視頻檢測連續(xù)8位以上非指定阿拉伯?dāng)?shù)字,等等諸如此類的邏輯 關(guān)系。
在以上所述實(shí)施例中,關(guān)鍵詞的輸入方式為用戶預(yù)先輸入的,而 關(guān)鍵詞的定義方式不局限于此,本發(fā)明的關(guān)鍵詞的定義方式也可以為 用戶實(shí)時(shí)定義的關(guān)鍵詞。作為本發(fā)明實(shí)施例的擴(kuò)充,用戶可以根據(jù)電 視播放音視頻內(nèi)容,隨時(shí)定義敏感關(guān)鍵詞。如在很多的情況下,用戶 在收看節(jié)目的時(shí)候突然發(fā)現(xiàn)自己比較感興趣的內(nèi)容,而這些內(nèi)容并沒 有被用戶預(yù)知而定義了關(guān)鍵詞,對(duì)于突然發(fā)現(xiàn)的這種敏感信息,用戶 可以通過實(shí)時(shí)定義關(guān)鍵詞。如在正常節(jié)目播放過程中,電視畫面中播 放滾動(dòng)文字新聞。此時(shí)用戶突然發(fā)現(xiàn)一條感興趣的內(nèi)容,可以立即通 過快捷鍵對(duì)敏感詞進(jìn)行定義,修改或增加新的關(guān)鍵詞,關(guān)閉或啟動(dòng)敏 感詞監(jiān)視功能等操作。此時(shí),本系統(tǒng)根據(jù)新定義的關(guān)鍵詞進(jìn)行敏感信 息檢測,如對(duì)滾動(dòng)文字新聞開啟只對(duì)視頻內(nèi)容對(duì)新增加的敏感信息進(jìn) 行檢測,則可以立即將當(dāng)前畫面檢測出來,并進(jìn)行存儲(chǔ),或者,在滾 動(dòng)信息第二次出現(xiàn)時(shí),將其抓獲,從而避免了用戶需要等待很長的滾 動(dòng)周期,并且在此周期內(nèi)一直需要密切注意畫面內(nèi)容的辛勞。
不僅如此,用戶還可以通過對(duì)關(guān)鍵詞的輸入對(duì)電視進(jìn)行實(shí)時(shí)的控 制,如用戶在瀏覽EPG (電子節(jié)目指南)或選臺(tái)過程中,可以直接輸 入希望的頻道名稱,在快速瀏覽EPG的過程中,迅速檢索到此頻道, 從而進(jìn)行頻道的快速搜索和切換。同時(shí),在瀏覽EPG的時(shí)候,也可以 通過識(shí)別匹配關(guān)鍵詞對(duì)EPG畫面進(jìn)行快速定位和自動(dòng)切換,避免了使 用遙控器多種按鍵進(jìn)行復(fù)雜操作而進(jìn)行EPG的瀏覽。通過用戶輸入的 關(guān)鍵詞,通過關(guān)鍵詞、以及音視頻內(nèi)容的匹配,極大的方便用戶在收 看電視過程中對(duì)電視機(jī)及電視節(jié)目內(nèi)容的操作和控制。
以上是基于數(shù)字電視為例子,以電視購物節(jié)目為實(shí)例,講述該發(fā) 明設(shè)備組成和具體實(shí)施流程。應(yīng)該理解的是,該設(shè)備和方法可以應(yīng)用 在相同或相似功能的音視頻播放采集設(shè)備中,針對(duì)各種音視頻節(jié)目類型都適用。如金融節(jié)目中,針對(duì)隨時(shí)變動(dòng)的股票行情,用戶即可通過 特殊的股票名稱和代碼,從而從短暫播報(bào)時(shí)間,多項(xiàng)的股票列表和很 快變動(dòng)的行情中提取出所關(guān)注的信息。再如電視授課節(jié)目或購買的教 學(xué)節(jié)目光盤播放時(shí),很多情況下,教師會(huì)音頻讀取重點(diǎn)章節(jié)的內(nèi)容, 同時(shí)在視頻畫面展示關(guān)鍵信息,此時(shí)通過用戶設(shè)定關(guān)鍵信息的方式, 截取指定格式的內(nèi)容,如畫面、錄音等,自動(dòng)編寫電子筆記,以便復(fù) 習(xí),極大方便了用戶的使用。
權(quán)利要求
1.一種音視頻處理裝置,包括接收播放信號(hào)輸出傳輸流的接收單元;對(duì)所述接收單元輸出的傳輸流進(jìn)行解碼的解碼單元;接收用戶輸入的指定內(nèi)容的用戶接口單元,其特征在于,該音視頻處理裝置還包括提取規(guī)定內(nèi)容的信息提取單元;和存儲(chǔ)所述規(guī)定內(nèi)容的信息存儲(chǔ)單元,所述指定內(nèi)容包括指定視頻內(nèi)容或指定音頻內(nèi)容的一方,另一方由預(yù)先存儲(chǔ)的音視頻對(duì)照關(guān)系表來確定,所述信息提取單元包括音頻識(shí)別單元,從來自所述解碼單元的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別單元,從來自所述解碼單元的視頻流中識(shí)別出指定視頻內(nèi)容;和信息匹配單元,接收來自所述音頻識(shí)別單元的識(shí)別結(jié)果和所述視頻識(shí)別單元的識(shí)別結(jié)果,確定音頻識(shí)別單元的識(shí)別結(jié)果與所述視頻識(shí)別單元的識(shí)別結(jié)果是否匹配,在二者匹配的情況下,則將與所述指定視頻內(nèi)容或和所述指定音頻內(nèi)容對(duì)應(yīng)的規(guī)定內(nèi)容記錄在所述信息存儲(chǔ)單元中。
2. 如權(quán)利要求l所述的音視頻處理裝置,其特征在于, 所述指定內(nèi)容還包括所述信息提取單元的規(guī)定的啟動(dòng)模式, 所述規(guī)定的啟動(dòng)模式是指如下模式之一(1) 所述視頻識(shí)別單元的啟動(dòng)在所述音頻識(shí)別單元的識(shí)別成功后 進(jìn)行,此時(shí)的視頻識(shí)別對(duì)象是音頻識(shí)別單元的識(shí)別成功時(shí)刻前后規(guī)定 時(shí)間段內(nèi)的視頻流;(2) 所述音頻識(shí)別單元的啟動(dòng)在所述視頻識(shí)別單元的識(shí)別成功后 進(jìn)行,此時(shí)的音頻識(shí)別對(duì)象是視頻識(shí)別單元的識(shí)別成功時(shí)刻前后規(guī)定 時(shí)間段內(nèi)的音頻流;(3) 所述音頻識(shí)別單元的啟動(dòng)與所述視頻識(shí)別單元的啟動(dòng)相互獨(dú)
3. 如權(quán)利要求l所述的音視頻處理裝置,其特征在于, 所述音頻識(shí)別單元的識(shí)別結(jié)果與所述視頻識(shí)別單元的識(shí)別結(jié)果是否匹配是指音頻識(shí)別單元識(shí)別出指定音頻內(nèi)容的音頻時(shí)間戳和所述視 頻識(shí)別單元識(shí)別出指定視頻內(nèi)容的視頻時(shí)間戳是否匹配,在二者的時(shí) 間戳匹配的情況下,則將與該兩個(gè)時(shí)間戳對(duì)應(yīng)的音頻信息和視頻信息 記錄在所述信息存儲(chǔ)單元中。
4. 如權(quán)利要求3所述的音視頻處理裝置,其特征在于,所述信息提取單元還包括吋鐘校正單元,所述時(shí)鐘校正單元確定所述音頻時(shí)間戳和所述視 頻時(shí)間戳是否匹配。
5. 如權(quán)利要求4所述的音視頻處理裝置,其特征在于, 確定所述音頻時(shí)間戳和所述視頻時(shí)間戳是否匹配是指二者所對(duì)應(yīng)的識(shí)別成功時(shí)刻的時(shí)間差在規(guī)定范圍內(nèi)。
6. 如權(quán)利要求5所述的音視頻處理裝置,其特征在于, 所述規(guī)定范圍是指如下范圍之一0以上300亳秒以下;0以上100毫秒以下;0以上50毫秒以下;O毫秒。
7. 如權(quán)利要求3所述的音視頻處理裝置,其特征在于,將與所述兩個(gè)時(shí)間戳對(duì)應(yīng)的音頻信息和視頻信息記錄在所述信息 存儲(chǔ)單元中可以是覆蓋記錄也可以是追加記錄。
8. 如權(quán)利要求l所述的音視頻處理裝置,其特征在于,所述音頻 識(shí)別單元包括音頻采集單元(21),該音頻采集單元從來自所述解碼單元的音頻 流中采集音頻信號(hào);和音頻關(guān)鍵詞提取與匹配單元(24),將所述音頻采集單元所采集的 音頻信號(hào)與所述指定音頻內(nèi)容進(jìn)行匹配,以從來自所述解碼單元的音 頻流中識(shí)別出從所述指定內(nèi)容中的指定音頻內(nèi)容。
9. 如權(quán)利要求l所述的音視頻處理裝置,其特征在于,所述視頻識(shí)別單元包括視頻采集單元(22),該視頻采集單元從來自所述解碼單元的視頻流中按照規(guī)定采樣方式采集視頻圖像;和圖像關(guān)鍵詞識(shí)別單元,對(duì)所述視頻采集單元所采集的視頻圖像進(jìn)行檢測確認(rèn)該圖像中是否有所述指定視頻內(nèi)容,以從來自所述解碼單元的視頻流中識(shí)別出從所述指定內(nèi)容中的指定視頻內(nèi)容。
10. 如權(quán)利要求9所述的音視頻處理裝置,其特征在于,還包括圖像緩存單元,存儲(chǔ)所述視頻采集單元(22)所采集的視頻圖像,并在需要時(shí)將所存儲(chǔ)的視頻圖像送到所述圖像關(guān)鍵詞識(shí)別單元進(jìn)行識(shí)別。
11. 如權(quán)利要求9所述的音視頻處理裝置,其特征在于,所述規(guī)定采樣方式是連續(xù)抽取視頻流中的每一圖像幀或者按照規(guī)定抽取規(guī)則抽取規(guī)定的圖像幀。
12. 如權(quán)利要求ll所述的音視頻處理裝置,其特征在于,所述按照規(guī)定抽取規(guī)則抽取規(guī)定的圖像幀是指間隔規(guī)定時(shí)間提取規(guī)定數(shù)目的視頻圖像、或者是指僅提取規(guī)定類型的圖像幀。
13. 如權(quán)利要求1所述的音視頻處理裝置,其特征在于,所述規(guī)定內(nèi)容是指如下內(nèi)容中的至少一個(gè)作為與所述視頻指定內(nèi)容對(duì)應(yīng)的視頻信息的視頻圖像截屏信息、作為與所述音視頻指定內(nèi)容對(duì)應(yīng)的音視頻信息的音視頻片段、所述音頻識(shí)別單元的識(shí)別結(jié)果及所述視頻識(shí)別單元的識(shí)別結(jié)果的文本。
14. 如權(quán)利要求l所述的音視頻處理裝置,其特征在于,所述指定音頻內(nèi)容和所述指定視頻內(nèi)容相同。
15. —種音視頻處理裝置,包括接收播放信號(hào)輸出傳輸流的接收單元;對(duì)所述接收單元輸出的傳輸流進(jìn)行解碼的解碼單元;接收用戶輸入的指定內(nèi)容的用戶接口單元,其特征在于,該音視頻處理裝置還包括提取規(guī)定內(nèi)容的信息提取單元;和存儲(chǔ)所述規(guī)定內(nèi)容的信息存儲(chǔ)單元,所述指定內(nèi)容包括指定視頻內(nèi)容和指定音頻內(nèi)容,所述信息提取單元包括音頻識(shí)別單元,從來自所述解碼單元的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別單元,從來自所述解碼單元的視頻流中識(shí)別出指定視頻內(nèi)容;禾口信息匹配單元,接收來自所述音頻識(shí)別單元的識(shí)別結(jié)果和所述視頻識(shí)別單元的識(shí)別結(jié)果,確定音頻識(shí)別單元的識(shí)別結(jié)果與所述視頻識(shí)別單元的識(shí)別結(jié)果否匹配,在二者匹配的情況下,則將與所述指定視頻內(nèi)容和所述指定音頻內(nèi)容對(duì)應(yīng)的規(guī)定內(nèi)容記錄在所述信息存儲(chǔ)單元中。
16. —種音視頻處理方法,包括接收播放信號(hào)輸出傳輸流的接收工序;對(duì)所述接收工序輸出的傳輸流進(jìn)行解碼的解碼工序;接收用戶輸入的指定內(nèi)容的用戶輸入工序;基于用戶的指定內(nèi)容提取規(guī)定內(nèi)容的信息提取工序;和存儲(chǔ)所述規(guī)定內(nèi)容的信息存儲(chǔ)工序,其中,所述指定內(nèi)容包括指定視頻內(nèi)容和指定音頻內(nèi)容的一方或者兩方,在只包括其中一方的情況下,另一方由預(yù)先存儲(chǔ)的音視頻對(duì)照關(guān)系表來確定,所述信息提取工序包括音頻識(shí)別工序,從來自所述解碼工序的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別工序,從來自所述解碼工序的視頻流中識(shí)別出指定視頻內(nèi)容;和信息匹配工序,根據(jù)所述音頻識(shí)別工序的識(shí)別結(jié)果和所述視頻識(shí)別工序的識(shí)別結(jié)果,確定音頻識(shí)別結(jié)果與視頻識(shí)別結(jié)果是否匹配,在二者匹配的情況下,則將與所述指定視頻內(nèi)容和所述指定音頻內(nèi)容對(duì)應(yīng)的規(guī)定內(nèi)容記錄在信息存儲(chǔ)單元中。
17. 如權(quán)利要求1所述的音視頻處理方法,其特征在于,所述規(guī)定內(nèi)容是指如下內(nèi)容中的至少一個(gè)作為與所述指定視頻內(nèi)容對(duì)應(yīng)的視頻信息的視頻圖像截屏信息、作為與音視頻指定內(nèi)容對(duì)應(yīng)的音視頻信息的音視頻片段、所述音頻識(shí)別工序的識(shí)別結(jié)果及所述視頻識(shí)別工序的識(shí)別結(jié)果的文本。
18. 如權(quán)利要求16所述的音視頻處理方法,其特征在于,所述指定內(nèi)容還包括所述信息提取工序的規(guī)定的啟動(dòng)模式,所述規(guī)定的啟動(dòng)模式是指如下模式之一(1 )所述視頻識(shí)別工序的啟動(dòng)在所述音頻識(shí)別工序的識(shí)別成功后進(jìn)行,此時(shí)的視頻識(shí)別對(duì)象是音頻識(shí)別工序的識(shí)別成功時(shí)刻前后規(guī)定時(shí)間段內(nèi)的視頻流;(2) 所述音頻識(shí)別工序的啟動(dòng)在所述視頻識(shí)別工序的識(shí)別成功后進(jìn)行,此時(shí)的音頻識(shí)別對(duì)象是視頻識(shí)別工序的識(shí)別成功時(shí)刻前后規(guī)定時(shí)間段內(nèi)的音頻流;(3) 所述音頻識(shí)別工序的啟動(dòng)與所述視頻識(shí)別工序的啟動(dòng)相互獨(dú)
19. 如權(quán)利要求16所述的音視頻處理方法,其特征在于,所述音頻識(shí)別工序的識(shí)別結(jié)果與所述視頻識(shí)別工序的識(shí)別結(jié)果是否匹配是指音頻識(shí)別工序識(shí)別出指定音頻內(nèi)容的音頻時(shí)間戳和所述視頻識(shí)別工序識(shí)別出指定視頻內(nèi)容的視頻時(shí)間戳是否匹配,在二者的時(shí)間戳匹配的情況下,則將與該兩個(gè)時(shí)間戳對(duì)應(yīng)的音頻信息和視頻信息加以存儲(chǔ)。
20. 如權(quán)利要求19所述的音視頻處理方法,其特征在于,所述信息提取工序還包括確定所述音頻時(shí)間戳和所述視頻時(shí)間戳是否匹配的時(shí)鐘校正工序。
21. 如權(quán)利要求20所述的音視頻處理方法,其特征在于,確定所述音頻時(shí)間戳和所述視頻時(shí)間戳是否匹配是指二者所對(duì)應(yīng)的識(shí)別成功時(shí)刻的時(shí)間差在規(guī)定范圍內(nèi)。
22. 如權(quán)利要求21所述的音視頻處理方法,其特征在于,所述規(guī)定范圍是指如下范圍之一0以上300毫秒以下;0以上100毫秒以下;0以上50毫秒以下;O毫秒。
23. 如權(quán)利要求19所述的音視頻處理方法,其特征在于,將與所述兩個(gè)時(shí)間戳對(duì)應(yīng)的音頻信息和視頻信息進(jìn)行覆蓋記錄或者追加記錄。
24. 如權(quán)利要求16所述的音視頻處理方法,其特征在于,所述音頻識(shí)別工序包括從來自所述解碼單元的音頻流中采集音頻信號(hào)的音頻采集工序;和音頻關(guān)鍵詞提取與匹配工序,將所采集的音頻信號(hào)與所述指定音頻內(nèi)容進(jìn)行匹配,以從所述音頻流中識(shí)別出從所述指定音頻內(nèi)容。
25. 如權(quán)利要求16所述的音視頻處理方法,其特征在于,所述視頻識(shí)別工序包括視頻采集工序,從所述視頻流中按照規(guī)定采樣方式采集視頻圖像;和圖像關(guān)鍵詞識(shí)別工序,對(duì)所采集的視頻圖像進(jìn)行檢測確認(rèn)該圖像中是否有所述指定視頻內(nèi)容,以從所述視頻流中識(shí)別出從所述指定視頻內(nèi)容。
26. 如權(quán)利要求16所述的音視頻處理方法,其特征在于,所述規(guī)定采樣方式是連續(xù)抽取視頻流中的每一圖像幀或者按照規(guī)定抽取規(guī)則抽取規(guī)定的圖像幀。
27.如權(quán)利要求26所述的音視頻處理方法,其特征在于,所述按照規(guī)定抽取規(guī)則抽取規(guī)定的圖像幀是指間隔規(guī)定時(shí)間提取規(guī)定數(shù)目的視頻圖像、或者是指僅提取規(guī)定類型的圖像幀。
28.如權(quán)利要求16所述的音視頻處理方法,其特征在于,所述指定音頻內(nèi)容和所述指定視頻內(nèi)容相同。
全文摘要
本發(fā)明提供一種音視頻處理裝置和處理方法,該處理裝置包括接收信號(hào)輸出傳輸流的接收單元;對(duì)所輸出的傳輸流進(jìn)行解碼的解碼單元;接收用戶輸入的指定內(nèi)容的用戶接口單元;提取規(guī)定內(nèi)容的信息提取單元;和存儲(chǔ)規(guī)定內(nèi)容的信息存儲(chǔ)單元,指定內(nèi)容包括指定視頻內(nèi)容或指定音頻內(nèi)容的一方,另一方由音視頻對(duì)照關(guān)系表來確定,該信息提取單元包括音頻識(shí)別單元,從來自解碼單元的音頻流中識(shí)別出指定音頻內(nèi)容;視頻識(shí)別單元,從來自解碼單元的視頻流中識(shí)別出指定視頻內(nèi)容;和信息匹配單元,確定音頻識(shí)別單元的識(shí)別結(jié)果與視頻識(shí)別單元的識(shí)別結(jié)果是否匹配,二者匹配時(shí),將與指定視頻內(nèi)容或指定音頻內(nèi)容對(duì)應(yīng)的規(guī)定內(nèi)容記錄在信息存儲(chǔ)單元中。
文檔編號(hào)H04N7/52GK101600118SQ20081009989
公開日2009年12月9日 申請(qǐng)日期2008年6月6日 優(yōu)先權(quán)日2008年6月6日
發(fā)明者張志剛, 藤井由紀(jì)夫, 長屋茂喜 申請(qǐng)人:株式會(huì)社日立制作所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
延川县| 南郑县| 乌拉特后旗| 清镇市| 曲靖市| 鄂温| 石渠县| 蓝田县| 靖西县| 丰镇市| 普宁市| 高陵县| 阿拉善左旗| 海原县| 石景山区| 寻甸| 庆城县| 扶沟县| 九台市| 白朗县| 靖江市| 教育| 普格县| 长垣县| 如皋市| 比如县| 宿迁市| 且末县| 东海县| 上栗县| 桦南县| 成武县| 金山区| 邵武市| 建昌县| 曲阳县| 平泉县| 康保县| 乌审旗| 盐津县| 寻乌县|