專利名稱:從內(nèi)容元數(shù)據(jù)提取相關(guān)信息的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及向用戶提供相關(guān)信息,更具體地講,涉及利用內(nèi)容的元數(shù)據(jù) 來(lái)向用戶提供相關(guān)信息。
背景技術(shù):
電視(TV)是一種主要的娛樂工具,其提供廣泛的媒體以供家中娛樂。 隨著互聯(lián)網(wǎng)以及家庭網(wǎng)絡(luò)中的其它裝置上可用信息量的增加,需要將來(lái)自互 聯(lián)網(wǎng)和其它源的相關(guān)信息提供給用戶的TV。所述相關(guān)信息包括與TV上用戶 正在訪問的內(nèi)容有關(guān)的信息。這樣的信息是用戶有可能感興趣的信息。然而,TV信號(hào)不提供太多與內(nèi)容關(guān)聯(lián)的元數(shù)據(jù)來(lái)幫助尋找與該內(nèi)容有 關(guān)的信息。盡管在許多國(guó)家中,TV內(nèi)容提供商需要發(fā)送嵌入到TV信號(hào)中的 隱藏式字幕,但是存在眾多TV頻道,并且每一頻道攜帶包含節(jié)目的各種類 型的內(nèi)容,如體育賽事、肥皂劇、電影、情景喜劇、新聞、記錄片、商業(yè)信 息片、真人秀等。每一頻道在其隱藏式字幕中具有可能有用的不同數(shù)量和類 型的內(nèi)容。存在使用戶能夠在資源的網(wǎng)絡(luò)中獲得信息的現(xiàn)有方法。在一種方法中, 用戶請(qǐng)求信息。在另一種方法中,用戶通過提供關(guān)^fe詞來(lái)指定信息,然后瀏 覽信息以尋找滿足用戶需求的信息。然而,使用沒有鍵盤的裝置(如消費(fèi)類 電子(CE)裝置)來(lái)指定關(guān)鍵詞會(huì)是繁重的工作。這些傳統(tǒng)的方法沒有在不限制信息的特定源的情況下分析和獲得用戶感 興趣的信息。此外,這些方法沒有適應(yīng)正在觀看的節(jié)目的類型來(lái)獲得相關(guān)信 息。因此,需要一種在不限制信息的特定源的情況下分析并獲得用戶感興趣 的信息的方法和系統(tǒng)。此外,還需要一種適應(yīng)于所訪問的內(nèi)容的類型并向用 戶提供相關(guān)信息的方法和系統(tǒng)。發(fā)明內(nèi)容本發(fā)明提供一種從內(nèi)容元數(shù)據(jù)提取相關(guān)信息的方法和裝置。在一種實(shí)施方式中,這包含在不限制特定信息源的情況下,分析隱藏式字幕信息并獲得 用戶感興趣的信息。這樣的方法通過監(jiān)控用戶與電子裝置的交互以識(shí)別用戶 所訪問的信息,基于識(shí)別的信息(其中,所述識(shí)別的信息包括隱藏式字幕信 息)確定關(guān)鍵信息并基于所述關(guān)鍵信息在可用源上搜索用戶有可能感興趣的 信息,可用于提供對(duì)電子裝置的用戶有可能感興趣的信息的訪問。對(duì)可用源 的搜索包括基于所述關(guān)鍵信息形成查詢,并利用所述查詢搜索諸如互聯(lián)網(wǎng)的 夕卜部網(wǎng)絡(luò)。這樣的電子裝置的一個(gè)實(shí)現(xiàn)方式是CE裝置,如接收包含隱藏式字幕信 息的TV節(jié)目的TV。用戶正在訪問/觀看的TV節(jié)目的隱藏式字幕信息被分析, 并且關(guān)鍵信息(關(guān)鍵詞/短語(yǔ))被提取。所述關(guān)鍵信息被用于形成查詢并利用 諸如可用的互聯(lián)網(wǎng)搜索引擎的搜索引擎進(jìn)行搜索。搜索結(jié)果作為推薦被呈現(xiàn) 給用戶,所述推薦表示用戶有可能感興趣的信息。可在所述推薦中進(jìn)行選擇 以進(jìn)行進(jìn)一步搜索,從而尋找用戶感興趣的另外的和/或更精確的信息。本發(fā)明還提供基于內(nèi)容類型從內(nèi)容元數(shù)據(jù)提取信息。在一種實(shí)現(xiàn)方式中, 這包含適應(yīng)于訪問的內(nèi)容的不同類型改變關(guān)鍵詞提取?;趦?nèi)容的類型對(duì)從 元數(shù)據(jù)源(從諸如隱藏式字幕)提取與諸如TV節(jié)目的內(nèi)容相關(guān)的關(guān)鍵詞進(jìn) 行適應(yīng)性改變?;赥V節(jié)目的EPG信息來(lái)改變從TV節(jié)目的隱藏式字幕文 本的關(guān)鍵詞提取。EPG指示TV節(jié)目的類型,其中,利用EPG類型信息對(duì)從 隱藏式字幕的關(guān)鍵詞提取進(jìn)行參數(shù)化?;贓PG信息,TV節(jié)目的類型被用 于確定從TV節(jié)目的隱藏式字幕提取的關(guān)鍵詞的類型。通過參照下面的描述以及權(quán)利要求和附圖,本發(fā)明的這些和其它特征、 方面和優(yōu)點(diǎn)將容易理解。
圖1示出實(shí)現(xiàn)本發(fā)明的實(shí)施例的電子裝置的網(wǎng)絡(luò)的示例;圖2示出根據(jù)本發(fā)明實(shí)施例的分析TV隱藏式字幕信息以在互聯(lián)網(wǎng)上尋找相關(guān)信息的示例系統(tǒng)的功能框圖;圖3A示出根據(jù)本發(fā)明實(shí)施例的分析TV隱藏式字幕以在互聯(lián)網(wǎng)上尋找相關(guān)信息的處理的示例步驟的流程圖;圖3B示出圖3A的處理中的關(guān)鍵詞提取的示例步驟的流程圖;圖4示出根據(jù)本發(fā)明另一實(shí)施例的分析TV隱藏式字幕信息以在互聯(lián)網(wǎng)上尋找相關(guān)信息的另 一示例系統(tǒng)的功能框圖;圖5示出根據(jù)本發(fā)明實(shí)施例的分析元數(shù)據(jù)信息以尋找相關(guān)信息的另一處 理的示例步驟的流程圖;圖6示出根據(jù)本發(fā)明實(shí)施例的適應(yīng)于內(nèi)容類型來(lái)進(jìn)行關(guān)鍵信息提取的關(guān) 鍵信息提取器的框圖;圖7示出根據(jù)本發(fā)明的適應(yīng)于TV節(jié)目類型來(lái)進(jìn)行關(guān)鍵詞提取的示例關(guān) 鍵詞提取器的框圖;圖8示出根據(jù)本發(fā)明的不利用節(jié)目類型來(lái)進(jìn)行關(guān)鍵詞提取的示例關(guān)鍵詞 提取器的框圖;圖9示出根據(jù)本發(fā)明的具有適應(yīng)于TV節(jié)目類型來(lái)進(jìn)行關(guān)鍵詞提取或者 在不使用節(jié)目類型的情況下執(zhí)行關(guān)鍵詞提取的能力的示例關(guān)鍵詞提取器的框 圖;圖10示出根據(jù)本發(fā)明的實(shí)施例的利用根據(jù)圖9的關(guān)鍵詞提取器分析TV 隱藏式字幕信息來(lái)進(jìn)行關(guān)鍵詞提取以在互聯(lián)網(wǎng)上尋找相關(guān)信息的系統(tǒng)的功能框圖。
具體實(shí)施方式
本發(fā)明提供一種從內(nèi)容元數(shù)據(jù)提取信息的方法和系統(tǒng)。本發(fā)明還允許改 變從元數(shù)據(jù)源的信息提取以便適應(yīng)不同類型的內(nèi)容。在一個(gè)實(shí)施例中,本發(fā) 明提供一種在不限制信息的特定源的情況下分析并獲得用戶感興趣的信息的 方法和系統(tǒng)。通過監(jiān)控用戶與連接到外部網(wǎng)絡(luò)的裝置的本地網(wǎng)絡(luò)中的裝置的 交互來(lái)確定用戶有可能感興趣的信息。這樣的裝置可以是連接到互聯(lián)網(wǎng)的局 域網(wǎng)(例如,家庭網(wǎng)絡(luò))中的CE裝置。在一個(gè)實(shí)現(xiàn)方式中,這包含接收包含隱藏式字幕信息的隱藏式字幕節(jié) 目,并分析隱藏式字幕信息以得到指示用戶興趣的關(guān)鍵:信息。然后,使用關(guān) 鍵信息從諸如互聯(lián)網(wǎng)的信息源尋找用戶有可能感興趣的相關(guān)信息。諸如TV的典型CE裝置缺少一建盤,用戶難以通過輸入關(guān)4t詞來(lái)在互聯(lián) 網(wǎng)上搜索信息。如果用戶正在觀看TV節(jié)目,則這是用戶對(duì)該TV節(jié)目的內(nèi)容 感興趣的很好的暗示。因此,通過收集并分析針對(duì)該TV節(jié)目接收的作為隱 藏式字幕信息的文本來(lái)分析該TV節(jié)目的內(nèi)容。此外,從關(guān)于正在觀看的頻 道的信息收集上下文信息(contextual information )。隱藏式字幕信息和上下文信息可被組合并用于向用戶推薦用戶有可能感興趣的信息。收集的信息被用于確定用戶有可能感興趣的一個(gè)或多個(gè)關(guān)鍵詞。然后, 使用所述關(guān)鍵詞來(lái)在互聯(lián)網(wǎng)上搜索相關(guān)信息。例如,如果用戶正在觀看有關(guān) 巴爾的摩的新聞報(bào)道,則提取詞"巴爾的摩"作為關(guān)鍵詞。使用該關(guān)鍵詞來(lái) 形成查詢以利用搜索引擎搜索互聯(lián)網(wǎng),以便尋找信息,如包括關(guān)于巴爾的摩 市或者巴爾的摩烏鴉隊(duì)等的信息的網(wǎng)址。搜索結(jié)果作為推薦被呈現(xiàn)給用戶,該推薦包括可能的搜索查詢,這些搜 索查詢可被用戶選4奪并執(zhí)行,以在互聯(lián)網(wǎng)上尋找用戶可能感興趣的進(jìn)一步的信息。例如,當(dāng)用戶正在TV上觀看關(guān)于南極洲的記錄片時(shí),關(guān)鍵詞"南極 洲"被選為關(guān)鍵詞,互聯(lián)網(wǎng)上的搜索返回"北極熊"作為用戶有可能感興趣 的推薦。然后,用戶可選擇該推薦以尋找關(guān)于北極熊的更多信息。如果用戶 選擇了該推薦,則用于"北極熊"的查詢被發(fā)送給搜索引擎,結(jié)果被顯示給 用戶。搜索不限于預(yù)定數(shù)量或固定數(shù)量的類別或查詢或者信息源。在一個(gè)示例 中,基于隱藏式字幕信息來(lái)識(shí)別關(guān)鍵詞以便搜索。可向用戶建議關(guān)鍵詞,一 旦用戶選擇,利用在互聯(lián)網(wǎng)上搜索可用源的搜索引擎(不同的網(wǎng)址對(duì)這些搜 索引擎可用)來(lái)獲得另外的信息,而非使用預(yù)定數(shù)量和/或固定數(shù)量的源,如 一個(gè)或多個(gè)特定網(wǎng)址。圖1示出根據(jù)本發(fā)明實(shí)施例的示例網(wǎng)絡(luò)10,如本地網(wǎng)絡(luò)(例如,家庭網(wǎng) 絡(luò),局域網(wǎng)(LAN))的功能架構(gòu)。網(wǎng)絡(luò)10實(shí)現(xiàn)分析TV隱藏式字幕信息以 在互聯(lián)網(wǎng)50上尋找相關(guān)信息的處理。網(wǎng)絡(luò)10包括諸如可能包含內(nèi)容的設(shè)備 的電子裝置20以及可能包含內(nèi)容的CE裝置30 (例如,TV、 DVD播放器、 蜂窩電話、PDA)。網(wǎng)絡(luò)10還包括將網(wǎng)絡(luò)10連接到外部網(wǎng)絡(luò)50 (例如,另 一個(gè)本地網(wǎng)絡(luò)、互聯(lián)網(wǎng))的接口 40。外部網(wǎng)絡(luò)50連接到一個(gè)或多個(gè)服務(wù)器 51。裝置20和30可實(shí)現(xiàn)有用于在其間進(jìn)行通信的通用即插即用(UPnP)協(xié) 議。本領(lǐng)域技術(shù)人員應(yīng)該理解,本發(fā)明可使用其它網(wǎng)絡(luò)通信協(xié)議(例如,Jini、 HAVi、 IEEE 1394)。此外,網(wǎng)絡(luò)10可以是有線網(wǎng)絡(luò)、無(wú)線網(wǎng)絡(luò)或其組合。如下面將進(jìn)一步描述的,在一個(gè)示例中,根據(jù)本發(fā)明的分析TV隱藏式 字幕信息并建議用戶感興趣的信息的處理可在圖1的裝置30中實(shí)現(xiàn)。實(shí)現(xiàn)分 析TV隱藏式字幕信息的處理的系統(tǒng)接收作為輸入的TV信號(hào)。監(jiān)控用戶正在 觀看的頻道,并且分析作為TV信號(hào)的一部分的相應(yīng)的隱藏式字幕信息。然后,確定一組關(guān)鍵詞,這些關(guān)鍵詞捕獲了用戶正在觀看的內(nèi)容的要點(diǎn)。圖2示出根據(jù)本發(fā)明實(shí)施例的分析TV隱藏式字幕信息的示例系統(tǒng)200的功能框 圖。系統(tǒng)200采用頻道監(jiān)控器201、 TV信號(hào)至文本轉(zhuǎn)換器202、停用詞 (stop-word)過濾器204、專有名詞檢測(cè)器206、索引器(indexer) 208 、字 典210和關(guān)鍵詞提取器212。監(jiān)控器201監(jiān)控TV/有線信號(hào)并確定用戶訪問"見看的頻道信息。該信息 包括隱藏式字幕信息,利用圖3A中的示例處理300來(lái)分析該隱藏式字幕信 息以提取捕獲上下文的詞。示例處理300包括步驟步驟302:由轉(zhuǎn)換器202利用已知的變換方法將隱藏式字幕信息變換為 文本。步驟304:由停用詞過濾器204去除文本中的停用詞。停用詞包括諸如 "of,、 "on"、 "the"等的本身沒有意義的詞。步驟306:利用專有名詞檢測(cè)器206,在缺少大小寫信息時(shí),通過將剩余 文本中的每一詞與字典210進(jìn)行比較來(lái)檢測(cè)(識(shí)別)專有名詞。通常,專有 名詞以大寫字母開頭。在其它場(chǎng)合,獲得的文本中不分大小寫。字典210包 括不是專有名詞的詞。如果所考慮的詞不在字典210中,則^f叚設(shè)該詞是專有 名詞。由于專有名詞涉及特定人名、地名或物名,所以專有名詞傳達(dá)有用的 上下文信息。因此,專用名詞;險(xiǎn)測(cè)器206對(duì)^^識(shí)別為專有名詞的詞進(jìn)行標(biāo)注, 以便于后續(xù)排序(ranking )。步驟308:利用專有名詞檢測(cè)器206,在存在大小寫信息時(shí),基于每一詞 的第一字符的大小寫來(lái)檢測(cè)專有名詞。專用名詞檢測(cè)器206對(duì)專有名詞進(jìn)行 標(biāo)注,以便于后續(xù)排序。步驟310:剩余詞及其出現(xiàn)次數(shù)(頻率)被索引器208記錄。較頻繁的 詞是重要的詞,將從這些詞中選擇關(guān)鍵詞。只要頻道改變,或者利用從隱藏 式字幕信息獲得的文本中的特定字符發(fā)現(xiàn)主題改變,就重置詞的記錄。步驟312:索引器208保存在n秒窗口內(nèi)識(shí)別的詞(即,在n秒時(shí)間段 (可能是最近的n秒)內(nèi)接收的詞)及其頻率和專有名詞相關(guān)信息。例如, n=10秒窗口包括在過去的IO秒內(nèi)收集的詞。在步驟310中加以索引的關(guān)鍵 詞覆蓋正在觀看的整個(gè)當(dāng)前TV節(jié)目/故事等,而本步驟中討論的關(guān)鍵詞覆蓋 在最近"n"秒內(nèi)收集的詞。步驟314:由關(guān)鍵詞提取器212利用所有詞的頻率來(lái)從過去n秒內(nèi)收集的所有詞中提取感興趣的詞(即,關(guān)鍵詞)。步驟316:在查詢形成模塊205中使用關(guān)鍵詞形成查詢,以通過搜索模 塊207在可用資源(如互聯(lián)網(wǎng)50上的搜索引擎)上執(zhí)行搜索。用戶接口 (UI) 模塊203將搜索結(jié)果作為推薦呈現(xiàn)給用戶,以便可選地進(jìn)一步選擇。步驟318:用戶在推薦中進(jìn)行選擇,其中,搜索模塊207利用選擇的推 薦來(lái)在可用資源上搜索用戶感興趣的另外的信息。由UI模塊203將這樣的另 外的信息呈現(xiàn)給用戶。步驟316和318允許用戶尋找關(guān)于用戶近來(lái)在TV上觀看的節(jié)目的更多 的信息,并且只要用戶要求,步驟316和318可被重復(fù)以向用戶提供用戶感 興趣的另外的和/或更精確的信息。圖3B示出由關(guān)鍵詞提取器212執(zhí)行的步驟的示例流程圖,包括步驟314A:當(dāng)用戶激活TV控制器(例如,TV遙控器)上的特定按鈕 時(shí),這提供包括用戶動(dòng)作的"用戶請(qǐng)求"。 一旦用戶請(qǐng)求,由關(guān)鍵詞提取器 212將最近n秒內(nèi)的詞另設(shè)為最重要的詞。步驟314B:此外,基于每一詞的頻率或者另一排序機(jī)制來(lái)對(duì)每一詞進(jìn)行 排序。步驟314C:利用在步驟306或308中產(chǎn)生的標(biāo)注沖全查每一詞的專有名詞狀態(tài)。步驟314D:生成排序列表,其中,在一個(gè)示例中,高頻率且是專有名詞 的詞占據(jù)列表的頂部。然后是高頻率詞,然后是專有名詞。排序列表中頂部 的i個(gè)詞與自TV節(jié)目的開始起識(shí)別的高頻率詞和專有名詞一起捕獲用戶正在 觀看的內(nèi)容的上下文。排序列表中的信息被用作關(guān)鍵詞。在n秒窗口內(nèi)捕獲 的詞以更精細(xì)級(jí)別的細(xì)節(jié)表現(xiàn)上下文,而自節(jié)目的開始起捕獲的專有名詞和 高頻率詞以更高的級(jí)別表現(xiàn)上下文。利用包括關(guān)于有線TV、衛(wèi)星TV等上的TV節(jié)目的信息的EPG (電子節(jié) 目指南)信息,正在觀看的頻道的名稱連同頻道和節(jié)目信息一起被用來(lái)構(gòu)建 步驟316和318中的查詢。例如,當(dāng)用戶正在觀看BBC America上的 "Panorama"節(jié)目時(shí),詞"Panorama"和"BBCAmerica"被附加到提取的關(guān) 鍵詞上,以為搜索提供頻道和節(jié)目上下文的相關(guān)信息。此外,提取的關(guān)鍵詞可被轉(zhuǎn)換為不同的語(yǔ)言并用于在互聯(lián)網(wǎng)50上搜索另 外的信息。此外,與句子相比,將關(guān)鍵詞從一種語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言是簡(jiǎn)單的,并且可利用語(yǔ)言-語(yǔ)言字典來(lái)實(shí)現(xiàn)這種轉(zhuǎn)換。這對(duì)僅可理解正在觀看的TV節(jié)目中的語(yǔ)言的一小部分的用戶而言很有益。圖4示出根據(jù)本發(fā)明的分析TV隱藏式字幕信息以在互聯(lián)網(wǎng)上尋找相關(guān) 信息的系統(tǒng)400的另一示例的功能框圖。系統(tǒng)400是圖2的系統(tǒng)200的變形, 其還包括短語(yǔ)提取器214,該短語(yǔ)提取器214除了提取關(guān)鍵詞之外還提取短 語(yǔ)。短語(yǔ)的例子可以是"巴爾的摩烏鴉",而非關(guān)4建詞"巴爾的摩,,和"烏鴉"。在本實(shí)施例中,關(guān)鍵詞提取器212不僅依賴于來(lái)自專有名詞檢測(cè)器206 和索引器208的信息,而且還使用來(lái)自短語(yǔ)提取器214的信息來(lái)獲得關(guān)鍵詞。 短語(yǔ)提取器214包括短語(yǔ)識(shí)別器功能,該短語(yǔ)識(shí)別器功能利用索引器208所 記錄的頻率信息和共同出現(xiàn)信息以及一組規(guī)則來(lái)識(shí)別重要的短語(yǔ)。這對(duì)識(shí)別 諸如"United Nations" 、 "A1 Qaeda,,等多詞短語(yǔ)很重要。在操作中,收集的隱藏式字幕文本首先經(jīng)過短語(yǔ)識(shí)別器以捕獲短語(yǔ),然 后,捕獲的短語(yǔ)被加以索引。短語(yǔ)識(shí)別器內(nèi)部保存三個(gè)列表專有名詞列表、 字典以及停用詞列表。短語(yǔ)識(shí)別器利用基于N-gram的方法來(lái)進(jìn)行短語(yǔ)提取, 其中,從概念上講,為了捕獲長(zhǎng)度為N個(gè)詞的短語(yǔ),使大小為N個(gè)詞的窗口 在文本上滑動(dòng),并收集所有可能的短語(yǔ)(長(zhǎng)度為N個(gè)詞)。然后,收集的短 語(yǔ)經(jīng)過下面的三個(gè)規(guī)則以過濾沒有意義的短語(yǔ)1 、 以標(biāo)點(diǎn)結(jié)束的詞不能位于短語(yǔ)的中間;2、 對(duì)于2個(gè)詞或更多詞的短語(yǔ)長(zhǎng)度,第一個(gè)詞不能是除了兩個(gè)冠詞 "the"(定冠詞)和"a/an"(不定冠詞)之外的停用詞,并且剩余 的詞不能是除了連接停用詞(如"on"、 "at"、 "of,、 "in"、 "by"、 "for"、 "and"等)之外的停用詞。這是因?yàn)樯鲜鐾S迷~經(jīng)常用于 組合兩個(gè)或更多詞例如,"war on terror" 、 "wizard of oz,, 、 "the beauty and the beast"等。 3 、 專有名詞以及字典中沒有出現(xiàn)的詞被當(dāng)作有意義的短語(yǔ)。 在一個(gè)示例中,在圖2和/或圖4中,除了互聯(lián)網(wǎng)/搜索引擎50之外的所 有部件在CE裝置(例如,CE裝置30)上。在另一示例中,在圖2和/或圖4 中,互聯(lián)網(wǎng)/搜索引擎50位于互聯(lián)網(wǎng)上,字典210位于網(wǎng)絡(luò)(本地網(wǎng)絡(luò)或互 聯(lián)網(wǎng))上,而其它部件位于CE裝置上。盡管在這里提供的示例中,使用TV 來(lái)接收隱藏式字幕信息,但是本發(fā)明可應(yīng)用于接收根據(jù)本發(fā)明的能夠被分析 以確定并搜索用戶感興趣的信息的其它裝置(例如,音樂播放器)。此外,盡管在圖1中,顯示了用于接收包含隱藏式字幕信息的節(jié)目的CE裝置30與家 庭網(wǎng)絡(luò)連接,但是這樣的家庭網(wǎng)絡(luò)不是必需的,CE裝置可以是從線纜、衛(wèi)星、 DSL或其它節(jié)目源接收節(jié)目的獨(dú)立(stand-alone)裝置,而不與家庭網(wǎng)絡(luò)連 接。這樣的獨(dú)立裝置僅需要連接到信息源,如連接到互聯(lián)網(wǎng)50,而不需連接 到家庭/本地網(wǎng)絡(luò)。此外,可在非CE裝置(例如,圖1中的裝置20)中實(shí)現(xiàn) 本發(fā)明,該非CE裝置可以是獨(dú)立裝置,或者是連接到家庭/本地網(wǎng)絡(luò)的裝置。 此外,盡管在這里的示例中,使用隱藏式字幕信息來(lái)分析并確定用戶的興趣, 但是在另 一 實(shí)現(xiàn)方式中,本發(fā)明可使用其它類型的表現(xiàn)用戶正在訪問/觀看的 節(jié)目或內(nèi)容的類型的信息。短語(yǔ)提取器214包括術(shù)語(yǔ)提取器功能,該術(shù)語(yǔ)提取器功能從索引中提取 最高得分的術(shù)語(yǔ)和短語(yǔ)。術(shù)語(yǔ)和短語(yǔ)被呈現(xiàn)給用戶,并且可用于進(jìn)一步的搜 索以提供用戶感興趣的另外的信息。可選地,短語(yǔ)提取器214包括自然語(yǔ)言 處理(NLP)標(biāo)注器和一組提取規(guī)則,用于提取重要的短語(yǔ)。在操作中,NLP 標(biāo)注器用每一詞的詞性(即,詞是"noun(名詞)"、"adjective (形容詞)"、 "propernoun (專有名詞)"等)來(lái)對(duì)隱藏式字幕文本中的每一詞進(jìn)行標(biāo)注。 提取規(guī)則定義重要的標(biāo)注序列類型。例如, 一個(gè)規(guī)則可以提取"一個(gè)以上的 專有名詞的序列"作為短語(yǔ),另一規(guī)則可提取"跟隨有一個(gè)或多個(gè)名詞的一 個(gè)或多個(gè)形容詞的序列"。短語(yǔ)提取將這些規(guī)則應(yīng)用于由詞性標(biāo)注器標(biāo)注的文 本,并提取符合這些序列的短語(yǔ)。還可利用合適的規(guī)則來(lái)提取單個(gè)詞的關(guān)鍵 詞。此外,關(guān)鍵詞提取器212和/或短語(yǔ)提取器214可使用 一組規(guī)則來(lái)進(jìn)行自 適應(yīng)關(guān)鍵詞/短語(yǔ)提取。在上述示例中,從元數(shù)據(jù)源提取來(lái)自內(nèi)容元數(shù)據(jù)的信息。提取的信息(例 如,來(lái)自TV節(jié)目的隱藏式字幕的有意義的關(guān)鍵詞)被用作搜索查詢,以從 諸如互聯(lián)網(wǎng)的源獲得與內(nèi)容(例如,TV節(jié)目)有關(guān)的進(jìn)一步的信息。在另 一實(shí)施例中,本發(fā)明還提供一種基于內(nèi)容類型來(lái)從內(nèi)容元數(shù)據(jù)提取 關(guān)鍵信息(短語(yǔ)/關(guān)鍵詞)的方法和系統(tǒng)。圖5示出根據(jù)本發(fā)明實(shí)施例的分析 元數(shù)據(jù)信息以尋找相關(guān)信息的另一處理450的示例步驟的流程圖,該處理450 包括步驟步驟452:監(jiān)控用戶對(duì)內(nèi)容的訪問。 步驟454:獲得正被訪問的內(nèi)容的元數(shù)據(jù)。 步驟456:選擇用于信息提取的一組提取規(guī)則。步驟458:基于選擇的提取規(guī)則從內(nèi)容的元數(shù)據(jù)提取關(guān)鍵信息。步驟460:基于所述關(guān)鍵信息在可用源上搜索用戶有可能感興趣的信息。在一個(gè)實(shí)施方式中,這包含改變關(guān)鍵信息提取以適應(yīng)訪問的內(nèi)容的不同 類型。例如,基于內(nèi)容的類型對(duì)從諸如隱藏式字幕的元數(shù)據(jù)源提取與諸如TV 節(jié)目的內(nèi)容有關(guān)的關(guān)鍵詞的過程進(jìn)行適應(yīng)性改變。從TV節(jié)目的隱藏式字幕 文本提取的關(guān)鍵詞基于TV節(jié)目的EPG信息而改變。EPG指示TV節(jié)目的類型,其中,利用EPG類型信息對(duì)從隱藏式字幕提 取的關(guān)鍵詞進(jìn)行參數(shù)化。基于EPG信息,利用TV節(jié)目的類型信息來(lái)確定從 TV節(jié)目的隱藏式字幕提取的關(guān)鍵詞的類型。這樣,從EPG信息獲得TV上 當(dāng)前正在觀看的節(jié)目的類型,并使用獲得的節(jié)目類型確定從節(jié)目的隱藏式字 幕提取的關(guān)鍵詞的類型,所述關(guān)鍵詞的類型在獲得用戶(觀眾)有可能感興 趣的信息方面被認(rèn)為是有用的。在一個(gè)示例中,如果TV節(jié)目是諸如新聞的大容量的事實(shí)節(jié)目,則更積 極地選擇關(guān)鍵詞,主要是提取更多的關(guān)鍵詞。另一方面,如果TV節(jié)目是肥 皂劇,則非常有選擇地提取關(guān)鍵詞,僅提取相信其在獲得用戶(觀眾)有可 能感興趣的信息方面將很有可能有用的關(guān)鍵詞。這樣,依據(jù)TV節(jié)目的類型 來(lái)對(duì)關(guān)鍵詞提取規(guī)則進(jìn)行適應(yīng)性改變。圖6示出根據(jù)本發(fā)明的關(guān)鍵信息提取器500的框圖,該關(guān)鍵信息提取器 500基于正被訪問的內(nèi)容的類型506來(lái)從內(nèi)容的元數(shù)據(jù)信息504提取關(guān)鍵信 息(詞/短語(yǔ))502。然后,如上所述,提取的關(guān)鍵信息502被用于形成查詢, 所述查詢隨后可用于從互聯(lián)網(wǎng)尋找用戶感興趣的相關(guān)信息。提取器500在關(guān) 鍵信息的提取過程中基于正在觀看的內(nèi)容節(jié)目的類型而適應(yīng)性地改變。關(guān)鍵信息提取器500包括表征化器(tokenizer) 508、標(biāo)注器510、規(guī)則 引擎512、類型提取器506和規(guī)則選擇器514。表征化器508將正被訪問的 內(nèi)容的元數(shù)據(jù)504 (例如,文本)表征化為句子。然后,標(biāo)注器510通過確 定句子中每一詞的上下文(即,確定給定詞是否是名詞、動(dòng)詞、介詞等)來(lái) 對(duì)句子進(jìn)行標(biāo)注。然后,標(biāo)注的句子(標(biāo)注文本)被傳遞給規(guī)則引擎512。類型提取器506從類型源提取正被訪問的內(nèi)容的類型。規(guī)則庫(kù)516存儲(chǔ) 不同規(guī)則的列表。這是能夠用于提取所有類型的不同關(guān)鍵信息的詳盡的規(guī)則 列表。例如,規(guī)則庫(kù)516可包括提取連續(xù)的專有名詞的MJ'J、提取跟隨有一 列名詞的形容詞的另一規(guī)則等。來(lái)自規(guī)則庫(kù)516的規(guī)則以及來(lái)自類型提取器506的提取的類型被提供給規(guī)則選擇器514。規(guī)則選擇器514包含從類型到庫(kù) 516的一組規(guī)則的映射。該映射既可以是預(yù)先設(shè)置的,也可以是學(xué)習(xí)的?;谔崛〉念愋停?guī)則選擇器514選擇一組規(guī)則,該組規(guī)則將由規(guī)則引 擎512用來(lái)從標(biāo)注的句子提取關(guān)鍵信息。規(guī)則引擎512接收來(lái)自規(guī)則選擇器 514的一組規(guī)則以及來(lái)自標(biāo)注器510的標(biāo)注文本的句子。規(guī)則引擎512將設(shè) 置的規(guī)則應(yīng)用于標(biāo)注文本,并從標(biāo)注文本提取關(guān)鍵信息。如上所述,所述關(guān) 鍵信息在(例如從互聯(lián)網(wǎng))獲得與正被訪問的內(nèi)容有關(guān)的信息方面被認(rèn)為是 有用的。獲得的有關(guān)信息是正被訪問的內(nèi)容的觀眾(用戶)有可能感興趣的 信息。如果所述處理沒有生成許多關(guān)鍵詞(例如,由于保守的提取方案),則可 從關(guān)于正被訪問的內(nèi)容的信息的其它源(如正在觀看的TV節(jié)目的EPG)提 取關(guān)鍵信息。圖7示出作為關(guān)鍵詞提取器600的關(guān)鍵信息提取器的實(shí)現(xiàn),該關(guān)鍵詞提 取器600基于正在觀看的TV節(jié)目的類型606從TV節(jié)目的隱藏式字幕(CC ) 604提取關(guān)鍵詞602。然后,如上所述,提取的關(guān)鍵詞602被用于形成查詢, 所述查詢隨后可用于從互聯(lián)網(wǎng)尋找用戶感興趣的相關(guān)信息。提取器600對(duì)關(guān) 鍵詞的提取基于正在觀看的內(nèi)容節(jié)目的類型而適應(yīng)性地改變。提取的關(guān)鍵詞 可用作感興趣的重要關(guān)4建詞,并在搜索查詢、注釋TV節(jié)目等中使用。關(guān)鍵詞提取器600包括CC表征化器608、詞性標(biāo)注器610、規(guī)則引擎 612、類型提取器606和規(guī)則選擇器614。表征化器608將TV節(jié)目的CC文 本604表征化為句子。然后,詞性標(biāo)注器610通過確定句子中每一詞的上下 文(即,確定給定詞是否是名詞、動(dòng)詞、介詞等)來(lái)對(duì)句子進(jìn)行標(biāo)注。然后, 標(biāo)注的句子(標(biāo)注文本)被傳遞給規(guī)則引擎612。類型提取器606從EPG信 息供給605中提取正被訪問的內(nèi)容的類型。規(guī)則庫(kù)616存儲(chǔ)可用于提取所有 類型的不同關(guān)鍵詞的不同規(guī)則的列表。來(lái)自規(guī)則庫(kù)616的規(guī)則以及來(lái)自類型 提取器606的提取的類型被提供給規(guī)則選擇器614。規(guī)則選擇器614包含從 類型到庫(kù)616的一組規(guī)則的映射。該映射既可以是預(yù)先設(shè)置的,也可以是學(xué) 習(xí)的?;谔崛〉念愋?,規(guī)則選擇器614選擇一組規(guī)則,該組規(guī)則將由規(guī)則引 擎612用來(lái)從標(biāo)注的句子提取關(guān)鍵詞。規(guī)則引擎612接收來(lái)自規(guī)則選擇器614 的一組規(guī)則以及來(lái)自標(biāo)注器610的標(biāo)注文本的句子。規(guī)則引擎612將設(shè)置的規(guī)則應(yīng)用于標(biāo)注文本,并/人標(biāo)注文本提取關(guān)4建詞。如上所述,所述關(guān)4建詞在 (例如從互聯(lián)網(wǎng))獲得與正被訪問的TV節(jié)目有關(guān)的信息方面被認(rèn)為是有用的。獲得的有關(guān)信息是正被訪問的TV節(jié)目的觀眾有可能感興趣的信息。在一個(gè)示例操作中,關(guān)鍵詞提取器600實(shí)時(shí)地對(duì)實(shí)時(shí)TV信號(hào)進(jìn)行操作, 其中,存在TV節(jié)目的輸入的隱藏式字幕文本的穩(wěn)定流。CC表征化器608 將隱藏式字幕文本分解為句子,以便保留隱藏式字幕文本中的句子的語(yǔ)法, 這對(duì)于標(biāo)注句子而言是重要的。在存儲(chǔ)器緩沖器中對(duì)隱藏式字幕字符進(jìn)行緩 沖,當(dāng)前接收的文本被分析以檢測(cè)句子的結(jié)束(例如,通過監(jiān)控標(biāo)點(diǎn)、空格 等來(lái)檢測(cè)句子的結(jié)束)。表征(token)指句子,其中,表征化器608通過檢 測(cè)標(biāo)點(diǎn)并利用試探法(heuristics)來(lái)將隱藏式字幕文本分離為句子??墒褂?這樣的筒單試探法將跟隨有空格的句點(diǎn)(.)、問號(hào)(?)或者感嘆號(hào)(!)的 出現(xiàn)當(dāng)作句子邊界(例如,句子的結(jié)束)。也可使用本領(lǐng)域技術(shù)人員知道的其 它模型。當(dāng)CC表征化器608檢測(cè)到句子的結(jié)束時(shí),其清除緩沖器并將接收 的句子提供給詞性標(biāo)注器610作為純文本(plain-text)句子。詞性標(biāo)注器610分析純文本句子并將標(biāo)注分配給句子中的每一詞,從而 生成標(biāo)注文本。標(biāo)注指詞性標(biāo)注,其中,將描述句子中的每一詞在句中所使 用的意義(即,詞的詞性)的標(biāo)注分配給該詞。 一些示例標(biāo)注如下/NNP即,專有名詞/MOD即,情態(tài)助動(dòng)詞/NNS即,復(fù)數(shù)名詞等??墒褂没谝?guī)則的詞性標(biāo)注器,如Brill的標(biāo)注器(Brill, E. 1992. Asimple rule-based part of speech tagger. In Proceedings of the Third Conference on Applied Natural Language Processing, 152-155. Trento, Italy.(在1992年于意 大利特蘭托召開的關(guān)于應(yīng)用自然語(yǔ)言處理的第三次會(huì)議的會(huì)議記錄第 152-155頁(yè)中,Brill, E的"基于簡(jiǎn)單規(guī)則的詞性標(biāo)注器"))。也可使用用詞 的詞性來(lái)標(biāo)記句子中的每一詞的其它標(biāo)注器。例如,如果輸入到標(biāo)注器610 的純文本句子為"John Wayne ran home",則從標(biāo)注器610輸出的標(biāo)注文本 為 "John〈proper noun〉 Wayne〈proper noun〉 ran <verb-past tense> home<noun>"。這表示在標(biāo)注文本中,詞"John"和"Wayne"被標(biāo)注為專 有名詞,詞"ran"祐:標(biāo)注為過去時(shí)態(tài)的動(dòng)詞,詞"home"被標(biāo)注為名詞。 然后,該標(biāo)注文本被傳遞給規(guī)則引擎612 。,li殳句子"John Wayne ran home" 出現(xiàn)在"記錄片 (Documentary)" 節(jié) 目中。詞性標(biāo)注器610將其標(biāo)注為"John/NNP Wayne/NNP ran/VBD home麵",其中/NNP->專有名詞 /VBD+動(dòng)詞(過去時(shí)態(tài)) /NN"^名詞現(xiàn)在假設(shè)如上所述給出示例規(guī)則庫(kù),其中 consecutive_proper—noun: ((\w+)(/NNP))+ consecutive—singular—nouns: ((\w+)(/NN))+noun—conjunction—noun: ((\w+)(/NN))+ ((\w+)(/CC))+ ((W+)(麵))十 adjective—consecutive—nouns: ((\w+)(/ADJ))+ ((\w+)(/NN))+ 從而根據(jù)規(guī)則選擇器614,對(duì)"記錄片"類型的映射為 Documentary今consecutive_proper—noun然后,當(dāng)MJ'J "consecutive_proper—noun"凈皮應(yīng)用到標(biāo)注文本時(shí),規(guī)貝寸引 擎612提取關(guān)鍵詞"John Wayne"。如上所述,規(guī)則庫(kù)616保存有能夠用于提取不同類型的關(guān)鍵詞的規(guī)則列 表。規(guī)則可被手動(dòng)地添加到庫(kù)616、或者是預(yù)先學(xué)習(xí)的、或者是隨著時(shí)間而 學(xué)習(xí)的。每一規(guī)則可以是規(guī)則引擎612所理解的規(guī)則表達(dá)。例如,用于提取 包含連續(xù)出現(xiàn)的專有名詞的短語(yǔ)的規(guī)則可以是((\w+)(/NNP))+ (1)其中,"+"表示一個(gè)或多個(gè)存在,"\w"表示字母。這樣,布i定如下標(biāo)注文本Pablo麵P Picasso/NNP and/CC Vincent/NNP Van/NNP Gogh/NNP were/VBD artists麵S (2)應(yīng)用上述規(guī)則(1)的規(guī)則引擎612應(yīng)該從上述示例標(biāo)注文本(2)中提 取兩個(gè)關(guān)4建詞"Pablo Picasso"和"Vincent Van Gogh"。示例關(guān)見則庫(kù)可如下consecutive_proper—noun: ((\w+)(/NNP))+consecutive—singular—nouns: ((\w+)(/NN))+noun——unction—noun: ((\w+)(/NN))+ ((\w+)(/CC))+ ((\w+)(/NN))+ adj ective—consecutive—nouns: ((\w+)(/ADJ))+ ((\w+)(/NN))+規(guī)則選擇器614中的映射包括用于將TV節(jié)目的類型映射到力見則庫(kù)616 中的規(guī)則列表的子集的類型映射。例如,從節(jié)目類型"新聞(News)"和"連 續(xù)劇(Sitcom)"的類型映射可以如下 News — consecutivejproper—noun, noun—conjunction—noun, adjective_consecutive—nounsSitcom ~> consecutive_proper—noun可通過按照如下示例步驟(a)-(e)進(jìn)行用戶研究并分析其結(jié)果來(lái)創(chuàng)建類型映射a. 讓M個(gè)用戶閱讀給定類型G的N個(gè)TV節(jié)目的抄本并標(biāo)記他們 認(rèn)為是好的(重要的)關(guān)鍵詞的所有關(guān)鍵詞K。 M和N的值越 大越好。例如,考慮句子"Pablo Picasso and Vincent Van Gogh were artists,",并,支設(shè)用戶選擇"Pablo Picasso"、 "Vincent Van Gogh" 和"artists"作為感興趣的關(guān)4建詞。b. 使抄本經(jīng)過詞性標(biāo)注器610并對(duì)其進(jìn)行標(biāo)注;例如,對(duì)上述句子 的標(biāo)注應(yīng)該為Pablo/NNP Picasso/NNP and/CC Vincent/NNP Van/NNP Gogh/NNP were/VBD artists麵S。c. 對(duì)于集合K中的每一關(guān)鍵詞,提取分配給各個(gè)詞的標(biāo)注;例如, 只于才示i己的詞的才示注應(yīng)該為Pablo Picasso:麵P/NNPVincent Van Gogh:麵P/NNP麵PArtists: /NNSd. 將在前一步驟中提取的每一標(biāo)注句子轉(zhuǎn)換為規(guī)則引擎612能夠 理解的模式;例如,上述三個(gè)序列將變?yōu)镻ablo Picasso: ((\w+)(/NNP))+ Vincent Van Gogh: ((\w+)(/NNP》+ Artists: (W+)(麵S)e. 從序列中選擇唯一模式并根據(jù)頻率對(duì)其進(jìn)行排序;例如, ((Vw+)(/NNP))+的頻率=2(W+)(/NNS)的頻率=1 f. 結(jié)果模式是用于類型G的規(guī)則的候選集。為了減小規(guī)則集的大小,排在頂部的"P"個(gè)規(guī)則或者頻率超過"F"的所有規(guī)則可被選為用于類型G的最終規(guī)則集。 上述創(chuàng)建映射的處理也可以是隨時(shí)間而學(xué)習(xí)的。在步驟(a)中,每當(dāng)用戶 使用提取器600并且一些關(guān)鍵詞被呈現(xiàn)給用戶時(shí),如果用戶點(diǎn)擊它們中的一 個(gè)(表示用戶找到有用的關(guān)鍵詞),則該關(guān)鍵詞被當(dāng)作用戶所標(biāo)記的關(guān)鍵詞。 剩下的處理與上述步驟(b)-(f)相同。如果最終規(guī)則集已經(jīng)包含新創(chuàng)建的規(guī)則, 則新創(chuàng)建的規(guī)則被拋棄。除了類型映射之外,規(guī)則選擇器614中的映射可包 括其它映射。其它映射可以是不基于類型的默認(rèn)映射,如在下面進(jìn)一步描述 的。規(guī)則引擎612包括傳統(tǒng)的模式匹配程序,其接收文本輸入和一個(gè)或多個(gè) 模式(規(guī)則),并提取與所述一個(gè)或多個(gè)模式匹配的所有關(guān)鍵詞。如果所述處理沒有生成許多關(guān)鍵詞(例如,由于保守的提取方案),則可 從關(guān)于正被訪問的內(nèi)容的信息的其它源(如正在觀看的TV節(jié)目的EPG)提 取關(guān)鍵信息??苫卺槍?duì)所有類型的固定約束(例如,少于X個(gè)關(guān)鍵詞為不 足)、基于類型的固定約束(例如,對(duì)于連續(xù)劇,少于X個(gè)關(guān)鍵詞為不足; 但是對(duì)于新聞,少于Y個(gè)關(guān)鍵詞為不足)等來(lái)確定獲得的關(guān)鍵詞不足。可如 下從節(jié)目的EPG提取關(guān)鍵詞EPG條目包含一些結(jié)構(gòu)化條目(例如,標(biāo)題、 演員)和一些半結(jié)構(gòu)化條目(例如,描述);以與隱藏式字幕相同的方式從 EPG中的半結(jié)構(gòu)化條目提取關(guān)鍵詞;而結(jié)構(gòu)化條目中的信息可照原樣使用, 而不需任何處理。在一個(gè)示例中,提取器500和600的部件可在包括存儲(chǔ)器和微處理器的 TV硬件上實(shí)現(xiàn),或被實(shí)現(xiàn)為固件等,從而提取器500和600的每個(gè)之內(nèi)的部 件之間的通信經(jīng)函數(shù)調(diào)用。規(guī)則庫(kù)可以是TV上的由規(guī)則選擇器查詢的數(shù)據(jù) 庫(kù)的形式;或者規(guī)則庫(kù)可以在網(wǎng)絡(luò)中的服務(wù)器上,其中,將經(jīng)HTTP或SOAP 或者其它類似的協(xié)議執(zhí)行與規(guī)則選擇器的通信。圖8示出另一示例關(guān)鍵詞提取器700,其中,不需要內(nèi)容的類型來(lái)從內(nèi) 容元數(shù)據(jù)提取關(guān)鍵詞,以從TV節(jié)目的隱藏式字幕(CC)704提取關(guān)鍵詞702。 關(guān)鍵詞提取器700包括CC表征化器708、詞性標(biāo)注器710、規(guī)則引擎712 和規(guī)則選擇器714。 CC表征化器708、詞性標(biāo)注器710和規(guī)則引擎712分別與圖7中的CC表征化器608、詞性標(biāo)注器610和規(guī)則引擎612類似。此外, 類似于圖7中的庫(kù)616,圖8中的規(guī)則庫(kù)716存^f諸能夠用于提取所有類型的 不同關(guān)鍵詞的不同規(guī)則的列表。來(lái)自規(guī)則庫(kù)716的規(guī)則被提供給規(guī)則選擇器714。規(guī)則選擇器714包含 到庫(kù)716的一組規(guī)則的"默認(rèn)(default)"映射,其中,所述"默認(rèn)"映射用 于為規(guī)則引擎712從庫(kù)716中選擇規(guī)則(例如,規(guī)則選擇器714使用默認(rèn)映 射規(guī)則A、 B和C等,這些映射規(guī)則不使用類型來(lái)選擇規(guī)則)。規(guī)則引擎712 接收來(lái)自規(guī)則選擇器714的一組規(guī)則和來(lái)自標(biāo)注器710的標(biāo)注文本的句子。 規(guī)則引擎712將設(shè)置的規(guī)則應(yīng)用于標(biāo)注文本并從標(biāo)注文本提取關(guān)鍵詞。在一個(gè)示例中,如果沒有與節(jié)目關(guān)聯(lián)的類型,則系統(tǒng)使用"默認(rèn)"映射。 在這種情況下,應(yīng)該使用非常保守的關(guān)鍵詞提取規(guī)則,以確保只提取其是重 要的關(guān)鍵詞的概率高的關(guān)鍵詞。例如,規(guī)則選擇器可具有如下默認(rèn)映射條目Default ~> consecutive_proper—noun。圖9示出關(guān)鍵詞提取器800的另一示例,其中,使用TV節(jié)目的類型來(lái) 從TV節(jié)目的隱藏式字幕(CC ) 804提取關(guān)鍵詞是可選的。關(guān)鍵詞提取器800 包括CC表征化器808、詞性標(biāo)注器810、規(guī)則引擎812和規(guī)則選擇器814。 關(guān)鍵詞提取器還包括與圖7中的類型提取器類似的類型提取器806。 CC表征 化器808、詞性標(biāo)注器810和規(guī)則引擎812分別與圖8中的CC表征化器708、 詞性標(biāo)注器710和規(guī)則引擎712類似。此外,類似于圖8中的庫(kù)716,圖9 中的規(guī)則庫(kù)816存儲(chǔ)能夠用于提取所有類型的不同關(guān)鍵詞的不同規(guī)則的列 表。來(lái)自規(guī)則庫(kù)816的規(guī)則被提供給規(guī)則選擇器814。規(guī)則選擇器814包含從類型到庫(kù)816中的一組規(guī)則的類型映射。該類型 映射可以是預(yù)先設(shè)置的,或者可以是學(xué)習(xí)的?;陬愋吞崛∑?06所提取的 類型,規(guī)則選擇器814使用類型映射來(lái)從庫(kù)816選擇一組規(guī)則,規(guī)則引擎812 將使用該組規(guī)則來(lái)從標(biāo)注句子提取關(guān)鍵詞。規(guī)則選擇器814還包含到庫(kù)816 中的一組規(guī)則的"默認(rèn)"映射(例如,如果類型未知或未使用,則使用默認(rèn) 映射規(guī)則A、 B和C)。規(guī)則選擇器814中的"默認(rèn)"映射與上面針對(duì)規(guī)則選 擇器714描述的"默認(rèn)"映射類似。這樣,如果TV節(jié)目的類型未知或未使用,則^L則選擇器814^f吏用"默 認(rèn),,映射來(lái)從規(guī)則庫(kù)816選擇規(guī)則,而不依賴于TV節(jié)目的類型。如果TV節(jié) 目的類型已知,則規(guī)則選擇器814基于類型提取器806所提供的類型利用類型映射來(lái)從規(guī)則庫(kù)816選擇規(guī)則。在規(guī)則選擇器814的一個(gè)示例中,即使類 型提取器806提供TV節(jié)目的類型,規(guī)則選擇器也不依賴于類型,而使用"默 認(rèn)"映射來(lái)進(jìn)行規(guī)則選擇??蛇x地,規(guī)則選擇器814可接收指示規(guī)則選擇器 使用類型映射或"默認(rèn)"映射進(jìn)行規(guī)則選擇的選擇信號(hào)(CTL)。規(guī)則引擎812接收來(lái)自規(guī)則選擇器814的一組規(guī)則和來(lái)自標(biāo)注器810的 標(biāo)注文本的句子。規(guī)則引擎812將設(shè)置的規(guī)則應(yīng)用于標(biāo)注文本并從標(biāo)注文本 提取關(guān)鍵詞。上述提取器600、700和800中的任一個(gè)都可用作圖2和圖4中的提取器 212和/或提取器214的實(shí)現(xiàn)。圖IO示出基于圖4中的系統(tǒng)400的采用關(guān)鍵詞 提取器800的示例系統(tǒng)900。如上所述,關(guān)鍵詞提取器800在關(guān)鍵詞提取中 不需要使用節(jié)目類型。然而,關(guān)鍵詞提取器800具有基于節(jié)目類型(從EPG 供給905提取)對(duì)關(guān)鍵詞提取進(jìn)行適應(yīng)性改變的能力。在這一示例中,模塊 202、 203、 205、 207和800被實(shí)現(xiàn)在諸如數(shù)字TV 30A的CE裝置中。TV 30A 被示出為與LAN連接。盡管在家庭網(wǎng)絡(luò)的背景下提供上述示例,但是本領(lǐng)域技術(shù)人員應(yīng)該認(rèn)識(shí) 到,本發(fā)明可用于獨(dú)立裝置,所述獨(dú)立裝置不是諸如LAN的家庭網(wǎng)絡(luò)的必要 部分。例如,在圖10中,TV30A不需要連接到LAN。如本領(lǐng)域技術(shù)人員所知的,根據(jù)本發(fā)明的上述示例架構(gòu)可以以許多方式 實(shí)現(xiàn),如由處理器執(zhí)行的程序指令、邏輯電路、專用集成電路、固件等。已 參照本發(fā)明的特定優(yōu)選形式詳細(xì)描述了本發(fā)明,然而,其它形式也是可能的。 因此,權(quán)利要求的精神和范圍不應(yīng)限于這里包含的優(yōu)選形式的描述。
權(quán)利要求
1、一種從內(nèi)容元數(shù)據(jù)提取信息的方法,包括步驟監(jiān)控用戶對(duì)內(nèi)容的訪問;選擇用于信息提取的一組提取規(guī)則;基于選擇的提取規(guī)則從內(nèi)容的元數(shù)據(jù)提取關(guān)鍵信息。
2、 如權(quán)利要求l所述的方法,還包括步驟確定內(nèi)容的類型。
3、 如權(quán)利要求2所述的方法,其中,選擇一組提取規(guī)則的步驟還包括步 驟基于內(nèi)容類型選擇一組提取規(guī)則。
4、 如權(quán)利要求3所述的方法,其中,所述內(nèi)容包括TV節(jié)目,TV節(jié)目 的元數(shù)據(jù)包括與TV節(jié)目關(guān)聯(lián)的隱藏式字幕信息。
5、 如權(quán)利要求4所述的方法,其中,確定內(nèi)容的類型的步驟包括從 EPG提取TV節(jié)目的類型。
6、 如權(quán)利要求3所述的方法,其中,選擇一組提取規(guī)則的步驟還包括步 驟基于內(nèi)容類型從規(guī)則庫(kù)中選擇一組提取規(guī)則,其中,所述規(guī)則庫(kù)包括用 于提取各種關(guān)鍵詞的規(guī)則的列表。
7、 如權(quán)利要求4所述的方法,其中,提取關(guān)鍵信息的步驟還包括步驟 將TV節(jié)目的隱藏式字幕文本表征化為一個(gè)或多個(gè)句子。
8、 如權(quán)利要求7所述的方法,其中,提取關(guān)鍵信息的步驟還包括 基于句子中每一詞的上下文來(lái)對(duì)句子中的每一詞進(jìn)行標(biāo)注。
9、 如權(quán)利要求8所述的方法,其中,提取關(guān)鍵信息的步驟還包括基于 提取規(guī)則從每一標(biāo)注的句子中提取關(guān)鍵詞。
10、 如權(quán)利要求3所述的方法,其中,基于內(nèi)容類型選擇一組提取規(guī)則 的步驟還包括通過從內(nèi)容到規(guī)則庫(kù)中的多個(gè)規(guī)則中的一組規(guī)則的映射來(lái)選 擇提取規(guī)則,所述規(guī)則庫(kù)包括用于提取各種關(guān)鍵詞的規(guī)則。
11、 如權(quán)利要求l所述的方法,還包括步驟基于所述關(guān)鍵信息在可用 源上搜索用戶有可能感興趣的信息。
12、 如權(quán)利要求11所述的方法,還包括步驟提供用戶可能感興趣的信息。
13、 如權(quán)利要求11所述的方法,其中,搜索可用源的步驟還包括基于 所述關(guān)鍵信息形成查詢,并利用所述查詢搜索外部網(wǎng)絡(luò)。
14、 如權(quán)利要求l所述的方法,其中,經(jīng)消費(fèi)類電子裝置來(lái)訪問內(nèi)容, 從而監(jiān)控步驟還包括步驟監(jiān)控用戶與該消費(fèi)類電子裝置的交互。
15、 如權(quán)利要求14所述的方法,其中,提取關(guān)鍵信息的步驟包括基于 選擇的提取規(guī)則,從經(jīng)所述消費(fèi)類電子裝置訪問的內(nèi)容的元數(shù)據(jù)提取關(guān)鍵信息。
16、 如權(quán)利要求15所述的方法,其中,監(jiān)控步驟還包括對(duì)用戶選擇經(jīng) 所述消費(fèi)類電子裝置訪問哪一內(nèi)容進(jìn)行監(jiān)控。
17、 如權(quán)利要求16所述的方法,其中,監(jiān)控步驟還包括對(duì)經(jīng)頻道提供 的隱藏式字幕信息進(jìn)行監(jiān)控,其中,用戶選擇經(jīng)所述消費(fèi)類電子裝置訪問該頻道。
18、 如權(quán)利要求11所述的方法,還包括步驟將搜索結(jié)果作為用戶有可能感興趣的信息提供給用戶;接收用戶對(duì)所述用戶有可能感興趣的信息的選擇;基于用戶選擇的信息在可用源上進(jìn)一步搜索用戶有可能感興趣的另外的信息。
19、 如權(quán)利要求14所述的方法,其中經(jīng)消費(fèi)類電子裝置訪問所述內(nèi)容,所述消費(fèi)類電子裝置連接到局域網(wǎng); 搜索可用源的步驟還包括基于所述關(guān)鍵信息形成查詢并利用該查詢來(lái) 搜索互聯(lián)網(wǎng)。
20、 一種裝置,包括監(jiān)控器,被配置為監(jiān)控通過所述裝置對(duì)內(nèi)容的訪問; 規(guī)則選擇器,被配置為選擇用于信息提取的一組提取規(guī)則; 信息提取器,被配置為基于選擇的提取規(guī)則從內(nèi)容的元數(shù)據(jù)提取關(guān)鍵信臺(tái)
21、 如權(quán)利要求20所述的裝置,還包括類型提取器,#1配置為確定內(nèi) 容的類型。
22、 如權(quán)利要求21所述的裝置,其中,規(guī)則選擇器還被配置為基于內(nèi)容 類型選擇一組提取規(guī)則。
23、 如權(quán)利要求22所述的裝置,其中,所述內(nèi)容包括TV節(jié)目,TV節(jié) 目的元數(shù)據(jù)包括與TV節(jié)目關(guān)聯(lián)的隱藏式字幕信息。
24、 如權(quán)利要求23所述的裝置,其中,類型提取器還被配置為通過從EPG提取TV節(jié)目的類型來(lái)確定內(nèi)容的類型。
25、 如權(quán)利要求22所述的裝置,其中,規(guī)則選擇器還被配置為基于內(nèi)容 類型從規(guī)則庫(kù)中選擇一組提取規(guī)則,其中,所述規(guī)則庫(kù)包括用于提取各種關(guān) 鍵詞的規(guī)則的列表。
26、 如權(quán)利要求23所述的裝置,其中,信息提取器包括表征化器,該表 征化器被配置為將TV節(jié)目的隱藏式字幕文本表征化為一個(gè)或多個(gè)句子。
27、 如權(quán)利要求26所述的裝置,其中,信息提取器還包括標(biāo)注器,該標(biāo) 注器被配置為基于句子中每一詞的上下文來(lái)對(duì)句子中的每一詞進(jìn)行標(biāo)注。
28、 如權(quán)利要求27所述的裝置,其中,信息提取器還包括規(guī)則引擎,該 規(guī)則引擎被配置為基于提取規(guī)則從每一標(biāo)注的句子中提取關(guān)鍵詞。
29、 如權(quán)利要求22所述的裝置,其中,規(guī)則提取器還被配置為通過從內(nèi) 容到規(guī)則庫(kù)中的多個(gè)規(guī)則中的一組規(guī)則的映射來(lái)選擇提取規(guī)則,所述規(guī)則庫(kù) 包括用于提取各種關(guān)鍵詞的規(guī)則。
30、 如權(quán)利要求20所述的裝置,還包括搜索模塊,被配置為基于所述 關(guān)鍵信息在可用源上搜索用戶有可能感興趣的信息。
31、 如權(quán)利要求30所述的裝置,還包括用戶接口,被配置為將可能感 興趣的信息提供給用戶。
32、 如權(quán)利要求30所述的裝置,其中,搜索模塊還被配置為基于所述關(guān) 鍵信息形成查詢,并利用所述查詢搜索外部網(wǎng)絡(luò)。
33、 如權(quán)利要求20所述的裝置,其中,所述監(jiān)控器還被配置為對(duì)經(jīng)頻道 提供的隱藏式字幕信息進(jìn)行監(jiān)控,其中,用戶選擇經(jīng)所述裝置訪問該頻道。
34、 如權(quán)利要求30所述的裝置,還包括用戶接口,被配置為將搜索結(jié) 果作為用戶有可能感興趣的信息提供給用戶,并接收用戶對(duì)所述用戶有可能 感興趣的信息的選擇,其中,搜索模塊還被配置為基于用戶選擇的信息在可用源上進(jìn)一步搜索 用戶有可能感興趣的另外的信息。
35、 如權(quán)利要求33所述的裝置,其中,所述裝置包括消費(fèi)類電子裝置。
36、 如權(quán)利要求35所述的裝置,其中,所述消費(fèi)類電子裝置被配置為連 接到局域網(wǎng)。
37、 如權(quán)利要求33所述的裝置,其中,所述裝置包括TV。
全文摘要
本發(fā)明提供一種從內(nèi)容元數(shù)據(jù)提取相關(guān)信息的方法和裝置。監(jiān)控用戶對(duì)內(nèi)容的訪問。選擇用于信息提取的一組提取規(guī)則?;谶x擇的提取規(guī)則從內(nèi)容的元數(shù)據(jù)提取關(guān)鍵信息。另外,可確定內(nèi)容的類型,并基于內(nèi)容的類型選擇一組提取規(guī)則。在查詢中使用所述關(guān)鍵信息以便搜索用戶有可能感興趣的與訪問的內(nèi)容有關(guān)的信息。
文檔編號(hào)H04N7/173GK101267518SQ20081008262
公開日2008年9月17日 申請(qǐng)日期2008年2月27日 優(yōu)先權(quán)日2007年2月28日
發(fā)明者夫昂·古葉, 普里揚(yáng)·拉索德, 米塞·錫莎吉, 艾倫·梅瑟, 阿努基薩·昆吉薩帕贊 申請(qǐng)人:三星電子株式會(huì)社