專利名稱:商業(yè)廣告推薦器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及根據(jù)電視觀眾的偏好和商業(yè)廣告內(nèi)容向所述電視觀眾推薦商業(yè)廣告(commercial)。
背景技術(shù):
電視商業(yè)廣告向電視觀看者提供了有效的方式來使他們自己知道最新的產(chǎn)品、節(jié)目等。為此,許多不同的系統(tǒng)已經(jīng)被開發(fā)出來以便向電視觀眾推薦商業(yè)廣告。例如,美國專利號6,177,931描述了創(chuàng)建電視觀眾簡檔以致可以使用所述簡檔來定制電子節(jié)目向?qū)?“EPG”)。通過收集關(guān)于用戶怎樣與系統(tǒng)交互的統(tǒng)計量來獲悉所述電視觀眾簡檔。然后所構(gòu)建的簡檔用于把廣告放置在EPG上的適當位置。然而該專利不使用商業(yè)廣告的內(nèi)容來構(gòu)建所述簡檔。WO 00/49801使用人口統(tǒng)計和地理信息來向用戶推薦可能感興趣的商業(yè)廣告。
盡管這些專利公開了推薦商業(yè)廣告,但是它們通過收集關(guān)于用戶或所述用戶怎樣與電視交互的信息來完成這些。完成這一點的主要缺點是這種系統(tǒng)往往不能準確地向用戶建議感興趣的商業(yè)廣告。因此,需要一種系統(tǒng),可以自動地根據(jù)商業(yè)廣告的內(nèi)容來向電視觀眾更準確地推薦感興趣的商業(yè)廣告。
發(fā)明內(nèi)容
這里提供了一種用于根據(jù)內(nèi)容向用戶推薦商業(yè)廣告的商業(yè)廣告推薦器。依照一個方面,用于推薦商業(yè)廣告的方法包括從視頻信號中識別商業(yè)廣告段。然后從這些商業(yè)廣告段中提取描述性信息。根據(jù)所述描述性信息和用戶偏好,例如來自用戶的觀看歷史,例如使用決策樹來選擇感興趣的商業(yè)廣告,以便向用戶推薦。然后可以例如使用動態(tài)頻道創(chuàng)建來把推薦的商業(yè)廣告展示給所述用戶。
依照另一方面,用于推薦商業(yè)廣告的系統(tǒng)包括用來控制用于檢測商業(yè)廣告的商業(yè)廣告檢測器模塊的處理器和用來從所檢測的商業(yè)廣告中提取描述性信息的模塊。把在所檢測商業(yè)廣告中所提取的信息輸入到推薦器模塊,用于確定應(yīng)該向用戶推薦哪些商業(yè)廣告。然后把推薦的、所選擇的商業(yè)廣告經(jīng)由動態(tài)頻道創(chuàng)建模塊展示給所述用戶。
圖1是依照本發(fā)明一個方面舉例說明用于推薦商業(yè)廣告的方法的流程圖。
圖2是舉例說明用于識別或檢測在視頻信號中商業(yè)廣告的方法的流程圖。
圖3是舉例說明用于從所識別的視頻內(nèi)容中提取描述性信息的方法的流程圖。
圖4是舉例說明用于選擇要推薦的商業(yè)廣告的方法的流程圖。
圖5是舉例說明用于向用戶展示推薦的商業(yè)廣告的動態(tài)頻道創(chuàng)建的流程圖。
圖6是舉例說明依照本發(fā)明一個方面的組件的系統(tǒng)圖。
具體實施例方式
圖1是依照本發(fā)明一個方面舉例說明用于推薦商業(yè)廣告的方法的流程圖。在102,從視頻信號中檢測商業(yè)廣告。一般地,可以從其它節(jié)目段中識別并提取在廣播視頻信號中的商業(yè)廣告。例如,題目為“AUTOMATIC SIGNATURE-BASE SPOTTING,LEARNING AND EXTRACTINGOF COMMERCIALS AND OTHER VIDEO CONTENT(基于自動簽名的發(fā)現(xiàn)、獲悉并提取商業(yè)廣告及其它視頻內(nèi)容)”(Nevenka Dimitrova等人,代理人文檔號PHA 23-803)的美國專利申請?zhí)?9/417,288于1999年10月13日提交并轉(zhuǎn)讓給本申請的受讓人,在此全面將該申請引入以供參考,其描述了用于在視頻信號中發(fā)現(xiàn)、獲悉并提取商業(yè)廣告或其它特定類型的視頻內(nèi)容的改進技術(shù)。
在104,從所檢測的商業(yè)廣告中提取描述性信息。轉(zhuǎn)讓給本受讓人并且題目為“A METHOD OF USING TRANSCRIPT DATA TO IDENTIFY ANDLEARN COMMERCIAL PORTIONS OF A PROGRAM(使用筆記數(shù)據(jù)來識別并獲悉節(jié)目商業(yè)廣告部分的方法)”(Lalitha Agnihotri等人,代理人文檔號US010338,于2001年9月4日提交)的美國專利申請?zhí)?9/945,871公開了從視頻信號的商業(yè)廣告部分中提取描述性信息的例子。在此將該申請全部引入以供參考。
如該申請描述,可以把商業(yè)廣告分組為不同的種類,例如汽車、家庭用品等。根據(jù)商業(yè)廣告的描述性內(nèi)容,繼而在106可以向用戶推薦用戶更喜歡的商業(yè)廣告。例如,美國專利申請?zhí)?9/466,406,其題目為“METHOD AND APPARATUS FOR RECOMMENDING TELEVISIONPROGRAMMING DECISION TREES(用于使用決策樹推薦電視節(jié)目的方法和設(shè)備)”(Srinivas Gutta,代理人文檔號PHA 23-902,于1999年12月17日提交)并且轉(zhuǎn)讓給本申請的受讓人,公開了用于推薦節(jié)目的方法的例子。其中描述了相同的方法可以應(yīng)用于推薦商業(yè)廣告。在此將該申請全部引入以供參考。
可以通過創(chuàng)建個人頻道來顯示推薦的商業(yè)廣告以致在108可以向所述用戶顯示感興趣的商業(yè)廣告。例如,美國專利申請?zhí)?9/821,059,其題目為“DYNAMIC TELEVISION CHANNEL CREATION(動態(tài)電視頻道創(chuàng)建)”(Srinivas Gutta等人,代理人文檔號US010074,于2001年3月29日提交)并且轉(zhuǎn)讓給本申請的受讓人,公開提供了一種用于顯示推薦節(jié)目的頻道。在此將其全部引入以供參考。依照在該申請中類似的方法可以向用戶展示或顯示推薦的商業(yè)廣告。
可以從經(jīng)由一個或多個視頻源接收的視頻信號中檢測商業(yè)廣告,所述視頻源諸如電視接收機、VCR或其它視頻存儲裝置或任何其它類型的視頻源。做為選擇,所述源可以包括一個或多個網(wǎng)絡(luò)連接,用于經(jīng)由例如全球計算機通信網(wǎng)絡(luò)接收來自一個或多個服務(wù)器的視頻,所述全球計算機通信網(wǎng)絡(luò)諸如因特網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、陸地廣播系統(tǒng)、電纜網(wǎng)、衛(wèi)星網(wǎng)絡(luò)、無線網(wǎng)絡(luò)或電話網(wǎng)以及這些及其它類型網(wǎng)絡(luò)的一部分或組合??梢越?jīng)由下列裝置接收商業(yè)廣告,所述裝置諸如電視、機頂盒、桌上型電腦、膝上型電腦或掌上型電腦、個人數(shù)字助理、視頻存儲裝置,所述視頻存儲裝置諸如盒式錄像機(VCR)、數(shù)字視頻記錄器(DVR)、TiVO裝置等,以及這些及其它裝置的一部分或組合。
圖2依照本發(fā)明舉例說明了用于從廣播視頻信號中發(fā)現(xiàn)、獲悉并提取商業(yè)廣告的過程的例子。可以認為該例子中輸入視頻包括廣播視頻信號,所述廣播視頻信號包括至少一個節(jié)目和多個商業(yè)廣告。
當存在輸入視頻信號時重復(fù)步驟202到210。在202,檢測在廣播視頻信號中例外的活躍段。這可以包括例如檢測在廣播視頻信號中高切斷(cut)率區(qū)或檢測高文本活躍區(qū)。其它例子包括通過累積顏色直方圖來檢測在可視范圍內(nèi)的快速變化,檢測音量的上升,或檢測在從音樂到談話、從一個節(jié)奏到另一個的音頻上的快速變化等。
在204,進一步處理在步驟202識別的段如包括例外活躍的段以便確定它們是否可能與商業(yè)廣告相關(guān)聯(lián)。然后標記這樣確定的段??梢杂糜谶M行這種確定的特征的例子包括(a)顯示對應(yīng)于在存儲下列的文本文件中條目的文本,在所述文本文件中存儲與商品廣告相關(guān)聯(lián)的已知的公司名稱、產(chǎn)品或服務(wù)名稱,800號碼或其它電話號碼,統(tǒng)一資源定位符(URL)等。
(b)談話。在這種情況下,可以提取所述談話并將其轉(zhuǎn)換成文本,并且相對于上述存儲的文本文件分析所產(chǎn)生的文本以便檢測已知的公司名稱、產(chǎn)品或服務(wù)名,800號碼或其它電話號碼,URL等。
(c)沒有與高切斷率組合的閉合字幕信息。
(d)包含多個空白線的閉合字幕信息。
(e)完成結(jié)束電影、表演或其它節(jié)目的姓名表。
(f)平均關(guān)鍵幀距離或平均切斷幀距離趨勢,例如升高或降低趨勢。
(g)沒有微標,例如用于識別廣播的疊加的視頻微標。
(h)疊加文本的不同字體、大小和顏色。
(i)在調(diào)色板或其它顏色特性中的急劇變化。
然后從在標記段的關(guān)鍵幀中提取簽名并且將其放入特定的“可能”簽名列表中。這里所用的術(shù)語“關(guān)鍵幀”總體上是指與視頻信號的給定攝影或其它部分相關(guān)聯(lián)的一個或多個幀,例如在特定攝影中的第一幀。把可能簽名列表的例子稱為是列表L1,Li,Ln等。在第一遍歷通過步驟202期間,可能列表給定的一個將總體上包括多個商業(yè)廣告的簽名以及所述節(jié)目各部分的簽名。
給定簽名可以基于例如可視幀簽名或音頻簽名,或基于其它適當識別特征??梢允褂美缁贒C和AC系數(shù)(DC+AC)的提取方法,基于DC和動作系數(shù)(DC+M)的提取方法或例如基于小波及其它變換的方法之類的其它適當?shù)奶崛》椒?,來提取可視幀簽名?br>
上述DC+AC方法為本領(lǐng)域內(nèi)的技術(shù)人員所熟知,并且可以用來產(chǎn)生包括例如DC系數(shù)和五個AC系數(shù)的可視幀簽名。
作為另一例子,上述DC+M方法可以用來產(chǎn)生形式為(關(guān)鍵幀1,簽名1,關(guān)鍵幀2,簽名2,等)的一組簽名。在例如由發(fā)明人N.Dimitrova和M.Abdel-Mottaleb于1999年2月9日公布的美國專利號5,870,754并且題目為“Video Retrieval of MPEG Compressed SequencesUsing DC and Motion Signatures(使用DC和動作簽名來視頻檢索MPEG壓縮序列)”中,以及在N.Dimitrova和M.Abdel-Mottaleb的“Content-Based Video Retrieval By Example Video Clip(按照例如視頻剪輯進行的基于內(nèi)容的視頻檢索)”,用于圖像和視頻數(shù)據(jù)庫V的存儲與檢索的會議記錄,SPIE卷3022,頁59-70,圣約瑟,CA,1997。
其它可視幀簽名提取技術(shù)可以至少部分地基于顏色直方圖,如在N.Dimitrova、J.Martino、L.Agnihotri和H.Elenbaas的“ColorSuper-histograms for Video Representation(用于視頻表示的顏色總直方圖)”,IEEE圖像處理國際會議,神戶,日本,1999年。
音頻簽名Ai可以包括諸如間距(例如最大、最小、中值、平均、峰值數(shù)目等)、平均振幅、平均能量、帶寬和mel-frequency倒譜系數(shù)(MFCC)峰值之類的信息。這種簽名可以是以例如從商業(yè)廣告中第一個5秒提取出的單個對象A1的形式。作為另一例子,音頻簽名可以是例如按照每個識別的切斷從指定的時間周期提取出的一組音頻簽名{A1,A2,...An}。
本發(fā)明還可以利用許多其它類型的簽名。例如,另一種類型的簽名可以是以描述廣告的產(chǎn)品或服務(wù)的閉合字幕文本的形式。作為另一例子,所述簽名可以是以幀編號加上來自與所述幀相關(guān)聯(lián)的識別的文本子圖像的信息的形式,諸如800號碼,公司名稱,產(chǎn)品或服務(wù)名,URL等。作為又一例子,所述簽名可以是幀編號和在圖像中面部或其它對象的位置和大小,由通過適當?shù)倪吔缈蚣右宰R別。還可以使用這些及其它類型簽名的各種組合。
在206,每當檢測到新的潛在商業(yè)廣告段時,就把該段的簽名與在可能列表上的其它簽名相比。如果所述新的簽名不與已經(jīng)存在于可能列表之一上的任何一個簽名相匹配,那么把所述新的簽名增加到可能列表。如果所述新的簽名與可能列表之一上的一個或多個簽名相匹配,那么把一個或多個匹配的簽名放置在特定的“候選”簽名列表。把候選簽名列表的示例指定為列表C1,Cj,Cm等。
應(yīng)當注意,如果新的簽名不與一個段的任何簽名相似在時間上已過去超過大約30秒或小于大約10分鐘,但是與一個段的簽名相似在時間上已過去大約10-13分鐘,那么很可能其是商業(yè)廣告的一部分。換句話說,在類似簽名之間的時間關(guān)系反映了這樣的事實,給定可能列表可以包括間隔例如相隔10分鐘之類的指定間隔近似時間的商業(yè)廣告段。對于不同類型的節(jié)目、廣播時間間隙、國家等可以按照實驗確定這種臨時的間隔關(guān)系。
可以在比較過程中考慮其它類型的時間或上下文信息。例如,如果特定的簽名一天出現(xiàn)在與前一天相近似的時間間隙里,那么其很可能與商業(yè)廣告相關(guān)聯(lián)。對于不同天、時間或頻道間隙還可以把所述列表分成不同的組以便使比較過程便于進行。例如,孩子們的節(jié)目一般在清晨時間間隙期間上演并且往往可能具有不同于諸如星期一夜晚足球之類的傍晚節(jié)目的商業(yè)廣告。電子節(jié)目向?qū)?EPG)可以用來提供這一及其它信息。例如,簽名可以與特定的表演名稱和等級相關(guān)聯(lián),產(chǎn)生排列諸如(節(jié)目名稱、等級、頻道、關(guān)鍵幀1、簽名、關(guān)鍵幀5、簽名等)。來自EPG的節(jié)目種類信息還可以用來幫助識別在所述列表中的商業(yè)廣告。
在208,每當檢測新的潛在商業(yè)廣告段時,還把該段的簽名與在上述候選列表上的簽名相比較。如果新的簽名匹配在候選列表之一上的簽名,那么把所述新的簽名移到特定的“找到商業(yè)廣告”列表,這里還將其稱為永久列表。找到商業(yè)廣告列表的示例是列表P1和Pk。
在210,如果在給定找到商業(yè)廣告列表上存在至少一個簽名,那么首先把任何新的潛在商業(yè)廣告段的簽名與在該列表上的簽名相比較。如果發(fā)現(xiàn)匹配,那么將與相應(yīng)簽名相關(guān)聯(lián)的商業(yè)廣告頻率計數(shù)器加一。如果與在找到商業(yè)廣告列表上的簽名沒有匹配,那么把所述新的簽名與在一個或多個候選列表上的簽名相比較。如果對于新的簽名在給定候選列表之一上發(fā)現(xiàn)匹配,那么按步驟208把所述新的簽名置于商業(yè)廣告找到列表。如果與在候選列表上的任何簽名都不存在匹配,那么把所述新的簽名置于可能列表之一上。
可以監(jiān)視用于上述在找到商業(yè)廣告列表上簽名的計數(shù)器以便確定其遞增的頻繁程度,并且其結(jié)果用于提供進一步的商業(yè)廣告標識信息。例如,如果該計數(shù)器在相對短的時間段量級在大約1-5分鐘內(nèi)遞增,那么它可能不是商業(yè)廣告。作為另一例子,如果該計數(shù)器在相當長的時間例如量級在大約一周或更長的時間內(nèi)不遞增,那么可以遞減所述計數(shù)器,以致該商業(yè)廣告最后被系統(tǒng)“忘記”。對于在上述可能列表上的簽名也可以實現(xiàn)這類時間關(guān)系的策略。有益地是,本發(fā)明允許對特定視頻內(nèi)容的標識和提取。依據(jù)這種方法,可以識別商業(yè)廣告的內(nèi)容和類型。在上面公開的共同待決的、共同擁有的美國專利申請?zhí)?9/417,288中進一步描述了該方法的細節(jié)。
圖3是參考圖2如上所描述的舉例說明用于從所識別視頻內(nèi)容中提取描述性信息的方法的流程圖。一般地,廣告商想在相對短的時間里遞送他們的消息。這使得在商業(yè)廣告廣播期間頻繁地重復(fù)產(chǎn)品名稱、公司名稱及其它標識特征。因此,在一個方面,可以通過例如分析諸如與每個商業(yè)廣告部分相關(guān)聯(lián)的閉合字幕之類的筆記(transcript)信息來獲悉廣播節(jié)目的商業(yè)廣告部分,例如如上所述參考圖2識別的。
因此,在302,針對具體詞和特征來分析與商業(yè)廣告部分相關(guān)聯(lián)的筆記信息。例如,可以使用筆記信息來在304,通過頻繁檢測出現(xiàn)的詞而識別商業(yè)廣告的個體類型。根據(jù)分析實際廣播商業(yè)廣告,發(fā)明人確定如果在預(yù)先確定時間段(15秒)內(nèi)不斷的詞出現(xiàn)至少三次,那么這表示出現(xiàn)商業(yè)廣告。不斷的詞是除了“一”、“該”、“的”等的詞。發(fā)明人發(fā)現(xiàn)在任一15秒間隔期間不斷的詞往往不可能在節(jié)目的非商業(yè)廣告部分中出現(xiàn)三次以上。
下文是從David Letterman的深夜秀節(jié)目中提取的閉合字幕文本,其包括兩個商業(yè)廣告。
1367275我將告訴你們什么呢?女士們和1368707先生們,當我們回來時1369638我們將正在這玩呢。
1373975(歡呼和喝彩)1374847(播放帶子)使用頭皮屑洗發(fā)水1426340注意它使人們感覺怎樣孤立。
1430736注意它難聞的氣味,沒有很多泡沫。
1433842注意它的名字。Nizoral a-d。
1437276世界#1規(guī)定的適合于頭皮屑的成分...
1440019在非規(guī)定強度中。
1442523人們可以通過用Nizoral a-d完成這些來去除頭皮屑
1444426只要每周兩次。
1447560只要每周兩次。令人吃驚!1449023 Nizoral a-d;1451597我看見藍天1507456和白云1509419明亮、祝福的天1512724狗說晚安1515728并且我想對自己...
1518432發(fā)現(xiàn)estee洗愉快1520105并且對男人洗愉快。
1521937高興地去吧。為了她。
1524842為了他。
1526674每人用購買來釋放1527806 estee洗愉快1528947為了男人洗愉快。
1530450...哦,是的。
153205215341551566922(帶子播放)1586770>>dave這是管道攝影星期五。
1587572你知道,我想在這花1588473一分鐘來提及...
閉合字幕文本示范了本發(fā)明的有效性,其中詞“Nizoral”、“A-D”、“頭皮屑”和“洗發(fā)水”在時間標記1374847和1449023之間的第一商業(yè)廣告(15秒)段期間至少出現(xiàn)三次。此外,在時間標記1451597和1528947之間的第二商業(yè)廣告中詞“洗”和“愉快”出現(xiàn)三次以上。這基于下列事實,廣告商想在短時間內(nèi)遞送他們的消息,因此必須向聽眾頻繁地重復(fù)產(chǎn)品名稱、該產(chǎn)品的公司及其它識別特征以便在短時間內(nèi)傳達所希望的消息和信息。通過在預(yù)先確定時間段中檢測在筆記信息中這些不斷的詞的出現(xiàn),可以獲悉單個商業(yè)廣告并將其彼此分離。
例如洗發(fā)水或香水之類的單個商業(yè)廣告的類型可以通過使用例如諸如近似字符串匹配“移位-或算法(Shift-Or Algorithm)”之類的近似匹配技術(shù)來獲悉并將其分組。該算法為本領(lǐng)域內(nèi)的那些技術(shù)人員所熟知。所述“移位-或算法”說明偽字符(詞、短語、句子),它們可以從獲得或產(chǎn)生的筆記文本處引入到由多源引起的文本中。
一旦已經(jīng)識別單個商業(yè)廣告類型,在306可以把對應(yīng)于每個商業(yè)廣告的筆記信息連同所述商業(yè)廣告一起存儲在數(shù)據(jù)庫中,所述數(shù)據(jù)庫例如按商業(yè)廣告類型索引。這種信息存儲提供了用于在數(shù)據(jù)庫中搜索特定商業(yè)廣告的搜索機制,所以例如可以搜索并獲取特定廣告以便把匹配用戶需求的商業(yè)廣告展示給所述用戶。例如,可以搜索數(shù)據(jù)庫來獲取與特定商業(yè)廣告類型(自動)相關(guān)的商業(yè)廣告或特定產(chǎn)品(本田一致)的商業(yè)廣告。數(shù)據(jù)庫往往包括商業(yè)廣告類型和任何附加識別特征以及商業(yè)廣告本身。在上面公開的共同待決的美國專利申請?zhí)?9/945,871中完整地描述了該方法的更多細節(jié)。
圖4是舉例說明用于選擇要推薦的商業(yè)廣告的方法的流程圖。該方法使用決策樹來推薦商業(yè)廣告節(jié)目。依照一個方面,利用歸納原理根據(jù)用戶過去觀看的歷史來識別一組推薦的商業(yè)廣告,其對特定的電視觀眾來說是感興趣的。
在402,監(jiān)視用戶的觀看歷史并且分析用戶實際上觀看的(正面例子)和那些未被觀看的(反面例子)商業(yè)廣告。例如,如果當正在廣播如依照參考圖1和2上述方法識別的那些商業(yè)廣告時用戶停留在該頻道上,那么確定商業(yè)廣告為要觀看的。如果用戶改變該頻道或使電視靜音,那么確定商業(yè)廣告為不觀看的。選擇性地,可以用照相機來檢測用戶凝視或室內(nèi)存在以便確定是否正在觀看商業(yè)廣告。在同時檢測并識別商業(yè)廣告期間可以監(jiān)視并構(gòu)建單個用戶偏好。
可以確定用戶對某些商業(yè)廣告的偏好,例如,同時如參考圖2和3所述可以按類型識別并存儲商業(yè)廣告。例如,當識別并存儲商業(yè)廣告時可以依照在廣播商業(yè)廣告期間用戶的行為來構(gòu)建用戶簡檔。選擇性地或另外地,可以使用預(yù)先存在的用戶觀看歷史來確定用戶偏好,所述歷史例如是先前構(gòu)建的。
對于每個正反商業(yè)廣告例子(即觀看和沒有觀看的商業(yè)廣告),在404,在用戶簡檔中分類許多商業(yè)廣告屬性,諸如持續(xù)時間、廣告類型、給定商業(yè)廣告風(fēng)格、一天的時間、電臺稱謂標號(例如CNBC、CNN等)和具體詞(頭皮屑、洗發(fā)水、nizoral-d等)。在406,然后在分級決策樹中根據(jù)每個屬性的熵等級來定位各個屬性。在所述決策樹中的每個節(jié)點和子節(jié)點對應(yīng)于來自用戶簡檔的給定屬性。在決策樹中的每個葉節(jié)點對應(yīng)于位于相應(yīng)葉節(jié)點的商業(yè)廣告的正面或反面推薦。決策樹企圖覆蓋盡可能多的正面例子而不是反面例子。
例如,如果在訓(xùn)練用數(shù)據(jù)中給定商業(yè)廣告具有30秒以上的持續(xù)時間并且為家用產(chǎn)品作廣告,那么把該商業(yè)廣告分類在作為正面例子的葉節(jié)點下。此后,如果在測試數(shù)據(jù)中的商業(yè)廣告具有滿足對這些持續(xù)時間和類型屬性的準則的值,那么推薦該商業(yè)廣告。
在406,使用實現(xiàn)“自頂向下分治”方法的決策樹過程來構(gòu)建或訓(xùn)練決策樹。本發(fā)明的決策樹技術(shù)是基于Ross Quinlan的公認理論,例如在C4.5中所討論Programs for Machine Learning(機器學(xué)習(xí)程序),Morgan Kaufmann出版社,Palo Alto,CA,1990年。所述決策樹很容易被計算,可以被實時使用并且可以擴展到許多類。下列段更詳細地描述了所述決策樹原理。
決策樹基于由Hunt等人在20世紀50年代后期推展的概念學(xué)習(xí)的公認理論,例如參見Hunt等人的Experiments in Induction(歸納實驗),學(xué)術(shù)出版社,紐約(1966)。其由Breiman等人進一步擴展并使其更為流行,Breiman等人的Classification and RegressionTrees(分類和回歸樹),Belmont,CA(沃茲沃斯,1984);QuinlanJ.R.,Learning Efficient Classification Procedures and theirApplication to Chess End Games(獲悉高效的分類過程及其在國際象棋游戲中的應(yīng)用),Michalski R.S.,Carbonell J.G.和MitchellT.M.(Eds.),在機器學(xué)習(xí)中An Artificial Approach(人工方法),卷1,Morgan Kaufmann出版社公司,Palo Alto,加利福尼亞(1983);Quinlan J.R.,概率決策樹,Kodratoff Y.和Michalski R.S.(Eds.),在機器學(xué)習(xí)中An Artificial Approach(人工方法),卷3,MorganKaufmann出版社公司,Palo Alto,加利福尼亞,(1990);和QuinlanJ.R.,C4.5Programs for Machine Learning(機器學(xué)習(xí)的程序),Morgan Kaufmann出版社,Sam Mateo,CA(1993)。
用于構(gòu)造決策樹的基本方法如下設(shè)T為一組訓(xùn)練例子,諸如電視觀眾喜歡和不喜歡的商業(yè)廣告,并且將這些類標示為{C1,C2,...,Ck}。下面存在三種可能性1.T包含一個或多個例子,所有例子都屬于單個類CjT的決策樹是標識類Cj的葉子。
2.T不包含例子所述決策樹還是葉子,但是必須根據(jù)不同于T的信息來確定將與所述葉子相關(guān)聯(lián)的類。例如,可以借助于關(guān)于領(lǐng)域的背景知識來選擇所述葉子。
3.T包含屬于類混合的例子在這種例子下,方法是把T提煉到看來是向前、例子的單個類收集的例子子集中。根據(jù)屬性選擇具有一個或多個互斥的結(jié)果{O1,O2,...,On}的測試。把T劃分為子集T1,T2,...,Tn中,其中Ti包含在T中具有選擇結(jié)果為結(jié)果Oi的所有例子。T的決策樹由標識所述測試的決策節(jié)點和用于每個可能結(jié)果的分支組成。對訓(xùn)練例子的每個子集遞歸地應(yīng)用相同的構(gòu)建樹方法,以致第i個分支產(chǎn)生根據(jù)訓(xùn)練例子的子集Ti構(gòu)造的決策樹。
樹構(gòu)建過程取決于選擇適當?shù)臏y試。依照非平凡方式劃分T以致子集{Ti}中的至少兩個是非空的任何測試最后將產(chǎn)生單一類子集的劃分,即使它們中的所有或大多數(shù)包含單個訓(xùn)練例子。然而,本發(fā)明的目的不僅在于根據(jù)任一劃分來構(gòu)建樹而且還在于構(gòu)建揭示數(shù)據(jù)集結(jié)構(gòu)并且對未見例子具有預(yù)測能力的樹。通常根據(jù)增益準則,根據(jù)信息論來選擇所述測試并且下面將要解釋。
考慮具有n種可能結(jié)果的假想測試,其把訓(xùn)練例子的集T劃分為子集T1,T2,...,Tn,如果在不深入Ti隨后劃分的情況下評價該測試,那么唯一可用的信息是類在T及其子集中的分布。設(shè)S為這些例子任何例子集并且設(shè)freq(Ci,S)表示在S中的例子的數(shù)目,這些例子屬于類Ci并且|S|是例子在集S中的數(shù)目。支撐用于選擇所述測試的準則的信息論如下由消息傳達的信息取決于其概率并且可以按比特測量,如負的所述概率以2為底的對數(shù)。舉例來說,如果存在八個相同地可能的消息,那么由其中任何一個傳達的信息是-log2(1/8)或3比特。在從屬于某個類Cj的例子集S中隨機選擇一個例子時,該消息往往具有概率
freq(Cj,S)|S|]]>并且所述消息傳達的信息是-log2(freq(Cj,S)|S|)]]>比特為了從這種與類從屬關(guān)系有關(guān)的消息中找到所預(yù)期的信息,與它們在S中的頻率成比例求類的和,給出info(S)=-Σj=1kfreq(Cj,S)|S|×log2(freq(Cj,S)|S|)]]>比特當應(yīng)用到訓(xùn)練例子集時,info(T)測量識別例子在T中的類所需要的平均信息量。該量常常被稱為集S的熵。當已經(jīng)依照測試X的n個結(jié)果劃分T時,然后可以找到所預(yù)期信息作為在子集上的加權(quán)和并且如下給出infox(T)=Σi=1n|Ti||T|×info(Ti)]]>下列量gain(X)=info(T)-infoX(T)測量通過依照所述測試X劃分T而獲得的信息,并且其通常被稱為增益準則。然后所述準則選擇一個測試來最大化在所述測試X和類之間通常被稱為共有信息的信息增益。
盡管所述增益準則給出了較好的結(jié)果,但是其可以具有潛在地嚴重缺陷,即具有利于具有許多結(jié)果的測試的強偏置。舉例來說,考慮一個假設(shè)的醫(yī)學(xué)診斷任務(wù),其中所述屬性之一包含病人標識。因為把每個這種標識預(yù)計為唯一的,所以基于該屬性值劃分訓(xùn)練例子集將產(chǎn)生數(shù)目很大的子集,每個子集恰好包含一個例子。因為所有這些一個例子的子集往往包含單個類的例子,所以infox(T)往往為0。從而從使用該屬性來劃分訓(xùn)練例子集的信息增益是最大的。然而,從預(yù)測觀點來看,這種劃分沒有太大用處。
通過歸一劃來改正這種增益準則中所固有的偏置,其中調(diào)整可歸因于具有許多結(jié)果的測試的視在增益。如果考慮與例子有關(guān)的消息的信息內(nèi)容,而不是考慮測試的結(jié)果,其中所述消息表明不是所述例子屬于的類,那么類似于info(S)的定義的是split info(x)splitinfo(X)=-Σi=1n|Ti||T|×log2(|Ti||T|)]]>這表示通過把T劃分為n個子集而產(chǎn)生的潛在信息,而信息增益測量與造成相同劃分的分類有關(guān)的信息。那么,表達式gain ratio(X)=gain(X)/split info(X)表示通過拆分產(chǎn)生的信息比例。當拆分信息小時,該比率是不穩(wěn)定的。為了避免這樣,所述增益比率準則選擇用于最大化受約束影響的所述比率的測試,所述約束為信息增益必須至少與遍及所有檢查的測試的平均增益一樣大。
上面用于構(gòu)造決策樹的描述是基于可以確定適合于任一例子的測試的結(jié)果的假設(shè)。然而,實際上數(shù)據(jù)常常遺漏屬性值。這可能是因為所述值與特定例子不相關(guān),當收集所述數(shù)據(jù)時沒有被記錄,或不能由負責(zé)輸入數(shù)據(jù)的主題來解釋。這種不完全性是真實世界數(shù)據(jù)的代表。于是總體上剩下兩種選擇或者必須丟棄可用數(shù)據(jù)的有意義的部分并且某些測試例子斷言為不可分類的,或者必須修改所述算法以便處理遺漏的屬性值。在大多數(shù)情況中,前者是不可接受的因為它削弱了找到模式的能力。然后,可以如下實現(xiàn)對用于處理遺漏屬性值的準則的修改。
設(shè)T為訓(xùn)練集并且X為基于某個屬性A的測試,并且假設(shè)A值只在例子在T中的分數(shù)F中已知。除只考慮具有已知A值的例子以外,如前所述計算info(T)和infox(T)。然后,可以修改增益的定義
gain(X)=已知概率A×(info(T)-infox(T))+未知概率A×0=F×(info(T)-infox(T))該增益的定義不過是根據(jù)查看具有有關(guān)屬性的已知值的例子乘以在這種例子訓(xùn)練集中的分數(shù)的視在增益。類似地還可以通過把具有未知值的例子認作附加組來改變split info(X)的定義。如果一個測試具有n個結(jié)果,那么計算其拆分信息就好像所述測試把所述例子劃分為n+1個子集。使用修改的增益定義和拆分信息依照下列方式來實現(xiàn)劃分訓(xùn)練集。當把具有已知結(jié)果Oi的T中的例子分配給子集Ti時,那個例子屬于子集Ti的概率是1并且屬于其它所有子集的概率為0。然而,當所述結(jié)果未知時,只能產(chǎn)生較弱的概率陳述。如果所述例子具有已知結(jié)果,那么該權(quán)重為1;如果所述例子具有未知結(jié)果,那么所述權(quán)重就是結(jié)果Oi在該點上的概率。然后每個子集Ti是可能分數(shù)例子的集合以致可以把|Ti|重新解釋為在所述集的例子的分數(shù)權(quán)重的和。在T中的訓(xùn)練例子可以以不等于1的權(quán)重作為開始,因為T可以是更早劃分的一個子集。一般說來,把T中具有權(quán)重w且其結(jié)果未知的例子分配給具有下列權(quán)重的每個子集Ti,w×結(jié)果Oi的概率。
把后者概率估計為在T中已知具有結(jié)果Oi的例子的權(quán)重的和,除以在T中具有已知該測試結(jié)果的例子的權(quán)重的和。
如果把這些類認為是‘觀看的商業(yè)廣告’和‘未觀看的商業(yè)廣告’,那么所述決策樹的格式是這樣的,其具有節(jié)點和葉子,其中節(jié)點對應(yīng)于如上所述要加以執(zhí)行的測試而葉子對應(yīng)于所述兩個類。測試未知例子(表演)現(xiàn)在包括分析該樹以便確定該未知例子屬于哪個類。然而,如果在特定的決策節(jié)點,遇到這樣的情況,其中有關(guān)的屬性值是未知的,以致不能確定測試結(jié)果,那么所述系統(tǒng)探究所有可能的結(jié)果并且組合所產(chǎn)生的分類。由于現(xiàn)在從樹或子樹的根部到葉子可能存在多條路徑,所以所述分類是類分布而不是單個分類。當已經(jīng)獲得未見例子的類分布時,把具有最高概率的類指派為預(yù)測類。
對于在數(shù)據(jù)庫中的每個商業(yè)廣告并且應(yīng)用用戶偏好,遍歷決策樹以便把商業(yè)廣告歸入到葉節(jié)點之一。根據(jù)所指派的葉節(jié)點,給定節(jié)目是正面或者反面推薦。然后在408,可以把例如從廣播中識別的任何商業(yè)廣告集應(yīng)用于用于推薦的決策樹。例如,如果確定電視觀眾更喜歡具有下列屬性的商業(yè)廣告時間9:00PM;電臺CNBC;持續(xù)時間30秒;類型快速移動;風(fēng)格家用產(chǎn)品;具體詞頭皮屑,洗發(fā)水,在決策樹中跟隨上述屬性節(jié)點的葉節(jié)點往往具有正面屬性并且還可以包括例如89%的等級。當應(yīng)用商業(yè)廣告以便確定是否向電視觀眾推薦該商業(yè)廣告時,所述樹可以按常規(guī)使用或所述樹可以分解為一組規(guī)則,諸如如果(時間>=8:30PM)AND(持續(xù)時間>15秒)AND(風(fēng)格=家用產(chǎn)品)則POS[89%]。
依據(jù)這一規(guī)則,可以把具有描述性信息和用戶偏好信息的所有商業(yè)廣告分類為具有89%概率的正面例子,其中所述信息匹配上述準則。因為把它們分類為正面的,所以推薦它們。從而,如果測試具有諸如下列屬性的商業(yè)廣告的數(shù)據(jù)時間11:00PM;電臺ABC;持續(xù)時間60秒;類型低速移動;風(fēng)格家用產(chǎn)品;具體詞電子產(chǎn)品,電視,那么將要推薦該商業(yè)廣告,這是因為其屬性值滿足上述規(guī)則。
在上面公開的共同待決的并且共同擁有的美國專利申請?zhí)?9/466,406中描述了該方法的更多細節(jié)。
接著,可以把確定用于向特定用戶推薦的商業(yè)廣告展示給所述用戶。圖5是舉例說明用于向用戶展示推薦的商業(yè)廣告的動態(tài)頻道創(chuàng)建的流程圖。在502,用戶能夠選擇用于觀看商業(yè)廣告的個人頻道。例如,在遙控器上的星(*)按鈕可以用來在屏幕上啟用個人頻道模式。例如,一旦在本地上為用戶創(chuàng)建并存儲了決策樹,那么按壓所述星(*)按鈕可以啟動轉(zhuǎn)送來自商業(yè)廣告服務(wù)的商業(yè)廣告。把它們應(yīng)用于所述決策樹并且可以存儲確定要推薦的商業(yè)廣告以便播放。
在504,在例如電視屏幕之類的顯示器上顯示選擇向電視觀眾推薦的商業(yè)廣告列表。然后電視觀眾選擇想要觀看的特定商業(yè)廣告。在506,將自動地編程在VCR上的記錄器以便帶來商業(yè)廣告以便在屏幕上觀看。在上面公開的共同待審的并且共同所有的美國專利申請?zhí)?9/821,059中描述了該方法的更多細節(jié)。
圖6是舉例說明依照本發(fā)明一個方面的組件的系統(tǒng)圖。參考圖2和3所描述,用于推薦商業(yè)廣告的系統(tǒng)包括用于控制檢測商業(yè)廣告的商業(yè)廣告檢測器模塊604的處理器602和從所檢測商業(yè)廣告中提取描述性信息的模塊606。把在所檢測的商業(yè)廣告中所提取信息輸入到推薦器模塊608,所述推薦器模塊608根據(jù)如上所述構(gòu)建的決策樹按照參考圖4所描述的來確定應(yīng)該向用戶推薦哪些商業(yè)廣告。然后如參考圖5所描述經(jīng)由動態(tài)頻道創(chuàng)建模塊610把用于推薦的所選擇商業(yè)廣告展示給所述用戶。
依照這里描述的方法,識別商業(yè)廣告和它們的類型和屬性并且確定電視觀眾的偏好。使用所識別的商業(yè)廣告和電視觀眾的偏好,來構(gòu)建或訓(xùn)練決策樹。然后把該決策樹應(yīng)用于一個或多個商業(yè)廣告以便確定應(yīng)該向電視觀眾推薦這些商業(yè)廣告中的哪些。然后使用動態(tài)個人頻道把要推薦的、所選擇的商業(yè)廣告展示給所述電視觀眾。要推薦且應(yīng)用于所述決策樹的商業(yè)廣告可以是那些被實時廣播的,即當廣播它們時。應(yīng)用于決策樹且要推薦的商業(yè)廣告還可以是那些已經(jīng)被存儲或錄入磁帶的,其然后向電視觀眾播放。類似地,用于構(gòu)建決策樹的商業(yè)廣告可以已經(jīng)被識別并且確定類型,或者作為選擇,當它們被從廣播中識別時這些商業(yè)廣告可以用來構(gòu)建決策樹。選擇性地,決策樹的構(gòu)建可以是發(fā)展的過程,其中由于不斷地監(jiān)視并更新用戶的偏好因此他們的偏好是可以被修改的。
雖然已經(jīng)參考幾個實施例描述了本發(fā)明,但是那些本領(lǐng)域內(nèi)技術(shù)人員應(yīng)當理解的是本發(fā)明并不限于所示出并描述的具體形式。例如,可以使用其它已知的方法來提取并識別商業(yè)廣告。此外,可以使用其它已知的方法來推薦所識別的商業(yè)廣告。從而,在不脫離由附加權(quán)利要求所定義的本發(fā)明的精神和范圍的情況下,可以進行各種形式上和細節(jié)上的改變。
權(quán)利要求
1.一種用于向電視觀眾推薦商業(yè)廣告的方法,包括從視頻信號中檢測(102)一個或多個商業(yè)廣告段;從所述一個或多個商業(yè)廣告段中提取(104)描述性信息;以及根據(jù)用于所述描述性信息來選擇(106)要推薦的一個或多個商業(yè)廣告。
2.如權(quán)利要求1所述的方法,還包括提供(108)個人頻道以便顯示所選擇的商業(yè)廣告。
3.如權(quán)利要求1所述的方法,其中所述檢測包括接收視頻信號;在所述視頻信號中提取一個或多個識別特征;以及根據(jù)所提取的特征來識別視頻內(nèi)容。
4.如權(quán)利要求1所述的方法,其中所述提取包括分析與所述商業(yè)廣告段相關(guān)聯(lián)的筆記信息;以及識別所述商業(yè)廣告段的類型。
5.如權(quán)利要求4所述的方法,其中所述提取還包括存儲所識別的類型和所述商業(yè)廣告段。
6.如權(quán)利要求1所述的方法,還包括監(jiān)視用戶對一個或多個商業(yè)廣告的偏好。
7.如權(quán)利要求1所述的方法,其中所述選擇包括監(jiān)視用戶的觀看偏好;分類一個或多個商業(yè)廣告屬性;依照用戶的觀看偏好來構(gòu)建具有所述商業(yè)廣告屬性的決策樹;以及把所述決策樹應(yīng)用到一個或多個商業(yè)廣告。
8.如權(quán)利要求7所述的方法,其中所述應(yīng)用包括把所述決策樹應(yīng)用到廣播的一個或多個商業(yè)廣告。
9.如權(quán)利要求7所述的方法,其中所述應(yīng)用包括把所述決策樹應(yīng)用到已經(jīng)存儲的一個或多個商業(yè)廣告。
10.如權(quán)利要求2所述的方法,其中所述提供包括使用戶能夠選擇個人頻道;在所述個人頻道上顯示推薦的商業(yè)廣告列表;使所述用戶能夠從所述列表選擇商業(yè)廣告;以及使所述用戶能夠觀看所選擇的商業(yè)廣告。
11.一種用于推薦商業(yè)廣告的系統(tǒng),包括用于控制商業(yè)廣告檢測器模塊的處理器(602),所述商業(yè)廣告檢測器模塊用于檢測一個或多個商業(yè)廣告;用于從視頻信號中檢測一個或多個商業(yè)廣告的模塊(604);用于從所檢測的商業(yè)廣告中提取描述性信息的模塊(606);用于根據(jù)所述描述性信息來選擇商業(yè)廣告以便向用戶進行推薦的推薦器模塊(608);和用于創(chuàng)建動態(tài)頻道以便展示所選擇的商業(yè)廣告的動態(tài)個人頻道模塊(610)。
12.一種可由機器讀取的程序存儲裝置,其有形地包括可由機器執(zhí)行來覆行推薦商業(yè)廣告的方法步驟的程序指令,包括從視頻信號中檢測一個或多個商業(yè)廣告段;從所述商業(yè)廣告段中提取描述性信息;以及根據(jù)用于所述描述性信息來選擇要推薦的一個或多個商業(yè)廣告。
13.如權(quán)利要求12所述的程序存儲裝置,還包括提供個人頻道以便顯示所選擇的商業(yè)廣告。
全文摘要
公開了用于推薦商業(yè)廣告的系統(tǒng)和方法。從視頻信號中識別并提取商業(yè)廣告。獲悉并提取關(guān)于所識別商業(yè)廣告的筆記信息。然后依照所述商業(yè)廣告的筆記信息把每個商業(yè)廣告分類為不同的種類。確定用戶對商業(yè)廣告的偏好。然后使用具有用戶偏好的商業(yè)廣告來構(gòu)建或訓(xùn)練決策樹以便選擇用于向用戶推薦的商業(yè)廣告。然后使用個人頻道來推薦所選擇的商業(yè)廣告。
文檔編號H04N7/16GK1685726SQ03822931
公開日2005年10月19日 申請日期2003年9月18日 優(yōu)先權(quán)日2002年9月26日
發(fā)明者S·古特塔, L·阿格尼霍特里 申請人:皇家飛利浦電子股份有限公司