欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用群緊密度作為產(chǎn)生用于分類tv節(jié)目的附加群的量度的方法和裝置的制作方法

文檔序號:7859665閱讀:166來源:國知局
專利名稱:使用群緊密度作為產(chǎn)生用于分類tv節(jié)目的附加群的量度的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及2001年11月13日申請的標(biāo)題為“Method andApparatus for Partitioning a Plurality of Items into Groups ofSimilar Items in a Recommender of Such Items”的美國專利申請,該申請的系列號為10/014,216,其指定給本發(fā)明的受讓人并通過參考而被并入本文。
本發(fā)明涉及建議興趣的項(xiàng)目如電視節(jié)目的方法和裝置,更特別的是,涉及在獲得用戶的購買和觀看歷史之前建議節(jié)目及其他興趣的項(xiàng)目的技術(shù)。
對電視觀眾而言,可獲得的頻道數(shù)目以及在這類頻道中可獲得的節(jié)目內(nèi)容的多樣性均在日益增長,這不斷挑戰(zhàn)著電視觀眾區(qū)分感興趣的電視節(jié)目的能力。電子節(jié)目導(dǎo)向器(EPGs)區(qū)分獲得的電視節(jié)目,例如,通過標(biāo)題,時(shí)間,日期和頻道,并且通過允許根據(jù)個(gè)人喜好搜索或整理獲得的電視節(jié)目來方便區(qū)分感興趣的節(jié)目。
許多建議工具被提出或建議用于推薦電視節(jié)目和其他興趣的項(xiàng)目。電視節(jié)目建議工具,例如,將用戶喜好應(yīng)用于一EPG申請以獲得一組對特殊用戶而言或許是感興趣的建議節(jié)目。通常,電視節(jié)目建議工具利用內(nèi)含或顯式技術(shù)或一些前述技術(shù)的組合而獲得觀眾的喜好。內(nèi)含電視節(jié)目建議工具基于從用戶的觀看歷史獲得的信息,以一種非強(qiáng)迫方式生成電視節(jié)目建議。另一方面,顯式電視節(jié)目建議工具明確向觀眾詢問有關(guān)他們對于節(jié)目特征的喜好,如標(biāo)題,類型,演員,頻道及日期/時(shí)間,以導(dǎo)出觀眾簡檔并生成建議。
雖然目前可用的建議工具能幫助用戶區(qū)分興趣項(xiàng),但它們往往受到許多限制,如果克服了,則能夠極大地改善這類建議工具的便利和性能。例如,全面來講,顯式建議工具在初始化時(shí)非常繁瑣,要求每個(gè)新用戶以近似間隔對一非常詳細(xì)地表明他們喜好的調(diào)查表作出響應(yīng)。而內(nèi)含電視節(jié)目建議工具通過觀測觀看行為非強(qiáng)迫地導(dǎo)出一簡檔,他們需要較長的時(shí)間才能變得準(zhǔn)確。此外,這種內(nèi)含電視節(jié)目建議工具至少要求最小數(shù)量的觀看歷史以開始生成任何建議。因此,當(dāng)這種內(nèi)含電視節(jié)目建議工具首次被使用時(shí),該建議工具不能生成任何建議。
所以就需要一種能夠在獲得足夠的個(gè)人觀看歷史之前非強(qiáng)迫地建議項(xiàng)目如電視節(jié)目的方法和裝置。此外,還需要一種可以根據(jù)第三方的觀看習(xí)慣針對一給出用戶生成節(jié)目建議的方法和裝置。
通常,公開了一種用于建議用戶感興趣的項(xiàng)目如電視節(jié)目建議的方法和裝置。根據(jù)本發(fā)明的一個(gè)方面,在獲得用戶的觀看歷史或購買歷史之前,諸如當(dāng)用戶首次使用該建議裝置時(shí),生成建議。首先,來自一個(gè)或多個(gè)第三方的觀看歷史或購買歷史被用來向特殊用戶建議感興趣的項(xiàng)目。
對第三方的觀看或購買歷史進(jìn)行處理以生成構(gòu)造型簡檔(stereotype profile),其反映了典型用戶選擇的對象的典型模型。每個(gè)構(gòu)造型簡檔均是在某些方面彼此相同的項(xiàng)目(數(shù)據(jù)點(diǎn))的一個(gè)群(cluster)。用戶選擇感興趣的構(gòu)造型以便對他或她的具有與其個(gè)人興趣最接近的項(xiàng)目的簡檔進(jìn)行初始化。
一群集程序?qū)⒌谌接^看或購買歷史(數(shù)據(jù)組)劃分為群,因此在某個(gè)群中的點(diǎn)(如,電視節(jié)目)和任何其它群相比更接近于該群的平均值。還公開了一計(jì)算群符號平均值的平均值計(jì)算程序。基于一給出數(shù)據(jù)點(diǎn),如一電視節(jié)目,和每個(gè)群之間的距離利用每個(gè)群的平均值將該數(shù)據(jù)點(diǎn)指定在某個(gè)群中。
公開的距離計(jì)算程序根據(jù)一給出的電視節(jié)目和一給出群的平均值之間的距離評估電視節(jié)目相對于每個(gè)群的緊密度。計(jì)算出的距離量度對一采樣數(shù)據(jù)組中的各個(gè)實(shí)例之間的差別進(jìn)行量化以確定群的范圍。值差量度(VDM)技術(shù)或它的變形技術(shù)被用于計(jì)算兩個(gè)電視節(jié)目之間的特征值之間的距離。
本發(fā)明的一個(gè)實(shí)施例涉及使用群緊密度測量電視節(jié)目的構(gòu)造型的意義(meaningfulness)。例如,群緊密度表示該群的稀疏/緊密程度。一緊密群暗示該群中顯示的電視節(jié)目彼此之間非常相似。一稀疏群暗示構(gòu)成該群的電視節(jié)目偏離該群的平均值并且有可能彼此之間差異較大。
考慮到這些,本發(fā)明的一個(gè)方面涉及利用群緊密度作為量度標(biāo)準(zhǔn)以在構(gòu)造型生成期間增加已用群數(shù)目。
通過參考以下詳細(xì)描述和附圖將獲得本發(fā)明一個(gè)更為完整的理解,以及本發(fā)明進(jìn)一步的特征和優(yōu)點(diǎn)。


圖1是根據(jù)本發(fā)明的電視節(jié)目建議工具的示意性方框圖;圖2是圖1的一典型節(jié)目數(shù)據(jù)庫的采樣表格;圖3是描述體現(xiàn)本發(fā)明所述原理的圖1的構(gòu)造型簡檔的處理過程的流程圖;圖4是描述體現(xiàn)本發(fā)明所述原理的圖1的群集程序的流程圖;圖5是描述體現(xiàn)本發(fā)明所述原理的圖1的平均值計(jì)算程序的流程圖;圖6是描述體現(xiàn)本發(fā)明所述原理的圖1的距離計(jì)算程序的流程圖;圖7A是一典型頻道特征值出現(xiàn)表格的采樣表格,該出現(xiàn)表格顯示了每種分類的每個(gè)頻道特征值的出現(xiàn)數(shù)目;圖7B是一典型特征值對距離表格的采樣表格,該距離表格顯示了由圖7A中所示的典型計(jì)數(shù)所計(jì)算出的每個(gè)特征值對之間的距離;圖8是描述體現(xiàn)本發(fā)明所述原理的圖1的群集執(zhí)行評估程序的流程圖。
圖1表示了根據(jù)本發(fā)明的電視節(jié)目建議工具100。如圖1所示,該典型電視節(jié)目建議工具100評估節(jié)目數(shù)據(jù)庫200中的節(jié)目,以下結(jié)合圖2討論,以區(qū)分特殊觀眾感興趣的節(jié)目。建議節(jié)目組能夠呈現(xiàn)給觀眾,例如,利用一使用公知熒幕顯像技術(shù)的機(jī)頂終端/電視(未示出)。雖然此處是根據(jù)電視節(jié)目建議闡述的本發(fā)明,但本發(fā)明可以被應(yīng)用在任何基于用戶行為估計(jì)的自動(dòng)生成的建議中,如觀看歷史或購買歷史。
根據(jù)本發(fā)明的一個(gè)特征,電視節(jié)目建議工具100能夠在獲得用戶觀看歷史140之前,例如當(dāng)用戶首次獲得該電視節(jié)目建議工具100時(shí),生成電視節(jié)目建議。如圖1所示,電視節(jié)目建議工具100首先使用來自一個(gè)或多個(gè)第三方處的觀看歷史130以向特殊用戶建議感興趣的節(jié)目。通常,第三方觀看歷史130是基于一個(gè)或多個(gè)具有人口統(tǒng)計(jì)學(xué)如年齡,收入,性別及教育的采樣人群的觀看習(xí)慣形成的,他們代表了大多數(shù)的人群。
如圖1所示,第三方觀看歷史130由一給定人群觀看或不觀看的節(jié)目組組成。該觀看節(jié)目組通過觀測那些確實(shí)被給定人群觀看了的節(jié)目而獲得。不觀看節(jié)目組,例如,通過對節(jié)目數(shù)據(jù)庫200中的節(jié)目進(jìn)行隨意采樣而獲得。進(jìn)一步的改進(jìn)在于,所述不觀看節(jié)目組可以根據(jù)2001年03月28日申請的系列號為09/819,286的美國專利申請中教授的內(nèi)容而獲得,該申請的名稱為“An Adaptive Sampling Techniquefor Selecting Negative Examples for Artificial IntelligenceApplications”,其指定本發(fā)明的受讓人并通過參考而被并入本文。
根據(jù)本發(fā)明的另一特征,該電視節(jié)目建議工具100對第三方觀看歷史130進(jìn)行處理以生成反映有代表性的觀眾觀看的電視節(jié)目的典型模型的構(gòu)造型簡檔。如下述的進(jìn)一步討論,構(gòu)造型簡檔是在某些方面彼此相同的電視節(jié)目(數(shù)據(jù)點(diǎn))群。所以,一給出群對應(yīng)于一電視節(jié)目的特殊片斷,該片斷來自顯示特殊模型的第三方觀看歷史130。
根據(jù)本發(fā)明對第三方觀看歷史130進(jìn)行處理以提供顯示某一特殊模型的節(jié)目群。此后,用戶可以選擇最相關(guān)的構(gòu)造型并由此生成用與其個(gè)人興趣最接近的節(jié)目來初始化他或她的簡檔。隨后該構(gòu)造型簡檔根據(jù)每個(gè)個(gè)體用戶的記錄模型及對節(jié)目給出的反饋朝他們的特殊的,個(gè)人觀看行為調(diào)整并演變。在一個(gè)實(shí)施例中,當(dāng)確定某節(jié)目的積分高于第三方觀看歷史130中的其他節(jié)目時(shí),賦予來自用戶個(gè)人觀看歷史140的節(jié)目較高的加權(quán)值。
電視節(jié)目建議工具100可以具體化為任何計(jì)算裝置,如個(gè)人計(jì)算機(jī)或工作站,其包括處理器115,如中央處理單元(CPU),和存儲器120,如RAM和/或ROM。電視節(jié)目建議工具100也可以具體化為一例如在一機(jī)頂終端或顯示器(未示出)中應(yīng)用專用集成電路(ASIC),。此外,電視節(jié)目建議工具100還可以具體為任何已知的電視節(jié)目建議工具,如可以從加利福尼亞Sunnyvale的Tivo公司購買到的TivoTM系統(tǒng),或1999年12月17日申請的系列號為09/466,406的美國專利申請中描述的電視節(jié)目建議工具,該申請的標(biāo)題為“Method and Apparatusfor Recommending Television Programming Using Decision Trees”,或2000年02月04日申請的系列號為09/498,271的美國專利申請中描述的電視節(jié)目建議工具,其標(biāo)題為“Bayesian TV ShowRecommender”,及2000年07月27日申請的序列號為09/627,139的美國專利申請中描述的電視節(jié)目建議工具,其標(biāo)題為“Three_WayMedia Recommendation Method and System”,或其的任何組合,每篇文獻(xiàn)在此處通過參考而被并入本文,并且對其進(jìn)行修改以執(zhí)行本發(fā)明特征和功能。
如圖1所示,結(jié)合圖2到8進(jìn)一步討論如下,電視節(jié)目建議工具100包括一節(jié)目數(shù)據(jù)庫200,一構(gòu)造型簡檔處理單元300,一群集程序400,一平均值計(jì)算程序500,一距離計(jì)算程序600和一群集執(zhí)行評估程序800。通常,節(jié)目數(shù)據(jù)庫200,可以具體為公知的電子節(jié)目導(dǎo)向器,其記錄給定時(shí)間間隔內(nèi)可獲得的每個(gè)節(jié)目的信息。構(gòu)造型簡檔處理單元300(i)對第三方觀看歷史130進(jìn)行處理以生成構(gòu)造型簡檔,該構(gòu)造型簡檔反映了典型觀眾觀看的電視節(jié)目的典型模型;(ii)允許用戶選擇最相關(guān)的構(gòu)造型并由此初始化他或她的簡檔;以及(iii)基于選擇的構(gòu)造型生成建議。
構(gòu)造型簡檔處理單元300調(diào)用群集程序400以將第三方觀看歷史130(數(shù)據(jù)組)劃分成群,因此在一個(gè)群中的點(diǎn)(電視節(jié)目)和其他任何群相比更接近該群的平均值(矩心)。群集程序400調(diào)用平均值計(jì)算程序500以計(jì)算一群的符號平均值(symbolic mean)。群集程序400調(diào)用距離計(jì)算程序600以根據(jù)一給出電視節(jié)目和一給出群的平均值之間的距離估計(jì)該電視節(jié)目相對每個(gè)群的緊密度。最后,群集程序400調(diào)用群集執(zhí)行評估程序800以確定用于生成群的停止標(biāo)準(zhǔn)何時(shí)已經(jīng)被滿足。
圖2是圖1的節(jié)目數(shù)據(jù)庫(EPG)200的采樣表格。如前所述,該節(jié)目數(shù)據(jù)庫200記錄給定時(shí)間間隔內(nèi)可獲得的每個(gè)節(jié)目的信息。如圖2所示,節(jié)目數(shù)據(jù)庫200包含多個(gè)記錄,如記錄205至220,每個(gè)記錄均與一給出節(jié)目相關(guān)。對于每個(gè)節(jié)目,該節(jié)目數(shù)據(jù)庫200分別顯示與字段240和245內(nèi)的節(jié)目相關(guān)的日期/時(shí)間和頻道。此外,每個(gè)節(jié)目的標(biāo)題,類型和演員分別在字段250,255及270內(nèi)識別。附加的公知特征(未示出),如節(jié)目的持續(xù)時(shí)間和說明,也可以被包含在節(jié)目數(shù)據(jù)庫200中。
圖3是結(jié)合本發(fā)明特征描述構(gòu)造型簡檔處理單元300的典型執(zhí)行過程的流程圖。如前所述,該構(gòu)造型簡檔處理單元300(i)對第三方觀看歷史130進(jìn)行處理以生成構(gòu)造型簡檔,該構(gòu)造型簡檔反映了典型觀眾觀看的電視節(jié)目的典型模型;(ii)允許用戶選擇最相關(guān)的構(gòu)造型并由此初始化他或她的簡檔;以及(iii)基于選擇的構(gòu)造型生成建議。值得注意的是對第三方觀看歷史130的處理可以在離線狀態(tài)下執(zhí)行,例如在一工廠內(nèi),并且電視節(jié)目建議工具100可以被提供給安裝有針對該用戶的選擇生成的構(gòu)造型簡檔的用戶。
所以,如圖3所示,構(gòu)造型簡檔處理單元300首先在步驟310期間收集第三方觀看歷史130。此后,構(gòu)造型簡檔處理單元300在步驟320中執(zhí)行群集程序400以生成對應(yīng)于構(gòu)造型簡檔的節(jié)目的群,以下結(jié)合圖4進(jìn)行討論。如下述的進(jìn)一步討論,典型群集程序400可以對觀看歷史數(shù)據(jù)組130采用一非監(jiān)督性數(shù)據(jù)群集算法,如“k-means”群算法。如前所述,群集程序400將第三方觀看歷史130(數(shù)據(jù)組)劃分成群,因此在某個(gè)群中的點(diǎn)(電視節(jié)目)和任何其它群相比更接近該群的平均值(矩心)。
隨后該構(gòu)造型簡檔處理單元300在步驟330期間為每個(gè)群指定一個(gè)或多個(gè)體現(xiàn)每個(gè)構(gòu)造型簡檔特征的標(biāo)記。在一個(gè)典型實(shí)施例中,該群的平均值代表了整個(gè)群的電視節(jié)目并且利用平均節(jié)目的特征標(biāo)定該群。例如,電視節(jié)目建議工具100可以被設(shè)定使得節(jié)目類型是每個(gè)群中的主導(dǎo)或確定特征。
在步驟340中將標(biāo)記的構(gòu)造型簡檔顯示給每個(gè)用戶以選擇和該用戶興趣最接近的構(gòu)造型簡檔。構(gòu)成每個(gè)選定群的節(jié)目可以被考慮作為那個(gè)構(gòu)造型的“典型觀看歷史”并且被用于為每個(gè)群建立一個(gè)構(gòu)造型簡檔。所以,在步驟350中生成由選定的構(gòu)造型簡檔中的節(jié)目組成的用戶觀看歷史。最后,在前述步驟中生成的觀看歷史在步驟360中被提供給節(jié)目建議工具以獲得節(jié)目建議。節(jié)目建議工具可以被具體化為任何已有的節(jié)目建議工具,如以上參考的那些,此處本領(lǐng)域普通技術(shù)人員進(jìn)行一些改進(jìn)是很顯而易見的。在步驟370中節(jié)目控制結(jié)束。
圖4是說明結(jié)合本發(fā)明特征的群集程序400的典型執(zhí)行過程的流程圖。如前所述,在步驟320期間構(gòu)造型簡檔處理單元300調(diào)用群程序400以將第三方觀看歷史130(數(shù)據(jù)組)劃分成群,因此在一個(gè)群中的點(diǎn)(電視節(jié)目)和任何其它群相比更接近該群的平均值(矩心)。通常,群集程序集中于在一個(gè)采樣數(shù)據(jù)組中尋找實(shí)例組的非監(jiān)督性任務(wù)上。本發(fā)明利用k-means群集算法將數(shù)據(jù)組劃分為k個(gè)群。如下文中討論的,群集程序400的兩個(gè)主要參量是(i)用于尋找最接近群的距離量度,以下結(jié)合圖6進(jìn)行討論;(ii)k,將生成的群的數(shù)目。
典型群集程序400使用一動(dòng)態(tài)值k,其條件在于當(dāng)進(jìn)一步的群集實(shí)例數(shù)據(jù)在分類準(zhǔn)確度上不再產(chǎn)生任何提高時(shí)就可獲得一穩(wěn)定的k值。此外,群的大小被增大到空白群也可被記錄的程度。所以,當(dāng)達(dá)到群的一自然級時(shí)停止群集過程。
如圖4所示,群集程序400首先在步驟410中建立k個(gè)群。典型群集程序400通過選擇一最小數(shù)目的群開始,比如說2。對于這個(gè)固定數(shù),群集程序400對整個(gè)觀看歷史數(shù)據(jù)組130進(jìn)行處理并通過多次反復(fù),生成2個(gè)可以被看作是穩(wěn)定的群(也就是,即使算法經(jīng)過其他反復(fù)也沒有節(jié)目從一個(gè)群移動(dòng)到另一個(gè)群)。在步驟420中對當(dāng)前的k個(gè)群進(jìn)行初始化使其具有一個(gè)或多個(gè)節(jié)目。
在一示范性執(zhí)行過程中,在步驟420期間使用從第三方觀看歷史130選擇的種子節(jié)目(seed program)對群進(jìn)行初始化。對群進(jìn)行初始化的節(jié)目可以被隨意或順序地選擇。在一順序操作過程中,以觀看歷史130中的第一個(gè)節(jié)目開始的節(jié)目或在觀看歷史130中的任意一點(diǎn)處開始的節(jié)目對群進(jìn)行初始化。但在另一變形實(shí)施例中,對每個(gè)群進(jìn)行初始化的節(jié)目的數(shù)目也可以不同。最后,群以一個(gè)或多個(gè)“假定”節(jié)目進(jìn)行初始化,該“假定”節(jié)目由從第三方觀看歷史130中的節(jié)目里隨意選出的特征值組成。
此后,群集程序400在步驟430期間對平均值計(jì)算程序500進(jìn)行初始化以計(jì)算每個(gè)群的當(dāng)前平均值,以下結(jié)合圖5進(jìn)行討論。群集程序400隨后在步驟440中執(zhí)行距離計(jì)算程序600以確定第三方觀看歷史130中的每個(gè)節(jié)目相對于每個(gè)群的距離,以下結(jié)合圖6進(jìn)行討論。然后所述觀看歷史130中的每個(gè)節(jié)目在步驟460中被指定給最近的群。
在步驟470中執(zhí)行一測試以確定任一節(jié)目是否已從一個(gè)群移動(dòng)到另一個(gè)群。如果在步驟470確定一節(jié)目已經(jīng)從一個(gè)群移動(dòng)到另一個(gè)群,那么節(jié)目控制回到步驟430并且按以上描述的方式繼續(xù)進(jìn)行直到識別出一組穩(wěn)定的群。但是,如果在步驟470確定沒有節(jié)目從一個(gè)群移動(dòng)到另一個(gè)群,那么節(jié)目控制繼續(xù)進(jìn)行到步驟480。
在步驟480中執(zhí)行一進(jìn)一步的測試以確定一特定執(zhí)行標(biāo)準(zhǔn)是否滿足或者一空白群是否被識別(總起來說,“停止標(biāo)準(zhǔn)”)。如果在步驟480確定停止標(biāo)準(zhǔn)還未被滿足,那么在步驟485中增加k值,節(jié)目控制回到步驟420并且按以上描述的方式繼續(xù)進(jìn)行。但是,如果在步驟480確定停止標(biāo)準(zhǔn)已經(jīng)得到滿足,那么節(jié)目控制結(jié)束。以下結(jié)合圖8進(jìn)一步討論對停止標(biāo)準(zhǔn)的評估。
群集程序400將節(jié)目僅置于一個(gè)群中,因此生成所謂的清新群(crisp cluster)。進(jìn)一步的變形將使用一模糊群,該模糊群允許一特殊實(shí)例(電視節(jié)目)部分屬于多個(gè)群。在該模糊群集方法中,電視節(jié)目被指定一加權(quán)值,其顯示了電視節(jié)目和群的平均值的接近程度。該加權(quán)值取決于電視節(jié)目與群平均值的距離的平方的倒數(shù)。和一單一電視節(jié)目相關(guān)的所有群加權(quán)值的相加總和為100%。
群的符號平均值的計(jì)算圖5是結(jié)合本發(fā)明特征描述平均值計(jì)算程序500的典型執(zhí)行過程的流程圖。如前所示,群集程序400調(diào)用平均值計(jì)算程序500以計(jì)算一群的符號平均值。對于數(shù)值數(shù)據(jù),平均值是將方差最小化的值。擴(kuò)展到符號數(shù)據(jù)的概念,群平均值通過找到使群內(nèi)部方差(及相應(yīng)的群的半徑或范圍)最小化的Xμ值來確定。
Var(J)=∑iεJ(Xi-Xμ)2(1)群半徑R(J)=Var(J)---(2)]]>其中J是來自分類相同(觀看或不觀看)的電視節(jié)目群,Xi是用以顯示i的符號特征值,并且Xμ是J中的某一電視節(jié)目的特征值,因此它將Var(J)最小化。
所以,如圖5所示,平均值計(jì)算程序500首先在步驟510中將當(dāng)前節(jié)目識別到一個(gè)給出的群J中。針對當(dāng)前考慮的符號屬性,在步驟520中使用公式(1)為每個(gè)可能的符號值Xμ計(jì)算群J的方差。在步驟530中,將方差最小化的符號值Xμ選擇作為平均值。
在步驟540中執(zhí)行一測試步驟以確定是否有被考慮的附加符號屬性。如果在步驟540確定有被考慮的附加符號屬性,那么節(jié)目控制回到步驟520并且按以上描述的方式繼續(xù)進(jìn)行。但是,如果在步驟540確定沒有被考慮的附加符號屬性,那么節(jié)目控制回到群集程序400。
可計(jì)算地,J中的每個(gè)符號特征值均試圖作為Xμ,并且使方差最小化的符號值成為群J中考慮的符號屬性平均值。有兩種可能的平均值計(jì)算方法基于節(jié)目的平均值計(jì)算方法和基于特征平均值計(jì)算方法。
基于特征的符號平均值此處討論的典型平均值計(jì)算程序500是基于特征的,由于符號屬性的平均值必須是它的可能值中的一個(gè),因此結(jié)果得到的群平均值由從群J中的實(shí)例(節(jié)目)所選出的特征值構(gòu)成。但是,值得重點(diǎn)注意的是,群平均值可能是一“假定”電視節(jié)目。這一假定節(jié)目的特征值可以包括從一實(shí)施例(比如說,EBC)得出的頻道值及從另一實(shí)施例(比如說,BBC世界新聞,實(shí)際上根本沒有在EBC中廣播)得出的標(biāo)題值。因此,可以選擇反映最小方差的任何特征值來代表該特征的平均值。平均值計(jì)算程序500針對所有特征位置不斷反復(fù),直到在步驟540中確定所有的特征(如,符號屬性)都已經(jīng)被考慮到了。由此獲得的作為結(jié)果的假定節(jié)目被用于表示群的平均值。
基于節(jié)目的符號平均值在進(jìn)一步的變形中,在方差的等式(1)中,Xi可以是電視節(jié)目i本身,同樣地,Xμ也是群J中的節(jié)目,Xμ將群J中的節(jié)目組中的方差最小化。在這種情況下,節(jié)目之間的距離和單獨(dú)的特征值為將被最小化的相關(guān)量度。此外,這種情況下的結(jié)果平均值不是假定節(jié)目,而是從組J中恰當(dāng)選取的節(jié)目。所以在群J中找出的使群J中的所有節(jié)目的方差最小化的任何節(jié)目均被用于顯示該群的平均值。
使用多個(gè)節(jié)目的符號平均值以上討論的平均值計(jì)算程序500的特征在于使用針對每個(gè)可能特征的單一特征值來描繪群平均值(不管是基于特征還是基于節(jié)目的執(zhí)行過程)。但是,可以發(fā)現(xiàn)的是在平均值計(jì)算期間僅依靠每個(gè)特征中的一個(gè)特征值經(jīng)常會導(dǎo)致產(chǎn)生不恰當(dāng)?shù)娜?,因?yàn)槠骄挡辉俜从吃撊旱娜褐行摹Q句話說,可能不期望的僅用一個(gè)節(jié)目表示一個(gè)群,而是,可以由表示平均值或多個(gè)平均值的多個(gè)節(jié)目來表示該群。所以,在進(jìn)一步的變形中,群可以通過多個(gè)平均值或針對每個(gè)可能特征的多個(gè)特征值來顯示。所以,在步驟530中選出將方差最小化的N個(gè)特征(用于基于特征的符號平均值)或N個(gè)節(jié)目(用于基于節(jié)目的符號平均值),其中N是用于表示群平均值的節(jié)目的數(shù)目。
節(jié)目和群之間的距離計(jì)算如前所示,群集程序400調(diào)用距離計(jì)算程序600以基于給出電視節(jié)目和給出群的平均值之間的距離評估電視節(jié)目和每個(gè)群的緊密度。計(jì)算出的距離量度對一個(gè)采樣數(shù)據(jù)組中的不同實(shí)例之間的差別進(jìn)行量化以確定群的范圍。為了對用戶簡檔分群,必須計(jì)算觀看歷史中任何兩個(gè)電視節(jié)目之間的距離。通常,彼此間較為緊密的電視節(jié)目趨于落入一個(gè)群中。有許多相對簡明的技術(shù)用于計(jì)算數(shù)字估值矢量之間的距離,如歐幾里得(Euclidean)距離,曼哈坦(Manhattan)距離,以及馬哈拉諾比斯(Mahalanobis)距離。
但是,由于電視節(jié)目主要由符號特征值組成,因此已有的距離計(jì)算技術(shù)不能在電視節(jié)目矢量情況下使用。例如,兩個(gè)電視節(jié)目如2001年03月22日下午8時(shí)EBC中廣播的“朋友”的一個(gè)片斷,和2001年03月25日下午8時(shí)FEX中廣播的“西蒙一家”的一個(gè)片斷,可以利用下述特征矢量表示標(biāo)題朋友 標(biāo)題西蒙一家頻道EBC 頻道FEX廣播日期2001-03-22 廣播日期2001-03-25廣播時(shí)間20:00廣播時(shí)間20:00明顯地,已知的數(shù)字距離量度不能被用于計(jì)算特征值“EBC”和“FEX”之間的距離。值差量度(VDM)是已有的用于測量符號特征估值領(lǐng)域中特征值之間的距離的技術(shù)。VDM技術(shù)針對每個(gè)特征的每個(gè)可能值全面考慮了所有實(shí)例的分類的相似性。使用這種方法,定義一個(gè)特征的所有值之間的距離的矩陣可以根據(jù)訓(xùn)練組中的實(shí)例被統(tǒng)計(jì)性地派生出來。有關(guān)計(jì)算符號特征值之間距離的VDM技術(shù)更詳細(xì)的討論可以參見,例如,Stanfill和Walyz發(fā)表于ACM的通信雜志,2912,1213-1228(1986)上的“Toward Memory-Based Reasoning”,此處通過參考而被并入本文。
本發(fā)明使用VDM技術(shù)或其變形技術(shù)計(jì)算兩個(gè)電視節(jié)目或其他興趣項(xiàng)目之間的特征值間的距離。最初的VDM建議在兩特征值之間的距離計(jì)算中使用一加權(quán)項(xiàng),其使得距離量度不對稱。改進(jìn)的VDM(MVDM)省略了加權(quán)項(xiàng)從而使距離量度對稱。有關(guān)計(jì)算符號特征值之間距離的MVDM技術(shù)更詳細(xì)的討論可以參見,例如,Cost和Salzberg發(fā)表于波士頓公制協(xié)會,Kluwer出版社(1993)出版的機(jī)械知識,卷10,57-58上的“A Weighted Nearest Neighbor Algorithm For Learning WithSymbolic Features”,此處通過參考而被并入本文。
根據(jù)MVDM,某一特定特征的兩個(gè)值V1和V2之間的距離δ,由以下公式給出δ(V1,V2)=∑|C1i/C1-C2i/C2|r等式(3)在本發(fā)明的電視節(jié)目建議環(huán)境中,該MVDM等式(3)被變換以特定處理分類“觀看”和“不觀看”。
δ(V1,V2)=|C1_watchedC1_total-C2_watchedC2_total|+]]>|C1_not_watchedC1_total-C2_not_watchedC2_total|]]>等式(4)在等式(4)中,V1和V2是被考慮的特征的兩個(gè)可能值。繼續(xù)討論以上實(shí)施例,針對“頻道”這一特征,第一個(gè)值V1等于”EBC”,第二個(gè)值V2等于“FEX”。所述值之間的距離是實(shí)施例在其中被分類的所有分類的總合。對于本發(fā)明的典型節(jié)目建議工具的實(shí)施例,相關(guān)分類是“觀看”和“不觀看”。C1i是V1(EBC)被分類為類別i的次數(shù)(i等于一(1)個(gè)暗示觀看類型)并且C1(C1_total)是數(shù)據(jù)組中出現(xiàn)V1的總次數(shù)。值r是一常量,通常設(shè)置為1。
如果對于所有分類而言某些值出現(xiàn)的相關(guān)頻率相等,那么由等式(4)定義的量度將識別這些相同的值。項(xiàng)C1i/C1表示中間余數(shù)被分類為i的可能性,給定考慮特征具有值V1。所以,如果對于所有可能的分類給出相同的可能性的話,那么兩個(gè)值是相同的。等式(4)通過找出這些所有分類可能性的差異的總和來計(jì)算兩個(gè)值之間的總體相似性。兩個(gè)電視節(jié)目之間的距離是兩個(gè)電視節(jié)目矢量的相應(yīng)特征值之間的距離和。
圖7A是和特征“頻道”相關(guān)的特征值的距離表格的一部分。圖7A顯示每個(gè)分類的每個(gè)頻道特征值出現(xiàn)的數(shù)目。圖7A中所示的值是從一典型第三方觀看歷史130中取出的。
圖7B顯示每個(gè)特征值對之間的距離,該特征值對是利用MVDM公式(4)從圖7A所示的代表性數(shù)值中計(jì)算得出的。直觀地,由于EBC和ABS最常出現(xiàn)在觀看分類中而沒有出現(xiàn)在不觀看分類中(ABS有較少的不觀看內(nèi)容),因此他們應(yīng)當(dāng)是彼此間接近的。圖7B確認(rèn)這樣的直覺即EBC和ABS之間具有較小(非零)的距離。另一方面,ASPN最常出現(xiàn)在不觀看分類中,因此對于這個(gè)數(shù)據(jù)組ASPN應(yīng)當(dāng)和EBC及ABS均“疏遠(yuǎn)”。圖7B顯示EBC和ASPN之間的距離為1.895,在最大可能距離2.0里面。同樣地,ABS和ASPN之間的距離具有較高的值1.828。
所以,如圖6所示,距離計(jì)算程序600首先在步驟610期間從第三方觀看歷史130中識別節(jié)目。對于當(dāng)前考慮的節(jié)目,距離計(jì)算程序600在步驟620中利用公式(4)計(jì)算每個(gè)符號特征值到與每個(gè)群平均值(由平均值計(jì)算程序500確定)的相應(yīng)特征之間的距離。
在步驟630中通過合計(jì)相應(yīng)特征值之間的距離計(jì)算當(dāng)前節(jié)目和群平均值之間的距離。在步驟640期間執(zhí)行一測試步驟以確定在將被考慮的第三方觀看歷史130中是否有附加的節(jié)目。如果在步驟640中確定在將被考慮的第三方觀看歷史130中有附加的節(jié)目,那么下一個(gè)節(jié)目在步驟650中被識別并且節(jié)目控制轉(zhuǎn)到步驟620,按以上描述的方式繼續(xù)進(jìn)行。
但是,如果在步驟640中確定在將被考慮的第三方觀看歷史130中沒有附加的節(jié)目被考慮,那么節(jié)目控制回到群集程序400。
如前述在標(biāo)題為“Symbolic Mean Derived from MultiplePrograms”的分部中所討論的,可以利用針對每個(gè)可能特征(無論是在基于特征還是基于節(jié)目的執(zhí)行中)的多個(gè)特征值對群平均值進(jìn)行描繪。隨后利用距離計(jì)算程序600的一個(gè)變形對來自多個(gè)平均值的結(jié)果進(jìn)行集中以通過表決達(dá)成統(tǒng)一的結(jié)論。例如,在步驟620中計(jì)算一節(jié)目的給出特征值和具有不同平均值的每個(gè)相應(yīng)特征值之間的距離。最小距離結(jié)果被集中并用于表決,例如,通過使用多數(shù)表決或?qū)<覅⑴c的方式以達(dá)成統(tǒng)一的結(jié)論。此技術(shù)更詳細(xì)的描述參見,例如,J.Kittler等人在13th Int′l Conf.的Proc.的第II卷,897-901,奧地利,維也納(1996)上發(fā)表的有關(guān)模型識別的“Combing Classifiers”,此處通過參考而被并入本文。
結(jié)束標(biāo)準(zhǔn)如前所述,群集程序400調(diào)用群集執(zhí)行評估程序800,如圖8所示,以確定生成群的結(jié)束標(biāo)準(zhǔn)何時(shí)已經(jīng)滿足。典型群集程序400使用動(dòng)態(tài)值k,條件是當(dāng)實(shí)例數(shù)據(jù)進(jìn)一步群集在分類準(zhǔn)確度上不再產(chǎn)生任何提高時(shí)已經(jīng)獲得一穩(wěn)定k值。此外,群的大小被增大到空白群也可被記錄的程度。所以,當(dāng)已經(jīng)達(dá)到群的一自然級時(shí)停止群集程序。
在一首選實(shí)施例中,為了增大k值,執(zhí)行一確認(rèn)過程以測量當(dāng)前結(jié)果群的緊密度。這個(gè)確認(rèn)過程可以在步驟480中執(zhí)行??梢酝ㄟ^確認(rèn)在該群中有多少節(jié)目和該群的平均值接近(距離法則)而測量群緊密度。如果預(yù)先確定的標(biāo)準(zhǔn)被滿足,則可以產(chǎn)生多個(gè)這種確認(rèn)操作以接受群。接受的群可以避免進(jìn)一步修正(在該群中沒有項(xiàng)目的進(jìn)一步的增添和/或刪除)。例如,對于任何群如果該群中50%的節(jié)目位于群半徑的25%的范圍內(nèi),那么預(yù)定標(biāo)準(zhǔn)就是合適的。如果這個(gè)預(yù)定標(biāo)準(zhǔn)不合適,那么附加群(即增加值k)可以被添加。但是應(yīng)當(dāng)理解的是其他標(biāo)準(zhǔn)也可以使用,即如果該群中75%的節(jié)目位于群半徑的35%的范圍內(nèi)。
典型群集執(zhí)行評估程序800使用一來自第三方觀看歷史130的節(jié)目子集(測試數(shù)據(jù)組)測試群集程序400的分類準(zhǔn)確度。針對測試組中的每個(gè)節(jié)目,群集執(zhí)行評估程序800確定和它最接近的群(其群平均值最相近)并將該群的分類標(biāo)記和所考慮的節(jié)目進(jìn)行比較。相匹配的分類標(biāo)記的百分比轉(zhuǎn)化為群集程序400的準(zhǔn)確度。
所以,如圖8所示,群集執(zhí)行評估程序800首先在步驟810期間從第三方觀看歷史130中選擇一節(jié)目子集以作為測試數(shù)據(jù)組。此后,在步驟820中基于觀看和不觀看的群中的節(jié)目的百分比為每個(gè)群指定一分類標(biāo)記。例如,如果一個(gè)群中大多數(shù)的節(jié)目是觀看節(jié)目,那么該群被指派為“觀看”標(biāo)記。
在步驟830中識別和測試組中的每個(gè)節(jié)目最接近的群并將指派的群的分類標(biāo)記進(jìn)行比較看是否該節(jié)目確實(shí)被觀看了。在一執(zhí)行過程中,當(dāng)多個(gè)節(jié)目被用于表示群的平均值時(shí),可以使用一平均距離(到每個(gè)節(jié)目的)或一表決方案。在步驟840中在節(jié)目控制回到群集程序400之前確定匹配分類標(biāo)記的百分比。如果分類準(zhǔn)確度達(dá)到了預(yù)定閾值那么結(jié)束群集程序400。
可以理解的是此處給出和描述的實(shí)施例及變形僅僅是本發(fā)明原理的示意說明,在不脫離本發(fā)明精神和范圍的情況下本領(lǐng)域技術(shù)人員可以作出各種修改。
權(quán)利要求
1.將多個(gè)項(xiàng)目劃分為相同項(xiàng)目組的方法,所述多個(gè)項(xiàng)目對應(yīng)于至少一個(gè)第三方的選擇歷史,該方法包括以下步驟將選擇歷史劃分為k個(gè)群,k具有一至少為2的初始值;對于k個(gè)群中的每個(gè)群識別至少一個(gè)平均項(xiàng);基于距離量度將多個(gè)項(xiàng)目中的每個(gè)項(xiàng)目分配給k個(gè)群中的一個(gè);確定k個(gè)群中的至少一個(gè)群的群緊密度的量度;和如果預(yù)先確定的標(biāo)準(zhǔn)不滿足群緊密度的量度,那么增大k值并且此后重復(fù)各步驟。
2.如權(quán)利要求1所述的方法,其中重復(fù)增大k值的步驟重復(fù)直到k的進(jìn)一步增大不再提高分類的準(zhǔn)確度為止。
3.如權(quán)利要求1所述的方法,進(jìn)一步包括如果預(yù)先確定的標(biāo)準(zhǔn)滿足一特定群則接受該特定群的步驟。
4.如權(quán)利要求1所述的方法,其中劃分步驟進(jìn)一步包括使用k-means群集程序的步驟。
5.如權(quán)利要求1所述的方法,其中多個(gè)項(xiàng)目是節(jié)目。
6.如權(quán)利要求1所述的方法,其中多個(gè)項(xiàng)目是內(nèi)容。
7.如權(quán)利要求1所述的方法,其中多個(gè)項(xiàng)目是產(chǎn)品。
8.如權(quán)利要求1所述的方法,其中距離量度基于根據(jù)符號特征值的每個(gè)可能值的全部實(shí)例的整體分類相似性得到的兩個(gè)項(xiàng)目的相應(yīng)符號特征值之間的距離。
9.如權(quán)利要求8所述的方法,其中利用值差量度(VDM)技術(shù)計(jì)算符號特征之間的距離。
10.如權(quán)利要求1所述的方法,其中對于k個(gè)群中的每個(gè)群識別至少一個(gè)平均項(xiàng)的步驟進(jìn)一步包括以下步驟計(jì)算多個(gè)項(xiàng)目中的每個(gè)項(xiàng)目的方差;及選擇至少一個(gè)項(xiàng)目,該項(xiàng)目將所述方差最小化作為平均符號值。
11.一種用于將多個(gè)項(xiàng)目劃分為相同項(xiàng)目組的系統(tǒng),所述多個(gè)項(xiàng)目對應(yīng)于至少一個(gè)第三方的選擇歷史,該系統(tǒng)包括一存儲計(jì)算機(jī)可讀代碼的存儲器;和一和所述存儲器耦合操作的處理器,所述處理器設(shè)置為將選擇歷史劃分為k個(gè)群,k具有一至少為2的初始值;對于k個(gè)群中的每個(gè)群識別至少一個(gè)平均項(xiàng);基于距離量度將多個(gè)項(xiàng)目中的每個(gè)項(xiàng)目分配給k個(gè)群中的一個(gè);確定k個(gè)群中的至少一個(gè)群的群緊密度的量度;和如果預(yù)先確定的標(biāo)準(zhǔn)不滿足群緊密度的量度,那么增大k值。
12.如權(quán)利要求11所述的系統(tǒng),其中所述處理器進(jìn)一步被設(shè)置為增大k值直到k的進(jìn)一步增大不再提高分類的準(zhǔn)確度。
13.如權(quán)利要求11所述的系統(tǒng),其中所述處理器被進(jìn)一步設(shè)置為如果預(yù)先確定的標(biāo)準(zhǔn)滿足一特定群則接受該特定群。
14.如權(quán)利要求11所述的系統(tǒng),其中所述處理器利用k-means群集程序執(zhí)行所述劃分。
15.如權(quán)利要求11所述的系統(tǒng),其中距離量度是基于根據(jù)符號特征值的每個(gè)可能值的全部實(shí)例的整體分類相似性得到的兩個(gè)項(xiàng)目的相應(yīng)符號特征值之間的距離。
16.如權(quán)利要求15所述的系統(tǒng),其中利用值差量度(VDM)技術(shù)計(jì)算符號特征值之間的距離。
17.如權(quán)利要求11所述的系統(tǒng),其中所述處理器通過以下步驟對于k個(gè)群中的每個(gè)群識別至少一個(gè)平均項(xiàng)計(jì)算多個(gè)項(xiàng)目中的每個(gè)項(xiàng)目的方差;及選擇至少一個(gè)項(xiàng)目,該項(xiàng)目將所述方差最小化作為平均符號值。
18.如權(quán)利要求11所述的系統(tǒng),其中平均項(xiàng)由多個(gè)項(xiàng)目組成并且其中對于選擇歷史中的給出項(xiàng)目該距離量度基于給出項(xiàng)目和每個(gè)包含平均項(xiàng)的項(xiàng)目之間的距離。
19.一種將多個(gè)項(xiàng)目劃分為相同項(xiàng)目組的制造物品,所述多個(gè)項(xiàng)目對應(yīng)于至少一個(gè)第三方的選擇歷史,包括具有嵌入其上的計(jì)算機(jī)可讀代碼裝置的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀程序代碼裝置包括一將所述第三方選擇歷史劃分為k個(gè)群的步驟;一對于所述k個(gè)群中的每個(gè)群識別至少一個(gè)平均項(xiàng)的步驟;一基于距離量度將所述多個(gè)項(xiàng)目中的每個(gè)項(xiàng)目分配給所述k個(gè)群中的一個(gè)的步驟;一確定k個(gè)群中的至少一個(gè)群的群緊密度的量度的步驟;及一如果預(yù)先確定的標(biāo)準(zhǔn)不滿足群緊密度的量度,那么增大k值的步驟。
全文摘要
提出一種在獲得用戶觀看歷史或購買歷史之前向用戶建議興趣項(xiàng)目,如電視節(jié)目建議,的方法和裝置。對第三方觀看或購買歷史進(jìn)行處理以生成構(gòu)造型簡檔,該構(gòu)造型簡檔反映了典型觀眾選擇的項(xiàng)目的典型模型。用戶可以從生成的構(gòu)造型簡檔中選擇最相關(guān)的構(gòu)造型簡檔并由此使用與他或她的興趣最接近的項(xiàng)目對他或她的簡檔進(jìn)行初始化。群集程序利用k-means群集算法將第三方觀看或購買歷史(數(shù)據(jù)組)劃分為群,因此在某個(gè)群中的點(diǎn)(如,電視節(jié)目)與任何其它群相比更接近該群的平均值。根據(jù)群緊密度的量度增大該k值。
文檔編號H04N7/16GK1666518SQ03815091
公開日2005年9月7日 申請日期2003年6月10日 優(yōu)先權(quán)日2002年6月27日
發(fā)明者S·古特塔, K·庫拉帕蒂 申請人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
台东县| 宣武区| 皮山县| 灵丘县| 庐江县| 镇坪县| 江都市| 霍林郭勒市| 三门峡市| 武定县| 淮安市| 玉龙| 玉树县| 民权县| 鲁甸县| 宜兰县| 阳原县| 门头沟区| 满洲里市| 昌乐县| 苏尼特右旗| 水富县| 乌兰察布市| 通辽市| 思茅市| 湾仔区| 张家界市| 镇平县| 宽甸| 安溪县| 高要市| 三门峡市| 息烽县| 玉门市| 循化| 台江县| 都江堰市| 沙坪坝区| 南雄市| 喜德县| 湾仔区|