本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種節(jié)目信息的聚合方法。
背景技術(shù):
隨著計算機技術(shù)的發(fā)展,越來越多的用戶開始使用互聯(lián)網(wǎng)視頻業(yè)務(wù)。而隨著用戶的不斷增長,資源內(nèi)容的擴充,用戶對影片的要求越來越嚴格,需求多樣化,
在互聯(lián)網(wǎng)視頻業(yè)務(wù)中,節(jié)目片源來源眾多,管理、維護繁瑣,對不同類型的節(jié)目其處理方法也不同,而有些節(jié)目源需要進行打包,即聚合處理,之后再提供給用戶。
目前在節(jié)目進行打包過程中多為運營的系統(tǒng)維護人員對節(jié)目片源進行手工打包,操作效率低,維護難度大。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種節(jié)目信息的聚合方法,能夠自動實現(xiàn)對節(jié)目信息的類型分揀,并對不同獲取渠道、不同類型的節(jié)目信息,自動確定是否需要進行聚合處理。即對于來源多樣化的節(jié)目信息,形成出口統(tǒng)一的輸出規(guī)范,大大提高了系統(tǒng)中節(jié)目片源的維護管理效率。
為實現(xiàn)上述目的,本發(fā)明提供了一種節(jié)目信息的聚合方法,包括:
接收節(jié)目數(shù)據(jù);
根據(jù)所述節(jié)目數(shù)據(jù)識別注入所述節(jié)目數(shù)據(jù)的對象的信息;所述對象包括第一類對象的信息和第二類對象的信息;節(jié)目數(shù)據(jù)具有原始庫節(jié)目id;
當識別為所述第一類對象的信息時,將所述節(jié)目數(shù)據(jù)加入原始庫;
確定所述原始庫中的節(jié)目數(shù)據(jù)是否需要聚合處理;
當確定需要聚合處理時,根據(jù)所述原始庫節(jié)目id在聚合庫中查詢是否已經(jīng)存在所述節(jié)目數(shù)據(jù)的節(jié)目信息;
如果不存在,則獲取原始庫中所述節(jié)目數(shù)據(jù)的原始庫標簽信息;所述原始庫標簽信息包括一個或多個的原始庫標簽字段;
根據(jù)所述節(jié)目數(shù)據(jù)的原始庫標簽字段在知識庫中匹配所述節(jié)目數(shù)據(jù);
當所述匹配失敗時,將所述節(jié)目數(shù)據(jù)添加到所述知識庫中,生成知識庫節(jié)目id;
根據(jù)所述知識庫的所述節(jié)目數(shù)據(jù)生成節(jié)目信息,輸出至聚合庫進行存儲;并且,將所述節(jié)目數(shù)據(jù)在所述聚合庫中存儲為標準節(jié)目數(shù)據(jù)。
優(yōu)選的,所述確定所述原始庫中的節(jié)目數(shù)據(jù)是否需要聚合處理具體包括:
獲取所述節(jié)目數(shù)據(jù)的分類屬性;
根據(jù)所述節(jié)目數(shù)據(jù)的分類屬性,確定所述節(jié)目數(shù)據(jù)是否需要聚合。
優(yōu)選的,所述方法還包括:當確定不需要聚合處理時,將所述節(jié)目數(shù)據(jù)添加至所述聚合庫,存儲為標準節(jié)目數(shù)據(jù)。
優(yōu)選的,所述方法還包括:
當所述匹配成功時,獲取所述知識庫中于所述節(jié)目數(shù)據(jù)相匹配的第一節(jié)目數(shù)據(jù)的第一節(jié)目id,并根據(jù)所述第一節(jié)目id對應(yīng)的節(jié)目信息輸出至所述聚合庫。
優(yōu)選的,所述方法還包括:
將所述第一節(jié)目數(shù)據(jù)添加至所述聚合庫,存儲為標準節(jié)目數(shù)據(jù)。
優(yōu)選的,在所述根據(jù)所述節(jié)目數(shù)據(jù)的分類屬性,確定所述節(jié)目數(shù)據(jù)是否需要聚合處理之前,所述方法還包括:配置預(yù)設(shè)規(guī)則。
優(yōu)選的,所述根據(jù)所述節(jié)目數(shù)據(jù)的分類屬性,確定所述節(jié)目數(shù)據(jù)是否需要聚合具體包括:
根據(jù)所述預(yù)設(shè)規(guī)則,確定所述節(jié)目數(shù)據(jù)的分類屬性所對應(yīng)的數(shù)據(jù)處理規(guī)則;所述數(shù)據(jù)處理規(guī)則包括聚合處理或不聚合處理;
當所述節(jié)目數(shù)據(jù)的分類屬性對應(yīng)的數(shù)據(jù)處理規(guī)則為聚合處理,則確定所述節(jié)目數(shù)據(jù)需要聚合;否則,確定所述節(jié)目數(shù)據(jù)不需要聚合。
優(yōu)選的,當識別為所述第二類對象的信息時,所述方法還包括:
將所述節(jié)目數(shù)據(jù)進行去重校正處理;
將所述去重校正處理后的所述節(jié)目數(shù)據(jù)在所述知識庫中進行匹配,根據(jù)匹配結(jié)果得到知識庫節(jié)目id;
根據(jù)所述去重校正處理后的所述節(jié)目數(shù)據(jù),以及所述知識庫節(jié)目id已具有的知識庫標簽,生成所述節(jié)目數(shù)據(jù)的知識庫補充標簽信息;
將所述知識庫補充標簽添加至所述知識庫節(jié)目id對應(yīng)的知識庫的節(jié)目數(shù)據(jù);
根據(jù)所述知識庫的所述節(jié)目數(shù)據(jù)生成節(jié)目信息,輸出至聚合庫進行存儲;并且,將所述節(jié)目數(shù)據(jù)在所述聚合庫中存儲為標準節(jié)目數(shù)據(jù)。
進一步優(yōu)選的,所述方法還包括:
根據(jù)所述標準節(jié)目數(shù)據(jù)生成節(jié)目同步數(shù)據(jù)發(fā)送給用戶終端。
本發(fā)明實施例提供的節(jié)目信息的聚合方法,能夠自動實現(xiàn)對節(jié)目信息的類型分揀,并對不同獲取渠道、不同類型的節(jié)目信息,自動確定是否需要進行聚合處理。即對于來源多樣化的節(jié)目信息,形成出口統(tǒng)一的輸出規(guī)范,大大提高了系統(tǒng)中節(jié)目片源的維護管理效率。
附圖說明
圖1為本發(fā)明實施例提供的節(jié)目信息的聚合方法流程圖。
具體實施方式
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
本發(fā)明實施例提供的節(jié)目信息的聚合處理方法,用于節(jié)目信息管理系統(tǒng)中。
圖1為本發(fā)明實施例提供的節(jié)目信息的聚合處理方法的流程圖,根據(jù)圖1所示,該方法主要通過如下步驟來實現(xiàn):
步驟101,接收節(jié)目數(shù)據(jù);
具體的,節(jié)目數(shù)據(jù)可以包括有不同來源的節(jié)目數(shù)據(jù),比如由內(nèi)容供應(yīng)商提供的節(jié)目數(shù)據(jù)、由運營商提供的自有節(jié)目數(shù)據(jù),以及從互聯(lián)網(wǎng)獲取的節(jié)目數(shù)據(jù)。無論是哪一種,節(jié)目數(shù)據(jù)都具有原始庫節(jié)目id。這個原始庫節(jié)目id是片源的唯一識別id。
其中,內(nèi)容提供商的節(jié)目數(shù)據(jù)可以是通過接口注入方式實現(xiàn)數(shù)據(jù)接收的;運營商的自有內(nèi)容可以是通過導入方式實現(xiàn)的,而互聯(lián)網(wǎng)獲取的節(jié)目數(shù)據(jù)則可通過網(wǎng)絡(luò)接口來實現(xiàn),可以是由系統(tǒng)開發(fā)者在系統(tǒng)上線過程中加入的。
步驟102,根據(jù)節(jié)目數(shù)據(jù)識別注入節(jié)目數(shù)據(jù)的對象的信息;
具體的,可以對節(jié)目數(shù)據(jù)的對象的信息進行分類,以對不同類別來源的節(jié)目數(shù)據(jù)進行相應(yīng)的處理。其中在本發(fā)明實施例中可以包括第一類對象的信息和第二類對象的信息。無論是哪種,節(jié)目數(shù)據(jù)具有原始庫節(jié)目id。
其中,第一類對象可以是指由內(nèi)容提供商的或者運營商提供的節(jié)目數(shù)據(jù),第二類對象可以是指通過互聯(lián)網(wǎng)獲取方式得到的節(jié)目數(shù)據(jù)。
步驟103,當識別為第一類對象的信息時,將節(jié)目數(shù)據(jù)加入原始庫;
具體的,各內(nèi)容供應(yīng)商按照對應(yīng)的注入接口規(guī)范,將相應(yīng)的內(nèi)容注入到原始庫。
步驟104,確定原始庫中的節(jié)目數(shù)據(jù)是否需要聚合處理;
具體的,可以通過獲取節(jié)目數(shù)據(jù)的分類屬性,然后根據(jù)節(jié)目數(shù)據(jù)的分類屬性,確定節(jié)目數(shù)據(jù)是否需要聚合。
在系統(tǒng)中預(yù)先配置有預(yù)設(shè)規(guī)則,用以規(guī)定哪些類型的數(shù)據(jù)需要聚合,那些不需要聚合。在具體的實現(xiàn)中可以通過節(jié)目數(shù)據(jù)的分類屬性來進行識別。
比如新聞類、購物廣告類的視音頻數(shù)據(jù)可以設(shè)定為不需要聚合,影片的視音頻數(shù)據(jù)可以設(shè)定為聚合。除了可以按照內(nèi)容進行分類,還可以按照數(shù)據(jù)來源進行分類。比如來自于內(nèi)容供應(yīng)商的數(shù)據(jù)可以設(shè)定為需要聚合,而來自于運營商的自有內(nèi)容數(shù)據(jù)可以設(shè)定為不需要聚合。
這些都可以通過設(shè)定分類屬性來進行區(qū)分。當識別節(jié)目數(shù)據(jù)的分類屬性對應(yīng)的數(shù)據(jù)處理規(guī)則為聚合處理,則確定節(jié)目數(shù)據(jù)需要聚合;否則,確定節(jié)目數(shù)據(jù)不需要聚合。
其中,當確定不需要聚合處理時,執(zhí)行步驟105,將節(jié)目數(shù)據(jù)添加至聚合庫,存儲為標準節(jié)目數(shù)據(jù)。
當確定需要聚合處理時,執(zhí)行步驟106,根據(jù)原始庫節(jié)目id在聚合庫中查詢是否已經(jīng)存在節(jié)目數(shù)據(jù)的節(jié)目信息;
具體的,如果聚合庫中已經(jīng)存在有原始庫節(jié)目id,則說明節(jié)目不再需要聚合。如果聚合庫中已經(jīng)有了節(jié)目數(shù)據(jù)的原始庫節(jié)目id,說明已經(jīng)存在該節(jié)目數(shù)據(jù),則流程直接結(jié)束。這樣可以避免已有節(jié)目被覆蓋。
如果不存在,則執(zhí)行步驟107,獲取原始庫中節(jié)目數(shù)據(jù)的原始庫標簽信息;
具體的,原始庫標簽信息包括一個或多個的原始庫標簽字段;標簽字段用以記錄不同的標簽信息。
標簽字段可以包括與影片內(nèi)容相關(guān)的標簽信息,也可以包括用以對影片進行分類的自定義標簽字段。
比如與影片內(nèi)容相關(guān)的標簽字段可以例如,標識影片類型的“動作片”、“劇情片”、“愛情片”、“兒童片”等等;
還可以包括上映年份的,比如“1995”、“2016”等;
另外還可以包括影片主演姓名、導演姓名等等。
標簽由標簽字段拼接形成。
而對影片進行分類的自定義標簽可以是內(nèi)容商或者節(jié)目平臺管理者定義產(chǎn)生的,也可以是根據(jù)用戶信息大數(shù)據(jù)收集后分析生成的,例如自定義標簽可以包括“80后”、“90后”、“宅男”等等。同樣的,這些也屬于標簽字段。
步驟108,根據(jù)節(jié)目數(shù)據(jù)的原始庫標簽字段在知識庫中匹配節(jié)目數(shù)據(jù);
具體的,在知識庫中,記錄有已經(jīng)積累到的影片數(shù)據(jù)的節(jié)目信息、編排屬性等,具體可以包括演員姓名、導演姓名、影片名稱、上映日期等等信息。根據(jù)這些信息,可以對節(jié)目數(shù)據(jù)進行匹配查詢,確定該節(jié)目數(shù)據(jù)是否已經(jīng)被記錄過。
可以預(yù)先設(shè)定匹配規(guī)則,比如標簽字段的匹配率達到80%即可認為匹配成功,否則認為匹配失敗。
當匹配失敗時,執(zhí)行步驟109,當匹配成功時,執(zhí)行步驟111;
步驟109,將節(jié)目數(shù)據(jù)添加到知識庫中,生成知識庫節(jié)目id;
如果匹配失敗,則說明該節(jié)目數(shù)據(jù)沒有被記錄過,將該節(jié)目數(shù)據(jù)在知識庫中進行添加,以實現(xiàn)內(nèi)容的積累。
對添加到知識庫中的節(jié)目數(shù)據(jù)生成知識庫節(jié)目id。
步驟110,根據(jù)知識庫的節(jié)目數(shù)據(jù)生成節(jié)目信息,輸出至聚合庫進行存儲;并且,將節(jié)目數(shù)據(jù)在聚合庫中存儲為標準節(jié)目數(shù)據(jù)。
在步驟108之后,當匹配成功時,執(zhí)行步驟111:
步驟111,當匹配成功時,獲取知識庫中于節(jié)目數(shù)據(jù)相匹配的第一節(jié)目數(shù)據(jù)的第一節(jié)目id,并根據(jù)第一節(jié)目id對應(yīng)的節(jié)目信息輸出至聚合庫,并且存儲為標準節(jié)目數(shù)據(jù)。
進一步的,在上述步驟102之后,當注入節(jié)目數(shù)據(jù)的對象的信息識別為第二類對象的信息時,本方法還可以執(zhí)行如下過程,對這部分節(jié)目數(shù)據(jù)進行處理。具體包括:
步驟112,將節(jié)目數(shù)據(jù)進行去重校正處理;
步驟113,將去重校正處理后的節(jié)目數(shù)據(jù)在知識庫中進行匹配,根據(jù)匹配結(jié)果得到知識庫節(jié)目id;
步驟114,根據(jù)去重校正處理后的節(jié)目數(shù)據(jù),以及知識庫節(jié)目id已具有的知識庫標簽,生成節(jié)目數(shù)據(jù)的知識庫補充標簽信息;
步驟115,將知識庫補充標簽添加至知識庫節(jié)目id對應(yīng)的知識庫的節(jié)目數(shù)據(jù);
步驟116,根據(jù)知識庫的節(jié)目數(shù)據(jù)生成節(jié)目信息,輸出至聚合庫進行存儲;并且,將節(jié)目數(shù)據(jù)在聚合庫中存儲為標準節(jié)目數(shù)據(jù)。
上述過程可以理解為,根據(jù)匹配確定相似度,如果相似度符合規(guī)范,則以節(jié)目數(shù)據(jù)對知識庫中對應(yīng)的節(jié)目數(shù)據(jù)進行補充,從而對聚合庫中的標準節(jié)目數(shù)據(jù)進行更新。
無論采用上述哪種方式,得到標準節(jié)目數(shù)據(jù)之后,在得到標準節(jié)目數(shù)據(jù)之后,可以根據(jù)標準節(jié)目數(shù)據(jù)生成節(jié)目同步數(shù)據(jù)發(fā)送給用戶終端。節(jié)目同步數(shù)據(jù)可以是可擴展標記語言(xml)格式數(shù)據(jù)。通過該數(shù)據(jù)可以在終端側(cè)生成用以展示的頁面。
本發(fā)明實施例提供的節(jié)目信息的聚合方法,能夠自動實現(xiàn)對節(jié)目信息的類型分揀,并對不同獲取渠道、不同類型的節(jié)目信息,自動確定是否需要進行聚合處理。即對于來源多樣化的節(jié)目信息,形成出口統(tǒng)一的輸出規(guī)范,大大提高了系統(tǒng)中節(jié)目片源的維護管理效率。
專業(yè)人員應(yīng)該還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。