本發(fā)明涉及視頻處理的技術(shù)領(lǐng)域,特別是涉及一種直播視頻的監(jiān)控方法和一種直播視頻的監(jiān)控裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)科技的發(fā)展以及智能設(shè)備的普及,人們喜歡將自己或者自己身邊的事情,以視頻的形式實時在網(wǎng)絡(luò)平臺上進行直播,與其他用戶進行互動。
在直播的過程中,受網(wǎng)絡(luò)影響,視頻的畫質(zhì)可能會出現(xiàn)波動,為了對視頻的畫質(zhì)進行監(jiān)控,通常使用主觀評價和客觀評價兩種方式。
客觀評價指的是不需要人為干預(yù)評價的方法,即將原始視頻與編碼壓縮處理后的視頻進行對比,可以進行象素級別的對比,也可以對某些特性進行提取和對比。
客觀評價的指標(biāo)通常有psnr(峰值信噪比)、mse(均值方差)、ssim(結(jié)構(gòu)相似度)等等。
客觀評價需要將原始視頻與編碼壓縮處理后的視頻進行對比,消耗的時間較長,并不適用于直播的場景。
主觀評價是指由評測人員參與,對視頻的質(zhì)量進行評估,按照評測者對銳度、對比度等的主觀感受,進行打分。然后按照最后的評分來確定視頻質(zhì)量。
主觀評價需要人工參與,對直播這種大流量的場景,工作量太大,并不適合。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種直播視頻的監(jiān)控方法和相應(yīng)的一種直播視頻的監(jiān)控裝置。
依據(jù)本發(fā)明的一個方面,提供了一種直播視頻的監(jiān)控方法,包括:
在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像;
在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息;
在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
可選地,還包括:
在接口層中,將所述視頻分類信息通過預(yù)置的接口發(fā)送至訂閱設(shè)備。
可選地,所述在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像的步驟包括:
從直播的視頻流中查找畫面組;
在所述畫面組中提取關(guān)鍵幀圖像,作為目標(biāo)幀圖像。
可選地,所述分類模型通過如下方式訓(xùn)練:
從直播的視頻流中提取樣本幀圖像;
對所述樣本幀圖像標(biāo)記圖像分類信息;
以所述樣本幀圖像與所述圖像分類信息作為訓(xùn)練樣本,訓(xùn)練分類模型。
可選地,所述在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息的步驟包括:
將所述圖像分類信息存儲至預(yù)置的滑動窗口中;
采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
可選地,所述將所述圖像分類信息存儲至預(yù)置的滑動窗口中的步驟包括:
判斷所述滑動窗口是否已全部存儲在先的圖像分類信息;
若是,則從所述滑動窗口中移除時間戳最小的、在先的圖像分類信息;
將當(dāng)前的圖像分類信息存儲至空閑的滑動窗口中;
若否,則將當(dāng)前圖像分類信息存儲至預(yù)置的、空閑的滑動窗口中。
可選地,所述采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息的步驟包括:
統(tǒng)計在所述滑動窗口中、相同種類的圖像分類信息的數(shù)量占比;
當(dāng)某個種類的圖像分類信息的數(shù)量占比高于預(yù)設(shè)的比例閾值時,基于所述種類的圖像分類信息表示的分類、對所述直播的視頻流生成視頻分類信息。
根據(jù)本發(fā)明的另一方面,提供了一種直播視頻的監(jiān)控的裝置,包括:
視頻采樣模塊,適于在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像;
視頻分析模塊,適于在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息;
業(yè)務(wù)處理模塊,適于在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
可選地,還包括:
接口模塊,適于在接口層中,將所述視頻分類信息通過預(yù)置的接口發(fā)送至訂閱設(shè)備。
可選地,所述視頻采樣模塊還適于:
從直播的視頻流中查找畫面組;
在所述畫面組中提取關(guān)鍵幀圖像,作為目標(biāo)幀圖像。
可選地,所述分類模型調(diào)用如下模塊訓(xùn)練:
樣本幀圖像提取模塊,適于從直播的視頻流中提取樣本幀圖像;
圖像分類信息標(biāo)記模塊,適于對所述樣本幀圖像標(biāo)記圖像分類信息;
機器學(xué)習(xí)模塊,適于以所述樣本幀圖像與所述圖像分類信息作為訓(xùn)練樣本,訓(xùn)練分類模型。
可選地,所述業(yè)務(wù)處理模塊還適于:
將所述圖像分類信息存儲至預(yù)置的滑動窗口中;
采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
可選地,所述業(yè)務(wù)處理模塊還適于:
判斷所述滑動窗口是否已全部存儲在先的圖像分類信息;
若是,則從所述滑動窗口中移除時間戳最小的、在先的圖像分類信息;
將當(dāng)前的圖像分類信息存儲至空閑的滑動窗口中;
若否,則將當(dāng)前圖像分類信息存儲至預(yù)置的、空閑的滑動窗口中。
可選地,所述業(yè)務(wù)處理模塊還適于:
統(tǒng)計在所述滑動窗口中、相同種類的圖像分類信息的數(shù)量占比;
當(dāng)某個種類的圖像分類信息的數(shù)量占比高于預(yù)設(shè)的比例閾值時,基于所述種類的圖像分類信息表示的分類、對所述直播的視頻流生成視頻分類信息。
本發(fā)明實施例采用分層結(jié)構(gòu),在每層中均有相應(yīng)的處理,組成了一個可擴展的跨界系統(tǒng),在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像,降低了計算量,在視頻分析層中,利用分類模型對目標(biāo)幀圖像進行分類,輸出圖像分類信息,在業(yè)務(wù)處理層中,根據(jù)圖像分類信息對直播的視頻流進行分類,獲得視頻分類信息,通過匯總圖像分類信息對直播的視頻流進行分類,減少了少數(shù)目標(biāo)幀圖像的判斷誤差,提高了分類的準(zhǔn)確率,實現(xiàn)了在全民網(wǎng)絡(luò)直播平臺,對大流量的直播的畫質(zhì)質(zhì)量進行自動監(jiān)控,大大提高了效率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明一個實施例的一種直播視頻的監(jiān)控方法的步驟流程圖;
圖2示出了根據(jù)本發(fā)明一個實施例的一種直播系統(tǒng)結(jié)構(gòu)示意圖;
圖3a-圖3d示出了根據(jù)本發(fā)明一個實施例的一種圖像分類信息的示例圖;
圖4示出了根據(jù)本發(fā)明一個實施例的另一種直播視頻的監(jiān)控方法的步驟流程圖;
圖5示出了根據(jù)本發(fā)明一個實施例的一種直播監(jiān)控系統(tǒng)的邏輯分層示意圖圖;
圖6示出了根據(jù)本發(fā)明一個實施例的一種直播監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖;
圖7示出了根據(jù)本發(fā)明一個實施例的一種直播視頻的監(jiān)控的裝置的結(jié)構(gòu)框圖;以及
圖8示出了根據(jù)本發(fā)明一個實施例的另一種直播視頻的監(jiān)控的裝置的結(jié)構(gòu)框圖。
具體實施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種直播視頻的監(jiān)控方法的步驟流程圖,具體可以包括如下步驟:
步驟101,在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像。
在具體實現(xiàn)中,如圖2所示,在一個直播的系統(tǒng)中,可以包括服務(wù)器201,第一終端202、一個或多個第二終端203。
第一終端202,如個人電腦、手機、平板電腦、專業(yè)錄制編碼設(shè)備等等,配置有麥克風(fēng)、攝像頭等部件,進行內(nèi)容采集,即采集視頻數(shù)據(jù)(包括音頻數(shù)據(jù))。
第一終端202通過分布式推流的方式將視頻數(shù)據(jù)上傳到服務(wù)器201中,具體而言,第一終端202在推流之前會通過名字服務(wù),一般是dns(domainnamesystem,域名系統(tǒng))智能解析或是自有按ip(internetprotocol,網(wǎng)絡(luò)之間互連的協(xié)議)調(diào)度系統(tǒng)獲取最靠譜的推流節(jié)點,然后把流上傳到服務(wù)器202中。
服務(wù)器202(如分布式推流節(jié)點)接入了流式的視頻數(shù)據(jù)之后,后續(xù)進行編解碼或者做一些水印等視頻處理,比如,給視頻數(shù)據(jù)加一些打點的數(shù)據(jù)、字幕以及一些特殊說明等,構(gòu)成了直播后臺系統(tǒng)。
服務(wù)器202根據(jù)不同的業(yè)務(wù)需求,需要有不同的后臺服務(wù)來支撐,其可以為獨立的服務(wù)器,也可以為服務(wù)器集群,如分布式系統(tǒng),根據(jù)服務(wù)的不同,可以區(qū)分為管理服務(wù)器、web服務(wù)器、流媒體服務(wù)器,等等。
服務(wù)器202通過視頻處理之后,生成h.264和aac(advancedaudiocoding,高級音頻編碼)等格式的直播流,然后通過cdn(contentdeliverynetwork,內(nèi)容分發(fā)網(wǎng)絡(luò))等方式分發(fā)到一個或多個第二終端203,如手機、個人電腦、vr(virtualreality,虛擬現(xiàn)實)設(shè)備,等等,讓用戶看到實時的直播流。
在此直播系統(tǒng)中,第一終端202所屬的用戶可以稱之為主播,第二終端203所屬的用戶可以稱之為觀眾,觀眾可以在第二終端203中進行點贊、送禮、發(fā)信息等操作,通過服務(wù)器201反饋至第一終端201,實現(xiàn)與主播之間的互動。
當(dāng)然,服務(wù)器202在處理完流式的視頻數(shù)據(jù)之后,還可以進行錄制存儲,錄制完了之后還能夠轉(zhuǎn)成點播,滿足用戶的多樣需求。
此外,服務(wù)器202還有虛擬直播的概念,即在錄下來的時可以轉(zhuǎn)成flv(flashvideo,流媒體格式)的流推出來,不是真正的現(xiàn)實流錄播。
在實際應(yīng)用中,直播系統(tǒng)的直播可以包括如下幾種形式:
1、媒體和活動直播
在此種方式中,多是單向,即低上行、高下行,一般無交互、流數(shù)少,延遲容忍度高,如大于10s,包含電視轉(zhuǎn)流、演唱會直播等。
2、游戲直播
在此種方式中,多是單向,一般無交互、流數(shù)多,延遲容忍度較高,如大于5s。
3、秀場直播
在此種方式中,多是單向,一般文字交互、流數(shù)量多,延遲容忍度低,如2~5s。
4、社交直播
在此種方式中,多是單向,一般文字交互、流數(shù)量非常多,延遲容忍度低,如2~5s。
社交直播和秀場直播在交互上類似,但是,秀場直播一般都是有限的主播把內(nèi)容運營起來,推流的數(shù)量較少,一般小于100路,而社交直播是路人即可產(chǎn)生內(nèi)容,所以直播的流數(shù)會上升到1000,甚至10000。
在本發(fā)明實施例中,采用分層結(jié)構(gòu)對直播的視頻進行畫質(zhì)監(jiān)控。
在分層結(jié)構(gòu)中,其中一層為視頻采樣層,視頻本質(zhì)上由一幀一幀的連續(xù)圖像組成的,可以采用定期的方式(2~4s)從視頻流中選取目標(biāo)幀圖像,代表某個時間段內(nèi)的視頻,從而將對視頻流的分析簡化為對靜止圖像的分析。
在本發(fā)明的一個實施例中,可以從直播的視頻流中查找畫面組(groupofpicture,gop),在畫面組中提取關(guān)鍵幀圖像,作為目標(biāo)幀圖像。
一個gop是一組連續(xù)的圖像,mpeg(movingpicturesexpertsgroup/motionpicturesexpertsgroup,動態(tài)圖像專家組)編碼將圖像(即幀)分為i、p、b三種,i是內(nèi)部編碼幀,p是前向預(yù)測幀,b是雙向內(nèi)插幀。i幀表示關(guān)鍵幀,這一幀畫面的完整保留,解碼時通過本幀數(shù)據(jù)即可完成,而p幀和b幀記錄的是相對于i幀的變化。
步驟102,在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息。
在分層結(jié)構(gòu)中,其中一層為視頻分析層,在視頻分析層中,可以預(yù)先訓(xùn)練一個分類模型,用于對視頻圖像進行分類。
在本發(fā)明的一個實施例中,分類模型通過如下方式訓(xùn)練:
子步驟s11,從直播的視頻流中提取樣本幀圖像。
子步驟s12,對所述樣本幀圖像標(biāo)記圖像分類信息。
子步驟s13,以所述樣本幀圖像與所述圖像分類信息作為訓(xùn)練樣本,訓(xùn)練分類模型。
在本發(fā)明實施例中,可以通過有監(jiān)督機器學(xué)習(xí)的辦法,從直播的視頻流中采集一批樣本幀圖像(如關(guān)鍵幀圖像),通過人工或自動學(xué)習(xí)的方式對其標(biāo)記圖像分類信息,然后采用機器學(xué)習(xí)訓(xùn)練分類模型。
其中,機器學(xué)習(xí)的方法即可以是淺層的機器學(xué)習(xí)方法,如svm(supportvectormachine,支持向量機),也可以是深度學(xué)習(xí)方法,如cnn(convolutionalneuralnetwork,卷積神經(jīng)網(wǎng)絡(luò)),等等,本發(fā)明實施例對此不加以限制。
分層結(jié)構(gòu)使得可以很便利的替換掉已有的分類模型,從而采用更加高效的新的分類模型。
對于線上每一個視頻流的目標(biāo)幀圖像,套用分類模型分析處理,可以得到分類的結(jié)果,即圖像分類信息。
在本發(fā)明實施例的一個示例中,技術(shù)人員基于預(yù)設(shè)的打分規(guī)則,以主觀感受為主,客觀為輔,可以對樣本幀圖像標(biāo)注五個圖像分類信息:
1、清晰
如圖3a所示,圖像中面部邊緣輪廓清晰,頭發(fā)細(xì)節(jié)清晰,色調(diào)和諧自然。
2、細(xì)節(jié)稍模糊
如圖3b所示,整體圖像協(xié)調(diào)清晰,允許出現(xiàn)以下細(xì)節(jié)問題:
2.1、臉部有噪點、偏暗、曝光不足
2.2、臉部偏白、曝光過度
2.3、整個畫面色調(diào)不對、發(fā)白或者發(fā)紅,感覺畫面有蒙層
2.4、頭發(fā)不清楚、臉部沒有自然皮膚質(zhì)感
3、整體或多處細(xì)節(jié)模糊
如圖3c所示,圖像中臉部周圍出現(xiàn)較多馬賽克,或者較強較暗光照,看不清面部。
4、很模糊
如圖3d所示,圖像整體大面積馬賽克,五官模糊,或者身處極強光照或者極暗環(huán)境。
5、不標(biāo)注
圖像清晰度極差,無法辨識人臉或者人臉不完全在鏡頭內(nèi)。
當(dāng)然,上述圖像分類信息只是作為示例,在實施本發(fā)明實施例時,可以根據(jù)實際情況設(shè)置其他圖像分類信息,本發(fā)明實施例對此不加以限制。另外,除了上述圖像分類信息,本領(lǐng)域技術(shù)人員還可以根據(jù)實際需要采用其它圖像分類信息,本發(fā)明實施例對此也不加以限制。
步驟103,在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
在分層結(jié)構(gòu)中,其中一層為業(yè)務(wù)處理層,由于視頻分析層給出的是某一小段時間內(nèi)靜止的場景的分類結(jié)果,而實際情況下,直播的視頻流又是一個由連續(xù)和不斷變化的場景組成的,如果靠一兩次靜止的場景的分類結(jié)果進行對直播的視頻流進行分類,可能會有誤差。
因此,在本發(fā)明實施例中,可以匯總靜止的場景的分類結(jié)果,對直播的視頻流進行分類,從而獲知其視頻分類信息。
在本發(fā)明的一個實施例中,步驟103可以包括如下子步驟:
子步驟s21,將所述圖像分類信息存儲至預(yù)置的滑動窗口中。
在本發(fā)明實施例中,可以對每個直播的視頻流配置一個緩存歷次圖像分類信息的滑動窗口,緩存最近一段時間的圖像分類信息。
在緩存圖像分類信息時,可以判斷滑動窗口是否已全部存儲在先的圖像分類信息。
若是,則從滑動窗口中移除時間戳最小的、在先的圖像分類信息,并將當(dāng)前的圖像分類信息存儲至空閑(即未存儲圖像分類信息)的滑動窗口中。
若否,則將當(dāng)前圖像分類信息存儲至預(yù)置的、空閑(即未存儲圖像分類信息)的滑動窗口中。
子步驟s22,采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
每接收到一個新的圖像分類信息,則可以重新采用滑動窗口中緩存的圖像分類信息對直播的視頻流進行分類,從而平滑了機器學(xué)習(xí)算法的誤差,得到一個更為穩(wěn)定的視頻分類信息。
在一種實施方式中,可以統(tǒng)計在滑動窗口中、相同種類的圖像分類信息的數(shù)量占比。
當(dāng)某個種類的圖像分類信息的數(shù)量占比高于預(yù)設(shè)的比例閾值時,基于種類的圖像分類信息表示的分類、對直播的視頻流生成視頻分類信息。
例如,滑動窗口設(shè)置為10,即緩存最近10次的圖像分類信息,如果10次的圖像分類信息中,6次為清晰,3次為細(xì)節(jié)稍模糊,1次為整體或多處細(xì)節(jié)模糊,由于6次大于5次(比例閾值),則可以認(rèn)為直播的視頻流的分類為清晰。
本發(fā)明實施例采用分層結(jié)構(gòu),在每層中均有相應(yīng)的處理,組成了一個可擴展的跨界系統(tǒng),在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像,降低了計算量,在視頻分析層中,利用分類模型對目標(biāo)幀圖像進行分類,輸出圖像分類信息,在業(yè)務(wù)處理層中,根據(jù)圖像分類信息對直播的視頻流進行分類,獲得視頻分類信息,通過匯總圖像分類信息對直播的視頻流進行分類,減少了少數(shù)目標(biāo)幀圖像的判斷誤差,提高了分類的準(zhǔn)確率,實現(xiàn)了在全民網(wǎng)絡(luò)直播平臺,對大流量的直播的畫質(zhì)質(zhì)量進行自動監(jiān)控,大大提高了效率。
參照圖4,示出了根據(jù)本發(fā)明一個實施例的另一種直播視頻的監(jiān)控方法的步驟流程圖,具體可以包括如下步驟:
步驟401,在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像。
步驟402,在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息。
步驟403,在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
步驟404,在接口層中,將所述視頻分類信息通過預(yù)置的接口發(fā)送至訂閱設(shè)備。
如圖5所示,在邏輯結(jié)構(gòu)上,本發(fā)明實施例可以劃分為視頻采樣層501、視頻分析層502、業(yè)務(wù)處理層503、接口層504。
如圖6所示,部署獨立的開流狀況服務(wù)器601,這是一個外部的系統(tǒng),從這個系統(tǒng)里,可以查詢到當(dāng)前開播的視頻流,從而按照當(dāng)前開播的視頻流的信息(如id),去獲取目標(biāo)幀圖像并進行分類。
部署獨立的分析調(diào)度服務(wù)器602,分析調(diào)度服務(wù)器602從開流狀況服務(wù)器601獲取當(dāng)前開播的視頻流的信息(如id),作為外部數(shù)據(jù)源,然后以視頻流的信息(如id)作為輸入信息,去調(diào)度分析服務(wù)器604進行分析處理工作。
部署獨立的幀提取服務(wù)器603,劃分為視頻采樣層,從而從直播的視頻流中提取目標(biāo)幀圖像。
部署獨立的分析服務(wù)器(集群)604,劃分為視頻分析層,從而將目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對目標(biāo)幀圖像進行分類,輸出圖像分類信息。
分析處理的結(jié)果(即圖像分類信息)有部分存儲在分析調(diào)度服務(wù)器602上,也有部分在業(yè)務(wù)處理服務(wù)器605上。
部署獨立的業(yè)務(wù)處理服務(wù)器605,劃分為業(yè)務(wù)處理層,從而根據(jù)圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
部署獨立的接口服務(wù)器606,劃分為接口層,又可稱為表示層,在該接口層中,對外提供api(applicationprogramminginterface,應(yīng)用程序編程接口)接口,將直播的視頻流的分類結(jié)果提供給第三方,由其進行業(yè)務(wù)相關(guān)的擴展使用。
例如,如對全平臺較多直播的視頻流出現(xiàn)畫質(zhì)變差的情況,發(fā)出報警郵件/短信等,及時排查。并留底存檔,以備事后追蹤。
部署獨立的接口訂閱服務(wù)器607,通過api接口從接口服務(wù)器606獲取直播的視頻流的分類結(jié)果,向用戶提供畫質(zhì)較高的直播,讓用戶在網(wǎng)站進行搜索,將直播的信息通過訂閱、郵件推薦給用戶。
對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。
參照圖7,示出了根據(jù)本發(fā)明一個實施例的一種直播視頻的監(jiān)控的裝置的結(jié)構(gòu)框圖,具體可以包括如下模塊:
視頻采樣模塊701,適于在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像;
視頻分析模塊702,適于在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息;
業(yè)務(wù)處理模塊703,適于在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
在本發(fā)明的一個實施例中,所述視頻采樣模塊701還適于:
從直播的視頻流中查找畫面組;
在所述畫面組中提取關(guān)鍵幀圖像,作為目標(biāo)幀圖像。
在本發(fā)明的一個實施例中,所述分類模型調(diào)用如下模塊訓(xùn)練:
樣本幀圖像提取模塊,適于從直播的視頻流中提取樣本幀圖像;
圖像分類信息標(biāo)記模塊,適于對所述樣本幀圖像標(biāo)記圖像分類信息;
機器學(xué)習(xí)模塊,適于以所述樣本幀圖像與所述圖像分類信息作為訓(xùn)練樣本,訓(xùn)練分類模型。
在本發(fā)明的一個實施例中,所述業(yè)務(wù)處理模塊703還適于:
將所述圖像分類信息存儲至預(yù)置的滑動窗口中;
采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
在本發(fā)明的一個實施例中,所述業(yè)務(wù)處理模塊703還適于:
判斷所述滑動窗口是否已全部存儲在先的圖像分類信息;
若是,則從所述滑動窗口中移除時間戳最小的、在先的圖像分類信息;
將當(dāng)前的圖像分類信息存儲至空閑的滑動窗口中;
若否,則將當(dāng)前圖像分類信息存儲至預(yù)置的、空閑的滑動窗口中。
在本發(fā)明的一個實施例中,所述業(yè)務(wù)處理模塊703還適于:
統(tǒng)計在所述滑動窗口中、相同種類的圖像分類信息的數(shù)量占比;
當(dāng)某個種類的圖像分類信息的數(shù)量占比高于預(yù)設(shè)的比例閾值時,基于所述種類的圖像分類信息表示的分類、對所述直播的視頻流生成視頻分類信息。
本發(fā)明實施例采用分層結(jié)構(gòu),在每層中均有相應(yīng)的處理,組成了一個可擴展的跨界系統(tǒng),在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像,降低了計算量,在視頻分析層中,利用分類模型對目標(biāo)幀圖像進行分類,輸出圖像分類信息,在業(yè)務(wù)處理層中,根據(jù)圖像分類信息對直播的視頻流進行分類,獲得視頻分類信息,通過匯總圖像分類信息對直播的視頻流進行分類,減少了少數(shù)目標(biāo)幀圖像的判斷誤差,提高了分類的準(zhǔn)確率,實現(xiàn)了在全民網(wǎng)絡(luò)直播平臺,對大流量的直播的畫質(zhì)質(zhì)量進行自動監(jiān)控,大大提高了效率。
參照圖8,示出了根據(jù)本發(fā)明一個實施例的另一種直播視頻的監(jiān)控的裝置的結(jié)構(gòu)框圖,具體可以包括如下模塊:
視頻采樣模塊801,適于在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像;
視頻分析模塊802,適于在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息;
業(yè)務(wù)處理模塊803,適于在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
接口模塊804,適于在接口層中,將所述視頻分類信息通過預(yù)置的接口發(fā)送至訂閱設(shè)備。
對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(dsp)來實現(xiàn)根據(jù)本發(fā)明實施例的直播視頻的監(jiān)控設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
本發(fā)明實施例公開了a1、一種直播視頻的監(jiān)控方法,包括:
在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像;
在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息;
在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
a2、如a1所述的方法,還包括:
在接口層中,將所述視頻分類信息通過預(yù)置的接口發(fā)送至訂閱設(shè)備。
a3、如a1或a2所述的方法,所述在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像的步驟包括:
從直播的視頻流中查找畫面組;
在所述畫面組中提取關(guān)鍵幀圖像,作為目標(biāo)幀圖像。
a4、如a1或a2所述的方法,所述分類模型通過如下方式訓(xùn)練:
從直播的視頻流中提取樣本幀圖像;
對所述樣本幀圖像標(biāo)記圖像分類信息;
以所述樣本幀圖像與所述圖像分類信息作為訓(xùn)練樣本,訓(xùn)練分類模型。
a5、如a1或a2所述的方法,所述在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息的步驟包括:
將所述圖像分類信息存儲至預(yù)置的滑動窗口中;
采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
a6、如a5所述的方法,所述將所述圖像分類信息存儲至預(yù)置的滑動窗口中的步驟包括:
判斷所述滑動窗口是否已全部存儲在先的圖像分類信息;
若是,則從所述滑動窗口中移除時間戳最小的、在先的圖像分類信息;
將當(dāng)前的圖像分類信息存儲至空閑的滑動窗口中;
若否,則將當(dāng)前圖像分類信息存儲至預(yù)置的、空閑的滑動窗口中。
a7、如a5所述的方法,所述采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息的步驟包括:
統(tǒng)計在所述滑動窗口中、相同種類的圖像分類信息的數(shù)量占比;
當(dāng)某個種類的圖像分類信息的數(shù)量占比高于預(yù)設(shè)的比例閾值時,基于所述種類的圖像分類信息表示的分類、對所述直播的視頻流生成視頻分類信息。
本發(fā)明實施例還公開了b8、一種直播視頻的監(jiān)控的裝置,包括:
視頻采樣模塊,適于在視頻采樣層中,從直播的視頻流中提取目標(biāo)幀圖像;
視頻分析模塊,適于在視頻分析層中,將所述目標(biāo)幀圖像輸入預(yù)置的分類模型中、以對所述目標(biāo)幀圖像進行分類,輸出圖像分類信息;
業(yè)務(wù)處理模塊,適于在業(yè)務(wù)處理層中,根據(jù)所述圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
b9、如b8所述的裝置,還包括:
接口模塊,適于在接口層中,將所述視頻分類信息通過預(yù)置的接口發(fā)送至訂閱設(shè)備。
b10、如b8或b9所述的裝置,所述視頻采樣模塊還適于:
從直播的視頻流中查找畫面組;
在所述畫面組中提取關(guān)鍵幀圖像,作為目標(biāo)幀圖像。
b11、如b8或b9所述的裝置,所述分類模型調(diào)用如下模塊訓(xùn)練:
樣本幀圖像提取模塊,適于從直播的視頻流中提取樣本幀圖像;
圖像分類信息標(biāo)記模塊,適于對所述樣本幀圖像標(biāo)記圖像分類信息;
機器學(xué)習(xí)模塊,適于以所述樣本幀圖像與所述圖像分類信息作為訓(xùn)練樣本,訓(xùn)練分類模型。
b12、如b8或b9所述的裝置,所述業(yè)務(wù)處理模塊還適于:
將所述圖像分類信息存儲至預(yù)置的滑動窗口中;
采用所述滑動窗口中緩存的圖像分類信息對所述直播的視頻流進行分類,獲得視頻分類信息。
b13、如b12所述的裝置,所述業(yè)務(wù)處理模塊還適于:
判斷所述滑動窗口是否已全部存儲在先的圖像分類信息;
若是,則從所述滑動窗口中移除時間戳最小的、在先的圖像分類信息;
將當(dāng)前的圖像分類信息存儲至空閑的滑動窗口中;
若否,則將當(dāng)前圖像分類信息存儲至預(yù)置的、空閑的滑動窗口中。
b14、如b12所述的裝置,所述業(yè)務(wù)處理模塊還適于:
統(tǒng)計在所述滑動窗口中、相同種類的圖像分類信息的數(shù)量占比;
當(dāng)某個種類的圖像分類信息的數(shù)量占比高于預(yù)設(shè)的比例閾值時,基于所述種類的圖像分類信息表示的分類、對所述直播的視頻流生成視頻分類信息。