分析視頻文件的方法和裝置與流程

文檔序號：11802683閱讀：214來源：國知局

本發(fā)明涉及信息技術領域，尤其涉及信息技術領域中分析視頻文件的方法和裝置。

背景技術：
隨著網(wǎng)絡技術和信息技術的快速發(fā)展，大量的信息和資訊涌入我們的視線。圖像、音頻、視頻等采用多媒體數(shù)據(jù)的表達方式，使得新聞的點擊率得到了大幅的提高。多媒體數(shù)據(jù)正逐漸取代文字，成為新聞的主要載體。面對海量的新聞視頻，人們感到了“信息過載”的壓力。于是，人們開始關注如何從海量的視頻數(shù)據(jù)中找到自己感興趣的信息。這種需求促使了信息檢索、個性化推薦以及數(shù)據(jù)挖掘等技術的發(fā)展。電視新聞節(jié)目是新聞視頻的主要來源之一。新聞視頻的分析和應用越來越引起業(yè)內(nèi)的關注。目前新聞視頻分析的主要內(nèi)容包括：新聞拆條、新聞搜索、新聞推薦、潛在熱點事件發(fā)現(xiàn)、新聞事件跟蹤和輿情監(jiān)控。在新聞視頻分析的第一步即新聞拆條中，生成的新聞視頻的語義信息可以作為拆條得到的新聞事件的元數(shù)據(jù)，以便于后續(xù)的新聞搜索、新聞事件跟蹤等過程的分析與應用。新聞拆條針對的新聞視頻集中了多個類型的新聞事件的視頻，比如新聞聯(lián)播和各地區(qū)的電視新聞節(jié)目。這種不同類型、不同事件組合在一起的新聞方式不適合信息的快速檢索。因此，將新聞視頻按不同事件劃分成多個新聞視頻片段的需求變得非常迫切。將新聞視頻按不同事件進行劃分俗稱為“新聞拆條”或“碎片化”，即利用新聞視頻的音頻和視頻特征，將新聞視頻按不同事件進行分割。目前常用的音頻和視頻特征包括主持人鏡頭片段(也稱為“口播幀”)、字幕片段、鏡頭切換片段和靜音片段。目前，通過主持人鏡頭檢測、字幕檢測、靜音檢測和鏡頭切換檢測等方法能夠得到大量的分割時間點，但這些分割時間點與新聞事件分割點不是一對一的關系，更具體地說，這些分割時間點相對于新聞事件分割點來說是一種“過分割”，即新聞事件分割點集是前述分割時間點的一個子集。通常而言，主持人在播報新聞時，在敘述兩個新聞事件時停頓的時間相比講述同一個新聞事件中間停頓的時間略長。由此，業(yè)內(nèi)通常檢測新聞視頻的靜音片段，將靜音片段的中間點作為靜音點，并由此將該靜音點確定為新聞事件分割點。但由于該方法中的靜音點和事件分割點并沒有必然聯(lián)系，因此該方法不能準確地獲取事件分割點。

技術實現(xiàn)要素：
本發(fā)明實施例提供了一種分析視頻文件的方法和裝置，能夠準確地確定事件分割點。一方面，本發(fā)明實施例提供了一種分析視頻文件的方法，該方法包括：獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)；根據(jù)該音頻數(shù)據(jù)，確定該視頻文件的至少一個靜音點；根據(jù)該視頻數(shù)據(jù)獲取該視頻文件的判斷片段，該判斷片段包括該視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段；根據(jù)該判斷片段，在該至少一個靜音點中確定該視頻文件的事件分割點。另一方面，本發(fā)明實施例提供了一種分析視頻文件的裝置，該裝置包括：第一獲取模塊，用于獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)；第一確定模塊，用于根據(jù)該第一獲取模塊獲取的該音頻數(shù)據(jù)，確定該視頻文件的至少一個靜音點；第二獲取模塊，用于根據(jù)該第一獲取模塊獲取的該視頻數(shù)據(jù)，獲取該視頻文件的判斷片段，該判斷片段包括該視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段；第二確定模塊，用于根據(jù)該第二獲取模塊獲取的該判斷片段，在該第一確定模塊確定的該至少一個靜音點中，確定該視頻文件的事件分割點?；谏鲜黾夹g方案，本發(fā)明實施例的分析視頻文件的方法和裝置，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。附圖說明為了更清楚地說明本發(fā)明實施例的技術方案，下面將對本發(fā)明實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面所描述的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1是根據(jù)本發(fā)明實施例的分析視頻文件的方法的示意性流程圖。圖2是根據(jù)本發(fā)明實施例的分析視頻文件的方法的另一示意性流程圖。圖3是根據(jù)本發(fā)明實施例的確定靜音點的方法的示意性流程圖。圖4是根據(jù)本發(fā)明實施例的確定靜音點的方法的另一示意性流程圖。圖5是根據(jù)本發(fā)明實施例的確定靜音點的方法的再一示意性流程圖。圖6是根據(jù)本發(fā)明實施例的分析視頻文件的方法的再一示意性流程圖。圖7是根據(jù)本發(fā)明實施例的分析視頻文件的裝置的示意性框圖。圖8是根據(jù)本發(fā)明實施例的分析視頻文件的裝置的另一示意性框圖。圖9是根據(jù)本發(fā)明實施例的第一確定模塊的示意性框圖。圖10是根據(jù)本發(fā)明實施例的第一確定模塊的另一示意性框圖。圖11是根據(jù)本發(fā)明實施例的第五確定單元的示意性框圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本發(fā)明的一部分實施例，而不是全部實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例，都應屬于本發(fā)明保護的范圍。圖1示出了根據(jù)本發(fā)明實施例的分析視頻文件的方法100的示意性流程圖。如圖1所示，該方法100包括：S110，獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)；S120，根據(jù)該音頻數(shù)據(jù)，確定該視頻文件的至少一個靜音點；S130，根據(jù)該視頻數(shù)據(jù)獲取該視頻文件的判斷片段，該判斷片段包括該視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段；S140，根據(jù)該判斷片段，在該至少一個靜音點中確定該視頻文件的事件分割點。分析視頻文件的裝置可以根據(jù)視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)，獲取該視頻文件的至少一個靜音點以及判斷片段，該判斷片段可以包括該視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段，由此，該裝置可以根據(jù)該判斷片段，在該至少一個靜音點中確定該視頻文件的事件分割點。因此，本發(fā)明實施例的分析視頻文件的方法，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。在S110中，對于需要分析的視頻文件，可以通過對該視頻文件進行音視頻分離，獲取該視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)。例如，可以利用視頻解碼器將視頻文件進行音視頻分離。應理解，在本發(fā)明實施例中，視頻文件可以包括各種類型的視頻文件，例如新聞視頻、娛樂視頻、科教視頻等。為了更好地示出本發(fā)明，在下文的描述中，將以視頻文件包括新聞視頻為例進行說明，但本發(fā)明實施例并不限于此。在S120中，根據(jù)該音頻數(shù)據(jù)，可以確定該視頻文件包括的至少一個靜音點。例如，可以對與主持人鏡頭片段相應的音頻數(shù)據(jù)進行靜音分析，檢測其中可能包括事件分割點的靜音點；也可以對與非文字片段相應的音頻數(shù)據(jù)進行靜音分析，確定其中可能包括事件分割點的靜音點。當然，也可以對其它音頻數(shù)據(jù)進行靜音分析并確定靜音點。在S130中，根據(jù)該視頻數(shù)據(jù)可以獲取該視頻文件的判斷片段，其中該判斷片段可以包括該視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段。應理解，該判斷片段也可以包括其它用于確定靜音點是否為事件分割點的片段，例如非主持人鏡頭片段、鏡頭切換片段等。在本發(fā)明實施例中，可選地，基于人臉識別方法，在該視頻數(shù)據(jù)中獲取該視頻文件的主持人鏡頭片段。例如，可以將視頻文件涉及到的主持人的人臉信息注冊到數(shù)據(jù)庫，并利用人臉識別技術從視頻數(shù)據(jù)中獲取主持人鏡頭片段。應理解，在本發(fā)明實施例中，視頻數(shù)據(jù)中包括主持人鏡頭的片段稱為主持人鏡頭片段，不包括主持人鏡頭的片段可以稱之為非主持人鏡頭片段或現(xiàn)場鏡頭片段。因此，本發(fā)明實施例利用主持人人臉識別的方法檢測主持人鏡頭片段，與利用主持人口播幀模板或其他結(jié)構(gòu)性信息提取主持人鏡頭片段的方法相比，具有更高的普適性和準確率，并且檢測率更高。在本發(fā)明實施例中，可以利用文字識別技術將視頻數(shù)據(jù)分為文字片段和非文字片段，其中文字片段可以包括標題片段和字幕片段。例如，可以從視頻數(shù)據(jù)中提取文字信息，并利用文字匹配算法將相同文字內(nèi)容的片段歸納為文字片段，視頻數(shù)據(jù)中沒有文字的片段稱為非文字片段。通過對文字片段進行分析，可以確定文字片段包括的標題片段和字幕片段。例如，對文字片段中檢測到的文字進行聚類，聚類時主要利用顏色和尺寸這兩種低層圖像特征將文本聚為兩類，根據(jù)字體較大的一類為標題，字體較小的一類為說話人的字幕，可以確定標題片段和字幕片段。其中，標題分段可以用來確定事件分割點，而字幕片段可以用于去除過分割中涉及到的靜音點。因此，本發(fā)明實施例通過對文字信息進行聚類，將文字信息分為標題和說話人字幕兩類，能夠排除自動編目系統(tǒng)中因為說話人字幕造成的事件被過分的情況，從而能夠提高對視頻文件進行事件分割的準確性，并能夠提高視頻編目的效率和準確性。在S140中，可以綜合考慮該判斷片段包括的視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段，在該至少一個靜音點中確定該視頻文件的事件分割點。在本發(fā)明實施例中，分析視頻文件的裝置還可以根據(jù)預定規(guī)則，確定視頻文件的事件分割點，由此確定事件的開始和結(jié)束點。例如，該預定規(guī)則為：(1)根據(jù)主持人鏡頭片段確定的靜音點為前一個事件的結(jié)束點和下一個事件的開始點；(2)主持人鏡頭片段隨后的標題片段與該主持人鏡頭片段屬于同一個事件；(3)標題片段兩側(cè)的靜音點與該標題片段屬于同一個事件；(4)主持人鏡頭片段中沒有靜音點的，該主持人鏡頭片段為一個故事的開始點，該主持人鏡頭片段的前一幀為上一個故事的結(jié)束點。應理解，分析視頻文件的裝置也可以綜合考慮該判斷片段包括的視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段，在該至少一個靜音點中排除不可能為事件分割點的靜音點。例如，分析視頻文件的裝置可以根據(jù)判斷片段包括的標題片段，將標題片段中的所有分割點排除在事件分割點之外；例如，也可以將主持人鏡頭片段與隨后的現(xiàn)場鏡頭片段中間的靜音點排除在事件分割點之外；例如，也可以將標題內(nèi)容相似的相鄰標題片段之間的靜音點排除在事件分割點之外，將與鏡頭沒有發(fā)生切換的靜音片段包括的靜音點排除在事件分割點之外等。應理解，本發(fā)明實施例僅以上述預定規(guī)則和例子為例進行說明，但本發(fā)明實施例并不限于此，分析視頻文件的裝置還可以基于其他因素，確定視頻文件的事件分割點。因此，本發(fā)明實施例的分析視頻文件的方法，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。在本發(fā)明實施例中，可選地，如圖2所示，分析視頻文件的該方法100還包括：S150，根據(jù)該事件分割點，確定該視頻文件包括的事件片段；S160，根據(jù)該視頻文件獲取與該事件片段相應的事件信息，該事件信息包括主持人信息、被訪問人信息、標題信息和字幕信息中的至少一種；S170，將該事件信息確定為該事件片段的元數(shù)據(jù)。在S150中，可以將事件分割點包括的起始分割點和結(jié)束分割點之間的視頻文件確定為事件片段。在S160中，通過人臉識別技術檢測主持人鏡頭片段，可以獲取與該事件片段相應的主持人人臉信息，該主持人信息例如包括主持人姓名、主持人人臉信息等。類似地，通過人臉識別技術分析非主持人鏡頭片段或現(xiàn)場鏡頭片段，可以獲取被采訪人的人臉信息或特征。另外，通過文字識別技術可以從視頻數(shù)據(jù)中提取文字信息，并且通過對文字信息進行進一步的分析，可以獲取標題信息和字幕信息。在S170中，可以將與事件片段相應的主持人信息、被訪問人信息、標題信息和字幕信息中的至少一種，確定為該事件片段的元數(shù)據(jù)。因此，本發(fā)明實施例的分析視頻文件的方法，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。另一方面，本發(fā)明實施例的分析視頻文件的方法，通過將主持人信息、被訪問人信息、標題信息、字幕信息等語義信息作為事件片段的元數(shù)據(jù)，便于隨后進行的視頻檢索、推薦以及故事跟蹤等應用，能夠避免利用音視頻低層語義信息，不能為后續(xù)視頻分析提供充足的元數(shù)據(jù)的問題。在本發(fā)明實施例中，可以對與主持人鏡頭片段相應的音頻數(shù)據(jù)進行靜音分析，檢測其中可能包括事件分割點的靜音點；也可以對與非文字片段相應的音頻數(shù)據(jù)進行靜音分析，確定其中可能包括事件分割點的靜音點。下面將結(jié)合圖3至圖5，分別對上述兩種情況進行描述。圖3示出了根據(jù)本發(fā)明實施例的確定靜音點的方法200的示意性流程圖。如圖3所示，該方法200包括：S210，根據(jù)該音頻數(shù)據(jù)，獲取與該視頻數(shù)據(jù)包括的非文字片段相應的非文字片段音頻數(shù)據(jù)；S220，在該非文字片段音頻數(shù)據(jù)中確定第一靜音片段；S230，在與該第一靜音片段相應的視頻數(shù)據(jù)中，確定鏡頭切換點；S240，將該鏡頭切換點確定為該第一靜音片段的靜音點。通過對非文字片段對應的音頻數(shù)據(jù)進行靜音片段檢測，以及對靜音片段對應的視頻數(shù)據(jù)進行鏡頭切換檢測，可以將靜音片段中出現(xiàn)的鏡頭切換點確定為靜音點?？紤]到事件播放時，相鄰事件之間會有一段靜音，因此，此處得到的靜音點包括事件分割點。具體而言，在本發(fā)明實施例中，靜音檢測處理的對象是非文字片段對應的音頻數(shù)據(jù)，并且本發(fā)明實施例將靜音檢測和視頻的鏡頭分割相結(jié)合。當檢測到靜音時，啟動相應片段視頻數(shù)據(jù)的鏡頭切換檢測，當連續(xù)靜音幀的長度超過事先設定的最小靜音長度時，檢測到的鏡頭分割點為靜音點。否則忽略該靜音片段。因此，本發(fā)明實施例將靜音檢測和鏡頭分割結(jié)合使用，不僅能夠提供準確的事件分割點，而且還能夠減少對非靜音片段進行鏡頭分割檢測的計算量。圖4示出了根據(jù)本發(fā)明實施例的確定靜音點的另一方法300的示意性流程圖。如圖4所示，該方法300包括：S310，根據(jù)該音頻數(shù)據(jù)，獲取與該主持人鏡頭片段相應的主持人鏡頭片段音頻數(shù)據(jù)；S320，在該主持人鏡頭片段音頻數(shù)據(jù)中確定第二靜音片段；S330，在該第二靜音片段中確定第三靜音片段，該第三靜音片段包括的靜音片段的長度、比該第二靜音片段中除該第三靜音片段之外的靜音片段的長度長；S340，將該第三靜音片段中各靜音片段的中點確定為該靜音點?？蛇x地，如圖5所示，在該第二靜音片段中確定第三靜音片段的方法330，包括：S331，確定該第二靜音片段包括的所有靜音片段的長度的平均值；S332，將該第二靜音片段中長度大于或等于該平均值的靜音片段確定為該第三靜音片段。應理解，本發(fā)明實施例也可以采用其它方法或基于其它準則，確定第三靜音片段，例如，將第二靜音片段中長度最長的前30％的靜音片段確定為第三靜音片段。例如，在主持人鏡頭片段包含多個事件的情況下，主持人通常先簡短總結(jié)上一個事件，隨后開始下一個事件。本發(fā)明實施例通過對與主持人鏡頭片段對應的音頻片段進行靜音片段檢測，并將片段長度超過閾值的確定為靜音片段，以及記錄各靜音片段的長度，將片段長度遠遠大于均值的靜音片段的中點確定為靜音點，能夠極大的減少人工勞動量，提高視頻拆條的自動化程度，并避免主持人鏡頭片段中包含多個故事時出現(xiàn)的錯分情況。因此，本發(fā)明實施例的分析視頻文件的方法，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。下面將結(jié)合圖6，以新聞視頻為例，對根據(jù)本發(fā)明實施例的分析視頻文件的方法400進行詳細描述。如圖6所示，該方法400包括：S410，對新聞視頻進行音視頻分離，獲得音頻數(shù)據(jù)和視頻數(shù)據(jù)；S420，將視頻數(shù)據(jù)分為主持人鏡頭片段和現(xiàn)場鏡頭片段，然后從現(xiàn)場鏡頭片段中利用人臉識別技術提取出事件中涉及到的其他人物，并且還可以將檢測到的被采訪人的人臉信息和人臉特征寫入數(shù)據(jù)庫；S430，利用文字識別技術從視頻數(shù)據(jù)中提取文字信息，利用文字匹配算法將相同文字內(nèi)容的片段歸納為文字片段，沒有文字的片段為非文字片段。并且通過對文字片段檢測到的文字進行聚類，聚類時主要利用顏色和尺寸這兩種低層圖像特征將文本聚為兩類，字體較大的一類為標題，較小的一類為說話人的字幕，從而確定標題片段和字幕片段，其中每一類計算字體顏色的高斯模型，相同出處的新聞視頻計算一次模型即可；S440，對與非文字片段對應的音頻數(shù)據(jù)進行靜音片段檢測，對靜音片段對應的視頻數(shù)據(jù)進行鏡頭切換檢測，靜音片段中出現(xiàn)的鏡頭切換點為靜音點；S450，對與主持人鏡頭片段對應的音頻數(shù)據(jù)進行靜音片段檢測，對靜音片段的長度進行聚類分析，確定長度較長的靜音片段，并將該靜音片段的中點作為靜音點；S460，將靜音點作為新聞事件分割點的父集，綜合考慮靜音點附近的主持人鏡頭片段、標題片段、字幕片段等，得出新聞事件分割點；S470，將檢測得到的主持人信息、被采訪人信息、文字信息等內(nèi)容作為該新聞事件的語義信息，并可以作為元數(shù)據(jù)存儲在數(shù)據(jù)庫中。應理解，在本發(fā)明的各種實施例中，上述各過程的序號的大小并不意味著執(zhí)行順序的先后，各過程的執(zhí)行順序應以其功能和內(nèi)在邏輯確定，而不應對本發(fā)明實施例的實施過程構(gòu)成任何限定。因此，本發(fā)明實施例的分析視頻文件的方法，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。上文中結(jié)合圖1至圖6，詳細描述了根據(jù)本發(fā)明實施例的分析視頻文件的方法，下面將結(jié)合圖7至圖11，描述根據(jù)本發(fā)明實施例的分析視頻文件的裝置。圖7示出了根據(jù)本發(fā)明實施例的分析視頻文件的裝置500的示意性框圖。如圖7所示，該裝置500包括：第一獲取模塊510，用于獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)；第一確定模塊520，用于根據(jù)該第一獲取模塊510獲取的該音頻數(shù)據(jù)，確定該視頻文件的至少一個靜音點；第二獲取模塊530，用于根據(jù)該第一獲取模塊510獲取的該視頻數(shù)據(jù)，獲取該視頻文件的判斷片段，該判斷片段包括該視頻文件的主持人鏡頭片段、標題片段和字幕片段中的至少一種片段；第二確定模塊540，用于根據(jù)該第二獲取模塊530獲取的該判斷片段，在該第一確定模塊520確定的該至少一個靜音點中，確定該視頻文件的事件分割點。因此，本發(fā)明實施例的分析視頻文件的裝置，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。在本發(fā)明實施例中，可選地，如圖8所示，該裝置500還包括：第三確定模塊550，用于根據(jù)該第二確定模塊540確定的該事件分割點，確定該視頻文件包括的事件片段；第三獲取模塊560，用于根據(jù)該視頻文件獲取與該事件片段相應的事件信息，該事件信息包括主持人信息、被訪問人信息、標題信息和字幕信息中的至少一種；第四確定模塊570，用于將該第三獲取模塊560獲取的該事件信息，確定為該第三確定模塊550確定的該事件片段的元數(shù)據(jù)?？蛇x地，如圖9所示，該第一確定模塊520包括：第一獲取單元521，用于根據(jù)該第一獲取模塊510獲取的該音頻數(shù)據(jù)，獲取與該視頻數(shù)據(jù)包括的非文字片段相應的非文字片段音頻數(shù)據(jù)；第一確定單元522，用于在該第一獲取單元521獲取的該非文字片段音頻數(shù)據(jù)中，確定第一靜音片段；第二確定單元523，用于在與該第一確定單元522確定的該第一靜音片段相應的視頻數(shù)據(jù)中，確定鏡頭切換點；第三確定單元524，用于將該第二確定單元523確定的該鏡頭切換點，確定為該第一靜音片段的靜音點。可選地，如圖10所示，該第一確定模塊520包括：第二獲取單元525，用于根據(jù)該音頻數(shù)據(jù)，獲取與該主持人鏡頭片段相應的主持人鏡頭片段音頻數(shù)據(jù)；第四確定單元526，用于在該第二獲取單元525獲取的該主持人鏡頭片段音頻數(shù)據(jù)中確定第二靜音片段；第五確定單元527，用于在該第四確定單元526確定的該第二靜音片段中，確定第三靜音片段，該第三靜音片段包括的靜音片段的長度、比該第二靜音片段中除該第三靜音片段之外的靜音片段的長度長；第六確定單元528，用于將該第五確定單元527確定的該第三靜音片段中各靜音片段的中點確定為該靜音點。可選地，如圖11所示，該第五確定單元527包括：第一確定子單元5271，用于確定該第二靜音片段包括的所有靜音片段的長度的平均值；第二確定子單元5272，用于將該第二靜音片段中長度大于或等于該平均值的靜音片段確定為該第三靜音片段。在本發(fā)明實施例中，可選地，該第二獲取模塊530還用于：基于人臉識別方法，在該視頻數(shù)據(jù)中獲取該視頻文件的主持人鏡頭片段。應理解，根據(jù)本發(fā)明實施例的分析視頻文件的裝置500可對應于本發(fā)明實施例中的分析視頻文件的裝置，并且裝置500中的各個模塊的上述和其它操作和/或功能分別為了實現(xiàn)圖1至圖6中的各個方法100至400的相應流程，為了簡潔，在此不再贅述。因此，本發(fā)明實施例的分析視頻文件的裝置，通過獲取視頻文件的至少一個靜音點和判斷片段，并根據(jù)該判斷片段在該至少一個靜音點中確定該視頻文件的事件分割點，能夠準確地確定事件分割點，從而能夠準確地對視頻文件進行事件分割，并由此能夠提高視頻編目的效率和準確性。本領域普通技術人員可以意識到，結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟，能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn)，為了清楚地說明硬件和軟件的可互換性，在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行，取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能，但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。所屬領域的技術人員可以清楚地了解到，為了描述的方便和簡潔，上述描述的系統(tǒng)、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。在本申請所提供的幾個實施例中，應該理解到，所揭露的系統(tǒng)、裝置和方法，可以通過其它的方式實現(xiàn)。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另外，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口、裝置或單元的間接耦合或通信連接，也可以是電的，機械的或其它的形式連接。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡單元上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本發(fā)明實施例方案的目的。另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以是兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn)，也可以采用軟件功能單元的形式實現(xiàn)。所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時，可以存儲在一個計算機可讀取存儲介質(zhì)中?；谶@樣的理解，本發(fā)明的技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分，或者該技術方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中，包括若干指令用以使得一臺計算機設備(可以是個人計算機，服務器，或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括：U盤、移動硬盤、只讀存儲器(ROM，Read-OnlyMemory)、隨機存取存儲器(RAM，RandomAccessMemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述，僅為本發(fā)明的具體實施方式，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi)，可輕易想到各種等效的修改或替換，這些修改或替換都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此，本發(fā)明的保護范圍應以權利要求的保護范圍為準。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：楊杰
技術所有人：華為技術有限公司
我是此專利的發(fā)明人

上一篇：一種制備4?氨基亞胺香豆素衍生物的方法與流程
上一篇：一種高韌性的陶瓷材料的制作方法與工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分析視頻文件的方法和裝置與流程