移動視頻搜索的制作方法
【專利摘要】一種用于使用移動設(shè)備來搜索視頻內(nèi)容的工具利用該移動設(shè)備上的計(jì)算能力來通過相機(jī)和/或話筒捕捉輸入,實(shí)時提取該輸入的音頻?視頻簽名,以及執(zhí)行漸進(jìn)式搜索。通過在該輸入被接收時實(shí)時地從該輸入提取聯(lián)合音頻?視頻簽名并將該簽名發(fā)送到云以通過分層式音頻?視頻索引來搜索類似的視頻內(nèi)容,該工具可提供針對漸進(jìn)式簽名捕捉的候選視頻的漸進(jìn)式結(jié)果。
【專利說明】移動視頻搜索
[0001 ]版權(quán)通知和權(quán)限
[0002] 本專利文檔公開內(nèi)容的一部分可能包含受版權(quán)保護(hù)的材料。版權(quán)所有人不反對任 何人對該專利文獻(xiàn)或?qū)@_內(nèi)容按照其在(美國)專利和商標(biāo)局的專利文件或記錄中的 形式進(jìn)行復(fù)制,但版權(quán)所有人保留其它所有的權(quán)利。應(yīng)對本文獻(xiàn)應(yīng)用以下通告: Copyright ?2013,2007 Microsoft Corp。
[0003] 背景
[0004] 提供對因特網(wǎng)和萬維網(wǎng)訪問的移動設(shè)備正變得越來越普遍地用作為個人因特網(wǎng) 沖浪的門衛(wèi)(concierge),它在行進(jìn)的同時為用戶提供了對日益增加的數(shù)據(jù)量的訪問。
[0005] 移動設(shè)備當(dāng)前不提供有助于某些類型的搜索的平臺,具體而言是搜索視頻內(nèi)容, 而不花費(fèi)資源來記錄以及將搜索主體的記錄作為查詢發(fā)送。
[0006] 用于移動設(shè)備的一些搜索應(yīng)用支持將內(nèi)建在移動設(shè)備內(nèi)的相機(jī)所獲取的照片作 為視覺查詢,這被稱為捕捉-到_搜索。在"捕捉-到-搜索(capture-to-search)"中,通常首 先拍攝圖片的快照。隨后,該快照作為查詢被提交以搜索各種垂直領(lǐng)域中的匹配。其它搜索 應(yīng)用支持從內(nèi)建到移動設(shè)備的話筒記錄的音頻作為音頻查詢。例如,INT0N0W允許用戶記錄 音頻以用作查詢。然而,該聲音被記錄達(dá)最多約12秒的時段。隨后該聲音記錄作為查詢被提 交以搜索各個垂直領(lǐng)域中的匹配。如果記錄條件噪雜或者在無聲視頻而使得記錄是安靜的 情況下這一過程不能良好工作。
[0007] -些針對音頻文件的搜索引擎使用甚至更長的記錄時間。然而,典型的音頻搜索 引擎不將音頻與視頻組合起來搜索,且它們?nèi)耘f要求提交實(shí)際的記錄作為查詢。
[0008] 又一些其它搜索引擎支持用內(nèi)建到移動設(shè)備的相機(jī)拍攝的視頻圖像作為視覺查 詢,這可被稱為"捕捉-到-搜索"。VIDE0SURF是視頻捕捉-到-搜索的示例。在VIDE0SURF中, 視頻圖像被捕捉達(dá)至少10秒的時間段并被存儲。用戶隨后選擇有辨識度的視覺內(nèi)容來搜 索,并且隨后該視頻圖像片段被提交作為查詢以搜索匹配的視頻。
[0009] 現(xiàn)有移動視頻搜索應(yīng)用花費(fèi)大量資源來存儲相對長的音頻和/或視頻片段以及將 所記錄的片段發(fā)送給搜索引擎。一旦搜索引擎接收到所記錄的視頻片段查詢,搜索引擎就 可基于該片段執(zhí)行匹配?,F(xiàn)有方法需要固定歷時的片段,例如10或12秒。
[0010] 與移動設(shè)備上的視頻搜索有關(guān)的大多數(shù)研究已關(guān)注移動設(shè)備上的緊湊描述符設(shè) 計(jì)。解決此問題的最流行的方式是通過圖像編碼的技術(shù)壓縮描述符以近乎復(fù)制視頻搜索, 其可根據(jù)其依賴的數(shù)據(jù)模態(tài)的類型被分類為三個類別:基于音頻、基于視頻、以及基于混合 的方法。然而,用于近似重復(fù)的視頻搜索的大多數(shù)現(xiàn)有方法主要關(guān)注其中查詢視頻通常是 原始視頻的子集而不存在嚴(yán)重的失真的桌面場景,而不是由移動設(shè)備捕捉的視頻。而且,描 述符的計(jì)算成本和緊密度在現(xiàn)有方法中經(jīng)常被忽視,因?yàn)橛糜谥貜?fù)視頻搜索的傳統(tǒng)方法不 將前述移動挑戰(zhàn)納入考慮。用于重復(fù)視頻搜索的傳統(tǒng)方法不適于移動視頻搜索。
[0011] 概述
[0012] 本文描述了一種用于移動設(shè)備上的視頻搜索的工具,其利用在移動設(shè)備上可用的 計(jì)算資源來提取由不同于該移動設(shè)備的設(shè)備所呈現(xiàn)的視頻內(nèi)容的音頻和視頻性質(zhì)并將該 性質(zhì)作為查詢來發(fā)送,而不是發(fā)送該視頻內(nèi)容的記錄作為查詢。通過提取音頻和視頻性質(zhì) 以用作搜索查詢,并且通過將該音頻和視頻性質(zhì)匹配到在已索引的視頻內(nèi)容數(shù)據(jù)集中存儲 的音頻和視頻性質(zhì),該工具提供了針對所提交的每個音頻和視頻性質(zhì)的候選視頻,其包括 當(dāng)所述性質(zhì)在噪雜的、不良照明的、或不一致的條件下提取時。該工具提供了在視頻輸入的 附加部分正被獲得時呈現(xiàn)候選視頻的指示且允許要被指示的候選視頻的漸進(jìn)式細(xì)化。該工 具提供了候選視頻的列表,包括在視頻輸入的更多部分正被獲得的同時修正所提供的候選 視頻的列表,直到從所提供的候選視頻中做出選擇或直到候選視頻的結(jié)果列表穩(wěn)定,例如, 候選視頻的結(jié)果列表停止改變達(dá)一時間段且搜索停止。該工具提供了響應(yīng)于候選視頻的 結(jié)果列表穩(wěn)定(例如停止改變達(dá)一時間段)的候選視頻的指示的不同呈現(xiàn)。該工具還提供了 響應(yīng)于正從所提供的候選視頻中做出選擇而對附加界面的呈現(xiàn);例如,該工具提供了打開 以允許用戶購買或租賃所選擇的視頻、以允許用戶看到關(guān)于所選擇的視頻的附加信息或輔 助信息、或以允許用戶保存視頻的指示以供稍后觀看的瀏覽器。
[0013] 提供本概述以便以簡化的形式介紹以下在詳細(xì)描述中進(jìn)一步描述的一些概念。本 概述并非旨在標(biāo)識出要求保護(hù)的主題的關(guān)鍵特征或必要特征,亦非旨在用作輔助確定要求 保護(hù)的主題的范圍。例如術(shù)語"技術(shù)"可指代方法和/或計(jì)算機(jī)可執(zhí)行指令、(諸)模塊、算法、 硬件邏輯(例如,現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)、專用標(biāo)準(zhǔn)產(chǎn)品(ASSP)、片 上系統(tǒng)(S0C)、復(fù)雜可編程邏輯器件(CPLD))和/或例如術(shù)語"工具"可以指代上述上下文和 通篇文檔中所準(zhǔn)許的硬件邏輯(例如,現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)、專 用標(biāo)準(zhǔn)產(chǎn)品(ASSP)、片上系統(tǒng)(S0C)、復(fù)雜可編程邏輯器件(CPLD))、其它設(shè)備和/或其它系 統(tǒng)。
[0014] 附圖簡述
[0015] 參考附圖來描述【具體實(shí)施方式】。在附圖中,附圖標(biāo)記最左邊的數(shù)字標(biāo)識該附圖標(biāo) 記首次出現(xiàn)的附圖。在各附圖中,使用相同的標(biāo)號來指示相同的特征和組件。
[0016] 圖1是使用捕捉來自電視機(jī)上的視頻呈現(xiàn)的音頻-視頻的移動設(shè)備的移動視頻搜 索的示例實(shí)現(xiàn)的示意圖。
[0017] 圖2是來自圖1的實(shí)施例的移動視頻搜索的示例用戶界面的部分的示意圖。
[0018] 圖3是用于實(shí)現(xiàn)移動視頻搜索的示例架構(gòu)的示意圖。
[0019] 圖4是解說配置用于移動視頻搜索的示例移動設(shè)備的選擇組件的框圖。
[0020] 圖5是解說配置用于可被用于移動視頻搜索的分層式音頻-視頻索引化的示例服 務(wù)器設(shè)備的選擇組件的框圖。
[0021] 圖6是包括實(shí)現(xiàn)移動視頻搜索的移動設(shè)備和實(shí)現(xiàn)分層式音頻-視頻索引化的服務(wù) 器的系統(tǒng)的示例框架的示意圖。
[0022] 圖7是音頻指紋的提取的示例的示意圖。
[0023] 圖8是分層式音頻-視頻索引的示例的示意圖。
[0024] 圖9是用于在客戶端設(shè)備上實(shí)現(xiàn)移動視頻搜索的示例過程的流程圖。
[0025] 圖10是實(shí)現(xiàn)使用分層式音頻-視頻索引的服務(wù)器上的視頻搜索的示例過程的流程 圖。
[0026] 圖11是解說使用分層式音頻-視頻索引的服務(wù)器上的視頻搜索期間的漸進(jìn)式處理 的示例實(shí)現(xiàn)的流程圖。
[0027] 詳細(xì)描述
[0028] -種移動視頻搜索工具提供了豐富的功能集來獲得視頻搜索的相關(guān)結(jié)果。與主要 支持采用實(shí)際視頻文件的片段的搜索的桌面計(jì)算機(jī)相比,移動設(shè)備為用戶交互提供了豐富 的接口集,使用所述接口集可以容易使用和獲得各種環(huán)境中的結(jié)果。例如,除了在桌面環(huán)境 中接收的文件上傳和下載以及傳統(tǒng)的鍵盤和鼠標(biāo)輸入之外,移動設(shè)備允許接收附加多模態(tài) 輸入。移動設(shè)備接口可將經(jīng)由內(nèi)建相機(jī)的視覺模態(tài)與經(jīng)由內(nèi)建話筒的音頻模態(tài)相組合。
[0029] 盡管移動設(shè)備可組合這些輸入模態(tài),然而從移動設(shè)備進(jìn)行視頻搜索面臨各種挑 戰(zhàn)。例如,移動視頻搜索所面臨的挑戰(zhàn)之一在于:盡管用戶處于不夠理想的狀態(tài),但是搜索 仍可能是所期望的。環(huán)境可能是噪雜的、照明不一致或具有波動的光照的,和/或處于具有 波動的因特網(wǎng)連接速度的環(huán)境中。相反,來自桌面計(jì)算機(jī)的視頻搜索通常包括提交視頻文 件的片段而不是由相機(jī)和/或話筒捕捉的在另一設(shè)備上的視頻的呈現(xiàn)的記錄。
[0030] 移動視頻搜索所面臨的其它挑戰(zhàn)包括移動設(shè)備的硬件限制。移動設(shè)備的處理器 (例如中央處理單元(CPU)和圖形處理單元(GPU))和存儲器仍不能與桌面計(jì)算機(jī)相比。短缺 的存儲器和計(jì)算約束使得具有大存儲器成本或重計(jì)算的簽名不適用于移動客戶端。此外, 還有網(wǎng)絡(luò)和帶寬限制的負(fù)面影響。對于移動設(shè)備,網(wǎng)絡(luò)連接經(jīng)常是不可靠的,且?guī)捪鄬^ 低。在如本文所述的移動視頻搜索中,瓶頸和降低的連接的影響可通過使用緊湊簽名來減 少在網(wǎng)絡(luò)上傳遞的數(shù)據(jù)量并最終減少網(wǎng)絡(luò)等待時間來加以限制。此外,用于搜索的移動設(shè) 備的用戶對搜索等待時間是敏感的。在捕捉比傳統(tǒng)查詢片段更短的片段時呈現(xiàn)初步結(jié)果 (包括來自漸進(jìn)式搜索的結(jié)果)減少了用戶的表面等待時間。
[0031 ]例如,用戶可能正走去參加會議并注意到店面櫥窗中的視頻呈現(xiàn)。即使用戶沒有 時間停下來并觀看該視頻,用戶可使用該工具來捕捉幾秒視頻,直到該工具返回匹配的視 頻為止。用戶可保存視頻的名稱以供稍后觀看。在此示例中,客戶端側(cè)的工具可捕捉來自該 呈現(xiàn)的音頻以及來自該呈現(xiàn)的視頻圖像并對所捕捉的內(nèi)容執(zhí)行輕量變換。該變換包括提取 音頻指紋以及提取視覺散列位,即使在噪雜的街道條件下。鑒于與桌面計(jì)算機(jī)相比移動設(shè) 備的相對有限的存儲器和計(jì)算資源,例如,可使得提取計(jì)算上昂貴的簽名來呈現(xiàn)視頻片段 不可行。而且,可用于向服務(wù)器發(fā)送視頻片段以供處理的帶寬可能不可用或者傳送的持續(xù) 時間可能長得無法接受。通過采用移動設(shè)備上的計(jì)算能力,該工具可執(zhí)行該變換并通過網(wǎng) 絡(luò)傳送低得多的數(shù)據(jù)量。例如,提取音頻指紋可帶來針對一秒視頻的約0.5KB的數(shù)據(jù)。類似 地,從視頻中提取視覺散列位可帶來針對一秒視頻的約1.0KB的數(shù)據(jù)。從而,與發(fā)送整秒視 頻片段的數(shù)據(jù)量相比,使用少于2KB的數(shù)據(jù)可發(fā)送這些組合的性質(zhì)的音頻-視頻簽名。而且, 由于檢索系統(tǒng)的減少的等待時間,在視頻輸入仍舊正被獲得的同時可返回可能的匹配,諸 如對于候選結(jié)果的漸進(jìn)式呈現(xiàn)。當(dāng)不再獲得附加的候選視頻匹配或者結(jié)果列表不改變達(dá)一 時間段(例如3秒)時,則搜索可停止,因?yàn)榕c該查詢匹配的視頻已被標(biāo)識,該搜索可自動停 止,且用戶界面可被改變以反映已穩(wěn)定的候選結(jié)果列表。
[0032]如本文所述的移動視頻搜索工具的各方面可作為在移動設(shè)備上運(yùn)行的搜索應(yīng)用 來實(shí)現(xiàn)和/或經(jīng)由應(yīng)用編程接口(API)來實(shí)現(xiàn)。移動視頻搜索工具可捕捉視頻輸入以供查詢 并執(zhí)行對音頻指紋和視覺散列位的提取以形成音頻-視頻簽名。在移動設(shè)備上運(yùn)行的應(yīng)用 的情況下,該應(yīng)用可發(fā)送音頻_視頻簽名作為視頻搜索查詢。在API的情況下,應(yīng)用可經(jīng)由 API展示構(gòu)成該音頻-視頻簽名的音頻指紋和視覺散列位以由另一應(yīng)用用于視頻搜索。
[0033] 在云中,系統(tǒng)能夠使用新穎的分層式音頻視頻(LAVE)索引方案來索引大規(guī)模視頻 數(shù)據(jù);而在客戶端上,系統(tǒng)實(shí)時地提取輕量的聯(lián)合音頻-視頻簽名并按漸進(jìn)方式搜索。LAVE 方案通過聯(lián)合多層音頻-視頻索引來組合音頻-視頻簽名,這在相似度計(jì)算中保留了每個簽 名的個體結(jié)構(gòu)并在組合階段中考慮了它們的相關(guān)性。聯(lián)合音頻-視頻簽名對于移動設(shè)備而 言是計(jì)算上便宜的且加強(qiáng)了來自個體音頻和視覺模態(tài)的辨別力。從而,音頻-視頻簽名對 于大的變化(例如,查詢視頻中的噪聲和扭曲)是穩(wěn)健的。在各個實(shí)施例中,習(xí)得的散列函數(shù) 顯著減少通過網(wǎng)絡(luò)從移動設(shè)備傳送到諸如服務(wù)器或云的比特?cái)?shù)。兩部分(two-part)圖形變 換和匹配算法使得視頻搜索是漸進(jìn)式的,這意味著當(dāng)穩(wěn)定結(jié)果被實(shí)現(xiàn)時搜索可停止。如本 文所述的,當(dāng)結(jié)果不改變達(dá)一時間段(例如,達(dá)3秒),結(jié)果是穩(wěn)定的。在至少一個實(shí)現(xiàn)中,當(dāng) 查詢視頻小于10秒時本文描述的系統(tǒng)實(shí)現(xiàn)了超過90 % (例如90.77 % )的精確度,而在查詢 視頻小于5秒時實(shí)現(xiàn)了約70 % (例如70.07 % )的精確度。
[0034] 如本文所述的,服務(wù)器或云計(jì)算環(huán)境(其可被稱為網(wǎng)絡(luò)分布式環(huán)境)可主存(host) 視頻內(nèi)容的分層式音頻-視頻索引,搜索在該索引上運(yùn)行。與對獲得音頻指紋和視覺散列位 來獲得音頻-視頻簽名的描述類似,服務(wù)器或云計(jì)算機(jī)可在來自視頻文件庫的視頻文件上 執(zhí)行對音頻-視頻簽名的提取。所提取的音頻-視頻簽名可被存儲為分層式音頻-視頻索引, 與其它搜索結(jié)構(gòu)相比,其可減少搜索等待時間。
[0035]在各實(shí)施例中,搜索LAVE索引包括一個多步驟過程。在至少一個實(shí)施例中,首先, 視頻搜索引擎使用來自查詢的音頻指紋作為過濾器。第二,視頻搜索引擎針對類似度來比 較來自經(jīng)過濾的集合的關(guān)鍵幀。第三,視頻搜索引擎執(zhí)行幾何驗(yàn)證來獲得最接近的結(jié)果。視 頻搜索引擎可對最接近的結(jié)果排名,且在更多音頻-視頻簽名被從查詢中運(yùn)行時視頻搜索 引擎可更新最接近的結(jié)果和/或排名。視頻搜索引擎可向查詢所源自的移動設(shè)備發(fā)送候選 結(jié)果視頻的表示。在一些實(shí)施例中,在音頻一視頻捕捉呈現(xiàn)在進(jìn)行的同時,候選結(jié)果可被呈 現(xiàn)在與音頻-視頻捕捉呈現(xiàn)共享的用戶界面中。在至少一個實(shí)施例中,在用于查詢的視頻輸 入的捕捉以及音頻指紋和視覺散列位的提取以形成音頻-視頻簽名正在進(jìn)行的同時,候選 結(jié)果可被漸進(jìn)式呈現(xiàn)在與音頻-視頻捕捉呈現(xiàn)共享的用戶界面中。在結(jié)果列表穩(wěn)定的情況 下,捕捉方面可結(jié)束且用戶界面可轉(zhuǎn)換到具有或不具有附加信息的穩(wěn)定列舉候選結(jié)果的搜 索結(jié)果列表的呈現(xiàn)。
[0036] 在至少一個實(shí)施例中,本文所述的移動視頻搜索技術(shù)在網(wǎng)絡(luò)分布式環(huán)境中實(shí)現(xiàn)。 網(wǎng)絡(luò)分布式環(huán)境可包括一個或多個類型的計(jì)算資源,計(jì)算資源的類型可包括計(jì)算、聯(lián)網(wǎng)和/ 或存儲設(shè)備。網(wǎng)絡(luò)分布式環(huán)境還可被稱為云計(jì)算環(huán)境。
[0037] 進(jìn)一步參考圖1-11來描述各實(shí)施例的方面。
[0038] 示例實(shí)現(xiàn)
[0039]圖1示出了本文所述的使用移動設(shè)備的移動視頻搜索的示例實(shí)施例的實(shí)現(xiàn)。在所 示示例中,用戶102正使用移動計(jì)算設(shè)備104,諸如平板或智能電話。在圖1中,移動計(jì)算設(shè)備 104被示出為具有用戶界面,該用戶界面表示經(jīng)由移動視頻搜索工具110捕捉來自電視機(jī) 108上的視頻呈現(xiàn)106的音頻和視覺輸入,同時呈現(xiàn)候選結(jié)果列表112。在至少一個實(shí)施例 中,候選結(jié)果列表112可被實(shí)時或近乎實(shí)時地計(jì)算,并作為漸進(jìn)式候選結(jié)果列表112被返回 給客戶端。與候選結(jié)果相關(guān)聯(lián)的候選圖像和/或候選文本可在移動設(shè)備104的屏幕上的用戶 界面中的列表112中呈現(xiàn)。在所示的示例中,移動設(shè)備104表示W(wǎng)indowsPhcme?設(shè)備,但還 可以類似地使用其它移動電話、智能手機(jī)、平板計(jì)算機(jī)和其它這樣的移動設(shè)備。在移動設(shè)備 104上,硬或軟按鈕的激活可指示希望啟動移動視頻搜索工具110。
[0040]在圖1的示例實(shí)現(xiàn)中,移動視頻搜索工具110被示出為經(jīng)由移動設(shè)備的話筒來捕捉 音頻輸入,如由話筒圖形114所表示的。盡管在其它實(shí)現(xiàn)中,音頻捕捉可由不同圖形來表示 或者可簡單地被理解而無需相應(yīng)圖形。同時,移動視頻搜索工具110正在經(jīng)由移動設(shè)備的相 機(jī)捕捉視頻輸入,這從顯示視覺捕捉116的用戶界面可以清楚看出。在移動視頻搜索工具繼 續(xù)捕捉音頻輸入和視覺輸入的同時,移動視頻搜過工具可提取音頻輸入的音頻指紋以及視 覺輸入的視覺散列位來向云發(fā)送以在搜索中使用,例如以搜索經(jīng)LAVE索引的數(shù)據(jù)集。此外, 在移動視頻搜索工具繼續(xù)捕捉音頻輸入和視覺輸入的同時,移動視頻搜索工具可接收候選 搜索結(jié)果112的漸進(jìn)式列表。與候選結(jié)果相關(guān)聯(lián)的候選圖像和/或候選文本可在移動設(shè)備 104上的用戶界面中的列表112中呈現(xiàn)。在所示實(shí)施例中,包括候選圖像和候選文本的候選 搜索結(jié)果的漸進(jìn)式列表112被呈現(xiàn)在用戶界面中的視覺捕捉旁邊,然而也構(gòu)想了其它呈現(xiàn) 位置。
[0041 ]在各實(shí)施例中,為了優(yōu)化存儲器,移動設(shè)備104不存儲音頻輸入或視覺輸入,而是 移動設(shè)備104存儲音頻指紋和視覺散列位。存儲音頻指紋和視覺散列位對于低的或不一致 的帶寬條件或者對于設(shè)備缺少網(wǎng)絡(luò)連接的時候可能是有用的。
[0042]先前,全局特征已被用于搜索接近重復(fù)的視頻,其中視頻由緊湊的全局簽名來表 示。這樣的全局特征已包括了時空特征,該時空特征利用參考時間線的灰度強(qiáng)度分布來表 示視頻和空間和時間信息的組合來構(gòu)造不變的全局簽名。盡管這些全局表示實(shí)現(xiàn)了大規(guī)模 視頻數(shù)據(jù)集中的快速檢索速度,然而它們不適合具有嚴(yán)重失真的所記錄的查詢視頻。
[0043] 與全局特征相比,局部描述符是更有區(qū)別度的且對于所記錄的查詢視頻失真是穩(wěn) 健的,因?yàn)樗鼈兝镁植坎蛔冃裕T如尺度和取向。然而,由于計(jì)算復(fù)雜度,對于可能包含失 真的所記錄的查詢視頻采用局部描述符的效率變得棘手。若干方法已經(jīng)嘗試改善局部描述 符匹配的速度,包括字袋(Bag- 〇f-W〇rdS,B〇W)和層次結(jié)構(gòu)的構(gòu)造,以加速該匹配過程。然 而,由于移動設(shè)備的有限的計(jì)算能力和存儲器,基于局部描述符的方法需要大范圍的優(yōu)化 來在移動設(shè)備上操作。
[0044] 音頻可在接近重復(fù)的視頻搜索中扮演重要角色。一個示例采用基于地標(biāo)的音頻指 紋來構(gòu)造類似音頻搜索,而另一示例包括音頻字袋(BoA)表示(其受到BoW的啟發(fā)),來表征 音頻特征以用于類似視頻搜索。與視覺特征相比,音頻特征可能更穩(wěn)健、計(jì)算上高效、且緊 湊,這使得音頻特征適于在移動視頻搜索中采用。
[0045] 近來,聯(lián)合音頻-視覺接近重復(fù)視頻搜索已被應(yīng)用于大規(guī)模視頻復(fù)制檢測。特征組 合的關(guān)鍵問題是音頻和視頻特征的相關(guān)性的標(biāo)識。現(xiàn)有融合策略包括早期融合和晚期融 合。早期融合和晚期融合兩種策略都有缺點(diǎn)。例如,早期融合不保留個體特征的結(jié)構(gòu)信息, 而晚期融合不識別特征間的相關(guān)性。
[0046] 現(xiàn)有的早期融合和晚期融合方法不能充分挖掘音頻-視頻簽名的優(yōu)點(diǎn)而使得現(xiàn)有 的接近重復(fù)視頻搜索方法可被直接用于移動視頻搜索來處理獨(dú)特的移動挑戰(zhàn)。
[0047]圖2是圖1的實(shí)施例的移動視頻搜索的用戶界面中的示例的已穩(wěn)定的結(jié)果列表200 的示意圖。
[0048]與上述方法相比,本文描述的移動視頻搜索技術(shù)和工具提供了在視頻輸入正被捕 捉時的漸進(jìn)式移動視頻搜索。該移動視頻搜索方案漸進(jìn)式地向云傳送緊湊的音頻-視頻簽 名,該簽名可從音頻指紋和視覺散列位中得到。LAVE索引技術(shù)利用音頻-視頻簽名的優(yōu)點(diǎn)以 用于穩(wěn)健視頻搜索。而且,為了改善用戶的搜索體驗(yàn),漸進(jìn)式查詢過程采用了兩部分(two-part) 的基于圖 的變換和匹配方法。
[0049] 相應(yīng)地,在各實(shí)現(xiàn)中,移動視頻搜索工具通過采用基于地標(biāo)的音頻指紋化(LBAF) 來獲得音頻指紋來利用音頻輸入幫助用戶加速查詢。
[0050] 在一示例實(shí)現(xiàn)中,與已穩(wěn)定的候選結(jié)果相關(guān)聯(lián)的候選圖像可被呈現(xiàn)在移動設(shè)備 104的屏幕上的用戶界面中的列表200中,如在204處所示。同時,與候選結(jié)果相關(guān)聯(lián)的文本 (例如標(biāo)題、角色名稱等)被呈現(xiàn)在移動設(shè)備104的屏幕上的用戶界面中的列表200中,如在 206處所示。在所示示例中,結(jié)果列表包括以水平帶格式呈現(xiàn)的候選圖像204和候選標(biāo)題 206,從中可通過拖拽到搜索區(qū)域202上或通過觸摸或以其它方式選擇移動設(shè)備104的屏幕 上的圖像或文本來選擇特定候選結(jié)果。然而,其它格式也同時是可能的和預(yù)期的。例如,對 候選圖像的選擇可引起瀏覽器打開并向用戶提供購買或租賃該選擇的副本以供在移動設(shè) 備上觀看的機(jī)會,和/或?qū)ξ谋净驑?biāo)題的選擇可調(diào)出關(guān)于相關(guān)聯(lián)的視頻的信息,或存儲該標(biāo) 題(帶有或不帶有相關(guān)聯(lián)的圖像)以供稍后訪問。
[0051] 說明性體系結(jié)構(gòu)
[0052] 下面描述的體系結(jié)構(gòu)僅構(gòu)成一個示例,而不旨在將各權(quán)利要求限于任一特定體系 結(jié)構(gòu)或操作環(huán)境??墒褂闷渌軜?gòu)而不背離所要求保護(hù)的主題的精神和范圍。圖3是用于實(shí) 現(xiàn)移動視頻搜索的示例架構(gòu)的示意圖。
[0053] 在一些示例中,環(huán)境300的各種設(shè)備和/或組件包括一個或多個(諸)網(wǎng)絡(luò)302,在其 上移動計(jì)算設(shè)備304 (其可對應(yīng)于移動計(jì)算設(shè)備104,并且在本文中也被稱為客戶端設(shè)備304 或簡單地稱為設(shè)備304)可被連接到至少一個服務(wù)器306。環(huán)境300可包括多個網(wǎng)絡(luò)302、各種 設(shè)備304和/或多個服務(wù)器306。
[0054]在各實(shí)施例中,(諸)服務(wù)器306可以主存基于云的服務(wù)或特別針對諸如學(xué)校系統(tǒng) 或公司之類的實(shí)體的集中式服務(wù)。各示例支持以下場景:其中(諸)服務(wù)器306可包括一個或 多個可在群集中操作或在其它分組的配置中操作以在網(wǎng)絡(luò)302上共享資源、平衡負(fù)載、提升 性能、提供故障轉(zhuǎn)移支持或冗余或出于其它目的的計(jì)算設(shè)備。
[0055] 例如,(諸)網(wǎng)絡(luò)302可包括諸如因特網(wǎng)之類的公共網(wǎng)絡(luò)、諸如機(jī)構(gòu)和/或個人內(nèi)聯(lián) 網(wǎng)的專用網(wǎng)絡(luò),或?qū)S煤凸簿W(wǎng)絡(luò)的某種組合。網(wǎng)絡(luò)302還可包括任何類型的有線和/或無 線網(wǎng)絡(luò),包括但不限于局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、衛(wèi)星網(wǎng)絡(luò)、有線網(wǎng)絡(luò)、Wi-Fi網(wǎng)絡(luò)、WiMax 網(wǎng)絡(luò)、移動通信網(wǎng)絡(luò)(如3G、4G等等)或它們的任意組合。(諸)網(wǎng)絡(luò)302可利用通信協(xié)議,包括 基于分組的和/或基于數(shù)據(jù)報(bào)的協(xié)議,如網(wǎng)際協(xié)議(IP)、傳輸控制協(xié)議(TCP)、用戶數(shù)據(jù)報(bào)協(xié) 議(UDP)或其它類型的協(xié)議。而且,(諸)網(wǎng)絡(luò)302還可包括便于網(wǎng)絡(luò)通信和/或形成網(wǎng)絡(luò)的硬 件基礎(chǔ)的若干設(shè)備,如交換機(jī)、路由器、網(wǎng)關(guān)、接入點(diǎn)、防火墻、基站、中繼器、主干設(shè)備等等。 [0056]在一些實(shí)施例中,網(wǎng)絡(luò)302可進(jìn)一步包括能夠?qū)崿F(xiàn)到無線網(wǎng)絡(luò)的連接的設(shè)備,諸如 無線接入點(diǎn)(WAP)。各實(shí)施例支持通過WAP的連接性,WAP經(jīng)由各個電磁頻率(例如,無線電頻 率)來發(fā)送和接收數(shù)據(jù),包括支持電氣和電子工程師協(xié)會(IEEE)802. 11標(biāo)準(zhǔn)(例如, 802.118、802.1111等)和其它標(biāo)準(zhǔn)的歡?。
[0057]計(jì)算機(jī)可讀介質(zhì)
[0058] 如本文所使用的術(shù)語,計(jì)算機(jī)可讀介質(zhì)包括至少兩種類型的計(jì)算機(jī)可讀介質(zhì),即 計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)。
[0059] 計(jì)算機(jī)存儲介質(zhì)包括以用于存儲如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它 數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計(jì)算機(jī) 存儲介質(zhì)包括有形和/或物理形式的介質(zhì),該介質(zhì)被包括在設(shè)備中或作為設(shè)備的一部分或 外置于設(shè)備的硬件組件中,該介質(zhì)包括但不限于:隨機(jī)存取存儲器(RAM)、靜態(tài)隨機(jī)存取存 儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、相變存儲器(PRAM)、只讀存儲器(ROM)、可擦除可 編程只讀存儲器(EPROM)、電可擦除可編程只讀存儲器(EEPR0M)、閃存、光盤只讀存儲器 (CD-ROM)、數(shù)字多功能盤(DVD)、光卡或其它光存儲介質(zhì)、磁帶盒、磁帶、磁盤存儲、磁卡或其 它磁存儲設(shè)備或介質(zhì)、固態(tài)存儲器設(shè)備、存儲陣列、網(wǎng)絡(luò)附連存儲、存儲區(qū)域網(wǎng)絡(luò)、被托管的 計(jì)算機(jī)存儲或任何其它存儲器、存儲設(shè)備和/或存儲介質(zhì)或存儲器技術(shù)或可用于存儲并維 護(hù)供計(jì)算設(shè)備訪問的信息的任何其它非傳輸介質(zhì)。
[0060] 作為對比,通信介質(zhì)可用諸如載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號來體現(xiàn)計(jì)算 機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。
[0061] 如在此所述,計(jì)算機(jī)存儲介質(zhì)不包括除了執(zhí)行傳輸所需的任意硬件部件之外的通 信介質(zhì)。也即,計(jì)算機(jī)存儲介質(zhì)不包括由經(jīng)調(diào)制數(shù)據(jù)信號、載波或所傳播的信號本身單獨(dú)構(gòu) 成的通信介質(zhì)。
[0062]在各個實(shí)施例中,移動計(jì)算設(shè)備304包括諸如設(shè)備304A-304E的設(shè)備。各實(shí)施例支 持以下場景:其中(諸)設(shè)備304可包括一個或多個可在群集中操作或在其它分組的配置中 操作以共享資源或出于其它目的的計(jì)算設(shè)備。盡管所示出的是不同的各種移動設(shè)備類型, (諸)設(shè)備304可以是其它移動設(shè)備類型并不受限于所示出的移動設(shè)備類型。(諸)設(shè)備304可 包括任何類型的具有操作上連接到輸入/輸出接口 310和計(jì)算機(jī)可讀介質(zhì)312的一個或多個 處理器308的移動計(jì)算設(shè)備。設(shè)備304可包括諸如舉例而言智能電話304A、膝上型計(jì)算機(jī) 304B、平板計(jì)算機(jī)304C、電信設(shè)備304D、個人數(shù)字助理(PDA)304E、和/或其組合等移動計(jì)算 設(shè)備。設(shè)備304還可包括電子書閱讀器、可穿戴計(jì)算機(jī)、汽車計(jì)算機(jī)、游戲設(shè)備、移動瘦客戶 機(jī)、終端和/或工作站。在一些實(shí)施例中,設(shè)備304可以不是移動計(jì)算設(shè)備而可包括例如桌面 計(jì)算機(jī)和/或集成在計(jì)算設(shè)備、電器或其它類別的設(shè)備中的組件。
[0063]在一些實(shí)施例中,如關(guān)于設(shè)備304所示,計(jì)算機(jī)可讀介質(zhì)312可以存儲由(諸)處理 器308可執(zhí)行的指令,包括操作系統(tǒng)314、用于移動視頻搜索的引擎316、以及可由諸如CPU 和/或GPU之類的(諸)處理器308加載并執(zhí)行的其它模塊、程序或應(yīng)用318。替換地或另選地, 此處描述的功能可以至少部分由一個或多個硬件邏輯組件來執(zhí)行。例如、但非限制,可使用 的硬件邏輯組件的說明性類型包括現(xiàn)場可編程門陣列(FPGA)、程序?qū)S玫募呻娐?(ASIC)、程序?qū)S玫臉?biāo)準(zhǔn)產(chǎn)品(ASSP)、片上系統(tǒng)系統(tǒng)(S0C)、復(fù)雜可編程邏輯器件(CPLD)、等 等。
[0064]各實(shí)施例中的計(jì)算機(jī)可讀介質(zhì)312可包括計(jì)算機(jī)存儲介質(zhì),該計(jì)算機(jī)存儲介質(zhì)又 可包括易失性存儲器、非易失性存儲器、和/或如上所討論的其它持久和/或輔助計(jì)算機(jī)存 儲介質(zhì)。從而,在被實(shí)現(xiàn)為計(jì)算機(jī)存儲介質(zhì)時,計(jì)算機(jī)可讀介質(zhì)312包括有形和/或物理形 式的介質(zhì),該介質(zhì)被包括在設(shè)備和/或作為設(shè)備的一部分或外置于設(shè)備的硬件組件中,該介 質(zhì)包括但不限于:隨機(jī)存取存儲器(RAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲 器(DRAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM)、電可擦除可編程只讀存儲 器(EEPR0M)、閃存、緊致盤只讀存儲器(CD-ROM)、數(shù)字多功能盤(DVD)、光卡或其它光存儲介 質(zhì)、磁帶盒、磁帶、磁盤存儲、磁卡或其它磁存儲設(shè)備或介質(zhì)、固態(tài)存儲器設(shè)備、存儲陣列、網(wǎng) 絡(luò)附連存儲、存儲區(qū)域網(wǎng)絡(luò)、主存的計(jì)算機(jī)存儲或任何其它存儲存儲器、存儲設(shè)備、和/或可 用于存儲并維護(hù)供計(jì)算設(shè)備訪問的信息的存儲介質(zhì)。然而,在被實(shí)現(xiàn)為計(jì)算機(jī)存儲介質(zhì)時, 計(jì)算機(jī)可讀介質(zhì)312不包括僅由傳播的信號本身構(gòu)成的通信介質(zhì)。
[0065](諸)設(shè)備304可以進(jìn)一步包括一個或多個輸入/輸出(I/O)接口 310以允許設(shè)備304 與其它設(shè)備通信。設(shè)備304的輸入/輸出(I/O)接口 310還可包括一個或多個網(wǎng)絡(luò)接口以允許 經(jīng)由(諸)網(wǎng)絡(luò)302在計(jì)算設(shè)備304與其它聯(lián)網(wǎng)設(shè)備(諸如其它(諸)設(shè)備304和/或(諸)服務(wù)器 306)之間進(jìn)行通信。設(shè)備304的輸入/輸出(I/O)接口 310可允許設(shè)備304與其它設(shè)備進(jìn)行通 信,諸如用戶輸入外圍設(shè)備(例如,鍵盤、鼠標(biāo)、筆、游戲控制器、音頻輸入設(shè)備、視覺輸入設(shè) 備、觸摸輸入設(shè)備、姿勢輸入設(shè)備等)和/或輸出外圍設(shè)備(例如,顯示器、打印機(jī)、音頻揚(yáng)聲 器、觸覺輸出等)。(諸)網(wǎng)絡(luò)接口可包括一個或多個網(wǎng)絡(luò)接口控制器(NIC)或其它類型的用 于經(jīng)由網(wǎng)絡(luò)發(fā)送和接收通信的收發(fā)機(jī)設(shè)備。
[0066](諸)服務(wù)器306可包括任何類型的具有操作上連接到輸入/輸出接口 322和計(jì)算機(jī) 可讀介質(zhì)324的一個或多個處理器122的計(jì)算設(shè)備。在一些實(shí)施例中,如關(guān)于(諸)服務(wù)器306 所示,計(jì)算機(jī)可讀介質(zhì)324可以存儲由(諸)處理器320可執(zhí)行的指令,包括操作系統(tǒng)326、用 于分層式音頻-視頻引擎的框架328、以及可由諸如CPU和/或GPU之類的(諸)處理器320加載 并執(zhí)行的其它模塊、程序或應(yīng)用330。替換地或另選地,此處描述的功能可以至少部分由一 個或多個硬件邏輯組件來執(zhí)行。例如、但非限制,可使用的硬件邏輯組件的說明性類型包括 現(xiàn)場可編程門陣列(FPGA)、程序?qū)S玫募呻娐?ASIC)、程序?qū)S玫臉?biāo)準(zhǔn)產(chǎn)品(ASSP)、片上 系統(tǒng)系統(tǒng)(S0C)、復(fù)雜可編程邏輯器件(CPLD)、等等。
[0067]在被實(shí)現(xiàn)為計(jì)算機(jī)存儲介質(zhì)時,計(jì)算機(jī)可讀介質(zhì)324可包括易失性存儲器、非易失 性存儲器、和/或其它持久和/或輔助計(jì)算機(jī)可讀存儲介質(zhì)。(諸)服務(wù)器306還可包括一個或 多個輸入/輸出(I/O)接口 322,以允許服務(wù)器306與其它設(shè)備進(jìn)行通信,諸如用戶輸入外圍 設(shè)備(例如,鍵盤、鼠標(biāo)、筆、游戲控制器、音頻輸入設(shè)備、視頻輸入設(shè)備、觸摸輸入設(shè)備、姿勢 輸入設(shè)備等)和/或輸出外圍設(shè)備(例如,顯示器、打印機(jī)、音頻揚(yáng)聲器、觸覺輸出等)。服務(wù)器 306的輸入/輸出(I/O)接口 310還可包括一個或多個網(wǎng)絡(luò)接口以允許經(jīng)由(諸)網(wǎng)絡(luò)302在計(jì) 算服務(wù)器306與其它聯(lián)網(wǎng)設(shè)備(諸如其它(諸)服務(wù)器306或設(shè)備304)之間進(jìn)行通信。
[0068]在各實(shí)施例中,(諸)服務(wù)器306可表示基于云的服務(wù)或特別針對諸如學(xué)校系統(tǒng)或 公司之類的實(shí)體的集中式服務(wù)。(諸)服務(wù)器306可以包括編程以將一個用戶界面發(fā)送給一 個或多個設(shè)備304。(諸)服務(wù)器306可以存儲或訪問用戶簡檔,該用戶簡檔可包括用戶已經(jīng) 同意實(shí)體收集的信息,例如用戶賬戶號、名字、位置和/或關(guān)于一個或多個客戶端者設(shè)備304 的用戶可用于在非信任環(huán)境中的敏感交易的信息。
[0069] 示例移動設(shè)備
[0070] 圖4示出被配置用于提供如本文所述的移動視頻搜索工具的示例移動設(shè)備104的 選擇組件。示例移動設(shè)備304包括電源402、一個或多個處理器402(其可對應(yīng)于(諸)處理器 308并可包括微處理器)、以及對應(yīng)于輸入/輸出接口 310的輸入接口,包括網(wǎng)絡(luò)接口 406、一 個或多個相機(jī)408、一個或多個話筒410,以及在一些實(shí)例中,附加的輸入接口412可包括基 于觸摸的接口和/或基于姿勢的接口。示例移動設(shè)備304還包括對應(yīng)于輸入/輸出接口 410的 輸出接口,包括顯示器414,以及在一些實(shí)例中可包括附加的輸出接口416,諸如揚(yáng)聲器、打 印機(jī)等。網(wǎng)絡(luò)接口 406使得移動設(shè)備304能夠通過網(wǎng)絡(luò)302發(fā)送和/或接收數(shù)據(jù)。網(wǎng)絡(luò)接口 406 還可表示其它通信接口的任何組合,以允許移動設(shè)備304發(fā)送和/或接收各種類型的通信, 包括但不限于:基于web的數(shù)據(jù)和基于蜂窩電話網(wǎng)絡(luò)的數(shù)據(jù)。此外,示例移動設(shè)備304包括計(jì) 算機(jī)可讀介質(zhì)418,在一些實(shí)施例中其對應(yīng)于計(jì)算機(jī)可讀介質(zhì)312。計(jì)算機(jī)可讀介質(zhì)418存 儲操作系統(tǒng)(〇S)420、瀏覽器應(yīng)用422、移動視頻搜索工具316、和任意數(shù)目的其它應(yīng)用或模 塊,它們可以作為計(jì)算機(jī)可讀指令被存儲在計(jì)算機(jī)可讀介質(zhì)418中,并至少部分在處理器 404上被執(zhí)行。
[0071]瀏覽器應(yīng)用422表示可以在移動設(shè)備304上執(zhí)行以提供用戶界面的各種應(yīng)用中的 任意一種,通過所述用戶界面可以訪問因特網(wǎng)上可用的web內(nèi)容。
[0072]其它應(yīng)用或模塊424可以包括在移動設(shè)備304上可執(zhí)行的任意數(shù)目的其它應(yīng)用。這 樣的其它應(yīng)用可以包括,例如,電子郵件應(yīng)用、日歷應(yīng)用、交易模塊、音樂播放器、相機(jī)應(yīng)用、 計(jì)算器、一個或多個游戲、一個或多個生產(chǎn)力工具、消息收發(fā)應(yīng)用、加速計(jì)等等。
[0073]移動視頻搜索工具316包括音頻提取模塊426、視頻提取模塊428、簽名模塊430、結(jié) 果模塊432、用戶界面模塊434、以及任意數(shù)量的其它移動視頻搜索模塊436中的一個或多 個。音頻提取模塊426可提取音頻指紋,諸如LBAF。
[0074]視頻提取模塊428利用視頻描述符,視頻描述符對于諸如運(yùn)動、模糊以及不一致的 光照條件等失真是穩(wěn)健的并且能被快速提取。視頻提取模塊428可從局部視頻特征提取原 始特征,諸如加速穩(wěn)健特征(SURF)特征。然而,發(fā)送原始SURF特征可引起移動設(shè)備消耗高得 不可接受的量的能量且可能花太長時間來使得用戶可接受。在各實(shí)施例中,視頻提取模塊 使用散列化方法來將局部特征壓縮為散列位,其與移動計(jì)算設(shè)備104的輕量計(jì)算和存儲器 資源相一致。
[0075]簽名模塊430與該編程相一致地操作并且可構(gòu)成該編程的全部或部分以至少基于 來自音頻提取模塊426的音頻指紋和/或來自視頻提取模塊428的視覺散列位來執(zhí)行LAVE搜 索。
[0076]用戶界面模塊434可以構(gòu)成移動設(shè)備104的其它機(jī)械和/或軟件用戶界面部件的操 作的編程全部或部分或與其一致地操作。例如,可以由處理器404執(zhí)行的用戶界面模塊434 可以控制在移動視頻搜索工具316的上下文中的硬或軟選擇按鈕、主頁按鈕、后退按鈕和/ 或開始按鈕的功能。用戶界面模塊434允許呈現(xiàn)和選擇結(jié)果模塊432所接收的候選結(jié)果列表 的特定列表。例如,用戶界面模塊434提供了在移動設(shè)備104的屏幕上以可滾動帶格式呈現(xiàn) 的特定候選列表的呈現(xiàn)和選擇,如在112和/或200所示。
[0077]在一些實(shí)施例中,其它交互式多模態(tài)圖像搜索組件436可以應(yīng)用其它交互式數(shù)據(jù) 的上下文來執(zhí)行移動視頻搜索。例如,可使用的其它上下文數(shù)據(jù)可包括但不限于:近期搜 索、消息收發(fā)信息、標(biāo)識近期訪問的應(yīng)用(例如,瀏覽器搜索、電影列表應(yīng)用等)的數(shù)據(jù)等等。 [0078]雖然在圖4中被示為是被存儲在移動設(shè)備304的計(jì)算機(jī)可讀介質(zhì)418中,然而在一 些實(shí)現(xiàn)中,移動視頻搜索工具316或其部分可以被存儲在一個或多個服務(wù)器306上和/或通 過基于云的實(shí)現(xiàn)來執(zhí)行。另外,在一些實(shí)現(xiàn)中,可以使用可由移動設(shè)備304訪問的任意形式 的計(jì)算機(jī)可讀介質(zhì)來實(shí)現(xiàn)移動視頻搜索工具316或其部分。而且,在一些實(shí)施例中,操作系 統(tǒng)420、瀏覽器應(yīng)用422、移動視頻搜索工具316和/或其它應(yīng)用或模塊424的一個或多個組件 可被實(shí)現(xiàn)為作為移動設(shè)備304的一部分或可被移動設(shè)備304訪問的集成電路的一部分。而 且,雖然被示出且描述為是在移動設(shè)備304上實(shí)現(xiàn),然而在一些實(shí)施例中,如本文所述的移 動視頻搜索工具316所提供的數(shù)據(jù)訪問和其它功能還可以在被配置用于音頻和視覺輸入并 且通過其用戶可以執(zhí)行視頻搜索的任意其它類型的計(jì)算設(shè)備上實(shí)現(xiàn),包括但不局限于桌面 計(jì)算機(jī)系統(tǒng)、游戲系統(tǒng)和/或電視機(jī)系統(tǒng)。
[0079]示例服務(wù)器設(shè)備
[0080]圖5是解說被配置為提供分層式音頻-視頻搜索作為如本文所述的移動視頻搜索 工具的示例服務(wù)器設(shè)備306的組件的框圖。示例服務(wù)器306包括電源502、一個或多個處理器 504(其可對應(yīng)于(諸)處理器302并可包括微處理器)、以及對應(yīng)于輸入/輸出接口322的輸入 接口,包括網(wǎng)絡(luò)接口 506,以及在一些實(shí)例中可包括一個或多個附加的輸入接口 508,諸如鍵 盤、軟鍵盤、話筒、相機(jī)等。除了網(wǎng)絡(luò)接口 506之外,示例服務(wù)器設(shè)備306還可包括對應(yīng)于輸 入/輸出接口 322的一個或多個附加的輸出接口 510,包括諸如顯示器、揚(yáng)聲器、打印機(jī)等輸 出接口。網(wǎng)絡(luò)接口 506使得服務(wù)器306能夠通過網(wǎng)絡(luò)302發(fā)送和/或接收數(shù)據(jù)。網(wǎng)絡(luò)接口 506還 可表示其它通信接口的任何組合,以允許服務(wù)器306發(fā)送和/或接收各種類型的通信,包括 但不限于:基于web的數(shù)據(jù)和基于蜂窩電話網(wǎng)絡(luò)的數(shù)據(jù)。此外,示例服務(wù)器306包括計(jì)算機(jī)可 讀介質(zhì)512,在一些實(shí)施例中其對應(yīng)于計(jì)算機(jī)可讀介質(zhì)324。計(jì)算機(jī)可讀介質(zhì)512存儲操作系 統(tǒng)(0S)514、LAVE索引516、分層式音頻-視頻引擎328以及任意數(shù)目的其它應(yīng)用或模塊,它 們可以作為計(jì)算機(jī)可執(zhí)行指令被存儲在計(jì)算機(jī)可讀介質(zhì)512上,并至少部分在處理器504上 被執(zhí)行。
[0081]其它應(yīng)用或模塊518可包括在服務(wù)器306上可執(zhí)行的任意數(shù)目的其它應(yīng)用。這樣的 其它應(yīng)用可以包括,例如,電子郵件應(yīng)用、日歷應(yīng)用、交易模塊、音樂播放器、相機(jī)應(yīng)用、計(jì)算 器、一個或多個游戲、一個或多個生產(chǎn)力工具、消息收發(fā)應(yīng)用、加速計(jì)等等。
[0082]分層式音頻-視頻引擎328包括音頻提取模塊524、視頻提取模塊526、LAVE搜索模 塊528、幾何驗(yàn)證模塊530、漸進(jìn)式查詢模塊532、以及決策模塊534中的至少一個。
[0083]雖然在圖5中被示為是被存儲在服務(wù)器306的計(jì)算機(jī)可讀介質(zhì)512中,然而在一些 實(shí)現(xiàn)中,分層式音頻-視頻引擎328或其部分可以被存儲在一個或多個附加服務(wù)器306上和/ 或通過基于云的實(shí)現(xiàn)來執(zhí)行。另外,在一些實(shí)施例中,可以使用可由服務(wù)器備306訪問的任 意形式的計(jì)算機(jī)可讀介質(zhì)來實(shí)現(xiàn)分層式音頻-視頻引擎328或其部分。另外,在一些實(shí)施例 中,操作系統(tǒng)514、LAVE索引516、和/或其它應(yīng)用或模塊518的一個或多個組件可被實(shí)現(xiàn)為作 為服務(wù)器306的一部分或可被服務(wù)器306訪問的集成電路的一部分。而且,盡管被不出并描 述為被實(shí)現(xiàn)在服務(wù)器306上,然而在一些實(shí)現(xiàn)中,如本文所述的分層式音頻-視頻引擎328所 提供的數(shù)據(jù)訪問和其它功能也可在被配置用于音頻和視覺索引并且可基于視頻查詢輸入 執(zhí)行視頻搜索的任何其它類型的計(jì)算設(shè)備上實(shí)現(xiàn),包括但不限于:桌面計(jì)算機(jī)系統(tǒng)、頭端電 視機(jī)分布系統(tǒng)、以及膝上型計(jì)算機(jī)系統(tǒng)。
[0084]在600處,圖6是實(shí)現(xiàn)移動視頻搜索的移動設(shè)備和服務(wù)器或云計(jì)算環(huán)境的示例框架 的示意圖,該計(jì)算環(huán)境也可被稱為網(wǎng)絡(luò)分布式環(huán)境,其實(shí)現(xiàn)分層式音頻-視頻索引??蚣?00 被解說為具有離線級602和在線級604??蚣?00可包括至少一個服務(wù)器606,在各實(shí)施例中 其可對應(yīng)于(諸)服務(wù)器306并可包括例如web服務(wù)器、應(yīng)用服務(wù)器、以及任何數(shù)量的其它數(shù) 據(jù)服務(wù)器。同時,框架600可包括至少一個客戶端608,在各實(shí)施例中其對應(yīng)于(諸)設(shè)備104 和/或304。
[0085]在各實(shí)施例中,客戶端608代表被配置成通過網(wǎng)絡(luò)(諸如通過網(wǎng)絡(luò)302)傳送和接收 數(shù)據(jù)的任何類型的移動計(jì)算設(shè)備。例如,客戶端608可被實(shí)現(xiàn)為移動電話、智能電話、個人數(shù) 字助理(PDA)、上網(wǎng)本、平板計(jì)算機(jī)、手持式計(jì)算機(jī)和其它這樣的由減少的形狀因素和資源 限制所表征的移動計(jì)算設(shè)備等。
[0086]在離線級602中,云計(jì)算的電力可被用于存儲大規(guī)模源視頻數(shù)據(jù)集610,其可包括 數(shù)千個視頻。在612,分層式音頻-視頻索引應(yīng)用(諸如LAVE 328)提取來自大規(guī)模源視頻數(shù) 據(jù)集610中的個體視頻的音頻-視頻描述符。有效的聯(lián)合音頻-視頻描述符將對來自移動視 頻搜索系統(tǒng)中的復(fù)雜移動視頻捕捉條件(例如,安靜的視頻或低視覺質(zhì)量的模糊視頻)的查 詢視頻的變化穩(wěn)健。在各實(shí)施例中,聯(lián)合描述符選擇至少部分基于三個性質(zhì):1)對所記錄的 查詢視頻的變化穩(wěn)健,2)在移動設(shè)備上便宜地計(jì)算,以及3)易于索引以用于移動視頻搜索。 在至少一個實(shí)施例中,LAVES應(yīng)用采用基于地標(biāo)的音頻指紋化(LBAF)來獲得音頻指紋614以 及采用加速穩(wěn)健特征(SURF)來獲得視覺散列位616。在618,LAVE應(yīng)用328使用這些描述符構(gòu) 建并存儲LAVE索引620。
[0087] 在線查詢級604包括可在客戶端設(shè)備608(諸如設(shè)備304)捕捉查詢視頻片段622時 執(zhí)行的以下操作:1)移動設(shè)備624上的輕量音頻-視頻描述符的實(shí)時提取。移動視頻搜索工 具316向服務(wù)器606發(fā)送音頻-視頻簽名(包括視覺散列位626和音頻指紋628)。在各實(shí)施例 中,移動視頻搜索工具316按預(yù)定間隔發(fā)送該簽名,例如,按2秒的間隔、按1秒的間隔、按0.5 秒的間隔等。2)服務(wù)器606接收該簽名,例如2秒簽名、1秒簽名、0.5秒簽名等。如在630處所 示,服務(wù)器606通過LAVE索弓1620進(jìn)行對類似視頻關(guān)鍵幀632的搜索。3)如在634處所示,服務(wù) 器606使用基于幾何驗(yàn)證的視覺排名來細(xì)化搜索結(jié)果。幾何驗(yàn)證將查詢性質(zhì)636與源性質(zhì) 638進(jìn)行比較。對于每個匹配的查詢,例如1秒查詢和源視頻關(guān)鍵幀,兩部分圖中的一個節(jié)點(diǎn) 可以表示所接收的查詢而另一個節(jié)點(diǎn)可以表示來自源視頻的候選匹配關(guān)鍵幀。在該圖中, 邊將查詢節(jié)點(diǎn)連接到候選匹配關(guān)鍵幀節(jié)點(diǎn)。4)如在640處所示,服務(wù)器606經(jīng)由兩部分圖變 換和匹配來使得視頻搜索為漸進(jìn)式的來執(zhí)行漸進(jìn)式查詢過程。漸進(jìn)式查詢過程640的細(xì)節(jié) 在算法1中示出。例如,如果新查詢到達(dá),則將在636添加新查詢節(jié)點(diǎn)。隨后,將根據(jù)返回的結(jié) 果來更新兩部分圖的邊。在漸進(jìn)式查詢640期間,如果兩部分圖的邊的數(shù)量不改變,則匹配 的視頻的相似度得分將不改變;否則,匹配的視頻的相似度得分將被更新。
[0088]在642,如果搜索結(jié)果和/或相似度得分中沒有變化達(dá)一時間段(例如,達(dá)連續(xù)2秒、 連續(xù)3秒、連續(xù)4秒的預(yù)定時間段),則決策模塊534確定已實(shí)現(xiàn)穩(wěn)定的搜索結(jié)果。在一些實(shí)施 例中,在642,如果搜索結(jié)果和/或相似度得分中沒有變化達(dá)一時間段(例如,達(dá)一可變時間 段和/或一相對時間段),則決策模塊534確定已實(shí)現(xiàn)穩(wěn)定的搜索結(jié)果。當(dāng)實(shí)現(xiàn)穩(wěn)定的搜索結(jié) 果時,搜過過程可自動停止,且在644結(jié)果將被返回至移動設(shè)備。在一些實(shí)施例中,當(dāng)搜索結(jié) 果穩(wěn)定時,結(jié)果被返回以在客戶端設(shè)備608上在信令該搜索是穩(wěn)定的用戶界面中呈現(xiàn),如在 646中所示。然而,當(dāng)搜索結(jié)果沒有穩(wěn)定達(dá)期望時間時,搜索過程繼續(xù)且在648決策模塊534 將結(jié)果按照指示搜索沒有完成的方式返回給設(shè)備608,如在視頻捕捉622期間在用戶界面中 所示。
[0089]在所示示例中,客戶端設(shè)備608(諸如移動設(shè)備304)經(jīng)由話筒和相機(jī)接收視頻輸入 來發(fā)起視頻查詢,如在622處所示。系統(tǒng)利用音頻提取模塊(諸如模塊426)來提取音頻指紋 (諸如LBAF),如在628處所示。系統(tǒng)還利用視頻提取模塊(諸如模塊428)來提取視覺散列位, 如在626處所示。
[0090] 關(guān)于視覺散列位,視頻提取模塊(諸如視頻提取模塊428和/或視頻提取模塊526) 可使用散列化方法來將局部特征壓縮為散列位。例如,視頻提取模塊可使用最小損失散列 化或頻譜散列化來學(xué)習(xí)散列函數(shù),諸如由hVzsignWx-t)表示的散列函數(shù),其中x表示SURF 描述符向量,v表示習(xí)得的散列矩陣,而t表示閾值純量,以計(jì)算hv,其表示習(xí)得的視覺散列 位。在一些實(shí)施例中,視頻提取模塊可將二進(jìn)制代碼限制到80個比特。在這樣的實(shí)施例中, 視頻提取模塊可使用8個比特來保存SURF描述符的角度值,其將被用于未來如關(guān)于圖6的 634討論的幾何驗(yàn)證。因此,視頻提取模塊可將每個SURF特征壓縮到% 其在所討論 的示例中可以僅88個比特。
[0091] 視頻提取模塊可將查詢圖像縮放到小圖片以最小化由各種移動設(shè)備上的不同相 機(jī)分辨率帶來的差異。將查詢圖像縮放到小圖片可改善移動設(shè)備上的特征提取速度且其可 減少需要被傳送的特征點(diǎn)的數(shù)量。在若干實(shí)現(xiàn)中,這樣的縮放在對精度影響很小的情況下 改善了查詢速度。例如,在縮放之后,一個幀平均有75個SURF點(diǎn),這允許移動設(shè)備針對該幀 傳送小于1KB的視覺特征到服務(wù)器。
[0092] 圖7是音頻指紋的提取的示例的示意圖。在各種音頻特征中,LBAF在許多接近重復(fù) 視頻搜索方法中被廣泛使用。其快速計(jì)算、高效存儲器和不變的轉(zhuǎn)換也適用于移動視頻搜 索。在各實(shí)現(xiàn)中,音頻提取模塊(諸如音頻提取模塊426和/或音頻提取模塊524)提取音頻指 紋,諸如LBAF。在702,音頻提取模塊將音頻信息分段為具有長度/a和步幅的短的且部分 重疊的幀。在704,音頻提取模塊計(jì)算每個幀的譜圖(spectrogram)。在706,音頻提取模塊 在該幀的譜圖上設(shè)置候選峰值,諸如708a和708b。在若干實(shí)施例中,音頻提取模塊根據(jù)至少 三個準(zhǔn)則在該幀的譜圖上設(shè)置候選峰值:比其所有鄰居更高的能量內(nèi)容,比其鄰居更高的 振幅,以及密度準(zhǔn)則。在710,音頻提取模塊從峰值中選擇錨點(diǎn)712并標(biāo)識針對該錨點(diǎn)的相應(yīng) 目標(biāo)區(qū)域714。每個錨點(diǎn)712被依序與其目標(biāo)區(qū)域714中的候選峰值配對。錨點(diǎn)-候選峰值對 可被稱為地標(biāo)。每個地標(biāo)可被表示為其中和C是錨點(diǎn)的時間偏移和頻 率,而辦和A紀(jì)是錨點(diǎn)和目標(biāo)區(qū)域中的配對點(diǎn)之間的時間和頻率差。音頻提取模塊可將該 指紋壓縮為,其中蹲是ff、&f和A 的散列值。不同的h可具有相同的蚜。
[0093] 在一個實(shí)現(xiàn)中,k =256ms且^=32rns,其中將散列位縫限制到小于25個比特。因 為對于矽存在15個比特,所以li的長度=40個比特。在至少一個實(shí)施例中,對于1秒音頻片 段,音頻提取模塊可選擇總共100個地標(biāo)。因此,音頻提取模塊可將要傳送的數(shù)據(jù)量減少到 僅每秒〇. 5KB以用于音頻指紋化。
[0094]在此示例中,通過特征提取,移動設(shè)備獲得100個音頻特征點(diǎn)和75個視覺特征點(diǎn), 通過高效壓縮,這表示要通過網(wǎng)絡(luò)傳送視頻內(nèi)容的少于每秒2KB的音頻-視覺簽名。
[0095]圖8是分層式音頻-視頻(LAVE)索引方案800的示例的示意圖。如在800處所示, LAVE方案采用兩個層802和804。第一層802表示索引條目,其包含由音頻索引806和視覺索 弓丨808構(gòu)成的多索引(multi-index)。第二層804表示視覺散列位,其包括第二層視覺索引化 8HKLAVE方案使用第二層視覺索引化810的視覺散列位來進(jìn)行特征匹配和組合。在第一層 中的搜索之后,系統(tǒng)可從音頻索引和從視覺索引獲得細(xì)化的類似的視覺特征點(diǎn)。相應(yīng)地,此 上下文中的組合包括將來自音頻索引以及來自視覺索引的經(jīng)細(xì)化的類似的視覺特征點(diǎn)融 合在一起并從中選擇最(前K個)類似的視覺特征點(diǎn)。
[0096]這些結(jié)構(gòu)有兩個優(yōu)點(diǎn):1)這些結(jié)構(gòu)通過采用層次化的分解策略改善了視覺點(diǎn)搜索 速度,以及2)這些結(jié)構(gòu)利用了音頻和視覺信號的互補(bǔ)性質(zhì)。第一層802中的不同的索引條目 保留了音頻和視覺簽名的個體結(jié)構(gòu)。在第二層804中,音頻和視覺的組合可通過視覺散列位 的漢明距離(hamming distance)來加權(quán)。
[0097] 構(gòu)建LAVE索引
[0098] 在各實(shí)施例中,與視覺特征相對照,音頻特征可被高度壓縮,例如,用僅25個比特 來表示每個點(diǎn)。該壓縮允許LAVE搜索模塊528進(jìn)行音頻索引的線性搜索。為了構(gòu)建LAVE索引 516,諸如在618處示出的過程可使用音頻索引作為第一層802的一部分,且第一層的音頻索 引中的每個桶,例如806a,轉(zhuǎn)可通過視頻ID、音頻時間偏移^以及關(guān)鍵幀數(shù)量t v與第二層相 關(guān)聯(lián),例如,珍以及f 以及對于806b,例如,例如、等,如此等 等。通過音頻索引,分層式音頻-視頻引擎328可細(xì)化第二層中要被搜索的視覺點(diǎn)的數(shù)量,這 改善了搜索速度。
[0099] 然而,被顯著改變或丟失的音頻信息可使得難以在第二層中找到最接近的 鄰居。分層式音頻-視頻引擎328使用多索引(multi-index)來解決此問題。分層式音頻-視頻引擎328通過m個不同的散列表來索引來自第二層視覺索引的散列位,這些散列表構(gòu)造 了第一層的視覺索引。分層式音頻-視頻引擎328隨機(jī)地從第二層中的散列位中選擇第一層 中的視覺索引的散列位從 &,例如,SSSa ;?SOSb峨的於. 808d SOSe gCs8f ^ ^ ^ pjf S ^ ^ U # 點(diǎn),至少一個此類散列表中的落在該查詢附近的條目被認(rèn)為是鄰候選。分層式 音頻-視頻引擎3 2 8隨后使用第二層索引8 1 0來檢查候選的有效性,例如, 8他?S!你 '城.S!0s、、f 8談取,C SKib、碎心 照,分層式音頻-視頻引擎328利用m+1個多索引:m個視覺索引和1個音頻索引。由該m+1個多 索引細(xì)化的所有結(jié)果在第二層中被組合在一起且前N個類似結(jié)果被選擇。音頻索引減少了 視覺索引的數(shù)量m。在至少一個實(shí)現(xiàn)中,該工具用至少一個視覺索引工作。
[0100] 搜索LAVE索引
[0101 ]在各實(shí)施例中,LAVE索引化中的搜索過程可被如下地呈現(xiàn)。令pa= {h,12,. . .,1M} 表示所接收的音頻查詢點(diǎn)而PV= {vi,V2, ...,vd表示所接收的視覺查詢點(diǎn)。通過搜索過程 (諸如搜索過程630),LAVE搜索模塊528可針對每個查詢視覺點(diǎn)返回前K個視覺點(diǎn)。
[0102]步驟1,對于Pa*的每個音頻點(diǎn)lm,LAVE搜索模塊528通過在音頻索引中的線性搜索 獲得最接近的近似鄰居。隨后LAVE搜索模塊528向不同的候選群集C={ci,c2,...,c N}分配 匹配對。如果兩個對的最接近的近似鄰居來自同一視頻,則LAVE搜索模塊528向同一群集分 配這兩個對。
[0103]步驟2, LAVE搜索模塊528通過時間驗(yàn)證來對群集重新排序。例如,LAVE搜素模塊 528可通過At表示時間距離來表示匹配對中的兩個LBAF中的時間差??舍槍n中的所有對 計(jì)算At的直方圖,且c n的得分等于hn/M,其中1^表示該直方圖的最大值。此得分也可被用于 相似度計(jì)算。隨后前f個候選群集被選擇。第二層中與前f個候選群集相關(guān)聯(lián)的桶可被當(dāng) 作一子集。
[0104] 步驟3,對于Pv中的每個V1,K LAVE搜索模塊528可如下地獲得最接近的近似鄰居: a)前K個近似鄰居可通過第二層的該子集中的線性搜索來確定。b)使用多索引索引化方法 來搜索其它前K個最接近的鄰居點(diǎn)。c)2K個最接近的鄰居點(diǎn)可按照相似距離被重新排序,且 前K個最接近的點(diǎn)可被選擇。
[0105] 步驟4,LAVE搜索模塊528可返回前K個最接近的視覺點(diǎn)作為搜索結(jié)果。
[0106]概言之,根據(jù)該過程,LAVE搜索模塊528組合兩個級中的音頻和視覺信息。第一級 是步驟1-步驟3.a。在此級中,移動視頻搜索使用更高壓縮的音頻信息作為粗略過濾器以及 使用更多的有辨識度的視覺信息作為精細(xì)過濾器來改善整體搜索速度。而且,因?yàn)橄嗨贫?在分開的層中被計(jì)算,所以組合級也可保留每個簽名的個體結(jié)構(gòu)。第二級是步驟3.b-步驟 4。與第一組合級(其嚴(yán)重依賴于音頻搜索精確度)相對照,在第二級中,音頻和視覺信息的 組合可通過視覺散列位的漢明距離來加權(quán)。這兩個級利用了音頻和視覺信號的互補(bǔ)性質(zhì)來 用于穩(wěn)健的移動視頻搜索。由于該m+1個多索引,即m個視覺索引和1個音頻索引,搜索LAVE 索引的計(jì)算復(fù)雜度可基于LAVE搜索模塊528用來搜索最接近的視覺鄰居點(diǎn)的多索引索引化 方法。
[0107] 幾何驗(yàn)證
[0108] 在各實(shí)施例中,通過幾何驗(yàn)證模塊530的幾何驗(yàn)證(諸如幾何驗(yàn)證634)可被如下地 呈現(xiàn)。幾何驗(yàn)證可使用前N個點(diǎn),利用霍夫變換(Hough transfer)方法來獲得查詢的相似 的源關(guān)鍵幀,以及考慮局部特征的空間一致性的后續(xù)幾何驗(yàn)證(GV)634可被用來拒絕假肯 定(false-positive)匹配。為了減少GV的時間消耗,幾何驗(yàn)證模塊530可采用基于快速和有 效的GV的排名步驟來找到最相似的圖像。在至少一個實(shí)現(xiàn)中,該方法利用描述符的定向,以 使得局部特征的位置信息不需要通過網(wǎng)絡(luò)被傳送。該方法假設(shè)重復(fù)圖像的兩個匹配的描述 符應(yīng)當(dāng)具有相同的定向差異。所以,對于兩個重復(fù)圖像,幾何驗(yàn)證模塊530計(jì)算每個匹配的 局部特征對之間的定向距離A 0d。隨后幾何驗(yàn)證模塊530將所有A 0d量化到C個容器(bin) 中,例如C=10。而且,幾何驗(yàn)證模塊530掃描直方圖以尋找峰值并將全局定向差異設(shè)置為峰 值值。幾何驗(yàn)證模塊530從該峰值中的對的數(shù)量獲得幾何驗(yàn)證得分,所述對的數(shù)量通過總的 對的數(shù)量來歸一化。
[0109] 漸進(jìn)式查詢
[0110] 在各實(shí)施例中,漸進(jìn)式查詢過程(諸如漸進(jìn)式查詢640)由漸進(jìn)式查詢模塊532執(zhí) 行。與現(xiàn)有的移動視頻搜索系統(tǒng)(即,在實(shí)現(xiàn)所有查詢數(shù)據(jù)之后搜索)相對照,如本文所述的 漸進(jìn)式查詢過程可顯著減少查詢成本并改善用戶的搜索體驗(yàn)。漸進(jìn)式查詢模塊532可前進(jìn) 到下一查詢并動態(tài)地計(jì)算檢索結(jié)果,例如在每個查詢到達(dá)后或響應(yīng)于每個查詢的到達(dá)。搜 索可在實(shí)現(xiàn)穩(wěn)定的結(jié)果后停止。
[0111] 算法1提供了用于至少一個實(shí)施例的示例漸進(jìn)式查詢過程。
[0114] 算法 1
[0115] 在如本文所述的分層式音頻-視頻系統(tǒng)中,漸進(jìn)式查詢過程可經(jīng)由兩部分圖形變 換和匹配算法來實(shí)現(xiàn)。如圖6中所示,對于每個匹配的查詢和源視頻,漸進(jìn)式查詢模塊532可 使用兩部分圖形G={N,E}來表示該匹配。在該兩部分圖形中,查詢節(jié)點(diǎn)636可由qkGQ表示, 并表示在時間k的接收的查詢,源節(jié)點(diǎn)638可由s n,mGS表示,并表示源視頻Vn中的第m個關(guān)鍵 幀。令Rk表示查詢qk的所有返回的相似關(guān)鍵幀s n,m如果Sn,mGRk,將存在邊 ek,mGE。在每秒時 間搜索后,漸進(jìn)式查詢模塊532可更新該兩部分圖形仏并隨后可通過仏漸進(jìn)地計(jì)算該匹配的 相似度得分。
[0116] 算法1解說了漸進(jìn)式查詢過程的細(xì)節(jié)的一個實(shí)施例。如果新查詢到達(dá),則將添加新 查詢節(jié)點(diǎn),諸如在636處。隨后,將根據(jù)返回的結(jié)果來更新兩部分圖的邊。在漸進(jìn)式查詢640 期間,如果兩部分圖的邊的數(shù)量不改變,則匹配的視頻的相似度得分將不改變;否則,匹配 的視頻的相似度得分可被如下地更新:首先,漸進(jìn)式查詢模塊532可計(jì)算6:的最大大小匹配 (MSM)Mi。如果|Mi | >a,則漸進(jìn)式查詢模塊532可根據(jù)等式1計(jì)算相似度得分Wi。
[0117] ffi = Sim(Q,Vi,ffiMiv)
[0118] =Sima(Q,Vi,Wia)+Simv(Q,Vi,Wi v)+Simt(Q,Vi) (1)
[0119] 在等式1中,Sima( Q,Vi,Wia)贊成音頻內(nèi)容相似度,該音頻內(nèi)容相似度可根據(jù)等式2 來計(jì)算。
(2)
[0121] 在等式2中,表示查詢qk和視頻Vi之間的音頻相似度而| Q |表示查詢長度。Simv (Q,I,wr)指示根據(jù)等式3的視覺相似度。
0)
[0123] 在等式3中,K匕表示查詢qk和視頻Vi之間的視覺相似度而Simt(Q,Vi)顯示時間順 序相似度。此得分確保了匹配的視頻應(yīng)當(dāng)具有相似的時間次序。給定Gk的MSM Mi,其時間匹 配數(shù)量可以例如通過最長公共子序列(LCSS)來計(jì)算。LCSS是編輯距離的變型,漸進(jìn)式查詢 模塊532可使用該編輯距離來表示根據(jù)等式4沿時間次序匹配的M k的幀對的數(shù)量。
(4)
[0125] 從而Simt(Q,Vi)可根據(jù)等式5獲得。
(5)
[0127] 在計(jì)算Q和V之間的所有相似度之后,漸進(jìn)式查詢模塊532可返回前K個視頻作為搜 索結(jié)果。在各實(shí)施例中,如本文所述的漸進(jìn)式搜索查詢過程640的計(jì)算復(fù)雜度是 0(_\_!父禺丨),其中叫表示兩部分圖形的數(shù)量,且圓表示頂點(diǎn)的數(shù)量,而也|表示 每個兩部分圖形中的邊的數(shù)量。然而,在至少一個實(shí)現(xiàn)中,相似度計(jì)算過程所消耗的時間小 于0(丨切X丨涔丨xlEp,因?yàn)閨 El|在大多數(shù)兩部分圖形中不改變。
[0128] 示例操作
[0129] 圖9-11解說了用于實(shí)現(xiàn)如本文所述的LAVE索引的數(shù)據(jù)集的移動視頻搜索的各方 面的示例過程。這些過程被示為邏輯流程圖中的各框的集合,這表示可用硬件、軟件或其組 合實(shí)現(xiàn)的一系列操作。在軟件的上下文中,這些框表示在一個或多個計(jì)算機(jī)可讀介質(zhì)上的 計(jì)算機(jī)可執(zhí)行指令,這些指令在由一個或多個處理器執(zhí)行時使得這些處理器執(zhí)行既定操 作。
[0130] 這承認(rèn),軟件可以是有價(jià)值的,單獨(dú)地可交換的商品。它旨在包含運(yùn)行于或者控制 "啞"或標(biāo)準(zhǔn)硬件以實(shí)現(xiàn)所需功能的軟件。它還旨在包含例如用于設(shè)計(jì)硅芯片,或者用于配 置通用可編程芯片的HDL(硬件描述語言)軟件等"描述"或者定義硬件配置以實(shí)現(xiàn)期望功能 的軟件。
[0131]注意,描述過程的次序并不旨在解釋為限制,并且任何數(shù)目的所述過程框可以按 任何次序組合以實(shí)現(xiàn)本過程或替換過程。另外,可從過程中刪除各個框,而不背離此處所述 的主題的精神和范圍。此外,盡管如上參考圖1-8所述的移動設(shè)備304和服務(wù)器306來描述該 過程,但在一些實(shí)施例中包括如上所述的基于云的架構(gòu)的其它計(jì)算機(jī)架構(gòu)可以整體或部分 地實(shí)現(xiàn)這些過程的一個或多個部分。
[0132] 圖9解說了用于在客戶端設(shè)備(諸如設(shè)備304)上實(shí)現(xiàn)移動視頻搜索工具的示例過 程900。盡管過程900被描述為在客戶端設(shè)備上實(shí)現(xiàn),然而在一些實(shí)施例中,包括客戶端設(shè)備 和服務(wù)器的系統(tǒng)(其可包括如上所述的基于網(wǎng)絡(luò)或云構(gòu)造中的多個設(shè)備)可執(zhí)行過程900的 各方面。
[0133] 在一些實(shí)施例中,如本文所述的移動視頻搜索工具的各方面可作為在移動設(shè)備上 運(yùn)行的搜索應(yīng)用來實(shí)現(xiàn)和/或經(jīng)由應(yīng)用編程接口(API)來實(shí)現(xiàn)。移動視頻搜索工具可捕捉視 頻輸入以供查詢并執(zhí)行對音頻指紋和視覺散列位的提取以形成音頻-視頻簽名。在移動設(shè) 備上運(yùn)行的應(yīng)用的情況下,該應(yīng)用可發(fā)送音頻-視頻簽名作為視頻搜索查詢。在API的情況 下,應(yīng)用可經(jīng)由API展示構(gòu)成該音頻-視頻簽名的音頻指紋和視覺散列位以由另一應(yīng)用用于 視頻搜索。在該情況下,訪問該API以進(jìn)行視頻搜索的應(yīng)用可發(fā)送音頻-視頻簽名作為視頻 搜索查詢。
[0134] 在框902,被配置成經(jīng)由視頻搜索工具(諸如移動視頻搜索工具316)接收視頻內(nèi)容 作為輸入的設(shè)備(諸如設(shè)備304)接收視頻內(nèi)容作為輸入。在各實(shí)施例中,接收視頻內(nèi)容作為 輸入包括諸如話筒410和/或相機(jī)408等與設(shè)備304相關(guān)聯(lián)的一個或多個輸入設(shè)備或組件按 照時間切片經(jīng)由話筒捕捉來自視頻內(nèi)容的音頻輸入和/或經(jīng)由相機(jī)捕捉來自視頻內(nèi)容的視 覺輸入。在一些實(shí)施例中,接收視頻內(nèi)容作為輸入包括接收如經(jīng)由API展示的與視頻內(nèi)容相 關(guān)聯(lián)的音頻輸入和/或視覺輸入。在若干實(shí)施例中,視頻內(nèi)容的時間切片被與該設(shè)備相關(guān)聯(lián) 的輸入設(shè)備從不與該設(shè)備相關(guān)聯(lián)的視頻輸出設(shè)備接收。在各實(shí)施例中,這些時間切片中的 個體時間切片的長度包括至少約〇. 1秒以及最多約10.〇秒。在至少一個實(shí)施例中,每個時間 切片可表示1秒視頻內(nèi)容。
[0135] 在框904,被配置成經(jīng)由音頻-視頻提取器(諸如音頻提取模塊426和/或視頻提取 模塊428中的一個或多個)提取該視頻內(nèi)容的一時間切片的音頻-視頻描述符的設(shè)備(諸如 設(shè)備304)執(zhí)行提取,包括該視頻內(nèi)容的一時間切片的音頻-視頻描述符的提取。在各實(shí)施例 中,提取視頻內(nèi)容的時間切片的音頻-視頻描述符包括獲得與該時間切片相對應(yīng)的視頻內(nèi) 容的聲音和/或視覺性質(zhì)。
[0136] 在一些實(shí)施例中,在框906,被配置成經(jīng)由音頻提取模塊(諸如音頻提取模塊426) 提取該視頻內(nèi)容的一時間切片的聲音性質(zhì)的設(shè)備(諸如設(shè)備304)執(zhí)行提取,包括與該時間 切片相對應(yīng)的視頻內(nèi)容的音頻指紋的提取,以用于生成音頻-視頻簽名。
[0137] 在一些實(shí)施例中,在框908,被配置成經(jīng)由視頻提取模塊(諸如視頻提取模塊428) 提取該視頻內(nèi)容的一時間切片的視覺性質(zhì)的設(shè)備(諸如設(shè)備304)執(zhí)行提取,包括與該時間 切片相對應(yīng)的視頻內(nèi)容的至少一個視覺散列位的提取,以用于生成音頻-視頻簽名。
[0138] 在框910,被配置成經(jīng)由簽名生成器(諸如簽名模塊430)生成音頻-視頻簽名的設(shè) 備(諸如設(shè)備304)至少部分基于已被提取的音頻-視頻描述符來生成與視頻內(nèi)容的各時間 切片中的一個或多個時間切片相關(guān)聯(lián)的音頻-視頻簽名。在若干實(shí)施例中,音頻-視頻簽名 包括與視頻內(nèi)容的時間切片相關(guān)聯(lián)的至少一個音頻指紋和一個或多個視覺散列位。在各 實(shí)施例中,該設(shè)備上的音頻-視頻簽名的生成可由一應(yīng)用執(zhí)行,且所生成的音頻-視頻簽名 可由該應(yīng)用用于搜索或通過API從該應(yīng)用提供。在一些實(shí)施例中,該設(shè)備上的音頻-視頻簽 名的生成可包括API提供原始描述符提取,另一應(yīng)用(其可在該設(shè)備上或可在該設(shè)備外)可 從該原始描述符提取生成音頻-視頻簽名。
[0139] 在框912,被配置成經(jīng)由簽名模塊(諸如簽名模塊430)提供音頻-視頻簽名的設(shè)備 (諸如設(shè)備304)提供至少部分基于已被提取的音頻-視頻描述符生成的與視頻內(nèi)容的各時 間切片中的一個或多個時間切片相關(guān)聯(lián)的音頻-視頻簽名作為查詢。在各實(shí)施例中,提供音 頻-視頻簽名包括向數(shù)據(jù)集發(fā)送音頻-視頻簽名作為查詢。在各實(shí)施例中,該數(shù)據(jù)集包括分 層式音頻-視頻索引數(shù)據(jù)集。
[0140]在框914,被配置成經(jīng)由結(jié)果模塊(諸如結(jié)果模塊432)接收作為對該查詢的響應(yīng)的 候選結(jié)果的設(shè)備(諸如設(shè)備304)接收作為對該查詢的響應(yīng)的候選結(jié)果。在各實(shí)施例中,接收 作為對該查詢的響應(yīng)的候選結(jié)果包括在到達(dá)正被接收的視頻內(nèi)容的時間切片的結(jié)束之前 將該候選結(jié)果作為候選結(jié)果的漸進(jìn)式列表來接收。
[0141] 在框916,被配置成經(jīng)由用戶界面模塊(諸如用戶界面模塊434)呈現(xiàn)作為對該查詢 的響應(yīng)的候選結(jié)果的設(shè)備(諸如設(shè)備304)引起候選結(jié)果被呈現(xiàn)。在各實(shí)施例中,呈現(xiàn)候選結(jié) 果包括在到達(dá)正被接收的視頻內(nèi)容的時間切片的結(jié)束之前在該設(shè)備的用戶界面中呈現(xiàn)候 選結(jié)果。在一些實(shí)施例中,呈現(xiàn)候選結(jié)果包括在到達(dá)正被接收的視頻內(nèi)容的時間切片的結(jié) 束之前在該設(shè)備的用戶界面中呈現(xiàn)經(jīng)更新的候選結(jié)果。這種經(jīng)更新的候選結(jié)果可表示針對 漸進(jìn)式候選結(jié)果列表的漸進(jìn)式候選結(jié)果。
[0142] 圖10解說了用于使用分層式音頻-視頻索引(諸如LAVE索引516)在服務(wù)器(諸如服 務(wù)器306)上實(shí)現(xiàn)視頻搜索的示例過程1000。
[0143] 盡管過程1000被描述為在服務(wù)器上實(shí)現(xiàn),然而在一些實(shí)施例中,包括一個或多個 服務(wù)器的系統(tǒng)(其可包括如上所述的基于網(wǎng)絡(luò)或云構(gòu)造中的多個設(shè)備以及在一些實(shí)施例中 可包括至少一個客戶端設(shè)備)可執(zhí)行過程1000。
[0144] 在框1002,被配置成經(jīng)由分層式音頻-視頻引擎(諸如分層式音頻-視頻引擎328) 接收查詢音頻-視頻簽名作為輸入的設(shè)備(諸如服務(wù)器306)接收查詢音頻-視頻簽名作為輸 入。在各實(shí)施例中,查詢音頻-視頻簽名被接收作為用于分層式音頻-視頻搜索的輸入。在一 些實(shí)施例中,查詢音頻-視頻簽名被接收作為用于來自移動設(shè)備(諸如設(shè)備304)的分層式音 頻-視頻搜索的輸入。
[0145] 在框1004,被配置成搜索分層式音頻-視頻索引來標(biāo)識與查詢音頻-視頻簽名具有 相似度的條目的設(shè)備(諸如服務(wù)器306)(諸如LAVE搜索模塊528)執(zhí)行對與分層式音頻-視頻 引擎相關(guān)聯(lián)的分層式音頻-視頻索引的搜索以標(biāo)識該分層式音頻-視頻索引中與查詢音頻_ 視頻簽名具有相似度的條目。在各實(shí)施例中,搜索標(biāo)識與查詢音頻-視頻簽名具有高于一閾 值的相似度的條目。在各非唯一實(shí)例中,該閾值可包括預(yù)定相似度閾值、可變相似度閾值、 相對相似度閾值、和/或?qū)崟r確定的相似度閾值。
[0146] 在框1006,被配置成對與查詢音頻-視頻簽名具有相似度的條目執(zhí)行幾何驗(yàn)證的 設(shè)備(諸如服務(wù)器306)(諸如幾何驗(yàn)證模塊530)對來自該分層式音頻-視頻索引的與查詢音 頻-視頻簽名具有相似度的條目執(zhí)行幾何驗(yàn)證。在各實(shí)施例中,執(zhí)行幾何驗(yàn)證包括執(zhí)行對來 自查詢音頻-視頻簽名的各個關(guān)鍵幀以及來自分層式音頻-視頻索引的具有相似度的條目 的幾何驗(yàn)證。
[0147] 在框1008,被配置成發(fā)送候選結(jié)果的設(shè)備(諸如服務(wù)器306)(諸如決策模塊534)發(fā) 送與查詢音頻_視頻簽名相似的候選結(jié)果。在各實(shí)施例中,發(fā)送經(jīng)由幾何驗(yàn)證標(biāo)識的候選結(jié) 果包括向從其接收查詢音頻-視頻簽名的移動設(shè)備(諸如移動設(shè)備304)發(fā)送經(jīng)由幾何驗(yàn)證 標(biāo)識的候選結(jié)果。
[0148] 圖11解說了用于使用分層式音頻-視頻索引(諸如LAVE索引516)在服務(wù)器(諸如服 務(wù)器306)上實(shí)現(xiàn)視頻搜索的另一示例過程1100。
[0149] 盡管過程1100被描述為在服務(wù)器上實(shí)現(xiàn),然而在一些實(shí)施例中,包括一個或多個 服務(wù)器的系統(tǒng)(其可包括如上所述的基于網(wǎng)絡(luò)或云構(gòu)造中的多個設(shè)備以及在一些實(shí)施例中 可包括至少一個客戶端設(shè)備)可執(zhí)行過程1100。
[0150] 在框1102、1104和1106,被如關(guān)于過程1000所述地配置(諸如具有分層式音頻-視 頻引擎328)的設(shè)備(諸如服務(wù)器306)分別執(zhí)行與框1002、1004和1006相對應(yīng)的操作。
[0151] 在框1108,被配置成執(zhí)行漸進(jìn)式處理的設(shè)備(諸如服務(wù)器306)(諸如漸進(jìn)式查詢模 塊532)處理經(jīng)由幾何驗(yàn)證標(biāo)識的候選結(jié)果。在各實(shí)施例中,處理經(jīng)由幾何驗(yàn)證標(biāo)識的候選 結(jié)果包括漸進(jìn)式處理具有相應(yīng)的音頻-視頻簽名的條目。在一些實(shí)施例中,漸進(jìn)式處理具有 相應(yīng)的音頻-視頻簽名的條目包括采用基于兩部分圖形的變換和匹配。
[0152] 在框1110,被配置成發(fā)送候選結(jié)果的設(shè)備(諸如服務(wù)器306)(諸如決策模塊534)根 據(jù)該漸進(jìn)式處理來發(fā)送候選結(jié)果。在各實(shí)施例中,根據(jù)該漸進(jìn)式處理來發(fā)送候選結(jié)果包括 根據(jù)該漸進(jìn)式處理向從其接收查詢音頻-視頻簽名的移動設(shè)備(諸如移動設(shè)備304)發(fā)送候 選結(jié)果。在一些實(shí)施例中,根據(jù)漸進(jìn)式處理來發(fā)送候選結(jié)果包括在用于指示候選結(jié)果已被 更新且搜索將繼續(xù)(諸如112)的配置中發(fā)送候選結(jié)果。在一些實(shí)施例中,根據(jù)漸進(jìn)式處理來 發(fā)送候選結(jié)果還包括在用于指示候選結(jié)果尚未被更新且搜索將被停止(諸如200)的配置中 發(fā)送穩(wěn)定的候選結(jié)果。
[0153] 在框1112,被配置成發(fā)送候選結(jié)果的設(shè)備(諸如服務(wù)器306)(諸如決策模塊534)確 定來自漸進(jìn)式處理的候選結(jié)果是否穩(wěn)定。在各實(shí)施例中,確定來自漸進(jìn)式處理的候選結(jié)果 是否穩(wěn)定包括至少部分基于候選結(jié)果是否被維持來確定是否更新候選結(jié)果。在一些實(shí)施例 中,確定來自漸進(jìn)式處理的候選結(jié)果是否穩(wěn)定包括確定候選結(jié)果是否穩(wěn)定達(dá)一時間段。在 一些實(shí)施例中,該時間段按秒來測量。在一些實(shí)施例中,該時間段為2秒。在一些實(shí)施例中, 該時間段為3秒。在一些實(shí)施例中,該時間段是可變的和/或是相對于在不停止搜索的情況 下漸進(jìn)式查詢過程已被執(zhí)行的次數(shù)。
[0154] 在一些實(shí)施例中,響應(yīng)于在框1112確定候選結(jié)果是穩(wěn)定的,在框1114,被配置成結(jié) 束查詢的設(shè)備(諸如服務(wù)器306)(諸如決策模塊534)停止與音頻-視頻內(nèi)容相對應(yīng)的搜索。 在各實(shí)施例中,當(dāng)在框1112確定候選結(jié)果是穩(wěn)定的達(dá)一時間段時,包括停止與音頻-視頻內(nèi) 容相對應(yīng)的接收、搜索、執(zhí)行和處理。在一些實(shí)施例中,在框1114停止搜索可包括在用于指 示候選結(jié)果尚未被更新且搜索被停止(諸如在用戶界面200中)的配置中發(fā)送根據(jù)漸進(jìn)式處 理的候選結(jié)果。
[0155] 在一些實(shí)施例中,響應(yīng)于在框1112確定候選結(jié)果不是穩(wěn)定的,被配置成結(jié)束查詢 的設(shè)備(諸如服務(wù)器306)(諸如決策模塊534)繼續(xù)搜索。在各實(shí)施例中,當(dāng)在框1112確定候 選結(jié)果不是穩(wěn)定的達(dá)一時間段時,包括通過使流程返回框1102來繼續(xù)搜索,其可包括重復(fù) 與音頻-視頻內(nèi)容相對應(yīng)的接收、搜索、執(zhí)行和處理。在一些實(shí)施例中,通過使流程返回框 1102來繼續(xù)搜索可包括在用于指示候選結(jié)果是否已被更新(諸如在用戶界面200中)的配置 中發(fā)送根據(jù)漸進(jìn)式處理的候選結(jié)果。
[0156] 各實(shí)施例的附加示例
[0157] 實(shí)施例A包括一種方法,該方法包括:訪問視頻數(shù)據(jù)集;對來自該視頻數(shù)據(jù)集的各 個視頻執(zhí)行對音頻-視頻描述符提取;生成與各個視頻的時間切片相關(guān)聯(lián)的一系列音頻-視頻簽名;以及構(gòu)建分層式音頻-視頻索引,該索引中的條目包括該一系列音頻-視頻簽名。
[0158] 實(shí)施例B包括一種方法,該方法包括:提取與視頻數(shù)據(jù)集中的個體視頻相對應(yīng)的音 頻-視頻描述符;獲得音頻索引,該音頻索引包括來自該音頻-視頻描述符的音頻指紋;獲得 視覺索引,該視覺索引包括來自該音頻-視頻描述符的視覺散列位;通過將該音頻索引和該 視覺索引的至少一部分相關(guān)聯(lián)來創(chuàng)建包括多索引的第一層;創(chuàng)建包括該視覺索引的第二 層;以及維持該第一層的該多索引和該第二層的該視覺索引之間的時間關(guān)系。
[0159] 實(shí)施例C包括如關(guān)于實(shí)施例A和/或B所述的一種方法,其中用于創(chuàng)建第一層的視覺 索引的該至少一部分包括對來自第二層的散列位的隨機(jī)選擇。
[0160] 實(shí)施例D包括如關(guān)于實(shí)施例A、B和/或C所述的一種方法,其進(jìn)一步包括經(jīng)由音頻索 引來細(xì)化在第二層中要搜索的視覺點(diǎn)的數(shù)量。
[0161 ]實(shí)施例E包括一種方法,該方法包括:在分層式音頻-視頻引擎處接收與視頻內(nèi)容 相關(guān)的查詢音頻-視頻簽名;搜索與該分層式音頻-視頻引擎相關(guān)聯(lián)的分層式音頻-視頻索 引來標(biāo)識該分層式音頻-視頻索引中與該查詢音頻-視頻簽名具有高于一閾值的相似度的 條目;執(zhí)行對來自該查詢音頻-視頻簽名的各個關(guān)鍵幀和來自該分層式音頻_視頻索引的具 有該相似度的條目的幾何驗(yàn)證;以及發(fā)送經(jīng)由幾何驗(yàn)證標(biāo)識的候選結(jié)果。
[0162]實(shí)施例F包括一種方法,該方法包括:在分層式音頻-視頻引擎處接收與視頻內(nèi)容 相關(guān)的查詢音頻-視頻簽名;搜索與該分層式音頻-視頻引擎相關(guān)聯(lián)的分層式音頻-視頻索 引來標(biāo)識該分層式音頻-視頻索引中與該查詢音頻-視頻簽名具有高于一閾值的相似度的 條目;執(zhí)行對來自該查詢音頻-視頻簽名的各個關(guān)鍵幀和來自該分層式音頻_視頻索引的具 有該相似度的條目的幾何驗(yàn)證;漸進(jìn)式處理具有相應(yīng)音頻-視頻簽名的條目;確定候選結(jié)果 是否穩(wěn)定;以及至少部分基于候選結(jié)果是否被維持來確定是否更新候選結(jié)果;發(fā)送根據(jù)候 選結(jié)構(gòu)是否被維持標(biāo)識的候選結(jié)果;在候選結(jié)果不被維持達(dá)預(yù)定時間段的情況下,重復(fù)與 該音頻-視頻內(nèi)容相對應(yīng)的接收、搜索、執(zhí)行和處理;以及在候選結(jié)果被維持達(dá)預(yù)定時間段 的情況下,停止與該音頻-視頻內(nèi)容相對應(yīng)的接收、搜索、執(zhí)行和處理。
[0163] 結(jié)語
[0164] 隨著通過移動設(shè)備可用的功能性和數(shù)據(jù)訪問的不斷增加,這樣的設(shè)備可以被用作 在行進(jìn)的同時為用戶提供了對日益增加的數(shù)據(jù)量的訪問的個人因特網(wǎng)沖浪門衛(wèi)。通過利用 使得由如本文所述的移動設(shè)備可用的計(jì)算資源,移動視頻搜索工具可有效地執(zhí)行視頻搜索 而無需發(fā)送視頻的片段本身作為查詢。
[0165] 盡管已經(jīng)用結(jié)構(gòu)特征和/或方法運(yùn)算專用的語言描述了移動視頻搜索系統(tǒng),但要 理解,所附權(quán)利要求書中定義的特征和操作不必限于所描述的具體特征或操作。相反,這些 具體特征和操作是作為實(shí)現(xiàn)權(quán)利要求的示例形式來公開的。
【主權(quán)項(xiàng)】
1. 一種方法,包括: 經(jīng)由計(jì)算設(shè)備的輸入組件接收視頻內(nèi)容的多個時間切片; 在視頻內(nèi)容的所述時間切片上執(zhí)行對音頻-視頻描述符的提取,以獲得該時間切片的 聲音和視覺性質(zhì); 至少部分基于已被提取的所述音頻-視頻描述符來生成與視頻內(nèi)容的所述時間切片中 的一個或多個時間切片相關(guān)聯(lián)的音頻-視頻簽名; 將與視頻內(nèi)容的所述一個或多個時間切片相關(guān)聯(lián)的所述音頻-視頻簽名作為查詢發(fā)送 到數(shù)據(jù)集; 在到達(dá)視頻內(nèi)容的所述時間切片的結(jié)束之前接收所述查詢的候選結(jié)果;以及 在到達(dá)視頻內(nèi)容的所述時間切片的結(jié)束之前呈現(xiàn)所述候選結(jié)果中的至少一些候選結(jié) 果。2. 如權(quán)利要求1所述的方法,其特征在于,視頻內(nèi)容的所述時間切片由與所述計(jì)算設(shè)備 相關(guān)聯(lián)的相機(jī)輸入設(shè)備或話筒輸入設(shè)備中的至少一個來直接或間接地接收。3. 如權(quán)利要求1或權(quán)利要求2所述的方法,其特征在于,視頻內(nèi)容的所述時間切片被從 不與所述計(jì)算設(shè)備相關(guān)聯(lián)的視頻輸出設(shè)備接收。4. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,還包括: 在所述查詢的結(jié)束處接收最終結(jié)果以及與所述最終結(jié)果有關(guān)的信息;以及 呈現(xiàn)所述最終結(jié)果和與所述最終結(jié)果有關(guān)的信息來指示所述查詢的結(jié)束。5. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,所述數(shù)據(jù)集包括分層式音頻-視 頻索引數(shù)據(jù)集。6. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,所述音頻-視頻簽名包括與視頻 內(nèi)容的該時間切片相關(guān)聯(lián)的音頻指紋和/或視頻散列位。7. -種被配置成執(zhí)行如權(quán)利要求1-6中任一項(xiàng)所述的操作的系統(tǒng)。8. -種在其上編碼了計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令被 配置成在被執(zhí)行時將一種設(shè)備編程為執(zhí)行如權(quán)利要求1-6中任一項(xiàng)所述的操作。9. 一種方法,包括: 在分層式音頻-視頻引擎處接收與視頻內(nèi)容有關(guān)的查詢音頻-視頻簽名; 搜索與所述分層式音頻-視頻引擎相關(guān)聯(lián)的分層式音頻-視頻索引以標(biāo)識所述分層式 音頻-視頻索引中與所述查詢音頻-視頻簽名具有高于一閾值的相似度的條目; 執(zhí)行對來自所述查詢音頻-視頻簽名的各個關(guān)鍵幀以及來自所述分層式音頻-視頻索 引的具有所述相似度的條目的幾何驗(yàn)證; 漸進(jìn)式處理具有相應(yīng)音頻-視頻簽名的條目; 確定來自所述漸進(jìn)式處理的候選結(jié)果是否穩(wěn)定; 至少部分基于所述候選結(jié)果是否穩(wěn)定來確定是否更新所述候選結(jié)果;以及 根據(jù)所述候選結(jié)果是否被確定為穩(wěn)定來發(fā)送候選結(jié)果。10. -種在其上編碼了計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令 被配置成在被執(zhí)行時將一種設(shè)備編程為執(zhí)行如權(quán)利要求9所述的操作。
【文檔編號】G06F17/30GK105917359SQ201380080403
【公開日】2016年8月31日
【申請日】2013年10月21日
【發(fā)明人】T·梅, S·李, W·劉
【申請人】微軟技術(shù)許可有限責(zé)任公司