多媒體互動系統(tǒng)及方法

文檔序號：7980546閱讀：214來源：國知局

多媒體互動系統(tǒng)及方法
【專利摘要】一種由顯示裝置與處理模塊所組成的多媒體互動系統(tǒng)。顯示裝置用以接收并顯示第一使用者與第二使用者之間所進行的視頻的畫面。處理模塊用以從視頻的畫面識別出第三使用者，以及在視頻中進行與第三使用者相關的互動操作。
【專利說明】多媒體互動系統(tǒng)及方法
【技術領域】
[0001]本發(fā)明主要關于操作界面設計，特別是有關于一種多媒體互動系統(tǒng)及方法，能夠針對視頻情境提供與第三方人士進行互動的操作。
【背景技術】
[0002]近年來，隨著網絡普及與頻寬提升，甚至是在移動智能裝置的推波助瀾之下，實時的多媒體應用越來越受到歡迎，包括:視頻通話、視頻會議、隨選視頻、高畫質電視、在線學習課程等等。對企業(yè)用戶而言，得以通過上述應用施行遠程管理以提升企業(yè)的整體運作效率并降低成本。對個人用戶而言，則可通過上述應用拉近人與人之間的距離，或增加多媒體生活的便利性。
[0003]然而，目前針對視頻情境所提供的操作界面通常只限于使用者對事先選定的對象進行視頻，而缺乏對第三方人士進行互動的彈性。以一對一視頻通話為例，使用者A在與使用者B進行視頻的過程中，如果臨時想要與使用者C進行互動，則使用者A必須先中斷與使用者B的視頻，再另外發(fā)起與使用者C的視頻，或者，使用者A必須先切換操作界面才能向使用者C發(fā)送消息。
[0004]因此，亟需有一種多媒體互動方法，能夠針對視頻情境提供與第三方人士進行互動的彈性操作。

【發(fā)明內容】

[0005]本發(fā)明的一實施例提供了一種多媒體互動系統(tǒng)，包括一顯不裝置、以及一處理模塊。上述顯示裝置用以接收并顯示一第一使用者與一第二使用者之間所進行的一視頻的畫面。上述處理模塊用以從上述視頻的畫面識別出一第三使用者，以及在上述視頻中進行與上述第三使用者相關的互動操作。
[0006]本發(fā)明的另一實施例提供了一種多媒體互動方法，包括以下步驟:在一顯示裝置上顯示一第一使用者與一第二使用者之間所進行的一視頻的畫面；從上述視頻的畫面識別出一第三使用者；以及在上述視頻中進行與上述第三使用者相關的互動操作。
[0007]關于本發(fā)明其它附加的特征與優(yōu)點，本領域技術人員，在不脫離本發(fā)明的精神和范圍內，當可根據本發(fā)明實施方法中所揭露的多媒體互動系統(tǒng)及方法做些許的更動與潤飾而得到。
【專利附圖】

【附圖說明】
[0008]圖1是根據本發(fā)明一實施例所述的多媒體互動系統(tǒng)的示意圖。
[0009]圖2是根據本發(fā)明一實施例所述的多媒體使用者裝置的架構示意圖。
[0010]圖3是根據本發(fā)明一實施例所述的多媒體服務器的架構示意圖。
[0011]圖4是根據本發(fā)明一實施例所述在多媒體使用者裝置端所呈現(xiàn)的多媒體互動界面的示意圖。[0012]圖5是根據本發(fā)明另一實施例所述在多媒體使用者裝置端所呈現(xiàn)的多媒體互動界面的示意圖。
[0013]圖6是根據本發(fā)明又一實施例所述在多媒體使用者裝置端所呈現(xiàn)的多媒體互動界面的示意圖。
[0014]圖7是根據本發(fā)明ー實施例所述的多媒體互動方法的簡要流程圖。
[0015]圖8A?SC是根據本發(fā)明ー實施例所述的多媒體互動方法的細部流程圖。
[0016][主要元件標號說明]
[0017]100?多媒體互動系統(tǒng)；10、20、30?多媒體使用者裝置；
[0018]40?多媒體服務器； 210?顯示裝置；
[0019]220?輸入輸出模塊； 230、320?儲存模塊；
[0020]240、310?網絡模塊； 250、330?處理模塊；
[0021]p?視頻畫面。
【具體實施方式】
[0022]本章節(jié)所敘述的是實施本發(fā)明的最佳方式，目的在于說明本發(fā)明的精神而非用以限定本發(fā)明的保護范圍，本發(fā)明的保護范圍當視所附的申請專利范圍所界定者為準。
[0023]圖1是根據本發(fā)明ー實施例所述的多媒體互動系統(tǒng)的示意圖。在多媒體互動系統(tǒng)100中，多媒體使用者裝置10、20、30是通過多媒體服務器40進行互動，包括:進行視頻、傳送語音或文字消息、傳送電子郵件、以及分享文件等等。多媒體使用者裝置10、20、30可為智能型手機、平板計算機、筆記本型計算機、桌上型計算機、或其它具備連網功能的多媒體裝置，且多媒體使用者裝置10、20、30可通過有線或無線的方式連接至因特網。多媒體服務器40可為架設于網絡上的計算機主機，用以提供視頻串流服務。
[0024]圖2是根據本發(fā)明ー實施例所述的多媒體使用者裝置的架構示意圖。顯示裝置210可包括屏幕、面板、或觸控面板等具備顯示功能的裝置。輸入輸出模塊220可包括視頻鏡頭、麥克風、以及喇叭，或者還可再包括鍵盤、鼠標、觸控板等內建或外接元件。儲存模塊230可為易失性存儲器，例如:隨機存取存儲器(Random Access Memory，RAM)，或非易失性存儲器，例如:閃存(Flash Memory)，或硬盤、光盤，或上述媒體的任意組合。網絡模塊240用以提供有線或無線網絡連線，例如:以太網(Ethernet)、無線區(qū)網(WiFi)、或其它網絡技術。處理模塊250可為通用處理器或微控制單元(Micro-Control Unit,MCU),用以執(zhí)行計算機可執(zhí)行的指令，以控制顯示裝置210、輸入輸出模塊220、儲存模塊230、以及網絡模塊240的運作，并執(zhí)行本發(fā)明的多媒體互動方法。
[0025]圖3是根據本發(fā)明ー實施例所述的多媒體服務器的架構示意圖。網絡模塊310用以提供有線或無線網絡連線，儲存模塊320用以儲存計算機可執(zhí)行的程序碼，并包括儲存多媒體使用者裝置10、20、30的相關信息，處理模塊330用以加載并執(zhí)行儲存模塊320中的程序碼，以執(zhí)行本發(fā)明的多媒體互動方法。
[0026]值得注意的是，在另ー實施例中，多媒體使用者裝置可與多媒體服務器集成在一起，也就是說，每個多媒體使用者裝置皆具備有提供視頻串流服務的能力，所以多媒體使用者裝置之間所進行的視頻就不需再經由另一獨立的多媒體服務器來協(xié)調/處理，因此，本發(fā)明不限于圖1所示的架構。[0027]圖4是根據本發(fā)明ー實施例所述在多媒體使用者裝置端所呈現(xiàn)的多媒體互動接ロ的示意圖。在此實施例，多媒體使用者裝置10、20、30是分別由使用者A、B、C所擁有，且以使用者A的使用經驗為所示范例，意即以多媒體使用者裝置10的操作為主，其余為輔。首先，在步驟S4-1，多媒體使用者裝置10通過多媒體服務器40與多媒體使用者裝置20進行視頻，所以在多媒體使用者裝置10的顯示裝置上所顯示的是在使用者B端的視頻畫面p。特別是，除了使用者B之外，視頻畫面p中亦可見到使用者C的存在(例如:在視頻進行之時，使用者B正好與使用者C在一起)。當使用者A從視頻畫面p中看到使用者C時，便可進ー步以多模(multimodal)的方式(例如:語音(speech)、觸控事件(touch event)、手勢(gesture)、以及鼠標事件(mouse event)的任意組合)產生輸入指令以與使用者C進行互動，而不需再經由任何圖形使用者界面或與使用者C重新建立一視頻連結而進行互動。明確來說，在步驟S4-2，使用者A可在多媒體使用者裝置10的顯示裝置上觸碰使用者C的對應位置，同時以語音方式敘述欲進行的互動操作:「加入好友清単」。根據該觸碰事件，多媒體服務器40先從視頻畫面p識別出使用者C,然后使用自然語言處理(Natural LanguageProcessing,NLP)技術將上述語音輸入轉換為交友請求并傳送該請求給多媒體使用者裝置
30。所以在步驟S4-3，多媒體使用者裝置30的顯示裝置上所顯示的是使用者A所發(fā)出的交友請求。
[0028]于ー具體實施例中，當使用者A觸碰使用者C的對應位置，多媒體服務器40即會判斷使用者C是否已在使用者A的好友清單中，若否，則使用者A無需以語音方式敘述欲進行的互動操作:「加入好友清単」，多媒體服務器40即直接將交友請求傳送該請求給多媒體使用者裝置30。
[0029]于ー具體實施例中，使用者A與使用者C進行互動時，原來使用者A與使用者B之間的視頻可先暫停(paused)，之后，使用者A可再輸入另一指令以結束與使用者C的互動并繼續(xù)(resume)與使用者B的視頻，例如，語音:「返回與使用者B的視頻」、在視頻畫面p上非對應于使用者C的位置發(fā)起ー觸控事件、或在視頻畫面p上使用者B的對應位置發(fā)起ー觸控事件?；蛘?，可于使用者A與使用者C之間的互動結束吋，自動繼續(xù)使用者A與使用者B之間的視頻。
[0030]圖5是根據本發(fā)明另一實施例所述在多媒體使用者裝置端所呈現(xiàn)的多媒體互動界面的示意圖。類似于圖4的實施例，在步驟S5-2，使用者A可在多媒體使用者裝置10的顯示裝置上觸碰使用者C的對應位置，同時以語音方式敘述欲進行的互動操作:「進行視頻」，而原來使用者A與使用者B之間的視頻可先暫停。根據該觸碰事件，多媒體服務器40先從視頻畫面P識別出使用者C，然后使用自然語言處理技術將上述語音輸入轉換為視頻請求并建立多媒體使用者裝置10與30之間的視頻串流。所以在步驟S5-3，多媒體使用者裝置30的顯示裝置上所顯示的是使用者A端的視頻畫面。在另ー實施例，使用者A與使用者C之間的互動可以預約的方式進行，例如，在步驟S5-2中，使用者A可改以語音敘述:「十分鐘后與他進行視頻」，多媒體服務器40則等待十分鐘后才建立多媒體使用者裝置10與30之間的視頻串流。
[0031]于ー具體實施例中，當使用者A觸碰使用者C的對應位置，多媒體服務器40即會判斷使用者C是否已在使用者A的好友清單中，若是，則使用者A無需以語音方式敘述欲進行的互動操作:「進行視頻」，多媒體服務器40即直接將視頻請求傳送該請求給多媒體使用者裝置30。
[0032]圖6是根據本發(fā)明又一實施例所述在多媒體使用者裝置端所呈現(xiàn)的多媒體互動界面的示意圖。類似于圖4的實施例，在步驟S6-2，使用者A可在多媒體使用者裝置10的顯示裝置上將一欲分享文件的圖像(icon)拖曳到使用者C的對應位置，同時以語音方式敘述欲進行的互動操作:「文件分享」。根據該觸碰事件，多媒體服務器40先從視頻畫面P識別出使用者C，然后使用自然語言處理技術將上述語音輸入轉換為文件分享請求并傳送該請求給多媒體使用者裝置30。所以在步驟S6-3，多媒體使用者裝置30的顯示裝置上所顯示的是使用者A所發(fā)出的文件分享請求。
[0033]于一具體實施例中，當使用者A將一欲分享文件的圖像(icon)拖曳到使用者C的對應位置時，多媒體服務器40即自動將此行為轉換成文件分享請求，而無需使用者A以語音方式敘述欲進行的互動操作:「文件分享」。
[0034]于一具體實施例中，多媒體服務器40可執(zhí)行一社群網絡程序，該社群網絡可接受使用者的注冊并提供使用者的相關信息，例如姓名、移動電話、電子郵件賬號、照片、好友清單、喜好運動、藝人、影音等。因此，多媒體服務器40可根據使用者的社群網絡賬號而得知使用者的相關信息，并可根據使用者所建立的好友清單，進一步連結至好友的社群網絡賬號，并根據使用者及其好友所公開的照片或圖像，而建立使用者及其好友的圖像數(shù)據庫或圖像特征等等。進一步地，使用者可提供其它社群網絡的賬號，例如臉書或google+等，如此一來，多媒體服務器40便可從其它的社群網絡更精確地搜集使用者的相關信息。于一具體實施例中，多媒體服務器40根據每一使用者分別建立圖像數(shù)據庫或圖像特征。
[0035]在圖4?6的實施例中，多媒體服務器40可在視頻進行之前根據使用者A的社群網絡賬號預先搜集相關圖像數(shù)據，并分析圖像數(shù)據的特征以建立一圖像數(shù)據庫。之后，在從視頻畫面P識別出使用者C的步驟中，多媒體服務器40可使用臉部識別(face detection)技術在視頻畫面P找出使用者C的外貌特征，然后根據使用者C的外貌特征去比對圖像數(shù)據庫，進而判斷使用者C是誰，是否屬于使用者A的好友等等。
[0036]在圖4?6的實施例中，多媒體服務器40可在視頻進行之前根據使用者A的社群網絡賬號預先搜集其好友信息，包括:姓名、移動電話、以及電子郵件賬號等等。接著，使用者B可在視頻的過程中在視頻畫面P上為使用者C標記使用者標簽(user tag)。之后，在從視頻畫面P識別出使用者C的步驟中，多媒體服務器40可再根據使用者B所設定的使用者標簽識別出使用者B及其相關信息。
[0037]需注意的是，除了圖4?6所示的實施例之外，使用者A與使用者C進行的互動還可包括傳送語音或文字消息、傳送電子郵件、以及傳送會議邀請等等，且本發(fā)明不再此限。
[0038]關于上述多模的輸入指令，在其它實施例，使用者A可運用預先定義好的手勢來產生輸入指令，例如:在使用者C的對應位置上畫圈則表示要將使用者C放入電話黑名單(block list)或社群網站黑名單。
[0039]圖7是根據本發(fā)明一實施例所述的多媒體互動方法的簡要流程圖。在此實施例中，多媒體互動方法可適用于圖1所示的多媒體使用者裝置10?30以及多媒體服務器40的協(xié)同運作，或者，亦可適用于多媒體使用者裝置與多媒體服務器的一集成裝置所單獨運作。首先，在一顯示裝置上顯示一第一使用者與一第二使用者之間所進行的一視頻的畫面(步驟S710)，然后從上述視頻的畫面識別出一第三使用者(步驟S720)。之后，在上述視頻中進行與上述第三使用者相關的互動操作(步驟S730)?；硬僮骺砂?將上述第三使用者加入一朋友清單、與上述第三使用者進行視頻或話訊、傳送語音或文字消息給上述第三使用者、傳送電子郵件給上述第三使用者、傳送會議邀請給上述第三使用者、以及分享文件給上述第三使用者。特別是，步驟S730中與上述第三使用者相關的互動操作是根據ー輸入指令所進行，而上述輸入指令可以多模的方式，例如:語音、觸控事件、手勢、以及鼠標事件的任意組合所產生的，且無需切斷第一使用者與第二使用者之間所進行的視頻畫面。
[0040]圖8A?SC是根據本發(fā)明ー實施例所述的多媒體互動方法的細部流程圖。在此實施例中，多媒體互動方法可適用于圖1所示的多媒體使用者裝置10?30以及多媒體服務器40的協(xié)同運作。首先，在使用者A與使用者B進行視頻之前，多媒體服務器40根據使用者A的社群網絡賬號預先搜集相關圖像數(shù)據(步驟S800-1?S800-2)，并分析圖像數(shù)據的特征以建立ー圖像數(shù)據庫(步驟S800-3);并預先搜集使用者A的相關信息，如好友清單等。當使用者B發(fā)起與使用者A的視頻吋，多媒體使用者裝置20通過視頻鏡頭擷取使用者B的圖像(步驟S801)，將擷取的圖像進行編碼(步驟S802)，然后套用實時串流協(xié)議(RealTime Streaming Protocol,RTSP)或實時傳送協(xié)議(Real-time Transport Protocol,RTP)將編碼圖像傳送給多媒體服務器40 (步驟S803)，由多媒體服務器40建立與使用者A之間的視頻串流(步驟S804)。多媒體使用者裝置10針對接收到的串流數(shù)據進行解碼(步驟S805)，接著交由顯示裝置呈現(xiàn)使用者B端的圖像(步驟S806)。雖未繪示，但使用者A端的圖像亦可經由相同步驟(步驟S801?S806)通過多媒體服務器40串流至多媒體使用者裝置20，以供使用者B觀看。
[0041]若使用者A看到視頻畫面中除了使用者B之外還有使用者C(若使用者B看到視頻畫面中除了使用者A之外還有使用者D)，決定與使用者C進行互動(步驟S807)，于是使用者A在多媒體使用者裝置10的顯示裝置上觸碰使用者C的對應位置(步驟S808)。根據該觸控事件，多媒體服務器40開始對視頻畫面進行處理(步驟S809)，擷取對應至該觸控事件的圖像信息，也就是使用者C的圖像信息(步驟S810)，然后再分析取得使用者C的外貌特征(步驟S811)，接著根據使用者C的外貌特征去比對前置步驟所建立的圖像數(shù)據庫(步驟S812)，如此ー來，便可決定使用者A欲另外發(fā)起互動的對象為使用者C以及使用者C的相關信息。
[0042]使用者A在發(fā)起觸控事件之后，可將原來與使用者B所進行的視頻暫?；蜢o音(步驟S813)，然后以多模的方式產生輸入指令(步驟S814)。需注意的是，在其它實施例，原來使用者A與使用者B之間的視頻可繼續(xù)進行而不需暫?；蜢o音。之后，由多媒體服務器40使用自然語言處理技術處理該輸入指令(步驟S815)，再對處理結果進行語意分析(步驟S816)，以將輸入指令轉換計算機可執(zhí)行的具體命令(步驟S817)。根據轉換后的命令以及決定的互動對象，多媒體服務器40再將互動請求傳送給多媒體使用者裝置30 (步驟S818)。
[0043]在使用者C端，多媒體使用者裝置30先判斷互動請求的類別(步驟S819)，再據以進行相關處理。明確來說，如果互動請求是要進行話訊，則建立與使用者A的語音通話(步驟S820);如果互動請求是要進行視頻，則建立與使用者A的視頻通話(步驟S821);如果互動請求是要傳遞多媒體短消息，則接收使用者A所發(fā)送的多媒體短消息(步驟S822)。多媒體短消息例如文字通訊，交友請求或文件傳送等。[0044]于一具體實施例中，步驟S814(以多模的方式產生輸入指令)可適應性地根據使用者A的相關信息而省略或設定預定的指令。例如，若多媒體服務器40發(fā)現(xiàn)使用者C并非使用者A的好友，則預定的指令為請求加入好友，則無需步驟S814的行為；若多媒體發(fā)現(xiàn)使用者C是使用者A的好友，則預定的指令為語音通話，則無需步驟S814的行為，若使用者A是使用視頻通話或多媒體短消息等，此時才需步驟S814的行為以告知多媒體服務器40。
[0045]本發(fā)明雖以各種實施例揭露如上，然而其僅為范例參考而非用以限定本發(fā)明的范圍，任何本領域技術人員，在不脫離本發(fā)明的精神和范圍內，當可做些許的更動與潤飾。因此上述實施例并非用以限定本發(fā)明的范圍，本發(fā)明的保護范圍當視所附的權利要求范圍所界定者為準。
【權利要求】
1.ー種多媒體互動系統(tǒng),包括: ー顯示裝置，用以接收并顯示一第一使用者與一第二使用者之間所進行的一視頻的畫面；以及ー處理模塊，用以從上述視頻的畫面識別出一第三使用者，以及在上述視頻中進行與上述第三使用者相關的互動操作。
2.根據權利要求1所述的多媒體互動系統(tǒng)，其中上述處理模塊還用以分析每ー使用者的一社群網絡賬號的相關圖像數(shù)據以建立一圖像數(shù)據庫。
3.根據權利要求2所述的多媒體互動系統(tǒng)，其中上述識別步驟包括:在上述視頻的畫面找出上述第三使用者的外貌特征，以及比對上述圖像數(shù)據庫。
4.根據權利要求1所述的多媒體互動系統(tǒng)，其中上述互動操作包括以下的任意組合: 將上述第三使用者加入一朋友清單；與上述第三使用者進行視頻或話訊；傳送語音或文字消息給上述第三使用者；傳送電子郵件給上述第三使用者；傳送會議邀請給上述第三使用者；以及分享文件給上述第三使用者。
5.根據權利要求1所述的多媒體互動系統(tǒng)，其中上述處理模塊根據ー輸入指令進行與上述第三使用者相關的互動操作，上述輸入指令是通過以下方式的任意組合所產生: 語音；觸控事件；手勢；以及鼠標事件。
6.—種多媒體互動方法,包括: 在ー顯示裝置上顯示ー第一使用者與一第二使用者之間所進行的一視頻的畫面；從上述視頻的畫面識別出一第三使用者；以及在上述視頻中進行與上述第三使用者相關的互動操作。
7.根據權利要求6所述的多媒體互動方法，還包括:分析每ー使用者的一社群網絡賬號的相關圖像數(shù)據以建立ー圖像數(shù)據庫。
8.根據權利要求7所述的多媒體互動方法，其中上述識別步驟包括:在上述視頻的畫面找出上述第三使用者的外貌特征，以及比對上述圖像數(shù)據庫。
9.根據權利要求6所述的多媒體互動方法，其中上述互動操作包括以下的任意組合: 將上述第三使用者加入一朋友清單；與上述第三使用者進行視頻或話訊；傳送語音或文字消息給上述第三使用者；傳送電子郵件給上述第三使用者；傳送會議邀請給上述第三使用者；以及分享文件給上述第三使用者。
10.根據權利要求6所述的多媒體互動方法，其中與上述第三使用者相關的互動操作步驟是根據ー輸入指令所進行，且上述輸入指令是通過以下方式的任意組合所產生:語音；觸控事件；手勢；以及鼠標事件。
【文檔編號】H04L29/06GK103491067SQ201210225223
【公開日】2014年1月1日申請日期:2012年6月29日優(yōu)先權日:2012年6月11日
【發(fā)明者】林貫文申請人:廣達電腦股份有限公司

完整全部詳細技術資料下載