專利名稱:視頻通信的實現(xiàn)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種視頻通信的實現(xiàn)方法及裝置。
背景技術(shù):
視訊會議業(yè)務(wù)可以理解為通常的會議電視業(yè)務(wù),其通過多媒體通信手段,利用電視設(shè)備和通信網(wǎng)絡(luò)召開會議,可以同時實現(xiàn)兩地或多地之間的圖像、語音、數(shù)據(jù)的交互功能?,F(xiàn)有技術(shù)提供的視頻通信的實現(xiàn)方法為接收視頻方的圖像和聲音數(shù)據(jù),對聲音數(shù)據(jù)采用雙聲道立體聲編碼方案,采集左聲道的聲音數(shù)據(jù)配合圖像數(shù)據(jù)從左邊的音箱播放出來, 采集右聲道的聲音數(shù)據(jù),配合圖像數(shù)據(jù)從右邊音箱播放出來。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)存在如下問題現(xiàn)有技術(shù)的方案采用雙聲道立體聲編解碼對聲音數(shù)據(jù)進行處理,則左聲道拾取的聲音從左邊音箱傳出來,右聲道拾取的聲音從右邊音箱傳出來,形成雙聲道聽音區(qū)域。雙聲道的中央聲像不穩(wěn)定,有時會偏左或偏右,與圖像的差距較大。并且只能大概的辨別左,中, 右三個方位,聲音方位不夠準確精細。
發(fā)明內(nèi)容
本發(fā)明實施方式提供一種視頻通信的實現(xiàn)方法及裝置,該方法及裝置能使視頻通信中本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增強用戶的臨場感。本發(fā)明實施例提供一種視頻通信的實現(xiàn)方法,所述方法包括在本地設(shè)備與遠端設(shè)備建立連接后,獲取遠端用戶的頭部位置信息;根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。本發(fā)明實施例還提供一種實現(xiàn)視頻通信的裝置,所述裝置包括獲取單元,用于在本地設(shè)備與遠端設(shè)備建立連接后,獲取遠端用戶的頭部位置信息;放音控制單元,用于根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。本發(fā)明又提供一種實現(xiàn)視頻通信的系統(tǒng),該系統(tǒng)包括遠端設(shè)備、本地設(shè)備和媒體服務(wù)器;遠端設(shè)備,用于采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;媒體服務(wù)器,用于完成所述遠端設(shè)備與所述本地設(shè)備的視頻和音頻數(shù)據(jù)的交換;本地設(shè)備,用于在本地用戶與遠端用戶建立連接后,根據(jù)獲取的遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。本發(fā)明再提供一種視頻通信系統(tǒng),該系統(tǒng)包括遠端設(shè)備、本地設(shè)備和多點控制單元媒體服務(wù)器;遠端設(shè)備,用于采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;媒體服務(wù)器,用于完成遠端設(shè)備與本地設(shè)備的視頻和音頻數(shù)據(jù)的交換,及在本地用戶與遠端用戶建立連接后,根據(jù)獲取的遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式向本地設(shè)備發(fā)送放音命令;本地設(shè)備用于根據(jù)所述放音命令控制本地放音裝置進行放音。由上述所提供的技術(shù)方案可以看出,本發(fā)明實施例的技術(shù)方案在本地設(shè)備與遠端設(shè)備建立連接后,獲取遠端用戶的頭部信息,并根據(jù)該頭部信息建立其對應(yīng)的揚聲器播放方式,由該播放方法控制揚聲器的播放,進而能使本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增強用戶的臨場感。
圖1為本發(fā)明提供的一種視頻通信的實現(xiàn)方法的流程圖;圖2為本發(fā)明一實施例提供的一種平板揚聲器陣列圖;圖3為本發(fā)明一實施例提供的一種平板揚聲器陣列圖;圖4為本發(fā)明一實施例提供的一種視頻通信的實現(xiàn)方法的流程圖;圖5為本發(fā)明另一實施例提供的一種視頻通信的實現(xiàn)方法的流程圖;圖6為本發(fā)明又一實施例提供的一種視頻通信的實現(xiàn)方法的流程圖;圖7為本發(fā)明提供的一種視頻通信的實現(xiàn)裝置的結(jié)構(gòu)圖;圖8為本發(fā)明提供的一種視頻通信的實現(xiàn)系統(tǒng)的結(jié)構(gòu)圖;圖9為本發(fā)明實現(xiàn)實施例一所述的方法的技術(shù)場景圖;圖10為本發(fā)明提供的揚聲器上、下設(shè)置示意圖;圖11為本發(fā)明提供的揚聲器左、右設(shè)置示意圖。
具體實施例方式本發(fā)明實施方式提供了一種視頻通信的實現(xiàn)方法,該方法如圖1所示,包括如下步驟S11、在本地用戶與遠端用戶建立連接后,獲取遠端用戶的頭部位置信息;上述獲取遠端用戶的頭部位置信息的具體方法可以為,通過圖像處理的方法,譬如人臉識別技術(shù),來獲取遠端用戶的頭部位置信息,或者通過人工方法獲取遠端用戶的頭部位置信息,即通過為遠端與會者分配固定的位置,進而其頭部位置的區(qū)域信息本身就是確定的。S12、根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;S13、當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。可選的,上述確定遠端用戶發(fā)言的具體方法可以采用以下方法,例如,針對遠端用戶的圖象采用人臉識別技術(shù)來確定遠端用戶中的發(fā)言者,還可以由媒體服務(wù)器(以多點控制單元(Multipoint Control Unit,MCU)為例)通過遠端麥克傳輸來的音頻碼流來判斷遠
5端用戶的發(fā)言者。上述媒體服務(wù)器通過遠端麥克傳輸來的音頻碼流來判斷遠端用戶的發(fā)言者的具體方法可以為這里以遠端用戶為3人為例,當然實際情況下用戶的人數(shù)也可以為其他的數(shù)目,在用戶為3人時,遠端會場為3個與會者分別設(shè)置一個麥克,例如對用戶A分配麥克 1,對用戶B分配麥克2,對用戶C分配麥克3 ;若媒體服務(wù)器接收到麥克1傳送的音頻碼流時,則確認用戶A發(fā)言,同理,當媒體服務(wù)器接收到麥克2的碼流時,確認用戶B發(fā)言,媒體服務(wù)器接收到麥克3的碼流時,確認用戶C發(fā)言,通過這種麥克風與與會者的對應(yīng)關(guān)系,確定講話的發(fā)言者。上述舉例中的確認用戶發(fā)言的方式僅為實現(xiàn)本發(fā)明而進行的舉例,在實際應(yīng)用中,本發(fā)明并不限制確認用戶發(fā)言的具體方法,只要其能夠確認用戶發(fā)言即可。可選的,上述根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音實現(xiàn)的方法可以為,本地設(shè)備根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式控制該發(fā)言者對應(yīng)的放音設(shè)備進行放音;該方法還可以為,媒體服務(wù)器根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式向本地設(shè)備發(fā)送放音命令,本地設(shè)備根據(jù)該放音命令控制控制該發(fā)言者對應(yīng)的放音設(shè)備進行放音??蛇x的,當揚聲器為平板揚聲器陣列時,實現(xiàn)S12、13的方法具體可以為根據(jù)該遠端用戶的頭部位置信息確認其對應(yīng)的該平板揚聲器陣列中的揚聲器,當該遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器進行放音??蛇x的,當揚聲器為上、下設(shè)置時,實現(xiàn)S12、13的方法具體可以為將遠端用戶的圖像上下顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的垂直距離,計算出該垂直距離與所述顯示圖像總高度的比值;上揚聲器與下?lián)P聲器音量的差值=8X*(0. 5-該垂直距離與該顯示圖像總高度的比值)dB (公式1);并根據(jù)所述差值對上、下?lián)P聲器的音量調(diào)整后進行放音;下面以一個實例來說明調(diào)整放音的具體操作,這里假設(shè)上、下?lián)P聲器差值為3dB,則控制上揚聲器的音量為43dB, 下?lián)P聲器的音量為40dB,其中上揚聲器音量的值為基準音量,該基準音量用戶可以自行設(shè)定,如可以為上述的43dB,當然也可以為53dB、60dB等等。當然上述差值也可以為_3dB,當為_3dB時,其控制方法可以為,控制上揚聲器的音量為40dB,控制下?lián)P聲器的音量為43dB, 這里的上揚聲器的音量也為基準音量,具體的音量值用戶也可以自行設(shè)定。上述X為用戶設(shè)定的聲音系數(shù)。顯示圖像的中心以及總高度根據(jù)圖像顯示的方式而有不同的設(shè)計。當上述圖像顯示方式采用投影時,顯示圖像的中心以及總高度分別為投影圖像的中心和投影圖像的總高度;當上述圖像顯示方式采用顯示器顯示時,顯示圖像的中心以及總高度分別為顯示器面板的中心和顯示器面板的高度??蛇x的,當本端的揚聲器為左、右設(shè)置時,實現(xiàn)S12、13的方法具體可以為將遠端用戶的圖像左右顯示,并計算遠端用戶頭部位置信息中心到顯示圖像中心的水平距離,計算出所述水平距離與所述顯示圖像總寬度的比值;左揚聲器與右揚聲器音量的差值=8X*(0. 5-所述水平距離與所述顯示圖像總寬度的比值)dB(公式2);根據(jù)所述差值對左、右揚聲器的音量調(diào)整后進行放音;下面以一個實例來說明調(diào)整放音的具體操作,這里假設(shè)左、右揚聲器差值為4dB,則控制左揚聲器的音量為44dB,右揚聲器的音量為40dB,其中左揚聲器音量的值為基準音量,該基準音量用戶可以自行設(shè)定, 如可以為上述的44dB,當然也可以為MdB、60dB等等。當然上述差值也可以為_4dB,當為_4dB時,其控制方法可以為,控制左揚聲器的音量為40dB,控制右揚聲器的音量為44dB, 這里的左揚聲器的音量也為基準音量,具體的音量值用戶也可以自行設(shè)定。上述X為用戶設(shè)定的聲音系數(shù)。本發(fā)明提供的方法根據(jù)遠端用戶的頭部位置信息確定其對應(yīng)的揚聲器播放方式, 當遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器播放方式進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增強了用戶的臨場感。為了更加明確的說明本發(fā)明的實施,下面通過具體的實施例來進行說明實施例一本實施例提供一種視頻通信的實現(xiàn)方法,實現(xiàn)的技術(shù)場景為,本發(fā)明在本地設(shè)備、媒體服務(wù)器、遠端設(shè)備組成的系統(tǒng)之間完成(其具體實現(xiàn)的場景如圖9所示,其中視音頻采集設(shè)備A、B、C、D、E分別負責采集遠端用戶A、B、C、D和本地用戶E的視音頻數(shù)據(jù)),其中媒體服務(wù)器完成遠端設(shè)備與本地設(shè)備的視頻和音頻數(shù)據(jù)的交換,遠端設(shè)備采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;其中遠端設(shè)備可以為一個,也可以為多個;本地用戶與遠端用戶通過顯示設(shè)備進行視頻通信,本實施例中的顯示設(shè)備以投影儀為例,并在投影平面上設(shè)置平板揚聲器陣列(如圖2或圖3所示;其中圖2中1 36分別表示陣列分配的區(qū)域以及對應(yīng)的揚聲器編號;圖3中1 9分別表示陣列分配的區(qū)域以及對應(yīng)的揚聲器編號),這里假設(shè)遠端用戶有4人,分別設(shè)定為A、B、C、D,本地用戶設(shè)定為E ;則上述方法可以如圖4所示,這里僅以圖2所示的平板揚聲器陳列為例來進行說明,包括如下步驟S41、本端會場與遠端會場建立連接后,通過遠端設(shè)備啟動人臉識別技術(shù)確定A、B、 C和D的各頭部位置信息;上述確定A、B、C和D頭部位置信息的方法僅以人臉識別技術(shù)為例來進行說明,在實際應(yīng)用中還可以用其他的方式,如人工確認A、B、C和D頭部位置信息或使用其他的識別技術(shù),譬如根據(jù)人體工程學(xué)的角度來確定,與會者在會場的位置信息,本發(fā)明并不局限確定A、B、C和D頭部位置信息的具體方法??蛇x的,在實施本步驟時,較佳的方式是通過遠端直接采集遠端會場的與會者圖像信息,從中利用人臉識別的技術(shù)確定各與會者的位置信息。S42、根據(jù)A、B、C和D的各頭部位置信息確定該A、B、C和D的各頭部分別對應(yīng)的平板揚聲器陣列中揚聲器的位置;實現(xiàn)S42的具體方法可以為,如圖2所示,根據(jù)揚聲器的個數(shù)將平板揚聲器陣列劃分為36個區(qū)域,通過人臉識別技術(shù)確定A的頭部位置信息位于如圖2所示的區(qū)域11,則確認A頭部對應(yīng)的揚聲器為揚聲器11 ;同理確定B、C、D頭部對應(yīng)的揚聲器分別為揚聲器 13、15、17。在實際情況中,還可以出現(xiàn)通過人臉識別技術(shù)確定A的頭部位置信息位于如圖 2所示的多個區(qū)域,例如圖2的區(qū)域10和11,或者區(qū)域21、22和23,此時,確認A頭部對應(yīng)的揚聲器為A頭部位置信息對應(yīng)的所有區(qū)域?qū)?yīng)的揚聲器,例如頭部對應(yīng)的區(qū)域10和11 時,確定揚聲器為揚聲器10和11,如頭部對應(yīng)的區(qū)域21、22和23時,確定揚聲器為揚聲器21、22、23οS43、當遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器進行放音;例如A發(fā)言時,啟動 A對應(yīng)的揚聲器進行放音。上述獲知遠端用戶發(fā)言的方法有多種,可以用人工識別的方式檢測人臉的口部變化,也可以通過音頻采集的方式檢測該遠端用戶是否發(fā)言??蛇x的,上述對本端聲音輸出設(shè)備的控制方法可以由本地會議設(shè)備完成,也可以由媒體服務(wù)器來完成;當通過本地設(shè)備完成時,遠端設(shè)備通過媒體服務(wù)器將遠端會場的用戶圖像信息發(fā)送給本端會議設(shè)備,由本地設(shè)備建立遠端會場的參會者信息與本端的聲音輸出設(shè)備之間的對應(yīng)關(guān)系,當遠端會場的參會者發(fā)言時,通過本端的人臉識別確定發(fā)言者,進而通過本地設(shè)備完成對本端的聲音輸出設(shè)備的控制,在本實施例中,通過控制遠端發(fā)言者對應(yīng)的本地揚聲器陣列的揚聲器發(fā)聲以實現(xiàn)揚聲器陣列的控制,進而實現(xiàn)本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增加用戶的臨場感的效果;當通過媒體服務(wù)器來完成時,通過媒體服務(wù)器確定本地會議終端的聲音輸出設(shè)備的信息,該信息可以包括該聲音輸出設(shè)備的類型,個數(shù),排列方式等,進而在獲取到遠端會場的用戶的圖像信息之后,根據(jù)該圖像信息獲取遠端用戶的頭部信息,為本地會場建立起遠端用戶的頭部信息與本端的聲音輸出設(shè)備的對應(yīng)關(guān)系,進而,當遠端會場的某一個用戶發(fā)言時,通過媒體服務(wù)器檢測出遠端會場發(fā)送過來的遠端會場的聲源位置,進而根據(jù)遠端用戶的頭部信息與本端的聲音輸出設(shè)備的對應(yīng)關(guān)系,確定本端的聲音輸出設(shè)備中對應(yīng)的揚聲器完成聲音的輸出,通過本實施方式,能夠使得相應(yīng)的處理與控制功能在媒體服務(wù)器實現(xiàn),實現(xiàn)本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增加用戶的臨場感的效果,同時也降低了本地設(shè)備實現(xiàn)本方案的復(fù)雜度。本實施例提供的方法根據(jù)A、B、C和D的各頭部位置信息確定其頭部位置信息分別對應(yīng)的揚聲器,當遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增加了用戶的臨場感。另一實施例本實施例提供一種視頻通信的實現(xiàn)方法,其實現(xiàn)的技術(shù)場景為本實施例提供的方法在本地設(shè)備,媒體服務(wù)器,遠端設(shè)備組成的系統(tǒng)之間完成,其中媒體服務(wù)器完成遠端設(shè)備與本地設(shè)備的視頻和音頻數(shù)據(jù)的交換,遠端設(shè)備采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;本地用戶與遠端用戶通過顯示設(shè)備進行視頻通信,上述顯示設(shè)備可以為,顯示器,液晶電視、等離子電視等等。假設(shè)顯示設(shè)備的上、下的中線位置分別設(shè)置一揚聲器(如圖10所示),當然揚聲器的設(shè)置也可以偏離顯示設(shè)備的中線位置,如上揚聲器設(shè)置顯示設(shè)備的中線偏左位置,下?lián)P聲器設(shè)置液晶電視的顯示設(shè)備中線偏右位置,本發(fā)明在上、下設(shè)置時,并不局限揚聲器的左、右的具體位置,只需保證顯示設(shè)備的上、下各設(shè)置一個揚聲器即可;這里假設(shè)遠端用戶有4人,分別設(shè)定為A、B、C、D,本地用戶設(shè)定為E ;假設(shè) A、B、C、D頭像的排列順序為,自上而下A、B、C、D ;本實施例中的頭像位置均指頭像的嘴部中心位置;則上述方法可以如圖5所示,包括如下步驟步驟51 本地會場與遠端會場建立連接后,通過遠端設(shè)備啟動人臉識別技術(shù)確定 A、B、C和D的各頭部位置信息;
步驟52、根據(jù)A、B、C、D頭像方位計算其各自頭部位置中心到顯示圖像中心(顯示設(shè)備中心)的垂直距離,并計算該垂直距離與顯示圖像(即顯示設(shè)備顯示圖像的總高度) 總高度的比值;步驟53、當遠端用戶發(fā)言時,根據(jù)該發(fā)言者對應(yīng)的比值數(shù)調(diào)整上、下?lián)P聲器的音量,并按調(diào)整后的音量進行放音。其具體的調(diào)整方式可以為假設(shè)A、B、C、D對應(yīng)的比值數(shù)分別為0. 125,0. 375、 0. 625,0. 875 ;則根據(jù)上述公式1 (其中X =幻計算出的對應(yīng)的上、下?lián)P聲器的音量的差值分別為9dB、3dB、-3dB和-9dB。當然在公式1的X取其他值時,對應(yīng)的差值也可以為其他的數(shù)值,如當X = 2時,計算出的差值分別為6dB、2dB、-2dB和_6dB,在實際情況中X的取值也可以為其他的數(shù)值,這里用戶可以自行設(shè)定X的具體數(shù)值。在用戶設(shè)定一基準音量值后,例如將上揚聲器的音量值設(shè)定為基準音量值,具體可以為40dB,則控制上揚聲器的音量為40dB,下?lián)P聲器的音量為43dB (其中X = 3,比值為 0.625)或38dB(其中X = 2,比值為0.375)。當然在實際情況中也可以為其他的音量值。下面以本實施例實現(xiàn)的原理來說明本實施例的技術(shù)效果,通過實驗證明,人耳在聽到兩個聲源發(fā)音(例如上、下)時,其實際感受到的聲音為一個地點發(fā)送出來的,我們一般將這個地點叫為虛擬聲源,例如,當兩個聲源的音量大小一致時,合成的虛擬聲源為兩個聲源的中心位置,如聲源設(shè)置為上、下設(shè)置時,上聲源的音量大,則合成的虛擬聲源離上聲源位置近,同理,下聲源的音量大,則合成的虛擬聲源位置離下聲源位置近。所以出現(xiàn)如本實施例的情況時,具體可以為當發(fā)言者發(fā)言時,可以通過控制上、下聲源(本實施例為揚聲器)的音量來調(diào)整其合成的虛擬聲源的位置,將該虛擬聲源的位置調(diào)制至發(fā)言者的圖像位置時,本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增加用戶的臨場感的效果。本實施例提供的方法根據(jù)A、B、C和D的各頭部位置信息計算頭像到顯示圖像中心的垂直距離與顯示圖像總寬度的比值,并根據(jù)該比值來控制上、下?lián)P聲器的音量,從而進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增加了用戶的臨場感。上述另一實施例當顯示設(shè)備的揚聲器為水平設(shè)置時,可以將頭像進行水平顯示, 并將比值修改成,頭像到顯示圖像中心的水平距離與顯示圖像總寬度的比值,然后根據(jù)公式2進行音量差值的計算。該水平設(shè)置揚聲器可以為,在顯示設(shè)備的左、右的中線位置分別設(shè)置一揚聲器(如圖11所示);當然設(shè)置該揚聲器的設(shè)置也可以偏離顯示設(shè)備的中線位置,如左揚聲器設(shè)置在顯示設(shè)備的中線偏上位置,右揚聲器設(shè)置在顯示設(shè)備的中線偏下位置,本發(fā)明在水平設(shè)置時,并不局限揚聲器的上、下具體位置,只需保證顯示設(shè)備的左、右各設(shè)置一個揚聲器即可。當人耳在聽到兩個聲源發(fā)音(例如左、右)時,其實際感受到的聲音為一個地點發(fā)送出來的,我們一般將這個地點叫為虛擬聲源,例如,當兩個聲源的音量大小一致時,合成的虛擬聲源為兩個聲源的中心位置,如聲源設(shè)置為左、右設(shè)置時,左聲源的音量大,則合成的虛擬聲源離左聲源位置近,同理,右聲源的音量大,則合成的虛擬聲源位置離下右聲源位置近。所以出現(xiàn)如本實施例的情況時,具體可以為當發(fā)言者發(fā)言時,可以通過控制左、右聲源(本實施例為揚聲器)的音量來調(diào)整其合成的虛擬聲源的位置,將該虛擬聲源的位置調(diào)制至發(fā)言者的圖像位置時,本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增加用戶的臨場感的效果。本發(fā)明提供又一實施例,本實施例在本地設(shè)備,媒體服務(wù)器,遠端設(shè)備組成的系統(tǒng)之間完成,其中媒體服務(wù)器完成遠端設(shè)備與本地設(shè)備的視頻和音頻數(shù)據(jù)的交換,遠端設(shè)備采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;本地用戶與遠端用戶通過投影進行視頻通信,并在投影平面上設(shè)置平板揚聲器陣列(如圖幻,這里假設(shè)遠端用戶有4人,分別設(shè)定為A、B、C、D,遠端設(shè)備為A、B、C、D分別分配麥克1、2、3、4 ;本地用戶設(shè)定為E ;則上述方法可以如圖6所示,包括S61、本地會場與遠端會場建立連接后,通過遠端設(shè)備啟動人臉識別技術(shù)確定A、B、 C和D的各頭部位置信息;實現(xiàn)S61的方法具體可以為上述確定A、B、C和D頭部位置信息的方法僅以人臉識別技術(shù)為例來進行說明,在實際應(yīng)用中還可以用其他的方式,如人工確認A、B、C和D頭部位置信息或使用其他的識別技術(shù),譬如根據(jù)人體工程學(xué)的角度來確定,與會者在會場的位置信息,本發(fā)明并不局限確定A、B、C和D頭部位置信息的具體方法??蛇x的,在實施本步驟時,較佳的方式是通過遠端直接采集遠端會場的與會者圖像信息,從中利用人臉識別的技術(shù)確定各與會者的位置信息。S62、本地設(shè)備根據(jù)A、B、C和D的頭部位置信息確定該A、B、C和D的頭部分別對應(yīng)的平板揚聲器陣列中揚聲器的位置;實現(xiàn)S52的具體方法可以為,如圖2所示,根據(jù)揚聲器的個數(shù)將平板揚聲器陣列劃分為36個區(qū)域,通過人臉識別技術(shù)確定A的頭部位置信息位于如圖2所示的區(qū)域11,則確認A頭部對應(yīng)的揚聲器為揚聲器11 ;同理確定B、C、D頭部對應(yīng)的揚聲器分別為揚聲器 13、15、17。在實際情況中,還可以出現(xiàn)通過人臉識別技術(shù)確定A的頭部位置信息位于如圖 2所示的多個區(qū)域,例如圖2的區(qū)域10和11,或者區(qū)域21、22和23,此時,確認A頭部對應(yīng)的揚聲器為A頭部位置信息對應(yīng)的所有區(qū)域?qū)?yīng)的揚聲器,例如頭部對應(yīng)的區(qū)域10和11 時,確定揚聲器為揚聲器10和11,如頭部對應(yīng)的區(qū)域21、22和23時,確定揚聲器為揚聲器 21、22、23οS63、媒體服務(wù)器根據(jù)麥克1發(fā)送的音頻碼流確定A發(fā)言時,將麥克1發(fā)送的音頻碼流和確定A為發(fā)言者的信息發(fā)送給本地設(shè)備;實現(xiàn)S63的實際方法可以為由于遠端用戶有々、8、(、0,其分別分配麥克1、2、3、 4,則媒體服務(wù)器建立麥克1與用戶A的對應(yīng)關(guān)系,同理,建立麥克2與用戶B的對應(yīng)關(guān)系, 麥克3與用戶C的對應(yīng)關(guān)系,麥克4與用戶D的對應(yīng)關(guān)系,則當媒體服務(wù)器檢測到麥克1發(fā)送過來的音頻碼流時,根據(jù)麥克1與用戶A的對應(yīng)關(guān)系,確定用戶A發(fā)言,并將麥克1發(fā)送的音頻碼流和確定A為發(fā)言者的信息發(fā)送給本地設(shè)備。S64、本地設(shè)備啟動A對應(yīng)的揚聲器播放麥克1發(fā)送的音頻碼流。可選的,上述本地設(shè)備完成的步驟均可以由媒體服務(wù)器控制本地設(shè)備完成。本實施例提供的方法的本地設(shè)備根據(jù)A、B、C和D的頭部位置信息確定其頭部位置信息分別對應(yīng)的揚聲器,當媒體服務(wù)器確定發(fā)言者時,由本地設(shè)備啟動發(fā)言者對應(yīng)的揚聲器進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增加了用戶的臨場感。
本發(fā)明還提供一種實現(xiàn)視頻通信的裝置,該裝置如圖7所示,其中虛線模塊表示可選模塊,該裝置具體包括獲取單元71,用于在本地用戶與遠端用戶建立連接后,獲取遠端用戶的頭部位置 fn息;放音控制單元72,用于根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。可選的,當所述揚聲器為平板揚聲器陣列時,放音控制單元72包括陣列模塊721,用于根據(jù)所述遠端用戶的頭部位置信息確認其對應(yīng)的所述平板揚聲器陣列中的揚聲器,放音模塊722,當所述遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器進行放音??蛇x的,當所述揚聲器為上、下設(shè)置時,放音控制單元72包括高度計算模塊723,用于將遠端用戶的圖像上下顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的垂直距離,計算出所述垂直距離與所述顯示圖像總高度的比值;豎直放音模塊724,用于根據(jù)上、下?lián)P聲器的音量差值對上、下?lián)P聲器的音量調(diào)整后進行放音;上揚聲器與下?lián)P聲器音量的差值的計算方法可以參見公式1中的描述。可選的,當所述揚聲器為左、右設(shè)置時,放音控制單元72包括寬度計算模塊725,用于將遠端用戶的圖像左右顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的水平距離,計算出所述水平距離與所述顯示圖像總寬度的比值;水平放音模塊726,用于根據(jù)左、右揚聲器的音量差值對左、右揚聲器的音量調(diào)整后進行放音;左揚聲器與右揚聲器音量的差值可以參見公式2中的描述??蛇x的,本裝置可以為單獨存在的設(shè)備,當然該裝置也可以安裝于本地設(shè)備內(nèi),當然在實際情況中,本裝置也可以安裝在媒體服務(wù)器內(nèi)。本發(fā)明提供的裝置根據(jù)遠端用戶的頭部位置信息確定其對應(yīng)的揚聲器播放方法, 當遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器播放方法進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增加了用戶的臨場感。本發(fā)明還提供一種實現(xiàn)視頻通信的系統(tǒng),該系統(tǒng)如圖8所示包括遠端設(shè)備81、 本地設(shè)備82和媒體服務(wù)器83 ;遠端設(shè)備81用于采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器83 ;媒體服務(wù)器83用于完成遠端設(shè)備81與本地設(shè)備82的視頻和音頻數(shù)據(jù)的交換;本地設(shè)備82用于在本地用戶與遠端用戶建立連接后,根據(jù)獲取的遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。本發(fā)明提供的系統(tǒng)中的本地設(shè)備82可以根據(jù)遠端用戶的頭部位置信息確定其對應(yīng)的揚聲器播放方式,當遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器播放方式進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增加了用戶的臨場感。本發(fā)明還提供另一種視頻通信系統(tǒng),該系統(tǒng)包括遠端設(shè)備、本地設(shè)備和媒體服務(wù)器;
11
遠端設(shè)備用于采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;媒體服務(wù)器用于完成遠端設(shè)備與本地設(shè)備的視頻和音頻數(shù)據(jù)的交換;媒體服務(wù)器還用于在本地用戶與遠端用戶建立連接后,根據(jù)獲取的遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式向本地設(shè)備82發(fā)送放音命令;本地設(shè)備用于根據(jù)該放音命令控制本地放音裝置進行放音。本發(fā)明提供的系統(tǒng)中的媒體服務(wù)器可以根據(jù)遠端用戶的頭部位置信息確定其對應(yīng)的揚聲器播放方式,當遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器播放方式進行放音,達到了本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致的目的,增加了用戶的臨場感。本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。綜上所述,本發(fā)明具體實施方式
提供的技術(shù)方案,具有本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,增加了用戶的臨場感的優(yōu)點。以上對本發(fā)明實施例進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想; 同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種視頻通信的實現(xiàn)方法,其特征在于,所述方法包括在本地用戶與遠端用戶建立連接后,獲取遠端用戶的頭部位置信息;根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方法;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音具體包括當所述揚聲器為平板揚聲器陣列時,根據(jù)所述遠端用戶的頭部位置信息確認其對應(yīng)的所述平板揚聲器陣列中的揚聲器,當所述遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器進行放音。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音具體包括當所述揚聲器為上、下設(shè)置時,將遠端用戶的圖像上下顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的垂直距離,計算出所述垂直距離與所述顯示圖像總高度的比值;上揚聲器與下?lián)P聲器音量的差值=8X*(0. 5-所述垂直距離與所述顯示圖像總高度的比值)dB ;并根據(jù)所述差值對上、下?lián)P聲器的音量調(diào)整后進行放音;上述X為用戶設(shè)定的聲音系數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音具體包括當所述揚聲器為左、右設(shè)置時,將遠端用戶的圖像左右顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的水平距離,計算出所述水平距離與所述顯示圖像總寬度的比值;左揚聲器與右揚聲器音量的差值=8X*(0. 5-所述水平距離與所述顯示圖像總寬度的比值)dB ;并根據(jù)所述差值對左、右揚聲器的音量調(diào)整后進行放音;上述X為用戶設(shè)定的聲音系數(shù)。
5.一種實現(xiàn)視頻通信的裝置,其特征在于,所述裝置包括獲取單元,用于在本地用戶與遠端用戶建立連接后,獲取遠端用戶的頭部位置信息;放音控制單元,用于根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方法;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,當所述揚聲器為平板揚聲器陣列時,所述放音控制單元包括位置確認模塊,用于根據(jù)所述遠端用戶的頭部位置信息確認其對應(yīng)的所述平板揚聲器陣列中的揚聲器,放音模塊,當所述遠端用戶發(fā)言時,啟動發(fā)言者對應(yīng)的揚聲器進行放音。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,當所述揚聲器為上、下設(shè)置時,所述放音控制單元包括高度計算模塊,用于將遠端用戶的圖像上下顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的垂直距離,計算出所述垂直距離與所述顯示圖像總高度的比值;豎直放音模塊,用于根據(jù)上、下?lián)P聲器的音量差值對上、下?lián)P聲器的音量調(diào)整后進行放音;上揚聲器與下?lián)P聲器音量的差值=8X*(0. 5-所述垂直距離與所述顯示圖像總高度的比值)dB ;上述X為用戶設(shè)定的聲音系數(shù)。
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,當所述揚聲器為左、右設(shè)置時,所述放音控制單元包括寬度計算模塊,用于將遠端用戶的圖像左右顯示,并計算遠端用戶頭部位置中心到顯示圖像中心的水平距離,計算出所述水平距離與所述顯示圖像總寬度的比值;水平放音模塊,用于根據(jù)左、右揚聲器的音量差值對左、右揚聲器的音量調(diào)整后進行放音;左揚聲器與右揚聲器音量的差值=8X*(0. 5-所述水平距離與所述顯示圖像總寬度的比值)dB ;上述X為用戶設(shè)定的聲音系數(shù)。
9.一種實現(xiàn)視頻通信的系統(tǒng),其特征在于,所述系統(tǒng)包括遠端設(shè)備、本地設(shè)備和多點控制單元媒體服務(wù)器;遠端設(shè)備,用于采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;媒體服務(wù)器,用于完成所述遠端設(shè)備與所述本地設(shè)備的視頻和音頻數(shù)據(jù)的交換;本地設(shè)備,用于在本地用戶與遠端用戶建立連接后,根據(jù)獲取的遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式進行放音。
10.一種視頻通信系統(tǒng),其特征在于,所述系統(tǒng)包括遠端設(shè)備、本地設(shè)備和多點控制單元媒體服務(wù)器;遠端設(shè)備,用于采集遠端用戶的視頻和音頻數(shù)據(jù),并發(fā)送給媒體服務(wù)器;媒體服務(wù)器,用于完成遠端設(shè)備與本地設(shè)備的視頻和音頻數(shù)據(jù)的交換,及在本地用戶與遠端用戶建立連接后,根據(jù)獲取的遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方式;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方式向本地設(shè)備發(fā)送放音命令;本地設(shè)備用于根據(jù)所述放音命令控制本地放音裝置進行放音。
全文摘要
本發(fā)明實施例提供了一種視頻通信的實現(xiàn)方法及裝置,該方法及裝置屬于通信技術(shù)領(lǐng)域,該方法包括在本地用戶與遠端用戶建立連接后,獲取遠端用戶的頭部位置信息;根據(jù)所述遠端用戶的頭部位置信息確定所述遠端用戶對應(yīng)的揚聲器播放方法;當遠端用戶發(fā)言時,根據(jù)發(fā)言者對應(yīng)的揚聲器播放方法進行放音。上述方法及裝置能使本地用戶聽到遠端用戶聲音的方位和本地用戶看到的遠端用戶的圖像的方位基本保持一致,提升了用戶的臨場感。
文檔編號H04N7/14GK102209225SQ20101013702
公開日2011年10月5日 申請日期2010年3月30日 優(yōu)先權(quán)日2010年3月30日
發(fā)明者岳中輝 申請人:華為終端有限公司