用于音頻/圖像的說話者檢測和定位的方法和裝置的制作方法

文檔序號：7717229閱讀：409來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：用于音頻/圖像的說話者檢測和定位的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于電視會議系統(tǒng)的方法和裝置，其采用包括兩個麥克風的陣列和一個靜止照相機來自動地找出說話者的位置并電操作視頻圖像以產(chǎn)生可動的平移-傾斜-縮放(“PTZ”)照相機的效果。
2.相關(guān)技術(shù)可確定聲源相對于基準點的方向的電視會議系統(tǒng)是已知的。電視會議系統(tǒng)是一種視頻顯示系統(tǒng)，其通常包括一個照相機、多個麥克風和一個顯示器。一些電視會議系統(tǒng)還具有將照相機指向說話者并進行適當?shù)呐臄z的能力。通常來說，電視會議系統(tǒng)的用戶引導(dǎo)照相機的運動以進行適當?shù)呐臄z?，F(xiàn)有的商用電視會議系統(tǒng)采用麥克風陣列來自動地找出說話者的位置并驅(qū)動平移-傾斜-縮放(“PTZ”)攝像機。例如可參見(1)題為“聲源的定位”的國際專利申請WO99/60788，以及(2)1998年7月7日頒發(fā)給Chu等人的題為“用于聲源定位的方法和裝置”的美國專利No.5778082，這些文獻均通過引用結(jié)合于本文中。
令人遺憾的是，采用與一個靜止攝像機相結(jié)合而起作用的只包括二個麥克風的陣列來準確地檢測、定位和追蹤說話者存在著問題。因此，需要一種采用包括兩個麥克風的陣列來自動地找出說話者的位置并隨后采用一個靜止攝像機來追蹤說話者的用于電視會議系統(tǒng)的方法和裝置。
采用計算機視覺算法來檢測、定位和追蹤處于廣角靜止攝像機的視場中的人物。采用從只包括兩個水平間隔開的麥克風的麥克風陣列中得到的估計聲延遲來選擇正在說話的人。假定恰好在相同的水平位置處不會存在超過一個的說話者，那么兩個麥克風之間的聲延遲可提供足夠的信息以明確地找出說話者的位置。本發(fā)明的系統(tǒng)還可檢測任何可能的模糊性，在這種情況下系統(tǒng)可以安全可靠的方式作出響應(yīng)。例如，它可以縮小以將處于同一水平位置的所有說話者包括在內(nèi)。
在早期階段進行音頻和視頻處理步驟，使得只需兩個麥克風和一個靜止攝像機來定位和追蹤說話者。這種方法減小了對硬件和計算的要求，并提高了整個系統(tǒng)的性能。例如，此方法允許電視會議系統(tǒng)準確地追蹤移動的人物，而不管他們是否說話。
在第一普遍的方面，本發(fā)明提供了一種電視會議系統(tǒng)，包括用于產(chǎn)生代表了圖像的圖像信號的攝像裝置；用于產(chǎn)生代表了來自聲源的聲音的音頻信號的拾音裝置；以及用于處理所述圖像信號和所述音頻信號以確定聲源相對于基準點的方向的多模式集成體系結(jié)構(gòu)系統(tǒng)。
在第二普遍的方面，本發(fā)明提供了一種方法，包括步驟在攝像裝置處產(chǎn)生代表了圖像的圖像信號；在拾音裝置處產(chǎn)生代表了來自聲源的聲音的音頻信號；處理圖像信號和音頻信號以確定聲源相對于基準點的方向；操作圖像信號以產(chǎn)生精確的圖像信號；以及輸出所述精確的圖像信號。
在第三普遍的方面，本發(fā)明提供了一種電視會議系統(tǒng)，包括用于產(chǎn)生代表了來自說話者的聲音的音頻信號的兩個麥克風；用于產(chǎn)生代表了視頻圖像的視頻信號的攝像機；用于操作視頻圖像以產(chǎn)生平移、傾斜和/或縮放的視覺效果的電子平移-傾斜-縮放系統(tǒng)；用于處理視頻信號和音頻信號以確定說話者相對于基準點的方向并且為電子平移-傾斜-縮放系統(tǒng)提供控制信號以產(chǎn)生包括了攝像機視場中的說話者在內(nèi)的圖像的處理器，所述控制信號基于所確定的說話者的方向來產(chǎn)生；和用于發(fā)送電視會議所用的音頻和視頻信號的發(fā)送器。
圖2顯示了根據(jù)本發(fā)明實施例的

圖1所示電視會議系統(tǒng)的各個功能模塊。
本發(fā)明的具體介紹本發(fā)明公開了一種用于采用了一個拾音裝置如包括兩個麥克風的麥克風陣列和一個靜止的攝像裝置如攝像機的電視會議系統(tǒng)的裝置及相關(guān)方法。本發(fā)明的電視會議系統(tǒng)能夠采用與一個靜止攝像機相結(jié)合而起作用的只包括二個麥克風的陣列來準確地檢測、定位和追蹤說話者。
現(xiàn)在參考附圖并從圖1開始，其中顯示了一個代表性的電視會議系統(tǒng)100。電視會議系統(tǒng)100包括一個靜止的攝像機210和一個包括兩個麥克風的水平陣列230，其包括第一麥克風231和第二麥克風232，它們相互間隔開預(yù)定的距離d并以預(yù)定的幾何形狀來固定。
簡短地說，在操作過程中，電視會議系統(tǒng)100接收來自說話者(未示出)的聲波，并將聲波轉(zhuǎn)換成音頻信號。電視會議系統(tǒng)100還通過靜止的攝像機210捕捉說話者的視頻圖像。電視會議系統(tǒng)100采用音頻信號和視頻圖像來確定說話者相對于基準點如攝像機210的位置。根據(jù)那個方向，電視會議系統(tǒng)100可隨后電控制視頻圖像以有效地平移、傾斜或縮放來自靜止攝像機210的視頻圖像，從而得到說話者的更佳的圖像。
通常來說，說話者相對于攝像機210的位置可由兩個值來表征說話者相對于靜止攝像機210的方向，其可表示為一個矢量，以及說話者離靜止攝像機210的距離。很清楚，通過電模仿靜止攝像機210的平移或傾斜操作，可將說話者相對于靜止攝像機210的方向用于有效地將靜止攝像機210指向說話者，另外，說話者離靜止攝像機210的距離可用于電模仿靜止攝像機210的縮放操作。
應(yīng)當注意的是，在電視會議系統(tǒng)100中，構(gòu)成電視會議系統(tǒng)100的各個部件和電路均容納于圖1所示的集成外殼110中。集成外殼110設(shè)計成可容納電視會議系統(tǒng)100的所有部件和電路。另外，集成外殼110的大小還應(yīng)適于由人容易地攜帶。在這樣一個實施例中，部件和電路可設(shè)計成能承受人的搬運，并還具有“即插即用”的性能，這樣電視會議系統(tǒng)可在新的環(huán)境下迅速地安裝并使用。
圖2示意性地顯示了圖1所示電視會議系統(tǒng)100的功能模塊。麥克風231，232和靜止攝像機210分別為多模式集成體系結(jié)構(gòu)模塊270提供音頻信號235和視頻信號215。多模式集成體系結(jié)構(gòu)模塊270包括聲源定位模塊240、計算機視覺人物檢測模塊250和多模式說話者檢測模塊260。電子平移-傾斜-縮放(EPZT)控制信號從多模式說話者檢測模塊260中輸出，并被提供給電子平移-傾斜-縮放系統(tǒng)模塊220。
典型的多模式集成體系結(jié)構(gòu)模塊的操作方法及相關(guān)結(jié)構(gòu)公開于(1)2000年11月22日提交的題為“候選級多模式集成系統(tǒng)”的美國專利申請09/718255；以及(2)2000年4月13日提交的題為“在電視會議和其它應(yīng)用中采用復(fù)合視頻和音頻信息來追蹤移動物體的方法和裝置”的美國專利申請09/548734，這些專利均被轉(zhuǎn)讓給本發(fā)明的受讓人(代理人檔案號分別為PHUS000293和PHUS000103)，并且均通過引用結(jié)合于本文中。
靜止攝像機210不需要與在典型的非靜止攝像機或典型的攝像機安裝基座上進行的已知的平移、傾斜或縮放操作有關(guān)的移動部件。根據(jù)需要，通過用電子平移-傾斜-縮放系統(tǒng)模塊220來電模仿這些功能，可以實現(xiàn)平移、傾斜或縮放功能。因此，與現(xiàn)有的電視會議系統(tǒng)相比，本發(fā)明的電視會議系統(tǒng)100代表了更大程度的簡化。
雖然這里為說明目的而介紹了本發(fā)明的實施例，但是對本領(lǐng)域的技術(shù)人員來說很明顯，可以對其進行許多修改和變化。因此，所附權(quán)利要求預(yù)期包括了屬于本發(fā)明的精神實質(zhì)和范圍內(nèi)的所有這些修改和變化。
權(quán)利要求
1.一種電視會議系統(tǒng)(100)，包括用于產(chǎn)生代表了圖像的圖像信號的攝像裝置(210)；用于產(chǎn)生代表了來自聲源的聲音的音頻信號的拾音裝置(230)；和用于處理所述圖像信號和所述音頻信號以確定所述聲源相對于基準點的方向的多模式集成體系結(jié)構(gòu)系統(tǒng)(270)。
2.根據(jù)權(quán)利要求1所述的電視會議系統(tǒng)(100)，其特征在于，所述多模式集成體系結(jié)構(gòu)系統(tǒng)(270)還包括聲源定位系統(tǒng)(240)；計算機視覺人物檢測系統(tǒng)(250)；和多模式說話者檢測系統(tǒng)(260)。
3.根據(jù)權(quán)利要求2所述的電視會議系統(tǒng)(100)，其特征在于，所述系統(tǒng)還包括用于所述集成電視會議系統(tǒng)(100)的集成外殼(110)，其中容納了所述攝像裝置(210)、所述拾音裝置(230)和所述多模式集成體系結(jié)構(gòu)系統(tǒng)(270)。
4.根據(jù)權(quán)利要求3所述的電視會議系統(tǒng)(100)，其特征在于，所述集成外殼(110)的大小適于攜帶。
5.根據(jù)權(quán)利要求2所述的電視會議系統(tǒng)(100)，其特征在于，所述系統(tǒng)還包括電子平移-傾斜-縮放系統(tǒng)(220)，用于電操作所述圖像信號以有效地提供可調(diào)節(jié)的平移、傾斜和縮放功能中的至少一項。
6.根據(jù)權(quán)利要求5所述的電視會議系統(tǒng)(100)，其特征在于，所述攝像裝置(210)為靜止的照相機(210)。
7.根據(jù)權(quán)利要求5所述的電視會議系統(tǒng)(100)，其特征在于，所述多模式集成體系結(jié)構(gòu)系統(tǒng)(270)為所述電子平移-傾斜-縮放系統(tǒng)(220)提供控制信號。
8.根據(jù)權(quán)利要求7所述的電視會議系統(tǒng)(100)，其特征在于，所述聲源相對于所述基準點運動，所述聲源定位系統(tǒng)(240)檢測所述聲源的運動，并且所述聲源定位系統(tǒng)(240)響應(yīng)于此運動而使所述攝像裝置(210)的視場發(fā)生變化。
9.根據(jù)權(quán)利要求5所述的電視會議系統(tǒng)(100)，其特征在于，所述拾音裝置(230)包括具有兩個麥克風(231，232)的陣列。
10.一種方法，包括步驟在攝像裝置(210)處產(chǎn)生代表了圖像的圖像信號；在拾音裝置(230)處產(chǎn)生代表了來自聲源的聲音的音頻信號；處理所述圖像信號和音頻信號以確定所述聲源相對于基準點的方向；操作所述圖像信號以產(chǎn)生精確的圖像信號；和輸出所述精確的圖像信號。
11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述方法還包括步驟將所述音頻信號施加在聲源定位系統(tǒng)(240)上；將所述圖像信號施加在計算機視覺人物檢測系統(tǒng)(250)上；用多模式說話者檢測系統(tǒng)(260)來處理所述音頻信號和所述圖像信號；根據(jù)所確定的所述聲源的方向來產(chǎn)生控制信號；將所述控制信號施加在電子平移-傾斜-縮放系統(tǒng)(220)上以模仿可動照相機的至少一項功能的效果，所述功能從包括平移、傾斜和縮放所述可動照相機的組中選擇；和提供來自所述電子平移-傾斜-縮放系統(tǒng)(220)的輸出。
12.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述方法還包括響應(yīng)于所述控制信號而電改變所述攝像裝置(210)的視場。
全文摘要
一種用于電視會議系統(tǒng)的方法和裝置，其采用包括兩個麥克風的陣列和一個靜止照相機來自動地找出說話者的位置并電操作視頻圖像以產(chǎn)生可動的平移－傾斜－縮放(“PTZ”)照相機的效果。采用計算機視覺算法來檢測、定位和追蹤處于廣角的靜止照相機的視場中的人物。采用從只包括兩個水平間隔開的麥克風的麥克風陣列中得到的估計聲延遲來選擇正在說話的人。此系統(tǒng)還可檢測任何可能的模糊性，在這種情況下系統(tǒng)可以安全可靠的方式作出響應(yīng)，例如它可以縮小以將處于同一水平位置的所有說話者包括在內(nèi)。
文檔編號H04N7/14GK1460185SQ02800828
公開日2003年12月3日申請日期2002年3月15日優(yōu)先權(quán)日2001年3月30日
發(fā)明者A·科爾梅納雷茲, H·J·斯特魯貝, S·古塔申請人:皇家菲利浦電子有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：A.科爾梅納雷茲;H.J.斯特魯貝;S.古塔
技術(shù)所有人：皇家菲利浦電子有限公司
我是此專利的發(fā)明人

上一篇：搜索電視節(jié)目的改良方法
上一篇：通過名人或使用名人簡檔推薦電視節(jié)目安排的方法與設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)字圖像及音視頻處理相關(guān)技術(shù)

音頻設(shè)備圖像隔離相關(guān)技術(shù)

音頻圖像相關(guān)技術(shù)

壓縮標準用于音頻壓縮相關(guān)技術(shù)

用于音頻處理的芯片相關(guān)技術(shù)

matlab用于圖像處理相關(guān)技術(shù)

用于圖像分割的圖片相關(guān)技術(shù)

小波變換用于圖像壓縮相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于音頻/圖像的說話者檢測和定位的方法和裝置的制作方法