一種可視電話及其通訊方法

文檔序號：7704501閱讀：215來源：國知局

專利名稱：一種可視電話及其通訊方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通訊領(lǐng)域，尤其涉及一種可視電話及其通訊方法。
背景技術(shù)：
隨著通訊技術(shù)的迅速發(fā)展，人們對通訊方式提出了越來越高的要求，除了使用傳統(tǒng)的語音和文字進行通訊以外，近年來，基于新的無線通訊標準，可視電話實現(xiàn)了視頻通訊的方式。可視電話通常包括多種終端，例如手機、固定電話、計算機、掌上電腦等?？梢曤娫?實現(xiàn)視頻通訊的具體過程為安裝在可視電話本端的攝像頭采集用戶所需的視頻圖像，并根據(jù)通訊協(xié)議規(guī)定的視頻壓縮標準進行編碼，接著通過無線傳輸協(xié)議將編碼后的視頻碼流與音頻碼流一起發(fā)送至對方用戶，對方用戶對視頻碼流進行解碼，最后將其顯示在屏幕上進行觀看。這樣，通訊系統(tǒng)中兩端的用戶既可以聽到對方的聲音，又可以觀看對方的視頻圖像，不僅為溝通帶來了便利，而且提高了用戶的體驗度。然而，目前的可視電話在功能上仍然存在一定的局限性。由于只支持語音和視頻的通訊方式，在某些場合中不能保證用戶順利地進行溝通，例如噪雜的環(huán)境中，由于受到噪音的干擾難以聽清對方的語音；或者在會議過程中，不方便放大可視電話的音量接聽對方的語音。另外，對于一些存在聽力障礙的用戶，可視電話雖然能夠看到對方的視頻，但是無法聽到對方的聲音，因此還是難以進行正常的溝通。因此，現(xiàn)有技術(shù)的可視電話不能適用于各種場合和多種用戶，為用戶的通訊帶來一定的不便。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是，克服現(xiàn)有技術(shù)的不足，提供一種適用于多種場合、多種用戶，且靈活便利的可視電話及其通訊方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種可視電話通訊方法，包括以下步驟步驟A 可視電話對語音進行識別，得到對應的文字信息；步驟B 將所述文字信息轉(zhuǎn)換成字幕；步驟C 顯示或發(fā)送所述字幕。步驟A中可視電話對本端語音進行識別，得到對應的文字信息，步驟B將所述文字信息轉(zhuǎn)換成本端字幕，步驟C中對所述本端字幕進行編碼得到碼流，并發(fā)送所述碼流。步驟A中可視電話對對端語音進行識別，得到對應的文字信息，步驟B將所述文字信息轉(zhuǎn)換成對端字幕，步驟C在可視電話上顯示所述對端字幕。步驟C之前還包括以下步驟將所述本端字幕與可視電話采集的本端視頻信息相疊加；步驟C中對所述疊加后的本端字幕和本端視頻信息一并進行編碼得到碼流，并發(fā)送所述碼流。步驟C之前還包括以下步驟將所述對端字幕與可視電話接收的對端視頻信息相疊加；步驟C在可視電話上一并顯示所述疊加后的對端字幕和對端視頻信息。一種可視電話，包括語音識別模塊、字幕轉(zhuǎn)換模塊和字幕處理模塊；語音識別模塊用于對語音進行識別，得到對應的文字信息；字幕轉(zhuǎn)換模塊用于將所述語音識別模塊得到的文字信息轉(zhuǎn)換成字幕；字幕處理模塊用于顯示或發(fā)送所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字
眷ο還包括視頻疊加模塊，所述視頻疊加模塊用于將所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字幕與視頻信息相疊加；所述字幕處理模塊還用于一并顯示或發(fā)送所述疊加后的字幕和視頻信肩、ο還包括疊加控制模塊，所述疊加控制模塊用于選擇需疊加的視頻信息或控制疊加方式。所述疊加方式包括按照一定的透明度疊加，或?qū)⑺鲎帜慌c視頻信息分別縮放后按照一定的比例布局。所述字幕處理模塊包括編碼模塊和發(fā)送模塊；所述語音為本端語音時，所述語音識別模塊用于對所述本端語音進行識別，得到對應的文字信息，所述字幕轉(zhuǎn)換模塊用于將所述語音識別模塊得到的文字信息轉(zhuǎn)換成本端字幕，所述編碼模塊用于對所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端字幕進行編碼得到碼流，所述發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼流。所述字幕處理模塊包括顯示模塊；所述語音為對端語音時，所述語音識別模塊用于對所述對端語音進行識別，得到對應的文字信息，所述字幕轉(zhuǎn)換模塊用于將所述語音識別模塊得到的文字信息轉(zhuǎn)換成對端字幕，所述顯示模塊用于顯示所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對端字幕。所述語音識別模塊包括第一語音識別模塊和第二語音識別模塊，所述語音為本端語音時，所述第一語音識別模塊用于對所述本端語音進行識別，得到對應的文字信息，所述語音為對端語音時，所述第二語音識別模塊用于對所述對端語音進行識別，得到對應的文字信息；所述字幕轉(zhuǎn)換模塊包括第一字幕轉(zhuǎn)換模塊和第二字幕轉(zhuǎn)換模塊，所述第一字幕轉(zhuǎn) 換模塊用于將所述第一語音識別模塊得到的文字信息轉(zhuǎn)換成本端字幕，所述第二字幕轉(zhuǎn)換模塊用于將所述第二語音識別模塊得到的文字信息轉(zhuǎn)換成對端字幕；字幕處理模塊包括編碼模塊、發(fā)送模塊和顯示模塊，所述編碼模塊用于對所述第一字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端字幕進行編碼得到碼流，發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼流，所述顯示模塊用于顯示第二字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對端字幕。還包括字幕功能選擇模塊，所述字幕功能選擇模塊用于選擇所述語音識別模塊所需識別的語音。本發(fā)明的有益效果是，本發(fā)明的可視電話通訊方法對語音進行識別得到文字信息，并將所述文字信息轉(zhuǎn)換成相應的字幕，最后按照具體需要顯示或發(fā)送得到的字幕。本發(fā) 明使可視電話具有字幕功能，例如可發(fā)送本端字幕或顯示對端字幕功能等，因此適用于多種場合和多種用戶。例如可在噪雜的環(huán)境中無法聽清聲音時只需讀取字幕便可與對方進行交流，在會議場合不便放大音量時可通過字幕獲得對方的語音信息，對于聽力障礙的用戶只需讀取字幕即可與對方進行溝通，因此本發(fā)明靈活便利，提高了通訊效率，同時提高了用戶的體驗度。本發(fā)明還能夠?qū)崿F(xiàn)字幕與視頻信息相疊加的功能，使字幕與視頻信息同步顯示，進一步方便用戶之間的溝通。本發(fā)明還保護了一種可視電話，該可視電話能夠?qū)⒄Z音轉(zhuǎn)化成相應的字幕，并按
5照具體需要對字幕進行處理。本發(fā)明不僅支持視頻通訊，而且具有字幕功能，例如發(fā)送本端字幕或顯示對端字幕等，這兩種功能還可在可視電話中任意選擇、切換或者同時使用。因此，本發(fā)明的可視電話不僅適用于多種場合、多種用戶，而且靈活便利，滿足了用戶的個性化需求。

圖1為本發(fā)明的可視電話通訊方法的流程圖；圖2為本發(fā)明的可視電話通訊方法中發(fā)送本端字幕的實施方式；圖3為本發(fā)明的可視電話通訊方法中顯示對端字幕的實施方式；圖4為本發(fā)明的可視電話通訊方法中選擇發(fā)送本端字幕或顯示對端字幕的實施方式；圖5為本發(fā)明的可視電話第一種具體實施方式
結(jié)構(gòu)框圖；圖6為本發(fā)明的可視電話第二種具體實施方式
結(jié)構(gòu)框圖；圖7為本發(fā)明的可視電話第三種具體實施方式
結(jié)構(gòu)框圖；圖8為本發(fā)明的可視電話第四種具體實施方式
結(jié)構(gòu)框圖。
具體實施例方式本發(fā)明提供了一種可視電話及其通訊方法，不僅能夠?qū)崿F(xiàn)可視電話的視頻通訊，還具有字幕功能，例如可向?qū)Χ擞脩舭l(fā)送字幕，或者在可視電話中直接顯示對端用戶的語音產(chǎn)生的字幕。本發(fā)明包括多種實施方式，以下將對各種實施方式分別進行說明，但并不局限于以下實施方式圖1為本發(fā)明的可視電話通訊方法的流程圖，包括以下步驟步驟SlOO 可視電話對語音進行識別，得到對應的文字信息。本發(fā)明中的語音指可視電話本端用戶提供的語音(簡稱本端語音)、可視電話通過通訊網(wǎng)絡接收到的對端用戶提供的語音(簡稱對端語音)，或可視電話本身存儲或產(chǎn)生的語音等。文字信息可為中文、英文或者其他語種等，語種可根據(jù)具體需要進行設(shè)置或由可視電話自動識別，還可根據(jù) 需要增設(shè)翻譯功能，得到的文字信息為翻譯后的語種。步驟SlOl 將步驟SlOO得到的文字信息轉(zhuǎn)換成字幕，這些字幕通過一定的圖像信息反映文字信息，還可根據(jù)需要設(shè)置字幕的大小、字體、色彩、透明度等，設(shè)置方式包括多種，例如可視電話固定預設(shè)、隨機設(shè)置以及用戶自行設(shè)置等。字幕轉(zhuǎn)換過程中，考慮到通話速度、停頓時長和通話時長等因素對字幕顯示時間的影響，還可根據(jù)需要靈活設(shè)置字幕顯示時間的長短，例如對于通話速度較快的語音，可以對字幕進行動態(tài)更新；對于當前時刻之間的語音，可適當保持相對較長的顯示時間。步驟S102 根據(jù)字幕的種類或用戶的個性化需求顯示或發(fā)送字幕，例如對于本端語音，用戶希望將對應的本端字幕發(fā)送至對端用戶或其他對象；對于對端語音，用戶希望將對應的對端字幕直接顯示在可視電話上進行觀看；對于可視電話本身提供的語音，用戶可根據(jù)喜好將字幕發(fā)送至對端用戶或直接顯示在可視電話上自行觀看。如果用戶希望將字幕與視頻信息一同顯示，則可在本步驟之前將字幕與視頻信息相疊加，接著可對疊加后的字幕與視頻信息一并進行顯示或發(fā)送，這些視頻信息為可視電話采集到或接收到的實時視頻信息，或可視電話中本身保存的視頻信息等。本發(fā)明的可視電話通訊方法對語音進行識別得到文字信息，并將所述文字信息轉(zhuǎn) 換成相應的字幕，最后按照具體需要對字幕進行顯示或發(fā)送，本發(fā)明使可視電話具有字幕顯示或字幕發(fā)送等功能，因此適用于多種場合和多種用戶。例如可在噪雜的環(huán)境中無法聽清聲音時，只需讀取字幕便可與對方進行交流，在會議場合不便放大音量時可通過字幕獲得對方的語音信息，對于聽力障礙的用戶只需讀取字幕即可與對方進行溝通，因此本發(fā)明靈活便利，提高了通訊效率，同時提高了用戶的體驗度。圖2為本發(fā)明的可視電話通訊方法中發(fā)送本端字幕的實施方式，包括以下步驟步驟S200 開啟可視電話的發(fā)送本端字幕功能，該過程可設(shè)置在通話開始之前或通話進行過程中，還可由用戶自行設(shè)定或固定設(shè)置在可視電話中默認開啟該功能。步驟S201 對本端語音進行識別，得到對應的文字信息，為了保持本端語音和字幕的一致性，通常需要實時識別本端語音，得到與本端語音實時對應的文字信息。步驟S202 將文字信息轉(zhuǎn)化成本端字幕。步驟S203 判斷是否需要與本端視頻信息相疊加，如果是則進入步驟S204，否則進入步驟S207，該過程可由用戶自行選擇，也可在可視電話中直接默認一種方式。步驟S204 需要與本端視頻信息相疊加，則將本端字幕與可視電話采集的本端視頻信息相疊加，保持本端字幕與本端視頻信息在時間上的同步性。步驟S205 對疊加后的本端字幕和本端視頻信息一并進行編碼。步驟S206 發(fā)送碼流至與可視電話進行通訊的對端用戶，通常按照一定的無線通訊協(xié)議(例如H. 324. M)進行發(fā)送。對方通過解碼和播放即可觀看本端字幕的單獨顯示效果，或者本端字幕疊加在本端視頻信息中進行顯示的效果。步驟S207 不需要與本端視頻信息相疊加，則對本端字幕進行編碼得到碼流，接著進入步驟S206發(fā)送碼流。圖3為本發(fā)明的可視電話通訊方法中顯示對端字幕的實施方式，包括以下步驟步驟S300 開啟顯示對端字幕功能，該過程可設(shè)置在通過開始之前或通話進行中，還可由用戶自行設(shè)定或固定設(shè)置在可視電話中默認開啟該功能。步驟S301 對可視電話接收到的對端語音進行識別，得到對應的文字信息，為了保持對端語音和字幕的一致性，通常需要實時識別對端語音，得到與對端語音實時對應的
又子{曰息。步驟S302 將文字信息轉(zhuǎn)換成對端字幕。步驟S303 判斷是否需要與對端視頻信息相疊加，如果是則進入步驟S304，否則進入步驟S306。步驟S304 將對端字幕和可視電話接收的對端視頻信息相疊加，保持對端字幕與對端視頻信息在時間上的同步性。步驟S305 在可視電話上一并顯示疊加后的對端字幕和對端視頻信息。步驟S306 如果不需要與對端視頻信息相疊加，則在可視電話上直接顯示對端字幕，這種情況下，可視電話用戶只看到對端字幕，這些字幕并未與對端視頻信息一同顯示。圖4為本發(fā)明的可視電話通訊方法中選擇發(fā)送本端字幕或顯示對端字幕的實施方式，包括以下步驟
7
步驟S400 開啟字幕功能。步驟S401 判斷是否選擇了發(fā)送本端字幕的功能？是則進入步驟S402，否則進入步驟S409。本實施方式中只設(shè)定可選擇發(fā)送本端字幕或顯示對端字幕兩種功能，實際上還可根據(jù)需要選擇其他功能，例如將可視電話中存儲的語音轉(zhuǎn)化成字幕、或?qū)⒈径苏Z音轉(zhuǎn)化成字幕，并與可視電話中存儲的視頻信息相疊加后進行發(fā)送或顯示的功能等。步驟S402 對本端語音進行識別，得到對應的文字信息。步驟S403 將文字信息轉(zhuǎn)化成本端字幕。步驟S404 判斷是否需要與本端視頻信息相疊加，如果是則進入步驟S405，否則進入步驟S408，該過程可由用戶自行選擇，也可在可視電話中直接默認一種方式。步驟S405 需要與本端視頻信息相疊加。步驟S406 對疊加后的本端字幕與本端視頻信息一并進行編碼。步驟S407:發(fā)送碼流。步驟S408 不需要與本端視頻信息相疊加，則對本端字幕進行編碼得到碼流，接著進入步驟S407發(fā)送碼流。步驟S409 未選擇發(fā)送本端字幕的功能，表明選擇了顯示對端字幕的功能，則對可視電話接收到的對端語音進行識別，得到對應的文字信息。步驟S410 將文字信息轉(zhuǎn)換成對端字幕。步驟S411 判斷是否需要與對端視頻信息相疊加，如果是則進入步驟S412，否則進入步驟S414。該過程可由用戶自行選擇，也可在可視電話中直接默認一種方式。步驟S412 將對端字幕與可視電話接收的對端視頻信息相疊加，保持對端字幕與對端視頻信息在時間上的同步性。步驟S3413 在可視電話上一并顯示疊加后的對端字幕和對端視頻信息。步驟S414 如果不需要與對端視頻信息相疊加，則在可視電話上直接顯示對端字
眷ο圖4所示的實施方式中，還可不包括步驟S401所述的判斷或選擇方式，實現(xiàn)在可視電話中既發(fā)送本端字幕又顯示對端字幕的功能，可視電話接收到的對端語音所對應的字幕顯示在可視電話上，對方也能夠接收到本端語音所對應的字幕。本實施方式根據(jù)具體需求，同樣可實現(xiàn)本端字幕與本端視頻信息相疊加，以及對端字幕與對端視頻信息相疊加的功能。因此本實施方式更加靈活、方便，進一步提高了用戶之間的通訊效率和用戶體驗度。本發(fā)明還保護了支持字幕功能的可視電話，該可視電話可為固定電話、手機、計算機和掌上電腦等能夠進行視頻通訊的終端。圖5為本發(fā)明的可視電話第一種具體實施方式
結(jié)構(gòu)框圖，包括語音識別模塊10、字幕轉(zhuǎn)換模塊20和字幕處理模塊30，箭頭所示方向表示為信息流的傳遞方向。其中，語音識別模塊10用于對語音進行識別，得到對應的文字信息，可視電話中可預先設(shè)定所要識別的語音，用戶也可自行指定需要識別的語音；字幕轉(zhuǎn)換模塊20用于將語音識別模塊10得到的文字信息轉(zhuǎn)換成字幕；字幕處理模塊30用于對字幕轉(zhuǎn)換模塊20轉(zhuǎn) 換后的字幕進行顯示或發(fā)送。本實施方式的可視電話還可包括視頻疊加模塊40，用于將字幕轉(zhuǎn)換模塊20轉(zhuǎn)換后的字幕與視頻信息相疊加，這種實施方式下，字幕處理模塊30還用于對疊加后的字幕與視頻信息一并進行顯示或發(fā)送。為了實現(xiàn)靈活的疊加方式，本實施方式還可進一步包括疊加控制模塊41，用于選擇需疊加的視頻信息或控制疊加方式；用戶可根據(jù)需求靈活選擇需要疊加的視頻信息，還可控制疊加方式，例如按照一定的透明度實現(xiàn)Alpha融合，或者將字幕與視頻信息分別縮放后按照一定的比例進行布局等。本實施方式的可視電話還可包括字幕功能開啟模塊11，用于開啟或關(guān)閉語音識別模塊10對語音進行識別的功能，該字幕功能開啟模塊11可由用戶在通訊之前或通訊過程中控制，也可在可視電話開機時自動開啟。本實施方式的可視電話還可包括字幕功能選擇模塊12，用于選擇語音識別模塊10需要識別的語音，例如本端語音或?qū)Χ苏Z音等。圖6為本發(fā)明的可視電話第二種具體實施方式
結(jié)構(gòu)框圖，本實施方式的可視電話能夠?qū)崿F(xiàn)本端字幕的發(fā)送功能。本實施方式與圖5相似，還包括本端視頻采集模塊50，通常為攝像頭等裝置用于采集視頻信息。本實施方式中，語音識別模塊10對本端語音進行識別時，字幕轉(zhuǎn)換模塊20 將語音識別模塊10得到的文字信息轉(zhuǎn)換成本端字幕；如果需要將本端字幕與本端視頻信息相疊加，視頻采集模塊50將采集到的本端視頻信息傳送至視頻疊加模塊40實現(xiàn)本端字幕和本端視頻信息的疊加。本實施方式的字幕處理模塊30包括編碼模塊31和發(fā)送模塊 32，其中，編碼模塊31用于對字幕轉(zhuǎn)換模塊20轉(zhuǎn)換后的本端字幕按照一定的視頻壓縮標準進行編碼得到碼流，或者對疊加后的本端字幕與本端視頻信息一并進行編碼得到碼流(例如編碼標準為H. 263)；發(fā)送模塊32用于發(fā)送編碼模塊31編碼后的碼流。本實施方式的可視電話同樣可以包括圖5所示的字幕功能開啟模塊11和字幕功能選擇模塊12。圖7為本發(fā)明的可視電話第三種具體實施方式
結(jié)構(gòu)框圖，本實施方式的可視電話能夠?qū)崿F(xiàn)對端字幕的顯示功能。本實施方式與圖5相似，還包括視頻接收模塊60和視頻解碼模塊70，視頻接收模塊60用于接收對端視頻，視頻解碼模塊70用于對接收到的對端視頻進行解碼。本實施方式中，語音識別模塊10對對端語音進行識別時，字幕轉(zhuǎn)換模塊20將語音識別模塊10得到的文字信息轉(zhuǎn)換成對端字幕，如果需要將對端字幕與對端視頻信息相疊加，視頻解碼模塊70 將解碼后的對端視頻信息傳送至視頻疊加模塊40實現(xiàn)對端字幕和對端視頻信息的疊加。本實施方式的字幕處理模塊30包括顯示模塊33，用于顯示字幕轉(zhuǎn)換模塊20轉(zhuǎn)換后的對端字幕，或者顯示疊加后的對端字幕和對端視頻信息。本實施方式的可視電話同樣可以包括圖5所示的字幕功能開啟模塊11和字幕功能選擇模塊12。圖6和圖7所示的實施方式分別實現(xiàn)了可視電話的發(fā)送本端字幕和顯示對端字幕功能，通過融合兩圖所述的功能模塊還可在可視電話中實現(xiàn)兩種功能，用戶可自行選取、切換其中的功能或者同時實現(xiàn)兩種功能。實現(xiàn)兩種功能時，可視電話中的語音識別模塊10 和字幕轉(zhuǎn)換模塊20對指定的語音進行統(tǒng)一處理，或按照圖8所示的優(yōu)選的實施方式進行處理。圖8所述的實施方式中，語音識別模塊10、字幕轉(zhuǎn)換模塊20都包括兩個子模塊，分別實現(xiàn)本端語音的發(fā)送和對端語音的顯示功能，該優(yōu)選的實施方式對子模塊的功能進行區(qū)分，處理效率更高，且易于實現(xiàn)兩種功能的同步進行。例如圖8為本發(fā)明的可視電話第四種具體實施方式
結(jié)構(gòu)框圖，該實施方式中，語音識別模塊10包括第一語音識別模塊13和第二語音識別模塊14，第一語音識別模塊13用于對本端語音進行識別，得到對應的文字信息；第二語音識別模塊14用于對對端語音進行識別，得到對應的文字信息。字幕轉(zhuǎn)換模塊20包括第一字幕轉(zhuǎn)換模塊21和第二字幕轉(zhuǎn)換模塊22，第一字幕轉(zhuǎn)換模塊21用于將第一語音識別模塊13得到的文字信息轉(zhuǎn)換成本端字幕；第二字幕轉(zhuǎn)換模塊22用于將第二語音識別模塊14得到的文字信息轉(zhuǎn)換成對端字幕。視頻疊加模塊40 (本圖未畫出)包括第一視頻疊加模塊41和第二視頻疊加模塊42，第一視頻疊加模塊41用于將本端字幕與本端視頻信息相疊加；第二視頻疊加模塊42用于將對端字幕與對端視頻信息相疊加。字幕處理模塊30包括編碼模塊31、發(fā)送模塊21和顯示模塊 33，編碼模塊31用于對第一字幕轉(zhuǎn)換模塊21轉(zhuǎn)換后的本端字幕進行編碼得到碼流，或?qū)Ρ?端字幕和本端視頻信息一并進行編碼，發(fā)送模塊32用于發(fā)送編碼模塊31編碼后的碼流，顯示模塊33用于顯示第二字幕轉(zhuǎn)換模塊22轉(zhuǎn)換后的對端字幕，或疊加后的對端字幕和對端視頻信息。以上內(nèi)容是結(jié)合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明，不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干簡單推演或替換，都應當視為屬于本發(fā)明的保護范圍。
權(quán)利要求
一種可視電話通訊方法，其特征在于，包括以下步驟步驟A可視電話對語音進行識別，得到對應的文字信息；步驟B將所述文字信息轉(zhuǎn)換成字幕；步驟C顯示或發(fā)送所述字幕。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于步驟A中可視電話對本端語音進行識別，得到對應的文字信息，步驟B將所述文字信息轉(zhuǎn)換成本端字幕，步驟C中對所述本端字幕進行編碼得到碼流，并發(fā)送所述碼流。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于步驟A中可視電話對對端語音進行識別，得到對應的文字信息，步驟B將所述文字信息轉(zhuǎn)換成對端字幕，步驟C在可視電話上顯示所述對端字幕。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于步驟C之前還包括以下步驟將所述本端字幕與可視電話采集的本端視頻信息相疊加；步驟C中對所述疊加后的本端字幕和本端視頻信息一并進行編碼得到碼流，并發(fā)送所述碼流。
5.根據(jù)權(quán)利要求3所述的方法，其特征在于步驟C之前還包括以下步驟將所述對端字幕與可視電話接收的對端視頻信息相疊加；步驟C在可視電話上一并顯示所述疊加后的對端字幕和對端視頻信息。
6.一種可視電話，其特征在于，包括語音識別模塊、字幕轉(zhuǎn)換模塊和字幕處理模塊；語音識別模塊用于對語音進行識別，得到對應的文字信息；字幕轉(zhuǎn)換模塊用于將所述語音識別模塊得到的文字信息轉(zhuǎn)換成字幕；字幕處理模塊用于顯示或發(fā)送所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字幕。
7.根據(jù)權(quán)利要求6所述的可視電話，其特征在于還包括視頻疊加模塊，所述視頻疊加模塊用于將所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字幕與視頻信息相疊加；所述字幕處理模塊還用于一并顯示或發(fā)送所述疊加后的字幕和視頻信息。
8.根據(jù)權(quán)利要求7所述的可視電話，其特征在于還包括疊加控制模塊，所述疊加控制模塊用于選擇需疊加的視頻信息或控制疊加方式。
9.根據(jù)權(quán)利要求8所述的可視電話，其特征在于所述疊加方式包括按照一定的透明度疊加，或?qū)⑺鲎帜慌c視頻信息分別縮放后按照一定的比例布局。
10.根據(jù)權(quán)利要求6至9中任一項所述的可視電話，其特征在于所述字幕處理模塊包括編碼模塊和發(fā)送模塊；所述語音為本端語音時，所述語音識別模塊用于對所述本端語音進行識別，得到對應的文字信息，所述字幕轉(zhuǎn)換模塊用于將所述語音識別模塊得到的文字信息轉(zhuǎn)換成本端字幕，所述編碼模塊用于對所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端字幕進行編碼得到碼流，所述發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼流。
11.根據(jù)權(quán)利要求6至9中任一項所述的可視電話，其特征在于所述字幕處理模塊包括顯示模塊；所述語音為對端語音時，所述語音識別模塊用于對所述對端語音進行識別，得到對應的文字信息，所述字幕轉(zhuǎn)換模塊用于將所述語音識別模塊得到的文字信息轉(zhuǎn)換成對端字幕，所述顯示模塊用于顯示所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對端字幕。
12.根據(jù)權(quán)利要求6至9中任一項所述的可視電話，其特征在于所述語音識別模塊包括第一語音識別模塊和第二語音識別模塊，所述語音為本端語音時，所述第一語音識別模塊用于對所述本端語音進行識別，得到對應的文字信息，所述語音為對端語音時，所述第二語音識別模塊用于對所述對端語音進行識別，得到對應的文字信息；所述字幕轉(zhuǎn)換模塊包括第一字幕轉(zhuǎn)換模塊和第二字幕轉(zhuǎn)換模塊，所述第一字幕轉(zhuǎn)換模塊用于將所述第一語音識別模塊得到的文字信息轉(zhuǎn)換成本端字幕，所述第二字幕轉(zhuǎn)換模塊用于將所述第二語音識別模塊得到的文字信息轉(zhuǎn)換成對端字幕；字幕處理模塊包括編碼模塊、發(fā)送模塊和顯示模塊，所述編碼模塊用于對所述第一字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端字幕進行編碼得到碼流，發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼流，所述顯示模塊用于顯示第二字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對端字幕。
13.根據(jù)權(quán)利要求6至9中任一項所述的可視電話，其特征在于還包括字幕功能選擇模塊，所述字幕功能選擇模塊用于選擇所述語音識別模塊所需識別的語音。
全文摘要
本發(fā)明公開了一種可視電話通訊方法，包括以下步驟，步驟A可視電話對語音進行識別，得到對應的文字信息；步驟B將所述文字信息轉(zhuǎn)換成字幕；步驟C顯示或發(fā)送所述字幕。本發(fā)明還保護了一種實現(xiàn)該通訊方法的可視電話。本發(fā)明的可視電話及其通訊方法不僅能夠?qū)崿F(xiàn)視頻通訊，而且支持字幕功能，例如發(fā)送本端字幕或在可視電話中顯示對端字幕等，還可使字幕與視頻信息相疊加，因此適用于多種場合和多種用戶，靈活便利，提高了通訊效率和用戶體驗度。
文檔編號H04N7/52GK101931779SQ200910108380
公開日2010年12月29日申請日期2009年6月23日優(yōu)先權(quán)日2009年6月23日
發(fā)明者梁立偉, 王寧申請人:中興通訊股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁立偉;王寧
技術(shù)所有人：中興通訊股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

可視電話相關(guān)技術(shù)

可視電話尺寸相關(guān)技術(shù)

可視電話門鈴相關(guān)技術(shù)

室內(nèi)可視電話安裝圖解相關(guān)技術(shù)

門禁可視電話相關(guān)技術(shù)

可視電話會議系統(tǒng)相關(guān)技術(shù)

華為可視電話相關(guān)技術(shù)

入戶可視電話尺寸相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種可視電話及其通訊方法