專利名稱:動態(tài)圖像信息的高性能編碼壓縮系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明,與可視電話等所需要的,降低比特率的動態(tài)圖像信息的編碼壓縮系統(tǒng)相關(guān)。換言之,在圖像信息中,有比較重要的部分,比如在可視電話中人說話時嘴唇運動的臉部圖像;也有不太重要的部分,比如人的臉部圖像以外的背景;把它們加以區(qū)別,著重重要部分的信息處理,以此來提高信息傳送效率,同時,原來的電話線路制約著不斷增長的傳送容量,只有將圖像信息傳送量壓縮到最小限度,以此來適應(yīng)原來的電話線路,來同步傳送接近自然對話的表情,特別要實現(xiàn)說話時聲音與嘴唇的運動同步傳送,即唇聲同步。本發(fā)明就是涉及這樣的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng)。
背景技術(shù):
以前的可視電話里所看到圖像,為了能夠在可以傳送的信息量允許范圍內(nèi)傳送信息,由于受電話線路的制約,圖像信息被削減,圖像質(zhì)量不佳,和電視的動態(tài)畫面相比,傳送的是近似于連續(xù)的缺乏變化的靜止畫面?;蛘哒f,感覺上,是把打電話人的臉部照片用傳真(FAX)比電話的聲音稍稍晚一點發(fā)送出來。這樣的話,同動態(tài)畫面機能相比,就要優(yōu)先維持每一幀的畫質(zhì)。而為了維持靜止畫面時的畫質(zhì),不得不降低理應(yīng)按每秒傳送25幀(歐洲,亞洲的PAL,SECAM方式電視)或者每秒30幀(日本等國的NTSC方式電視)的電視圖像的每秒可傳送的幀數(shù),即以大幅度降低電視原本具有的動態(tài)圖像機能作為代價。這樣,即使大多數(shù)的幀被削減,可是和聲音相比信息量還是很多,因其處理和傳送需要時間,最終導(dǎo)致接收延遲,所以嘴唇的運動和說話的聲音不一致。反過來,如果為了和延遲接收的圖像配合,而采取強制使聲音同步的方法。這樣,回話也將被延遲,就象在電視衛(wèi)星轉(zhuǎn)播見到的一樣,交談非常的不和諧。
發(fā)明內(nèi)容當然,可視電話等所采用的圖像,沒有必要追求像劇場放映的高品位電影那樣的畫質(zhì);可視電話只要能看到和講話人的說話相一致的嘴唇的運動,伴隨嘴唇的運動,面孔以外的部分,能達到每秒24幀(電影標準)或者是每秒25或者30幀(電視標準)的程度的高忠實度的運動圖像的還原,就能達到了可視電話本來的目的。根據(jù)這個目的,考慮畫面中包含被拍攝者面孔輪廓等的特定區(qū)域有沒有重要性,有選擇性地完成各個部分的信號處理。這樣就可以把信息量壓縮成必要的最小限度,同時又不損害可視電話談話的氣氛,這是本發(fā)明的目的之一。
根據(jù)可視電話本來的目的,把畫面中接收者不太感興趣的部分,以及容易產(chǎn)生興趣的醒目的面孔的部分作為特定區(qū)域進行區(qū)分。用達到每秒24幀(電影標準)或者是每秒25或者30幀(電視標準)的程度,實現(xiàn)真實運動的還原,而且嘴唇的運動和聲音相一致,實現(xiàn)唇聲同步傳送,這也是本發(fā)明的目的。
和可視電話的畫面相對應(yīng),根據(jù)人的興趣來區(qū)分輕重處理,這樣對占用有限而昂貴的傳送線路的動態(tài)圖像信息量進行壓縮,進而提高信息傳送的效率。這也是本發(fā)明的目的。
為此實現(xiàn)上述目的,本發(fā)明要解決的技術(shù)問題是1、首先,是在受到傳送線路的信息處理量的制約的時候,要對傳送信息做加權(quán)平均處理,也有必要進行有限的信息取舍,可是一定要把用來進行上述加權(quán)平均處理的選擇基準作為必要條件??墒?,作為選擇基準,如果把它設(shè)定為上述包含打電話人重點區(qū)域的窗口的時候,確定用這個窗口來追隨被攝像人的動作的手段,就變成了課題。
為此,可通過用窗口來追隨被攝主體的運動,把該窗口確定為對其包含的圖像部分的動態(tài)圖像信息進行加權(quán)平均的選擇基準;同時,用該窗口來追隨被攝主體的運動,從而確實達到對實際的動態(tài)圖像信息的加權(quán)平均。
2、在可視電話的使用當中,不僅把人的面部作為主體,同時,對于與所看到的說話人被看到的姿態(tài),手勢等動作相伴的動態(tài)圖像進行信息的重點處理,即加權(quán)平均,并且使之實時而且清晰??墒?,以前的做法并不設(shè)定可以追隨手等部分的運動的窗口,所以就不能對這個部分進行實際的動態(tài)圖像信息的加權(quán)平均。
為此,可把與說話人的姿態(tài),手勢等動作相關(guān)連的動態(tài)圖像也著實地作為加權(quán)平均的選擇基準,并且以此作為周邊窗口,用該周邊窗口來追隨被攝像人的手勢等動作,其目的是以人的面部為主體,以姿態(tài)和手勢作為連帶部分,以此來進行動態(tài)圖像信息的加權(quán)平均處理。
3、在汽車里配備的移動式可視電話,攝取的是連續(xù)移動的背景。背景的移動很快,所以動態(tài)圖像的信息量劇增,如何大幅度地削減其信息量,是我們研究的課題。可是,在什么時候需要大幅度削減這種因為背景劇烈移動造成的信息量以及合適的處理方法還沒有確定。為此,就是確定在什么時候大幅度削減這種因為背景劇烈移動造成的信息量,并進行合適的處理,目的就是確立一種把不重要的背景的動態(tài)圖像在視覺上不難看出的程度上進行適當?shù)娜∩岬氖侄巍?br>
4、從動態(tài)圖像中把運動信息提取出來,將它與已經(jīng)被解碼的參照圖像進行運動補償后合成的預(yù)測圖像相比較得到差分圖像,對此差分圖像進行壓縮,傳送,通過此編碼方式,進而確立改善解碼器一側(cè)被還原的動態(tài)圖像的畫質(zhì)的手段。與此相關(guān)的是,在差分圖像進行壓縮時摻雜進來的噪聲信號,在提高壓縮率的同時也被加大了,結(jié)果是,導(dǎo)致解碼器一側(cè)圖像畫質(zhì)的降低。更進一步的情況是,以這個畫質(zhì)不好的解碼圖像為基準而合成的預(yù)測圖像,其預(yù)測精度也降低了,這樣,差分圖像的信息量還要增加,壓縮率還要提高,如此導(dǎo)致惡性循環(huán),這是問題點。
為此,用把在時間關(guān)系上前后的2個圖像幀合成的預(yù)測圖像作為圖像解碼時使用的B幀圖像,其他的圖像幀解碼時與它沒有關(guān)系,所以不會影響其他的圖像幀的畫質(zhì),利用這個特點,把B幀的差分圖像信息強制設(shè)為0,以此把B幀浪費的信息量抑制在最小限,而把節(jié)省下來的部分用在對畫質(zhì)具有直接影響的I幀或P幀使之可以分擔更多的信息量,這正是目的所在。
5、圖像信息進行編碼并傳送,其解碼還原的圖像中包含了被編碼的噪聲。從對這些噪聲進行削減的效果來看,灰度信號和色差信號相比,我們知道利用色差信號進行噪聲削減的效果,從人眼的視覺特點出發(fā)效果更佳,因而我們確立在色差信號上進行有效的噪聲削減的手段。
所以,雖然在H.263+標準中已經(jīng)確立了“作為正式可選項的色差信號的噪聲削減方法”,可是在“作為正式可選項的色差信號的噪聲削減方法”中并不具備圖像信息編碼傳送系統(tǒng),所以,這里以更加簡潔的結(jié)構(gòu)以及不一樣的方法來提供「色差信號的噪聲削減手段」。這是該發(fā)明的目的。
6、是在編碼器中信息壓縮處理的比特率的控制機構(gòu)。其必要性有兩點原因,原因之一是為了適應(yīng)傳送線路對信息傳送量的限制;原因之二是如果解碼器對動態(tài)圖像的還原速度是一定的話,各個幀的比特長度應(yīng)該盡可能地平均化。
在以前的比特率控制方式中,根據(jù)國際電信同盟ITU(InternationalTelecommunication Union)發(fā)布的可視編解碼測試模型近期版本11(VideoCodec Test Model,Near-Term,Version11)(以下,簡稱為TMN-11),依據(jù)H.263+標準中的動態(tài)圖像信息壓縮軟件程序,有幾種可以采用的方式。
可是,以前的比特率控制方式的情形是,從攝像頭輸入的圖像經(jīng)過上述編碼器、傳送線路以及解碼器直到輸出解碼后的圖像,這期間發(fā)生時間延遲及幀幅損失。而以前的比特率控制方式不具備為了使該延遲以及損失的幀數(shù)達到最小限度所需要的嚴格控制這種延遲時間的機能;這樣,延遲時間成為問題,也就是說和無延遲的聲音相比,表示嘴部運動的動態(tài)圖像滯后了,由此導(dǎo)致嘴部的運動和聲音不能同步,帶來這樣的課題。而且,為了使上述各個圖像幀的比特長度精確的平均化,需要非常復(fù)雜的計算;而計算處理的同時,又不可避免地導(dǎo)致上述延遲時間的發(fā)生。
在此,是用簡單的計算來置換過去所作的那些為了把上述各個圖像幀的比特長度進行高精確度的平均化而不可缺少的復(fù)雜的計算,進而減少計算處理所需要的延遲時間,目的是提供能夠?qū)崿F(xiàn)唇聲同步的系統(tǒng)。
7、把很多硬件模塊進行相互之間有效地結(jié)合并構(gòu)成一個系統(tǒng),這時候,考慮相互之間的關(guān)聯(lián),所有的硬件模塊都符合設(shè)計的情形是不存在的,這樣,要縮短完成整個系統(tǒng)的設(shè)計所需要的時間是比較困難的,這是一個缺點;當然,一個地方的設(shè)計變更就要涉及整個設(shè)計,設(shè)計上的制約也很多。
在此,不是把很多的硬件模塊進行相互之間有效地結(jié)合,也就是說沒有和數(shù)據(jù)交換有關(guān)的橫的連接,只通過縱的連接和控制中心連接,由這個控制中心完成控制。具體地說,把這些硬件模塊相關(guān)的輸入輸出數(shù)據(jù)全部暫時存放在存儲器里,這些硬件模塊的行為序列以及公用的輸入輸出數(shù)據(jù),都由控制中心進行控制。通過這樣的結(jié)構(gòu),這些硬件模塊的行為就不互相依賴,而是各自獨立。這樣不同的模塊設(shè)計具有獨立性,設(shè)計上的制約也明顯減少;更多的設(shè)計人員分擔不同的設(shè)計任務(wù),這樣,達到縮短整個系統(tǒng)設(shè)計需要的時間的目的。
8、是窗口存儲器共享處理器陣列,即窗口MSPA(Memory SharingProcessor Array)的特點,在不降低“并行效率”的同時,從上述外部存儲器把“搜索數(shù)據(jù)”和參照數(shù)據(jù)依次輸入,這需要“窗口并行處理”的執(zhí)行手段,目前為止并沒有這種方法。
在此,就是在不降低“并行效率”的同時,從上述外部存儲器把“搜索數(shù)據(jù)”和參照數(shù)據(jù)依次輸入,目的是確立執(zhí)行“窗口并行處理”的手段。
9、在動態(tài)圖像信息的編碼器以及解碼器中被使用的,從二維離散余弦變換器、量化器、逆量化器一直到逆二維離散余弦變換器,是通過把實現(xiàn)離散余弦變換和量化這兩種處理的裝置進行合理組合來實現(xiàn)的。此方面的研究正在進行。可是,要實現(xiàn)這些,在理論上尚處于摸索階段的結(jié)構(gòu),現(xiàn)實的做法是,對應(yīng)外部存儲器的數(shù)據(jù)傳送方法,組成以前沒有的一些新的結(jié)構(gòu),以從整體上尋求效率良好的方法,這樣才能完成目的。
這里,從外部存儲器讀取數(shù)據(jù),把它們進行二維離散余弦變換以及量化,然后存放到外部存儲器中;與此相似,從外部存儲器讀取數(shù)據(jù),對它們進行逆量化和二維離散余弦逆變換,并存放到外部存儲器中。目的是確立在不降低數(shù)據(jù)傳送速率的情況下確立的高效率的手段。
為解決上述問題,本發(fā)明的技術(shù)方案內(nèi)容是一、針對在識別處理中的動態(tài)圖像的畫面中任意移動的特定區(qū)域,也就是被優(yōu)先進行信息處理的窗口(21),將構(gòu)成該窗口的整個圖像分割成矩形的小塊,依次對矩形小塊處理,并利用與塊的動態(tài)圖像運動相伴的運動矢量,來推定下一幀的臉部的窗口的位置,進而能夠用窗口(21)來追隨被攝主體的運動。
這樣,把窗口(21)明確為進行動態(tài)圖像信息加權(quán)平均處理的判定基準,同時因為窗口(21)追隨上述被攝主體的運動,所以能夠真實地進行動態(tài)圖像信息的加權(quán)平均處理。
二、根據(jù)前一幀和當前幀的差分超過規(guī)定的閾值作為條件,來判斷次于被攝主體而具有稍差重要性的對象部分所包含的任意變動的區(qū)域,即上述被優(yōu)先進行信息處理的特定的區(qū)域的周邊運動窗口(51),將構(gòu)成它的整個圖像分割成矩形的小塊;依次對其處理,并利用與塊的動態(tài)圖像運動相伴的運動矢量,來推定下一幀的周邊運動窗口的位置和區(qū)域,進而能夠用周邊運動窗口(51)來追隨上述任意變動的區(qū)域,舉例說,不僅把人的臉部作為主體,同時,伴隨著姿勢、手勢等動作的對象部分,與其相對應(yīng)的動態(tài)圖像信息也要進行加權(quán)平均處理,并且明確把上述周邊運動窗口確定為該加權(quán)平均的選擇基準。同時,用上述周邊運動窗口追隨人的手等的運動,這樣就能夠把以人的臉部為主體并伴隨姿勢、手勢等動作的對象部分進行真實的動態(tài)圖像信息的加權(quán)平均處理。
三、在上述窗口(21)和上述周邊窗口(51)的范圍之內(nèi)區(qū)分被攝主體和背景,在其背景的運動很劇烈因而動態(tài)圖像信息量增多的時候,削減上述背景的運動量,以此弱化背景畫質(zhì)的計算,即,在當前幀的“宏塊”圖像中,把與該“宏塊”圖像處在同一位置的前一圖像幀的數(shù)據(jù),按照一定的比例進行相加混合,具備這種時間方向的濾波器,以此削減上述的背景的動態(tài)圖像信息量。
這樣,就要確定在什么時候大幅度削減這種因為背景劇烈移動造成的信息量,同時又要進行合適的處理,把不重要的背景的動態(tài)圖像在視覺上不難看出的程度上進行適當?shù)娜∩帷?br>
四、把當前幀的圖像、前面參照幀的圖像以及后面參照幀的圖像輸入并進行運動預(yù)測、運動補償并且確定預(yù)測方式,這是運動預(yù)測功能模塊;把從這個運動預(yù)測功能塊輸出的預(yù)測圖像與當前幀的圖像之間的差分信號輸入,并把這個差分信號的全像素值進行強制的歸零,這是全像素值歸零化功能模塊;輸入從這個全像素規(guī)零化功能塊輸出的歸零化的全像素信息,而且在使用上述運動預(yù)測功能塊決定的預(yù)測方式來預(yù)測動態(tài)圖像的下一個運動的同時,把上述的歸零化全像素進行編碼,這是編碼合成模塊;由以上模塊構(gòu)成編碼器。通過這個編碼器進行編碼壓縮并傳送出去,經(jīng)過傳送線路接收到這些動態(tài)圖像信息,對其進行解碼,這是解碼模塊;把從這個解碼模塊輸出的信號輸入并進行逆量化,這是逆量化模塊;把從逆量化模塊輸出的信號輸入并進行離散余弦逆變換,并進而還原為差分圖像,這是離散余弦逆變換模塊;把這個還原的差分圖像和通過上述預(yù)測方式預(yù)測并得到的預(yù)測圖像進行相加,輸出還原的圖像,這是加法器模塊;由以上模塊構(gòu)成解碼器。綜上,配備這樣的解碼器和編碼器,并進行B幀的處理。
所以,作為從前后的參照幀的圖像信息得到的差分信號,在把當前幀的信息進行壓縮的B幀的編碼方式中,不是象以前的方式那樣傳送差分信號自身,而是傳送差分計算的種類、也就是以只發(fā)送順方向預(yù)測、逆方向預(yù)測還是兩方向預(yù)測這種信息來確立B幀信息壓縮的方法。這樣,在上述動態(tài)圖像的運動很劇烈的時候,上述差分圖像的信息量就變得很多;為了使上述差分圖像的信息量最小,全像素被強制歸零,這樣通過使傳送的圖象以最少的信息傳送,從而使接收者能夠進行還原。
五、不使用上述預(yù)測圖像,而僅僅對當前的“內(nèi)部宏塊”直接進行編碼,對這種“內(nèi)部宏塊”的處理中,灰度信號和色度信號通過四舍五入進行量化;對這種“內(nèi)部宏塊”以外的情況,灰度信號將根據(jù)取整方式進行削減并進行量化,而色度信號還是通過四舍五入進行量化;并且對灰度信號和色差信號使用同樣的量化級別,以此降低色差信號的噪聲。
這樣,根據(jù)在包含一個灰度信號和兩個色差信號的編碼器中通過量化進行變換的方法,在解碼器中用相同的量化級別進行解碼,就能夠減輕色差信號噪聲,從而確立了提高解碼圖像的視覺質(zhì)量的量化方法。這樣,使用比以前方法簡單的結(jié)構(gòu),卻能夠發(fā)揮有效削減色差信號的噪聲的效果,因而,能得到從人眼的特點出發(fā)、視覺上高畫質(zhì)的圖像。
六、把被編碼后的動態(tài)圖像信息的比特量和通信緩沖器殘留的比特量進行比較的比較手段;通過這個比較手段得到的比較結(jié)果,來控制幀的目標比特量以使上述殘留的比特量不枯竭的控制手段;使用通過這種控制手段得到的控制結(jié)果,對從攝像頭輸入的圖像從它經(jīng)由上述編碼器、傳送線路、以及上述解碼器直到輸出解碼的圖像這期間發(fā)生的延遲時間和舍去的幀幅數(shù)進行控制使之達到最小限度,利用這種針對每一幀幅的幀級別的比特率的控制的這種每幀的目標比特率的計算方法。
七、具備兩種計算手段。用前面幀的各個“宏塊”的量化級別的加權(quán)平均的平均值,來計算出在幀的最初的“宏塊”中應(yīng)用的量化的級別,這是最初的第一步的計算手段;用上述目標比特量、當前“宏塊”的實際的編碼量以及上述最初的“宏塊”中應(yīng)用的量化級別,來計算出第二步以后的“宏塊”所適用的量化級別的微調(diào)量,這是第二步計算方法。
所以,在上述“第六項”和“第七項”中,一方面要把圖像的編碼、信息的傳送以及編碼時產(chǎn)生的延遲時間抑制在最小限,也要把幀幅的丟失抑制在最小限;這就需要謀求每一幀的最適宜的目標編碼比特量(以下,把這種處理稱為幀級別比特率控制),同時把這以后的各個“宏塊”之中的量化級別調(diào)整到最合適的程度(以下,把這種處理稱為“宏塊”級別比特率控制)。這種方法雖然計算量很少,卻能發(fā)揮良好的控制能力。這樣,以前那種為了把各個圖像幀的比特長度進行高精度的平均化所必不可少的非常復(fù)雜的計算,就可以用簡單的計算替代了。這樣,能夠減少上述計算處理產(chǎn)生的延遲時間,實現(xiàn)“唇聲同步”。
八、具備這樣的編碼器和解碼器,其中包括存儲圖像幀信息的存儲器;彼此獨立操作的硬件模塊以數(shù)據(jù)總線相互結(jié)合的同時,由中心控制模塊控制存儲器和硬件模塊之間的數(shù)據(jù)流以及操作時序,即所謂的地址產(chǎn)生單元AGU;由這個AGU通過控制總線對各個硬件模塊進行控制并相互結(jié)合起來,從而構(gòu)成系統(tǒng)結(jié)構(gòu)。
這樣,把具有靈活性和高速性,而且省電的小規(guī)模集成電路的硬件模塊通過總線結(jié)合起來,使用AGU模塊控制它們的操作時序以及同存儲器的數(shù)據(jù)之間的數(shù)據(jù)流,如此確立最適合動態(tài)圖像壓縮的系統(tǒng)結(jié)構(gòu)。
九、具有這樣的中心控制模塊。圖像被分割成很多的塊,這些塊的坐標信息被處理后,存放到外部存儲器中,這種外部存儲器具有適合于這種塊處理方式的地址結(jié)構(gòu);在集中控制模塊中的具備的只讀存儲器ROM中以用來存放命令程序,這些命令程序控制著上述各個硬件模塊的執(zhí)行,而且這些命令可以產(chǎn)生以“宏塊”的坐標為單位、以塊為單位、以像素為單位的存儲器尋址地址,由此構(gòu)成其系統(tǒng)結(jié)構(gòu)。
于是,作為對各個硬件模塊的操作的開始和結(jié)束以及存貯器的數(shù)據(jù)輸入輸出的控制等等所有操作的集中控制的處理器,就能夠生成以“宏塊”的坐標為單位、以塊為單位、以像素為單位的存儲器地址。這樣,這些硬件模塊的操作就不互相依賴,而是各自獨立。設(shè)計上的制約也明顯減少;因此,更多的設(shè)計人員可以分擔不同的設(shè)計任務(wù),這樣就能夠縮短整個系統(tǒng)設(shè)計需要的時間。
十、具備以下模塊和手段。包括上述的外部存儲器;以及,把存儲器中的“宏塊”的數(shù)據(jù)按每個宏塊為單位轉(zhuǎn)換成串行輸入并進行數(shù)據(jù)形式變換用的緩存器;以及,把從該緩存器輸出的3端的數(shù)據(jù),提供給32位并行陣列,此陣列由被連接在一起的處理器單元構(gòu)成,稱為窗口處理用存儲器共享處理陣列結(jié)構(gòu),(窗口memory sharing process array architecture);以及,對該處理器單元的數(shù)據(jù)進行超高速運算的運算手段;以及,搜索用來表示當前幀的“宏塊”是從前面幀的什么位置移動過來的運動矢量的運動矢量搜索回路。
這樣,在各式各樣硬件模塊之中,全部80%以上的處理量是由運動矢量搜索電路完成,為此,確立了由多個處理器進行高效工作的結(jié)構(gòu)。用這種結(jié)構(gòu)就可以不降低高速并行的效率,而通過從外部存儲器把搜索數(shù)據(jù)和參照數(shù)據(jù)串行輸入,就能夠進行窗口的并行處理。
十一、具備以下模塊和手段。包括外部存儲器;以及,從外部存儲器把由橫8×豎8=64像素構(gòu)成的“宏塊”的數(shù)據(jù)依次輸入,同時,在不降低數(shù)據(jù)傳送率的的情況下,把串行數(shù)據(jù)變換成并行數(shù)據(jù),這樣的兩組的數(shù)據(jù)形式變換手段;以及,借助于這種數(shù)據(jù)形式變換手段,對上述并行數(shù)據(jù)進行2元離散余弦變換,這樣的處理器陣列;以及,把從這個處理陣列進行2元離散余弦變換后的輸出,再輸入,并對其進行量化,然后把數(shù)據(jù)進行輸出并存儲到外部存儲器中,這樣的量化模塊。
這樣,有一些在運動矢量預(yù)測計算之后需要大量的計算模塊如離散余弦變換和量化電路,以及,與它們執(zhí)行相反操作的逆量化電路和逆離散余弦變換模塊,這些模塊中,要在不影響其內(nèi)部高速操作的同時,對外部存儲器儲存的數(shù)據(jù)進行串行的讀取、并行處理以及存儲。這樣,確立了在不降低高速的數(shù)據(jù)傳送速率以及并行處理的效率的情況下,從外部存儲器串行輸入像素數(shù)據(jù),然后進行并行處理的手段。
本發(fā)明與現(xiàn)有技術(shù)相比,具有以下積極效果1、依上述發(fā)明內(nèi)容第一項(以下把“上述發(fā)明內(nèi)容”略去),把窗口21確定為進行動態(tài)圖像信息的加權(quán)平均所需要的判別基準;進而通過上述窗口來追隨被攝人的運動,能夠進行可靠的動態(tài)圖像信息的加權(quán)平均。
2、依第二項,不僅把人的臉部作為主體,對于伴有姿態(tài)、手勢等動作的對象部分的動態(tài)圖像信息,把周邊運動窗口確定為對它進行加權(quán)平均的判別基準;進而通過上述周邊運動窗口來追隨人手等的動作,這樣,能夠把以人的臉部為主體,同時伴隨姿態(tài)、手勢等動作的對象部分,進行可靠的動態(tài)圖像信息的加權(quán)平均。
3、依第三項,確定在背景的運動劇烈時對其信息量進行大幅度的削減;同時進行適當?shù)奶幚?,能夠把不重要的背景的動態(tài)圖像在不難看的程度進行適當?shù)娜∩帷?br>
4、依第四項,在上述動態(tài)圖像的運動很激烈的時候,差分圖像的信息量大量增加,對于B幀,應(yīng)該盡可能地使差分圖像的信息量最小,通過把差分全像素值強制歸零,能夠以最少的信息,把傳送源的圖像在接受方還原。
5、依第五項,使用比以前簡單的結(jié)構(gòu),卻能夠發(fā)揮顯著的削減色差信號噪聲的效果,因而,能得到從人眼的特點出發(fā)、視覺上高畫質(zhì)的圖像6、依第六項和第七項,為了對各個圖像幀的比特長度進行高精度的平均化,把從前不可或缺的非常復(fù)雜的計算用簡單的計算來替代,這樣減少了上述計算處理所造成的延遲時間,能夠?qū)崿F(xiàn)“唇聲同步”。
7、依第八項和第九項,不同的模塊的設(shè)計具有獨立性,設(shè)計上的制約也明顯減少;更多的設(shè)計人員可以分擔不同的設(shè)計任務(wù),這樣,能夠縮短整個系統(tǒng)設(shè)計需要的時間。
8、依第十項,不降低高速并行的效率,從外部存儲器串行輸入搜索數(shù)據(jù)和參照數(shù)據(jù),能夠?qū)嵭写翱诓⑿刑幚怼?br>
9、依第十一項,不降低數(shù)據(jù)傳送速率,從外部存儲器串行輸入數(shù)據(jù),能夠進行二元離散余弦變換以及量化和逆量化和二元離散余弦逆變換。
本發(fā)明,因為按照以上說明構(gòu)成了動態(tài)圖像信息的高性能編碼壓系統(tǒng),能夠最大限度有效地發(fā)揮使用光纖通信以前的既成的電話線路。也就是說,用被限定的一定頻帶帶寬線路,只對聲音進行高效率的傳送,在這樣的前提下來構(gòu)筑系統(tǒng)。雖然是在現(xiàn)有的電話線路網(wǎng)(也包含了無線)所規(guī)定的信息傳送容量的制約范圍內(nèi),但卻實現(xiàn)了十分實用的電視圖像的傳送,而且是唇聲同步傳送聲音。因為電磁波的絕對速度達到光速,圖像傳輸?shù)难舆t可以忽略不計,所以,只要是沒有天文數(shù)字一樣的距離,就可以進行接近自然的電視交談。
本發(fā)明對舊的電話網(wǎng)是有效的,對今后的光纖網(wǎng)也是有效的。也就是說,在高速的大容量的傳送線路中,通過使用本發(fā)明的可視電話,可能增大通信的件數(shù)。因而,把便利帶給千家萬戶。
又比如,如果把本發(fā)明應(yīng)用到與128M比特DRAM組合的錄像還原裝置中,包含聲音的動態(tài)圖像以每秒34K比特的數(shù)據(jù)量進行壓縮,能夠?qū)崿F(xiàn)1個小時的記錄和還原,這樣就不需要以前的錄像機的錄像帶驅(qū)動裝置了,這樣的記錄再生裝置能夠很便宜地制造出來。正因為如此,ROM圖像再生裝置很容易普及,應(yīng)用范圍包括孩子的玩具、視聽教材、生活必需品以及公用設(shè)施等,應(yīng)用范圍和便利性數(shù)不勝數(shù)。
圖1是臉部的窗口的說明圖。
圖2是臉部的窗口和周邊運動窗口的說明圖。
圖3是削減背景信息量的方法的說明圖。
圖4是利用B幀處理進行信息量削減的方法的說明圖。
圖5是有關(guān)幀級別傳送率的條件以及變量一覽圖。
圖6是幀級別傳送率控制的處理流程圖。
圖7是與“宏塊”級別傳送率相關(guān)的變量和常數(shù)的一覽圖。
圖8是“宏塊”級別傳送率控制的處理流程圖。
圖9是“宏塊”級別傳送率控制中函數(shù)CQ(x)的定義的說明圖。
圖10是“宏塊”(i)中量化級別q的更新處理流程圖。
圖11是編碼器功能框圖。
圖12是解碼器功能框圖。
圖13是編碼器/解碼器兼用一體的功能框圖。
圖14是集中控制裝置(AGU)的功能框圖。
圖15是外部存儲器的存儲器領(lǐng)域的結(jié)構(gòu)圖。
圖16是運動矢量搜索線路圖。
圖17是離散余弦變換器以及量化器的功能框圖。
圖18是數(shù)據(jù)形式變換器功能框圖。
圖19是離散余弦變換/逆變換器的功能框圖。
圖20是離散余弦變換/逆變換器中的輸入處理部分的功能框圖。
圖21是離散余弦變換/逆變換器中的輸出處理部分的功能框圖。
上述附圖中的符號的說明1.存儲器2.數(shù)據(jù)總線3.AGU4.控制總線8,9.ROM10.運動矢量搜索部分21.窗口22.背景圖像39,57.緩沖器41.運動預(yù)測功能部分42.全像素值歸零化功能部分45.編碼生成部分46.解碼部分47.逆量化部分48.離散余弦逆變換部分44,49.加法部分51.周邊運動窗口55.數(shù)據(jù)格式變換器56.離散余弦變換/逆變換器101,102,…,132.處理器單元具體實施的方式下面,通過圖1到圖21,來說明本發(fā)明的實施形式。
圖1是窗口的說明圖。把臉部的窗口21從背景圖像22中區(qū)別開來,同時進行信息的加權(quán)平均;把臉部的窗口21作為重點,相反對背景圖像22特意降低畫質(zhì)以減少信息量。而且,通過用臉部的窗口21來追隨搖動的臉部的運動的機制,來連續(xù)更新到最新的位置。
識別處理中動態(tài)圖像的畫面中任意移動的特定區(qū)域,也就是被優(yōu)先進行信息處理的臉部的窗口(21),構(gòu)成它的所有像素被依次分割成矩形的小塊,在這種處理方式下,并利用與小塊的動態(tài)圖像運動相伴的運動矢量,來推定下一幀的臉部的窗口的位置,進而用臉部的窗口(21)來追隨被攝主體的運動。
在開始通信時,把固定形狀的臉部的窗口21設(shè)定在中央位置,在這個窗口21的內(nèi)部的“宏塊”的運動矢量之中,計算不為0的“宏塊”的平均值,把這個平均值作為窗口21的移動的方向,來更新窗口21的位置。
如果當初,人物的臉部沒有定位在畫面的中央,所以窗口21的位置和人的臉部不一致的時候,一旦具有運動矢量的臉的一部分進入窗口21的內(nèi)部,馬上就可以通過窗口21的運動矢量的作用,使窗口21逐漸與人物的臉靠近,直到最終一致。
這樣,通過把窗口21確定為進行動態(tài)圖像信息的加權(quán)平均的選擇基準。因為窗口21可以追隨臉部的運動,由此就能夠進行真實的動態(tài)圖像信息的加權(quán)平均。
下面,是ITU標準所規(guī)定的,與塊單位的處理相關(guān)的一些定義。以下的數(shù)字表示橫X豎的像素數(shù)量。動態(tài)圖像的一幀,由被稱為最小單位的塊構(gòu)成,一個塊包括8×8的像素;進而,16×16像素的灰度信號,以及8×8像素的兩個色差信號Cr、Cb,這三個在一起構(gòu)成的區(qū)域稱為“宏塊”。因而,“宏塊”由4個相鄰的灰度信號Y,和各為1個的色差信號Cr、Cb,合計6個塊構(gòu)成。
上述ITU標準中采用的一幀的標準的像素數(shù),由144×176像素的灰度信號、和72×88像素的2個色差信號Cr、Cb構(gòu)成;從4分之1通用中間格式QCIF(Quarter Common Intermediate Format)開始,以及CIF(Y288×352像素,Cr/Cb144×176像素)、以及4CIF(Y576×04像素,Cr/Cb288×52像素)等等,存在很多種類。本發(fā)明以上述ITU標準中被允許使用的完整的幀的尺寸為對象,上述的宏塊以及塊的單位是在適應(yīng)而且合乎信號處理所規(guī)定的限制范圍內(nèi)實行的。在這樣的限定條件的范圍內(nèi)提高畫質(zhì)是創(chuàng)新型的本發(fā)明所要遵循的要旨。
圖2是臉部的窗口同周邊運動窗口的說明圖,就是說在臉部的運動比較少的時候,對說話人的關(guān)心則集中于臉周圍,比如手上。此項正是要解決這個問題。具體的操作是,求出前面幀的圖像同當前幀的圖像的差分值,當差分值超過所規(guī)定的閾值以上時進行操作,把重要性僅次于臉部比如手臂等對象圍起來,也就是用16×16像素構(gòu)成的大像素塊(以下稱為“宏塊”)或者是8×8像素構(gòu)成的像素塊(以下稱為“塊”)構(gòu)成任意變動的區(qū)域,即窗口51,并對其進行優(yōu)先的信息處理。
于是,構(gòu)成上述周邊運動窗口51的整個圖象被分割成矩形的小塊,在這種逐次分割成矩形的方式下,同時利用與塊的動態(tài)圖像相伴的運動矢量,來推測下一幀的周邊運動窗口的位置和領(lǐng)域,從而使周邊運動窗口51能追隨上述任意變動的的區(qū)域。周邊運動窗口51,是和臉部的窗口21有區(qū)別的,它是根據(jù)前一幀圖像和當前幀圖像的差分值,而使用了比相應(yīng)的閾值更大的范圍,以此為原理計算出來的。而且可以適宜地變換為任意的形狀。
這個周邊運動窗口51在臉部的運動激烈的時候靠近臉部的窗口21,在臉部基本沒有運動的時候,閾值會適當變化,從而使該窗口覆蓋臉部的周邊部分。特別是在手做出動作的時候,周邊運動窗口能覆蓋手的動作。這樣,不僅把人的面部作為主體,而且把周邊運動窗口51確定為判別是否對帶有姿勢、手勢等動作的對象部分,進行動態(tài)圖像信息的加權(quán)平均的判別標準;而且,用周邊運動窗口51追隨手等部分的運動,這樣,就能夠?qū)σ匀说拿娌孔鳛橹黧w同時伴有姿勢、手勢等動作的對象部分進行實際的動態(tài)圖像信息的加權(quán)平均。
圖3是削減背景的信息量的方法的說明圖,除了面部窗口21之外,也包括周邊運動窗口51,把它們的范圍和背景相區(qū)別,關(guān)于這一點已經(jīng)通過圖2進行了說明。這是一種在背景運動比較激烈因而動態(tài)圖像信息量很多的時候,通過降低背景運動量來故意弱化背景的畫質(zhì)的算法。也就是說從當前幀的“宏塊”圖像和與其具有相同的位置的這一“宏塊”圖像在上一幀的數(shù)據(jù)按一定比例進行相加混合,用這樣的時間方向的濾波器(未作圖示),對上述背景的動態(tài)圖像信息進行削減。
把臉部的窗口21和周邊運動窗口51相結(jié)合,重點考慮這兩個領(lǐng)域,相反對與它們以外的背景圖像22故意降低畫質(zhì)來降低信息量,進行時間方向上的濾波。在這里,不是對當前幀的“宏塊”進行處理,而是取而代之對推導(dǎo)出的“宏塊”進行處理,該“宏塊”是利用從具有相同位置的前圖像幀(以下稱為“前幀”或“前參考幀”)的“宏塊”和當前幀的“宏塊”,通過對它們進行加權(quán)后進行平均化推導(dǎo)出來的“宏塊”。加權(quán)平均,可以認為是同位置的前幀的“宏塊”同當前幀的像素值的平均值。極端的情況是只有前幀的“宏塊”自己置換自己,此時平均圖像就是靜止圖像。通過這樣來抑制背景圖像的噪聲或運動,把背景畫面使用的信息量限定在很小的比例,這樣就能把更多比例的信息用于臉部和周邊運動領(lǐng)域。
這樣,消耗了大量地傳送信息量的運動激烈的動態(tài)圖像信息,通過時間濾波器的使用,雖然畫質(zhì)稍稍降低,但是能夠極大降低信息量。這些信息量大幅度削減的圖像經(jīng)過解碼器以后還原的時候,只有快速移動變化的場面畫質(zhì)稍稍受到一點影響。具體的說,在行駛的汽車中使用此可視電話的時候,作為講話人背景從車窗看到的移動的風景,稍稍有一點模糊。如此這樣,在背景移動激烈的時候,通過對其信息量進行大幅度的削減,同時進行適當?shù)奶幚恚@樣那些不重要的背景的動態(tài)圖像信息量,就能夠被適當?shù)叵鳒p到視覺上不至于難看的程度。
這里,預(yù)先說明一下I幀、P幀以及B幀之間的關(guān)系。
I幀,僅使用當前幀的圖像信息進行編碼,所以,其圖像不依賴于之前的解碼圖像的畫質(zhì)。
P幀,是根據(jù)前面參考幀(與當前幀相鄰的之前的已經(jīng)被編碼的I幀或P幀)的圖像,利用在運動預(yù)測器中求得的各個“宏塊”的運動矢量,生成運動補償?shù)念A(yù)測圖像,然后,把這個預(yù)測圖像和當前輸入幀的圖像的差分圖像信息進行壓縮(離散余弦變換、量化、可變長編碼化)并發(fā)送到解碼器。
對于P幀,解碼器對這個差分圖像信息的壓縮編碼進行解碼(離散余弦逆變換、逆量化、可變長解碼化),同時,P幀還有一個與I幀之不同之處是它把編碼器發(fā)送來的由運動矢量進行運動補償而得到的預(yù)測圖像(在編碼器一側(cè)的生成是同樣的)與差分圖像進行合并,以此完成P幀的解碼(解碼P幀=預(yù)測圖像+解碼差分圖像)。可是,在解碼差分圖像中混入了壓縮編碼時攜帶的噪聲。解碼后P幀的畫質(zhì),極大的依賴于預(yù)測圖像的預(yù)測精度(預(yù)測圖像同當前輸入幀的圖像的類似度),所以,它受到用于產(chǎn)生預(yù)測圖像的前參照幀的畫質(zhì)的直接影響。
換言之,前參照幀的畫質(zhì)惡化的時候,解碼后的當前P幀的畫質(zhì)也惡化,特別是給它以后的P幀的畫質(zhì)帶來連鎖的惡化的影響。反之,P幀的畫質(zhì)提高,以它為參照的幀的畫質(zhì)也提高,也帶來以后幀的畫質(zhì)的連鎖提高。
B幀,是以在時間關(guān)系上前后的2個參照幀(當前幀前相鄰以及后相鄰的被解碼后的I幀或者P幀)的圖像為基礎(chǔ),生成與上述同樣的預(yù)測圖像,進而,把和當前輸入幀之間的差分圖像信息的壓縮編碼送到解碼器。
在解碼器中,把被解碼的差分信息,同另一個信息,也就是從編碼器送來的的以運動矢量以及預(yù)測方向(同方向預(yù)測、反方向預(yù)測、雙方向預(yù)測)信息為基礎(chǔ)生成的預(yù)測圖像(在編碼器中的生成是同樣的),兩者進行合并,進而實現(xiàn)B幀的解碼。
B幀和P幀的不同點是,因為是在2個參照幀的基礎(chǔ)上生成的預(yù)測圖像,所以同P幀相比預(yù)測的精度更高,差分圖像的壓縮編碼量更小,這是一點;此外,因為B幀不以自身為參照,所以即使B幀的畫質(zhì)惡化,惡化的影響也不會波及其他(B幀以后)幀。這是另外一點。
可是,B幀的畫質(zhì)本身,同P幀一樣,極大地受到它所參照的幀的畫質(zhì)的影響。
圖4是通過B幀處理來削減信息量的方法的說明圖。在各個處理過程中對信號以及處理的名稱進行了標注,這里,當然不是僅僅把各個信號處理的功能塊的名稱標出來而已,而是把和各個處理相關(guān)的有必要說明的功能塊設(shè)定了編號。
首先,在圖4(a)所表示的編碼器中,當前幀圖像、前參照幀圖像以及后參照幀圖像被輸入到預(yù)測機能塊41。在這個運動預(yù)測機能塊中執(zhí)行運動預(yù)測、運動補償以及決定預(yù)測方式。接著,從這個運動預(yù)測功能塊41輸出的預(yù)測圖像與當前幀圖像之間的差分圖像信息被輸入到全像素歸零化功能塊,把該差分信息的所有像素進行強制歸零。
從該全像素歸零化功能塊42輸出的歸零的全像素信息經(jīng)由離散余弦變換塊43,再經(jīng)過量化部分44,被輸入到編碼生成部分45。編碼生成部分45,根據(jù)運動預(yù)測部分41確定的預(yù)測方式來預(yù)測動態(tài)圖像的下一個運動的同時,把上述歸零化的全像素信息進行編碼。編碼器完整的結(jié)構(gòu)將在后面圖11表示的結(jié)構(gòu)圖中敘述,圖12表示解碼器的結(jié)構(gòu)圖,圖13表示編碼器/解碼器兼容一體的結(jié)構(gòu)圖,后面將通過它們一起進行敘述,所以,這里僅就B幀處理中信號的流動進行表示,并說明其作用。
圖4(b)用來表示解碼器。從編碼器把動態(tài)圖像信號進行編碼壓縮,然后發(fā)送出來,經(jīng)過傳送線路100由解碼部分46接收并解碼,然后從解碼部分46把解碼信號輸入到逆量化部分47進行逆量化處理。接著,從逆量化部分47輸出逆量化信號,然后輸入到離散余弦逆變換部分48,在此進行離散余弦逆變換,通過以上這些步驟還原為差分信號,這個還原的差分圖像同根據(jù)上述預(yù)測方式進行預(yù)測得到的預(yù)測圖像合并,最后輸出解碼圖像。
一般來說,在所使用的動態(tài)圖像壓縮方式中,存在如下三種幀,即對當前輸入幀的圖像信息進行直接編碼的I幀;以及,當前幀的圖像信息通過之前的參照幀的圖像信息進行預(yù)測,把當前幀與這個預(yù)測圖像之間的差分圖像進行編碼的P幀;以及,通過從時間關(guān)系上前后的2個參照幀的圖像信息合成預(yù)測圖像,把與這個預(yù)測圖像之間的差分信號進行編碼的B幀。
這里所說的“參照幀”,指的是已經(jīng)被解碼的I幀或P幀。這里所說的“預(yù)測圖像”,指的是,參照幀與當前輸入幀之間發(fā)生的運動以各種的“宏塊”為單位來進行預(yù)測,并在參照幀中對運動量進行補償而得到的圖像最近,在H.263和H.263+標準中,提倡一種叫做PB幀的編碼方式,即,B幀和在它后面的P幀同時以“宏塊”為單位進行編碼。
以前的B幀,作為PB幀編碼方式中B幀的預(yù)測方法,存在以下3類預(yù)測前參照幀時使用的同方向預(yù)測;預(yù)測后參照幀時使用的反方向預(yù)測;預(yù)測前后兩方向的參照幀時使用的雙向預(yù)測。
以前,為了修正當前輸入幀圖像與預(yù)測圖像之間的偏差,把這些差分圖像進行編碼,然后送到解碼器;而在這里,正如圖4(a)所表示的,把其差分信號強制全部歸零的圖像,實質(zhì)上,就是只把上述三種B幀的預(yù)測方法作為信息來發(fā)送,以此來極大降低B幀信息量。這里所表示的就是這樣的方法。
B幀,正如前面已經(jīng)說明的,因為不作為其它幀進行編碼的參照幀,所以即使B幀的畫質(zhì)發(fā)生多少惡化,對它之后的幀的編碼也沒有影響。通過把B幀的信息量進行大幅度的降低而使P所占的信息量增加,其結(jié)果是P幀的畫質(zhì)得到了提高,正如之前說明的,動態(tài)圖像整個的畫質(zhì)也伴隨著提高了。
在強制使B幀的差分圖像全部歸零的圖像處理中,圖4(a)的虛線所包圍的離散余弦變換部分43以及量化部分不是必須的,可相應(yīng)做硬件的削減。
在解碼器一側(cè)引入這種新的B幀的編碼方法,并不需要變更解碼器一側(cè)的結(jié)構(gòu),就能完全保持與以前標準的互換性。這樣,在上述動態(tài)圖像的運動非常激烈的時候,其差分圖像的信息量也大大增加,為了盡量使差分圖像的信息量最小,通過強制使全像素值歸零,能夠以最少的信息量對原圖像進行還原。
這里,對降低圖像色差信號的噪聲,同時提高解碼圖像在視覺上的圖像品質(zhì)的量化法進行說明。通過解碼器還原的圖像的質(zhì)量,一般來說,是取決于在對灰度信號以及2個色差信號進行壓縮編碼過程中混入的噪聲量,人的視覺對色差信號特別敏感,由此可知,削減這兩個色差信號的噪聲,就可以提高視覺上圖像的質(zhì)量。
以前的量化方法,是通過指定的量化級別,并利用以下的公式,進行離散余弦變換,得到頻域的數(shù)據(jù)。
|L|=[(|C|-Q·s·(p+f))/(Q·s)]這里,|L|是被量化的數(shù)據(jù)的絕對值,|C|是原數(shù)據(jù)的絕對值,Q是量化級別,s是量化級別的修正值,p是逆量化修正值,f是取舍修正參數(shù),[]表示實數(shù)取整的變換計算。
逆量化修正值p以及量化級別修正值s,根據(jù)不同的動態(tài)圖像編碼標準來確定。在H263以及H263+標準中,逆量化修正值p,根據(jù)“宏塊”的編碼方式和頻率數(shù)據(jù)的種類,分別取0(“內(nèi)部宏塊”的直流成分的時候)或者取0.5(其他的情況),量化級別修正值固定取2。這里所說的“內(nèi)部宏塊”,指的是,不使用預(yù)測圖像而是直接對現(xiàn)在“宏塊”圖像進行編碼的“宏塊”。
另一方面,取舍修正參數(shù)f,在標準中并沒有規(guī)定,可以自由的設(shè)定。f=0.5的時候,意味著進行四舍五入的量化;f=0的時候,意味著進行取整(削減)量化。
在TMT-11中所采用的,以前的量化的方法中,取舍修正參數(shù)f,根據(jù)“宏塊”的編碼的方式,分別設(shè)定為0.5(“內(nèi)部宏塊”的情況),或0.25(其他的情況)。在灰度信號和兩個色差信號中使用相同的f值。
在本發(fā)明中,通過為不同性質(zhì)的灰度信號和色差信號設(shè)定f值,灰度信號和色差信號使用相同的量化級別,成功地大幅度降低了色差信號的噪聲。具體的說,如下所示來確定f值。(1)內(nèi)“宏塊”的情況,同以前一樣設(shè)定f=0.5(根據(jù)四舍五入進行量化)(2)其他的情況,灰度信號使用f=0(取整(削減)),色差信號取f=0.5(四舍五入)。
在灰度信號進行量化時,使用取整(削減)的方法,勢必增加量化的噪聲,所以以前根本沒有人考慮使用這種方法??墒?,對灰度信號取整(削減)的量化的效果是在取0值的量化中,頻率成分的個數(shù)急劇增加,這樣壓縮比率顯著上升,因此帶來量化級別的降低。量化級別的降低則抵消了量化的噪聲增加的傾向,最終的量化的噪聲僅僅增加0.0dB到0.3dB的程度,和以前的情形相比,基本沒有什么改變。相反,因為在色差信號的量化中使用四舍五入,色差的噪聲改善了1.2dB甚至1.3dB的程度??傮w上的信噪比改善了0.3dB。特別是,色差信號的噪聲的大幅度的降低,保證了顏色的正確還原,視覺效果上的圖像質(zhì)量獲得了大幅度的改善。因而,使用比以前簡單的結(jié)構(gòu),發(fā)揮了明顯的削減色差信號噪聲的效果,通過信噪比的改善,從人眼的特點出發(fā),取得了視覺上的實質(zhì)的畫質(zhì)的提高。
接下來,是“內(nèi)部宏塊”的DC系數(shù)(8×8塊的左上角的值)的量化。即,把DC系數(shù)除以8,余數(shù)四舍五入。相反,在解碼器一側(cè),上述的DC系數(shù),要由被量化的受信值乘以8得到,因而,[逆量化值]=8×[量化值]。當不使用預(yù)測圖像,而是對當前的“宏塊”(16×16或8×8)圖像直接編碼,只是在這種“內(nèi)部宏塊”的時候,才對灰度信號和色差信號進行四舍五入的量化。而對“內(nèi)部宏塊”以外的情況,灰度信號進行取整(削減)量化,色差信號進行四舍五入量化。
這樣,通過對灰度信號和色差信號使用同樣的量化級別,能夠降低色差信號的噪聲。但是從測量上看,削減同樣程度的噪聲,同灰度信號相比,對色差信號的削減,在視覺上的效果更高。因而,使用比以前簡單的結(jié)構(gòu),便發(fā)揮了明顯的削減色差信號噪聲的效果,通過信噪比的改善,從人眼的特點出發(fā),獲得了視覺上的實質(zhì)的畫質(zhì)的提高圖5是與幀級別率相關(guān)的條件以及變量的一覽圖。圖6時幀級別率的控制處理流程圖。圖5表示了在幀級別率的控制中,計算目標比特率時需要考慮的條件。輸入圖像1秒所對應(yīng)的畫面數(shù)G是根據(jù)編碼器一側(cè)的動態(tài)圖像輸入源(攝像機、錄像機)來決定,一般取值為25到30。對于輸出的圖像,1秒所對應(yīng)的畫面數(shù)F,取輸入圖像1秒對應(yīng)畫面數(shù)G以下的值,G和F的比值為整數(shù)。
在此,1幅輸出圖像幀所對應(yīng)的畫面數(shù)C,在下一幅輸出幀使用PB幀的編碼方式時,取值為C=2;在下一幅輸出幀使用I幀或P幀的編碼方式時,取值為C=1。編碼器中一秒所對應(yīng)的能夠還原的最大的畫面數(shù)H,取F以上的值??梢员WC的最大的幀延遲時間D,即從編碼器一側(cè)的圖像輸入開始,到解碼器一側(cè)的圖像還原之間需要的延遲時間,以輸入畫面周期(1/G)秒為單位時間來表示。這個延遲時間,除了依賴于各個畫面的編碼信息的發(fā)送所需要的時間,還依賴于編碼器和解碼器進行處理的延遲時間。這里,對此處理延遲時間忽略不計。再有,關(guān)于D應(yīng)該滿足的條件將在后面敘述。
圖5(b)表示的是根據(jù)圖5(a)的條件確定的3個變量,E是為了100%使用信道的帶寬而需要的最小比特量。當實際的比特量小于這個E的時候,用來儲存輸出信息的通信緩沖器變空,導(dǎo)致下溢出現(xiàn)象的發(fā)生,通訊速度的實際值下降,結(jié)果導(dǎo)致畫質(zhì)的惡化。
這里,L是能夠保證幀延遲時間D而需要的最大的比特量,當實際的編碼比特率超過L的時候,在解碼器中還原圖像的延遲就超過D了。為了減少下溢出現(xiàn)象從而進行穩(wěn)定的動態(tài)圖像通信,同時又能保證幀延遲時間D,L值必須取E以上的值,在圖5(a)中給出了D必須滿足的條件D≥(2C-1)G/F-1。再有,K是1幀對應(yīng)分配的比特量,設(shè)定為E以上L以下的值。還有,圖中的s,是確定效率值的常數(shù),取值從0到1之間。
圖5(c)表示的是依賴于各個圖像幀的編碼比特率的變量。圖5(a)(b)(c)中出現(xiàn)的變量R、G、F、C、H、D、E、L、K、W、B、U、T全部近似于整數(shù)。這樣,下面的幀的級別控制的處理可以全部是整數(shù)計算,硬件更容易實現(xiàn)。
圖6表示的是幀的級別率控制的處理流程圖。在圖6(S61)中,把通信緩沖器殘留的比特量W設(shè)定為0,開始的輸入畫面作為1幀進行編碼。在圖6(S62)中,判斷現(xiàn)在幀的比特量B是否為正值。如果B是正值,那么現(xiàn)在幀處理的時間為C/F,這個期間發(fā)送的比特量設(shè)定為R·C/F。如果B是負值,判斷當前的幀被跳過了,編碼處理時間和輸入畫面的周期是同樣的,為1/G秒,把這個期間發(fā)送的比特量U設(shè)定為R/G。在圖6(S63)中,通信緩沖器殘留的比特量W同當前幀的比特量B相加,并與在當前幀處理時間從通信緩沖器發(fā)送來的比特量U進行比較,進而更新W的值。
在圖6(S64)中,計算下一幀的目標比特量T,并在此時檢查W與L-E、F與H之間的大小關(guān)系。一般的情況是W<L-E,這時,從一幀對應(yīng)的比特量K之中減去通信緩沖器殘留的比特量W,把其差值設(shè)定為T。而在W>L-E的時候,當前幀無法在保證的幀延遲時間以內(nèi)在解碼器中還原,于是超過保證的延遲時間以上的滯后現(xiàn)象會暫時發(fā)生(以下,把這種情況稱為“過剩延遲狀態(tài)”)。這以后,在編碼器一側(cè),為了消除這種暫時的過剩延遲狀態(tài),對K進行設(shè)定,如果解碼器一秒對應(yīng)的能夠還原的最大的畫面數(shù)H大于輸出圖像一秒對應(yīng)的畫面數(shù)F的話,就能夠在解碼器一側(cè)消除這種過剩延遲狀態(tài)。
可是,例如在H和F相等的時候,此時,雖然在編碼器一側(cè)消除了過剩延遲狀態(tài),可如果不能在解碼器一側(cè)消除,恐怕過剩延遲狀態(tài)還要繼續(xù)。這樣,暫時的過剩延遲狀態(tài)無法監(jiān)測,而且過剩延遲狀態(tài)持續(xù)的時候,很多時候產(chǎn)生延遲過大的問題,因而,在W>=L-E和F=H的時候,設(shè)定T=0。在圖6(S65)中T為正值的時候,作為普通的處理,跳過下一(D/F-1)幀,并對它后面的C個(接下來的幀是I或P幀的時候C=1;PB幀的時候C=2)輸入畫面進行編碼。在T的值為0或者負值的時候,接下來的輸入畫面一個也不編碼全部跳過。于是,在這樣跳過的時候,幀的比特量為B=0。
這樣,就能夠嚴密控制從編碼器一側(cè)的輸入圖像一直到解碼器一側(cè)圖像被還原為止的延遲時間。而且當產(chǎn)生輸出畫面的幀丟失時,同以前的丟失C·G/F幀相比較,本發(fā)明把幀丟失抑制在1幅畫面,這樣總體上丟失的畫面也很少,能夠?qū)崿F(xiàn)穩(wěn)定的動態(tài)圖像的通信。
被編碼的動態(tài)圖像信息的當前幀的比特量B與通信緩沖器殘留的比特量W相比較的手段在圖6(S62)(S63)中表示,利用其比較結(jié)果,為了使上述殘留比特量W不枯竭,進而控制下一幀的目標比特量T的控制手段在圖6(S64)(S65)中表示。使用通過這種控制手段得到的控制結(jié)果,把攝像機輸入的圖像經(jīng)過上述編碼器、傳送線路100以及解碼器,直到輸出解碼的圖像這期間發(fā)生的延遲時間和幀丟失限定在最小值。以此確立了用幀級別率控制的計算下一幀的目標比特量的手段。這樣,對于以前無法進行很好地控制而導(dǎo)致的實際通信速度降低的通信緩沖器的下溢出或還原圖像的延遲現(xiàn)象,在這里通過極為簡單的計算,就達到了很高的控制能力,能夠?qū)崿F(xiàn)實時“唇聲同步”。
通過圖7、圖8、圖9以及圖10,對以編碼比特量為指標的“宏塊”級別率的控制方法進行說明。
圖7,是與“宏塊”級別相關(guān)的變量和常量的一覽圖。特別指出的是,前幀的編碼化的“宏塊”的量化級別的平均值Qa,是把已經(jīng)被編碼的“宏塊”(指的是,在不使用“中間宏塊”的情況下,量化頻率成分以及運動矢量成分中全部變成0的“宏塊”不被編碼)按運用的“宏塊”的數(shù)量進行等分,所得到的值。
如圖8所示,是使用前一幀的各個“宏塊”的量化級別的加權(quán)平均的平均值Qa,來計算出當前幀的最初(i=1)的“宏塊”中運用的量化級別的初始值Q,這構(gòu)成了第一種計算方法(S1)。這樣,在圖8(S3)之中,使用上述目標比特量至當前“宏塊”為止的實際的編碼量以及最初(i=1)的“宏塊”中運用的量化的級別,來計算出第二個以后(i=2,3直到N)的“宏塊”中所應(yīng)用的量化級別的微調(diào)量。這構(gòu)成第二種計算方法,與此相關(guān)的結(jié)構(gòu)在圖9和圖10之中表示。
圖8是“宏塊”級別控制的處理流程圖。但是,最初的輸入畫面的1幀進行編碼時,不使用這種“宏塊”級別率控制,這時量化的級別固定為特定的值。圖8(S1)是用來檢查前一幀的狀態(tài)。在前一幀為最初的I幀或者被跳過(B’=0)的時候,把前一幀的量化級別的初始值Q’原封不動的設(shè)為當前幀的量化級別的初始值。
上述以外的情況,用前一幀的編碼“宏塊”的量化級別的平均值Qa,同前一幀的目標比特量T’之中相對應(yīng)的實際的編碼比特量B’所占的比率值B’/T’相乘,以此作為函數(shù)CQ的因數(shù),函數(shù)CQ的輸出作為當前幀的量化級別的初始值Q。
圖9是“宏塊”級別控制中函數(shù)CQ(x)的定義的說明圖。正如圖9所示,函數(shù)CQ,在因數(shù)x小于量化級別的允許最大值Qmin的時候,輸出為Qmin。x如果在允許范圍之內(nèi),那么函數(shù)就把這個值原封不動地輸出。函數(shù)CQ是這樣的“截止”函數(shù)。
在前一幀中,當實際的編碼比特量大于目標比特量的時候,量化級別的初始值也要設(shè)定得比Qa高;相反,實際的比特量小于目標比特量的時候,量化級別的初始值就要設(shè)定得比Qa低。適當?shù)卣{(diào)整這種“宏塊”級別控制的“控制速度”,能夠提高其控制能力。
其他的,還有圖8(S4)中需要計算的非零平均的每個量化頻率成分所對應(yīng)的平均比特量的預(yù)測值J。這個計算,就是利用前一幀的頻率成分中所使用的所有比特量除以非零量化頻率成分的個數(shù)得到的值J’,把J和J’按照t∶(1-t)的比率相加,所得到的值作為新的J的值。t是常數(shù),為大于0小于1的實數(shù)值。
圖8(S2)中,如果當前幀的目標比特量T是正值,就進行實際的當前幀的編碼處理;如果不是這樣,直接轉(zhuǎn)到圖8(S6)去。
圖8(S3)是各個“宏塊”(i)(i=1,2直至N)中壓縮編碼處理的前半部分。對于上述的差分圖像執(zhí)行離散余弦變換,按照量化級別q對其頻率成分進行量化。
圖8(S4)是把量化級別q更新為適當?shù)闹?。再有,此部分處理的詳細情況在圖10中表示,這將在后面敘述。
圖8(S5)是各個“宏塊”(i)中壓縮編碼處理的后半部分,進行可變長度編碼,B的值更新為包含“宏塊”(i)的編碼的部分。進而,生成逆量化、及生成離散余弦還原圖像。
圖8(S6)中,全部的“宏塊”處理結(jié)束。當前幀的編碼完成之后,替換Q`,B`,T`的值,準備下一幀的處理。
以上的處理完全通過整數(shù)運算來實現(xiàn)。
圖10是各個“宏塊”(i)中量化級別q的更新計算處理的流程圖。從前后順序上來說,是圖8(S4)的處理的詳細說明。在圖10(S7)中,首先判斷對各個“宏塊”(i)進行還是不進行編碼。不對“宏塊”進行編碼的條件是,不僅僅是“內(nèi)部宏塊”,而量化頻率成分以及運動矢量成分全部為零。當不進行編碼的時候,也就不進行量化級別q的更新。
在圖10(S8)中進行“宏塊”編碼的時候,首先計算作為量化級別q的更新計算的指標的4個變量,即變量d,h,a,e.d是當前“宏塊”(i)的比特量的預(yù)測值。它是由當前“宏塊”(i)的非量化頻率成分的個數(shù)z乘與上述(S61)計算的非零量化每單位頻率成分所對應(yīng)的平均比特量J,由此得到的值再加上頻率成分以外的預(yù)想的比特量V,頻率成分以外的預(yù)想的比特量采用預(yù)想的實驗所得到的值。
h是殘留(未處理)的“宏塊”所消費的比特量的預(yù)測值,稱為殘量比特預(yù)測值。
a是“宏塊”(i)以后能夠消費的比特殘量值,稱為殘量比特允許值。
e是在假設(shè)各個“宏塊”(i)發(fā)生同樣的編碼比特量時,殘余(未處理)的“宏塊”消費的比特量的目標值。稱為殘量比特目標值。
在比特殘量值a遠大于比特殘量預(yù)測值h的時候,使量化級別q上升,導(dǎo)致信息發(fā)生量減少;相反,在比特殘量值a遠小于比特殘量預(yù)測值e的時候,使量化級別q下降,增加了信息發(fā)生量。
圖10(S9)中,求b1,b2參數(shù)值。
當現(xiàn)在的量化級別q比最初的“宏塊”中所使用的量化級別的初始值Q大的時候,b1是起到抑制q的作用的拉偏量,使q不至于變得比Q大更多;相反,b2則是起到在q比Q小的時候,使q不至于變得比Q小更多的這種作用的拉偏量。
圖10(S10)中,求c1,c2參數(shù)值。
在這個計算中所使用的常數(shù)f,是調(diào)整對比特率控制的靈敏度的參數(shù),一般使用1.0以上的值。
常數(shù)g是用來調(diào)整拉偏量b1,b2的所起作用的強度的參數(shù)。一般使用0.0以上的值。
圖10(S11)中,進行實際的量化級別q的更新。
這里,考慮以下1-4的條件。
條件1q<Q并且a<h,為真的時候,q’取q和q1相加的值;偽的時候,由條件2判斷。
條件2e>a·c1,為真的時候,q’取q和q1相加的值;偽的時候,由條件3判斷。
條件3e·c2>a,為真的時候,由條件4來判斷;偽的時候,取q的值。
條件4W+B<U,為真的時候,q加上q2,以外的情況q保持不變。偽的時候,q’取q的值。
但是,要滿足0<q1≤qmax以及qmin≤q2<0。W是在圖5(c)中表示的通信緩沖器殘余比特量,U是在圖5(c)中表示的在當前幀的編碼處理時間中發(fā)送的比特量。
最后,利用上述4個條件的判斷來計算得到q`的值,以此確定在函數(shù)CQ之中“截止”的值,并作為q的更新值。
H.263以及H.263+之中規(guī)定的量化的最大允許值Qmax設(shè)定為31,最小允許值Qmin設(shè)定為1;連續(xù)2個“宏塊”的量化級別的變化量的允許最大值qmax設(shè)定為+2,變化量允許最小值qmin設(shè)定為-2。
以上的處理全部是用整數(shù)運算或固定小數(shù)點來實現(xiàn)的。
這樣,為了對上述各個圖像幀的比特長度進行高精度的平均化,把以前不可缺少的非常復(fù)雜的計算,替換為簡單的計算,減少了計算處理所用的延遲時間,能夠?qū)崿F(xiàn)同步“唇聲同步”。
接下來,作為一種實施的形態(tài),構(gòu)成動態(tài)圖像信息的高性能編碼壓縮系統(tǒng)的System Memory Sharing Processor Array,即系統(tǒng)化的存儲器共享型處理器陣列方式(以下,也稱為系統(tǒng)MSPA),以這種結(jié)構(gòu)為基礎(chǔ)來進行保存的存儲器,以及用于低比特率視頻編碼的系統(tǒng),下面將用圖對它們做進一步的說明。
圖11是編碼器結(jié)構(gòu)框圖,圖12是解碼器結(jié)構(gòu)框圖,圖13是編碼器/解碼器通用一體型的結(jié)構(gòu)框圖。
在圖13中,5是視頻攝像機,由此把以人的臉部為主體的動態(tài)圖像信號通過攝像機接口6輸入到數(shù)據(jù)總線2中。數(shù)據(jù)總線2通過主接口7與主計算機8相連。并能夠在地址產(chǎn)生單元(Adress Generation Unit),也即集中控制裝置(以下,稱為AGU)3以及存儲器1之間進行數(shù)據(jù)交換。
因為使AGU3和存儲器配合在一起進行功能驗證,故而在設(shè)計以及試作階段進行功能驗證非常容易。
AGU3除了和存儲器1以外還和編制了基本動作程序的ROM9相連,并通過控制總線4把控制信號傳送到上述各個硬件模塊(以下也稱為“模塊”或“各單元”或“單元”),進而構(gòu)成動態(tài)圖像的高性能編碼壓縮系統(tǒng)。
在實際應(yīng)用中,作為存儲器1,使用DRAM(動態(tài)存儲器),得到了滿意的結(jié)果。其要旨在各個圖中有所記載,在本發(fā)明中,把被編碼的動態(tài)圖像信息進行適當?shù)拇鎯妥杂勺栽诘刈x取,這樣的存儲器手段,不僅僅限定上述動態(tài)存儲器,使用其他的方法也可以。如果有那種實際形態(tài)的應(yīng)用,當然應(yīng)該看作包含在本發(fā)明的要旨之內(nèi)。
上述各單元通過數(shù)據(jù)總線2實現(xiàn)了動態(tài)圖像信息的共有,在控制總線2中,只是通過和電路外部相連的存儲器1,實現(xiàn)上述各個單元之間的數(shù)據(jù)的傳送。上述各單元與存儲器1的數(shù)據(jù)傳送由AGU3以及ROM9進行控制。
這是上述系統(tǒng)MSPA最大的特點,這樣上述各個單元之間的數(shù)據(jù)的傳送全部都要通過存儲器進行,這樣,上述各單元之間的處理的依賴關(guān)系,只由在存儲器1和AGU3進行存儲器數(shù)據(jù)交換時,分時處理所占的時間來決定。
作為上述的各個單元,在圖11到圖13中進行了表示。這樣,不需要考慮上述各個單元之間的依賴的關(guān)系,通過數(shù)據(jù)總線和控制總線把獨立的設(shè)計并行地連接起來,構(gòu)成整體。因而,對于上述各個單元,不同的設(shè)計者可以同時進行,系統(tǒng)整體的程序結(jié)構(gòu)不需要很大的規(guī)模,縮短了設(shè)計的時間。而且,如果上述各單元的設(shè)計需要變更的話,僅變更AGU3的程序就可以很容易地實現(xiàn)。因而使系統(tǒng)具有柔軟應(yīng)變的能力。
運動矢量搜索部分10,配備了圖中沒有表示的預(yù)測決定部分,用來計算出臉部的窗口21的圖像的平均移動量。并且按照這個平均移動量來追隨臉部的窗口21。
這樣,與被攝人的臉部的搖動相配合,為了取得到?jīng)]有延遲的高畫質(zhì)的效果,利用上述平均移動量來預(yù)測未來的運動,使臉部的窗口21先行一步發(fā)送給解碼器。
以下,主要說明窗口MSPA。
保存圖像幀信息的存儲器1,與各種各樣的獨立執(zhí)行指令的硬件模塊通過數(shù)據(jù)總線結(jié)合起來,由AGU3來控制存儲器1同上述硬件模塊之間的數(shù)據(jù)的流動以及執(zhí)行程序,AGU3通過控制總線4同各個硬件模塊結(jié)合一起構(gòu)成系統(tǒng),并通過這種系統(tǒng)結(jié)構(gòu)組成上述的編碼器以及解碼器。
實際應(yīng)用的可視電話,應(yīng)該是象圖13的結(jié)構(gòu)框圖所表示的編碼器/解碼器通用一體的,也就是包含發(fā)送和接受雙方向的裝置,由這樣的裝置組合為一體并構(gòu)成系統(tǒng)。這里,把圖11中的編碼器,以及圖12中的解碼器區(qū)別開來,并表示為單獨的結(jié)構(gòu),省略它們的重復(fù)部分的說明。
在圖11所示的編碼器的系統(tǒng)中,在外部使用4K比特容量的存儲器1,該存儲器地址為16比特、數(shù)據(jù)為16比特、存取時間為40納秒,可以存貯QCIF(176×144像素)格式的4幀的數(shù)據(jù)。
在圖11中,從視頻攝像機5輸入的數(shù)據(jù)一方面被存儲在存儲器1中,另一方面,按照16×16個像素構(gòu)成的“宏塊”被依次壓縮處理。
首先,在運動矢量搜索部分10中,搜索被處理的“宏塊”是從前面幀的什么位置移動來的,并作為運動矢量輸出。這時,對于不屬于臉部的窗口21或周邊運動窗口51的“宏塊”,通過沒有進行圖示的時間濾波器對其圖像信息進行劣化。
在上述的時間濾波器中當靜止畫面的圖像信息被輸入的時候,原始的圖像信息被原封不動的輸出;相反,運動激烈的電視圖像信息被輸入的時候,執(zhí)行使運動緩和的信息操作。
這樣,需要消耗大量傳送信息量的劇烈運動的圖像信息通過上述時間濾波器的處理,以稍稍降低一點畫質(zhì),換來大幅度削減信息量。
這些信息量大幅度削減的圖像經(jīng)過解碼器還原的時候,只有快速移動變化的場面的畫質(zhì)稍稍受到一點影響。具體地說,在行駛的汽車中使用此可視電話的時候,作為講話人背景從車窗看到的移動的風景,稍稍有一點模糊。
在運動補償部分11中,利用得到的運動矢量,由處理中的當前幀的“宏塊”,以及被認為該“宏塊”是由之移動而來的前一幀的位置,兩者產(chǎn)生差分數(shù)據(jù),并寫入存儲器1中。
在離散余弦(逆)變換部分/(逆)量化部分12中,從存儲器1之中讀取的差分數(shù)據(jù),按照“宏塊”的四分之一即一個個的8×8個像素構(gòu)成的塊,來進行離散余弦變換,由此得到8×8像素的頻率成分。進而,一個個“宏塊”根據(jù)量化步長,高速執(zhí)行“位數(shù)可變”的量化操作,其結(jié)果輸出到存儲器1中。
在可變長編碼器13中,從存儲器1讀取的被量化而且削減了比特量的差分數(shù)據(jù)的頻率成分,被分配合適的編碼,并存儲到?jīng)]有進行圖示的內(nèi)部緩沖器中。這個內(nèi)部緩沖器按照一定的傳送率把編碼的數(shù)據(jù)輸出到外部。
在離散余弦(逆)變換部分/(逆)量化部分12中,比如由352×288像素構(gòu)成的一幅圖像,被分割成8×8像素構(gòu)成的像素塊,然后通過DCT(DiscreteCosine Transform)離散余弦變換(以下也稱為DCT變換),分解出頻率成分(正交變換),削減高頻成分來進行信息壓縮,DCT變換后的各個系數(shù)同某除數(shù)進行除法運算,余數(shù)四舍五入。
以上這些,具有在編碼處理時為順方向,在解碼處理是為逆方向的機能。在圖12的解碼器中,由于沒有順方向變換,所以配備了離散余弦逆變換部分/逆量化部分12b。
離散余弦(逆)變換部分/(逆)子化部分12,以及P“宏塊”重新構(gòu)筑部分14,以及“宏塊”預(yù)測部分15a,以及塊畸形除去濾波器部分16,它們的機能是完成從量化頻率成分中重新構(gòu)筑當前“宏塊”的過程,并應(yīng)用到下一幀的壓縮處理中。
離散余弦逆變換部分/逆量化部分12用來完成離散余弦以及量化的逆操作,即,將差分數(shù)據(jù)的頻率成分的量化數(shù)據(jù)輸入到存儲器中,通過量化操作,還原出原來的比特;進一步通過離散余弦逆變換,還原出差分數(shù)據(jù),結(jié)果保存到存儲器1。
P“宏塊”重新構(gòu)筑部分14,是圖11、圖12、圖13所共有的。這里,從存儲器1中讀取差分數(shù)據(jù)及由運動矢量得到的前一幀的數(shù)據(jù),把它們相加來還原出當前幀的“宏塊”,然后寫入存儲器1。
在圖13中,有B“宏塊”預(yù)測部分/重新構(gòu)筑部分15,利用它完成各種P幀和B幀的處理。圖11所示的編碼器中配備了B“宏塊”預(yù)測部分15a;圖12所示的解碼器中配置了B“宏塊”重新構(gòu)筑部分15b。
在編碼器的B“宏塊”預(yù)測部分15a中,把被重新構(gòu)筑的P“宏塊”以及它由之移動而來的前一幀的“宏塊”從存儲器1中讀取出來,把從由前一幀向前預(yù)測得到的B“宏塊”數(shù)據(jù)同上面的兩個數(shù)據(jù)相混合,來構(gòu)筑被預(yù)測的B“宏塊”,并且與實際從視頻攝像機5輸入的B“宏塊”進行相似度的比較。對于每一個“宏塊”在這些方法中判定哪一個最合適,利用可變長編碼器13發(fā)送這一信息本身。在解碼器中,通過B“宏塊”重新構(gòu)筑部分15b,來實際地再現(xiàn)B幀的數(shù)據(jù)。
塊畸形消除濾波器16,是圖11、圖12、圖13所共有的。從存儲器1中讀出被還原的P“宏塊”,通過塊畸形消除濾波器16的作用,除去“宏塊”相連處的人眼不易察覺的類似圍棋交叉點形狀的噪聲,結(jié)果寫入存儲器1。
AGU3控制各個模塊的執(zhí)行,以及控制各個模塊同存儲器1之間的數(shù)據(jù)的交換。
AGU3利用ROM9中存儲的程序進行操作,所說的程序命令,是指存儲器1的地址產(chǎn)生,以及對存儲器1的存取控制等。
主接口7,代替AGU3的ROM9從外部的主計算機8向系統(tǒng)輸入命令。執(zhí)行各個模塊的控制以及存儲器1同主計算機8之間的數(shù)據(jù)傳送。
這樣,窗口MSPA,整體上由各種具有高速運行機能的硬件模塊(各單元)通過數(shù)據(jù)總線2與存儲器1連接而成。
也就是說,各單元從外部的存儲器1讀取數(shù)據(jù),進行處理,其結(jié)果又輸出到外部存儲器1中。
因而,上述各單元之間沒有直接的數(shù)據(jù)交換,都必須通過存儲器1進行。AGU3利用ROM9中命令,來控制各單元同存儲器1之間的數(shù)據(jù)傳送。
還有,雖然兩個存儲器1被分別用于編碼器和解碼器,可是如果具備與兩個存儲器響應(yīng)的響應(yīng)處理能力,也未必一定要使用兩個。
上述窗口MSPA的最大的特點是這樣的,由于各單元之間的數(shù)據(jù)傳送完全要經(jīng)過外部存儲器來實現(xiàn),這樣上述各單元之間的處理依賴關(guān)系就能夠僅僅由進行存儲器1存取的AGU3的時間分配來決定。因為各單元的處理依賴關(guān)系由AGU3來決定,上述各單元獨立地進行設(shè)計,并通過數(shù)據(jù)總線和控制總線并行地連接起來,構(gòu)成一個整體。
這樣,上述各單元獲得了各自設(shè)計上的獨立性,設(shè)計上的制約也明顯減少;因此,更多的設(shè)計人員可以分擔各自的設(shè)計任務(wù),并且同時進行設(shè)計,整個系統(tǒng)不需要很大的規(guī)模,縮短了設(shè)計需要的時間。
而且,由于上述各單元的處理依賴關(guān)系取決于AGU3的程序,所以能夠?qū)崿F(xiàn)柔性的設(shè)計。實際的設(shè)計中,各個P幀和B幀的“宏塊”的處理需要在15,625個時鐘周期以后才結(jié)束。
可是,運動矢量搜索處理,雖然用于數(shù)據(jù)輸入輸出的存儲器1的存取時間很短,可是需要很長的處理時間,整個運動矢量搜索處理需要13,000個時鐘周期。
其他的處理,由各個硬件模塊完成,剩下的所有處理能夠在15,625個時鐘周期內(nèi)處理完畢。運動矢量搜索處理和它以外的處理,實行對每個“宏塊”的流水線并行處理。
也就是說,在一幀中所包含的100個“宏塊”,實行連續(xù)依次的壓縮處理。運動矢量搜索處理在15,625個時鐘周期內(nèi)完成以后,開始下一個15,625個時鐘周期的運動搜索處理。這是要領(lǐng)的所在。
這樣,在大多數(shù)的周期中,運動搜索處理和其他的處理同時進行。通過AGU3的程序進行的這種流水線處理,也使以本發(fā)明的結(jié)構(gòu),進行柔性設(shè)計變?yōu)榭赡堋?br>
而且,因為上述各功能塊的所有輸入輸出數(shù)據(jù)都保存在存儲器1之中,使得從外部進行的實驗變得很簡單。實際上,主計算機8經(jīng)過主接口7,發(fā)出本應(yīng)是AGU3發(fā)出的命令;而且,從主計算機8設(shè)定存儲器1的數(shù)據(jù),經(jīng)過上述各功能塊的處理執(zhí)行以后,存儲器1的數(shù)據(jù)又可以被寫入主計算機8并進行檢測。
特別是,上述各功能塊的內(nèi)部的數(shù)據(jù)也能夠?qū)懭胫饔嬎銠C進行檢測,配備這樣的程序,使得檢測很容易進行。
這樣,上述各功能塊的各種執(zhí)行沒有依賴的關(guān)系,只給需要操作的功能塊提供時鐘,而不必執(zhí)行它以外的功能塊,這樣,能夠降低系統(tǒng)整個的功耗。
接下來,通過圖12,對解碼器進行單獨說明。
在可變長解碼器17中被解碼的頻域的差分信號,經(jīng)過編碼器中的B“宏塊”重新構(gòu)筑部分15b以及塊畸形消除濾波器16,還原成實際的B幀的數(shù)據(jù)。和編碼器一樣,獨立執(zhí)行的上述各功能塊從存儲器1讀取數(shù)據(jù),數(shù)據(jù)處理完后再存入存儲器1,這些控制由AGU3執(zhí)行。最終還原的圖像,通過LCD接口,在外部相連的LCD上放映出來。
圖14是集中控制裝置(AGU3)的結(jié)構(gòu)框圖。執(zhí)行/測試模式的切換開關(guān)30通過從主計算機8經(jīng)由主接口7發(fā)出的命令(圖示的PC命令),來決定是進入操作還是測試模式;通過命令編譯執(zhí)行控制裝置31,來執(zhí)行ROM9的命令程序的內(nèi)容;利用存儲器的重復(fù)寫入/讀取命令的控制部分32以及設(shè)置重復(fù)命令開始地址的地址寄存器33的操作,進行與存儲器1之間的由地址控制的數(shù)據(jù)交換。
這樣,來生成存儲器1的地址、存儲器存取控制信號以及控制上述各功能塊的運算開始及結(jié)束。并且,重復(fù)命令開始地址寄存器33,以及寄存器文件34主要由通用寄存器構(gòu)成,包括8個相聯(lián)的4比特寄存器2組,8個相聯(lián)的2比特寄存器1組,8個相聯(lián)的1比特寄存器1組(沒有詳細圖示)。
圖15是外部存儲器1的存儲器領(lǐng)域構(gòu)成圖,與保存著上述硬件模塊的執(zhí)行控制命令程序的ROM9的命令相對應(yīng),圖像被分割成很多塊,因而,使用與處理上述塊的坐標單位信息的“塊方式”相適合的地址結(jié)構(gòu)。
如圖15所示,按存儲器地址來指定行地址以及列地址,進而通過AGU3的存儲器讀取/寫入的重復(fù)操作命令控制部分31來進行控制。
由上述存儲器領(lǐng)域構(gòu)成外部存儲器1;使用上述能夠按“宏塊”的坐標單位、塊單位、像素單位進行存儲器存取的地址生成的命令,被存放在ROM9中;ROM9如圖11、圖12、圖13所示也可以被配置在AGU3的外面。
另外,實際的硬件配置與這些結(jié)構(gòu)框圖的配置多少有些不同的情況也是常見的。
存儲器1的存儲器空間,如圖15所示,其地址由18比特構(gòu)成。包括幀的高位1比特、表示“宏塊”位置的X坐標和Y坐標各4比特,共9比特的行地址;以及低位1比特、表示塊的位置的X坐標的2比特和Y坐標的1比特、表示像素位置的X坐標的2比特和Y坐標的3比特,共9比特的列地址??墒牵瑝K位置除了用來表示灰度信號Y的信息的(0,0)(0,1)(1,0)(1,1)4個區(qū)域以外,還要為表示色差信號Cr、Cb的信息的塊來分配(0,2)(1,2)區(qū)域。
因為數(shù)據(jù)是16比特,X坐標方向上相鄰的2個像素(每一個8比特的數(shù)據(jù))被分配一個地址。所以,雖然像素位置的X坐標也有8個像素等分,只能分配到2比特。
這樣,命令的長度定為27比特。包含以下命令。(1)存儲器存取開始地址命令(2)存儲器讀取循環(huán)命令(3)存儲器寫入循環(huán)命令(4)AGU寄存器控制命令(5)子程序命令以及條件轉(zhuǎn)移命令(6)主計算機發(fā)出的特殊命令其中(1)的存儲器存取開始地址命令,是為了存儲器讀取或?qū)懭耄谘h(huán)命令執(zhí)行之前發(fā)出,為循環(huán)命令的執(zhí)行設(shè)定開始地址。
這樣,就能夠完成絕對地址的指定、當前處理的“宏塊”的相對位置的指定、目前處理“宏塊”到運動矢量之間對應(yīng)的偏移量的指定。
上述(2)(3)的存儲器讀取/寫入循環(huán)命令,是對矩形領(lǐng)域的很多的“宏塊”進行循環(huán)操作、對矩形領(lǐng)域的很多的塊進行循環(huán)操作、對矩形領(lǐng)域的很多的像素級別進行循環(huán)操作。因為具備這樣的循環(huán)機構(gòu)。一般需要使用循環(huán)程序段進行復(fù)雜表述的循環(huán)控制,在這里,利用(2)(3)的存儲器讀取/寫入循環(huán)命令簡單的實現(xiàn)了。
例如,對某幀數(shù)據(jù)的讀取,或者對某“宏塊”數(shù)據(jù)的讀取,或者對某矩形領(lǐng)域的像素的讀取,一條存儲器讀取/寫入循環(huán)命令就能夠?qū)崿F(xiàn)。
(4)AGU寄存器命令,是使用AGU3時,為了完成對模塊(功能塊)的執(zhí)行順序的控制,而利用的輔助寄存器的數(shù)據(jù)的設(shè)立和清除等命令。
(5)中的子程序命令以及條件轉(zhuǎn)移命令,是用來對AGU3的程序進行控制的命令。
(6)中的主計算機發(fā)出的特殊命令,是僅僅在取替基于ROM9中的程序而進行操作的“執(zhí)行模式”,而采用了從主計算機接受命令的“測試模式”這種模式下才有效的命令。這其中,包含只按指定的“步進”數(shù)進行操作的“步進”等命令。測試模式中,從(1)到(3)的所有的命令都能從主計算機發(fā)出。
因而,在測試模式下,從主計算機8向存儲器1寫入圖像數(shù)據(jù),然后變換為操作模式并使某硬件模塊工作,然后再回到測試模式,能夠把存儲器中寫入的演算結(jié)果讀出到主計算機8中。
這樣,能夠在上述各功能塊的級別上進行功能驗證。
主計算機8發(fā)出的特殊命令之中,也有讀出上述各功能塊的內(nèi)部狀態(tài)的命令,利用同樣的方法,也能夠?qū)ι鲜龈鞴δ軌K在回路級別上進行功能驗證。
這里,對“運動矢量搜索模塊(功能塊)”進行說明。
運動矢量搜索,是針對在當前處理幀中的每一個“宏塊”搜索前一幀中的該“宏塊”的位置附近,與其最相似的在16×16的像素領(lǐng)域的搜索。
實際的搜索是這樣的,從現(xiàn)在的位置開始在上下、左右方向上移動。最大可移動16像素,即在48×48的像素范圍內(nèi),利用插值處理,按照像素一半的分辨能力進行搜索。
在以上范圍中的任意的16×16的像素區(qū)域與當前幀的“宏塊”的像素之間,針對每一個像素計算出二者之間的差分的絕對值的總和SAD(Sum ofAbsolute Difference)(以下稱為SAD)對按照所有的在搜索范圍內(nèi)的“宏塊”來執(zhí)行這個操作,從中找出最小的,把這個區(qū)域作為產(chǎn)生當前“宏塊”的其在前一幀中的“宏塊”的位置。
接著,求出當前處理“宏塊”的位置和其在前一幀中的位置的運動矢量。這個操作,是在48×48的搜索領(lǐng)域內(nèi)設(shè)定16×16的窗口領(lǐng)域,在整個的搜索領(lǐng)域進行求解上述SAD的窗口處理。這可以被認為是圖像處理中特有的窗口處理的一種形式。
本來,在適合這種窗口處理的硬件結(jié)構(gòu)的構(gòu)成方法方面,我們有窗口MSPA結(jié)構(gòu),本發(fā)明之中以窗口MSPA為特點,不降低高速并行處理效率,從存儲器之中串行輸入搜索數(shù)據(jù)和參照數(shù)據(jù),進行窗口并行處理。
這樣,解決了以前的動態(tài)圖像壓縮處理的硬件結(jié)構(gòu)中處理的高速化的問題。
接下來,圖16是運動矢量搜索電路圖,包括存儲圖像數(shù)據(jù)的外部存儲器1;包括用來把從存儲器按每一個“宏塊”依次輸入的“宏塊”數(shù)據(jù)的用于數(shù)據(jù)形式轉(zhuǎn)換的緩沖器39。它們與數(shù)據(jù)總線2相連,進行相互的數(shù)據(jù)交換。
這樣,借助內(nèi)部總線40從這個緩沖器39輸出的3端的數(shù)據(jù),被提供給由32個并行相聯(lián)的陣列形狀的處理器單元101、102直至132所構(gòu)成的窗口MSPA。
這些處理器單元101至132通過加法器44對其數(shù)據(jù)進行超高速并行運算,由這個加法器構(gòu)成運動矢量搜索電路,由此搜索表達當前幀的“宏塊”是從前一幀的什么位置移動來的運動矢量。
例如,向處理器單元101至132中輸入搜索數(shù)據(jù)和參照數(shù)據(jù)的兩個像素值,進行減法和絕對值操作,再進行直到某一搜索地點為止的SAD的加法操作。這32個處理器單元101至132構(gòu)成的窗口MSPA,并行執(zhí)行1089次窗口處理。
一次的窗口處理需要16×16=256次的SAD處理,這樣,全部的搜索,需要1089×256=278,784次的SAD操作。
實際上,這32個處理器單元(也稱為處理器陣列)可以在一個時鐘周期內(nèi)完成SAD操作,最快需要278,784/32個=8712個時鐘周期。
但因為32個處理器陣列不可能一起開始工作,所以,本系統(tǒng)在13,000個時鐘周期內(nèi)可以完成運動矢量的搜索。
這樣,就確立了不降低高速并行處理效率,從存儲器1串行輸入探索數(shù)據(jù)和參照數(shù)據(jù)但并進行“窗口并行處理”,的手段。
這種“窗口并行處理”,在圖像處理中被廣泛利用,基本的原理就是,在相對寬廣的圖像領(lǐng)域內(nèi),通過相對狹小的widnow21上下左右無間隙的移動,完成圖像的識別以及信息的加工處理;當著重看一些特定的像素時,因為在窗口21中包含很多的位置,如果對每一個位置的像素都進行一次特定的計算處理的話,那么每改變一個位置時都要重新執(zhí)行特定的計算處理,這將會有很多無用的重復(fù)。
這里,必須省去上述的重復(fù),所以,取代那些在上下左右移動窗口21時所做的重復(fù)計算,而是用很多的處理器實行并行處理。這樣,確立了利用窗口MSPA,而不必進行重復(fù)計算,并能提高并行效率的陣列處理方法。
在這里提到的“并行效率”,指的是,在n個處理器同時并行處理的時候,把只有一個處理時的處理時間縮短到1/n,在這種100%的理想狀態(tài),所能達到的效率。與上述不用進行重復(fù)計算就能夠提高“并行效率”的陣列處理方法相關(guān)的內(nèi)容,因為已經(jīng)公開發(fā)表過,這里省略說明。
接下來,圖16中所表示的是運動矢量搜索線路圖,即把上述“窗口并行處理”中運用的“已有的窗口MSPA”應(yīng)用到“運動矢量搜索”中,是沒有先例的新的發(fā)明。
這個“運動矢量搜索”,以16×16像素的“宏塊”為單位,只對灰度信號Y進行處理;從而搜索某個“宏塊”是從前面幀的什么位置移動來的。
接下來,圖17是離散余弦變換器以及量化器的功能框圖,來說明它們的順操作和逆操作。
存儲器1中保存的8×8=64像素的塊數(shù)據(jù),借助數(shù)據(jù)總線2依次輸入到逆量化器53以及離散余弦變換/逆變換器56中。
逆量化器53以及量化器58,是用一個時鐘周期就能夠處理一個數(shù)據(jù)的被流水線化的模塊,并且這樣的設(shè)計不可以保證其高速操作。
數(shù)據(jù)形式變換器55,是為離散余弦變換器/逆變換器56而進行從并行數(shù)據(jù)形式到串行數(shù)據(jù)形式變換的變換器。離散余弦變換或者逆變換,是把普通的二維處理分解為2次的一維處理,置換操作緩沖器57在此時進行必要的8×8數(shù)據(jù)的置換操作。
數(shù)據(jù)形式變換器55的詳細部分在圖18中表示,并對操作進行了說明。
首先,從輸入線61把由16比特構(gòu)成的比特并行數(shù)據(jù)按每一個時鐘依次輸入,存入寄存器62以及寄存器63合計16個寄存器中。
寄存器62或者寄存器63中當8個數(shù)據(jù)到齊的時候,從這個寄存器以比特串行方式通過連接線64、65把它們輸出,通過輸入切換開關(guān)來選擇是寄存器62還是寄存器63的輸出數(shù)據(jù)。
下面,著重就數(shù)據(jù)變換器中所具備的2組寄存器62、63做進一步的說明。
通過使用2組寄存器62、63,在數(shù)據(jù)形式變換器中接收輸入數(shù)據(jù),伴隨著移位操作,從下數(shù)據(jù)塊向上數(shù)據(jù)塊來搬送數(shù)據(jù)群,這兩個處理同時并列進行,進而達到數(shù)據(jù)處理的高速化。
在圖18中,把操作時序按8個時鐘為間隔,對操作進行說明。1)最初的8個時鐘中,16比特的數(shù)據(jù)從數(shù)據(jù)0到數(shù)據(jù)7依次輸入到寄存器62。2)接下來的8個時鐘中,不再向寄存器62輸入數(shù)據(jù),只把聚集在寄存器的最下位的8個數(shù)據(jù)從寄存器輸出,同時寄存器的各個數(shù)據(jù)向下位移動。這樣,被輸入的并行數(shù)據(jù)以8個為一組,從下位到上位依次輸出。
這期間,如果禁止向寄存器62存儲數(shù)據(jù),那么需要在緊接著的再下8個時鐘周期替換著向寄存器63存儲。
這樣,對于數(shù)據(jù)形式變換器55,利用輸入切換開關(guān)66來交替使用2組寄存器62、63,進而連續(xù)接收從存儲器1而來的輸入數(shù)據(jù)。這種借助流水線并行的數(shù)據(jù)處理具有高速化,也就是,由不降低數(shù)據(jù)傳送速率,把依次輸入的數(shù)據(jù)變成并行的2組數(shù)據(jù)的數(shù)據(jù)形式的變換方法來構(gòu)成系統(tǒng)。
這里所說的數(shù)據(jù)傳送速率,是指每秒能傳送多少比特的數(shù)據(jù),指的是其速度。串行的數(shù)據(jù),只能通過1根線傳送1比特數(shù)據(jù),例如,需要100萬比特/秒的數(shù)據(jù)傳送速率的時候,10萬比特/秒的數(shù)據(jù)傳送速率的線最好是10根并行使用。
如圖19中的離散余弦變換/逆變換器的功能框圖所示,8個比特的數(shù)據(jù)串輸入到輸入處理部分,通過8個16比特累加器,最終輸入到輸出處理部分73。
圖20對離散余弦變換/逆變換器得輸入處理部分的功能框圖進行詳細圖示。8個比特的輸入數(shù)據(jù)串,輸入到位串行加法器81以及比特串行減法器82中,它們的輸出被輸入到8個比特分散計算用的ROM83中,進而,8個輸入數(shù)據(jù)直接輸入到另外的8個比特分散計算用的ROM84中。
這二組的ROM的輸出數(shù)據(jù)通過由切換信號85控制切換的開關(guān)86來進行選擇,作為這個切換信號85,在實行離散余弦變換時輸入為“0”,而實行逆離散余弦變換時輸入為“1”。
圖21對離散余弦變換/逆變換器的輸出處理部分的功能框圖進行詳細圖示。8個比特并行輸入數(shù)據(jù),輸入到位并行加法器91以及比特并行減法器92中。
這二組的ROM的輸出數(shù)據(jù)通過由切換信號93控制并由切換的開關(guān)94來進行選擇,作為這個切換信號93,如果實行離散余弦變換時輸入為“0”,如果實行逆離散余弦變換時輸入為“1”。
切換開關(guān)94的輸出數(shù)據(jù)輸入到8個寄存器95中,并由寄存器通過輸出線96串行地輸出。
使用可視電話上的視頻攝像頭拍攝送信者的臉部,把以此為主體的視頻信號通過電話線路向受信者傳送。這里對其傳送之前的一系列的處理進行說明。
因為是雙方向的通信,送信和受信的往返的信息傳送要在同一線路上同時進行,這里,省略與雙方向通信有關(guān)的說明。
一般的方法是以現(xiàn)有的ITU國際標準H.263具有的低比特率動態(tài)圖像傳送的信號處理線路為基礎(chǔ)的。
作為在此基礎(chǔ)上的追加機能包括,提取出視頻信號中面孔的部分來構(gòu)成臉部的窗口21,進而通過臉部的窗口21的移動來追隨面部的運動;以及,抑制臉部以外的背景部分的運動的時間濾波器;以及,傳送延遲很小的新的傳送率控制結(jié)構(gòu);通過這些結(jié)構(gòu)和機能,來對動態(tài)圖像信息進行適當?shù)膲嚎s信號處理。
作為在上述基礎(chǔ)上的追加的機能,它首先對從視頻攝像機等輸入的視頻圖像信號進行識別處理,由在該動態(tài)圖像的畫面中任意移動的特定的區(qū)域構(gòu)成臉部的窗口21,計算出該窗口21中的像素伴隨臉部運動而產(chǎn)生的運動矢量的平均值,該追加功能塊具備這種演算程序。
受信人在其肉眼的視野內(nèi)能夠捕捉到送信人的時候,受信人的視線就能夠追隨送信人的臉部的運動,于是送信人的臉部經(jīng)常處在受信人的視野的中心位置。這種現(xiàn)象是因為人的肉眼中視野的中心附近具有最好的圖像辨別能力,對感興趣的對象為了看清楚就把它放在視野的中心位置。把有價值的有效的信息不遺漏地最大限度地收集,這是本能的、無意識的也是必要的意識行動。
這樣,就要把送信人的臉部放在受信人的眼睛的分辨率更好的臉部窗口21的中心(不是畫面的中心)位置。這應(yīng)該是具備了第1種智能。為了把這種智能應(yīng)用于電子機械裝置中,需要通過演算程序來計算出包含這個人的臉部的窗口21的運動矢量的平均值;并根據(jù)上述平均值來控制臉部窗口21的移動,從機能上具備這樣的窗口位置控制程序。
作為第2種智能,即在臉部的窗口21以外的背景圖像22激烈移動因而動態(tài)圖像信息很多的時候,把背景圖像22的運動量進行適當?shù)南鳒p,具備由削減畫質(zhì)的演算程序構(gòu)成的編碼算法。這種演算算法,就是把連續(xù)的前后幀的同一位置的各像素的信息彼此相加,然后除以2,得到的值來替換后面幀的圖像信息。這樣,來抑制被編碼的動態(tài)圖像的信息量。
在抑制信息量的過程中,利用面部強調(diào)型H.263+編碼算法,它具有輸出傳送率的控制機構(gòu),該機構(gòu)使在傳送容量受到限制的傳送線路上的圖像達到傳送延遲最小化;進而,通過其決定操作順序以及改變數(shù)據(jù)的授受時序的程序的機能,使肉眼能看到清晰的自然的動作。這樣做的結(jié)果,并沒有明顯使背景圖像22的畫質(zhì)惡化,而僅僅是有一點模糊。
把送話者的臉部的輪廓放在臉部的窗口21的大致的中心;把臉部的窗口21以外的背景圖像22的信息量進行粗化;而對臉部的窗口21以內(nèi)的信息量維持密化,這樣視頻信號所具有的圖像信息量的總和很小,通過這些,使信息量符合電話線路的制約條件。
說話的同時臉部也要有一些搖動,為了追隨這些運動,用臉部的窗口位置控制程序來控制臉部的窗口21的移動,通過這個程序能夠持續(xù)把窗口21更新到最新位置。這樣,一般來說,使用家庭用的黑白電視機,就可以得到和視聽人的面孔非常相近的并且伴有自然動作的圖像,而且和背景相關(guān)的無用信息能夠被壓縮到極限,進而能夠保持很高的傳送效率。
因為明確了可視電話能夠傳輸?shù)男畔⒘浚杂斜匾褜σ暵犝邲]有影響的動態(tài)圖像信息進行徹底的壓縮。這樣,對于在局部不能忽略的信息,如果在整體上影響甚小,一定要消除。以保證其他的重要的信息能夠被增加,其結(jié)果是整體的性能得以提高。
在B幀信息中對差分所有像素信息的歸零化、以及對“內(nèi)宏塊”以外的灰度信號的數(shù)據(jù)通過削減進行量化,這些也能大幅度削減動態(tài)圖像的信息量。
這些操作雖然從自身來講要造成圖像的惡化,可是與此相比能夠增加的信息量遠不止被削減的信息量本身,結(jié)果還是提高了畫質(zhì)。
接下來,是使嘴唇的運動和聲音相一致的“唇聲同步”的方法。通過新開發(fā)的“速率控制方式”,把1幀即動態(tài)畫面的每幀圖像(電視中每秒25幅或30幅)所對應(yīng)的編碼量進行基準化,所定的編碼量比如為112字節(jié),單位時間對應(yīng)的能夠傳送的信息量即傳送比特率,如為27kbps,通過它們能夠預(yù)測的通信延遲時間被包含在“速率控制機構(gòu)”中;例如通常如果能夠預(yù)測有10幀的通信延遲時間發(fā)生,在利用從過去到現(xiàn)在的變化量來預(yù)測未來時,對上述延遲進行信息加工。
雖然或多或少要有一些預(yù)測外的發(fā)生,可是,因為是在不會產(chǎn)生實際應(yīng)用上的問題的程度以內(nèi)對未來進行預(yù)測,所以,作為本發(fā)明的一個實施形態(tài)的加工后的信息中,相對于沒有延遲的接受聲音來說,在通常情況下,可以成功地把圖像的延遲抑制在3幀以內(nèi)。
雖然可視電話包含了這些智能,可是實現(xiàn)這些智能的硬件如不能進行高速操作的時候,還是要損失1秒內(nèi)的一些幀數(shù)。這種損失了幀數(shù)的電視圖像,會造成對話的自然氛圍不復(fù)存在。
新開發(fā)的窗口MSPA、以及構(gòu)成硬件系統(tǒng)的各要素的各個裝置,包括AGU集中控制裝置、運動矢量搜索線路、離散余弦變換和量化變換線路以及逆量化線路和離散余弦逆變換等,實現(xiàn)了用小規(guī)模低成本的電路完成預(yù)想硬件的目的。其線路如前所示。
總之,為了使可視電話圖像清晰,自然。(a)只強調(diào)臉部等想看到的部分,按目標的重要性來區(qū)分,并進行相應(yīng)的加權(quán)平均。(b)為了使整個的畫面清晰,削減無用的信息量。(c)為了使畫面和聲音同步,營造出自然的氛圍,對圖像處理產(chǎn)生的延遲時間進行最小化處理。(d)為了產(chǎn)生以自然的速度運動的畫面,采用成本雖然低但高速動作的硬件構(gòu)成。由此構(gòu)成圖像信息傳送系統(tǒng)。
上述可視電話只不過是本發(fā)明的一種實施形態(tài),這個效率良好的動態(tài)圖像信息的編碼壓縮系統(tǒng)的使用范圍是無限的。
對于使用者不感興趣的部分使畫質(zhì)劣化;相反興趣集中的部分維持原來的畫質(zhì);對于源源不斷流過的無用部分,壓縮到畫質(zhì)所需要的最小限的信息量。遵循圖像傳送的原本的目的,不破壞圖像的氛圍,實行自然的運動,這些可看做本發(fā)明包含的必要條件。
權(quán)利要求
1.一種動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是針對在識別處理中的動態(tài)圖像的畫面中任意移動的特定區(qū)域,也就是被優(yōu)先進行信息處理的窗口(21),將構(gòu)成該窗口的整個圖象分割成矩形的小塊,以依次對矩形小塊處理這種方式;并利用與塊的動態(tài)圖像運動相伴的運動矢量,來推定下一幀的臉部的窗口的位置,進而能夠用窗口(21)來追隨被攝主體的運動。
2.按照權(quán)利要求1所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是根據(jù)前一幀的圖像與當前幀的圖像之間的差分超過規(guī)定的閾值與否,以此為條件,來判斷次于上述被攝主體而具有稍差重要性的對象部分所包含的任意變動的區(qū)域,也就是上述被優(yōu)先進行信息處理的特定區(qū)域的周邊運動窗口(51),將構(gòu)成它的整個圖象分割成矩形的小塊,以依次對其處理的方式;并利用與塊的動態(tài)圖像運動相伴的運動矢量,來推定下一幀的周邊運動窗口的位置和區(qū)域,進而能夠用周邊運動窗口(51)來追隨上述任意變動的區(qū)域。
3.按照權(quán)利要求1或2所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是在上述窗口(21)和上述周邊窗口(51)的范圍之內(nèi)區(qū)分被攝主體和背景,在其背景的運動很劇烈因而動態(tài)圖像信息量增多的時候,削減背景的運動量以此弱化背景畫質(zhì)的計算,即在當前幀的“宏塊”圖像中,把與該“宏塊”圖像處在同一位置的前一圖像幀的數(shù)據(jù),按照一定的比例進行相加混合,具備這種時間方向的濾波器,以此削減上述背景的動態(tài)圖像信息量。
4.一種動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是輸入當前幀圖像、前參照幀圖像和后參照幀圖像,并執(zhí)行運動預(yù)測、運動補償以及決定預(yù)測方式的運動預(yù)測機能部分;以及,從該運動預(yù)測機能部分輸出的預(yù)測圖像與當上述前幀圖像的差分信息,把它輸入并把差分信息的所有像素值進行強制的歸零的全像素值歸零化機能部分;以及,從該全像素值歸零化機能部分輸出的歸零化的所有像素,把它們輸入,并按照前面運動預(yù)測機能部分所決定的預(yù)測方式,對動態(tài)圖像的下一個運動進行預(yù)測,同時對上述歸零化的全圖像信息進行編碼的編碼生成部分;由該編碼器對動態(tài)圖像信息進行編碼壓縮后發(fā)送出去,經(jīng)過傳送線路接受從編碼器發(fā)來的信號并進行解碼的解碼部分;以及,從解碼部分輸出的解碼信號,被輸入并進行逆量化的逆量化部分;以及,從該逆量化部分輸出逆量化的信號,把它輸入并進行離散余弦逆變換,進而還原出上述的差分圖像的離散余弦逆變換部分;以及,把該還原的差分圖像與通過預(yù)測方式預(yù)測得到的預(yù)測圖像一起混合進而輸出還原圖像的加法器,由以上這些部分構(gòu)成解碼器。具備以上解碼器,并以B幀處理為特點的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng)。
5.按照權(quán)利要求4所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是對于不使用上述預(yù)測圖像而僅僅對當前“宏塊”圖像直接編碼,既“內(nèi)部宏塊”的情況,對灰度信號和色差信號通過四舍五入進行量化,對這種“內(nèi)部宏塊”以外的情況,對灰度信號取整并進行量化,而色差信號還是通過四舍五入進行量化,對灰度信號和色差信號采用同樣的量化級別,從而減低色差信號的噪聲。
6.按照權(quán)利要求3或4所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是被編碼的動態(tài)圖像信息的比特量與通信緩沖器殘留的比特量相比較的比較手段;以及,為了使上述殘留的比特量不枯竭,借助通過這種比較手段得到的比較結(jié)果,來控制幀的目標比特量的控制手段;以及,利用由上述控制手段得到的控制結(jié)果,對由攝像機輸入的圖像,從它經(jīng)過編碼器、傳送線路以及上述解碼器,直至最后輸出解碼的圖像,對這期間發(fā)生的延遲時間以及幀丟失進行控制,使它們?yōu)樽钚。趲墑e傳送率控制中,計算每幀的目標比特量的計算手段。
7.按照權(quán)利要求3或6所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是使用前面幀的各個“宏塊”的量化級別的加權(quán)平均的平均值,來計算出幀的最初的“宏塊”中適用的量化級別,這是第一步計算方法;以及,使用上述目標比特量、當前“宏塊”的實際的編碼量以及上述最初的“宏塊”中應(yīng)用的量化的級別,來計算出第2步以后的“宏塊”所適用的量化級別的微調(diào)整量,這是第二步計算方法。
8.按照權(quán)利要求7所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是使保存圖像幀信息的存儲器與彼此獨立操作的硬件模塊以數(shù)據(jù)總線為媒體結(jié)合起來,進而,控制上述的存儲器與硬件模塊之間的數(shù)據(jù)流動以及操作時序的集中控制裝置,通過控制總線把各個硬件模塊結(jié)合起來,以這樣的系統(tǒng)結(jié)構(gòu)組成編碼器和解碼器。
9.按照權(quán)利要求7或8所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是圖像被分割成很多的塊,用能處理這個塊的坐標單位的信息并適合于塊處理方式的地址結(jié)構(gòu),構(gòu)成存儲器尋址范圍,這樣的外部存儲器;以及,可以用命令按上述“宏塊”的坐標單位、塊的單位、像素單位進行存儲器存取的地址生成,這些用于地址生成的命令以及對上述各個硬件模塊執(zhí)行控制的命令程序被存儲在只讀存儲器ROM中;集中控制裝置具備以上結(jié)構(gòu)。
10.按照權(quán)利要求1-9中任一項所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是采用上述外部存儲器;以及,從上述存儲器把“宏塊”數(shù)據(jù)按每個宏塊為單位轉(zhuǎn)換成串行輸入的數(shù)據(jù)形式變換的緩存器;以及,由上述緩存器輸出的3端的數(shù)據(jù)被提供給以32個并行陣列形狀連接的處理器單元,由此構(gòu)成窗口處理存儲器共享處理器陣列結(jié)構(gòu);以及,對處理器單元的數(shù)據(jù)進行超高速運算的運算方法;以及,搜索用來表示當前“宏塊”是從前一幀的什么位置移動過來的運動矢量搜索電路。
11.按照權(quán)利要求1-10項中任一項所述的動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其特征是采用上述的存儲器;以及,把存儲器中橫8豎8共64個像素組成的“宏塊”數(shù)據(jù)以每個宏塊為單位逐個串行輸入,不降低數(shù)據(jù)傳送率,把串行的數(shù)據(jù)變換成并行數(shù)據(jù)的兩組數(shù)據(jù)形式變換方法;以及用通過這種數(shù)據(jù)變換方法,采用對上述并行數(shù)據(jù)進行二元離散余弦變換的處理器陣列;以及,把從處理器陣列輸出的二元離散余弦變換數(shù)據(jù)輸入,對其進行量化,然后依次輸出數(shù)據(jù)并存入外部存儲器,這樣的量化模塊。
全文摘要
本發(fā)明提供了一種動態(tài)圖像信息的高性能編碼壓縮系統(tǒng),其課題是:在受到信息傳送量制約的圖像傳送線路中,對動態(tài)圖像的信息進行壓縮削減,以此縮短傳送的延遲時間和削減構(gòu)成系統(tǒng)的硬件。解決手段是:把圖像中比較重要的部分,如人說話時嘴唇動作的臉部;以及不太重要的部分,如臉部以外的背景,把二者相區(qū)別,并根據(jù)加權(quán)平均對它們的信息進行處理,以此提高信息傳送的效率。通過把B幀的差分信息強制地變?yōu)槿阒档膱D像的這種方法,使傳送方能夠以最少的信息傳送圖像,而接受方又能夠還原圖像。從而省略編碼器的離散余弦變換部分和量化部分,并且保證和以前的方式兼容。本發(fā)明可用于各種多媒體通信中的動態(tài)圖像壓縮。
文檔編號H04N7/18GK1364033SQ01140078
公開日2002年8月14日 申請日期2001年11月26日 優(yōu)先權(quán)日2000年11月28日
發(fā)明者國枝博昭, 一色剛, 李冬菊, 伊藤和人, 大塚友彥, 崔歐·阿迪恩, 查瓦雷特·宏沙衛(wèi)克 申請人:國枝博昭