專利名稱:對(duì)大物品拍照的制作方法
對(duì)大物品拍照發(fā)明背景對(duì)諸如較長的城市街道的邊沿或較大的游船的邊沿等大型現(xiàn)象的描繪難 以用照相機(jī)來創(chuàng)建。例如,從街道的對(duì)側(cè)拍攝的建筑物的單張透視照片僅捕捉 了可能延伸許多街區(qū)的街道的很短的一部分。具有更寬視場的照片將捕捉到該 街道的略長的一部分,但是該街道的外觀將表現(xiàn)為朝向圖像的邊緣越來越失 真。捕捉大型場景的一種解決方案是從遠(yuǎn)得多的地方拍照。然而,由于居間的 物體(諸如在城市街區(qū)的情況中),這并不總是可行的,并且這將產(chǎn)生看上去 與當(dāng)人類沿街道行走時(shí)將看到的街道外觀相當(dāng)不同的圖像。由于局部觀察者從 更近的視點(diǎn)看到街道,因此透視縮短更顯著;遮陽蓬隨著其從觀察者的位置開 始延伸而變得更小,并且交叉路口隨著其從觀察者開始延伸而會(huì)聚。從遠(yuǎn)處的 視點(diǎn)所拍攝的圖像丟失了這些有用的深度提示。先前的工作引入了照片圖像拼接的概念,照片圖像拼接一般是從一系列照 片中組裝單張照片的過程。通常,假設(shè)所有照片都是從同一視點(diǎn)對(duì)同一物品進(jìn) 行拍攝的,但是有些東西在改變,例如,如果是一組照片,則不同的人在任何 特定的時(shí)刻可能在微笑或不在微笑。因此,可采用這一過程來選取出所有正在 微笑的人來組裝較好的圖像。底層技術(shù)處理圖形剪切,這建立了你所希望的某 種目標(biāo)函數(shù)(例如,微笑的人),并且系統(tǒng)將檢查來自輸入圖像的像素并選擇 最好的像素。然而,該系統(tǒng)不能很好地處理移動(dòng)照相機(jī)。在大多數(shù)情況下,輸 入圖像必須來自靜止照相機(jī),或最多繞其光軸旋轉(zhuǎn)。多視角(multi-perspective)圖像長期以來被藝術(shù)家用于描繪大型場景。可 能在古代中國巻軸繪畫中能找到最早的示例,該巻軸繪畫用多個(gè)透視圖來講述 跨越空間和時(shí)間的故事。Kubovy[1986]描述了可在許多文藝復(fù)興繪畫中找到的 多視角效果,并解釋了主要?jiǎng)訖C(jī)是避免大型場景中尤其在邊緣處看上去奇怪的 透視失真。例如,這些繪畫中的人通常是從直接在其前方的視點(diǎn)來描繪的,即 使這些人遠(yuǎn)離圖像的中心。否則,他們將以不悅目的方式被拉長。最近,藝術(shù)家Michael Koller創(chuàng)建了舊金山街道的多視角圖像。該圖像由線性透視照片的 多個(gè)區(qū)域構(gòu)成,這些區(qū)域被巧妙地縫合在一起以隱藏轉(zhuǎn)變。城市街區(qū)的每一建 筑物看上去與如果實(shí)際直接站在該建筑物前方所看到的大致相同。如上所述,多視角圖像并不是新的;它們可在古代和現(xiàn)代藝術(shù)中,以及計(jì) 算機(jī)圖形和視覺研究中都找的到。然而,創(chuàng)建可視化大型場景的多視角圖像的 一個(gè)困難一般并沒有被良好定義。例如,如果該場景是完全平面的,則該場景 可被建模為具有單個(gè)紋理圖的矩形,并且理想輸出將很一般地是該紋理圖。然 而,在變化深度的世界中,產(chǎn)生視差問題。視差指的是當(dāng)觀察者移動(dòng)時(shí),較靠 近觀察者的物體顯現(xiàn)為比離觀察者較遠(yuǎn)的物體移動(dòng)得更快這一事實(shí)。由此,從 具有變化深度的世界的移動(dòng)的視點(diǎn)拍攝的圖像在其重疊區(qū)域中并沒有對(duì)齊。各項(xiàng)研究也已探索了對(duì)多視角成像的多種使用。例如,幾個(gè)研究院 [Agrawala等人2000; Yu和McMillan 2004; Glassner 2000]探索了來自3D模 型的多視角圖像的呈現(xiàn)。多視角圖像也被用作便于生成傳統(tǒng)透視圖的數(shù)據(jù)結(jié)構(gòu) [Wood等人1997; Rademacher和Bishop 1998],然而,使用所捕捉的圖像的研 究較不流行。Kasser和Egels[2002]對(duì)攝影測量進(jìn)行了大量研究,攝影測量是從 關(guān)于照片的測量中推導(dǎo)物體的物理維度的科學(xué),這些測量包括圖像中描繪的三 維世界中的物體,以及當(dāng)拍攝圖像時(shí)照相機(jī)的位置和方向。在該工作中,航天 或衛(wèi)星圖像被縫合在一起以創(chuàng)建地球的接近正交的、從上到下的視圖。然而, 這一工作并未解決描繪三維場景的圖像的困難,因?yàn)槿S場景引入了透視縮短 和視差難題,而這是正交圖像中不需要處理的。并且,連續(xù)變化視點(diǎn)的圖像不能通過合成來自每一幀的帶而從由連續(xù)移動(dòng)的照相機(jī)捕捉的視頻中創(chuàng)建;示例包括推式路帚全景(pushbroom panorama)[Gupta和Hartley 1997; Seitz和Kim 2002]、自適應(yīng)流形(adaptive manifold)[Peleg等人2000]、以及x狹縫圖像[Zomet等人2003]。推式路帚全景可用于可視化諸如街道等長場景,然而,這些圖像通??瓷先ヅc人類在觀看該場景時(shí)察覺到的相當(dāng)不同。推式路帚全景在水平方向上具有正交透視圖,而在垂直方向上具有常規(guī)的透視圖。由此,交叉路口不會(huì)會(huì)聚到一點(diǎn),并且在變化深度的物 體將被非均勻地拉長。在稍后的工作中,Roman等人[2004]從推式路帚全景的不足之處以及藝術(shù)家Michael Koller的示例中得到靈感,從而設(shè)計(jì)出一種用于創(chuàng)建街道的多視角 圖像的交互式系統(tǒng)。他們?cè)试S用戶用多個(gè)x狹縫區(qū)域創(chuàng)建圖像;因此,最終結(jié) 果由單視點(diǎn)透視圖的矩形構(gòu)成,這些透視圖由具有連續(xù)內(nèi)插的透視圖的矩形來 分隔。這一工作是展示出推式路帚全景的限制以及對(duì)其的改進(jìn)的第一項(xiàng)工作, 但是對(duì)其方法仍有若干限制。其中之一是他們需要對(duì)沿照相機(jī)路徑的所有管線 進(jìn)行密集采樣;這一要求需要涉及安裝在沿著街道緩慢駕駛的卡車上的每秒 300幀的高速照相機(jī)的復(fù)雜捕捉設(shè)置。其對(duì)視頻的使用與靜止照相機(jī)相比還嚴(yán) 重限制了輸出分辨率,并生成必須被儲(chǔ)存(并且可能被壓縮,導(dǎo)致偽像)的極 大量數(shù)據(jù)。此外,由于視頻照相機(jī)不斷地在移動(dòng),因此需要較短的曝光時(shí)間來 避免運(yùn)動(dòng)模糊,這使得更難以在實(shí)現(xiàn)來自自然光的足夠亮的圖像的同時(shí)避免較 高ISO設(shè)置的噪聲。與藝術(shù)家Michael Koller的不同,其系統(tǒng)的輸出包含連續(xù) 移動(dòng)視點(diǎn)的區(qū)域,這可看上去相當(dāng)不同且通常更糟;例如,這些區(qū)域通常展示 出顛倒的透視圖,其中遠(yuǎn)處的物體反而看上去更大而不是更小。最后,已作出了其它嘗試來從一場景的一系列單透視圖像中呈現(xiàn)多視角圖 像。攝影測量可產(chǎn)生由輸入圖像的集合以及照相機(jī)位置和方向所表示的場景的 三維模型。該輸入圖像然后被投影到該三維世界以產(chǎn)生多視角圖像輸出。然而, 該三維世界是復(fù)雜且不規(guī)則的表面,并且這些不規(guī)則性導(dǎo)致常見的失真。此外, 沒有令人滿意的方式來將這些圖像縫合在一起而不在最終輸出中留下說明問 題的縫。發(fā)明概述以下提出了所要求保護(hù)的主題的簡化概述以提供對(duì)所要求保護(hù)的主題的 某些方面的基本理解。本概述并非所要求保護(hù)的主題的廣泛綜述。它并不旨在 確定所要求保護(hù)的主題的關(guān)鍵或決定性要素,也不旨在勾畫所要求保護(hù)的主題 的范圍。其唯一的目的是以簡化的形式提出所要求保護(hù)的主題的某些概念,作 為以下提出的更詳細(xì)描述的序言。所要求保護(hù)的主題的一方面提供了一種幫助產(chǎn)生能夠可視化太大以致于 無法從任何單個(gè)透視圖描繪的場景的單個(gè)圖像的體系結(jié)構(gòu)。對(duì)所要求保護(hù)的主 題的體系結(jié)構(gòu)的輸入可以是從沿一場景的多個(gè)視點(diǎn)拍攝的一系列照片。例如,為描繪街道的邊沿,可以只需沿著另一邊行走,并且大致地每米拍攝一手持照 片。每一照片的輸出可以是可視化了該街道的一部分的簡單圖像。這些照片可 被縫合在一起以形成在輸入照片中捕捉的整個(gè)范圍場景的多視角圖像。大型場景的這一可視化具有美觀和藝術(shù)的潛力,但是也可以對(duì)各種應(yīng)用有 實(shí)際用途。例如,街道邊沿的圖像可用于車內(nèi)導(dǎo)航,并可視地傳達(dá)城市的地圖 和方向。對(duì)若干英里的小溪的從上到下視圖將可用于地理可視化,并且?guī)椭O(jiān) 視變化和腐蝕。描繪旅游目的地和諸如長距離自然行走等活動(dòng)的圖像或來自較 長的橋的視圖可幫助做廣告。此處所創(chuàng)建并描述的圖像可包含來自多個(gè)透視圖 的可視信息,并且因此可被認(rèn)為是多視角圖像。根據(jù)所要求保護(hù)的主題的另一方面,對(duì)該體系結(jié)構(gòu)的輸入圖像可由具有手 持式靜止照相機(jī)沿照相機(jī)路徑行走的人來捕捉,并且因此不受對(duì)通常從視頻輸 入中得到或至少模擬(例如,每毫米排拍攝一個(gè)圖像)視頻輸入的大量數(shù)據(jù)的 要求的限制。因此,場景的圖像的質(zhì)量可以高得多,并且可以從各種照相機(jī)位 置拍攝,這些照相機(jī)位置是從幾毫米到幾米甚至幾英里遠(yuǎn)的任何地方,取決于 所成像的場景的大小以及該場景離照相機(jī)的距離(例如,每一圖像之間的間隔 可以與所成像的物體的大小成有效比例)。在另一方面,可呈現(xiàn)在輸入圖像中描繪的世界的三維模型。這一呈現(xiàn)可采 用基于三維模型內(nèi)的特征點(diǎn)(例如,主導(dǎo)物體)來描述照相機(jī)位置和方向的投 影矩陣。并且,可選擇一主導(dǎo)深度,且可在該主導(dǎo)深度處跨三維模型拉伸二維 圖片表面,以表示該場景的多視角圖,如同從離該表面有主導(dǎo)深度距離的位置 (例如,照相機(jī)路徑上的一點(diǎn))處所看到的那樣。該主導(dǎo)深度例如可以基于主 導(dǎo)幾何結(jié)構(gòu)和/或特征點(diǎn),或基于有助于圖片表面的特征之間的良好對(duì)齊的深 度。根據(jù)又一方面,該體系結(jié)構(gòu)可將每一輸入圖像的像素投影到圖片表面上。 由于許多圖像都與一個(gè)或多個(gè)其它圖像重疊,由此來自一個(gè)圖像的許多像素也 將重疊,且因此競爭圖片表面上的同一位置。當(dāng)像素重疊時(shí),該體系結(jié)構(gòu)可基 于一目標(biāo)函數(shù)來對(duì)每一重疊區(qū)域選擇最佳像素,該目標(biāo)函數(shù)被定義為實(shí)現(xiàn)像素 選擇過程的目標(biāo)。在這一情況下,目標(biāo)是選擇產(chǎn)生用于將多個(gè)圖像縫合成單個(gè) 多視角圖像的最佳結(jié)果的像素。該目標(biāo)可通過最小化公共失真并創(chuàng)建看上去自然的、毗鄰的、且類似于當(dāng) 觀看實(shí)際場景時(shí)將體驗(yàn)到的輸出來量化。具體地,該目標(biāo)函數(shù)可采用數(shù)據(jù)成本 函數(shù)和縫成本函數(shù)中的至少一個(gè)。數(shù)據(jù)成本函數(shù)可以是與一像素與包括該像素 的圖像的中心的距離成比例的值。縫成本函數(shù)可以基于像素與相鄰像素的一致 性、圖片表面中該位置處的強(qiáng)邊緣、以及主導(dǎo)深度中的至少一個(gè)。通過允許該 目標(biāo)函數(shù)為數(shù)據(jù)成本和縫成本之和,最小化該目標(biāo)函數(shù)將產(chǎn)生在像素重疊的圖 片表面上的任何位置處使用的最佳像素。以下描述和附圖詳細(xì)闡明了所要求保護(hù)的主題的某些說明性方面。然而, 這些僅指示了可采用所要求保護(hù)的主題的原理的各種方式中的幾種,并且所要 求保護(hù)的主題旨在包括所有這些方面及其等效方面。當(dāng)結(jié)合附圖考慮以下所要 求保護(hù)的主題的詳細(xì)描述時(shí),所要求保護(hù)的主題的其它優(yōu)點(diǎn)和新穎特征將是顯 而易見的。附圖簡述
圖1是示出幫助優(yōu)化的多視角數(shù)字圖像生成的系統(tǒng)的框圖。圖2是示出包括幫助優(yōu)化的多視角數(shù)字圖像生成的智能組件的系統(tǒng)的框圖。圖3描繪了幫助生成一場景的二維圖片表面的過程的示例性流程圖。圖4示出了幫助優(yōu)化多視角圖片表面的過程的示例性流程圖。圖5示出了表示取自照相機(jī)路徑的重疊圖像被投影到圖片表面上的三維 場景的三維模型的正交視圖的示例性片。圖6描繪了中點(diǎn)在非常接近強(qiáng)邊緣的兩個(gè)照相機(jī)視圖的中心點(diǎn)之間的三 維模型的正交視圖的示例性片。圖7示出了當(dāng)特征點(diǎn)不在圖片表面上時(shí)中點(diǎn)在非常接近強(qiáng)邊緣的兩個(gè)照 相機(jī)圖像的中心點(diǎn)之間的三維模型的正交視圖的示例性片。圖8示出了特征點(diǎn)之間的深度不連續(xù)性遮住部分照相機(jī)視圖的三維模型 的正交視圖的示例性片。圖9示出了可用于執(zhí)行所公開的體系結(jié)構(gòu)的計(jì)算機(jī)的框圖。圖IO示出了示例性計(jì)算環(huán)境的示意性框圖。發(fā)明描述現(xiàn)在參考附圖描述所要求保護(hù)的主題,在全部附圖中使用相同的參考標(biāo)號(hào) 來指代相同的元素。在以下描述中,出于解釋的目的,闡明了眾多具體細(xì)節(jié)以 提供對(duì)所要求保護(hù)的主題的全面理解。然而,很明顯,所要求保護(hù)的主題也可 在沒有這些具體細(xì)節(jié)的情況下事實(shí)。在其它情況下,以框圖形式示出了公知的 結(jié)構(gòu)和設(shè)備以便于描述所要求保護(hù)的主題。如本申請(qǐng)中所使用的,術(shù)語"組件"和"系統(tǒng)"指的是計(jì)算機(jī)相關(guān)的實(shí)體, 無論是硬件、硬件和軟件的組合、軟件還是執(zhí)行中的軟件。例如,組件可以是, 但不限于,運(yùn)行在處理器上的進(jìn)程、處理器、對(duì)象、可執(zhí)行碼、執(zhí)行的線程、 程序和/或計(jì)算機(jī)。作為說明,運(yùn)行在服務(wù)器上的應(yīng)用程序和服務(wù)器都可以是組 件。 一個(gè)或多個(gè)組件可駐留在進(jìn)程和/或執(zhí)行的線程中,并且組件可位于一個(gè)計(jì) 算機(jī)上和/或分布在兩個(gè)或多個(gè)計(jì)算機(jī)之間。如此處所使用的,術(shù)語"推斷"或"推論" 一般指從一組通過事件和/或 數(shù)據(jù)捕捉的觀察中推出或推斷系統(tǒng)、環(huán)境和/或用戶的狀態(tài)的過程。例如,推斷 可用于標(biāo)識(shí)特定的上下文或動(dòng)作,或可生成狀態(tài)的概率分布。推斷可以是概率 性的一即,基于數(shù)據(jù)和事件的考慮計(jì)算感興趣的狀態(tài)的概率分布。推斷也可以 指用于從一組事件和/或數(shù)據(jù)組成更高級(jí)事件的技術(shù)。這類推斷導(dǎo)致從一組觀察 的事件和/或儲(chǔ)存的事件數(shù)據(jù)構(gòu)造新的事件或動(dòng)作,無論事件是否在相鄰的時(shí)間上相關(guān),也無論事件是來自一個(gè)還是若干個(gè)事件和數(shù)據(jù)源。如此處所使用的,術(shù)語"照相機(jī)"、"照相機(jī)位置"、"照相機(jī)視圖"和 "照相機(jī)路徑"可以用以下方式來描述。照相機(jī)指的是能夠生成環(huán)境的照片的 一個(gè)或多個(gè)設(shè)備。照片通常是可見光譜中的靜止圖像,它一般表示太大以致于 無法從單個(gè)透視圖成像的場景的一部分。術(shù)語照相機(jī)位置一般指當(dāng)生成照片或圖像時(shí)照相機(jī)的位置,在某些情況中指照相機(jī)的方向。因此,照相機(jī)視圖可被 定義為焦點(diǎn)視場(例如,平截面)。最后,照相機(jī)路徑一般指與一系列照相機(jī) 位置相交的路徑。照相機(jī)路徑可以是,但不必須是直線,但是通常不包括圍繞 場景的軌道旋轉(zhuǎn)。最經(jīng)常地,照相機(jī)路徑將遵循與場景相鄰且基本平行的路線。 根據(jù)所要求保護(hù)的主題的一方面,可從多個(gè)輸入圖像中生成一優(yōu)化的多視角輸出圖像。然而,由于沒有用于定義什么使得多視角輸出圖像"看上去良好" 的綜合范例,因此必須探査所涉及各種困難。抽象而言,輸出圖像應(yīng)表現(xiàn)為自 然的、連續(xù)的、并且大致類似于當(dāng)沿照相機(jī)路徑行走并觀察場景時(shí)所體驗(yàn)到的。 當(dāng)然,不可能總是能獲得用靜態(tài)二維圖像對(duì)三維世界的完美表示,因?yàn)槿S世 界包含變化的深度。_即使可獲得關(guān)于世界的幾何結(jié)構(gòu)和外觀的完整知識(shí),關(guān)于如何呈現(xiàn)理想 的、連續(xù)的、多視角圖像通常也不是非常清楚的。最明顯的答案是呈現(xiàn)正交視 圖,但是這會(huì)缺少觀察者在例如站在街道上并觀看街道的對(duì)面時(shí)所見到的透視 縮短效果(可用作深度提示)。所呈現(xiàn)的推式路帚全景也會(huì)引入失真。 一種暗 示是沒有能夠用來測量可視化的準(zhǔn)確度的地面實(shí)況(ground truth)或黃金標(biāo)準(zhǔn);照片現(xiàn)實(shí)主義在這一情況下不是完美地定義的。然而,諸如Michael Koller的可視化等好的多視角可視化的示例是存在的, 并且普通的觀眾可在他看到好的圖像時(shí)說出該好的圖像。由此,在某種程度上, 在圖像空間中可定義好結(jié)果的特性。例如,輸出圖像可以由從一個(gè)人自然所站 的地方的視點(diǎn)看到的線性透視圖的區(qū)域組成,例如,城市街區(qū)將穿過街道來觀 看,而非在具有被遮擋的視場并丟失許多自然深度暗示的某一遙遠(yuǎn)的視點(diǎn)處觀 看。這些區(qū)域之間的縫不應(yīng)引起注意;由此,圖像應(yīng)看上去是自然且連續(xù)的。 同樣,場景中的每一物體可以從大致在其前方的視點(diǎn)呈現(xiàn),以產(chǎn)生具有最少透 視失真的描繪。由視差引入的困難可通過假設(shè)該場景具有一主導(dǎo)深度來緩和。對(duì)于街道場 景,該深度通常位于街道對(duì)面的建筑物的前方。因此,在此深度的物體應(yīng)被盡 可能準(zhǔn)確地成像。對(duì)于準(zhǔn)確度, 一般推導(dǎo)這些物體應(yīng)僅被成像一次且被完整成 像,并且這些物體在圖片空間中的排列應(yīng)類似于其在物理空間中的排列的思維 模型。遠(yuǎn)離該主導(dǎo)深度的物體可被假設(shè)為是較不重要的,且因此在呈現(xiàn)不在主 導(dǎo)深度的物體時(shí)可以有更多自由。然而,用具體的術(shù)語來定義可接受的自由同樣是難懂的,即使是在容易表 達(dá)的示例(諸如街道場景)的上下文中。例如,汽車和綠化是通常在主導(dǎo)深度 外找到的物體的示例。因此,通常認(rèn)為在輸出圖像中偶爾省略這些物體是可接 受的。一般還認(rèn)為更改綠化的幾何結(jié)構(gòu),諸如縮短矮樹叢或修剪樹是可接受的,只要矮樹叢和樹仍看上去向自然的矮樹叢和樹。不認(rèn)為非均勻地縮放或變形一 物體是可接受的。因此,汽車或樹上的葉子不應(yīng)看上去被拉長或壓扁。同樣, 物體的相對(duì)比例不應(yīng)看上去是不自然的;較接近照相機(jī)路徑的物體應(yīng)當(dāng)較大, 并且所有汽車應(yīng)當(dāng)在圖片空間中是類似的大小,尤其是在同一深度上的那些汽車。最初參考圖1,描繪了幫助優(yōu)化的多視角數(shù)字圖像生成的計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng)100。 一般而言,系統(tǒng)100可包括接收多個(gè)圖像104r104N (總稱為或單獨(dú)地 稱為圖像104)的接口 102??梢岳斫猓M管圖像104可被總稱,但是以下相 應(yīng)圖像104可具有區(qū)分每一圖像104的獨(dú)特特性。多個(gè)場景圖像104可對(duì)應(yīng)于 沿一照相機(jī)路徑的多個(gè)照相機(jī)位置。照相機(jī)位置和照相機(jī)路徑將在以下參考圖 5更詳細(xì)描述。可以理解,圖像104的格式可被轉(zhuǎn)換成其它格式和/或被接口 102 和/或圖像生成組件106呈現(xiàn)以強(qiáng)調(diào)一種格式相對(duì)于另一種格式的期望特性。每一相應(yīng)圖像104可從多個(gè)照相機(jī)位置之一的觀點(diǎn)來描述三維場景的一 部分。該三維場景可包括大量視差和/或透視縮短特性,這些視差和特性可從照 相機(jī)位置的有利點(diǎn)看見,并且通常太大以致于無法由單個(gè)透視圖來捕捉,但是 可用諸如圖像104等一系列單透視圖像來整體成像。圖像生成組件106可從接 口 102接收?qǐng)D像104,并且可生成優(yōu)化圖像108。優(yōu)化圖像108可以是通過將 圖像104縫合成類似于觀察者在觀看該場景時(shí)可看到的視圖的單個(gè)、粘合的輸 出而生成的多視角圖像??梢岳斫?,盡管圖像104通常是單透視圖像,但是一個(gè)或多個(gè)圖像也可以 是諸如優(yōu)化圖像108等多視角圖像。例如,如上所述假定優(yōu)化圖像108是從描 繪街道場景的一系列圖像104生成的。隨后,更改該場景并構(gòu)造了例如沿著街 道場景的長度延伸(或甚至替代了先前存在的其它建筑物)的另外的建筑物。 該延伸的場景隨后可用一新輸入圖像104來照相,并連同先前的優(yōu)化圖像108 一起被傳遞給圖像生成組件106。本質(zhì)上,表示延伸的場景的后續(xù)的新輸入圖 像104可被縫合到表示在添加之前的原始場景的先前的優(yōu)化圖像108,以產(chǎn)生 經(jīng)更新的優(yōu)化圖像108。圖像生成組件106可通過采用表面定義組件110、投影組件112和優(yōu)化組 件114來生成優(yōu)化圖像108。表面定義組件110可確定場景的主導(dǎo)深度,并生成該主導(dǎo)深度處的二維圖片表面。表面定義組件110可例如通過采用來自由Hartley和Zisserman[2004]描述的運(yùn)動(dòng)算法的結(jié)構(gòu)來為全局坐標(biāo)框架內(nèi)的每一 照片計(jì)算投影矩陣。由于圖像104通常是一組稀疏的照片而非連續(xù)的視頻流,因此常規(guī)的基于相關(guān)的對(duì)齊將不能起到很好的作用。相反,可例如通過利用在 Lowe[2004]以及Lowe和Brown[2005]中描述的SIFT特征描述符來計(jì)算圖像 104之間的點(diǎn)匹配。表面定義組件110然后可例如通過使用由Hartley和 Zisserman[2004]描述的稀疏束調(diào)整來優(yōu)化投影矩陣參數(shù)。因此,表面定義組件110可基于圖像104以及描述該場景幾何結(jié)構(gòu)的三維 點(diǎn),諸如特征點(diǎn)(例如,該場景內(nèi)的主導(dǎo)物體或重要特征)的稀疏云來為每一 照相機(jī)確定位置、方向和投影矩陣??梢岳斫?,照相機(jī)的路徑(例如,照相機(jī) 位置位于其上的照相機(jī)路徑)可能不是直線。此外,即使照相機(jī)路徑是直線, 對(duì)齊的漂移(例如,由于圖像104之間略微不同的照相機(jī)方向)也可產(chǎn)生曲線。 由此,可使用例如由Schneider[1990]描述的Schneider算法將三次貝塞爾樣條 擬合到照相機(jī)路徑。表面定義組件IIO可呈現(xiàn)表示該場景的三維模型,并將來自運(yùn)動(dòng)輸出的結(jié) 構(gòu)的坐標(biāo)框架與預(yù)期的坐標(biāo)框架對(duì)齊。例如,地平面通常是x-y平面,其中照 相機(jī)路徑沿x軸行進(jìn),而路燈柱點(diǎn)沿z軸。(見圖5-8)。為實(shí)現(xiàn)這一對(duì)齊, 最垂直和最不垂直于每一照相機(jī)視圖的光軸的向量可例如采用奇異值分解以 最小二乘法來計(jì)算。因此,最垂直的向量可被定義為新的z軸,而最不垂直的向量可被定義為 新的y軸,并且x軸作為其叉積。在某些情況下,以此方式定義坐標(biāo)系統(tǒng)可能 不能起很好的作用。例如,如果圖像104是由不是直接指向場景中的物體的照 相機(jī)產(chǎn)生的(例如,攝影者可能將照相機(jī)向上傾斜以捕捉建筑物的頂部)。因 此,在這些情況下,表面定義組件110提供了使得用戶可選擇定義新坐標(biāo)系的 特征,而非如上所述地自動(dòng)定義該坐標(biāo)系的手段。在描繪了坐標(biāo)系之后,表面定義組件IIO可定義駐留在三維模型內(nèi)的二維 圖片表面,并且可表示其上將縫合由圖像104描繪的場景的多視角圖的畫布或 表面。因此,可在該圖片空間上直接生成優(yōu)化圖像108。為定義該表面,表面 定義組件110可將貝塞爾樣條照相機(jī)路徑沿y軸向下推一個(gè)等于主導(dǎo)深度的量。該主導(dǎo)深度可以通過選擇三維模型中該模型的主導(dǎo)幾何結(jié)構(gòu)所處的y軸深度(例如,在以上街道場景示例中為街道對(duì)面的建筑物前方)來解出。除此之 外或作為替代,該主導(dǎo)深度可基于三維模型內(nèi)的其它特征點(diǎn)的對(duì)齊來選擇。表 面定義組件IIO可沿著Z軸上下掃動(dòng)樣條來形成表面。該表面可具有一常規(guī)網(wǎng)格,其x軸可通過對(duì)貝塞爾樣條進(jìn)行均勻采樣[Salomon 1999]來定義,而其z 軸可被定義為該樣條向上或向下掃過z軸有多遠(yuǎn)。投影組件112可將來自多個(gè)圖像104的圖像104的每一像素投影到圖片表 面上,該圖片表面最終可被呈現(xiàn)到優(yōu)化圖像108中。這可通過取每一照相機(jī)的 恢復(fù)的投影矩陣并將像素的圖像104投影到圖片表面來實(shí)現(xiàn),該投影可通過復(fù) 制圖像104中的相似的顏色并將該像素顏色粘貼在圖片表面上相應(yīng)的像素位置 處來完成。例如,投影組件112可通過將投影的圖像采樣到圖片表面的常規(guī)網(wǎng) 格上來對(duì)每一源圖像Ci (例如,圖像104)創(chuàng)建投影圖像Pi。另外,投影組件 112還可標(biāo)識(shí)重疊像素。例如,當(dāng)一像素被投影到圖片表面上其中已經(jīng)投影了 另一像素(由于圖像104的照相機(jī)視圖的重疊)的位置時(shí),認(rèn)為存在重疊像素。 很明顯,這些重疊像素中僅有一個(gè)可存在于最終的優(yōu)化圖像108中,因此圖像 生成組件106必須在重疊像素之間進(jìn)行選擇。為此,優(yōu)化組件114可基于一目標(biāo)函數(shù)從重疊像素中選擇一最佳像素來投 影??梢岳斫?,來自任意數(shù)目的圖像104的任意數(shù)目的像素可在同一像素位置 上重疊,該數(shù)目僅受到有多少圖像104包括由重疊像素在圖片表面上表示的場 景位置的限制。然而,重疊像素通常兩個(gè)一組進(jìn)行比較,即,來自前一圖像104 的當(dāng)前位于圖片表面上的該位置處的像素pp以及來自另一圖像104的被確定 為投影到圖片表面的同一位置上的像素p2。為了選擇最佳像素,優(yōu)化組件114可考慮上述透視縮短和視差的效果。給 定對(duì)這些困難的這一抽象描述,可考慮這些困難的更具體方面。例如,可以假 定圖像104是在沿照相機(jī)路徑的已知(例如,已計(jì)算的)位置處所取的描繪。 由此,還可以假定知道圖像104的位置和觀看參數(shù),以及包含重要物體的主導(dǎo) 深度。此外,還可假定照相機(jī)路徑大致跟隨x軸。(見圖5-8)。如上關(guān)于表 面定義組件IIO所描述的,圖片表面可通過將該照相機(jī)路徑推入場景中主導(dǎo)深 度,然后沿z軸上下掃動(dòng)該路徑來定義。表面定義組件IIO然后可將每一圖像104投影到該圖片表面上。投影的照片應(yīng)當(dāng)在某些位置處重疊,正如圖像104 重疊那樣(假定照相機(jī)的間距較小),且因此圖片表面上的每一點(diǎn)可選擇將其顏色從若干重疊圖像104之一中復(fù)制。由此, 一個(gè)困難是從圖片表面上的每一點(diǎn)處的重疊圖像104中選擇最佳像素來最佳地滿足涉及視差和其它深度提示的上一節(jié)中所略述的目標(biāo)。在數(shù)學(xué)觀 念上,圖片表面可被定義為具有常規(guī)的二維網(wǎng)格,并且該網(wǎng)格上的任一點(diǎn)可用二維向量p來描述。每一點(diǎn)p可被投影到每一照相機(jī)Ci中。這一投影可以被稱 為Pi(p),它返回圖像i (例如,圖像104)中投影位置處的RGB顏色(例如,3 個(gè)范圍從0-255的8位值)或類似的格式。 一般而言,如果該投影的位置在照 相機(jī)i的視場外部,則P制K)。并且,對(duì)于每一點(diǎn)p,可選擇從中復(fù)制其顏色 的源圖像i。這一選擇矩陣可被稱為/,使得對(duì)每一p可以有n個(gè)源圖像(例如, 圖像104) , lS/(p)^n。由此, 一旦計(jì)算了l,圖片表面上的每一點(diǎn)p可具有 顏色P/(p)(p)。給定這一問題設(shè)置,已經(jīng)滿足了幾個(gè)目標(biāo)。輸入圖像104己經(jīng)從自然視點(diǎn) 捕捉。假定照相機(jī)位置的間距并不是很小來逼近視頻,輸出一般不包含平滑內(nèi) 插視點(diǎn)的任何區(qū)域。由此,輸出不太可能包含非均勻縮放或失真,并且物體的 相對(duì)大小應(yīng)是自然的。最后,準(zhǔn)確地描繪主導(dǎo)深度處的物體應(yīng)當(dāng)是簡單的,因 為這些物體將在不同照相機(jī)之間沿著圖片表面對(duì)齊。為根據(jù)以上略述的目標(biāo)來 計(jì)算最佳最終輸出圖像,可對(duì)每一p選擇/(p)的值以給出最佳可能輸出圖像。 這可通過最小化標(biāo)準(zhǔn)馬爾可夫隨機(jī)場(MRF)形式的目標(biāo)函數(shù)來實(shí)現(xiàn)。該目標(biāo) 函數(shù)可在每一p上對(duì)數(shù)據(jù)成本D(p)求和,以及在每一對(duì)相鄰的點(diǎn)p,q (每一點(diǎn) 在常規(guī)網(wǎng)格上有四個(gè)鄰居)上對(duì)平滑度成本S(p,q)求和。這些數(shù)據(jù)和平滑度成 本可被定義為使得其測量由/(p)定義的輸出圖像(例如,優(yōu)化圖像108)有多 滿足以上略述的目標(biāo)。根據(jù)所要求保護(hù)的主題的一方面,成本函數(shù)可用非常簡單的方式來定義。 由于一般不希望復(fù)制來自每一照相機(jī)的視場外部的像素,因此如果P"p)(p) = 0, 則D(p):oo。否則,由于希望從大致在每一物體前方的視點(diǎn)來描繪該物體,因 此如果/(p) = i,則數(shù)據(jù)成本D(p)可以與離圖像中心的距離成比例。平滑度成 本可根據(jù)輸出圖像是自然且連續(xù)的目標(biāo)來定義。例如,滿足上述目標(biāo)的一種方式可以是用以下平滑度成本來測量S(P,q) = (|P"P)(P)-P"q)(P)l+|P"P)(q)-P"q)(q)l)/(E/(P)(p,q)+E/(q)(p,q)),其中 E,(p,q)是圖像i中像素p和q之間的標(biāo)量邊緣勢(edge potential),它是使用 Sobel濾波器來計(jì)算的。該平滑度項(xiàng)可促使在圖像104相符的兩個(gè)相鄰像素處 的兩個(gè)圖像之間放置縫,以及在強(qiáng)邊緣存在之處放置縫。 一般而言,重疊圖像 104將在場景幾何結(jié)構(gòu)與圖片表面相交之處相符;因此,這些區(qū)域通常是放置 縫的好位置。該平滑度成本也可阻礙在重疊圖像104不相符之處放置縫;該不 相符通常對(duì)于不在主導(dǎo)深度上的物體出現(xiàn),或者在主導(dǎo)深度上的物體展示出諸 如反射加亮等非Lambertian效應(yīng)的區(qū)域中出現(xiàn)。然而,如果不在主導(dǎo)深度上的 物體被均勻地上色或推測性地紋理化,則該平滑度成本有時(shí)候也促使對(duì)這些物 體放置縫,因?yàn)榭p可以在這些區(qū)域中被容易地隱藏。平滑度函數(shù)的這些趨勢解釋了它為何可以產(chǎn)生符合上述目標(biāo)的結(jié)果。目標(biāo) 函數(shù)的成本函數(shù)(例如,數(shù)據(jù)成本和縫成本)的優(yōu)化可將縫布線在諸如不在主 導(dǎo)深度上的樹和汽車等在圖像104重疊之處不對(duì)齊的物體周圍。在圖像104對(duì) 齊之處,該算法可跳過視點(diǎn)而觀察者不會(huì)注意到。然而,場景中落在主導(dǎo)深度 上的部分越多,該方法起的作用就越好。另一方面,如果有太多樹和汽車不在 主導(dǎo)深度上,則會(huì)引發(fā)問題。因此,優(yōu)化組件114可采用如由Boykov等人[2001]描述的圖剪切來優(yōu)化 早先定義的MRF目標(biāo)函數(shù)。給定常規(guī)網(wǎng)格上每一點(diǎn)p的最終矩陣/(p),可對(duì) 每一P從P/(p)中復(fù)制顏色以創(chuàng)建最終圖像(例如,優(yōu)化圖像108)。區(qū)域之間 的縫不應(yīng)當(dāng)引起注意,以便有助于看上去自然且連續(xù)的完整圖像。此外,要呈 現(xiàn)的場景中的每一物體可在優(yōu)化圖像108中從大致在該物體前方的視點(diǎn)來顯 示。因此,大多數(shù)物體可用最少的透視失真來描繪??梢岳斫?,縫成本可被修 改以利用將滿足上述目標(biāo)的多視角圖像縫合在一起的其它特性。例如,存在本體系結(jié)構(gòu)可以利用的、可能在視覺上不令人注意的其它類型 的縫,諸如由深度不連續(xù)性造成的縫。由于深度不連續(xù)性,觀察者可預(yù)期在前 景中的物體的邊緣處見到某些被局部遮擋的物體,但是觀察者一般不能精確地 預(yù)測在背景中應(yīng)看到哪一物體(或物體上的何處)。這意味著可在具有深度不 連續(xù)性的物體的邊緣處找到非常方便的縫,使得縫合可在此邊緣處從一個(gè)圖像104轉(zhuǎn)換到下一圖像104,只要照相機(jī)在大于前景中的物體的深度的深度下看到物體(見圖8)。更具體而言,考慮圖片表面上的兩個(gè)相鄰像素p和q,其中p的顏色來自 圖像Ci,而q的顏色來自圖像Cj。如果在圖像Cj中在p和q之間存在深度不 連續(xù)性,并且q處的深度小于p處的深度,則Cj中在q處的深度也小于Ci中 在p處的深度。在這一情況下,縫應(yīng)當(dāng)看上去是自然的,因此它將是作出從 Ci到Cj的轉(zhuǎn)換的非常好的位置。利用這種縫需要了解源圖像中的深度和深度不 連續(xù)性,這可以使用由Zitnick等人[2004]描述的多視圖立體技術(shù)來計(jì)算?,F(xiàn)在參考圖2,描繪了幫助優(yōu)化的多視角數(shù)字圖像生成的計(jì)算機(jī)實(shí)現(xiàn)的系 統(tǒng)200。 一般而言,系統(tǒng)200可包括接收多個(gè)圖像104并生成優(yōu)化圖像108的 圖像生成組件202。圖像生成組件202基本上類似于參考圖1所描述的圖像生 成組件106,但是一般還包括智能組件204和多視角二維表面206。多視角二 維表面206基本類似于上述圖片表面。表面定義組件110可接收描繪一場景的圖像104,并且可確定該場景的主 導(dǎo)深度并可生成該場景的三維模型以及該主導(dǎo)深度處的多視角二維表面206。 投影組件112可將來自多個(gè)圖像104的圖像104的像素投影到多視角二維表面 206上,并且可標(biāo)識(shí)重疊像素。優(yōu)化組件114可基于概述某些目標(biāo)的一個(gè)或幾 個(gè)成本函數(shù)來從重疊像素中選擇要投影的最佳像素。智能組件204可與組件110-114通信以添加重要功能。例如,智能組件204 可采用項(xiàng)目識(shí)別來確定場景中的重要物體,該重要物體可例如由表面定義組件 110在標(biāo)識(shí)或推斷特征點(diǎn)以及確定主導(dǎo)深度(例如,推斷某些特征何時(shí)對(duì)于最 終輸出是特別重要的,即使這些特征不在場景的主導(dǎo)特征中)時(shí)使用。類似地, 這一項(xiàng)目識(shí)別可由優(yōu)化組件114用于幫助作出穿過物體的圖剪切,和/或作為深 度不連續(xù)性檢測的替代或補(bǔ)充(例如,如果該場景是被一棵樹局部阻擋的建筑 物的場景,則通過識(shí)別這些項(xiàng)目,可以推斷存在深度不連續(xù)性)。類似地,投 影組件112可采用智能組件204來優(yōu)化像素投影。例如,可以存在已經(jīng)用于檢 查重疊像素的許多好圖像104,而連續(xù)圖像104以偏離中心點(diǎn)的遞增長度來顯 示該位置。在某些情況下,例如要由智能組件104確定或推斷的,可以假定后 一圖像104不會(huì)產(chǎn)生對(duì)給定位置的最佳像素,并且因此,不需要執(zhí)行成本分析??梢岳斫?,盡管智能組件204被描繪為圖像生成組件202的連接其它組件 的一個(gè)特征,但是智能組件204也可作為組件110-114中任一個(gè)的自含式組件 來包括。智能組件204可用于從經(jīng)由事件和/或數(shù)據(jù)捕捉到的一組觀察中推出或 推斷系統(tǒng)、環(huán)境和/或用戶的狀態(tài)。例如,推斷可用于標(biāo)識(shí)特定的上下文或動(dòng)作, 或可生成狀態(tài)的概率分布。推斷可以是概率性的一即,基于數(shù)據(jù)和事件的考慮 計(jì)算感興趣的狀態(tài)的概率分布。推斷也可以指用于從一組事件和/或數(shù)據(jù)組成更 高級(jí)事件的技術(shù)。這類推斷導(dǎo)致從一組觀察的事件和/或儲(chǔ)存的事件數(shù)據(jù)構(gòu)造新的事件或動(dòng) 作,無論事件是否在相鄰的時(shí)間上相關(guān),也無論事件和數(shù)據(jù)是來自一個(gè)還是若 干個(gè)事件和數(shù)據(jù)源。各種分類(顯式和/或隱式訓(xùn)練的)方案和/或系統(tǒng)(例如, 支持矢量機(jī)、神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、貝葉斯信任網(wǎng)絡(luò)、模糊邏輯、數(shù)據(jù)融合引 擎…)可用于執(zhí)行關(guān)于所要求保護(hù)的主題的自動(dòng)的和/或推斷的動(dòng)作。分類器是將輸入屬性矢量x = (xl, x2, x3, x4, x")映射到該輸入屬于一個(gè)類 的置信度的函數(shù),即/W二co"j^^ce(c/m力。這一分類可采用基于概率和/或基 于統(tǒng)計(jì)的分析(例如,分解成分析效用和成本)來預(yù)測或推斷用戶期望自動(dòng)執(zhí) 行的動(dòng)作。支持矢量機(jī)(SVM)是可采用的分類器的一個(gè)示例。SVM通過找 出可能輸入空間中的超曲面來操作,其中,超曲面試圖將觸發(fā)準(zhǔn)則從非觸發(fā)事 件中分離出來。直觀上,這使得分類對(duì)于接近但不等同于訓(xùn)練數(shù)據(jù)的測試數(shù)據(jù) 正確??刹捎闷渌ㄏ蚝头嵌ㄏ蚰P头诸惙椒ò?,例如,單純貝葉斯、貝葉 斯網(wǎng)絡(luò)、決策樹、神經(jīng)網(wǎng)絡(luò)、模糊邏輯模型、以及提供不同獨(dú)立性模式的概率 分類模型。此處所使用的分類也包括用于開發(fā)優(yōu)先級(jí)模型的統(tǒng)計(jì)回歸。圖3示出了根據(jù)所要求保護(hù)的主題的方法300。盡管出于解釋簡明的目的, 該方法被示出并描述為一系列動(dòng)作,但是可以理解和明白,所要求保護(hù)的主題 不受動(dòng)作次序的限制,因?yàn)槟承﹦?dòng)作可以按不同次序和/或與此處示出并描述的 其它動(dòng)作同時(shí)發(fā)生。例如,本領(lǐng)域的技術(shù)人員將理解和明白,方法可被替換地 表示為諸如狀態(tài)圖中的一系列相互關(guān)連的狀態(tài)或事件。此外,并非所有示出的 動(dòng)作都是實(shí)現(xiàn)根據(jù)所要求保護(hù)的主題的方法所必需的。另外,還應(yīng)當(dāng)理解,以 下以及貫穿本說明書所公開的方法能夠被儲(chǔ)存在制品上,以便于將這一方法運(yùn) 送并傳輸?shù)接?jì)算機(jī)。如此處所使用的術(shù)語制品旨在包含可從任何計(jì)算機(jī)可讀設(shè)備、載體或介質(zhì)訪問的計(jì)算機(jī)程序?,F(xiàn)在參考圖3,顯示了幫助生成一場景的二維圖片表面的示例性計(jì)算機(jī)實(shí)現(xiàn)的方法300。在302處,可接收多個(gè)圖像。通常,這些圖像將是從沿著一照相機(jī)路徑的不同照相機(jī)位置拍攝的一系列數(shù)字圖像,它們描繪了太大以致于無法從單個(gè)透視圖來査看的場景。在304處,可計(jì)算每一圖像的投影矩陣。投影 矩陣可基于由圖像的至少一個(gè)子集描繪的該場景的共同特征和/或主導(dǎo)幾何結(jié) 構(gòu)來映射每一輸入圖像的照相機(jī)位置以及照相機(jī)方向。這例如可通過采用用于 運(yùn)動(dòng)算法的結(jié)構(gòu)來完成。在306處,可呈現(xiàn)該場景的三維模型,該三維模型該場景描繪了相對(duì)于沿 照相機(jī)路徑的照相機(jī)位置的全局幾何結(jié)構(gòu)。可以理解,照相機(jī)的路徑可以不是 直線,并且即使是直線,對(duì)齊的漂移也會(huì)產(chǎn)生曲線。因此,例如,可使用諸如 Schneider算法等算法將三次貝塞爾樣條匹配到該照相機(jī)路徑。因此,如上所述, 可計(jì)算最垂直和最不垂直于每一照相機(jī)圖像輸入的光軸的向量。例如,該計(jì)算 可采用使用奇異值分解的最小二乘法操作。由此,最垂直的向量現(xiàn)在可被定義 為新的z軸;最不垂直的向量可被定義為新的y軸;而x軸可被定義為y和z 軸的叉積。在308處,可確定該模型的特征點(diǎn),這些特征點(diǎn)將在310處用于確 定主導(dǎo)深度。在312處,可在主導(dǎo)深度處跨三維模型映射二維圖片表面??梢岳斫?,該 圖片表面可從恢復(fù)的三維場景中投影,并且可直接在該圖片表面上形成輸出圖 像。為定義該表面,可將貝塞爾樣條照相機(jī)路徑沿著y軸向下"推" 一個(gè)等于 主導(dǎo)深度的量。然后,可沿著z軸上下掃動(dòng)該樣條以形成表面。該表面可具有 常規(guī)的網(wǎng)格,其x軸通過對(duì)貝塞爾樣條進(jìn)行均勻采樣來定義,而其y軸可按照 樣條在z軸上向上或向下掃了多遠(yuǎn)來定義。由于主導(dǎo)深度是圖像表面和照相機(jī) 路徑之間所呈現(xiàn)的距離,因此圖片表面可表示如從主導(dǎo)深度上的位置(例如, 照相機(jī)路徑上的一點(diǎn))看到的該場景的多視角圖??梢岳斫猓鲗?dǎo)深度可在動(dòng) 作31O處基于在動(dòng)作308處找到的特征點(diǎn)(例如模型的主導(dǎo)幾何結(jié)構(gòu))或基于 圖片表面中物體的對(duì)齊來確定?,F(xiàn)在轉(zhuǎn)向圖4,示出了幫助優(yōu)化多視角圖片表面的示例性計(jì)算機(jī)實(shí)現(xiàn)的方 法400。在402處,可接收多個(gè)圖像,它們描繪了太大以致于無法從單個(gè)透視圖中查看的場景。通常,這些圖像將是從沿著照相機(jī)路徑的不同照相機(jī)位置拍 攝的圖像的有序集合。在404處,可例如通過將該圖像的每一像素的顏色復(fù)制 到多視角圖像表面上的相應(yīng)位置來將該圖像的每一像素投影到該多視角圖像 表面。在406處,例如當(dāng)來自第一圖像的像素被投影到表面區(qū)域,并且來自第 二像素的像素被投影到同一位置時(shí),可標(biāo)識(shí)重疊像素。在重疊像素的情況下,在動(dòng)作408處,可基于一 目標(biāo)函數(shù)來選擇最佳像素,該目標(biāo)函數(shù)可以是尋求達(dá)到的目標(biāo)的數(shù)學(xué)描述。該目標(biāo)函數(shù)可采用數(shù)據(jù)成本和 縫成本。因此,最佳像素可以是產(chǎn)生最低目標(biāo)函數(shù)值的重疊像素,其中該目標(biāo) 函數(shù)是數(shù)據(jù)成本與縫成本之和。通常,數(shù)據(jù)成本對(duì)應(yīng)于圖像中心到像素位置的距離??p成本可以在動(dòng)作410處確定。例如, 一像素的縫成本可基于以下的至少一個(gè)相鄰像素之間的均勻性、圖片表面中該像素位置處的邊緣特征、該像素是否駐留在深度上、該像素與相鄰像素之一之間是否有深度不連續(xù)性、以及 智能組件是否確定(例如,經(jīng)由項(xiàng)目識(shí)別)該像素位置是對(duì)于縫的好位置。參考圖5,示出了示例性環(huán)境500,該環(huán)境一般包括照相機(jī)路徑502和主 導(dǎo)深度506處的圖片表面504。環(huán)境500例如可以是由沿著照相機(jī)路徑502的 間隔處拍攝的多個(gè)圖像捕捉的場景的所呈現(xiàn)的三維模型。提供環(huán)境500 (和以 下關(guān)于圖6和7描述的類似的環(huán)境)以強(qiáng)調(diào)所要求保護(hù)的主題的各方面的各種 新穎特征,并且不旨在限制,而是鞏固此處已經(jīng)描述的概念。因此,對(duì)環(huán)境500 的描述以及以下詳細(xì)描述的環(huán)境的討論可提供對(duì)以上關(guān)于圖l-4所介紹的概念 的有用理解。環(huán)境500示出了以上示例中描述的空間的x-y片。所建模的場景由建筑物、 汽車和樹構(gòu)成。攝影者可沿著照相機(jī)路徑502 (在本情況中為直線)行走,并 且可在例如約一米左右的間隔處拍攝該場景。此處,突出了四個(gè)照相機(jī)位置 Q到C4,它們分別被標(biāo)記為510、 512、 514和516。還示出了同樣用于這些位 置的觀看平截面。照片表面504可以通過將照相機(jī)路徑502沿著y軸推到主導(dǎo) 深度506來創(chuàng)建,該主導(dǎo)深度在本情況中是左邊兩個(gè)建筑物的深度。注意,當(dāng) 圖像Q和C2被投影到圖片表面上時(shí),所投影的像素的顏色在重疊區(qū)域中應(yīng)當(dāng) 相符,因?yàn)樗鼈兯枥L的建筑物的正面恰好位于圖片表面上(假定Lambertian, 較佳地是平面建筑物)。然而,當(dāng)物體的圖像不在圖片表面上時(shí),由于視差,顏色一般不會(huì)相符。因此,照相機(jī)位置510、 512、 514和516可被定義為照相機(jī)路徑502上可 從中拍攝輸入圖像的位置。從照相機(jī)位置510拍攝的圖像(即,d) —般將創(chuàng) 建由從510掃到圖片表面504的錐形平截面界定的照相機(jī)視圖,該照相機(jī)視圖 的限制邊緣在左側(cè)520處示出,并在右側(cè)522處示出。類似地,對(duì)于其它照相 機(jī)位置512-516的照相機(jī)視圖對(duì)于照相機(jī)位置512在524和526處、對(duì)于照相 機(jī)位置514在530和532處、對(duì)于照相機(jī)位置516在532和528處的最大寬度 處與圖片表面504相交。該視場延伸到圖片表面504在528、 534、 536和540 處不在主導(dǎo)深度506上的幾何結(jié)構(gòu)處結(jié)束。在這些交點(diǎn)之中是幾個(gè)重疊部分, 例如圖片表面504上由522和524界定的區(qū)域。另外,528和530之間的區(qū)域 示出重疊區(qū)域的一部分落在主導(dǎo)深度506外,534和536之間的區(qū)域也是如此, 也示出了由于遮住536右邊的照相機(jī)視圖的某一部分的汽車而引起的照相機(jī)位 置516的視場的深度不連續(xù)性。將描述這些情形中的每一個(gè)?,F(xiàn)在轉(zhuǎn)向圖6,示出了環(huán)境600,它一般包括照相機(jī)路徑502和圖片表面 504。該場景和環(huán)境600的主導(dǎo)幾何結(jié)構(gòu)是位于圖片表面504上的建筑物。示 出了兩個(gè)照相機(jī)位置602和604,其中照相機(jī)位置602的中心在610處示出, 而照相機(jī)位置604的中心在612處示出。兩個(gè)照相機(jī)視圖具有由614和616界 定的重疊區(qū)域。在該重疊區(qū)域內(nèi)的是建筑物在620處相遇的明顯的強(qiáng)邊緣,以 及照相機(jī)視圖602和604的中心之間的中點(diǎn),被標(biāo)為622。由此,622左邊的 所有像素更靠近從602拍攝的圖像的中心,而右邊的所有像素更靠近從604拍 攝的圖像的中心。因此,當(dāng)上述體系結(jié)構(gòu)試圖作出從照相機(jī)位置602到照相機(jī)位置604的轉(zhuǎn) 換時(shí),620處的強(qiáng)邊緣將是可形成轉(zhuǎn)換的一個(gè)可能點(diǎn)(因?yàn)榭p容易隱藏在邊緣 中)。同樣,由于數(shù)據(jù)成本函數(shù)的趨向,622處的中點(diǎn)也可以是形成轉(zhuǎn)換的好 位置。數(shù)據(jù)成本函數(shù)通常對(duì)來自落在622的右邊(由于邊緣失真)的照相機(jī)位 置602的像素授予比來自照相機(jī)位置604的像素更高的成本,反之亦然。因此,所有其它東西都是相等的,在這一情況下,數(shù)據(jù)成本函數(shù)可能偏愛 將從照相機(jī)位置602和604拍攝的兩個(gè)圖像在622處縫合,而縫成本函數(shù)可能 偏愛位置620。然而,由于主導(dǎo)幾何結(jié)構(gòu)落在圖片表面504上,因此縫成本不是問題(因?yàn)樵谶@一情況中兩個(gè)圖像將很好地相符)。因此,最小化目標(biāo)函數(shù)可能偏愛在位置622處從602到604的轉(zhuǎn)換。然而,在圖7中,提出了一種略 微不同的情形。簡要地參考圖7,描繪了環(huán)境700。環(huán)境700 —般包括照相機(jī)路徑502、 圖片表面504和兩個(gè)照相機(jī)位置702和704。照相機(jī)視圖在710和712之間重 疊,并且在720和中點(diǎn)722處有強(qiáng)邊緣。如以上圖6中一樣,數(shù)據(jù)成本函數(shù)將 偏愛在722處的轉(zhuǎn)換,而縫成本函數(shù)將偏愛在720處的轉(zhuǎn)換。然而,在這一情 況中,由兩個(gè)照相機(jī)位置702和704描繪的場景的片段內(nèi)的主導(dǎo)幾何結(jié)構(gòu)稍微 離開主導(dǎo)深度(例如,不在圖片表面504上)。因此,相應(yīng)圖像較不可能精細(xì) 地相符。因此,在這一情況下,目標(biāo)函數(shù)可能偏好在720處作出轉(zhuǎn)換?,F(xiàn)在轉(zhuǎn)向圖8,描繪了環(huán)境800,該環(huán)境一般包括照相機(jī)路徑502和圖片 504,以及照相機(jī)位置802和804及場景806中的其它物體,某些物體可以落 在主導(dǎo)深度上,而其它物體806可能沒有落在主導(dǎo)深度上。圖像在810和812 之間的區(qū)域中重疊,并且在前景中有一棵樹,這可造成深度不連續(xù)性,并遮蔽 了 814和816之間的物體806的視圖。由于照相機(jī)位置802處的觀察者一般關(guān) 于哪些物體806落在位置816處沒有任何預(yù)期(因?yàn)?16左邊的相鄰像素被樹 遮住),因此深度不連續(xù)性形成了作出轉(zhuǎn)換的自然縫,在這一情況下是從在802 處拍攝的圖像到在804處拍攝的圖像的轉(zhuǎn)換??梢岳斫猓@一情況中的數(shù)據(jù)成本不偏好816處的轉(zhuǎn)換,因?yàn)樗趦蓚€(gè)圖 像之間的中點(diǎn)(未示出)的左邊,這意味著它仍偏愛來自在照相機(jī)位置802處 拍攝的圖像的像素。如果在位置816的右邊的物體806在被觀看時(shí)與圖片表面 504相交(例如,在主導(dǎo)深度處),則這一考慮尤其相關(guān)。在這一情況下,兩 個(gè)圖像通常在816處精細(xì)地相符,因此極少或不增加縫成本。除此之外或作為 替代,在816略微靠右處可能有強(qiáng)邊緣(未示出),這可產(chǎn)生對(duì)目標(biāo)函數(shù)的更 優(yōu)化的輸出。相反,如果物體806沒有在來自802的穿過816的線上的一點(diǎn)處 與圖片表面504相交,而是在主導(dǎo)路徑之外的某一處相交,則縫成本和數(shù)據(jù)成 本一般都將產(chǎn)生在816之外的任何地方作出轉(zhuǎn)換的不太滿意的結(jié)果。在這一情 況下,縫成本趨向于更高,因?yàn)樗辉谥鲗?dǎo)深度上,而數(shù)據(jù)成本趨向于更高, 因?yàn)楫?dāng)來自802的穿過816的線延長到圖片表面504之外時(shí),背景中的物體相交的位置的X軸坐標(biāo)也將增加,從而接近中點(diǎn)(未示出)或甚至越過中點(diǎn)。還可以理解,從照相機(jī)位置804看到的810和816之間的區(qū)域通常在優(yōu)化圖像中不存在以減少拉長型失真?,F(xiàn)在參考圖9,示出了可用于執(zhí)行所公開的體系結(jié)構(gòu)的示例性計(jì)算機(jī)系統(tǒng) 的框圖。為了提供用于所要求保護(hù)的主題的各方面的附加上下文,圖9和以下 討論旨在提供其中可實(shí)現(xiàn)所要求保護(hù)的主題的各方面的合適的計(jì)算環(huán)境900的 簡要概括描述。例如,幫助優(yōu)化的多視角數(shù)字圖像生成的計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng)可 通過系統(tǒng)900來實(shí)現(xiàn),其中幾個(gè)輸入圖像駐留在磁盤驅(qū)動(dòng)器上,或者系統(tǒng)900 接口到例如照相機(jī)。另外,盡管以上在可在一個(gè)或多個(gè)計(jì)算機(jī)上運(yùn)行的計(jì)算機(jī) 可執(zhí)行指令的一般上下文中描述了所要求保護(hù)的主題,但是本領(lǐng)域的技術(shù)人員 將認(rèn)識(shí)到,所要求保護(hù)的主題也可結(jié)合其它程序模塊和/或作為硬件和軟件的組 合來實(shí)現(xiàn)。一般而言,程序模塊包括執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型的例 程、程序、組件、數(shù)據(jù)結(jié)構(gòu)等等。此外,本領(lǐng)域的技術(shù)人員將理解,本發(fā)明的 方法可以用其它計(jì)算機(jī)系統(tǒng)配置來實(shí)施,包括單處理器或多處理器計(jì)算機(jī)系 統(tǒng)、小型機(jī)、大型計(jì)算機(jī)、以及個(gè)人計(jì)算機(jī)、手持式計(jì)算設(shè)備、基于微處理器 或可編程消費(fèi)電子產(chǎn)品等等,其各自都可操作上耦合到一個(gè)或多個(gè)相關(guān)聯(lián)的設(shè) 備。所要求保護(hù)的主題的所示的各方面也可以在其中某些任務(wù)由通過通信網(wǎng) 絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來執(zhí)行的分布式計(jì)算環(huán)境中實(shí)施。在分布式計(jì)算環(huán)境 中,程序模塊可以位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。計(jì)算機(jī)通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì)算機(jī) 訪問的任一可用介質(zhì),并包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。 作為示例而非局限,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算 機(jī)存儲(chǔ)介質(zhì)包括以用于儲(chǔ)存諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它 數(shù)據(jù)等信息的任一方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性,可移動(dòng)和不可移動(dòng)介 質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,RAM、 ROM、 EEPROM、閃存或其它存 儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)、磁盒、磁帶、 磁盤存儲(chǔ)或其它磁存儲(chǔ)設(shè)備、或可以用來儲(chǔ)存所期望的信息并可由計(jì)算機(jī)訪問的任一其它介質(zhì)。通信介質(zhì)通常以諸如載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號(hào)來體現(xiàn)計(jì)算 機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送介質(zhì)。術(shù) 語"已調(diào)制數(shù)據(jù)信號(hào)"指以對(duì)信號(hào)中的信息進(jìn)行編碼的方式設(shè)置或改變其一個(gè) 或多個(gè)特征的信號(hào)。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò) 或直接連線連接,以及無線介質(zhì),如聲學(xué)、RP、紅外和其它無線介質(zhì)。上述任 一的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。再次參考圖9,示出了用于實(shí)現(xiàn)所要求保護(hù)的主題的各方面的示例性環(huán)境900,它包括計(jì)算機(jī)902,計(jì)算機(jī)902包括處理單元904、系統(tǒng)存儲(chǔ)器906和系 統(tǒng)總線908。系統(tǒng)總線908將包括但不限于系統(tǒng)存儲(chǔ)器906的系統(tǒng)組件耦合至 處理單元904。處理單元904可以是各種市場上可購買的處理器的任一種。雙 微處理器和其它多處理器體系結(jié)構(gòu)也可用作處理單元904。系統(tǒng)總線908可以是若干種總線結(jié)構(gòu)類型的任一種,它可進(jìn)一步互連到存 儲(chǔ)器總線(帶有或不帶存儲(chǔ)器控制器)、外圍總線、以及使用各類市場上可購 買的總線體系結(jié)構(gòu)的局部總線。系統(tǒng)存儲(chǔ)器906包括只讀存儲(chǔ)器(ROM) 910 和隨機(jī)存取存儲(chǔ)器(RAM)912。基本輸入/輸出系統(tǒng)(BIOS)儲(chǔ)存在諸如ROM、 EPROM、 EEPROM等非易失性存儲(chǔ)器910中,該BOIS包括如在啟動(dòng)時(shí)幫助 在計(jì)算機(jī)902內(nèi)的元件之間傳輸信息的基本例程。RAM912也可包括諸如靜態(tài) RAM等高速RAM,用于高速緩存數(shù)據(jù)。計(jì)算機(jī)902還包括內(nèi)部硬盤驅(qū)動(dòng)器(HDD) 914 (例如,EIDE、 SATA), 該內(nèi)部硬盤驅(qū)動(dòng)器914也可被配置成在合適的機(jī)殼(未示出)中供外部使用; 磁軟盤驅(qū)動(dòng)器(FDD) 916 (例如,對(duì)可移動(dòng)磁盤918進(jìn)行讀寫);以及光盤 驅(qū)動(dòng)器920 (例如,讀CD-ROM盤920或?qū)χT如DVD等其它高容量光學(xué)介質(zhì) 進(jìn)行讀寫)。硬盤驅(qū)動(dòng)器914、磁盤驅(qū)動(dòng)器916和光盤驅(qū)動(dòng)器920可以分別通 過硬盤驅(qū)動(dòng)器接口 924、磁盤驅(qū)動(dòng)器接口 926和光驅(qū)接口 928連接到系統(tǒng)總線 908。用于外部驅(qū)動(dòng)器實(shí)現(xiàn)的接口 924包括通用串行總線(USB)和正EE 1394 接口技術(shù)中的至少一個(gè)或兩者。其它外部驅(qū)動(dòng)器連接技術(shù)在所要求保護(hù)的主題 的構(gòu)想之內(nèi)。驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)提供了對(duì)數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)可執(zhí)行指令等的非易失性存儲(chǔ)。對(duì)于計(jì)算機(jī)902,驅(qū)動(dòng)器和介質(zhì)容納合適數(shù)字格式的任何數(shù)據(jù)的存儲(chǔ)。盡管對(duì)計(jì)算機(jī)可讀介質(zhì)的描述涉及HDD、可移動(dòng)磁盤 以及諸如CD或DVD等可移動(dòng)光學(xué)介質(zhì),然而本領(lǐng)域的技術(shù)人員可以理解, 計(jì)算機(jī)可讀的其它類型的介質(zhì),諸如zip驅(qū)動(dòng)器、磁帶盒、閃存卡、盒式磁帶 等,也可用于示例性操作環(huán)境中,并且此外,任何這類介質(zhì)可包含用于執(zhí)行所 要求保護(hù)的主題的方法的計(jì)算機(jī)可執(zhí)行指令。多個(gè)程序模塊可儲(chǔ)存在驅(qū)動(dòng)器和RAM 912中,包括操作系統(tǒng)930、 一個(gè) 或多個(gè)應(yīng)用程序932、其它程序模塊934和程序數(shù)據(jù)936。操作系統(tǒng)、應(yīng)用程 序、模塊和/或數(shù)據(jù)的全部或部分可被高速緩存在RAM912中??梢岳斫?,所 要求保護(hù)的主題可以用各種市場上可購買的操作系統(tǒng)或操作系統(tǒng)的組合來實(shí) 現(xiàn)。用戶可通過一個(gè)或多個(gè)有線和/或無線輸入設(shè)備,例如鍵盤938和諸如鼠 標(biāo)940等定位設(shè)備將命令和信息輸入到計(jì)算機(jī)902中。其它輸入設(shè)備(未示出) 可包括話筒、IR遙控器、操縱桿、游戲手柄、輸入筆、觸摸屏等等。這些和其 它輸入設(shè)備通常通過耦合到系統(tǒng)總線908的輸入設(shè)備接口 942連接到處理單元 卯4,但也可通過其它接口連接,如并行端口、正EE994串行端口、游戲端口、 USB端口、 IR接口等等。監(jiān)視器944或其它類型的顯示設(shè)備也通過諸如視頻適配器946等接口連接 到系統(tǒng)總線908。除監(jiān)視器944之外,計(jì)算機(jī)通常包括其它外圍輸出設(shè)備(未 示出),諸如揚(yáng)聲器、打印機(jī)等等。計(jì)算機(jī)902可以使用通過有線和/或無線通信到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī), 如遠(yuǎn)程計(jì)算機(jī)948的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)948可以是工 作站、服務(wù)器計(jì)算機(jī)、路由器、個(gè)人計(jì)算機(jī)、便攜式計(jì)算機(jī)、基于微處理器的 娛樂設(shè)備、對(duì)等設(shè)備或其它常見的網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括相對(duì)于計(jì)算機(jī)902所 描述的許多或所有元件,盡管出于簡明的目的,僅示出了存儲(chǔ)器/存儲(chǔ)設(shè)備950。 所描繪的的邏輯連接包括到局域網(wǎng)(LAN) 952和/或更大的網(wǎng)絡(luò),如廣域網(wǎng) (WAN) 954的有線/無線連接。該LAN和WAN聯(lián)網(wǎng)環(huán)境常見于辦公室和公 司,并促進(jìn)了諸如內(nèi)聯(lián)網(wǎng)等企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò),所有這些都可連接到全球 通信網(wǎng)絡(luò),如因特網(wǎng)。當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)902通過有線和/或無線通信網(wǎng)絡(luò)接 口或適配器956連接到局域網(wǎng)952。適配器956可促進(jìn)與LAN 952的有線或無 線通信,它也可包括布置在其上的無線接入點(diǎn),用于與無線適配器956通信。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)902可包括調(diào)制解調(diào)器958,或連 接到WAN 94上的通信服務(wù)器,或具有用于通過WAN 954,如通過因特網(wǎng)建 立通信的其它裝置。調(diào)制解調(diào)器958可以是內(nèi)置或外置、有線或無線的設(shè)備, 它通過串行端口接口 942連接到系統(tǒng)總線908。在聯(lián)網(wǎng)環(huán)境中,相對(duì)于計(jì)算機(jī) 902或其各部分描述的程序模塊可儲(chǔ)存在遠(yuǎn)程存儲(chǔ)器/存儲(chǔ)設(shè)備950中。可以理 解,所示的網(wǎng)絡(luò)連接是示例性的,可以使用在計(jì)算機(jī)之間建立通信鏈路的其它 手段。計(jì)算機(jī)902用于與操作上布置在無線通信中的任何無線設(shè)備或?qū)嶓w通信, 如打印機(jī)、掃描儀、臺(tái)式和/或便攜式計(jì)算機(jī)、便攜式數(shù)據(jù)助理、通信衛(wèi)星、與 無線可檢測標(biāo)簽相關(guān)聯(lián)的任何一個(gè)設(shè)備或位置(例如,電話亭、報(bào)亭、休息室) 以及電話。這至少包括Wi-Fi和Bluetooth (藍(lán)牙)無線技術(shù)。由此,通信可 以是如同常規(guī)網(wǎng)絡(luò)一樣的預(yù)定義結(jié)構(gòu),或簡單地為至少兩個(gè)設(shè)備之間的自組織 通信。Wi-Fi,即無線保真,允許從家里、酒店房間的床上或工作的會(huì)議室連接 到因特網(wǎng)而不需要線纜。Wi-Fi是一種類似蜂窩電話中使用的無線技術(shù),它使 得諸如計(jì)算機(jī)等這類設(shè)備能夠在室內(nèi)和室外,在基站范圍內(nèi)的任何地方發(fā)送和 接收數(shù)據(jù)。Wi-Fi網(wǎng)絡(luò)使用稱為IEEE 802.11 (a、 b、 g等等)的無線電技術(shù)來 提供安全、可靠、快速的無線連接。Wi-Fi網(wǎng)絡(luò)可用于將計(jì)算機(jī)彼此連接、連 接到因特網(wǎng)以及連接到有線網(wǎng)絡(luò)(使用IEEE 802.3或以太網(wǎng))。Wi-Fi網(wǎng)絡(luò)在 未許可的2.4和5 GHz無線電波段內(nèi)操作,例如以11 Mbps(802.1 la)或54 Mbps (802.11b)數(shù)據(jù)速率操作,或者具有包含兩個(gè)波段(雙波段)的產(chǎn)品,因此該 網(wǎng)絡(luò)可提供類似于許多辦公室中使用的基本10BaseT有線以太網(wǎng)的真實(shí)性能。 現(xiàn)在參考圖10,示出了可用于執(zhí)行所公開的體系結(jié)構(gòu)的示例性計(jì)算機(jī)編 譯系統(tǒng)的示意性框圖。系統(tǒng)1000包括一個(gè)或多個(gè)客戶機(jī)1002??蛻魴C(jī)1002 可以是諸如具有計(jì)算機(jī)接口支持的數(shù)碼相機(jī)等硬件和/或軟件(如,線程、進(jìn)程、 計(jì)算設(shè)備)??蛻魴C(jī)1002可通過例如采用所要求保護(hù)的主題來容納cookie和/或相關(guān)聯(lián)的上下文信息。系統(tǒng)1000也包括一個(gè)或多個(gè)服務(wù)器1004。服務(wù)器1004也可以是硬件和/ 或軟件(如,線程、進(jìn)程、計(jì)算設(shè)備)。服務(wù)器1004例如可以通過使用所要 求保護(hù)的主題來容納線程以執(zhí)行變換。客戶機(jī)1002和服務(wù)器1004之間的一個(gè) 可能的通信可以是適用于在兩個(gè)或多個(gè)計(jì)算機(jī)進(jìn)程之間傳輸?shù)臄?shù)據(jù)分組的形 式。數(shù)據(jù)分組可包括例如cookie和/或相關(guān)聯(lián)的上下文信息。系統(tǒng)1000包括可 用于便于在客戶機(jī)1002和服務(wù)器1040之間通信的通信框架1006 (例如,諸如 因特網(wǎng)等全球通信網(wǎng)絡(luò))。通信可通過有線(包括光纖)和/或無線技術(shù)來促進(jìn)。客戶機(jī)1002操作上 連接至可用于儲(chǔ)存對(duì)客戶機(jī)1002本地的信息(例如,cookie和/或相關(guān)聯(lián)的上 下文信息)的一個(gè)或多個(gè)客戶機(jī)數(shù)據(jù)存儲(chǔ)1008。類似地,服務(wù)器1004操作上 連接至可用于儲(chǔ)存對(duì)服務(wù)器1004本地的信息的一個(gè)或多個(gè)服務(wù)器數(shù)據(jù)存儲(chǔ) 1010。以上所描述的包括所要求保護(hù)的主題的示例。當(dāng)然,不可能為了描述所要 求保護(hù)的主題而描述組件或方法的每一可想象的組合,但是本領(lǐng)域的普通技術(shù) 人員可以認(rèn)識(shí)到,本發(fā)明的許多另外的組合和置換是可能的。因此,所要求保 護(hù)的主題旨在包含落入所附權(quán)利要求書的精神和范圍中的所有這樣的改變、修 改和變化。此外,就在說明書和權(quán)利要求書中使用術(shù)語"包括"而言,這類術(shù) 語旨在以與術(shù)語"包含"用作權(quán)利要求書中的過渡詞語所解釋的類似的方式為 包含性的。
權(quán)利要求
1.一種幫助優(yōu)化的多視角數(shù)字圖像生成的計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng),包括接收對(duì)應(yīng)于沿著照相機(jī)路徑(502)的多個(gè)照相機(jī)位置的多個(gè)圖像(104)的接口(102),每一相應(yīng)圖像從所述多個(gè)照相機(jī)位置之一的觀點(diǎn)描繪了一三維場景的一部分;以及生成優(yōu)化圖像(108)的圖像生成組件(106),所述圖像生成組件包括確定所述場景的主導(dǎo)深度(506)并在所述主導(dǎo)深度處生成二維圖片表面(504)的表面定義組件(110);將來自所述多個(gè)圖像的一個(gè)圖像的每一像素投影到所述圖片表面并標(biāo)識(shí)重疊像素的投影組件(112);以及基于一目標(biāo)函數(shù)從所述重疊像素中選擇要投影的最佳像素的優(yōu)化組件(114)。
2. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述目標(biāo)函數(shù)基于一縫成本, 所述縫成本是像素與相鄰像素的一致性、所述圖片表面中的強(qiáng)邊緣以及所述主 導(dǎo)深度的函數(shù)。
3. 如權(quán)利要求2所述的系統(tǒng),其特征在于,所述優(yōu)化組件最小化所述目 標(biāo)函數(shù),所述目標(biāo)函數(shù)是所述縫成本與一數(shù)據(jù)成本之和,所述數(shù)據(jù)成本與一像 素離包括所述像素的圖像的中心的距離成比例。
4. 如權(quán)利要求2所述的系統(tǒng),其特征在于,所述縫成本基于所述場景中 的物體之間的深度不連續(xù)性。
5. 如權(quán)利要求2所述的系統(tǒng),其特征在于,所述縫成本基于所述場景中 的項(xiàng)目的項(xiàng)目識(shí)別。
6. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述主導(dǎo)深度基于所述場景 的至少一個(gè)主導(dǎo)特征。
7. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述主導(dǎo)深度基于投影到所 述圖片表面上的圖像之間的對(duì)齊。
8. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述多個(gè)照相機(jī)位置各自隔 開至少6英寸的距離。
9. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述多個(gè)圖像中的至少一個(gè) 是多視角圖像。
10. —種幫助生成場景的二維屈片表面的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 接收與一場景(302)有關(guān)的多個(gè)圖像,每一圖像對(duì)應(yīng)于一照相機(jī)路徑上的不同照相機(jī)位置;計(jì)算多個(gè)投影矩陣(304), 一個(gè)投影矩陣用于對(duì)應(yīng)于所述多個(gè)圖像的每 一照相機(jī)位置;構(gòu)造所述場景的三維模型(306);基于所述場景中的主導(dǎo)物體確定所述模型的多個(gè)特征點(diǎn)(308);至少部分地基于所述多個(gè)特征點(diǎn)確定所述模型的主導(dǎo)深度(310);以及在所述模型的主導(dǎo)深度處定義二維圖片表面(312)。
11. 如權(quán)利要求10所述的方法,其特征在于,所述主導(dǎo)深度是基于所述 場景中的最主導(dǎo)物體來確定的。
12. 如權(quán)利要求10所述的方法,其特征在于,所述主導(dǎo)深度是基于所述 模型內(nèi)的多個(gè)特征點(diǎn)之間的有效對(duì)齊來確定的。
13. 如權(quán)利要求IO所述的方法,其特征在于,還包括將所述照相機(jī)路徑 上的每一照相機(jī)位置隔開至少6英寸的距離。
14. 如權(quán)利要求10所述的方法,其特征在于,所述接收到的多個(gè)圖像包 括多視角圖像。
15. 如權(quán)利要求IO所述的方法,其特征在于,所述場景是三維場景。
16. —種幫助優(yōu)化多視角圖片表面的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 接收與一場景(402)有關(guān)的多個(gè)圖像,每一圖像對(duì)應(yīng)于一照相機(jī)路徑上的不同照相機(jī)位置;將來自所述多個(gè)圖像中的每一個(gè)的圖像(404)的每一像素投影到多視角 圖片表面;標(biāo)識(shí)重疊像素(406);基于一目標(biāo)函數(shù)在所述重疊像素之間選擇一最佳像素(408),所述目標(biāo) 函數(shù)采用至少一個(gè)縫成本;以及基于相鄰像素之間的統(tǒng)一性、所述圖片表面中的邊緣特征、以及所述場景的主導(dǎo)深度來確定所述縫成本(410)。
17. 如權(quán)利要求16所述的方法,其特征在于,所述最佳像素是通過最小 化所述目標(biāo)函數(shù)來選擇的,所述目標(biāo)函數(shù)是通過將所述縫成本與一數(shù)據(jù)成本相 加來確定的,所述數(shù)據(jù)成本與一像素離包括該像素的圖片的中心的距離成比 例。
18. 如權(quán)利要求16所述方法,其特征在于,所述確定縫成本還基于所述 場景中的物體之間的深度不連續(xù)性。
19. 如權(quán)利要求16所述的方法,其特征在于,所述確定縫成本還基于所 述場景中的項(xiàng)目的項(xiàng)目識(shí)別。
20. 如權(quán)利要求16所述的方法,其特征在于,所述圖片表面是位于所述 場景的主導(dǎo)深度處的二維圖片表面。
全文摘要
所要求保護(hù)的主題可提供一種幫助產(chǎn)生能可視化太大以至于無法從任何單個(gè)透視圖描繪的場景的單個(gè)圖像的體系結(jié)構(gòu)。這些圖像可在二維圖片表面上被縫合在一起以形成由輸入圖像描繪的整個(gè)范圍場景的多視角圖像。在相應(yīng)圖像重疊的情況下,可使用一目標(biāo)函數(shù)來確定在何處作出一個(gè)圖像和下一圖像之間的轉(zhuǎn)換。該目標(biāo)函數(shù)可采用數(shù)據(jù)成本和縫成本來作出這一確定。
文檔編號(hào)G06T1/00GK101283375SQ200680037171
公開日2008年10月8日 申請(qǐng)日期2006年10月4日 優(yōu)先權(quán)日2005年10月4日
發(fā)明者A·O·阿加瓦拉, D·H·賽爾辛, M·F·科恩, M·阿加瓦拉, R·塞里斯基 申請(qǐng)人:微軟公司