專利名稱:一種視力殘障人士輔助顏色識別方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種顏色識別方法,尤其涉及一種利用計(jì)算機(jī)或便攜電子設(shè)備及其附 屬圖像采集裝置的輔助視力殘障人士識別顏色的技術(shù)手段,屬于數(shù)字音視頻技術(shù)領(lǐng)域。
背景技術(shù):
在幫助視覺殘障人士識別顏色方面,菲律賓的阿巴德·桑托斯提出了通過將紙板 表面紋理做特殊處理,在不同的顏色處給出不同的觸覺感官幫助盲人識別不同顏色的紙板 進(jìn)行藝術(shù)創(chuàng)作。他的紙板采用8種色調(diào),分別是紅色、橙色、藍(lán)色、黃色、綠色、紫羅蘭色、褐 色和黑色。盲人可以通過紙板上附著的織物線條疏密程度來區(qū)分這8種顏色。進(jìn)一步該發(fā) 明人認(rèn)為在購物場所通過這套方案來識別衣物等的顏色。這些顏色對于盲人來說通常難以 識別,該方案要求識別的顏色的物體特殊設(shè)計(jì),推廣性較差,成本較高。同時(shí)要求盲人與物 體進(jìn)行觸覺接觸,使用條件限制較大。殘障者無法通過該方法得知較遠(yuǎn)距離外的物體的顏 色(參考http://229. hsw. cn/2007-12/24/content_6737111. htm)。在色彩的獲取識別等相關(guān)領(lǐng)域,目前有一些已有的技術(shù)手段。1、顏色傳感器,是一種專有的硬件,常常用于工業(yè)生產(chǎn)上對顏色的獲取,質(zhì)量檢驗(yàn) 等方面,比較成熟的產(chǎn)品有美國TAOS公司生產(chǎn)的TCS230等。但是,其為專用硬件。需要設(shè) 計(jì)專門的設(shè)備用以顏色識別,靈活性差,成本較高。2、配色輔助軟件,一種計(jì)算機(jī)軟件,通常用于輔助設(shè)計(jì)人員選擇合適的顏色,同時(shí) 也具備通過描述RGB,YUV等量化特征對顏色進(jìn)行描述的功能。通常相對抽象。典型產(chǎn)品包 括Color Impact等。但是該類軟件普遍存在對顏色表達(dá)生硬等缺點(diǎn),量化數(shù)值參數(shù)并不利 于人對顏色的理解。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種視力殘障人士輔助顏色識別方法及其系統(tǒng),以便幫助 視覺殘障者準(zhǔn)確、直觀的獲取顏色反饋。識別顏色對于盲人或色盲、色弱等視覺殘障人士來 說具有特殊意義,譬如在購買服裝時(shí)選擇顏色搭配等方面,缺乏顏色的感知在很大程度上 影響了這些人士的日常生活,降低了他們的生活質(zhì)量。本發(fā)明的技術(shù)方案為一種視力殘障人士輔助顏色識別方法,其步驟為1)使用者利用圖像采集設(shè)備獲取指定目標(biāo)的數(shù)字圖像;2)數(shù)據(jù)處理單元對該數(shù)字圖像進(jìn)行構(gòu)圖分析,識別數(shù)字圖像的色彩和布局;3)數(shù)據(jù)處理單元將識別結(jié)果生成語音信息并將其輸出給使用者。進(jìn)一步的,所述構(gòu)圖分析的方法為首先對數(shù)字圖像進(jìn)行宏觀構(gòu)圖分析,識別出每 個(gè)宏觀區(qū)域的顏色、形狀、面積和及位置;然后確定每個(gè)宏觀區(qū)域的顏色類別。所述方法中采用Floodfill算法進(jìn)行所述宏觀構(gòu)圖分析。所述確定每個(gè)宏觀區(qū)域的顏色類別的方法為
1)對于每個(gè)宏觀區(qū)域中的顏色,將原RGB格式的象素表示轉(zhuǎn)換成HLS象素表示;2)將色度H與圓周的角度進(jìn)行映射,并根據(jù)設(shè)定的色度閾值將圓周劃分為若干區(qū) 域,每一區(qū)域?qū)?yīng)于人類感知的某類顏色;3)根據(jù)每個(gè)宏觀區(qū)域中顏色所在的區(qū)域,確定該宏觀區(qū)域的顏色類別。所述方法中,對所述飽和度S進(jìn)行分類,確定該宏觀區(qū)域的灰度,其方法為設(shè)定 飽和度閾值,根據(jù)飽和度S的大小將宏觀區(qū)域劃分為若干區(qū)域,每一區(qū)域?qū)?yīng)于人類感知 顏色的鮮艷程度;根據(jù)每個(gè)宏觀區(qū)域中顏色飽和度所在的區(qū)域,確定該宏觀區(qū)域的灰度類 別。所述方法中,對所述亮度L進(jìn)行分類,確定該宏觀區(qū)域的亮度,其方法為設(shè)定亮 度閾值,根據(jù)亮度L的大小將宏觀區(qū)域劃分為若干區(qū)域,每一區(qū)域?qū)?yīng)于人類感知顏色的 黑白程度;根據(jù)每個(gè)宏觀區(qū)域中顏色亮度所在的區(qū)域,確定該宏觀區(qū)域的亮度類別。所述確定每個(gè)宏觀區(qū)域的顏色類別的方法為1)對于每個(gè)宏觀區(qū)域中的顏色,將原RGB格式的象素表示轉(zhuǎn)換成HSV象素表示;2)將色度H與圓周的角度進(jìn)行映射,并根據(jù)設(shè)定的色度閾值將圓周劃分為若干區(qū) 域,每一區(qū)域?qū)?yīng)于人類感知的某類顏色;3)根據(jù)每個(gè)宏觀區(qū)域中顏色所在的區(qū)域,確定該宏觀區(qū)域的顏色類別。一種視力殘障人士輔助顏色識別系統(tǒng),包括圖像采集設(shè)備、數(shù)據(jù)處理單元、聲音輸 出模塊;所述圖像采集設(shè)備通過IO數(shù)據(jù)接口與所述數(shù)據(jù)處理單元連接;所述數(shù)據(jù)處理單 元通過聲音設(shè)備驅(qū)動(dòng)硬件與所述聲音輸出模塊相連;所述數(shù)據(jù)處理單元用于識別圖像的色 彩、布局并將識別結(jié)果生成語音信息。所述數(shù)據(jù)處理單元包括宏觀布局分析模塊、顏色描述分析模塊、語音描述模塊;所述宏觀布局分析模塊,用于對采集的圖像進(jìn)行宏觀構(gòu)圖分析,區(qū)分出若干主要 色彩,識別出色彩宏觀布局;所述顏色描述分析模塊,用于對宏觀布局分析模塊識別出的每個(gè)宏觀區(qū)域內(nèi)的顏 色進(jìn)行分類;所述語音描述模塊,利用語音合成技術(shù)將顏色分類后的宏觀區(qū)域生成合適的語 、
曰ο所述宏觀布局分析模塊中采用Floodfill算法識別出色彩宏觀布局。目前,對于幫助視覺殘障者進(jìn)行顏色識別的應(yīng)用還很少見?,F(xiàn)有的一些相關(guān)應(yīng)用 有著一些嚴(yán)重的缺陷。因此“視力殘障人士輔助顏色識別系統(tǒng)”的發(fā)明致力于設(shè)計(jì)一個(gè)幫 助盲人進(jìn)行顏色識別的技術(shù)手段,同時(shí)應(yīng)具有以下的特點(diǎn)1、要適用廣泛,不依賴于對目標(biāo)物體的改造。2、識別過程要盡量避免與目標(biāo)物體的接觸。3、要充分利用現(xiàn)有計(jì)算機(jī)、手機(jī)等現(xiàn)有設(shè)備,與其功能集成。方便使用者使用,降 低成本。4、通過語音的手段清晰、易懂、高效的對千變?nèi)f化的顏色進(jìn)行語言描述。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為相比阿巴德·桑托斯等的通過觸覺為媒介的向殘障者表達(dá)顏色的方案,本技術(shù)手 段具有以下特點(diǎn)
1、適用范圍廣泛,便于推廣。本技術(shù)手段不需要被識別顏色的目標(biāo)物體專門設(shè)計(jì), 只需殘障者自行使用采用我們技術(shù)手段的設(shè)備即可實(shí)現(xiàn)輔助的對顏色的識別。2、方便、靈活。本技術(shù)手段對物體顏色進(jìn)行識別,不需要?dú)堈险邔ξ矬w接觸。因此 更加方便、靈活。對于幫助殘障者識別遠(yuǎn)處物體的顏色或者如博物館展品等不方便接觸的 物體的宏觀顏色具有很大的好處。相比采用專門顏色傳感器的專門設(shè)備獲取顏色方案,本技術(shù)手段成本相對低廉, 充分利用已廣泛使用的計(jì)算機(jī)或手機(jī)、掌上電腦的硬件設(shè)備,不需額外設(shè)計(jì)、改造設(shè)備。顏 色識別功能可以與計(jì)算機(jī)或手機(jī)、掌上電腦等設(shè)備結(jié)合在一起。相比配色輔助軟件等對顏色描述通過數(shù)字參數(shù)定量的描述的方案。本技術(shù)手段采 用易于理解的語音等媒介,利用專門設(shè)計(jì)的描述方案,可以給視覺殘障者準(zhǔn)確,直觀的顏色 反饋。
圖1、本發(fā)明系統(tǒng)結(jié)構(gòu)示意圖;圖2、本發(fā)明方法流程圖。具體技術(shù)方式本發(fā)的系統(tǒng)結(jié)構(gòu)如圖1所示,其利用計(jì)算機(jī)和普通的攝像頭或帶攝像頭的手機(jī)、 掌上電腦等便攜設(shè)備對圖像進(jìn)行采集,分析,并設(shè)計(jì)了一種顏色描述手段,將從圖像分析出 的各組成顏色通過聲音的手段,向視覺殘障者清晰表達(dá),幫助視覺殘障者理解顏色。本發(fā)明的系統(tǒng)包括圖像采集設(shè)備、數(shù)據(jù)處理單元、聲音輸出模塊;圖像采集設(shè)備可 以為普通攝像頭,數(shù)據(jù)處理單元為計(jì)算機(jī)、手機(jī)或掌上電腦,圖像采集設(shè)備通過IO數(shù)據(jù)接 口與數(shù)據(jù)處理單元連接,數(shù)據(jù)處理單元通過聲音設(shè)備驅(qū)動(dòng)硬件與由揚(yáng)聲器、耳機(jī)等構(gòu)成的 聲音輸出模塊相連;數(shù)據(jù)處理單元用于識別圖像的色彩、布局并將識別結(jié)果生成語音信息, 其包括宏觀布局分析模塊,用于對采集的圖像進(jìn)行宏觀構(gòu)圖分析,區(qū)分出若干主要色彩, 利用模糊的方法識別出色彩宏觀布局(即通過判斷像素之間顏色是否相近,如果相近則將 其歸并為一類);顏色描述分析模塊,用于對宏觀布局分析模塊識別出的每個(gè)宏觀區(qū)域內(nèi) 的顏色進(jìn)行分類;語音描述模塊,用于將顏色分類后的宏觀區(qū)域生成合適的語言,利用語音 合成技術(shù),通過聲音輸出模塊進(jìn)行輸出。本發(fā)明的方法實(shí)現(xiàn)流程如圖2所示,其步驟如下1、使用者將攝像頭指向特定的物體,并啟動(dòng)識別過程。2、設(shè)備利用攝像頭對指定物體進(jìn)行拍照,獲取其數(shù)字版本的圖像。具體的講,我們采取普通的電腦、手機(jī)便攜攝像頭等通用設(shè)備對圖像進(jìn)行采集。不 需安裝其它額外的硬件進(jìn)行圖像、顏色的采集。根據(jù)使用者的指令,采用攝像頭采集圖片。 攝像頭可以通過臺(tái)式計(jì)算機(jī)的攝像頭或掃描儀等計(jì)算機(jī)外設(shè)采集的圖片信息,或者手機(jī)、 PDA等便攜設(shè)備中配備的攝像頭。攝像頭返回的圖像信息,通常來說一般使用經(jīng)過壓縮或者不經(jīng)過壓縮的RGB格式 的圖片。對于這類圖片,每個(gè)象素的象素點(diǎn)采用R (紅色)、G (綠色)、B (藍(lán)色)3個(gè)變量來 保存該象素點(diǎn)的顏色。通常來說,其歸一化位3個(gè)0-255取值的變量。本實(shí)施例中將這樣 的圖片格式作為顏色識別算法部分的輸入。
3、設(shè)備使用程序,采用數(shù)字圖像處理、計(jì)算機(jī)視覺相關(guān)的算法對該圖像宏觀進(jìn)行 構(gòu)圖分析,區(qū)分出若干主要的色彩及其布局。我們通過一種聚類算法基于Flood fill的在圖像上的聚類算法,對獲取到的圖像 進(jìn)行按顏色距離和幾何距離的聚類。本發(fā)明選取合適的顏色表述參數(shù)以從類似人眼的觀點(diǎn) 對顏色進(jìn)行分類;如果想?yún)^(qū)分紅、黃、藍(lán)三色,則只需要3個(gè)參數(shù),值介于每兩個(gè)參數(shù)之間的 顏色就被識別為紅、藍(lán)或黃;如果想?yún)^(qū)分7種顏色,就要7個(gè)參數(shù)。這些參數(shù)的確定可根據(jù) 需要識別的顏色的個(gè)數(shù)和他們的視覺感覺確定。本發(fā)明通過Flood fill算法對色彩布局 進(jìn)行識別,并進(jìn)行劃分。Floodfill算法可以將圖片中不同顏色區(qū)域標(biāo)注出來。Floodfill 中類別的判定采用上文提到的象素點(diǎn)顏色識別方法判斷出顏色類別,即可得到顏色區(qū)域的 形狀和面積以及位置。4、設(shè)備針對該圖中每個(gè)宏觀的顏色區(qū)域,通過特定算法,即時(shí)的計(jì)算來確定該區(qū) 域的顏色分類。針對每個(gè)區(qū)域的顏色,程序自動(dòng)找到一種能概括該區(qū)域顏色的表述手段,通過語 音將顏色和顏色的大致位置表達(dá)給用戶。對于顏色,我們將原有RGB格式的象素表示,轉(zhuǎn)換 成HLS象素表示,即色度,亮度,飽和度3個(gè)變量。色度H為顏色的色度與0-360的圓周進(jìn) 行的映射,該方法保持顏色按人類視覺感覺聚類,即人類視覺感覺近似的顏色,根據(jù)其在該 映射圓周上的圓周距離遠(yuǎn)近,我們可以設(shè)定若干閾值,將圓周劃分為若干區(qū)域,每一區(qū)域?qū)?應(yīng)于人類感知的某類顏色,例如紅橙黃綠青藍(lán)紫等7色。特別的,對于灰色、白色、黑色等顏色,通過飽和度S和亮度L進(jìn)行識別。飽和度S 的大小,從直觀上對應(yīng)于人類感覺顏色的鮮艷程度,純灰色為0,純色(純紅、純綠或純藍(lán)) 為1。根據(jù)該特性,我們可以根據(jù)習(xí)慣,設(shè)定一定的閾值來進(jìn)行灰色的識別。類似的,通過對 亮度的閾值設(shè)定,完成對黑色和白色的識別。相似的,如果采用HSV色彩空間、RGB色彩空間等多種色彩的表示方式下,本發(fā)明 所使用的閾值限制法進(jìn)行顏色識別也可以通用。5、設(shè)備使用針對視覺殘障人士的語音描述系統(tǒng),對每個(gè)顏色區(qū)域進(jìn)行描述。對于我們識別的結(jié)果,我們的程序進(jìn)行綜合的匯總,采用語音合成技術(shù),將結(jié)果及 時(shí)反映給使用者。
權(quán)利要求
一種視力殘障人士輔助顏色識別方法,其步驟為1)使用者利用圖像采集設(shè)備獲取指定目標(biāo)的數(shù)字圖像;2)數(shù)據(jù)處理單元對該數(shù)字圖像進(jìn)行構(gòu)圖分析,識別數(shù)字圖像的色彩和布局;3)數(shù)據(jù)處理單元將識別結(jié)果生成語音信息并將其輸出給使用者。
2.如權(quán)利要求1所述的方法,其特征在于所述構(gòu)圖分析的方法為首先對數(shù)字圖像進(jìn) 行宏觀構(gòu)圖分析,識別出每個(gè)宏觀區(qū)域的顏色、形狀、面積和及位置;然后確定每個(gè)宏觀區(qū) 域的顏色類別。
3.如權(quán)利要求2所述的方法,其特征在于采用Floodfill算法進(jìn)行所述宏觀構(gòu)圖分析。
4.如權(quán)利要求2所述的方法,其特征在于所述確定每個(gè)宏觀區(qū)域的顏色類別的方法為1)對于每個(gè)宏觀區(qū)域中的顏色,將原RGB格式的象素表示轉(zhuǎn)換成HLS象素表示;2)將色度H與圓周的角度進(jìn)行映射,并根據(jù)設(shè)定的色度閾值將圓周劃分為若干區(qū)域, 每一區(qū)域?qū)?yīng)于人類感知的某類顏色;3)根據(jù)每個(gè)宏觀區(qū)域中顏色所在的區(qū)域,確定該宏觀區(qū)域的顏色類別。
5.如權(quán)利要求4所述的方法,其特征在于對所述飽和度S進(jìn)行分類,確定該宏觀區(qū)域的 灰度,其方法為設(shè)定飽和度閾值,根據(jù)飽和度S的大小將宏觀區(qū)域劃分為若干區(qū)域,每一 區(qū)域?qū)?yīng)于人類感知顏色的鮮艷程度;根據(jù)每個(gè)宏觀區(qū)域中顏色飽和度所在的區(qū)域,確定 該宏觀區(qū)域的灰度類別。
6.如權(quán)利要求4所述的方法,其特征在于對所述亮度L進(jìn)行分類,確定該宏觀區(qū)域的亮 度,其方法為設(shè)定亮度閾值,根據(jù)亮度L的大小將宏觀區(qū)域劃分為若干區(qū)域,每一區(qū)域?qū)?應(yīng)于人類感知顏色的黑白程度;根據(jù)每個(gè)宏觀區(qū)域中顏色亮度所在的區(qū)域,確定該宏觀區(qū) 域的亮度類別。
7.如權(quán)利要求2所述的方法,其特征在于所述確定每個(gè)宏觀區(qū)域的顏色類別的方法為1)對于每個(gè)宏觀區(qū)域中的顏色,將原RGB格式的象素表示轉(zhuǎn)換成HSV象素表示;2)將色度H與圓周的角度進(jìn)行映射,并根據(jù)設(shè)定的色度閾值將圓周劃分為若干區(qū)域, 每一區(qū)域?qū)?yīng)于人類感知的某類顏色;3)根據(jù)每個(gè)宏觀區(qū)域中顏色所在的區(qū)域,確定該宏觀區(qū)域的顏色類別。
8.一種視力殘障人士輔助顏色識別系統(tǒng),包括圖像采集設(shè)備、數(shù)據(jù)處理單元、聲音輸出 模塊;所述圖像采集設(shè)備通過IO數(shù)據(jù)接口與所述數(shù)據(jù)處理單元連接;所述數(shù)據(jù)處理單元通 過聲音設(shè)備驅(qū)動(dòng)硬件與所述聲音輸出模塊相連;所述數(shù)據(jù)處理單元用于識別圖像的色彩、 布局并將識別結(jié)果生成語音信息。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于所述數(shù)據(jù)處理單元包括宏觀布局分析模塊、 顏色描述分析模塊、語音描述模塊;所述宏觀布局分析模塊,用于對采集的圖像進(jìn)行宏觀構(gòu)圖分析,區(qū)分出若干主要色彩, 識別出色彩宏觀布局;所述顏色描述分析模塊,用于對宏觀布局分析模塊識別出的每個(gè)宏觀區(qū)域內(nèi)的顏色進(jìn) 行分類;所述語音描述模塊,利用語音合成技術(shù)將顏色分類后的宏觀區(qū)域生成合適的語言。
10.如權(quán)利要求8所述的方法,其特征在于所述宏觀布局分析模塊中采用Floodfill算 法識別出色彩宏觀布局。
全文摘要
本發(fā)明公開了一種視力殘障人士輔助顏色識別方法及其系統(tǒng),屬于數(shù)字音視頻技術(shù)領(lǐng)域。本發(fā)明的方法為1)使用者利用圖像采集設(shè)備獲取指定目標(biāo)的數(shù)字圖像;2)數(shù)據(jù)處理單元對該數(shù)字圖像進(jìn)行構(gòu)圖分析,識別數(shù)字圖像的色彩和布局;3)數(shù)據(jù)處理單元將識別結(jié)果生成語音信息并將其輸出給使用者。包括圖像采集設(shè)備、數(shù)據(jù)處理單元、聲音輸出模塊;所述圖像采集設(shè)備通過IO數(shù)據(jù)接口與所述數(shù)據(jù)處理單元連接;所述數(shù)據(jù)處理單元通過聲音設(shè)備驅(qū)動(dòng)硬件與所述聲音輸出模塊相連;所述數(shù)據(jù)處理單元用于識別圖像的色彩、布局并將識別結(jié)果生成語音信息。本發(fā)明適用范圍廣泛、便于推廣、方便、靈活,同時(shí)成本相對低廉,且可以給視覺殘障者準(zhǔn)確,直觀的顏色反饋。
文檔編號G06K9/62GK101889921SQ20091008447
公開日2010年11月24日 申請日期2009年5月19日 優(yōu)先權(quán)日2009年5月19日
發(fā)明者于文淵, 吳明輝, 曹軍, 黃貝寧 申請人:北京保益互動(dòng)科技發(fā)展有限公司