專利名稱:信息處理裝置、信息處理方法、記錄了信息處理程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及與圖像檢索有關(guān)的信息處理裝置、信息處理方法、記錄了信息處理程序的記錄介質(zhì)。
背景技術(shù):
作為對(duì)圖像的檢索方法,例如可考慮將圖像中包含的字符串進(jìn)行文本化而對(duì)進(jìn)行了文本化的字符串進(jìn)行檢索。作為將圖像中包含的字符串進(jìn)行文本化的技術(shù),例如有專利文獻(xiàn)I中記載的進(jìn)行字符識(shí)別的技術(shù)。
現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)I :日本特開(kāi)2001-337993號(hào)公報(bào)
發(fā)明內(nèi)容
發(fā)明要解決的課題但是,在圖像中使用字符串的情況下,將圖像使用于Web頁(yè)面等的使用者有時(shí)會(huì)有意圖地、特征性地使用圖像中的布局、字符的字體、字符顏色與背景顏色的對(duì)比度。作為該意圖,例如有,為使商品顯眼的意圖、或者在廣告中使用夸大表現(xiàn)等的不正當(dāng)表現(xiàn)。在該情況下,如果單純地檢索圖像中包含的字符串,則不能夠按照將圖像使用于Web頁(yè)面等的 使用者的意圖而進(jìn)行適當(dāng)?shù)臋z索。本發(fā)明是鑒于上述問(wèn)題點(diǎn)而完成的,本發(fā)明的目的在于提供一種在圖像中特征性地利用了檢索關(guān)鍵字的情況下能夠使檢測(cè)容易的信息處理裝置、信息處理方法、記錄了信息處理程序的記錄介質(zhì)。用于解決課題的手段為了達(dá)到上述目的,本發(fā)明的信息處理裝置的特征在于,包括圖像數(shù)據(jù)庫(kù),其保存檢索對(duì)象的圖像;字符串區(qū)域提取單元,其提取保存于圖像數(shù)據(jù)庫(kù)的圖像中的包含字符串的字符串區(qū)域;字符串識(shí)別單兀,其對(duì)由字符串區(qū)域提取單兀提取出的字符串區(qū)域所包含的字符串進(jìn)行識(shí)別;視覺(jué)性特征量計(jì)算單元,其根據(jù)由字符串區(qū)域提取單元提取出的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。在本發(fā)明的信息處理裝置中,計(jì)算基于構(gòu)成圖像中包含的字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。如果利用該信息進(jìn)行檢索,則能夠輸出與該視覺(jué)性特征量相應(yīng)的檢索結(jié)果。因此,例如,在圖像中特征性地利用了檢索關(guān)鍵字的情況下,能夠輸出使得該圖像處于上位的檢索結(jié)果。即,根據(jù)本發(fā)明的信息處理裝置,在圖像中特征性地利用了檢索關(guān)鍵字的情況下能夠使檢測(cè)容易。
視覺(jué)性特征量計(jì)算單元可以計(jì)算構(gòu)成字符串的每個(gè)字符的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。根據(jù)該結(jié)構(gòu),在檢索時(shí),能夠?qū)⒚總€(gè)字符的視覺(jué)性特征量相加而作為字符串的視覺(jué)性特征量。本發(fā)明優(yōu)選為,信息處理裝置還包括檢索關(guān)鍵字輸入單元,其輸入檢索用的關(guān)鍵字;檢索單元,其檢索由關(guān)鍵字輸入單元輸入的關(guān)鍵字是否與由字符串識(shí)別單元識(shí)別的字符串中的至少一部分一致,并且根據(jù)識(shí)別出一致的字符串的字符串區(qū)域的視覺(jué)性特征量計(jì)算包含該字符串的圖像的得分值;輸出單元,其根據(jù)由檢索單元計(jì)算的得分值輸出檢索單元的檢索結(jié)果。根據(jù)該結(jié)構(gòu),能夠利用根據(jù)視覺(jué)性特征量計(jì)算單元計(jì)算的視覺(jué)性特征量可靠地進(jìn)行檢索。本發(fā)明優(yōu)選為,視覺(jué)性特征量計(jì)算單元根據(jù)構(gòu)成字符串區(qū)域的字符串的像素的明度與構(gòu)成字符串區(qū)域的背景的像素的明度之差而計(jì)算視覺(jué)性特征量。根據(jù)該結(jié)構(gòu),能夠適當(dāng)?shù)靥崛』趫D像的顏色的視覺(jué)性特征量,并適當(dāng)?shù)貙?shí)施本發(fā)明。 本發(fā)明優(yōu)選為,視覺(jué)性特征量計(jì)算單元將構(gòu)成字符串區(qū)域的字符串的像素的明度設(shè)為在該像素中最多的顏色的像素的明度,將構(gòu)成字符串區(qū)域的背景的像素的明度設(shè)為在該像素中最多的顏色的像素的明度。根據(jù)該結(jié)構(gòu),能夠可靠地提取基于圖像的顏色的視覺(jué)性特征量,并可靠地實(shí)施本發(fā)明。本發(fā)明優(yōu)選為,檢索單元對(duì)由關(guān)鍵字輸入單元輸入的多個(gè)關(guān)鍵字計(jì)算得分值。根據(jù)該結(jié)構(gòu),能夠進(jìn)行針對(duì)多個(gè)檢索用的關(guān)鍵字的檢索,能夠進(jìn)行對(duì)用戶而言便利性更高的檢索。本發(fā)明優(yōu)選為,檢索單元根據(jù)包含關(guān)鍵字的圖像相對(duì)于圖像數(shù)據(jù)庫(kù)中保存的圖像的比例而計(jì)算得分值。根據(jù)該結(jié)構(gòu),能夠輸出與圖像中包含的關(guān)鍵字的出現(xiàn)率相應(yīng)的檢索結(jié)果。即,能夠輸出對(duì)用戶而言便利性更高的檢索結(jié)果。本發(fā)明優(yōu)選為,圖像數(shù)據(jù)庫(kù)以不包含多個(gè)同一圖像的方式保存檢索對(duì)象的圖像,并且將根據(jù)該圖像得到的哈希值和表示該圖像被利用的Web頁(yè)面的部位的信息對(duì)應(yīng)地進(jìn)行保存,輸出單元輸出表示通過(guò)檢索單元的檢索得到并且不包含多個(gè)同一圖像的圖像的信息、以及以與該圖像的哈希值對(duì)應(yīng)的方式保存在圖像數(shù)據(jù)庫(kù)中的表示該圖像被利用的Web頁(yè)面的部位的信息。根據(jù)該結(jié)構(gòu),能夠?qū)⒆鳛闄z索對(duì)象的圖像的哈希值與表示該圖像被利用的Web頁(yè)面的部位的信息進(jìn)行對(duì)應(yīng)而保存,作為檢索結(jié)果,輸出表示根據(jù)檢索而得到的圖像的信息、以及以與該圖像的哈希值進(jìn)行對(duì)應(yīng)的方式保存的表示該圖像被利用的Web頁(yè)面的部位的信息。如果是同一圖像,則哈希值成為一定的范圍內(nèi)的值,因此在多個(gè)Web頁(yè)面的部位中被利用的圖像能夠作為一個(gè)圖像進(jìn)行處理。因此,根據(jù)該結(jié)構(gòu),即使在同一圖像在多個(gè)Web頁(yè)面的部位被利用的情況下也能夠有效地靈活利用檢索結(jié)果。即,能夠防止同一圖像作為檢索結(jié)果而排列,用戶能夠高效地發(fā)現(xiàn)想要檢索的圖像。例如,能夠防止記載有用戶檢索到的關(guān)鍵字的同一圖像作為檢索結(jié)果而排列的情況。另外,本發(fā)明除了如上所述作為信息處理裝置的發(fā)明記載以外,還能夠如以下所述作為圖像檢索方法以及記錄了圖像檢索程序的計(jì)算機(jī)可讀取的記錄介質(zhì)來(lái)記載。這只是類(lèi)別不同,實(shí)質(zhì)上是相同的發(fā)明,起到相同的作用以及効果。S卩,本發(fā)明的圖像檢索方法為由根據(jù)包括保存檢索對(duì)象的圖像的圖像數(shù)據(jù)庫(kù)的信息處理裝置執(zhí)行的圖像檢索方法,該圖像檢索方法的特征在于,包括字符串區(qū)域提取步驟,提取保存于圖像數(shù)據(jù)庫(kù)的圖像中的包含字符串的字符串區(qū)域;字符串識(shí)別步驟,對(duì)在字符串區(qū)域提取步驟中提取出的字符串區(qū)域所包含的字符串進(jìn)行識(shí)別;視覺(jué)性特征量計(jì)算步驟,根據(jù)在字符串區(qū)域提取步驟中提取出的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。另外,根據(jù)本發(fā)明的記錄介質(zhì)為記錄了使一個(gè)以上的計(jì)算機(jī)作為如下單元進(jìn)行工作的計(jì)算機(jī)可讀取的記錄介質(zhì)圖像數(shù)據(jù)庫(kù),其保存檢索對(duì)象的圖像;字符串區(qū)域提取單元,其提取保存于圖像數(shù)據(jù)庫(kù)的圖像中的包含字符串的字符串區(qū)域;字符串識(shí)別單元,其對(duì)由字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串進(jìn)行識(shí)別;視覺(jué)性特征量計(jì)算單元,其根據(jù)由字符串區(qū)域提取單元提取出的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。發(fā)明效果
本發(fā)明中,能夠根據(jù)基于構(gòu)成圖像中包含的字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任一個(gè)的該字符串的視覺(jué)性特征量輸出檢索結(jié)果。因此,例如,在圖像中特征性地利用了檢索關(guān)鍵字的情況下,能夠使得該圖像上位而輸出檢索結(jié)果。即,根據(jù)本發(fā)明,在圖像中特征性地利用了檢索關(guān)鍵字的情況下能夠使檢測(cè)容易。
圖I是表示作為本發(fā)明的實(shí)施方式的信息處理裝置的圖像檢索裝置的功能結(jié)構(gòu)的圖。圖2是表示根據(jù)圖像識(shí)別并由圖像檢索裝置存儲(chǔ)的字符候選的例子的表。圖3是表示根據(jù)圖像的字符串區(qū)域取得了字符顏色和背景顏色的例子的圖。圖4是用于根據(jù)字符串的字符尺寸、以及字符顏色的明度與背景顏色的明度之差求出字符串的視覺(jué)性特征量的表。圖5是用于說(shuō)明檢索關(guān)鍵字與字符識(shí)別可信度的關(guān)系的圖。圖6是根據(jù)圖像檢索裝置作為檢索結(jié)果而輸出并表示的畫(huà)面的例子。圖7是表示由本發(fā)明的實(shí)施方式的圖像檢索裝置執(zhí)行的處理(信息處理方法)中的直至生成圖像檢索用的信息為止的處理的流程圖。圖8是表示由本發(fā)明的實(shí)施方式的圖像檢索裝置執(zhí)行的處理(信息處理方法)中的實(shí)際上進(jìn)行圖像檢索的處理的流程圖。圖9是表示由本發(fā)明的實(shí)施方式的圖像檢索裝置執(zhí)行的處理(信息處理方法)中的關(guān)鍵字的檢索處理的流程圖。圖10是表示字符候選數(shù)與圖像內(nèi)字符檢索的精度的關(guān)系的曲線圖。圖11是表示目視結(jié)果與檢索結(jié)果的比較(N=30的情況)的表。圖12是用于實(shí)驗(yàn)的樣本圖像。圖13是表示圖像得分的計(jì)算結(jié)果的表。圖14是表示字符候選數(shù)與檢索時(shí)間的關(guān)系的曲線圖。
圖15是將本發(fā)明的實(shí)施方式的信息處理程序的結(jié)構(gòu)與記錄介質(zhì)一起示出的圖。圖16是表示將由圖像檢索裝置存儲(chǔ)的根據(jù)圖像識(shí)別的字符候選進(jìn)行組合而得到的字符串的例子的表。
具體實(shí)施例方式下面,參照附圖詳細(xì)地說(shuō)明本發(fā)明的信息處理裝置、信息處理方法、信息處理程序、記錄了信息處理程序的記錄介質(zhì)以及圖像檢索用信息生成裝置的優(yōu)選的實(shí)施方式。另夕卜,在附圖的說(shuō)明中對(duì)同一要件標(biāo)記同一符號(hào),并省略重復(fù)的說(shuō)明。圖I是示出作為本實(shí)施方式的信息處理裝置的圖像檢索裝置10。圖像檢索裝置10是受理針對(duì)檢索對(duì)象的圖像的檢索要求而輸出與該檢索要求相應(yīng)的檢索結(jié)果的裝置。在本實(shí)施方式中,檢索對(duì)象的圖像是在網(wǎng)絡(luò)購(gòu)物商城中銷(xiāo)售的商品的說(shuō)明圖像。圖像檢索裝置10的圖像檢索的目的是檢查作為商品的說(shuō)明圖像有無(wú)不合適的圖像。作為商品的說(shuō)明圖像不合適的圖像是指,例如被消費(fèi)者過(guò)度地期待健康商品、化妝品等商品的効果的圖像。根據(jù)上述的檢索對(duì)象以及目的,例如由管理網(wǎng)絡(luò)購(gòu)物商城的企業(yè)主使用圖像檢索裝置10。因此,雖然在圖I中沒(méi)有明示,但圖像檢索裝置10能夠與構(gòu)成網(wǎng)絡(luò)購(gòu)物商城的服務(wù)器連接等而取得檢索對(duì)象的圖像。圖像檢索裝置10能夠與管理者終端30連接而互相進(jìn)行信息的收發(fā)。圖像檢索裝置10從管理者終端30受理針對(duì)檢索對(duì)象的圖像的檢索要求,向管理者終端30輸出表示與檢索要求相應(yīng)的檢索結(jié)果的信息。圖像檢索裝置10是通過(guò)具備CPU (Central Processing Unit)、存儲(chǔ)器、通信模塊等硬件的服務(wù)器裝置等的計(jì)算機(jī)來(lái)實(shí)現(xiàn)的。通過(guò)這些結(jié)構(gòu)要件通過(guò)程序等進(jìn)行動(dòng)作,從而發(fā)揮后述的圖像檢索裝置10的功能。另外,圖像檢索裝置10也可以由包括多個(gè)計(jì)算機(jī)的計(jì)算機(jī)系統(tǒng)構(gòu)成。管理者終端30是由管理上述網(wǎng)絡(luò)購(gòu)物商城的企業(yè)主的用戶使用的具有通信功能的終端,能夠與圖像檢索裝置10進(jìn)行信息的收發(fā)。管理者終端30具體相當(dāng)于PC(PerSonalComputer)等通信裝置。接下來(lái),對(duì)圖像檢索裝置10的功能性的結(jié)構(gòu)進(jìn)行說(shuō)明。如圖I所示,圖像檢索裝置10具備圖像數(shù)據(jù)庫(kù)11、圖像登記部12、字符串區(qū)域提取部13、字符候選識(shí)別部14、字符候選存儲(chǔ)部15、視覺(jué)性特征量計(jì)算部16、檢索關(guān)鍵字輸入部17、檢索部18、以及輸出部19。圖像數(shù)據(jù)庫(kù)11是保存(存儲(chǔ))檢索對(duì)象的圖像的數(shù)據(jù)庫(kù)。圖像數(shù)據(jù)庫(kù)11中保存的圖像是如上所述登載在構(gòu)成網(wǎng)絡(luò)購(gòu)物商城的Web站點(diǎn)中的、在該網(wǎng)絡(luò)購(gòu)物商城中銷(xiāo)售的商品的說(shuō)明圖像。各圖像被賦予確定圖像的ID等信息,由此能夠確定圖像。另外,圖像數(shù)據(jù)庫(kù)11不會(huì)重復(fù)地保存同一圖像。即,圖像數(shù)據(jù)庫(kù)11以不包含多個(gè)同一圖像的方式保存圖像。具體地,圖像數(shù)據(jù)庫(kù)11通過(guò)圖像檢索裝置10所具備的存儲(chǔ)器、硬盤(pán)等硬件來(lái)實(shí)現(xiàn)。圖像數(shù)據(jù)庫(kù)11既可以對(duì)通過(guò)構(gòu)成數(shù)據(jù)庫(kù)的軟件來(lái)保存的圖像的數(shù)據(jù)進(jìn)行管理,也可以只是單純地將圖像的數(shù)據(jù)保存到存儲(chǔ)器、硬盤(pán)等。圖像數(shù)據(jù)庫(kù)11與保存的圖像對(duì)應(yīng)地存儲(chǔ)通過(guò)對(duì)該圖像應(yīng)用哈希函數(shù)而得到的哈希值。該哈希函數(shù)是預(yù)先設(shè)定的特定的哈希函數(shù)。如果是同一圖像,則由此得到的哈希值在一定的范圍內(nèi)。由此,在網(wǎng)絡(luò)購(gòu)物商城中在多個(gè)Web站點(diǎn)中使用同一圖像的情況下,能夠、用一個(gè)哈希值進(jìn)行管理。另外,在此,對(duì)于字符顏色相似(紅色與橙色等)的圖像、字符的大小相似的圖像等對(duì)用戶而言視為相同的圖像,也可以設(shè)為是同一圖像。上述哈希值的一定的范圍是可以根據(jù)視為同一圖像的圖像而適當(dāng)設(shè)定的。圖像數(shù)據(jù)庫(kù)11將表示作為該圖像被利用的Web頁(yè)面的部位的Web站點(diǎn)的信息與上述哈希值進(jìn)行對(duì)應(yīng)而保存。表示W(wǎng)eb站點(diǎn)的信息例如是URL(Uniform Resource Locator)。另外,圖像數(shù)據(jù)庫(kù)11將數(shù)值與表示上述Web站點(diǎn)的各個(gè)信息進(jìn)行對(duì)應(yīng)而保存。該數(shù)值例如是該Web站點(diǎn)中的該圖像所涉及的商品的銷(xiāo)售價(jià)格。另外,也可以將表示上述Web站點(diǎn)的各個(gè)信息與該Web站點(diǎn)中的該商品的說(shuō)明等其它的信息進(jìn)行對(duì)應(yīng)。根據(jù)上述的數(shù)據(jù)結(jié)構(gòu),圖像數(shù)據(jù)庫(kù)11能夠?qū)D像、與圖像被利用的Web站點(diǎn)以及該Web站點(diǎn)中的該圖像所涉及的商品的銷(xiāo)售價(jià)格的信息進(jìn)行對(duì)應(yīng)而存儲(chǔ)。圖像登記部12是輸入新登記到圖像數(shù)據(jù)庫(kù)11中的圖像與表示該圖像被利用的Web站點(diǎn)的信息,并使這些信息保存到圖像數(shù)據(jù)庫(kù)中的圖像登記單元。圖像登記部12預(yù)先存儲(chǔ)上述特定的哈希函數(shù)。圖像登記部12對(duì)輸入的圖像應(yīng)用該哈希函數(shù)而計(jì)算哈希值。圖像登記部12讀出圖像數(shù)據(jù)庫(kù)11中保存的哈希值,判斷計(jì)算的哈希值是否是從已經(jīng)保存在圖像數(shù)據(jù)庫(kù)11中的哈希值起在一定的范圍內(nèi)的值。圖像登記部12在判斷為計(jì)算的哈希 值是從已經(jīng)保存的哈希值起在一定的范圍內(nèi)的值的情況下,將表示該圖像被利用的Web站點(diǎn)的信息與該已經(jīng)保存的哈希值進(jìn)行對(duì)應(yīng)而保存到圖像數(shù)據(jù)庫(kù)11中。圖像登記部12在判斷為計(jì)算的哈希值不是從已經(jīng)保存的哈希值起在一定的范圍內(nèi)的值的情況下,將輸入的圖像及表示W(wǎng)eb站點(diǎn)的信息、以及計(jì)算的哈希值進(jìn)行對(duì)應(yīng)而重新保存到圖像數(shù)據(jù)庫(kù)11中。此時(shí),如上所述也可以還結(jié)合該Web站點(diǎn)中的該圖像所涉及的商品的銷(xiāo)售價(jià)格的信息等來(lái)進(jìn)行登記。例如,通過(guò)管理網(wǎng)絡(luò)購(gòu)物商城的企業(yè)主的用戶的操作,從管理者終端30向圖像登記部12輸入圖像和表示該圖像被利用的Web站點(diǎn)的信息?;蛘?,也可以在網(wǎng)絡(luò)購(gòu)物商城的Web站點(diǎn)中新利用圖像的情況下自動(dòng)地進(jìn)行輸入。字符串區(qū)域提取部13是提取圖像數(shù)據(jù)庫(kù)11中保存的圖像中的包含字符串的字符串區(qū)域的字符串區(qū)域提取單元。字符串區(qū)域的提取例如如下這樣進(jìn)行。首先,為了提取圖像內(nèi)的字符而將對(duì)象圖像變換為灰度圖像之后,通過(guò)辨別分析法來(lái)決定閾值并變換為2值圖像。該方法例如可以使用如下方法,即,大津基于辨別以及最小2乘規(guī)范的自動(dòng)閾值選定法,信學(xué)論D,Vol. 63,No. 4,pp. 349-356 (1980)中記載的方法。接下來(lái),提取對(duì)2值圖像進(jìn)行標(biāo)記處理,并將得到的圖像連結(jié)要素使用間距、縱橫比以及角度來(lái)連結(jié)區(qū)域并在橫向和縱向上排列而成的字符串圖像。該方法例如可以使用如下方法蘆田,永井,R本,宮尾,山本從情景圖像的字符提取,信學(xué)論D,Vol. J88-D2,No.9,pp. 1817-1824(2005)中記載的方法。字符串區(qū)域提取部13將如上所述提取的字符串區(qū)域(的圖像的數(shù)據(jù))輸出到字符候選識(shí)別部14以及視覺(jué)性特征量計(jì)算部16。此時(shí),以使能夠辨別提取的字符串區(qū)域是從哪個(gè)圖像進(jìn)行了提取(提取源的圖像)。另外,字符串區(qū)域提取部13也可以從一個(gè)圖像提取多個(gè)字符串區(qū)域。在該情況下,對(duì)從圖像提取的各個(gè)字符串區(qū)域例如賦予ID等而以使能夠進(jìn)行辨別。另外,提取的字符串區(qū)域也可以是在圖像中區(qū)域重復(fù)的部分。在圖像中,一個(gè)部位也可以屬于縱向的字符串區(qū)域和橫向的字符串區(qū)域這兩個(gè)區(qū)域。這是為了在無(wú)法明確地辨別在哪個(gè)方向上讀取字符串的情況下,也防止遺漏字符串的提取。字符串區(qū)域提取部13提取字符串的定時(shí)例如是在圖像數(shù)據(jù)庫(kù)11中新保存圖像的定時(shí)?;蛘撸部梢詫⒂脩舻牟僮髯鳛橛|發(fā)而進(jìn)行提取。字符候選識(shí)別部14是對(duì)于構(gòu)成由字符串區(qū)域提取部13提取并輸入的字符串區(qū)域中包含的字符串的各字符,根據(jù)圖像進(jìn)行字符識(shí)別來(lái)確定多個(gè)字符候選的字符候選識(shí)別單元。另外,字符候選識(shí)別部14關(guān)于進(jìn)行字符識(shí)別時(shí)確定的各字符候選,評(píng)價(jià)字符識(shí)別的正確性,對(duì)各字符候選附加順序。字符識(shí)別如下述這樣進(jìn)行。使用詞素解析,將輸入的字符串區(qū)域的圖像分割為構(gòu)成字符串的各字符的圖像,對(duì)各字符的圖像進(jìn)行字符識(shí)別處理。通過(guò)從圖像提取字符識(shí)別中使用的特征量,比較該特征量與預(yù)先提取的能成為字符候選的字符的特征量,從而進(jìn)行字符識(shí)別。關(guān)于字符識(shí)別中使用的特征量,例如能夠使用利用了字符的輪廓的方向線性元素特征。該方法例如可以使用如下方法孫,田原,阿曾,木村使用了方向線性元素特征量的高精度字符識(shí)別,信學(xué) 論,vol. J74-D-II,No. 3,pp. 330-339(1991)中記載的方法。作為字符識(shí)別的正確性,例如可以使用特征量的歐幾里德距離的短度。即,越是具有在特征量的歐幾里德距離上與從圖像提取的特征量近的特征量的字符,設(shè)為正確性越高的字符候選。使用該字符識(shí)別的正確性,對(duì)于各對(duì)象字符圖像,對(duì)字符候選附加順序。附加順序的字符候選作為直至第N位被復(fù)用的字符候選而被保持(N是預(yù)先設(shè)定的2以上的自然數(shù))。通過(guò)對(duì)這樣構(gòu)成字符串的各字符保持多個(gè)字符候選,避免字符候選錯(cuò)誤所導(dǎo)致的檢索遺漏。如上所述,字符候選識(shí)別部14將構(gòu)成根據(jù)字符串區(qū)域確定的字符串的各字符的多個(gè)字符候選的信息輸出到字符候選存儲(chǔ)部15。字符候選存儲(chǔ)部15是將由字符候選識(shí)別部14確定的多個(gè)字符候選按照字符串的順序與作為該字符候選的確定源的圖像進(jìn)行對(duì)應(yīng)而存儲(chǔ)的字符候選存儲(chǔ)單元。字符候選存儲(chǔ)部15按照由字符候選識(shí)別部14評(píng)價(jià)的正確性從高到低的順序?qū)⒈硎靖髯址蜻x的信息針對(duì)每個(gè)字符作為針對(duì)圖像的索引而進(jìn)行存儲(chǔ)。例如,通過(guò)向圖像檢索裝置10的存儲(chǔ)器、硬盤(pán)等保存例如下述的表示各字符候選的數(shù)據(jù)(文件),從而進(jìn)行該存儲(chǔ)。圖2示出字符候選存儲(chǔ)部15所存儲(chǔ)的信息的例子。圖2所示的例子是根據(jù)一個(gè)字符串區(qū)域識(shí)別的字符候選。如圖2所示,字符候選存儲(chǔ)部15所存儲(chǔ)的信息是將字符的順序(圖2中的“No. j”)、字符坐標(biāo)、以及識(shí)別結(jié)果的信息分別對(duì)應(yīng)的信息。字符的順序是表示該字符候選相當(dāng)于構(gòu)成字符串的第幾個(gè)字符的信息。字符坐標(biāo)是表示該字符候選位于字符候選的確定源的圖像中的哪個(gè)位置的信息。字符坐標(biāo)的信息表示將圖像左上設(shè)為原點(diǎn)(0,0)時(shí)的字符圖像的(X坐標(biāo),y坐標(biāo),寬度,高度)。在此,X坐標(biāo)以及y坐標(biāo)表示字符圖像中的預(yù)先設(shè)定的基準(zhǔn)位置(例如,字符圖像的左上的像素的位置)。例如由字符候選識(shí)別部14取得字符坐標(biāo)的信息。識(shí)別結(jié)果是按照正確性從高到低的順序排列各字符的字符候選的結(jié)果。在此,將識(shí)別結(jié)果C的第n個(gè)字符候選第j位表現(xiàn)為C[n] [j]。例如,圖2的表的識(shí)別結(jié)果C中的C[l] [1]、C[1] [2]以及 C[10] [I]分別為 “■ ”、“予”以及“高”。字符候選存儲(chǔ)部15將如圖2所示的表示識(shí)別結(jié)果的信息與作為字符候選的確定源的圖像的哈希值等的對(duì)圖像進(jìn)行確定的信息進(jìn)行對(duì)應(yīng)而存儲(chǔ),以使能夠辨別從哪個(gè)圖像進(jìn)行了提取。另外,在從一個(gè)圖像提取多個(gè)字符串區(qū)域的情況下,與字符串區(qū)域的ID等進(jìn)行對(duì)應(yīng)而存儲(chǔ),以使能夠辨別從哪個(gè)字符串區(qū)域進(jìn)行了提取。字符候選存儲(chǔ)部15也可以將由字符候選識(shí)別部14確定的多個(gè)字符候選作為將該字符候選中的任意一個(gè)按照所述字符串的順序進(jìn)行組合得到的字符串,與作為該字符候選的確定源的圖像進(jìn)行對(duì)應(yīng)而存儲(chǔ)。即,也可以對(duì)于圖2所示的各字符,存儲(chǔ)選擇一個(gè)字符候選并按照字符串的順序進(jìn)行組合而得到的字符串。例如,是如圖2所示的識(shí)別結(jié)果的情況下,該字符串如圖16所示。在此,組合而存儲(chǔ)的字符串并非按照根據(jù)圖像取得的字符候選的順序連續(xù),而是部分性地遺漏了字符串。例如,關(guān)于根據(jù)圖像取得的字符候選,“安全性” 高S ”雖然沒(méi)有按照字符候選的順序連續(xù),但也可以是那樣的組合。另外,針對(duì)每個(gè)字符存儲(chǔ)字符候選的情況下,與上述同樣地在后述的檢索中也可以并非一定按照字符候選的順序判斷一致。另外,如上所述存 儲(chǔ)字符串的情況下,對(duì)于與字符候選對(duì)應(yīng)的信息(字符識(shí)別的正確性的信息等),也可以和與字符串進(jìn)行對(duì)應(yīng)而針對(duì)每個(gè)字符存儲(chǔ)了字符候選的情況同樣地進(jìn)行處理。在此存儲(chǔ)的字符串既可以對(duì)于所有的字符候選的組合進(jìn)行存儲(chǔ),也可以僅存儲(chǔ)與作為預(yù)先設(shè)定的檢索關(guān)鍵字而設(shè)想的字符串一致的組合。另外,也可以對(duì)于字符串的一部分(例如,在圖2的信息的例子中“I O安全性”這樣的部分)進(jìn)行存儲(chǔ)。視覺(jué)性特征量計(jì)算部16是根據(jù)由字符串區(qū)域提取部13提取的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成字符串的字符的大小以及顏色中的至少任一個(gè)的該字符串的視覺(jué)性特征量(saliency)并進(jìn)行存儲(chǔ)的視覺(jué)性特征量計(jì)算單元。視覺(jué)性特征量計(jì)算部16根據(jù)構(gòu)成字符串區(qū)域的字符串的像素的明度、與構(gòu)成字符串區(qū)域的背景的像素的明度之差計(jì)算視覺(jué)性特征量。視覺(jué)性特征量計(jì)算部16將構(gòu)成字符串區(qū)域的字符串的像素的明度設(shè)為在該像素中最多的顏色的像素的明度,將構(gòu)成字符串區(qū)域的背景的像素的明度設(shè)為在該像素中最多的顏色的像素的明度。更具體地,視覺(jué)性特征量計(jì)算部16通過(guò)以下的處理來(lái)計(jì)算字符串的視覺(jué)性特征量。視覺(jué)性特征量計(jì)算部16將計(jì)算的視覺(jué)性特征量與字符串進(jìn)行對(duì)應(yīng)而存儲(chǔ)。例如,通過(guò)向圖像檢索裝置10的存儲(chǔ)器、硬盤(pán)等保存信息,從而進(jìn)行該存儲(chǔ)。另外,視覺(jué)性特征量計(jì)算部16也可以計(jì)算構(gòu)成字符串的每個(gè)字符的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。根據(jù)該結(jié)構(gòu),能夠在檢索時(shí)相加每個(gè)字符的視覺(jué)性特征量而設(shè)為字符串的視覺(jué)性特征量。視覺(jué)性特征量計(jì)算部16與字符候選識(shí)別部14同樣地進(jìn)行字符識(shí)別。但是,視覺(jué)性特征量計(jì)算部16的字符的識(shí)別也可以并非一定確定多個(gè)字符候選。視覺(jué)性特征量計(jì)算部16根據(jù)在提取字符時(shí)得到的字符圖像區(qū)域的縱橫的大小,確定字符的大小(字符尺寸)。例如,以點(diǎn)(Pt)單位得到字符尺寸。視覺(jué)性特征量計(jì)算部16對(duì)于字符圖像區(qū)域中包含的字符區(qū)域與背景區(qū)域,使用代表顏色選擇法來(lái)取得字符顏色和背景顏色。代表顏色選擇法例如記載于如下長(zhǎng)谷,米田,酒井,丸山關(guān)于以彩色文書(shū)圖像中的字符區(qū)域提取為目的的顏色分割的研究,信學(xué)論D-II vol. J83-D-II No. 5 pp. 1294-1304(2000)。選擇代表顏色的過(guò)程是,首先針對(duì)字符區(qū)域和背景區(qū)域的各區(qū)域,將像素值從RGB顏色空間變換為L(zhǎng)*a*b*顏色空間。之后,將所有的像素映射到分割為一邊是w的立方體的L*a*b*顏色空間,并調(diào)查落在小區(qū)域中的像素的數(shù)量。在此,w是預(yù)先設(shè)定的值。其結(jié)果,將小區(qū)域的像素值與落在周?chē)嬖诘?6附近的各個(gè)小區(qū)域中的像素?cái)?shù)相比最多的小區(qū)域設(shè)為代表顏色。但是,在產(chǎn)生多處的情況下,將它們中的任意一個(gè)區(qū)域設(shè)為代表顏色。圖3中示出實(shí)際上進(jìn)行代表顏色選擇并取得了字符顏色和背景顏色的例子。在圖3中,用虛線示出的區(qū)域是字符串區(qū)域。另外,選擇代表顏色時(shí)的w的值設(shè)為4。視覺(jué)性特征量計(jì)算部16根據(jù)代表顏色的像素的RGB值,通過(guò)以下的式(I)來(lái)求出明度L。L=O. 298912R+0. 586611G+0. 114478B (I)視覺(jué)性特征量計(jì)算部16求出字符顏色的明度L與背景顏色的明度L之差的絕對(duì)值。接下來(lái),視覺(jué)性特征量計(jì)算部16按照?qǐng)D4的表,根據(jù)得到的字符尺寸與明度差,計(jì)算字符串的視覺(jué)性特征量。在圖4所示的表中,視覺(jué)性特征量為與low (低)、medium (中)以及high (高)等定性的標(biāo)記,但也可以將它們變換為定量的值。視覺(jué)性特征量計(jì)算部16將表示計(jì)算的字符串的視覺(jué)性特征量的信息輸出到檢索部18。
視覺(jué)性特征量計(jì)算部16計(jì)算視覺(jué)性特征量的定時(shí)例如與字符串區(qū)域提取部13提取字符串的定時(shí)同樣地,是在圖像數(shù)據(jù)庫(kù)11中新保存圖像的定時(shí)。在該情況下,視覺(jué)性特征量例如作為向作為針對(duì)圖像的索引的索引付加的信息而存儲(chǔ)?;蛘?,也可以在檢索部18進(jìn)行檢索處理時(shí),根據(jù)來(lái)自檢索部18的指示來(lái)進(jìn)行。另外,視覺(jué)性特征量計(jì)算部16除了大小以及顏色以外,也可以根據(jù)其它的字符的特征、例如形狀(字體)及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任一個(gè)來(lái)計(jì)算視覺(jué)性特征量。檢索關(guān)鍵字輸入部17是輸入檢索用的關(guān)鍵字的檢索關(guān)鍵字輸入單元。檢索關(guān)鍵字輸入部17也可以輸入多個(gè)關(guān)鍵字。在該情況下,優(yōu)選還結(jié)合表示以多個(gè)關(guān)鍵字進(jìn)行AND檢索還是進(jìn)行OR檢索的信息來(lái)進(jìn)行輸入。例如,如下述進(jìn)行檢索用的關(guān)鍵字的輸入。檢索關(guān)鍵字輸入部17受理來(lái)自管理者終端30的訪問(wèn)要求,向管理者終端30發(fā)送具有用于輸入關(guān)鍵字的表格(Form)的Web頁(yè)面的數(shù)據(jù)。在管理者終端30中,接收并顯示該Web頁(yè)面的數(shù)據(jù)。在管理者終端30中,由用戶進(jìn)行關(guān)鍵字的輸入操作,包含該關(guān)鍵字的檢索要求被發(fā)送到圖像檢索裝置10。檢索關(guān)鍵字輸入部17接收該檢索要求,根據(jù)接收到的檢索要求取得關(guān)鍵字,從而輸入關(guān)鍵字。檢索關(guān)鍵字輸入部17將輸入的關(guān)鍵字輸出到檢索部18。檢索部18是使用從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字,將圖像數(shù)據(jù)庫(kù)11中保存的圖像作為對(duì)象進(jìn)行檢索的檢索單元。通過(guò)判定構(gòu)成從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字的各字符是否按照該關(guān)鍵字的順序與構(gòu)成由字符候選存儲(chǔ)部15存儲(chǔ)的字符串的多個(gè)字符候選中的任意一個(gè)一致,從而進(jìn)行檢索。例如,在檢索用的關(guān)鍵字是“安全性”,且構(gòu)成字符串的多個(gè)字符候選是圖2的表所示的內(nèi)容的情況下,由于在第3個(gè)字符 第5個(gè)字符的字符候選中分別包含“安”,“全”,“性”的字符,因此圖2所示的字符串被判斷為命中了“安全性”這一關(guān)鍵字。關(guān)于字符串是否命中關(guān)鍵字的判斷,將使用流程來(lái)后述。如上所述,在字符候選存儲(chǔ)部15存儲(chǔ)將字符候選按照字符串的順序進(jìn)行組合得到的字符串的狀態(tài)下,也可以通過(guò)比較從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字、與字符候選存儲(chǔ)部15存儲(chǔ)的字符串來(lái)進(jìn)行檢索。在字符候選存儲(chǔ)部15存儲(chǔ)的字符串中包含從檢索關(guān)鍵字輸入部17輸入的關(guān)鍵字的情況下,判斷為字符候選存儲(chǔ)部15所存儲(chǔ)的字符串命中了關(guān)鍵字。這樣,如果字符候選存儲(chǔ)部15存儲(chǔ)了字符串,則能夠通過(guò)如上所述與檢索用的關(guān)鍵字判斷字符串彼此的一致來(lái)進(jìn)行檢索,因此能夠加快檢索處理。另外,如果不作為字符串存儲(chǔ)而作為圖2所示的信息存儲(chǔ)字符候選,則對(duì)于未知詞、模糊的關(guān)鍵字也能夠進(jìn)行檢索。
在上述檢索方法中,與僅使用字符識(shí)別的結(jié)果的第I候選進(jìn)行檢索的情況相比,能夠期待降低檢索遺漏(提高再現(xiàn)率),但與此同時(shí),包含較多的識(shí)別錯(cuò)誤的檢索錯(cuò)誤會(huì)増加(精確率下降)。因此,檢索部18在構(gòu)成關(guān)鍵字的各字符與由字符候選存儲(chǔ)部15存儲(chǔ)的多個(gè)字符候選中的任意一個(gè)一致的情況(字符候選命中關(guān)鍵字的情況)下,根據(jù)表示上述正確性的信息,評(píng)價(jià)關(guān)于該一致的可信度(一致度)。更具體地,檢索部18根據(jù)與關(guān)鍵字的字符一致的字符候選的順序,作為表示上述可信度的值而計(jì)算對(duì)于關(guān)鍵字t的字符識(shí)別可信度(similarity)。在此,字符識(shí)別可信度是0. 0 I. 0的范圍的值,如果是更大的值則表示可信度高。檢索部18通過(guò)以下的式(2)計(jì)算字符識(shí)別可信度similarity。similarity (t)=Keyword (t). length/totalscore (t)(2)在上述式中,Keyword (t) length是關(guān)鍵字t的長(zhǎng)度(字符數(shù)),totalscore (t)是一致(匹配)的字符候選的順序的合計(jì)。另外,僅以第I候選而與關(guān)鍵字一致的字符串
的字符識(shí)別可信度為1.0。例如,示出從圖5所示的2個(gè)圖像各自的字符識(shí)別結(jié)果以“絶対痩#石(絕對(duì)減肥)”這樣的關(guān)鍵字進(jìn)行了檢索的情況下的字符識(shí)別可信度的例子。在圖5(a)所示的例子中,所有的字符與第I候選一致,因此字符識(shí)別可信度通過(guò)5+(1+1+1+1+1)來(lái)計(jì)算,成為I. 00。在圖5(b)所示的例子中,最后的字符與第3候選一致,因此字符識(shí)別可信度通過(guò)5+(1+1+1+1+3)來(lái)計(jì)算,成為0.71。這樣,字符識(shí)別可信度低的圖像被誤檢索的可能性高,字符識(shí)別可信度高的圖像正確地包含檢索關(guān)鍵字的可能性高。即,字符識(shí)別可信度能夠作為更正確地包含檢索關(guān)鍵字的指標(biāo)而使用。為此,在從大量的圖像中列出包含關(guān)鍵字的圖像時(shí),根據(jù)字符識(shí)別可信度來(lái)分類(lèi)檢索結(jié)果,從而優(yōu)先提示檢索錯(cuò)誤少的結(jié)果的圖像。檢索部18也可以根據(jù)關(guān)鍵字的字符數(shù),決定對(duì)與關(guān)鍵字的一致進(jìn)行判定的字符候選的數(shù)量。雖然在后面更詳細(xì)說(shuō)明,但在檢索關(guān)鍵字的字符數(shù)少的(檢索關(guān)鍵字短的)情況下,存在產(chǎn)生檢索錯(cuò)誤而精確率降低的傾向。因此,例如在判斷為關(guān)鍵字的字符數(shù)是預(yù)先設(shè)定的閾值以下的情況下,也可以將判定一致的字符候選的數(shù)量設(shè)為比通常少的數(shù)量。檢索部18如果決定了字符候選的數(shù)量,則根據(jù)表示關(guān)于字符候選的正確性的信息,決定對(duì)與關(guān)鍵字的一致進(jìn)行判定的字符候選。具體地,檢索部18將直至決定的字符候選的數(shù)量的順序?yàn)橹沟淖址蜻x設(shè)為判定一致的字符候選。檢索部18根據(jù)關(guān)鍵字與字符候選的一致的檢索的結(jié)果,計(jì)算包含針對(duì)該關(guān)鍵字的該字符候選的圖像的得分值。該得分值表示作為檢索結(jié)果而輸出的圖像的順序,在本實(shí)施方式中,表示檢索關(guān)鍵字以不合適的形式包含在圖像中的可能性的高低。首先,檢索部18根據(jù)如上述求出的檢索關(guān)鍵字t的視覺(jué)性特征量saliency (t)和字符識(shí)別可信度similarity(t),通過(guò)以下的式(3)來(lái)求出包含在圖像內(nèi)的第m個(gè)字符串(t, m)的字符特征量 termscore (t, m)。termscore (t,m) = (I-a ) similarity (t, m) + a saliency (t, m) (3)在此,a是表示視覺(jué)性特征量與字符識(shí)別可信度的權(quán)重的值。a是0 I的值且是預(yù)先設(shè)定的值。ct、similarity以及saliency之間存在相關(guān)關(guān)系,由此得到精度更好的檢索結(jié)果。希望根據(jù)檢索的使用方法、目的來(lái)決定a的附加方法、即對(duì)similarity和saliency應(yīng)該如何附加權(quán)重。在設(shè)a =0的情況下,成為僅反映了字符識(shí)別可信度similarity的得分,視覺(jué)性特征量saliency不被考慮。另一方面,在設(shè)為a=l的情況下,成為僅反映了視覺(jué)性特征量saliency的得分,字符識(shí)別可信度similarity不被考慮。越使a接近1,在字符是否一致這樣的觀點(diǎn)中結(jié)果越差。另外,圖像內(nèi)的第m個(gè)字符串表示是由字符串區(qū)域提取部13提取的多個(gè)字符串區(qū)域所相關(guān)的字符串中的哪個(gè)字符串。關(guān)于m,取從I至由字符串區(qū)域提取部13提取的字符串區(qū)域的數(shù)量為止的值中的某一個(gè)值。
S卩,檢索部18根據(jù)由視覺(jué)性特征量計(jì)算部16根據(jù)如下字符串區(qū)域而計(jì)算的視覺(jué)性特征量,計(jì)算包含該字符串的圖像的得分值,其中,所述字符串區(qū)域是構(gòu)成了構(gòu)成關(guān)鍵字的各字符按照該關(guān)鍵字的順序一致的字符串的多個(gè)字符候選被識(shí)別的字符串區(qū)域。另外,檢索部18對(duì)于由檢索關(guān)鍵字輸入部17輸入的多個(gè)關(guān)鍵字,計(jì)算得分值。檢索部18為了考慮圖像中包含的關(guān)鍵字的出現(xiàn)頻度而計(jì)算圖像中包含的關(guān)鍵字的tf-idf。tf-idf作為用于提取文章中的特征性單詞的算法而已知,且是主要在信息檢索、文章摘要等的領(lǐng)域中利用的指標(biāo)。tf是文章中的單詞的出現(xiàn)頻度,idf是用于降低許多文檔中出現(xiàn)的詞的重要度,并提高只在特定的文檔中出現(xiàn)的單詞的重要度的逆出現(xiàn)頻度。在本方案中,將該tf-idf的思想擴(kuò)展到圖像內(nèi)字符,通過(guò)組合到字符串的視覺(jué)性特征量和字符識(shí)別可信度中來(lái)使用,從而計(jì)算圖像得分。檢索部18為了根據(jù)檢索關(guān)鍵字t的出現(xiàn)頻度來(lái)提高圖像得分,通過(guò)以下的式(4)來(lái)求出在圖像內(nèi)包含tf(t)個(gè)的檢索關(guān)鍵字t的各個(gè)字符特征量的平方和,并設(shè)為利用檢索關(guān)鍵字的圖像的得分。另外,關(guān)于字符串與圖像的對(duì)應(yīng),參照由字符候選存儲(chǔ)部15存儲(chǔ)的字符候選與圖像的對(duì)應(yīng)的信息。在此,m是在成為對(duì)象的圖像中包含關(guān)鍵字t的字符串的下標(biāo),是I tf(t)的范圍的整數(shù)。數(shù)[I]
m,score(f, image) = ^ {termscore(t, m)}2(4)
m=l另外,以多個(gè)檢索關(guān)鍵字進(jìn)行檢索時(shí)的圖像得分能夠使用idf (t)的值來(lái)計(jì)算。使用檢索對(duì)象的總圖像數(shù)(A)和包含t的圖像數(shù)(S),通過(guò)以下的式(5)來(lái)求出檢索關(guān)鍵字t的idf (t)。包含檢索關(guān)鍵字t的圖像越少idf (t)成為越大的值,idf (t)表示罕見(jiàn)詞。idf (t) =Iog (A/ (S+1)) +1(5)通過(guò)以下的式(6)來(lái)求出對(duì)查詢(檢索要求)q中包含的多個(gè)檢索關(guān)鍵字t的圖像得分score(t, image)乘以idf(t)的值而得到的數(shù)值的總積,從而計(jì)算以多個(gè)檢索關(guān)鍵字進(jìn)行AND檢索時(shí)的圖像得分。[數(shù)2]^coreiq Jinage) = ]~[ idf {i) ■ score(t Jmage)(O)通過(guò)以下的式(7)來(lái)求出對(duì)查詢q中包含的多個(gè)檢索關(guān)鍵字t的圖像得分score (t, image)乘以idf(t)的值而得到的數(shù)值的總和,從而計(jì)算以多個(gè)檢索關(guān)鍵字進(jìn)行OR檢索時(shí)的圖像得分。[數(shù)3]scoreiq, image)=工 idf {I) ■ scoreKj. image、)(/)
i€q如上所述,檢索部18根據(jù)針對(duì)圖像數(shù)據(jù)庫(kù)11中保存的圖像數(shù)的、包含關(guān)鍵字的圖像數(shù)的比例,計(jì)算得分值。在tf-idf的思想中,文章越長(zhǎng),包含檢索關(guān)鍵字t的概率越高,因此一般根據(jù)文章量來(lái)調(diào)整tf。為此,在本手法中,也優(yōu)選作為圖像內(nèi)包含的文章量的指標(biāo)而使用字符識(shí)別后的字符串的長(zhǎng)度、圖像的尺寸來(lái)進(jìn)行加權(quán)。但是,在本實(shí)施方式中作為對(duì)象的商品說(shuō)明圖像具有復(fù)雜的背景、布局,因此在字符識(shí)別時(shí)將背景識(shí)別為字符等、在識(shí)別結(jié)果中包含噪聲的情況較多。因此,難以一概地將字符識(shí)別后的字符串的長(zhǎng)度作為圖像內(nèi)的字符量的指標(biāo)而使用。另外,由于圖像尺寸和圖像內(nèi)包含的字符量并非一定,存在600X 10, OOOpix (像素)的超巨大圖像的得分非常低的情況、20 X IOOpix左右的小的旗幟圖像的得分急劇變高的情況。為此,在本實(shí)施方式中,無(wú)需一定進(jìn)行基于圖像內(nèi)的文章量的加權(quán)。檢索部18將表示通過(guò)檢索命中關(guān)鍵字的圖像的信息、以及針對(duì)這些圖像的圖像得分score (q, image)輸出到輸出部19。輸出部19是示出檢索部18的檢索的結(jié)果的輸出單元。輸出部19輸出表示命中 關(guān)鍵字的圖像的信息。表示輸出部19所輸出的圖像的信息是基于由字符候選存儲(chǔ)部15存儲(chǔ)的字符候選與圖像的對(duì)應(yīng)性的信息。具體地,例如通過(guò)向管理者終端30發(fā)送包含檢索結(jié)果的信息的Web頁(yè)面的信息,從而進(jìn)行輸出部19的輸出。圖6示出在管理者終端30的瀏覽器中顯示該Web頁(yè)面的例子。如圖6所示,顯示命中關(guān)鍵字的圖像。在此,所顯示的圖像按照?qǐng)D像得分score (q,image)從高到低的順序排列。即,輸出部19根據(jù)關(guān)于由檢索部18評(píng)價(jià)的關(guān)鍵字與字符候選之間的一致的可信度,輸出檢索部18的檢索的結(jié)果。另外,輸出部19根據(jù)由檢索部18計(jì)算的各圖像的得分值,輸出檢索部18的檢索的結(jié)果。另外,輸出部19根據(jù)與圖像數(shù)據(jù)庫(kù)11中保存的圖像的哈希值相關(guān)聯(lián)的信息輸出信息。輸出部19輸出表示通過(guò)檢索單元的檢索得到并且不包含多個(gè)同一圖像的圖像的信息、以及與圖像的哈希值進(jìn)行對(duì)應(yīng)而保存在圖像數(shù)據(jù)庫(kù)11中的表示該圖像被利用的Web站點(diǎn)的信息。更具體地,輸出部19輸出表示通過(guò)檢索部18的檢索得到的圖像的信息,根據(jù)該輸出來(lái)受理選擇圖像的輸入,輸出與該輸入相關(guān)的圖像的哈希值進(jìn)行對(duì)應(yīng)而保存的表示該圖像被利用的Web站點(diǎn)的信息。在圖6所示的例子中,首先,輸出部19對(duì)管理者終端30,作為檢索部18的檢索的結(jié)果發(fā)送顯示命中關(guān)鍵字的圖像的Web頁(yè)面的數(shù)據(jù)。在管理者終端30中,在瀏覽器上顯示這些圖像。圖6的區(qū)域Al是顯示命中關(guān)鍵字的圖像的部分。接下來(lái),在管理者終端30中,通過(guò)由用戶點(diǎn)擊“銷(xiāo)售該商品的商鋪”這樣的部分,從而在瀏覽器上選擇所顯示的圖像中的任意一個(gè)時(shí),管理者終端30將表示所選擇的圖像的信息發(fā)送到圖像檢索裝置10。輸出部19接收表示所選擇的圖像的信息,參照?qǐng)D像數(shù)據(jù)庫(kù)11,取得與該圖像的哈希值對(duì)應(yīng)的表示W(wǎng)eb站點(diǎn)的信息,并輸出到管理者終端30。而且,輸出部19參照?qǐng)D像數(shù)據(jù)庫(kù)11,取得與Web站點(diǎn)所示的信息對(duì)應(yīng)的表示商品的銷(xiāo)售價(jià)格的信息。輸出部19在向管理者終端30發(fā)送表不Web站點(diǎn)的信息時(shí),以按照商品的銷(xiāo)售價(jià)格順序(例如,價(jià)格從高到低的順序,或者從低到高的順序)顯示的方式進(jìn)行輸出。另外,在管理者終端30中顯示表示W(wǎng)eb站點(diǎn)的信息時(shí),也可以還結(jié)合商品的銷(xiāo)售價(jià)格、Web站點(diǎn)中的商品的說(shuō)明來(lái)顯示。圖6的區(qū)域A2是表示利用圖像的Web站點(diǎn)的信息、以及顯示商品的銷(xiāo)售價(jià)格等的部分。如上所述,輸出部19根據(jù)圖像數(shù)據(jù)庫(kù)11中保存的銷(xiāo)售價(jià)格,輸出表示圖像被利用的Web站點(diǎn)的信息。以上是圖像檢索裝置10的功能性的結(jié)構(gòu)。接下來(lái),使用圖7 圖9的流程圖來(lái)說(shuō)明在本實(shí)施方式的圖像檢索裝置10中執(zhí)行的處理(信息處理方法)。首先,使用圖7的流程圖,對(duì)直至生成圖像檢索用的信息為止的處理進(jìn)行說(shuō)明,之后使用圖8以及圖9的流程圖,對(duì)實(shí)際進(jìn)行圖像檢索的處理進(jìn)行說(shuō)明。在本實(shí)施方式的圖像檢索裝置10中,輸入檢索對(duì)象的圖像,通過(guò)圖像登記部12將該圖像登記到圖像數(shù)據(jù)庫(kù)11中(S01)。結(jié)合圖像的輸入,還進(jìn)行表示該圖像被利用的Web站點(diǎn)的信息、圖像所相關(guān)的商品的銷(xiāo)售價(jià)格的信息等的圖像中附隨的信息的輸入,這些信息如上述與哈希值進(jìn)行對(duì)應(yīng)而保存在圖像檢索裝置10中。例如,通過(guò)管理網(wǎng)絡(luò)購(gòu)物商城的企業(yè)主的用戶的操作,從管理者終端30進(jìn)行圖像的輸入。在輸入了多個(gè)圖像的情況下,對(duì)于各個(gè)圖像進(jìn)行登記,進(jìn)行以下的處理。接下來(lái),在圖像檢索裝置10中,由字符串區(qū)域提取部13提取圖像數(shù)據(jù)庫(kù)11中保存的圖像中的包含字符串的字符串區(qū)域(S02,字符串區(qū)域提取步驟)。所提取的字符串圖 像從字符串區(qū)域提取部13輸出到字符候選識(shí)別部14。接下來(lái),由字符候選識(shí)別部14將所提取的字符串區(qū)域的圖像分割為構(gòu)成字符串的各字符的圖像(S03,字符候選識(shí)別步驟)。接下來(lái),由字符候選識(shí)別部14對(duì)所分割的各圖像進(jìn)行字符識(shí)別處理,對(duì)于各字符確定預(yù)先決定的數(shù)量的多個(gè)字符候選(S04,字符候選識(shí)別步驟)。表示這樣確定的字符候選的信息從字符候選識(shí)別部14輸出到字符候選存儲(chǔ)部15。在S02中,在提取多個(gè)字符串區(qū)域的情況下,針對(duì)每個(gè)字符串區(qū)域進(jìn)行上述處理。接下來(lái),通過(guò)字符候選存儲(chǔ)部15,以在檢索處理時(shí)能夠從檢索部18進(jìn)行檢索的方式存儲(chǔ)從字符候選識(shí)別部14輸入的多個(gè)字符候選的信息(S05,字符候選存儲(chǔ)步驟)。以上是直至生成圖像檢索用的信息為止的處理。接下來(lái),使用圖8以及圖9的流程圖,對(duì)實(shí)際進(jìn)行圖像檢索的處理進(jìn)行說(shuō)明。在本實(shí)施方式的圖像檢索裝置10中,通過(guò)檢索關(guān)鍵字輸入部17來(lái)輸入檢索用的關(guān)鍵字(SII,檢索關(guān)鍵字輸入步驟)。例如,從管理者終端30接收包含關(guān)鍵字的檢索要求,從而輸入檢索用的關(guān)鍵字。所輸入的檢索用的關(guān)鍵字從檢索關(guān)鍵字輸入部17輸出到檢索部18。接下來(lái),通過(guò)檢索部18來(lái)判定所輸入的檢索用的關(guān)鍵字是否與由字符候選存儲(chǔ)部15存儲(chǔ)的字符候選中的任意一個(gè)一致,從而進(jìn)行利用該關(guān)鍵字的檢索(S12,檢索步驟)。使用圖9的流程圖,更詳細(xì)地說(shuō)明該關(guān)鍵字的檢索。在此,設(shè)檢索用關(guān)鍵字的各字符為Keyword[i]。i是表示關(guān)鍵字的字符的順序的下標(biāo)。Keyword [I]表示檢索用關(guān)鍵字的第I個(gè)字符。另外,設(shè)檢索用關(guān)鍵字的字符數(shù)為Keyword, length。另外,設(shè)從圖像取得的字符串的字符候選為C[n] [j]。n是表示字符串的字符的順序的下標(biāo),j是表示字符候選的順序的下標(biāo)(與圖I的表中的說(shuō)明相同)。另外,N表示字符串的字符數(shù)。另外,在此,設(shè)判定與關(guān)鍵字的一致的字符候選的順序?yàn)橹敝恋?0個(gè)。在本處理中,首先設(shè)n=l而開(kāi)始。這是為了從字符串的第I個(gè)字符的字符候選起判定與關(guān)鍵字的一致。接下來(lái),設(shè)i=l(S1201)。這是為了判定關(guān)鍵字的第I個(gè)字符是否與字符候選一致。接下來(lái),設(shè)j=l(S1202)。這是為了判定第I順序的字符候選是否與關(guān)鍵字一致。接下來(lái),判斷是否滿足C[n] [j] =Keyword[i] (S1203)。在判斷為不滿足上述的情況(S1203的否)下,接著,設(shè)j=j+l(S1204)。這是為了判定接下來(lái)的順序的字符候選是否與關(guān)鍵字一致。接下來(lái),判斷是否滿足j>30(S1205)。這是為了在判定了與關(guān)鍵字的一致的字符候選的順序超過(guò)所設(shè)定的值時(shí)進(jìn)行從下一個(gè)字符起的判定。在判斷為不滿足S1205的條件的情況(S1205的否)下,再次進(jìn)行S1203的判斷。在判斷為滿足S1205的條件的情況(S1205的是)下,接下來(lái),設(shè)n=n+l (S1206)。這是為了判定字符串的下一個(gè)字符的字符候選與關(guān)鍵字的一致。接下來(lái),判斷是否滿足n>N(S1207)。判斷是否直至字符串的最后判定了一致。在判斷為滿足S1207的條件的情況(S1207的是)下,作為關(guān)鍵字與字符串的字符候選不一致而結(jié)束檢索的處理。在判斷為不滿足S1207的條件的情況(S1207的否)下,為了再次從關(guān)鍵字的第I個(gè)字符起開(kāi)始一致的判定而返回S1201的處理。在判斷為滿足S1203的條件的情況(S1203的是)下,接下來(lái)判斷是否滿足i =Keyword. length (S1208)。判斷是否直至關(guān)鍵字的最后的字符為止判定了一致。在判斷為不滿足S1208的條件的情況(S1208的否)下,接下來(lái)設(shè)i=i+l以及n=n+l (S1209)。為了判定關(guān)鍵字的下一個(gè)字符與字符串的接下來(lái)的字符的字符候選的一致。接下來(lái),判斷是否 滿足n>N(S1210)。判斷是否直至字符串的最后為止判定了一致。在判斷為滿足S1210的條件的情況(S1210的是)下,作為關(guān)鍵字與字符串的字符候選不一致而結(jié)束檢索的處理。在判斷為不滿足S1210的條件的情況(S1210的否)下,返回S1202的處理。這是為了判定關(guān)鍵字的下一個(gè)字符與字符串的下一個(gè)字符的第I順序的字符候選的一致。在判斷為滿足S1208的條件的情況(S1208的是)下,關(guān)鍵字的所有的字符按照關(guān)鍵字的順序,與構(gòu)成字符串的字符候選中的任意一個(gè)一致,因此作為關(guān)鍵字與字符串匹配而結(jié)束關(guān)鍵字的檢索。另外,在本處理中,在該時(shí)刻結(jié)束關(guān)鍵字的檢索,但也可以進(jìn)一步繼續(xù)進(jìn)行檢索來(lái)判定在之后的字符候選中是否存在關(guān)鍵字一致的部分。另外,也可以使用上述方法以外的方法來(lái)判定關(guān)鍵字與字符候選中的任意一個(gè)的一致。在S12中,對(duì)成為檢索對(duì)象的所有的字符串進(jìn)行上述關(guān)鍵字與構(gòu)成字符串的字符候選的一致的判定。另外,在Sll中輸入的關(guān)鍵字是多個(gè)的情況下,對(duì)多個(gè)關(guān)鍵字進(jìn)行上述判斷。接下來(lái),返回圖8,對(duì)于判斷為與關(guān)鍵字匹配的字符串計(jì)算字符串的得分(S13,檢索步驟)。具體地,如下述這樣計(jì)算得分。首先,通過(guò)檢索部18,對(duì)于與關(guān)鍵字一致的字符串(字符候選),使用上述式(2)來(lái)計(jì)算字符識(shí)別可信度(S131,檢索步驟)。接下來(lái),使用上述式(I),計(jì)算與關(guān)鍵字一致的字符串所涉及的字符串區(qū)域的圖像的視覺(jué)性特征量(S132,視覺(jué)性特征量計(jì)算步驟)。通過(guò)從檢索部18對(duì)視覺(jué)性特征量計(jì)算部16進(jìn)行指示,由視覺(jué)性特征量計(jì)算部16進(jìn)行視覺(jué)性特征量的計(jì)算。另外,視覺(jué)性特征量計(jì)算部16的視覺(jué)性特征量的計(jì)算本身無(wú)需一定在該定時(shí)進(jìn)行,也可以預(yù)先在例如與S04同樣的定時(shí)進(jìn)行并存儲(chǔ),并參照在該定時(shí)存儲(chǔ)的信息。所計(jì)算的表示視覺(jué)性特征量的信息從視覺(jué)性特征量計(jì)算部16輸出到檢索部18。接下來(lái),通過(guò)檢索部18,使用上述式(3)來(lái)計(jì)算作為字符串的得分值的字符特征量 termscore (t, m) (S133,檢索步驟)。接下來(lái),通過(guò)檢索部18,使用上述式(5),計(jì)算作為表示關(guān)鍵字的使用率的值的idf (t) (S14,檢索步驟)。接下來(lái),通過(guò)檢索部18,根據(jù)所計(jì)算的字符特征量termscore (t,m)和idf(t),使用上述式(4)、式(6)以及式(7)中的任意一個(gè),計(jì)算圖像得分sCOre(q,image) (S15,檢索步驟)。從檢索部18將表示包含有在S12中判斷為與關(guān)鍵字匹配的字符串的圖像的信息、以及表示上述圖像得分的信息輸出到輸出部19。接下來(lái),通過(guò)輸出部19,輸出檢索部18的檢索的結(jié)果(S16,輸出步驟)。根據(jù)從檢索部18輸入的信息,生成針對(duì)來(lái)自管理者終端30的檢索要求的檢索結(jié)果的信息并發(fā)送到管理者終端30,從而進(jìn)行檢索的結(jié)果的輸出。具體地,關(guān)于檢索結(jié)果的信息,在管理者終端30中顯示如上述表示包含有判斷為按照?qǐng)D像得分從高到低的順序與關(guān)鍵字匹配的字符串的圖像的信息。另外,如上所述,關(guān)于該圖像被利用的Web站點(diǎn)的信息等,也從輸出部19發(fā)送到管理者終端30。用戶能夠通過(guò)參照在管理者終端30中顯示的檢索結(jié)果來(lái)識(shí)別檢索結(jié)果。以上是在圖像檢索裝置10中實(shí)際進(jìn)行圖像檢索的處理。如上所述,在本實(shí)施方式中,能夠根據(jù)基于構(gòu)成圖像中包含的字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的至少任一個(gè)的該字符串的視覺(jué)性特征量輸出檢索結(jié)果。因此,例如,在圖像中特征性地利用了檢索關(guān)鍵字的情況下,能夠輸出使得該圖像處于上位的檢索結(jié)果。即,根據(jù)本發(fā)明,在圖像中特征性地利用了檢索關(guān) 鍵字的情況下能夠使檢測(cè)容易。例如,即便在包含同一字符串的圖像中,與用小的字符進(jìn)行說(shuō)明的情況相比,在標(biāo)題等用大的字符書(shū)寫(xiě)的圖像的情況下得分值高。由此,在視覺(jué)上顯眼的同時(shí)能夠發(fā)現(xiàn)不正當(dāng)?shù)母怕矢叩谋憩F(xiàn)。另外,在上述實(shí)施方式中,確定了從字符串區(qū)域構(gòu)成字符串的字符的多個(gè)字符候選。但是,在根據(jù)視覺(jué)性特征量進(jìn)行的檢索中,無(wú)需一定確定多個(gè)字符候選,也可以從字符串區(qū)域唯一地識(shí)別字符串。即,上述的圖像檢索裝置10的字符串候選識(shí)別部14是對(duì)由字符串區(qū)域提取部13提取的字符串區(qū)域中包含的字符串進(jìn)行識(shí)別的字符串識(shí)別單兀。另外,圖7中的S03以及S04構(gòu)成本實(shí)施方式的圖像檢索方法的字符串識(shí)別步驟。另外,如上述實(shí)施方式那樣,如果根據(jù)構(gòu)成圖像的像素的明度計(jì)算視覺(jué)性特征量,則能夠適當(dāng)且適當(dāng)?shù)靥崛∫曈X(jué)性特征量,并能夠適當(dāng)且適當(dāng)?shù)貙?shí)施本發(fā)明。另外,使用視覺(jué)性特征量的本發(fā)明的特征是通過(guò)以下的本發(fā)明的發(fā)明人的想法而得到的。即使是使用了用于對(duì)不正當(dāng)?shù)膱D像進(jìn)行檢測(cè)的檢索的關(guān)鍵字的圖像,根據(jù)關(guān)鍵字的使用方法,很多情況下未必是不正當(dāng)?shù)谋憩F(xiàn)。因此,本發(fā)明的發(fā)明人作為預(yù)備實(shí)驗(yàn),網(wǎng)絡(luò)購(gòu)物商城的管理者事先通過(guò)目視確認(rèn)了判斷為是不正當(dāng)?shù)膱D像的674張圖像。其結(jié)果,得知在包含不正當(dāng)表現(xiàn)的圖像中有(I)不正當(dāng)單詞在視覺(jué)上顯眼的多、(2)不正當(dāng)單詞的出現(xiàn)頻度高、(3)在圖像內(nèi)包含多個(gè)不正當(dāng)單詞這樣的特征。基于這些想法,根據(jù)視覺(jué)性特征量計(jì)算圖像的得分值。另外,關(guān)于出現(xiàn)頻度等的想法,也反映在上述本發(fā)明的特征中。人在很多情況下無(wú)意識(shí)地將視線投向在周?chē)斓囊曈X(jué)刺激中具有不同的屬性的刺激。根據(jù) W3C 的 Techniques For Accessibility Evaluation And Repair Tools,明度差為125以上、顏色差為500以上是容易閱讀的顏色的組合??芍獮榱嗽诰W(wǎng)頁(yè)內(nèi)容制作中也設(shè)為容易閱讀的內(nèi)容,需要確保字符顏色與背景顏色的明度差、顏色差所導(dǎo)致的對(duì)比度。另夕卜,在稹等的研究中,根據(jù)使字符與背景的色彩分別變化為40種的1600樣本的評(píng)定結(jié)果,示出了配色的明度差與閱讀的容易度有很大關(guān)系。因此,為了使上述“不正當(dāng)單詞在視覺(jué)上顯眼的情況多”這樣想法反映到得分中,關(guān)注674張包含不正當(dāng)表現(xiàn)的樣本圖像內(nèi)的不正當(dāng)?shù)淖址c其它的圖像中包含的字符串的尺寸和對(duì)比度,并測(cè)量了分布。其結(jié)果,與圖像的尺寸無(wú)關(guān)地有如下傾向字符尺寸為30pt以上多用于標(biāo)題、目錄,20pt以下的字符尺寸多用于說(shuō)明文。另外,可知想要檢測(cè)的關(guān)鍵字是被設(shè)成標(biāo)題或使用對(duì)比度高且容易引人注目的顏色。根據(jù)這些想法,構(gòu)成了上述那樣的視覺(jué)性特征量的特征。但是,明度差的范圍以在W3C中定義的容易閱讀的明度差125、以及通過(guò)高本等的研究得到的對(duì)于白內(nèi)障的人而言感覺(jué)容易閱讀的“大致充分的境界”的158為基準(zhǔn)。另外,優(yōu)選如本實(shí)施方式這樣,根據(jù)多個(gè)關(guān)鍵字計(jì)算得分值。如上所述,根據(jù)該結(jié)構(gòu),能夠進(jìn)行AND檢索、OR檢索等對(duì)于多個(gè)檢索用的關(guān)鍵字的檢索,能夠進(jìn)行對(duì)用戶而言便利性更高的檢索。另外,優(yōu)選如本實(shí)施方式這樣,根據(jù)圖像中的關(guān)鍵字的出現(xiàn)率計(jì)算得分值。根據(jù)該結(jié)構(gòu),能夠輸出對(duì)用戶而言便利性更高的檢索結(jié)果。另外,優(yōu)選如本實(shí)施方式這樣,對(duì)于根據(jù)圖像得到的哈希值,將表示該圖像被使用 的Web站點(diǎn)的信息進(jìn)行對(duì)應(yīng),并根據(jù)該對(duì)應(yīng)來(lái)進(jìn)行輸出。如果是同一圖像,則哈希值成為一定范圍內(nèi)的值,因此在多個(gè)部位中利用的圖像能夠作為一個(gè)圖像進(jìn)行處理。因此,根據(jù)該結(jié)構(gòu),即使同一圖像在多個(gè)部位中被利用的情況下,也能夠有效地靈活利用檢索結(jié)果。即,能夠防止同一圖像作為檢索結(jié)果而排列,高效地發(fā)現(xiàn)用戶想要檢索的圖像。例如,能夠防止記載有由用戶檢索的關(guān)鍵字的同一圖像作為檢索結(jié)果而排列。但是,關(guān)于不設(shè)想上述那樣的事例的情況等,無(wú)需一定進(jìn)行使用了哈希值的信息的保存、輸出。在上述實(shí)施方式中,圖像檢索裝置10具備直至生成圖像檢索用的信息為止的處理、以及使用所生成的圖像檢索用的信息而實(shí)際進(jìn)行圖像檢索的處理這兩個(gè)處理。但是,僅進(jìn)行上述各個(gè)處理的裝置也可以作為本發(fā)明的裝置而分別構(gòu)成。即,其中的一個(gè)裝置是在上述功能中作為至少具備圖像數(shù)據(jù)庫(kù)11、字符串區(qū)域提取部13、字符候選識(shí)別部14、字符候選存儲(chǔ)部15、以及視覺(jué)性特征量計(jì)算部16的信息處理裝置的圖像檢索用信息生成裝置。另外,另一個(gè)裝置是在上述功能中作為至少具備字符候選存儲(chǔ)部15、檢索關(guān)鍵字輸入部17、檢索部18、以及輸出部19的信息處理裝置的圖像檢索裝置。另外,在本實(shí)施方式中,作為檢索對(duì)象的圖像以在網(wǎng)絡(luò)購(gòu)物商城銷(xiāo)售的商品的說(shuō)明圖像為例進(jìn)行了說(shuō)明,但在本發(fā)明中,檢索對(duì)象的圖像不限于上述目的的圖像,可以將任意的圖像設(shè)為檢索對(duì)象。例如,在作為被電子數(shù)據(jù)化的書(shū)本的對(duì)象而進(jìn)行檢索的情況下也能夠應(yīng)用。另外,本發(fā)明的圖像檢索的目的也不限于上述目的,可以對(duì)于任意的目的而使用。另外,在檢測(cè)不正當(dāng)?shù)膱D像的情況下,也可以使用上述基準(zhǔn)以外的基準(zhǔn)而進(jìn)行檢索。例如,在檢測(cè)以小的字符來(lái)表現(xiàn)的不正當(dāng)表現(xiàn)的情況下,也可以使用字符越小得分越高這樣的基準(zhǔn)。接下來(lái),說(shuō)明本發(fā)明的評(píng)價(jià)實(shí)驗(yàn)。本發(fā)明進(jìn)行了以下的評(píng)價(jià)實(shí)驗(yàn)。為了利用字符候選數(shù)N來(lái)評(píng)價(jià)圖像內(nèi)字符檢索的精度變化了何種程度,使字符候選數(shù)在I 60的范圍中每5個(gè)地變化,利用在包含不正當(dāng)表現(xiàn)的圖像中容易使用的以下的66個(gè)檢索關(guān)鍵字來(lái)進(jìn)行了圖像內(nèi)字符檢索。檢索關(guān)鍵字具體例如是白膚、細(xì)胞、發(fā)毛、抑毛、花粉癥、嫩膚、抗老化。在實(shí)驗(yàn)中,網(wǎng)絡(luò)購(gòu)物商城的管理者預(yù)先使用包含在“醫(yī)藥品 接觸 照顧類(lèi)別”內(nèi)檢測(cè)到的不正當(dāng)表現(xiàn)的樣本圖像,通過(guò)上述方案來(lái)識(shí)別圖像內(nèi)字符,得到識(shí)別結(jié)果。但是,作為字符類(lèi)別,利用包括英、數(shù)、記號(hào)、平假名、片假名、漢字(JIS第一標(biāo)準(zhǔn))的3410字符,并利用了為了制作辭典而在電子商店中較多地利用的“HGS創(chuàng)英角流行體” “HGP行書(shū)體” “MS哥特式”這3個(gè)字體。另外,將使用上述檢索關(guān)鍵字通過(guò)目視而計(jì)數(shù)的包含檢索關(guān)鍵字的圖像數(shù)(S)、與使字符候選數(shù)變化而得到的正解圖像數(shù)(T)、錯(cuò)誤地檢測(cè)到的圖像數(shù)(E)進(jìn)行比較,通過(guò)式(8)、(9)、(10)求出平均的再現(xiàn)率(Recall)、精確率(Precision)以及F值。Recal 1=T/S(8)Precision=T/(T+E)(9)F=(2 Recall Precision) (10)圖10示出表示字符候選數(shù)與上述值的關(guān)系的曲線圖。如圖10所示,通過(guò)增加字符候選,發(fā)現(xiàn)精確率下降且再現(xiàn)率上升的傾向,通過(guò)對(duì)字符識(shí)別結(jié)果進(jìn)行復(fù)用,可知能夠降低檢索遺漏。另外,在字符候選數(shù)在30附近F值穩(wěn)定,字符候選數(shù)為30以后,檢索性能的差變小,因此在本實(shí)施方式中的字符識(shí)別方案中可知,通過(guò)將字符候選利用到第30位為止,能夠得到良好的檢索結(jié)果。另外,在圖11的表中示出字符候選數(shù)30的情況下的檢索關(guān)鍵字的長(zhǎng)度與檢索精度的關(guān)系。如該表所示,在檢索關(guān)鍵字短的情況下,看到發(fā)生檢索錯(cuò)誤且精確率下降的傾向。這是因?yàn)橥ㄟ^(guò)增加字符候選數(shù),對(duì)被誤識(shí)別的字符識(shí)別結(jié)果進(jìn)行檢測(cè)的概率變高,能夠通過(guò)根據(jù)檢索關(guān)鍵字的長(zhǎng)度來(lái)調(diào)整字符候選數(shù),從而提高精確率。而且,雖然沒(méi)有發(fā)現(xiàn)再現(xiàn)率與檢索關(guān)鍵字的長(zhǎng)度的關(guān)聯(lián),但看到整體上再現(xiàn)率下降的傾向。這是因?yàn)樵跇颖緢D像中較多地包含配置成拱形形狀的字符串、斜體的字符、尺寸小這樣的、字符提取以及識(shí)別困難的事例。接下來(lái),為了確認(rèn)通過(guò)使用利用了字符識(shí)別可信度、圖像內(nèi)的字符串的視覺(jué)性特征、以及出現(xiàn)頻度的圖像得分,是否能夠高效地發(fā)現(xiàn)包含不正當(dāng)?shù)母怕矢叩脑谝曈X(jué)上顯眼的字符串的圖像,進(jìn)行了以下的實(shí)驗(yàn)。作為樣本圖像制作圖12所示的10種圖像來(lái)求出圖像得分。圖像內(nèi)的字符顏色利用#000000(顏色的書(shū)寫(xiě)是Web銷(xiāo)售彩色書(shū)寫(xiě)。以下同樣)的“MS哥特式”的字體,在(I)、(4)、(6) (10)中字符尺寸為30pt,(3)、(5)利用20pt,
(2)利用30pt和20pt這兩個(gè),在(I) (5)、(7)、(8)、(10)中將背景顏色設(shè)為#FFFFFF,在(6)、(9)中設(shè)為#666666。另外,對(duì)于“絕對(duì)痩姑^ ”和“絕對(duì)痩姑^ ”的各字符串的圖像的識(shí)別結(jié)果,在以“絕對(duì)痩#石”這一關(guān)鍵字進(jìn)行了檢索的情況下的字符識(shí)別可信度如在使用上述圖5的說(shuō)明中所示那樣,與字符尺寸無(wú)關(guān)地分別成為I. 00,0. 71。在圖13的表中示出使取得上述字符識(shí)別可信度與視覺(jué)性特征量的平衡的參數(shù)a在0.0 1.0中每0.2地變化而計(jì)算樣本圖像的得分而得到的結(jié)果。但是,在式(3)中將saliency (t)設(shè)為0. 0的情況下,上述視覺(jué)性特征量saliency (t)無(wú)法使圖像內(nèi)字符的視覺(jué)性的特征反映到得分中,因此在本實(shí)驗(yàn)中,將low設(shè)為0. 5,將high設(shè)為I. Ojfmedium設(shè)為作為其中間的值的0. 75。首先,在關(guān)注a為0. 0的情況時(shí),在圖像的得分中僅僅反映了字符識(shí)別可信度,因此能夠優(yōu)先提示檢索錯(cuò)誤少的結(jié)果的圖像。但是,字符識(shí)別可信度相同的(I) (3)和(6)成為相同的得分,在視覺(jué)上不顯眼的(6)有可能到上位。a是取字符識(shí)別可信度與視覺(jué)性特征量的平衡的參數(shù),因此使a的值越高,能夠越強(qiáng)地反映視覺(jué)性特征量。但是,在a為 0.6以上的情況下,不包含檢索關(guān)鍵字的(7)以及(10)的得分會(huì)分別超過(guò)包含相同數(shù)量的檢索關(guān)鍵字的¢)以及(5)的得分。因此,導(dǎo)致會(huì)顯示包含檢索結(jié)果的上位的檢索錯(cuò)誤的結(jié)果。同樣地,在比較(4)、(9)、(10)時(shí),在a為0.0的情況下⑷和(9)成為相同得分,在a為I. 0的情況下(4)和(10)成為相同得分。接下來(lái),在比較(I)、(7)、(8)時(shí),在a為I. 0以外的情況下,可知圖像中包含的檢索關(guān)鍵字越多,圖像得分越高。從這些結(jié)果,可確認(rèn)通過(guò)將a的值設(shè)定為0.2 0.4從而降低不包含檢索關(guān)鍵字的圖像的得分,另外根據(jù)視覺(jué)性特征量能夠?qū)z索結(jié)果良好地進(jìn)行分類(lèi)。這樣,不僅是字符識(shí)別可信度,而且還考慮字符串的視覺(jué)性特征量和出現(xiàn)頻度,從而相比于在包含相同數(shù)量的同一字符串的情況下用小的字符說(shuō)明的圖像,在標(biāo)題等用大的字符書(shū)寫(xiě)的圖像的情況下能夠提高得分。由此,能夠高效地發(fā)現(xiàn)在視覺(jué)上顯眼的同時(shí)包含不正當(dāng)?shù)母怕矢叩谋憩F(xiàn)的圖像。
接下來(lái),制作上述圖像檢索裝置10(圖像內(nèi)字符檢索系統(tǒng)),以實(shí)際在網(wǎng)絡(luò)購(gòu)物商城中利用的圖像為對(duì)象進(jìn)行了檢索時(shí)間的評(píng)價(jià)。所制作的系統(tǒng)是在Web服務(wù)器上動(dòng)作的網(wǎng)頁(yè)應(yīng)用程序。為了根據(jù)上述復(fù)用的識(shí)別結(jié)果高速地實(shí)現(xiàn)任意的字符串檢索而使用了Lucene (Apache項(xiàng)目所管理的全文檢索引擎)。在本系統(tǒng)中為了制作索引而使用利用了Lucene中安裝的N-gram的單詞分割A(yù)nalyzer (uni-gram),從直到第N位為止的字符識(shí)別候選的組合中進(jìn)行了任意單詞的檢索。但是,在制作索引時(shí)通過(guò)使Field具備根據(jù)字符顏色與背景顏色的對(duì)比度、以及字符尺寸求出的視覺(jué)性特征量,從而進(jìn)行與檢索關(guān)鍵字相應(yīng)的圖像得分的計(jì)算。為了進(jìn)行所開(kāi)發(fā)的圖像內(nèi)字符檢索系統(tǒng)的応答性能、檢索精度這樣的實(shí)用性的確認(rèn),對(duì)以下識(shí)別結(jié)果進(jìn)行了索引化以從實(shí)際的網(wǎng)絡(luò)購(gòu)物商城的“減肥 健康類(lèi)另IJ”,“醫(yī)藥品 接觸 照顧類(lèi)別”取得的567、667張圖像為對(duì)象預(yù)先進(jìn)行圖像內(nèi)的字符識(shí)別而得到的識(shí)別結(jié)果。利用通過(guò)標(biāo)準(zhǔn)的OS進(jìn)行動(dòng)作的標(biāo)準(zhǔn)的PC,在以下的條件下進(jìn)行了測(cè)定。圖像數(shù)567、667張索引尺寸(GB):2. 2(N=1)、2. 8(N=5)、3. 6(N=10)、4. 4(N=15)、5. 2(N=20)、6. 0 (N=25)、30(N=6. 8)在實(shí)驗(yàn)中,利用上述的與字符候選數(shù)N相應(yīng)的圖像內(nèi)字符檢索的精度變化的評(píng)價(jià)中使用的66個(gè)檢索關(guān)鍵字,使用字符候選數(shù)為I 30的索引確認(rèn)了針對(duì)字符候選數(shù)的檢索時(shí)間。圖14示出表示字符候選數(shù)與檢索時(shí)間的關(guān)系的曲線圖。如圖14所示,針對(duì)字符候選數(shù)的檢索時(shí)間以0(n)增加。同時(shí),標(biāo)準(zhǔn)偏差的值變大,由此可知根據(jù)關(guān)鍵字的長(zhǎng)度而發(fā)生探索時(shí)間的偏差。另外,在字符候選數(shù)30的情況下平均檢索時(shí)間也是約350毫秒,可知在感覺(jué)不到壓力這樣的意圖下能夠?qū)崿F(xiàn)充分經(jīng)得住實(shí)用的応答性能。但是,平均檢索時(shí)間是將上述66個(gè)關(guān)鍵字作為查詢而進(jìn)行了 10次檢索時(shí)的平均的時(shí)間。接下來(lái),對(duì)用于使計(jì)算機(jī)執(zhí)行進(jìn)行上述一系列的圖像檢索裝置10的圖像檢索的處理的信息處理程序進(jìn)行說(shuō)明。如圖15所示,信息處理程序41保存在插入到計(jì)算機(jī)而被訪問(wèn)的、或者計(jì)算機(jī)所具備的記錄介質(zhì)40中形成的程序保存區(qū)域40a內(nèi)。信息處理程序41具備總體控制圖像檢索處理的主模塊41a、圖像數(shù)據(jù)庫(kù)模塊41b、圖像登記模塊41c、字符串提取模塊41d、字符候選識(shí)別模塊41e、字符候選存儲(chǔ)模塊41f、視覺(jué)性特征量計(jì)算模塊41g、檢索關(guān)鍵字輸入模塊41h、檢索模塊41i、以及輸出模塊41j。通過(guò)執(zhí)行圖像數(shù)據(jù)庫(kù)模塊41b、圖像登記模塊41c、字符串區(qū)域提取模塊41d、字符候選識(shí)別模塊41e、字符候選存儲(chǔ)模塊41f 、視覺(jué)性特征量計(jì)算模塊41g、檢索關(guān)鍵字輸入模塊41h、檢索模塊41i、以及輸出模塊41j而實(shí)現(xiàn)的功能與上述圖像檢索裝置10的圖像數(shù)據(jù)庫(kù)11、圖像登記部12、字符串區(qū)域提取部13、字符候選識(shí)別部14、字符候選存儲(chǔ)部15、視覺(jué)性特征量計(jì)算部16、檢索關(guān)鍵字輸入部17、檢索部18、輸出部19的功能分別相同。另外,信息處理程序41也可以構(gòu)成為其一部分或全部通過(guò)通信線路等的傳送介質(zhì)而被傳送,并根據(jù)其它的機(jī)器接收并記錄(包括安裝)。另外,信息處理程序41的各模塊不限于安裝于一個(gè)計(jì)算機(jī)而是可以安裝于多個(gè)計(jì)算機(jī)中的任一個(gè)。在該情況下,由該多個(gè)計(jì)算機(jī)的計(jì)算機(jī)系統(tǒng)執(zhí)行進(jìn)行上述一系列的信息處理程序41的信息處理的處理。符號(hào)說(shuō)明10 :圖像檢索裝置;11 :圖像數(shù)據(jù)庫(kù);12 :圖像登記部;13 :字符串區(qū)域提取部;14 字符候選識(shí)別部;15 :字符候選存儲(chǔ)部;16 :視覺(jué)性特征量計(jì)算部;17 :檢索關(guān)鍵字輸入部; 18 :檢索部;19 :輸出部;30 :管理者終端;40 :記錄介質(zhì);40a :程序保存區(qū)域;41 :信息處理程序;41a :主模塊;41b :圖像數(shù)據(jù)庫(kù)模塊;41c :圖像登記模塊;41d :字符串區(qū)域提取模塊;41e :字符候選識(shí)別模塊;41f :字符候選存儲(chǔ)模塊;41g :視覺(jué)性特征量計(jì)算模塊;41h :檢索關(guān)鍵字輸入模塊;41i :檢索模塊;41j :輸出模塊。
權(quán)利要求
1.ー種信息處理裝置,其特征在于包括 圖像數(shù)據(jù)庫(kù),其保存檢索對(duì)象的圖像; 字符串區(qū)域提取單元,其提取保存于所述圖像數(shù)據(jù)庫(kù)的圖像中的包含字符串的字符串區(qū)域; 字符串識(shí)別單元,其對(duì)由所述字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串進(jìn)行識(shí)別;以及 視覺(jué)性特征量計(jì)算單元,其根據(jù)由所述字符串區(qū)域提取單元提取出的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成所述字符串的字符的大小、顔色、形狀及裝飾、以及字符顏色與背景顔色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。
2.根據(jù)權(quán)利要求I所述的信息處理裝置,其特征在干, 所述視覺(jué)性特征量計(jì)算單元計(jì)算構(gòu)成所述字符串的每個(gè)字符的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。
3.根據(jù)權(quán)利要求I或2所述的信息處理裝置,其特征在干, 所述視覺(jué)性特征量計(jì)算單元根據(jù)構(gòu)成所述字符串區(qū)域的字符串的像素的明度與構(gòu)成所述字符串區(qū)域的背景的像素的明度之差計(jì)算所述視覺(jué)性特征量。
4.根據(jù)權(quán)利要求3所述的信息處理裝置,其特征在干, 所述視覺(jué)性特征量計(jì)算單元將構(gòu)成所述字符串區(qū)域的字符串的像素的明度設(shè)為在該像素中最多的顔色的像素的明度,將構(gòu)成所述字符串區(qū)域的背景的像素的明度設(shè)為在該像素中最多的顏色的像素的明度。
5.根據(jù)權(quán)利要求I至4中的任意一項(xiàng)所述的信息處理裝置,其特征在干,該信息處理裝置還包括 檢索關(guān)鍵字輸入?yún)g元,其輸入檢索用的關(guān)鍵字; 檢索單元,其檢索由所述關(guān)鍵字輸入單元輸入的關(guān)鍵字是否與由所述字符串識(shí)別單元識(shí)別的字符串中的至少一部分一致,并且根據(jù)識(shí)別出一致的字符串的所述字符串區(qū)域的所述視覺(jué)性特征量計(jì)算包含該字符串的圖像的得分值;以及 輸出單元,其根據(jù)由所述檢索単元計(jì)算的得分值輸出所述檢索単元的檢索結(jié)果。
6.根據(jù)權(quán)利要求5所述的信息處理裝置,其特征在干, 所述檢索單元對(duì)由所述關(guān)鍵字輸入單元輸入的多個(gè)所述關(guān)鍵字計(jì)算所述得分值。
7.根據(jù)權(quán)利要求5或6所述的信息處理裝置,其特征在干, 所述檢索単元根據(jù)包含所述關(guān)鍵字的圖像相對(duì)于所述圖像數(shù)據(jù)庫(kù)所保存的圖像的比例而計(jì)算所述得分值。
8.根據(jù)權(quán)利要求5至7中的任意一項(xiàng)所述的信息處理裝置,其特征在干, 所述圖像數(shù)據(jù)庫(kù)以不包含多個(gè)同一圖像的方式保存檢索對(duì)象的圖像,并且將根據(jù)該圖像得到的哈希值和表示該圖像被利用的Web頁(yè)面的部位的信息對(duì)應(yīng)地進(jìn)行保存, 所述輸出單元輸出通過(guò)所述檢索單元的檢索得到的并且表示不包含多個(gè)同一圖像的圖像的信息、以及以與該圖像的哈希值對(duì)應(yīng)的方式保存在所述圖像數(shù)據(jù)庫(kù)中的表示該圖像被利用的部位的信息。
9.ー種圖像檢索方法,由包括保存檢索對(duì)象的圖像的圖像數(shù)據(jù)庫(kù)的信息處理裝置執(zhí)行,該圖像檢索方法包括 字符串區(qū)域提取步驟,提取保存于所述圖像數(shù)據(jù)庫(kù)的圖像中的包含字符串的字符串區(qū)域; 字符串識(shí)別步驟,對(duì)在所述字符串區(qū)域提取步驟中提取出的字符串區(qū)域所包含的字符串進(jìn)行識(shí)別;以及 視覺(jué)性特征量計(jì)算步驟,根據(jù)在所述字符串區(qū)域提取步驟中提取出的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成所述字符串的字符的大小、顔色、形狀及裝飾、以及字符顏色與背景顔色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。
10.一種計(jì)算機(jī)可讀取的記錄介質(zhì),其記錄了使ー個(gè)以上的計(jì)算機(jī)作為如下單元進(jìn)行工作的信息處理程序 圖像數(shù)據(jù)庫(kù),其保存檢索對(duì)象的圖像; 字符串區(qū)域提取單元,其提取保存于所述圖像數(shù)據(jù)庫(kù)的圖像中的包含字符串的字符串區(qū)域; 字符串識(shí)別單元,其對(duì)由所述字符串區(qū)域提取單元提取出的字符串區(qū)域所包含的字符串進(jìn)行識(shí)別;以及 視覺(jué)性特征量計(jì)算單元,其根據(jù)由所述字符串區(qū)域提取單元提取出的字符串區(qū)域的圖像,計(jì)算基于構(gòu)成所述字符串的字符的大小、顔色、形狀及裝飾、以及字符顏色與背景顔色的對(duì)比度中的至少任意一個(gè)的該字符串的視覺(jué)性特征量并進(jìn)行存儲(chǔ)。
全文摘要
在圖像中特征性地利用了檢索關(guān)鍵字的情況下使檢測(cè)容易。圖像檢索裝置(10)包括圖像數(shù)據(jù)庫(kù)(11),其保存檢索對(duì)象的圖像;字符串區(qū)域提取部(13),其提取圖像中的包含字符串的字符串區(qū)域;字符串候選識(shí)別部(14),其對(duì)字符串區(qū)域中包含的字符串進(jìn)行識(shí)別;視覺(jué)性特征量計(jì)算部(16),其根據(jù)字符串區(qū)域的圖像,計(jì)算基于構(gòu)成字符串的字符的大小、顏色、形狀及裝飾、以及字符顏色與背景顏色的對(duì)比度中的任一個(gè)的該字符串的視覺(jué)性特征量;檢索關(guān)鍵字輸入部(17),其輸入檢索用的關(guān)鍵字;檢索部(18),其檢索關(guān)鍵字是否與由圖像識(shí)別的字符串一致,并且根據(jù)根據(jù)識(shí)別了一致的字符串的字符串區(qū)域計(jì)算的所述視覺(jué)性特征量計(jì)算包含該字符串的圖像的得分值;輸出部(19),其根據(jù)計(jì)算的得分值輸出檢索的結(jié)果。
文檔編號(hào)G06F17/30GK102782680SQ20118001055
公開(kāi)日2012年11月14日 申請(qǐng)日期2011年2月28日 優(yōu)先權(quán)日2010年2月26日
發(fā)明者益子宗 申請(qǐng)人:樂(lè)天株式會(huì)社