挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明涉及一種挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備。挖掘圖片中的主題關(guān)鍵詞的方法包括:初始檢索詞識(shí)別步驟,識(shí)別圖片中的關(guān)鍵詞作為初始的檢索詞;候選關(guān)鍵詞提取步驟,利用檢索詞檢索與圖片相關(guān)的主題網(wǎng)頁(yè)以從中提取候選關(guān)鍵詞;檢索詞選擇步驟,根據(jù)候選關(guān)鍵詞和搜索候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的候選關(guān)鍵詞提取步驟所用的檢索詞;以及重復(fù)候選關(guān)鍵詞提取步驟和檢索詞選擇步驟直到滿足預(yù)定條件。
【專利說明】挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理領(lǐng)域,具體涉及挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備。
【背景技術(shù)】
[0002]圖片中的文字往往對(duì)了解該圖片的內(nèi)容非常重要。例如,廣告圖片中文本信息對(duì)客戶了解廣告內(nèi)容具有重要作用。利用字符識(shí)別(例如,OCR識(shí)別)的結(jié)果和網(wǎng)絡(luò)信息可以更加全面地提取廣告的文本內(nèi)容,通過挖掘這些信息并提取廣告的主題,將向客戶推薦其擴(kuò)展應(yīng)用或服務(wù)。
[0003]由于字符識(shí)別技術(shù)不能鎖定代表圖片(例如,廣告圖片)主題的關(guān)鍵詞,所以借助互聯(lián)網(wǎng)大量的文本信息,驗(yàn)證并提取廣告圖像中的文本。使用字符識(shí)別結(jié)果中關(guān)鍵詞檢索,文本聚類和匹配等數(shù)據(jù)挖掘手段,可獲取和廣告相關(guān)的主題網(wǎng)頁(yè)(檢索的網(wǎng)頁(yè)和廣告本身都表達(dá)一個(gè)內(nèi)容)。然而由于字符識(shí)別結(jié)果的具有一定不完整性或不正確性,導(dǎo)致部分關(guān)鍵詞檢索出的網(wǎng)頁(yè)可能具有發(fā)散性,生成噪音數(shù)據(jù),而且如果關(guān)鍵詞搜索的網(wǎng)頁(yè)發(fā)散,其輸入的關(guān)鍵詞的正確識(shí)別結(jié)果將被丟棄,不能召回。
[0004]因此,需要一種能夠解決上述問題的技術(shù)。
【發(fā)明內(nèi)容】
[0005]在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0006]本發(fā)明的一個(gè)主要目的在于,提供一種挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種挖掘圖片中的主題關(guān)鍵詞的方法包括:初始檢索詞識(shí)別步驟,識(shí)別圖片中的關(guān)鍵詞作為初始的檢索詞;候選關(guān)鍵詞提取步驟,利用檢索詞檢索與圖片相關(guān)的主題網(wǎng)頁(yè)以從中提取候選關(guān)鍵詞;檢索詞選擇步驟,根據(jù)候選關(guān)鍵詞和搜索候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的候選關(guān)鍵詞提取步驟所用的檢索詞;以及重復(fù)候選關(guān)鍵詞提取步驟和檢索詞選擇步驟直到滿足預(yù)定條件。
[0008]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種挖掘圖片中的主題關(guān)鍵詞的設(shè)備,包括:初始檢索詞識(shí)別模塊,被配置用于識(shí)別圖片中的關(guān)鍵詞作為初始的檢索詞;候選關(guān)鍵詞提取模塊,被配置用于利用檢索詞搜索與圖片相關(guān)的主題網(wǎng)頁(yè)以從中提取候選關(guān)鍵詞;檢索詞選擇模塊,被配置用于根據(jù)候選關(guān)鍵詞和搜索候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為候選關(guān)鍵詞提取模塊下次搜索候選關(guān)鍵詞所用的檢索詞;以及控制模塊,被配置用于控制候選關(guān)鍵詞提取模塊和檢索詞選擇模塊循環(huán)操作直到滿足預(yù)定條件。
[0009]另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。[0010]此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0011]通過以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。
【專利附圖】
【附圖說明】
[0012]參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0013]圖1是示出根據(jù)本發(fā)明實(shí)施例的挖掘圖片中的主題關(guān)鍵詞的方法的流程圖;
[0014]圖2是示出根據(jù)本發(fā)明的一個(gè)示例的挖掘圖片中的主題關(guān)鍵詞的方法的示意圖;
[0015]圖3是示出通過特征融合來選擇候選關(guān)鍵詞的示意圖;
[0016]圖4是示出根據(jù)本發(fā)明的圖片的一個(gè)示例;
[0017]圖5是示出根據(jù)本發(fā)明的搜索網(wǎng)頁(yè)的一個(gè)示例;
[0018]圖6是不出檢索詞和候選關(guān)鍵詞的鏈接關(guān)系的不意圖;
[0019]圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的挖掘圖片中的主題關(guān)鍵詞的設(shè)備的框圖;
[0020]圖8是示出檢索詞選擇模塊的配置的框圖;
[0021]圖9是示出根據(jù)本發(fā)明的另一個(gè)實(shí)施例的挖掘圖片中的主題關(guān)鍵詞的設(shè)備的框圖;
[0022]圖10是示出候選關(guān)鍵詞提取模塊的配置的框圖;以及
[0023]圖11是示出可以用于實(shí)施本發(fā)明的挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備的計(jì)算設(shè)備的舉例的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0024]下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。
[0025]圖1是示出根據(jù)本發(fā)明實(shí)施例的挖掘圖片中的主題關(guān)鍵詞的方法100的流程圖。
[0026]如圖1所示,在步驟S102中,可以識(shí)別圖片中的關(guān)鍵詞作為初始的檢索詞。例如,可以通過OCR (Optical Character Recognition)方法來識(shí)別圖片中的關(guān)鍵詞。但是字符識(shí)別方法不限于此,而可以采用任意適當(dāng)?shù)淖址R(shí)別方法。圖片可以是任意需要處理的圖片,例如,廣告圖片、從視頻中截取的圖片或任意其他圖片。
[0027]在步驟S104中,可以利用檢索詞檢索與圖片相關(guān)的主題網(wǎng)頁(yè)以從中提取候選關(guān)鍵詞。
[0028]在步驟S106中,可以根據(jù)候選關(guān)鍵詞和搜索候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的候選關(guān)鍵詞提取步驟所用的檢索詞。例如,可以優(yōu)先選擇被更多檢索詞檢索到的候選關(guān)鍵詞作為下次的候選關(guān)鍵詞提取步驟所用的檢索詞。[0029]在步驟S108中,判斷預(yù)定的條件是否被滿足。
[0030]如果在步驟S108中判斷預(yù)定的條件不被滿足,則返回步驟S104。
[0031]如果在步驟S108中判斷預(yù)定的條件被滿足,則結(jié)束流程。
[0032]此處所說的預(yù)定的條件可以為任意適當(dāng)?shù)臈l件,包括但不限于預(yù)定的收斂條件、預(yù)定的循環(huán)次數(shù)或其結(jié)合等。
[0033]在執(zhí)行檢索詞選擇步驟S106時(shí),還可以利用從圖片中識(shí)別的關(guān)鍵詞和候選關(guān)鍵詞之間的相似度。例如,可以根據(jù)從圖片中識(shí)別的關(guān)鍵詞和候選關(guān)鍵詞之間的相似度以及根據(jù)候選關(guān)鍵詞和搜索候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的候選關(guān)鍵詞提取步驟S104所用的檢索詞。
[0034]以下將參照?qǐng)D2來描述根據(jù)本發(fā)明的一個(gè)示例的挖掘圖片中的主題關(guān)鍵詞的框架流程200。
[0035]首先,在步驟S202中,通過適當(dāng)?shù)奈谋咀R(shí)別方法如OCR (Optical CharacterRecognition)文本識(shí)別方法來識(shí)別圖片中的字符。
[0036]接著,在步驟S204-1中,從識(shí)別的字符中提取圖片中的關(guān)鍵詞(以下稱為從圖片中識(shí)別的關(guān)鍵詞)。最初,該從圖片中識(shí)別的關(guān)鍵詞將被直接用作步驟S206和步驟S208中的結(jié)果,即作為步驟S210中的初始的檢索詞的一部分。
[0037]此外,可以在步驟S204-2中從識(shí)別出的字符中提取實(shí)體名稱,實(shí)體名稱可以包括人名、地名、機(jī)構(gòu)名、時(shí)間、數(shù)量以及其他自定義的實(shí)體名稱,如圖片中出現(xiàn)的商標(biāo)名等。由于這些實(shí)體名稱對(duì)搜索相關(guān)網(wǎng)頁(yè)具有重要指示作用,所以在步驟S210中,利用在步驟S204-2中提取的實(shí)體名稱以及在步驟S204-1中提取的OCR關(guān)鍵詞的組合形式來生成檢索詞。換句話說,在步驟S210中生成的檢索詞的形式可以是一個(gè)關(guān)鍵詞和一個(gè)或多個(gè)實(shí)體名稱的結(jié)合。但實(shí)際上,檢索詞的形式不限于此。例如,檢索詞可以只包括一個(gè)或多個(gè)關(guān)鍵詞,而不包括實(shí)體名稱。
[0038]接著,在步驟S212中,將步驟S210中生成的檢索詞放入搜索引擎中檢索。
[0039]在步驟S214中利用文本聚類和并在步驟S216中通過文本匹配方式提取主題網(wǎng)頁(yè)。
[0040]具體而言,文本聚類是對(duì)搜索出的網(wǎng)頁(yè)進(jìn)行聚類,這是因?yàn)榭梢跃垲惖木W(wǎng)頁(yè)更有可能描述與圖片相關(guān)的主題。
[0041]此外,盡管聚類的網(wǎng)頁(yè)彼此之間比較相似,然而不能保證這些網(wǎng)頁(yè)都描述與圖片相關(guān)的主題。例如,如果輸入實(shí)體名稱:人名、地名和機(jī)構(gòu)名等,則聚類的網(wǎng)頁(yè)可能僅描述所述輸入實(shí)體名稱的詳細(xì)信息,而非描述與圖片相關(guān)的主題。例如,參照?qǐng)D4中的圖片,如果以“銀行”為檢索詞來搜索網(wǎng)頁(yè)并執(zhí)行聚類,則聚類的網(wǎng)頁(yè)可能僅描述了“銀行”,而非描述與圖片相關(guān)的主題“咖啡”。因此,在步驟S216中,以文本匹配方式進(jìn)一步挖掘描述與圖片相關(guān)的主題網(wǎng)頁(yè)。具體而言,在步驟S216中,在步驟S214的文本聚類的基礎(chǔ)上,將每個(gè)網(wǎng)頁(yè)和該圖片的OCR識(shí)別結(jié)果做匹配計(jì)算。
[0042]接著,在步驟S218中,按照文本匹配的分值對(duì)網(wǎng)頁(yè)進(jìn)行排序,來選擇描述與圖片相關(guān)的主題的網(wǎng)頁(yè),即主題網(wǎng)頁(yè)。
[0043]盡管描述了通過文本聚類和文本匹配來得到主題網(wǎng)頁(yè),但是應(yīng)當(dāng)理解到,此處可以不執(zhí)行文本聚類和文本匹配而直接使用搜索到的網(wǎng)頁(yè)來執(zhí)行之后的步驟,或者可以僅執(zhí)行文本聚類和文本匹配中的一個(gè)來進(jìn)行網(wǎng)頁(yè)篩選。
[0044]接著,在步驟S220中,判斷預(yù)定條件是否被滿足。此處所說的預(yù)定條件可以為任意適當(dāng)?shù)臈l件,包括但不限于預(yù)定的收斂條件、預(yù)定的循環(huán)次數(shù)或其結(jié)合等。
[0045]如果在步驟S220中判斷出預(yù)定條件未被滿足,則前進(jìn)到步驟S206。
[0046]在步驟S206中,根據(jù)主題網(wǎng)頁(yè)中的字符與從圖片中識(shí)別的關(guān)鍵詞之間的相似度從主題網(wǎng)頁(yè)中提取候選關(guān)鍵詞。優(yōu)選地,可以根據(jù)稍后描述的特定編輯距離公式并通過多項(xiàng)特征融合的方式來計(jì)算相似度。
[0047]在步驟S208中,可以根據(jù)候選關(guān)鍵詞和搜索該候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系從候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞。例如,可以優(yōu)先選擇被更多檢索詞檢索到的一個(gè)或多個(gè)候選關(guān)鍵詞作為隨后的檢索詞或檢索詞的一部分(另一部分可以是實(shí)體名稱),稍后將詳細(xì)描述。
[0048]例如,可以將被最多檢索詞檢索到的候選關(guān)鍵詞和實(shí)體名稱組合生成下一次執(zhí)行步驟S210時(shí)所用的檢索詞。
[0049]接下來執(zhí)行步驟S212至步驟S220。如果在步驟S220中判斷出預(yù)定條件未被滿足,則再次前進(jìn)到步驟S206。當(dāng)在步驟S220中判斷出預(yù)定條件被滿足時(shí),例如,當(dāng)關(guān)鍵詞滿足預(yù)定條件時(shí),結(jié)束流程。在此處,該預(yù)定條件可以是人工方式設(shè)定閾值。
[0050]接下來,將描述從圖片中識(shí)別出的關(guān)鍵詞與候選關(guān)鍵詞之間的相似度的計(jì)算。相似度的計(jì)算涉及編輯距離以及多特征選擇和融合。
[0051]首先描述基于在圖片中識(shí)別出的關(guān)鍵詞的置信度的編輯距離計(jì)算方法。
[0052]因?yàn)樽址R(shí)別算法可能不是完全準(zhǔn)確,例如,字符識(shí)別出現(xiàn)錯(cuò)誤、噪音等問題,所以可以采用編輯距離算法提取從圖片中識(shí)別的關(guān)鍵詞(即,初始的檢索詞或初始的檢索詞的一部分)。編輯距離的計(jì)算是以動(dòng)態(tài)規(guī)劃方式尋找當(dāng)前最小編輯代價(jià)來實(shí)現(xiàn)的。編輯代價(jià)包括三種:增加一個(gè)字符所花費(fèi)的代價(jià),刪除一個(gè)字符所花費(fèi)的代價(jià),以及替換一個(gè)字符所花費(fèi)的代價(jià)。
[0053]在本發(fā)明的一個(gè)實(shí)施例中,對(duì)一般的編輯距離算法進(jìn)行了改進(jìn)。
[0054]由于字符識(shí)別的每個(gè)字符都具有置信度。置信度的值表示字符識(shí)別的準(zhǔn)確率。置信度越高,說明字符識(shí)別越準(zhǔn)確。因此,在本發(fā)明中,修改了編輯代價(jià)函數(shù),即,將每個(gè)字符的替換函數(shù)變換成字符的置信度。
[0055]假設(shè)從圖片中識(shí)別的關(guān)鍵詞字符串為0=01;02,……,Om和對(duì)應(yīng)的候選關(guān)鍵詞字符串為C=C1, C2,……,Cn,那么從字符串O到字符串C的編輯距離δ (O, C)如下:
[0056]δ (O, C) =min { Y ⑶ I S 為 O 到 C 的編輯序列}(I)
[0057]上述公式可遞歸定義如下:
[0058]δ((\=t,(l ,Umnjkknce(Oi)(2)
(, j, i [ ,) + /(£ —> (,)
[0059]y⑶表示編輯序列S的代價(jià)函數(shù),ε表示空串,Y (Oi — ε)表示刪除字符Oi,修改的替換代價(jià)變?yōu)橹眯哦戎礳onfidence (Oi)。
[0060]圖4是示出根據(jù)本發(fā)明的圖片的示例。
[0061]圖4中的圖片為一廣告圖片。從該圖片中識(shí)別的關(guān)鍵詞之一“枷I的午后”的每個(gè)字符(“枷”,“1”,“的”,“午”,“后”,“,”)都具有置信度。具體如下:“枷I的午后,”整體的置信度為0.8827,“枷”的置信度為0.3346,“I”的置信度為“0.7777”,“的”的置信度為
0.8571,“午,,的置信度為“0.9577”,“后”的置信度為0.9417,“,”的置信度為“-1.0000,,。
[0062]該關(guān)鍵詞的和候選關(guān)鍵詞的編輯距離如下:
[0063]Edit(i,j)表示O中[0....1]的子串Oi到C中[0....j]的子串Cj的編輯距離,f(i, j)表示O中第i個(gè)字符O (i)轉(zhuǎn)換到C中第j個(gè)字符C(j)所需要的操作代價(jià),如果O (i) =C (j),則不需要任何操作f(i,j)=0 ;否則,需要替換操作,f(i, j) =Conf (i,j)。
[0064]如果i=0 且 j=0,貝丨J edit (O, O) =1
[0065]如果i=0 且 j>0,貝丨J edit (O, j) =edit (0, j_l) +1
[0066]如果i>0 且 j=0, edit (i, 0) =edit (1-1, 0) +1
[0067]如果i>0 且 j>0,則 edit (i, j) =min (edit (1-1, j) +1, edit (i, j_l) +1, edit (1-1, j-l)+conf (i, j))
[0068]以下描述多特征選擇和融合。圖3是示出通過特征融合來選擇候選關(guān)鍵詞的示意圖。
[0069]從圖片中識(shí)別的關(guān)鍵詞和主題網(wǎng)頁(yè)的特征對(duì)候選關(guān)鍵詞的選擇具有重要作用,其特征如圖3所示。
[0070]可以采用特征融合的方式來計(jì)算從圖片中識(shí)別出的關(guān)鍵詞O與候選關(guān)鍵詞C之間相似度Sim (0,C),如下:
[0071]Sim (O, C) = a ^1+ a 2f2+......+ a nfn(3)
[0072]其中,Q1, a2,……,%為特征的參數(shù),^2,……,fn為可以選擇的特征,0為從圖片中識(shí)別出的關(guān)鍵詞,C為候選關(guān)鍵詞。
[0073]其中,特征f\,f2,......,fn可以包括以下各項(xiàng)中的至少一項(xiàng):從圖片中識(shí)別的關(guān)鍵
詞的大小、候選關(guān)鍵詞在相應(yīng)文本中的位置、候選關(guān)鍵詞和從圖片中識(shí)別的關(guān)鍵詞的公共子串、從圖片中識(shí)別的關(guān)鍵詞在圖片中的幾何距離、候選關(guān)鍵詞在相應(yīng)文本中的互信息、以及從圖片中識(shí)別的關(guān)鍵詞和候選關(guān)鍵詞之間的編輯距離。
[0074]從圖片中識(shí)別的關(guān)鍵詞的大小說明信息重要性。從圖片中識(shí)別的關(guān)鍵詞越大則越能說明圖片本身想呈現(xiàn)給用戶的信息,就越能表示該圖片的意思。例如,可以通過下式(4)把從圖片中識(shí)別的關(guān)鍵詞的大小歸一化作為上述特征之一。
[0075]Normalizaikmi =———— (4)
Max(Size)
[0076]其中,Normalizationi表示從圖片中識(shí)別的第i個(gè)關(guān)鍵詞的歸一化的大小,Sizei表不未歸一化的第i個(gè)關(guān)鍵詞的大小,Max(Size)表不最大的那個(gè)關(guān)鍵詞的大小。
[0077]本領(lǐng)域技術(shù)人員可以理解到,不一定執(zhí)行歸一化,而可以直接使用關(guān)鍵詞的大小。
[0078]候選關(guān)鍵詞是來自網(wǎng)頁(yè)內(nèi)容文本,而其所在的位置具有不同的權(quán)重,如標(biāo)題、摘要、內(nèi)容具有不同的權(quán)重意義,所以候選關(guān)鍵詞所在文中的位置是一個(gè)關(guān)鍵特征。
[0079]候選關(guān)鍵詞C和從圖片中識(shí)別的關(guān)鍵詞O的公共子串表示從網(wǎng)頁(yè)中提取的候選關(guān)鍵詞C與從圖片中識(shí)別的關(guān)鍵詞O的相似程度。所以公共子串的多少也影響了選擇所候選的關(guān)鍵詞的可信度。
[0080]圖片圖像的文字排版其實(shí)說明了圖片的重要信息的匹配依賴程度。從幾何角度,圖片圖像的多個(gè)字符排列緊密說明它們是在表示同一個(gè)意義,或者在補(bǔ)充說明一個(gè)活動(dòng)和產(chǎn)品的特性,因此文本中多個(gè)字符的共現(xiàn)程度更能詳細(xì)解釋圖片的信息,使用字符識(shí)別的坐標(biāo)信息來提取多個(gè)字符相互之間的歐式距離的特征如下:
[0081]
【權(quán)利要求】
1.一種挖掘圖片中的主題關(guān)鍵詞的方法,包括: 初始檢索詞識(shí)別步驟,識(shí)別所述圖片中的關(guān)鍵詞作為初始的檢索詞; 候選關(guān)鍵詞提取步驟,利用所述檢索詞檢索與所述圖片相關(guān)的主題網(wǎng)頁(yè)以從中提取候選關(guān)鍵詞; 檢索詞選擇步驟,根據(jù)所述候選關(guān)鍵詞和搜索所述候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從所述候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞;以及 重復(fù)所述候選關(guān)鍵詞提取步驟和所述檢索詞選擇步驟直到滿足預(yù)定條件。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述檢索詞選擇步驟包括: 根據(jù)從所述圖片中識(shí)別的關(guān)鍵詞和所述候選關(guān)鍵詞之間的相似度以及根據(jù)所述候選關(guān)鍵詞和搜索所述候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從所述候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述根據(jù)所述候選關(guān)鍵詞和搜索所述候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系從所述候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞包括:在從所述候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞時(shí),優(yōu)先選擇被更多檢索詞檢索到的候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述優(yōu)先選擇被更多檢索詞檢索到的候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞包括: 計(jì)算每個(gè)所述候選關(guān)鍵詞C的詞匯得分PR(C),PR(C) = {l-d) + d\++…+,其中,Si是檢索所述候選關(guān)鍵詞C所利用的第i個(gè)檢索詞,PR(Si)是檢索詞Si的詞匯得分,O(Si)是利用所述檢索詞Si進(jìn)行檢索所產(chǎn)生的候選關(guān)鍵詞的個(gè)數(shù),其中,i = 1,2,……,n,d是阻尼系數(shù);以及 所述候選關(guān)鍵詞C的詞匯得分PR(C)越高,越優(yōu)先選擇所述候選關(guān)鍵詞C作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞。
5.根據(jù)權(quán)利要求3所述的方法,其中,所述優(yōu)先選擇被更多檢索詞檢索到的候選關(guān)鍵詞作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞包括: 計(jì)算每個(gè)所述候選關(guān)鍵詞C的詞匯得分PR (C),PR (C) = (l-d)+d (P(Sn) X PR (S1)+P (S2^c) XPR(S2)+~+P(Sn—c) XPR(Sn)), 其中,P(SiM)是通過檢索詞Si產(chǎn)生候選關(guān)鍵詞C的概率,PR(Si)是檢索詞Si的詞匯得分,其中,i = l,2,……n,d是阻尼系數(shù), 苴中 P(iV "、J X?, Sim(()k, ( , ) X Pr ob{(,) + m 其中,Ok表示從所述圖片中識(shí)別的關(guān)鍵詞,Cf表示與Ok做計(jì)算的候選關(guān)鍵詞,S’m(m)表示Ok與Cf之間的相似度,Pr婊示出現(xiàn)的概率, 所述候選關(guān)鍵詞C的詞匯得分PR(C)越高,越優(yōu)先選擇所述候選關(guān)鍵詞C作為下次的所述候選關(guān)鍵詞提取步驟所用的檢索詞。
6.根據(jù)權(quán)利要求2或5所述的方法,其中,根據(jù)從所述圖片中識(shí)別的關(guān)鍵詞和所述候選關(guān)鍵詞的特征來計(jì)算所述相似度。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述特征包括以下各項(xiàng)中的至少一項(xiàng):從所述圖片中識(shí)別的關(guān)鍵詞的大小、所述候選關(guān)鍵詞在相應(yīng)文本中的位置、所述候選關(guān)鍵詞和從所述圖片中識(shí)別的關(guān)鍵詞的公共子串、從所述圖片中識(shí)別的關(guān)鍵詞在所述圖片中的幾何距離、所述候選關(guān)鍵詞在相應(yīng)文本中的互信息、以及從所述圖片中識(shí)別的關(guān)鍵詞和所述候選關(guān)鍵詞之間的編輯距離。
8.根據(jù)權(quán)利要求7所述的方法,其中,根據(jù)從所述圖片中識(shí)別的關(guān)鍵詞的置信度來計(jì)算所述編輯距離中的字符替換的代價(jià)。
9.根據(jù)權(quán)利要求1所述的方法,其中,所述候選關(guān)鍵詞提取步驟包括: 對(duì)通過所述檢索詞搜索到的網(wǎng)頁(yè)和所述圖片的識(shí)別結(jié)果進(jìn)行文本匹配; 根據(jù)文本匹配結(jié)果從搜索到的網(wǎng)頁(yè)中選擇與所述圖片相關(guān)的主題網(wǎng)頁(yè);以及 從所述主題網(wǎng)頁(yè)中提取所述候選關(guān)鍵詞。
10.一種挖掘圖片中的主題關(guān)鍵詞的設(shè)備,包括: 初始檢索詞識(shí)別模塊,被配置用于識(shí)別所述圖片中的關(guān)鍵詞作為初始的檢索詞;候選關(guān)鍵詞提取模塊,被配置用于利用所述檢索詞搜索與所述圖片相關(guān)的主題網(wǎng)頁(yè)以從中提取候選關(guān)鍵詞; 檢索詞選擇模塊,被配置用于根據(jù)所述候選關(guān)鍵詞和搜索所述候選關(guān)鍵詞所用的檢索詞之間的鏈接關(guān)系,從所述候選關(guān)鍵詞中選擇一部分候選關(guān)鍵詞作為所述候選關(guān)鍵詞提取模塊下次搜索所述候選關(guān)鍵詞`所用的檢索詞;以及 控制模塊,被配置用于控制所述候選關(guān)鍵詞提取模塊和所述檢索詞選擇模塊循環(huán)操作直到滿足預(yù)定條件。
【文檔編號(hào)】G06F17/30GK103544186SQ201210246688
【公開日】2014年1月29日 申請(qǐng)日期:2012年7月16日 優(yōu)先權(quán)日:2012年7月16日
【發(fā)明者】孫健, 夏迎炬, 潘屹峰, 葛付江, 楊宇航, 張明明, 陳思源, 何源, 孫俊, 于浩 申請(qǐng)人:富士通株式會(huì)社