一種確定圖片簇描述文本核心詞的方法及裝置制造方法
【專利摘要】本發(fā)明提供一種確定圖片簇描述文本核心詞的方法及裝置,解決現(xiàn)有核心詞確定不準(zhǔn)確的問題。該方法針對圖片簇中每個圖片描述文本構(gòu)成的文本簇,對文本簇中的每個圖片描述文本進行切詞,根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值及每個基礎(chǔ)詞在文本簇中的總分數(shù)值,從而確定圖片簇的核心詞。由于在本發(fā)明實施例中針對圖片簇中每個圖片描述文本構(gòu)成的文本簇,根據(jù)每個圖片描述文本中的基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞的在每個圖片描述文本中的權(quán)值,從而確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值,根據(jù)每個基礎(chǔ)詞的總分數(shù)值確定圖片簇的核心詞,從而可以保證選擇出的核心詞能準(zhǔn)確描述圖片簇的語意。
【專利說明】—種確定圖片簇描述文本核心詞的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)通信【技術(shù)領(lǐng)域】,尤其涉及一種確定圖片簇描述文本核心詞的方法
及裝置。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中搜索引擎依據(jù)網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛抓取互聯(lián)網(wǎng)上的各個頁面,針對每個頁面的描述文本,可以確定每個頁面的核心詞。
[0003]但是,當(dāng)搜索引擎抓取到的海量圖片做相似度識別后會發(fā)現(xiàn)很多一組一組的相似圖片,其中,每張圖片都有源網(wǎng)頁上自身的不完全相同的圖片描述文本,同時也有可能是描述不實的圖片描述文本。這樣要確定圖片對應(yīng)其內(nèi)容的真實的圖片描述文本或核心詞就異常困難,對于不斷更新的海量圖片全部通過人工標(biāo)注的方式也是不現(xiàn)實的。另外,因為圖片描述文本一般包含的字節(jié)數(shù)較少,并且其中還可能包含很多與圖片不相關(guān)的干擾信息,從而無法從中確定較準(zhǔn)確的核心詞,也為確定與圖片真實匹配的核心詞或描述文本造成了極大的困難。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的一種確定圖片簇描述文本核心詞的方法及裝置。
[0005]本發(fā)明實施例提供一種確定圖片簇描述文本核心詞的方法,該方法包括:
[0006]針對每個圖片簇,提取該圖片簇中每個圖片的圖片描述文本,將每個所述圖片描述文本保存在文本簇中;
[0007]對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎(chǔ)詞;
[0008]根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值,并確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值;
[0009]根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值;
[0010]根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定該圖片簇的核心詞。
[0011]較佳地,為了準(zhǔn)確的確定出每個圖片簇的核心詞,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值之后,所述方法還包括:
[0012]根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值;
[0013]根據(jù)每個圖片描述文本的總得分值,刪除設(shè)定數(shù)量的圖片描述文本;
[0014]判斷刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中包含的圖片描述文本的數(shù)量是否達到設(shè)定的收斂閾值;
[0015]當(dāng)該文本簇中包含的圖片描述文本的數(shù)量達到設(shè)定的收斂閾值時,在該文本簇中確定該圖片簇的核心詞,否則,重新確定該文本簇中剩余的每個圖片描述文本的總得分值直至確定出圖片簇的核心詞。
[0016]較佳地,在本發(fā)明實施例中為了更加準(zhǔn)確的確定圖片簇的核心詞。所述確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值之前,所述方法還包括下述至少一個步驟:
[0017]對切詞處理后的基礎(chǔ)詞進行去噪聲處理;和
[0018]對文本簇中每個圖片描述文本進行去噪聲處理。
[0019]較佳地,在本發(fā)明實施例中為了更加準(zhǔn)確的確定文本簇的核心詞。所述對切詞處理后的基礎(chǔ)詞進行去噪聲處理包括:
[0020]將切詞后得到的每個基礎(chǔ)詞與保存的無意義詞庫中的每個詞進行匹配;
[0021]當(dāng)匹配成功時,確定該基礎(chǔ)詞為無意義詞,將該基礎(chǔ)詞刪除。
[0022]較佳地,在本發(fā)明實施例中為了更加準(zhǔn)確的確定圖片簇的核心詞。所述對文本簇中每個圖片描述文本進行去噪聲處理包括以下至少一個處理步驟:
[0023]判斷每個圖片描述文本是否滿足設(shè)定的過濾條件;當(dāng)該圖片描述文本滿足設(shè)定的過濾條件時,將該圖片描述文本刪除;和
[0024]將每兩個圖片描述文本進行比較,按照該兩個圖片描述文本基礎(chǔ)詞的順序,判斷該兩個圖片描述文本中出現(xiàn)相同基礎(chǔ)詞的數(shù)量是否達到設(shè)定的數(shù)量閾值;當(dāng)該兩個圖片描述文本中出現(xiàn)相同基礎(chǔ)詞的數(shù)量達到設(shè)定的數(shù)量閾值時,刪除該兩個圖片描述文本中的一個圖片描述文本。
[0025]較佳地,在本發(fā)明實施例中為了準(zhǔn)確的確定圖片簇的核心詞。所述確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值包括:
[0026]根據(jù)統(tǒng)計的每個基礎(chǔ)詞的頻度,確定該基礎(chǔ)詞的基礎(chǔ)值;
[0027]根據(jù)該基礎(chǔ)詞在圖片描述文本中出現(xiàn)的位置,及設(shè)置的每個位置對應(yīng)的位置權(quán)重值,確定每個基礎(chǔ)詞的位置值;
[0028]根據(jù)該基礎(chǔ)詞包含的字節(jié)數(shù),及設(shè)置的每種基礎(chǔ)詞長度對應(yīng)的長度權(quán)重值,確定該基礎(chǔ)詞的長度值;
[0029]根據(jù)該基礎(chǔ)詞的詞性,及設(shè)置的每種詞性對應(yīng)的詞性權(quán)重值,確定該基礎(chǔ)詞的詞性值;
[0030]根據(jù)確定的該基礎(chǔ)詞的基礎(chǔ)值、位置值、長度值和詞性值,確定該基礎(chǔ)詞的子權(quán)值;
[0031]根據(jù)確定的該圖片描述文本中每個位置的該基礎(chǔ)詞的子權(quán)值的和,確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
[0032]較佳地,在本發(fā)明實施例中為了能夠根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,影響其他基礎(chǔ)詞的分數(shù)值,從而選擇較準(zhǔn)確的核心詞。所述重新確定每個圖片描述文本的總得分值包括:
[0033]根據(jù)每個基礎(chǔ)詞在文本簇剩余的每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值;根據(jù)每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值;或
[0034]根據(jù)每個基礎(chǔ)詞在文本簇剩余的每個圖片描述文本中的分數(shù)值,對該基礎(chǔ)詞的分數(shù)值進行歸一化處理,確定該基礎(chǔ)詞在每個圖片描述文本中的歸一化后的分數(shù)值;針對每個圖片描述文本,根據(jù)其每個基礎(chǔ)詞歸一化后的分數(shù)值,確定每個圖片描述文本歸一化后的總得分值。
[0035]較佳地,在本發(fā)明實施例中為了能夠根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,影響其他基礎(chǔ)詞的分數(shù)值,從而確定較準(zhǔn)確的圖片簇的核心詞。所述對該基礎(chǔ)詞的分數(shù)值進行歸一化處理包括:
[0036]根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定文本簇中該基礎(chǔ)詞的總分數(shù)值;根據(jù)確定的該基礎(chǔ)詞的總分數(shù)值與每個圖片描述文本中該基礎(chǔ)詞的分數(shù)值的和對該基礎(chǔ)詞的分數(shù)值進行歸一化處理;或
[0037]根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定文本簇中該基礎(chǔ)詞的總分數(shù)值;根據(jù)確定的該基礎(chǔ)詞的總分數(shù)值與每個圖片描述文本中該基礎(chǔ)詞的分數(shù)值的積對該基礎(chǔ)詞的分數(shù)值進行歸一化處理。
[0038]本發(fā)明實施例提供一種確定圖片簇描述文本核心詞的裝置,所述裝置包括:
[0039]圖片簇庫,用于存儲每個圖片簇,其中每個圖片簇中包括多張圖片;并根據(jù)核心詞提取模塊確定的每個圖片簇的核心詞,保存每個圖片簇及其核心詞的對應(yīng)關(guān)系;
[0040]文本簇庫,用于針對每個圖片簇,存儲該圖片簇中每個圖片提取出的圖片描述文本構(gòu)成的文本簇;
[0041]切詞模塊,用于對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎(chǔ)詞;
[0042]分數(shù)值計算模塊,用于根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值,并確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值;
[0043]總分數(shù)值計算模塊,用于根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值;
[0044]核心詞提取模塊,用于根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定該圖片簇的核心詞。
[0045]較佳地,為了準(zhǔn)確的確定出每個圖片簇的核心詞,所述裝置還包括:
[0046]總得分值計算模塊,用于根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值;
[0047]刪除判斷模塊,用于根據(jù)每個圖片描述文本的總得分值,刪除設(shè)定數(shù)量的圖片描述文本;判斷刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中包含的圖片描述文本數(shù)量是否達到設(shè)定的收斂閾值;當(dāng)確定文本簇中包含的圖片描述文本數(shù)量未達到設(shè)定的收斂閾值時,通知總得分值計算模塊重新確定該文本簇中剩余的每個圖片描述文本的總得分值;
[0048]所述核心詞提取模塊,還用于當(dāng)刪除判斷模塊確定該文本簇中包含的圖片描述文本的數(shù)量達到設(shè)定的收斂閾值時,在該文本簇中確定該圖片簇的核心詞。
[0049]較佳地,在本發(fā)明實施例中為了更加準(zhǔn)確的確定圖片簇的核心詞。所述裝置還包括:
[0050]過濾模塊,用于對切詞處理后的基礎(chǔ)詞進行去噪聲處理;和/或?qū)ξ谋敬刂忻總€圖片描述文本進行去噪聲處理。
[0051]較佳地,在本發(fā)明實施例中為了更加準(zhǔn)確的確定圖片簇的核心詞。所述過濾模塊,具體用于將切詞后得到的每個基礎(chǔ)詞與保存的無意義詞庫中的每個詞進行匹配;當(dāng)匹配成功時,確定該基礎(chǔ)詞為無意義詞,將該基礎(chǔ)詞刪除。
[0052]較佳地,在本發(fā)明實施例中為了更加準(zhǔn)確的確定圖片簇的核心詞。所述過濾模塊,具體用于判斷每個圖片描述文本是否滿足設(shè)定的過濾條件;當(dāng)該圖片描述文本滿足設(shè)定的過濾條件時,將該圖片描述文本刪除;和/或?qū)⒚績蓚€圖片描述文本進行比較,按照該兩個圖片描述文本基礎(chǔ)詞的順序,判斷該兩個圖片描述文本中出現(xiàn)相同基礎(chǔ)詞的數(shù)量是否達到設(shè)定的數(shù)量閾值;當(dāng)該兩個圖片描述文本中出現(xiàn)相同基礎(chǔ)詞的數(shù)量達到設(shè)定的數(shù)量閾值時,刪除該兩個圖片描述文本中的一個圖片描述文本。
[0053]較佳地,在本發(fā)明實施例中為了準(zhǔn)確的確定圖片簇的核心詞。所述分數(shù)值計算模塊,具體用于根據(jù)統(tǒng)計的每個基礎(chǔ)詞的頻度,確定該基礎(chǔ)詞的基礎(chǔ)值;根據(jù)該基礎(chǔ)詞在圖片描述文本中出現(xiàn)的位置,及設(shè)置的每個位置對應(yīng)的位置權(quán)重值,確定每個基礎(chǔ)詞的位置值;根據(jù)該基礎(chǔ)詞包含的字節(jié)數(shù),及設(shè)置的每種基礎(chǔ)詞長度對應(yīng)的長度權(quán)重值,確定該基礎(chǔ)詞的長度值;根據(jù)該基礎(chǔ)詞的詞性,及設(shè)置的每種詞性對應(yīng)的詞性權(quán)重值,確定該基礎(chǔ)詞的詞性值;根據(jù)確定的該基礎(chǔ)詞的基礎(chǔ)值、位置值、長度值和詞性值,確定該基礎(chǔ)詞的子權(quán)值;根據(jù)確定的該圖片描述文本中每個位置的該基礎(chǔ)詞的子權(quán)值的和,確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
[0054]較佳地,在本發(fā)明實施例中為了能夠根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,影響其他基礎(chǔ)詞的分數(shù)值,從而選擇較準(zhǔn)確的核心詞。所述總得分值計算模塊,還用于根據(jù)文本簇中刪除圖片描述文本后,每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值;根據(jù)每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值。
[0055]較佳地,在本發(fā)明實施例中為了能夠根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,影響其他基礎(chǔ)詞的分數(shù)值,從而選擇較準(zhǔn)確的核心詞。所述總得分值計算模塊,還用于根據(jù)文本簇中刪除圖片描述文本后,每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,對該基礎(chǔ)詞的分數(shù)值進行歸一化處理,確定該基礎(chǔ)詞在每個圖片描述文本中的歸一化后的分數(shù)值;針對每個圖片描述文本,根據(jù)其每個基礎(chǔ)詞歸一化后的分數(shù)值,確定每個圖片描述文本歸一化后的總得分值。
[0056]較佳地,在本發(fā)明實施例中為了能夠根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,影響其他基礎(chǔ)詞的分數(shù)值,從而選擇較準(zhǔn)確的核心詞。所述總得分值計算模塊,具體用于根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定文本簇中該基礎(chǔ)詞的總分數(shù)值;根據(jù)確定的該基礎(chǔ)詞的總分數(shù)值與每個圖片描述文本中該基礎(chǔ)詞的分數(shù)值的和對該基礎(chǔ)詞的分數(shù)值進行歸一化處理。
[0057]較佳地,在本發(fā)明實施例中為了能夠根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,影響其他基礎(chǔ)詞的分數(shù)值,從而選擇較準(zhǔn)確的核心詞。所述總得分值計算模塊,具體用于根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定文本簇中該基礎(chǔ)詞的總分數(shù)值;根據(jù)確定的該基礎(chǔ)詞的總分數(shù)值與每個圖片描述文本中該基礎(chǔ)詞的分數(shù)值的積對該基礎(chǔ)詞的分數(shù)值進行歸一化處理。
[0058]本發(fā)明實施例提供一種確定圖片簇描述文本核心詞的方法及裝置,該方法包括針對圖片簇中每個圖片描述文本構(gòu)成的文本簇,對文本簇中的每個圖片描述文本進行切詞處理得到每個基礎(chǔ)詞,根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值,并確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,從而確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值,根據(jù)每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定圖片簇的核心詞。由于在本發(fā)明實施例中針對圖片簇中每個圖片描述文本構(gòu)成的文本簇,根據(jù)每個圖片描述文本中的基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞的在每個圖片描述文本中的權(quán)值,從而確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值,根據(jù)每個基礎(chǔ)詞的總分數(shù)值確定圖片簇的核心詞,從而可以保證選擇出的核心詞能準(zhǔn)確描述圖片簇的語意。
【專利附圖】
【附圖說明】
[0059]圖1為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的過程示意圖;
[0060]圖2為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的詳細實施過程示意圖;
[0061]圖3為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的另一詳細實施過程不意圖;
[0062]圖4為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的再一詳細實施過程不意圖;
[0063]圖5為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的裝置結(jié)構(gòu)示意圖?!揪唧w實施方式】
[0064]為了能夠準(zhǔn)確的確定出近似多張圖片的圖片簇的核心詞,從而準(zhǔn)確的描述圖片簇的語意,本發(fā)明實施例提供了一種確定圖片簇描述文本核心詞的方法及裝置。
[0065]本發(fā)明實施例在進行核心詞的確定時,將整個確定過程抽象為一個投票過程。例如有10個投票人,N個候選人,每個投票人有一次投票的權(quán)利。在本發(fā)明實施例中就是將每個投票人的一次投票權(quán)利拆分開來,例如其可以向A投0.1票,向B投0.9票。
[0066]每個投票人都有自己的背景和主流意識,因此將導(dǎo)致投票結(jié)果的不同。在進行多次投票時,每一次投票之后,候選人之間會有一個排名。投票人可能會受本次投票結(jié)果的啟發(fā),從而調(diào)整自己下一次的投票。另外,通過投票的結(jié)果也可以發(fā)現(xiàn)一些比較“惡劣的投票人”,這些人應(yīng)該從投票隊伍中剔除,并且他們投的“候選人”也可能是惡劣性質(zhì)的可疑的人。
[0067]本發(fā)明實施例基于該抽象過程,可以將基礎(chǔ)詞作為投票人,將圖片描述文本作為候選人,根據(jù)基礎(chǔ)詞的屬性信息確定最終的圖片描述文本,從而從中確定相應(yīng)的核心詞。
[0068]下面結(jié)合說明書附圖,對本發(fā)明實施例進行詳細說明。
[0069]圖1為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的過程示意圖,該過程包括以下步驟:
[0070]SlOl:針對每個圖片簇,提取該圖片簇中每個圖片的圖片描述文本,將每個所述圖片描述文本保存在文本簇中。
[0071]在每個圖片簇中包含相似的多張圖片,該相似的多張圖片可以是包含同一特定信息的圖片,或者都是源于同一張圖片做圖片處理后得到的。例如在某一圖片簇中都包含某一人物,張三,或者在某一圖片簇中都包含某一特定信息,海嘯、地震等等。這些相似圖片可以通過現(xiàn)有圖片識別技術(shù)來確定。在圖片簇中每個圖片都有其對應(yīng)的圖片描述文本,將圖片簇中每個圖片的描述文本提取出來保存到文本簇中,從而得到每個圖片簇對應(yīng)的每個文本簇。
[0072]S102:對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎(chǔ)詞。
[0073]對圖片描述文本進行切詞處理的過程屬于現(xiàn)有技術(shù),在本發(fā)明實施例中就不對該過程進行說明,相信本領(lǐng)域技術(shù)人員可以根據(jù)本發(fā)明實施例的描述確定相應(yīng)的切詞方式。
[0074]將圖片描述文本進行切詞后,得到每個圖片描述文本包括的基礎(chǔ)詞,每個圖片描述文本中可以包括一個、兩個、三個以上的基礎(chǔ)詞。并且圖片描述文本中包含的每個基礎(chǔ)詞之間可以不同,也可以相同。例如某一圖片描述文本中切詞后得到基礎(chǔ)詞A、B、C、A、D,該圖片描述文本包含的基礎(chǔ)詞為4個,其中基礎(chǔ)詞A在該圖片描述文本中出現(xiàn)了 2次。
[0075]S103:根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值,并確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值。
[0076]確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值時,根據(jù)每個基礎(chǔ)詞的屬性信息來確定。具體的針對每個圖片描述文本,根據(jù)切詞后該圖片描述文本中每個基礎(chǔ)詞的屬性信息及該基礎(chǔ)詞在該圖片描述文本中出現(xiàn)的次數(shù),確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
[0077]當(dāng)確定了每個圖片描述文本中的基礎(chǔ)詞后,確定圖片描述文本中的每個基礎(chǔ)詞,在該圖片描述文本中的權(quán)值。具體的,在確定基礎(chǔ)詞在圖片描述文本中的權(quán)值時,根據(jù)基礎(chǔ)詞的屬性信息及該基礎(chǔ)詞在該圖片描述文本中出現(xiàn)的次數(shù)確定。該基礎(chǔ)詞的屬性信息包括:基礎(chǔ)詞的頻度信息、基礎(chǔ)詞在圖片描述文本中的位置信息、基礎(chǔ)詞包含的字節(jié)數(shù)信息以及基礎(chǔ)詞的詞性信息等。
[0078]另外,圖片描述文本中可能包括多個相同的基礎(chǔ)詞,而每個基礎(chǔ)詞在該圖片描述文本中出現(xiàn)的位置不同,因此同一基礎(chǔ)詞在同一圖片描述文本中,由于其位于圖片描述文本的不同位置,因此同一基礎(chǔ)詞可能對應(yīng)多個不同的子權(quán)值,將該同一基礎(chǔ)詞對應(yīng)的多個子權(quán)值相加,即可得到該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
[0079]當(dāng)確定了每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值后,針對每個圖片描述文本,根據(jù)確定的每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值及該圖片描述文本中每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值和,確定每個基礎(chǔ)詞在該圖片描述文本中的分數(shù)值。
[0080]確定了圖片描述文本中的每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值后,為了確定每個基礎(chǔ)詞在圖片描述文本中的重要程度,在本發(fā)明實施例中需要確定每個基礎(chǔ)詞在圖片描述文本中的分數(shù)值。在確定每個基礎(chǔ)詞在圖片描述文本中的分數(shù)值時,根據(jù)每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值,及該圖片描述文本中每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值和,確定該基礎(chǔ)詞在該圖片描述文本中的分數(shù)值。
[0081]采用上述方法后,在一個圖片描述文本中,其包含的每個基礎(chǔ)詞在該圖片描述文本中的分數(shù)值的和為I。
[0082]S104:根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值。
[0083]具體的,在確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值時,在文本簇中針對每個基礎(chǔ)詞,根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值。
[0084]當(dāng)一個基礎(chǔ)詞在文本簇中出現(xiàn)的頻率非常的高,說明該基礎(chǔ)詞對該文本簇來說非常重要。為了衡量每個基礎(chǔ)詞對文本簇的重要程度,在本發(fā)明實施例中,針對每個基礎(chǔ)詞,根據(jù)確定的每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值的和,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值,從而可以將該總分數(shù)值作為衡量該基礎(chǔ)詞在該文本簇中的重要程度。
[0085]S105:根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定該圖片簇的核心詞。
[0086]當(dāng)確定了每個基礎(chǔ)詞在文本簇中的總得分值后,可以確定出每個基礎(chǔ)詞在文本簇中的重要程度。根據(jù)每個基礎(chǔ)詞在文本簇中的重要程度,按照每個基礎(chǔ)詞在文本簇中的總得分值,選擇設(shè)定數(shù)量的基礎(chǔ)詞作為該圖片簇的核心詞。
[0087]由于在本發(fā)明實施例中針對圖片簇中每個圖片描述文本構(gòu)成的文本簇,根據(jù)每個圖片描述文本中的基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞的在每個圖片描述文本中的權(quán)值,從而確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值,根據(jù)每個基礎(chǔ)詞的總分數(shù)值確定圖片簇的核心詞,從而可以保證選擇出的核心詞能準(zhǔn)確描述圖片簇的語意。
[0088]在本發(fā)明實施例中為了進一步準(zhǔn)確的確定圖片簇的核心詞,在確定了每個基礎(chǔ)詞在文本簇中的總得分值后,該方法還包括:
[0089]根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值;
[0090]根據(jù)每個圖片描述文本的總得分值,刪除設(shè)定數(shù)量的圖片描述文本;
[0091]判斷刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中包含的圖片描述文本的數(shù)量是否達到設(shè)定的收斂閾值;
[0092]當(dāng)該文本簇中包含的圖片描述文本的數(shù)量達到設(shè)定的收斂閾值時,在該文本簇中確定該圖片簇的核心詞,否則,重新確定該文本簇中剩余的每個圖片描述文本的總得分值直至確定出圖片簇的核心詞。
[0093]當(dāng)確定了每個基礎(chǔ)詞在文本簇中的重要程度后,可以根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù),確定每個圖片描述文本在文本簇中的重要程度。具體的,可以針對每個圖片描述文本,根據(jù)該圖片描述文本中包含的每個基礎(chǔ)詞在該文本簇中的總分數(shù)的和,確定每個圖片描述文本的總得分數(shù)。
[0094]得到衡量每個圖片描述文本在文本簇中的重要程度的總得分值后,可以將圖片描述文本的總得分值按照大小順序排序,從總得分值最小的圖片描述文本開始,刪除設(shè)定數(shù)量的圖片描述文本,此時可以認為該圖片描述文本在該文本簇中不重要,可以將該圖片描述文本刪除。在刪除圖片描述文本時,每次根據(jù)設(shè)定的數(shù)量,刪除相應(yīng)數(shù)量的圖片描述文本,例如該設(shè)定數(shù)量可以為1,或者2,即每次在進行圖片描述文本刪除時,可以刪除總得分數(shù)最低的一個圖片描述文本,或者刪除總得分數(shù)最低的2個圖片描述文本。
[0095]刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中剩余的圖片描述文本的數(shù)量達到設(shè)定的收斂閾值時,可以認為該文本簇中剩余的都是對該核心詞提取比較重要的圖片描述文本,在該圖片描述文本中確定核心詞時,可以保證確定的核心詞的準(zhǔn)確性。
[0096]刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中剩余的圖片描述文本的數(shù)量達到設(shè)定的收斂閾值時,為了保證確定的核心詞的準(zhǔn)確性,在本發(fā)明實施例中,由于一些圖片描述文本已經(jīng)刪除,基礎(chǔ)詞在文本簇中的總分數(shù)值發(fā)生變化,需要重新確定每個圖片描述文本的總得分值,從而根據(jù)每個圖片描述文本的總得分值,再一步刪除設(shè)定數(shù)量的圖片描述文本,直到該文本簇中圖片描述文本的數(shù)量達到設(shè)定的收斂閾值,便于準(zhǔn)確的確定核心詞。
[0097]為了進一步提高圖片簇核心詞提取的準(zhǔn)確性,克服一些噪音的干擾,在本發(fā)明實施例中確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值之前,可以針對切詞后得到的每個基礎(chǔ)詞進行去噪聲處理;和對文本簇中每個圖片描述文本進行去噪聲處理。上述兩種去噪聲的方式可以結(jié)合在一起使用,也可以單獨使用,結(jié)合在一起使用時兩種去噪聲的方式可以同步進行,也可以采用任意順序進行。同時采用兩種去噪聲的方式,可以有效的避免文本簇中噪聲的干擾,進一步提高核心詞提取的準(zhǔn)確性。
[0098]在本發(fā)明實施例中對切詞處理后的基礎(chǔ)詞進行去噪聲處理包括:將切詞后得到的每個基礎(chǔ)詞與保存的無意義詞庫中的每個詞進行匹配;當(dāng)匹配成功時,確定該基礎(chǔ)詞為無意義詞,將該基礎(chǔ)詞刪除。
[0099]具體的,在本發(fā)明實施例中可以預(yù)先保存無意義詞庫,在該無意義詞庫中保存有一些作為停止詞的基礎(chǔ)詞,例如“把”、“的”、“原來如此”等等相對核心詞來說無意義的詞。由于該無意義詞庫中保存有一些無意義的基礎(chǔ)詞,因此將切詞后得到的每個基礎(chǔ)詞與該無意義詞庫中保存的每個詞進行匹配,當(dāng)匹配成功時,認為該基礎(chǔ)詞為無意義詞,無法作為核心詞,將該基礎(chǔ)詞刪除,否則,認為該基礎(chǔ)詞可能為核心詞,保留該基礎(chǔ)詞。
[0100]為了有效的去除一些干擾圖片描述文本,在本發(fā)明實施例中可以對文本簇中的圖片描述文本進行去噪聲處理,具體的處理過程可以包括以下至少一個處理步驟:
[0101]判斷每個圖片描述文本是否滿足設(shè)定的過濾條件;當(dāng)該圖片描述文本滿足設(shè)定的過濾條件時,將該圖片描述文本刪除;和
[0102]將每兩個圖片描述文本進行比較,按照該兩個圖片描述文本基礎(chǔ)詞的順序,判斷該兩個圖片描述文本中出現(xiàn)相同基礎(chǔ)詞的數(shù)量是否達到設(shè)定的數(shù)量閾值;當(dāng)該兩個圖片描述文本中出現(xiàn)相同基礎(chǔ)詞的數(shù)量達到設(shè)定的數(shù)量閾值時,刪除該兩個圖片描述文本中的一個圖片描述文本。
[0103]之所以要對文本簇中的圖片描述文本進行去噪聲處理是因為,有些圖片描述文本可能是一些無意義的文本,其對核心詞提取的貢獻非常的小,例如圖片描述文本非常的短,即其包含的字節(jié)數(shù)非常的少,或者在該圖片描述文本中根本不存在名詞以表述該文本語意,再或者圖片描述文本非常的長,即其包含的字節(jié)數(shù)非常的多,這些情況下都可以認為圖片描述文本是無意義的。
[0104]因此也就可以根據(jù)上述描述設(shè)置圖片描述文本的過濾條件,在判斷圖片描述文本是否滿足設(shè)定的過濾條件時,具體可以判斷圖片描述文本包含的字節(jié)數(shù)是否小于設(shè)定的第一長度閾值,當(dāng)圖片描述文本包含的字節(jié)數(shù)小于設(shè)定的第一長度閾值時,認為該圖片描述文本滿足設(shè)定的過濾條件;或者判斷圖片描述文本中是否包含名詞,當(dāng)該圖片描述文本中不包含名詞時,認為該圖片描述文本滿足設(shè)定的過濾條件;或者判斷圖片描述文本包含的字節(jié)數(shù)是否大于設(shè)定的第二長度閾值,當(dāng)圖片描述文本包含的字節(jié)數(shù)大于設(shè)定的第二長度閾值時,認為該圖片描述文本滿足設(shè)定的過濾條件,其中第二長度閾值大于第一長度閾值。當(dāng)圖片描述文本滿足設(shè)定的過濾條件時,將該圖片描述文本刪除。
[0105]另外,在本發(fā)明實施例中當(dāng)對某一圖片描述文本進行復(fù)制粘貼操作時,文本簇中可能會存在多個內(nèi)容相同的圖片描述文本,復(fù)制粘貼得到的圖片描述文本可能會影響后續(xù)核心詞確定的準(zhǔn)確性。因此為了克服復(fù)制粘貼圖片描述文本的操作對最終核心詞的確定,在本發(fā)明實施例中可以針對每兩個圖片描述文本,判斷其中一個圖片描述文本是否為復(fù)制粘貼得到的圖片描述文本。
[0106]由于復(fù)制粘貼后得到的圖片描述文本應(yīng)該與原圖片描述文本相同,因此針對進行比較的兩個圖片描述文本進行判斷時,可以先判斷該兩個圖片描述文本包含的基礎(chǔ)詞的數(shù)量是否相同,當(dāng)該兩個圖片描述文本包含的基礎(chǔ)詞的數(shù)量不同時,可以認為該兩個圖片描述文本不是復(fù)制粘貼得到的圖片描述文本,當(dāng)該兩個圖片描述文本包含的基礎(chǔ)詞的數(shù)量相同時,按照每個基礎(chǔ)詞在每個圖片描述文本中的順序,依次比較兩個圖片描述文本中每個基礎(chǔ)詞是否相同,當(dāng)兩個圖片描述文本中按照順序出現(xiàn)相同基礎(chǔ)詞的數(shù)量達到設(shè)定的數(shù)量閾值時,認為其中一個圖片描述文本為復(fù)制粘貼操作得到的圖片描述文本,在該文本簇中將其中一個圖片描述文本刪除。
[0107]圖2為本發(fā)明實施例提供的一種確定圖片簇描述文本核心詞的詳細實施過程示意圖,該過程包括以下步驟:
[0108]S201:針對每個圖片簇,提取該圖片簇中每個圖片的圖片描述文本,將每個所述圖片描述文本保存在文本簇中,對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎(chǔ)詞。
[0109]對圖片描述文本切詞后,可以記錄每個圖片描述文本包含幾個基礎(chǔ)詞,分別是哪些基礎(chǔ)詞,每個基礎(chǔ)詞在該圖片描述文本中出現(xiàn)了幾次,分別在什么位置出現(xiàn)的。
[0110]S202:對切詞后的基礎(chǔ)詞進行去噪聲處理,并對對文本簇中每個圖片描述文本進行去噪聲處理。
[0111]S203:去噪聲處理后,針對每個圖片描述文本,根據(jù)切詞后該圖片描述文本中每個基礎(chǔ)詞的屬性信息及該基礎(chǔ)詞在該圖片描述文本中出現(xiàn)的次數(shù),確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
[0112]S204:在該圖片描述文本中,根據(jù)確定的每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值及該圖片描述文本中每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值和,確定每個基礎(chǔ)詞在該圖片描述文本中的分數(shù)值。
[0113]S205:在文本簇中針對每個基礎(chǔ)詞,根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值。
[0114]S206:根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值。
[0115]S207:根據(jù)每個圖片描述文本的總得分值,刪除設(shè)定數(shù)量的圖片描述文本。
[0116]S208:判斷刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中包含的圖片描述文本數(shù)量是否達到設(shè)定的收斂閾值,當(dāng)判斷結(jié)果為是時,進行步驟S209,否則,進行步驟S210。
[0117]S209:選擇文本簇中設(shè)定數(shù)量的基礎(chǔ)詞作為該文本簇的核心詞。
[0118]S210:重新確定每個圖片描述文本的總得分值直至確定出核心詞。
[0119]由于在本發(fā)明實施例中在切詞處理后,對切詞得到的基礎(chǔ)詞和圖片描述文本進行去噪聲處理,從而可以過濾文本簇中的干擾,進一步提高后續(xù)核心詞確定的準(zhǔn)確性。
[0120]對文本簇中的基礎(chǔ)詞及圖片描述文本進行去噪聲處理后,根據(jù)每個基礎(chǔ)詞的屬性信息確定每個圖片描述文本的總得分值。在確定每個圖片描述文本的總得分值之前,首先需要確定每個基礎(chǔ)詞在圖片描述文本中的權(quán)值。在本發(fā)明實施例中確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值包括:
[0121]根據(jù)統(tǒng)計的每個基礎(chǔ)詞的頻度,確定該基礎(chǔ)詞的基礎(chǔ)值;根據(jù)該基礎(chǔ)詞在圖片描述文本中出現(xiàn)的位置,及設(shè)置的每個位置對應(yīng)的位置權(quán)重值,確定每個基礎(chǔ)詞的位置值;根據(jù)該基礎(chǔ)詞包含的字節(jié)數(shù),及設(shè)置的每種基礎(chǔ)詞長度對應(yīng)的長度權(quán)重值,確定該基礎(chǔ)詞的長度值;根據(jù)該基礎(chǔ)詞的詞性,及設(shè)置的每種詞性對應(yīng)的詞性權(quán)重值,確定該基礎(chǔ)詞的詞性值;根據(jù)確定的該基礎(chǔ)詞的基礎(chǔ)值、位置值、長度值和詞性值,確定該基礎(chǔ)詞的子權(quán)值;根據(jù)確定的該圖片描述文本中每個位置的該基礎(chǔ)詞的子權(quán)值的和,確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
[0122]在確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值時,針對每個圖片描述文本,根據(jù)該圖片描述文本中包含的每個基礎(chǔ)詞,確定每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值。在確定時,根據(jù)該基礎(chǔ)詞的屬性信息及該基礎(chǔ)詞在該圖片描述文本中出現(xiàn)的次數(shù)確定。該基礎(chǔ)詞的屬性信息包括:基礎(chǔ)詞的頻度(IDF)、基礎(chǔ)詞在圖片描述文本中出現(xiàn)的位置(position)、基礎(chǔ)詞包含的字節(jié)數(shù)(length)以及基礎(chǔ)詞的詞性(type)等信息。
[0123]具體可以根據(jù)下述公式確定:
【權(quán)利要求】
1.一種確定圖片簇描述文本核心詞的方法,其特征在于,該方法包括: 針對每個圖片簇,提取該圖片簇中每個圖片的圖片描述文本,將每個所述圖片描述文本保存在文本簇中; 對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎(chǔ)詞; 根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值,并確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值; 根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值; 根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定該圖片簇的核心詞。
2.如權(quán)利要求1所述的方法,其特征在于,所述確定每個基礎(chǔ)詞在每個圖片描述文本中權(quán)值包括: 針對每個圖片描述文本,根據(jù)切詞后該圖片描述文本中每個基礎(chǔ)詞的屬性信息及該基礎(chǔ)詞在該圖片描述文本中出現(xiàn)的次數(shù),確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
3.如權(quán)利 要求1或2所述的方法,其特征在于,所述確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值包括: 根據(jù)統(tǒng)計的每個基礎(chǔ)詞的頻度,確定該基礎(chǔ)詞的基礎(chǔ)值; 根據(jù)該基礎(chǔ)詞在圖片描述文本中出現(xiàn)的位置,及設(shè)置的每個位置對應(yīng)的位置權(quán)重值,確定每個基礎(chǔ)詞的位置值; 根據(jù)該基礎(chǔ)詞包含的字節(jié)數(shù),及設(shè)置的每種基礎(chǔ)詞長度對應(yīng)的長度權(quán)重值,確定該基礎(chǔ)詞的長度值; 根據(jù)該基礎(chǔ)詞的詞性,及設(shè)置的每種詞性對應(yīng)的詞性權(quán)重值,確定該基礎(chǔ)詞的詞性值; 根據(jù)確定的該基礎(chǔ)詞的基礎(chǔ)值、位置值、長度值和詞性值,確定該基礎(chǔ)詞的子權(quán)值; 根據(jù)確定的該圖片描述文本中每個位置的該基礎(chǔ)詞的子權(quán)值的和,確定該基礎(chǔ)詞在該圖片描述文本中的權(quán)值。
4.如權(quán)利要求1-3任一項所述的方法,其特征在于,所述確定每個基礎(chǔ)詞在每個圖片描述文本中分數(shù)值包括: 針對每個圖片描述文本,根據(jù)確定的每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值及該圖片描述文本中每個基礎(chǔ)詞在該圖片描述文本中的權(quán)值和,確定每個基礎(chǔ)詞在該圖片描述文本中的分數(shù)值。
5.如權(quán)利要求1-4任一項所述的方法,其特征在于,所述確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值包括: 在文本簇中針對每個基礎(chǔ)詞,根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值。
6.如權(quán)利要求1-5任一項所述的方法,其特征在于,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值之后,所述方法還包括: 根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值; 根據(jù)每個圖片描述文本的總得分值,刪除設(shè)定數(shù)量的圖片描述文本; 判斷刪除設(shè)定數(shù)量的圖片描述文本后,該文本簇中包含的圖片描述文本的數(shù)量是否達到設(shè)定的收斂閾值; 當(dāng)該文本簇中包含的圖片描述文本的數(shù)量達到設(shè)定的收斂閾值時,在該文本簇中確定該圖片簇的核心詞,否則,重新確定該文本簇中剩余的每個圖片描述文本的總得分值直至確定出圖片簇的核心詞。
7.如權(quán)利要求1-6任一項所述的方法,其特征在于,所述重新確定該文本簇中剩余的每個圖片描述文本的總得分值包括: 根據(jù)每個基礎(chǔ)詞在文本簇剩余的每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值;根據(jù)每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定每個圖片描述文本的總得分值;或 根據(jù)每個基礎(chǔ)詞在文本簇剩余的每個圖片描述文本中的分數(shù)值,對該基礎(chǔ)詞的分數(shù)值進行歸一化處理,確定該基礎(chǔ)詞在每個圖片描述文本中的歸一化后的分數(shù)值;針對每個圖片描述文本,根據(jù)其每個基礎(chǔ)詞歸一化后的分數(shù)值,確定每個圖片描述文本歸一化后的總得分值。
8.如權(quán)利要求1-7任一項所述的方法,其特征在于,所述對該基礎(chǔ)詞的分數(shù)值進行歸一化處理包括: 根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定文本簇中該基礎(chǔ)詞的總分數(shù)值;根據(jù)確定的該基礎(chǔ)詞的總分數(shù)值與每個圖片描述文本中該基礎(chǔ)詞的分數(shù)值的和對該基礎(chǔ)詞的分數(shù)值進行歸一化處理;或 根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定文本簇中該基礎(chǔ)詞的總分數(shù)值;根據(jù)確定的該基礎(chǔ)詞的總分數(shù)值與每個圖片描述文本中該基礎(chǔ)詞的分數(shù)值的積對該基礎(chǔ)詞的分數(shù)值進行歸一化處理。
9.如權(quán)利要求1-8任一項所述的方法,其特征在于,所述確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值之前,所述方法還包括下述至少一個步驟: 對切詞處理后的基礎(chǔ)詞進行去噪聲處理;和 對文本簇中每個圖片描述文本進行去噪聲處理。
10.一種確定圖片簇描述文本核心詞的裝置,其特征在于,所述裝置包括: 圖片簇庫,用于存儲每個圖片簇,其中每個圖片簇中包括多張圖片;并根據(jù)核心詞提取模塊確定的每個圖片簇的核心詞,保存每個圖片簇及其核心詞的對應(yīng)關(guān)系; 文本簇庫,用于針對每個圖片簇,存儲該圖片簇中每個圖片提取出的圖片描述文本構(gòu)成的文本簇; 切詞模塊,用于對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎(chǔ)詞; 分數(shù)值計算模塊,用于根據(jù)每個基礎(chǔ)詞的屬性信息,確定每個基礎(chǔ)詞在每個圖片描述文本中的權(quán)值,并確定每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值; 總分數(shù)值計算模塊,用于根據(jù)每個基礎(chǔ)詞在每個圖片描述文本中的分數(shù)值,確定每個基礎(chǔ)詞在文本簇中的總分數(shù)值; 核心詞提取模塊,用于根據(jù)確定的每個基礎(chǔ)詞在文本簇中的總分數(shù)值,確定該圖片簇的核心詞。
【文檔編號】G06F17/30GK103646074SQ201310674702
【公開日】2014年3月19日 申請日期:2013年12月11日 優(yōu)先權(quán)日:2013年12月11日
【發(fā)明者】陶哲 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司