專利名稱:信息處理器、處理信息的方法以及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理器、處理信息的方法以及程序,并且具體涉及優(yōu)選地在 基于文檔中的上下文信息(例如,專有名詞和出現(xiàn)在其前或后的預(yù)定數(shù)量的詞組)執(zhí)行 統(tǒng)計自然語言處理的情形中使用的信息處理器、處理信息的方法以及程序,其中所述統(tǒng)計 自然語言處理諸如同義詞分析、多義詞分析、兩個名詞之間的相關(guān)性分析、以及詞的特性 (modality)分析。
背景技術(shù):
過去,廣泛地通過統(tǒng)計地分析(執(zhí)行統(tǒng)計自然語言處理)大量文檔來嘗試獲取知 識。例如,在未開發(fā)同義詞詞庫(thesaurus)的專門領(lǐng)域中,通過對該專門領(lǐng)域中的文檔執(zhí) 行統(tǒng)計自然語言處理來執(zhí)行該領(lǐng)域的辭典的自動創(chuàng)建等。以此方式獲取的知識可被用于例 如信息檢索等的應(yīng)用程序中。在統(tǒng)計自然語言處理中,頻繁地使用上下文信息的特征量(意味著包含文檔中的 關(guān)注詞的詞組以及出現(xiàn)在其前或后的預(yù)定數(shù)量的詞)。然后,通過計算上下文信息的特征 量的相似性,對關(guān)注詞進(jìn)行同義詞分析、多義詞分析、兩個名詞之間的相關(guān)性分析、詞的特 性分析等。例如,在2004年計算語言學(xué)協(xié)會會議學(xué)報(Proceedings of the Conference of the Association for Computational Linguistics 2004)中的 Takaaki Hasegawa、 Satoshi Sekine 禾口 RalphGrishman 的"Discovering Relations among Named Entities from Large Corpora”中,利用上下文信息的特征量,用于專有名詞的相關(guān)性的同義詞分 析。
發(fā)明內(nèi)容
過去使用上下文信息的統(tǒng)計自然語言處理基于“相鄰詞互相相關(guān)”的假設(shè)。然而, 該假設(shè)并非在所有情況下都適用。即,雖然構(gòu)成上下文信息的每個詞與關(guān)于包含該上下文 信息的整個文檔的主題(題目)相關(guān),但其可能不直接與關(guān)于該上下文信息的主題相關(guān)。在 過去對這種上下文信息進(jìn)行統(tǒng)計自然語言處理的情況下,會導(dǎo)致分析結(jié)果的誤差。因此,應(yīng)該建立如下的利用上下文信息的統(tǒng)計自然語言處理甚至在基于“相鄰詞 互相相關(guān)”的假設(shè)時,也考慮該假設(shè)不成立的可能性。期望能夠建立如下的利用上下文信息的統(tǒng)計自然語言處理甚至在基于“相鄰詞 互相相關(guān)”的假設(shè)時,也考慮該假設(shè)不成立的可能性。本發(fā)明的一個實施例是對文檔執(zhí)行統(tǒng)計自然語言處理的信息處理器,該信息處理 器包括特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所 檢測的上下文信息的特征量;特征量分析組件,用于通過使用概率模型分析所提取的上下 文信息的特征量而估計所述概率模型中的潛在變量和上下文主題比率(ratio),其中在所 述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題 的上下文主題;以及聚類(clustering)組件,用于基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。本發(fā)明的另一實施例是所述信息處理器,其還可以包括基本信息產(chǎn)生組件,用于 基于聚類包含在所述上下文信息中的專有名詞對的結(jié)果,產(chǎn)生對應(yīng)于所述上下文信息的基 本fe息。本發(fā)明的再一實施例是所述信息處理器,其還可以包括選擇組件,用于基于關(guān)于 各個上下文信息的特征量而估計的上下文主題比率,選擇所述特征量中的元素。所述特征量分析組件還可以通過使用所述概率模型分析所提取的上下文信息的 特征量,來估計所述文檔主題和所述上下文主題的混合比率。所述特征量提取組件可以包括檢測組件,用于檢測所述文檔中的專有名詞;照 應(yīng)語(anaphora)分析組件,用于對所述文檔執(zhí)行照應(yīng)語分析;提取組件,用于在照應(yīng)語分 析的文檔中設(shè)置專有名詞對,并提取包含所述專有名詞對之前和之后的多個詞并包含所述 專有名詞對的上下文信息;以及設(shè)置組件,用于僅將從所提取的上下文信息中留下的、在預(yù) 先準(zhǔn)備的詞典中注冊的詞設(shè)置為所述上下文信息的特征量。所述統(tǒng)計自然語言處理可以是同義詞分析、多義詞分析、兩個名詞之間的相關(guān)性 分析或詞的特性分析。本發(fā)明的再一實施例是一種對文檔執(zhí)行統(tǒng)計自然語言處理的信息處理器的處理 信息的方法。其中所述信息處理器包括特征量提取組件,用于從所述文檔中檢測包含專 有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;特征量分析組件,用于通過 使用概率模型分析所提取的上下文信息的特征量而估計所述概率模型中的潛在變量和上 下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意 味著所述文檔的局部主題的上下文主題;以及聚類組件,用于基于關(guān)于各個上下文信息的 特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。所述方法 包括第一特征量提取步驟,由所述特征量提取組件從用于學(xué)習(xí)的文檔中檢測包含專有名 詞對的上下文信息,并提取所檢測的上下文信息的特征量;第一特征量分析步驟,由所述特 征量分析組件通過使用所述概率模型分析從所述用于學(xué)習(xí)的文檔中提取的上下文信息的 特征量,來估計所述概率模型中的潛在變量;第二特征量提取步驟,由所述特征量提取組件 從用于分析的文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特 征量;第二特征量分析步驟,由所述特征量分析組件通過使用所述概率模型分析從所述用 于分析的文檔中提取的上下文信息的特征量,來估計所述概率模型中的上下文主題比率; 以及聚類步驟,由所述聚類組件基于關(guān)于各個上下文信息的特征量而估計的上下文主題比 率,聚類包含在所述上下文信息中的專有名詞對。本發(fā)明的再一實施例是一種程序,其使對文檔執(zhí)行統(tǒng)計自然語言處理的計算機(jī)作 為如下功能組件來工作,所述功能組件包括特征量提取組件,用于從所述文檔中檢測包含 專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;特征量分析組件,用于通 過使用概率模型分析所提取的上下文信息的特征量而估計所述概率模型中的潛在變量和 上下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和 意味著所述文檔的局部主題的上下文主題;以及聚類組件,用于基于關(guān)于各個上下文信息 的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。在本發(fā)明的一實施例中,從文檔中檢測包含專有名詞對的上下文信息,并且提取所檢測的上下文信息的特征量。通過使用概率模型分析所提取的上下文信息的特征量而估 計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所 述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題。此外,基于關(guān) 于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專 有名詞對。 根據(jù)本發(fā)明的實施例,可以建立如下的利用上下文信息的統(tǒng)計自然語言處理甚 至在基于“相鄰詞互相相關(guān)”的假設(shè)時,也考慮該假設(shè)不成立的可能性。
圖IA和IB圖示了經(jīng)受處理的英語文檔的示例;
圖2是示出應(yīng)用本發(fā)明的實施例的文檔分析器的構(gòu)造示例的框圖
圖3是示出圖2中的特征提取單元的構(gòu)造示例的框圖4圖示了上下文信息和對應(yīng)于其的特征量的示例;
圖5圖示了為文檔創(chuàng)建處理假定的概率模型;
圖6圖示了基本信息的一個示例;
圖7是說明第一基本信息產(chǎn)生處理的流程圖8是說明特征量提取處理的流程圖9是說明第二基本信息產(chǎn)生處理的流程圖;以及
圖10是圖示計算機(jī)的構(gòu)造示例的框圖。
具體實施例方式下面參照附圖詳細(xì)說明本發(fā)明的優(yōu)選實施例(下文稱為實施例)。<1.實施例 >[本實施例的概述]本實施例是用于英語文檔的文檔分析器,其通過利用包含專有名詞的上下文信息 的統(tǒng)計自然語言處理,依照相關(guān)性聚類專有名詞對。此外,其基于聚類的結(jié)果從文檔中提 取基本信息(等價于維基百科(Wikipedia)(在因特網(wǎng)上公布的百科全書網(wǎng)站)的信息框 (info box)的信息)。圖IA和圖IB示出了經(jīng)受文檔分析器的處理的英語文檔(下文簡稱為文檔)的兩 個示例。所述文檔由多個句子構(gòu)成,并且依照對應(yīng)于整個文檔的主題(下文稱為文檔主題) 以及對應(yīng)于每個句子的主題(下文稱為上下文主題)而產(chǎn)生構(gòu)成句子的詞。圖IA和IB中 的兩個示例是從維基百科(上文所述的百科全書網(wǎng)站)中摘錄的。在圖IA的文檔Dl中,描述了關(guān)于屬于hip-hop種類的音樂家Eminem的信息,諸 如他的家鄉(xiāng)和合演者(costar)。在此情況下,假定“說唱(rap)”等作為整個文檔Dl的主 題,并假定“背景”、“合演”等作為每個句子的主題。在圖IB的文檔D2中,描述了關(guān)于屬于搖滾(rock)種類的音樂家Paul McCartney 的信息,諸如他的家鄉(xiāng)和合演者。在此情況下,假定“搖滾”等作為整個文檔D2的主題,并 假定“背景”、“合演”等作為每個句子的主題。因為文檔分析器關(guān)注于出現(xiàn)在每個文檔中的專有名詞對的相關(guān)性,所以并非在所有情況下都期望專用于整個文檔的主題“說唱”和“搖滾”的信息。如此,移除了與整個文 檔的主題相關(guān)的信息,并且還關(guān)注與每個句子的主題相關(guān)的信息,以使得能夠?qū)⑺鼈兙垲?到相同的聚類中。具體地,從圖IA中的文檔中提取的專有名詞對(Saint Joseph,Eminem)以及從圖 IB中的文檔中提取的專有名詞對(Paul McCartney, Liverpool)被聚類到相同的聚類中。[文檔分析器的構(gòu)造示例]圖2示出了文檔分析器的構(gòu)造示例。利用文檔DB(數(shù)據(jù)庫)11、特征量提取單元 12、特征量DB 13、特征量分析單元14、潛在變量DB 15、聚類處理器16、分析結(jié)果DB 17和 基本信息產(chǎn)生器18構(gòu)造該文檔分析器10。文檔DB 11保存(retain)大量如圖IA和圖IB所示的文檔用于學(xué)習(xí)。文檔DB 11 還保存如圖IA和圖IB所示的文檔,作為分析處理的對象。特征量提取單元12從從文檔DB 11獲得的文檔中檢測包含兩個專有名詞(專有名詞對)的上下文信息(下文描述細(xì)節(jié)), 并提取因此被檢測的各個上下文信息的特征量,以輸出到特征量DB 13。特征量DB 13保存 對應(yīng)于從每個文檔檢測出的各個上下文信息的特征量。特征量分析單元14假定使用下文描述的概率模型創(chuàng)建每個文檔,并使用該概率 模型分析對應(yīng)于從每個文檔中檢測到的各個上下文信息的特征量,以將作為其結(jié)果而獲得 的潛在變量輸出到潛在變量DB 15。潛在變量DB 15保存對應(yīng)于從每個文檔檢測到的各個 上下文信息的潛在變量。聚類處理器16基于對應(yīng)于通過學(xué)習(xí)獲得的各個上下文信息的潛在變量,執(zhí)行對 包含在經(jīng)受分析的文檔的各個上下文信息中的專有名詞對的聚類,以將聚類的結(jié)果輸出到 分析結(jié)果DB 17。該聚類將具有即使意思類似也由不同詞表達(dá)的關(guān)系的專有名詞對聚類 到相同的聚類中。具體地,例如,表達(dá)為“born in Saint Jos印h,Eminem(出生在Mint Joseph, Eminem),,的專有名詞對(SaintJoseph, Eminem)以及表達(dá)為"Paul McCartney was born in Liverpool (Paul McCartney 出生在 Liverpool),,的專有名i司對(Paul McCartney, Liverpool)被聚類到相同的聚類中。分析結(jié)果DB 17保存聚類專有名詞對的結(jié)果?;拘畔a(chǎn)生器18基于在分析結(jié)果DB 17中保存的聚類的結(jié)果,產(chǎn)生基本信息。[特征量提取單元12的描述]圖3示出了圖2中的特征量提取單元12的詳細(xì)構(gòu)造示例。利用專有名詞提取單 元21、照應(yīng)語分析單元22、上下文信息提取單元23、詞干(stemming)處理器Μ、特征量設(shè) 置單元25以及詞典沈構(gòu)成特征量提取單元12。專有名詞提取單元21從經(jīng)受該處理的文檔中檢測專有名詞。照應(yīng)語分析單元22 執(zhí)行照應(yīng)語分析處理,在其中,從經(jīng)受該處理的文檔中檢測到諸如代詞和指示代詞的照應(yīng) 語,并指出對應(yīng)于它們的名詞,并且用專有名詞替換所檢測到的照應(yīng)語中的對應(yīng)于專有名 詞的照應(yīng)語。上下文信息提取單元23從經(jīng)受處理的文檔中檢測包含作為專有名詞的兩個或更 多個詞(包括從照應(yīng)語中替換的那些詞)的句子,并在所檢測的句子中設(shè)置專有名詞對,然 后將專有名詞對之間的詞以及它們之前和之后的預(yù)定數(shù)量的詞提取作為上下文信息。因 此,上下文信息中至少包括作為專有名詞的兩個詞(專有名詞對)。詞干處理器M執(zhí)行詞干處理,在其中,提取構(gòu)成從經(jīng)受處理的文檔中提取的各個上下文信息的每個詞的詞干。特征量設(shè)置單元25僅留下構(gòu)成上下文信息的詞干處理之后的詞中的、在詞典沈 中注冊的詞(詞干處理之后的詞),以移除未在詞典沈中注冊的詞。然后,特征量設(shè)置單元 25將未移除且留在上下文信息中的詞組設(shè)置為上下文信息的特征量。包括在特征量中的、 詞干處理之后的詞被稱為特征量的元素。在詞典沈中,在詞干處理之后的狀態(tài)中預(yù)先注冊具有高TF-IDF (詞頻-逆文檔頻 率)得分的詞。相反地,在詞典26中,不注冊用于檢索的停止詞(諸如the、is和of)、具 有低TF-IDF得分的詞、預(yù)定的符號等。除上述的、詞干處理之后的詞之外,上下文信息還可以包括語法分析信息、諸如詞 干處理之前的詞的言語(speech)部分、每個詞的屬性信息以及每個詞的依賴性。圖4示出了從圖IA和圖IB中所示的文檔Dl和D2中提取的上下文信息(其中包 含的專有名詞對)的狀態(tài)、以及在特征量DB 13中保存的對應(yīng)于它們的特征量。如圖4所 示,在特征量DB 13中,每個文檔與從其中提取的各個上下文信息關(guān)聯(lián),并且,各個上下文 信息還與特征量關(guān)聯(lián)。例如,從文檔Dl中提取的包含專有名詞(Saint Joseph,Eminem)的上下文信息與 作為其特征量Dl-I的“born,missouri,rais,detroit, quick, · · · ”關(guān)聯(lián)。包含專有名詞 (The Source, Eminem)的上下文信息與作為其特征量 D1-2 的"hip-hop,magazin,magazin, featur, unsign, hype,...,,關(guān)聯(lián)。類似地,例如,從文檔D2提取的包含專有名詞(Paul,Liverpool)的上下文信息與 作為其特征量D2-1的“born,walton,hospital,england,wher,... ”關(guān)聯(lián)。包含專有名詞 (Paul, Ringo Starr)的上下文信息與作為其特征量 D2-2 的“gain,worldwid,fam,member, beatl, john,...,,關(guān)聯(lián)。[在特征量分析單元14中假定的概率模型的描述]由文檔分析器10處理的文檔(用于學(xué)習(xí)的文檔和經(jīng)受分析的文檔)由多個句子 構(gòu)成,并且假定依據(jù)與整個文檔對應(yīng)的主題(下文稱為文檔主題)以及與每個句子對應(yīng)的 主題(下文稱為上下文主題)產(chǎn)生構(gòu)成句子的詞。圖5示出了對應(yīng)于這種假設(shè)的概率模型(圖形化模型)。在圖5中,M表示文檔的 數(shù)量,S表示每個文檔中的句子的數(shù)量,以及N表示每個句子的特征量中的元素的數(shù)量。上 標(biāo)“doc”指示與文檔相關(guān),而上標(biāo)“con”指示與上下文相關(guān)。在此概率模型中,文檔主題和上下文主題被表達(dá)為預(yù)定的詞典詞中的多項式分 布。文檔具有文檔主題,并且每個句子分別具有不同的上下文主題。產(chǎn)生句子的處理如下。即,將文檔的數(shù)量設(shè)置為M,每個文檔中的句子的數(shù)量設(shè)置 為S,每個句子的特征量中的元素的數(shù)量設(shè)置為N,并且文檔主題的數(shù)量和上下文主題的數(shù) 量被設(shè)置為10至100的值。在以下產(chǎn)生處理中產(chǎn)生特征量中的元素。特征量中的每個元 素被排序。對于所有文檔(1)根據(jù)Dirichlet分布ρ ( θ | β )產(chǎn)生關(guān)于每個主題的詞產(chǎn)生概率。對于每個文檔(2)根據(jù)Dirichlet分布ρ ( θ doc α doc)產(chǎn)生該文檔的主題產(chǎn)生概率。
8con| acon)產(chǎn)生該上下文的主題比率,并且對于每個上下文(3)根據(jù) Dirichlet 分布 ρ ( θ(4)根據(jù)Dirichlet分布ρ (r I a mix)產(chǎn)生文檔主題和上下文主題之間的混合比率。 對于特征量中的每個元素(5)基于文檔主題和上下文主題之間的主題混合比率,選擇文檔主題或上下文主 題,(6)根據(jù)對應(yīng)于所選擇的主題的主題比率來選擇主題(這里,選擇哪個主題由潛 在變量ζ表達(dá),并且在(5)和(6)的產(chǎn)生處理期間表達(dá)的、表示ζ的產(chǎn)生處理的分布被表達(dá) 為 p(z| 0do% Θ_,Γ)),并且(7)依據(jù)所選擇的主題,根據(jù)多項式分布ρ (w| Φ,ζ)產(chǎn)生特征量中的元素W??梢杂梢韵碌谋磉_(dá)式(1)表示上述產(chǎn)生處理。
權(quán)利要求
1.一種對文檔執(zhí)行統(tǒng)計自然語言處理的信息處理器,所述信息處理器包括特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢 測的上下文信息的特征量;特征量分析組件,用于通過使用概率模型分析所提取的上下文信息的特征量,來估計 所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述 文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及聚類組件,用于基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率,聚類包 含在所述上下文信息中的專有名詞對。
2.如權(quán)利要求1所述的信息處理器,還包括基本信息產(chǎn)生組件,用于基于聚類包含在所述上下文信息中的專有名詞對的結(jié)果,產(chǎn) 生對應(yīng)于所述上下文信息的基本信息。
3.如權(quán)利要求2所述的信息處理器,還包括選擇組件,用于基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率,選擇所 述特征量中的元素。
4.如權(quán)利要求2所述的信息處理器,其中所述特征量分析組件還通過使用所述概率模型分析所提取的上下文信息的特征量,來 估計所述文檔主題和所述上下文主題的混合比率。
5.如權(quán)利要求2所述的信息處理器,其中所述特征量提取組件包括 檢測組件,用于檢測所述文檔中的專有名詞;照應(yīng)語分析組件,用于對所述文檔執(zhí)行照應(yīng)語分析;提取組件,用于在照應(yīng)語分析的文檔中設(shè)置專有名詞對,并提取包含所述專有名詞對 之前和之后的多個詞并包含所述專有名詞對的上下文信息;以及設(shè)置組件,用于僅將從所提取的上下文信息中留下的、在預(yù)先準(zhǔn)備的詞典中注冊的詞 設(shè)置為所述上下文信息的特征量。
6.如權(quán)利要求2所述的信息處理器,其中所述統(tǒng)計自然語言處理是同義詞分析、多義 詞分析、兩個名詞之間的相關(guān)性分析或詞的特性分析。
7.一種對文檔執(zhí)行統(tǒng)計自然語言處理的信息處理器的處理信息的方法,所述信息處理 器包括特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢 測的上下文信息的特征量;特征量分析組件,用于通過使用概率模型分析所提取的上下文信息的特征量來估計所 述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文 檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及聚類組件,用于基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率,聚類包 含在所述上下文信息中的專有名詞對,所述方法包括第一特征量提取步驟,由所述特征量提取組件從用于學(xué)習(xí)的文檔中檢測包含專有名詞 對的上下文信息,并提取所檢測的上下文信息的特征量;第一特征量分析步驟,由所述特征量分析組件通過使用所述概率模型分析從所述用于 學(xué)習(xí)的文檔中提取的上下文信息的特征量,來估計所述概率模型中的潛在變量;第二特征量提取步驟,由所述特征量提取組件從用于分析的文檔中檢測包含專有名詞 對的上下文信息,并提取所檢測的上下文信息的特征量;第二特征量分析步驟,由所述特征量分析組件通過使用所述概率模型分析從所述用于 分析的文檔中提取的上下文信息的特征量,來估計所述概率模型中的上下文主題比率;以 及聚類步驟,由所述聚類組件基于關(guān)于各個上下文信息的特征量而估計的上下文主題比 率,聚類包含在所述上下文信息中的專有名詞對。
8.一種使對文檔執(zhí)行統(tǒng)計自然語言處理的計算機(jī)作為如下功能組件來工作的程序,所 述功能組件包括特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢 測的上下文信息的特征量;特征量分析組件,用于通過使用概率模型分析所提取的上下文信息的特征量來估計所 述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文 檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及聚類組件,用于基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率,聚類包 含在所述上下文信息中的專有名詞對。
9.一種對文檔執(zhí)行統(tǒng)計自然語言處理的信息處理器,所述信息處理器包括特征量提取單元,其被構(gòu)造為從所述文檔中檢測包含專有名詞對的上下文信息,并提 取所檢測的上下文信息的特征量;特征量分析單元,其被構(gòu)造為通過使用概率模型分析所提取的上下文信息的特征量來 估計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著 所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及聚類單元,其被構(gòu)造為基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率, 聚類包含在所述上下文信息中的專有名詞對。
全文摘要
一種對文檔執(zhí)行統(tǒng)計自然語言處理的信息處理器、處理信息的方法以及程序,所述信息處理器包括特征量提取單元,其被構(gòu)造為從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;特征量分析單元,其被構(gòu)造為通過使用概率模型分析所提取的上下文信息的特征量來估計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及聚類單元,其被構(gòu)造為基于關(guān)于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。
文檔編號G06F17/27GK102129446SQ20111000619
公開日2011年7月20日 申請日期2011年1月13日 優(yōu)先權(quán)日2010年1月20日
發(fā)明者高松慎吾 申請人:索尼公司