文本挖掘設備、文本挖掘方法和計算機可讀記錄介質(zhì)的制作方法
【技術領域】
[0001]本發(fā)明涉及能夠通過文本數(shù)據(jù)的分析來向分析者提供有用知識的文本挖掘系統(tǒng)。具體地,本發(fā)明涉及向分析者提出分析的視角作為有用知識的文本挖掘設備和文本挖掘方法以及記錄有用于實現(xiàn)該方法和設備的程序的計算機可讀記錄介質(zhì)。
【背景技術】
[0002]通常,為了通過文本挖掘獲取有用知識,從多個視角進行分析是必要的。例如,在文本挖掘中,基于特定的視角來針對對象文本數(shù)據(jù)執(zhí)行集群,并且確定在通過集群劃分的部分中的文本的內(nèi)容是否有特征。如果確定的結果指示存在有特征部分,則這導致有用知識的發(fā)現(xiàn)。
[0003]專利文件I公開了用于執(zhí)行這樣的文本挖掘的傳統(tǒng)文本挖掘系統(tǒng)。在專利文件I中公開的文本挖掘系統(tǒng)使用由多個記錄構成的數(shù)據(jù)作為分析對象數(shù)據(jù)。在分析對象數(shù)據(jù)中的記錄的每一個包括屬性值和文本數(shù)據(jù)。
[0004]一旦分析者指定了特定屬性(例如,工作類別),則在專利文件I中公開的文本挖掘系統(tǒng)首先使用指定的屬性(例如,學生、雇員等)的屬性值來針對屬性值中的每一個從分析對象數(shù)據(jù)中提取適用記錄。在此,所提取的記錄被稱為“子集”。
[0005]接下來,在專利文件I中公開的文本挖掘系統(tǒng)通過向在分析對象數(shù)據(jù)中的文本數(shù)據(jù)應用文本分類來生成多個文本組。此后,對于屬性值中的每一個,在專利文件I中公開的文本挖掘系統(tǒng)對在子集和文本組之間的關聯(lián)編索引,并且顯示指示在子集和文本組之間的關聯(lián)的?目息。
[0006]S卩,根據(jù)在專利文件I中公開的文本挖掘系統(tǒng),通過將屬性指定為分析的視角,分析者可以針對其屬性值的每一個查看與文本組的關聯(lián)。換言之,通過使用這樣的文本挖掘系統(tǒng),分析者可以設置公知的視角以及從分析者的經(jīng)驗或感覺推測的視角,并且基于所設置的視角來進行分析。
[0007]引用列表
[0008]專利文件
[0009]專利文件1:JP 2004-164137A
【發(fā)明內(nèi)容】
[0010]本發(fā)明要解決的問題
[0011]然而,在專利文件I中公開的文本挖掘系統(tǒng)中,分析者需要基于例如他本身/她本身的經(jīng)驗或感覺來設置視角,并且因此,往往在分析者的視角的范圍內(nèi)進行分析。為此,除非分析者在反復試驗后設置分析的視角,否則將難以有效地設置導致發(fā)現(xiàn)對于分析者出人意料但是有益的知識的分析的視角。
[0012]本發(fā)明的目的
[0013]本發(fā)明的目的是提供一種文本挖掘設備、文本挖掘方法和計算機可讀記錄介質(zhì),該文本挖掘設備、文本挖掘方法和計算機可讀記錄介質(zhì)解決上述問題,并且使得能夠有效設置導致在文本挖掘中發(fā)現(xiàn)對于分析者出人意料但是有用的知識的分析的視角。
[0014]解決問題的手段
[0015]為了實現(xiàn)上面的目的,根據(jù)本發(fā)明的一個方面的文本挖掘設備使用由包括屬性值和文本數(shù)據(jù)的記錄集合構成的數(shù)據(jù)作為分析對象數(shù)據(jù),并且包括:分析視角候選生成單元,所述分析視角候選生成單元從所述分析對象數(shù)據(jù)中提取屬性值,并且使用所提取的屬性值來生成分析視角候選;以及特征度計算單元,所述特征度計算單元將在包括作為分析視角候選提取的屬性值的記錄中的文本數(shù)據(jù)與至少包括除了包括在分析對象數(shù)據(jù)中的屬性值的記錄之外的記錄的記錄集合中的文本數(shù)據(jù)作比較,并且基于比較的結果來計算特征度,所述特征度指示在分析視角候選和分析對象數(shù)據(jù)之間的關系。
[0016]而且,為了實現(xiàn)上面的目的,根據(jù)本發(fā)明的一個方面的一種文本挖掘方法使用由包括屬性值和文本數(shù)據(jù)的記錄集合構成的數(shù)據(jù)作為分析對象數(shù)據(jù),并且包括:步驟(a)從所述分析對象數(shù)據(jù)中提取屬性值,并且使用所提取的屬性值來生成分析視角候選;以及步驟(b)將在包括作為分析視角候選提取的屬性值的記錄中的文本數(shù)據(jù)與至少包括除了包括在分析對象數(shù)據(jù)中的屬性值的記錄之外的記錄的記錄集合中的文本數(shù)據(jù)作比較,并且基于比較的結果來計算特征度,所述特征度指示在分析視角候選和分析對象數(shù)據(jù)之間的關系O
[0017]而且,為了實現(xiàn)上面的目的,根據(jù)本發(fā)明的一個方面的計算機可讀記錄介質(zhì)在記錄有程序,該程序用于通過計算機執(zhí)行文本挖掘,其中,包括屬性值和文本數(shù)據(jù)的記錄集合構成的數(shù)據(jù)被用作分析對象數(shù)據(jù),該程序包括用于使得計算機執(zhí)行下述步驟的指令:(a)從所述分析對象數(shù)據(jù)中提取屬性值,并且使用所提取的屬性值來生成分析視角候選;以及步驟(b)將在包括作為分析視角候選提取的屬性值的記錄中的文本數(shù)據(jù)與至少包括除了包括在分析對象數(shù)據(jù)中的屬性值的記錄之外的記錄的記錄集合中的文本數(shù)據(jù)作比較,并且基于比較的結果來計。
[0018]本發(fā)明的效果
[0019]如上所述,本發(fā)明使得能夠有效設置導致在文本挖掘中發(fā)現(xiàn)對于分析者出人意料但是有用的知識的分析的視角。
【附圖說明】
[0020]圖1是示出根據(jù)本發(fā)明的第一實施例的文本挖掘設備的配置的框圖。
[0021]圖2示出了在本發(fā)明的第一實施例中使用的分析對象數(shù)據(jù)的一個示例。
[0022]圖3是示出根據(jù)本發(fā)明的第一實施例的文本挖掘設備的操作的流程圖。
[0023]圖4是示出根據(jù)本發(fā)明的第二實施例的文本挖掘設備的操作的流程圖。
[0024]圖5是示出根據(jù)本發(fā)明的第三實施例的文本挖掘設備的配置的框圖。
[0025]圖6是示出根據(jù)本發(fā)明的第三實施例的文本挖掘設備的操作的流程圖。
[0026]圖7是示出實現(xiàn)根據(jù)本發(fā)明的第一至第三實施例的文本挖掘設備的計算機的一個示例的框圖。
【具體實施方式】
[0027](第一實施例)
[0028]下面參考圖1至3描述根據(jù)本發(fā)明的第一實施例的文本挖掘設備、文本挖掘方法和程序。
[0029]設備配置
[0030]首先,參考圖1給出根據(jù)本第一實施例的文本挖掘設備的配置的說明。圖1是示出根據(jù)本發(fā)明的第一實施例的文本挖掘設備的配置的框圖。
[0031]如圖1中所示,根據(jù)本第一實施例的文本挖掘設備2使用由包括屬性值和文本數(shù)據(jù)的記錄集合構成的數(shù)據(jù)作為分析對象數(shù)據(jù)來執(zhí)行文本挖掘。
[0032]而且,如圖1中所示,文本挖掘設備2包括分析視角候選生成單元20和特征度計算單元21。其中,分析視角候選生成單元20從分析對象數(shù)據(jù)中提取屬性值,并且使用所提取屬性值來生成分析視角候選。
[0033]特征度計算單元21首先將在包括作為分析視角候選提取的屬性值的記錄中的文本數(shù)據(jù)與至少包括除了包括在分析對象數(shù)據(jù)中的屬性值的記錄之外的記錄的記錄集合中的文本數(shù)據(jù)作比較。然后,特征度計算單元21基于比較結果來計算指示在分析視角候選和分析對象數(shù)據(jù)之間的關系的特征度。
[0034]以該方式,根據(jù)本第一實施例的文本挖掘設備2獨立于分析者的意圖來機械地提取用作分析視角候選的屬性值,并且計算該屬性值的特征度。因此,分析者可以識別出人意料但是具有高特征度的分析視角候選,即,具有使得能夠發(fā)現(xiàn)有用知識的高可能性的分析視角候選。因此,文本挖掘設備2使得能夠有效設置導致在文本挖掘中發(fā)現(xiàn)對于分析者出人意料但是有用的知識的分析的視角。
[0035]現(xiàn)在參考圖2來更詳細地描述根據(jù)本第一實施例的文本挖掘設備2的配置。圖2示出了在本發(fā)明的第一實施例中使用的分析對象數(shù)據(jù)的一個示例。
[0036]如圖1中所示,在本第一實施例中,文本挖掘設備2連接到數(shù)據(jù)存儲設備I,并且與數(shù)據(jù)存儲設備I 一起構成文本挖掘系統(tǒng)3。數(shù)據(jù)存儲設備I包括分析對象數(shù)據(jù)存儲單元10和分析視角數(shù)據(jù)存儲單元11。
[0037]分析對象數(shù)據(jù)存儲單元10存儲分析對象數(shù)據(jù)。在圖2的示例中,分析對象數(shù)據(jù)是關于個人計算機的問卷的結果。而且,在圖2的示例中,構成分析對象數(shù)據(jù)的記錄中的每一個包括七種類型的屬性的屬性值(性別、年齡組、結婚、使用的主要目的、制造商、產(chǎn)品和滿意度)和與不同的文本屬性相關的兩種類型的文本數(shù)據(jù)(自由描述(I)、自由描述(2))。應當注意,在本實施例中,不對在分析對象數(shù)據(jù)中的屬性的類型的數(shù)目和文本數(shù)據(jù)的類型的數(shù)目施加具體限制。
[0038]而且,分析視角數(shù)據(jù)存儲單元11存儲由文本挖掘設備2輸出的分析視角數(shù)據(jù)。在本實施例中,分析視角數(shù)據(jù)由與分析視角候選一對一地對應地計算的特征度構成。
[0039]而且,在本第一實施例中,分析視角候選生成單元20可以從分析對象數(shù)據(jù)中提取一個屬性值,并且僅使用所提取的屬性值來生成分析視角候選,并且可以提取多個屬性值,并且使用該多個屬性值來生成分析視角候選。具體地,在圖3的示例中,分析視角候選生成單元20可以生成僅包括“男”的分析視角候選,并且可以生成包括組合“男、20多歲”的分析視角候選。
[0040]而且,在本第一實施例中,在分析視角候選生成單元20生成分析視角候選之后,識別包括提取為分析視角候選的屬性值的記錄,并且生成識別的記錄集合(以下稱為“記錄子集”)。應當注意,包括提取為分析視角候選的屬性值的記錄的數(shù)目可以是I。在該情況下,記錄子集僅由一個記錄構成。
[0041 ] 而且,在本第一實施例中,使“至少包括除了包括在分析對象數(shù)據(jù)中的屬性值的記錄之外的記錄的記錄集合”包括除了包括屬性值的記錄之外的至少一個記錄。該記錄集合可以是在分析對象數(shù)據(jù)中的所有記錄,并且可以是從在分析對象數(shù)據(jù)中的所有記錄當中隨機選擇的記錄集合。而且,“至少包括除了包括在分析對象數(shù)據(jù)中的屬性值的記錄之外的記錄的記錄集合”可以是已經(jīng)基于預設的分析視角選擇的記錄集合。
[0042]設備操作
[0043]現(xiàn)在參考圖3來給出根據(jù)本發(fā)明的第一實施例的文本挖掘設備2的操作的說明。圖3是示出根據(jù)本發(fā)明的第一實施例的文本挖掘設備的操作的流程圖。在下面的說明中,將適當參考圖1和圖2。而且,在本第一實施例中,通過使得文本挖掘設備2進行操作來實現(xiàn)文本挖掘方法。因此,文本挖掘設備2的操作的以下說明適用于根據(jù)本第一實施例的文本挖掘方法。
[0044]如圖3中所示