專利名稱:信息處理裝置,信息處理方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理裝置,信息處理裝置所采用的信息處理方法和實現(xiàn)該信息處理方法的程序。更具體地,本發(fā)明涉及信息處理裝置,其能夠正確地從文本提取特征詞作為刻畫文本內(nèi)容特征的詞,還涉及信息處理裝置采用的信息處理方法和實現(xiàn)該信息處理方法的程序。
背景技術(shù):
用于從句子(或文本數(shù)據(jù))中選擇在句子內(nèi)容中扮演重要角色的詞的特征詞提取技術(shù)在對文本的有效分類和聚類中是很重要的。
特征詞提取技術(shù)采用在″Introduction to Modern InformationRetrieval(現(xiàn)代情報檢索介紹)″(Salton,G.,McGill,M.J.,McGraw-Hill,1983年)中公開的TF/IDF方法作為基于詞加權(quán)的啟發(fā)式方法,采用在″Automatic Extraction of Keywords from Japanese Texts(從日文文本中自動提取關(guān)鍵詞)″(Nagao等,Information Processing,1976年第17卷第2期)中公開的方法作為用于文件文本地利用X2值的統(tǒng)計方法,以及采用日本專利特許公開號2001-67362中介紹的方法。如果文檔文本及其歸類類別被作為學習數(shù)據(jù)提供,那么特征詞提取技術(shù)采用在″A Comparative Study onFeature Selection in Text Categorization(文本歸類中的特征選擇的比較研究)″(Yang,Y.,Pedersen、J.O.,ICML-97會議論文集,412到420頁,1997年)中公開的方法作為利用X2用于分類的方法和在″Induction ofDecision Trees(決定樹歸納)″(Quinlan、J.R.,Machine Learning,1(1),81到106頁,1986年)中公開的方法作為利用信息增益的方法。
發(fā)明內(nèi)容
然而,上述方法是在一般共同路徑(co-path)作為目的的情況下而被采用的。此外,每一種方法都僅僅以單純的方式利用詞的統(tǒng)計特性。因此,這些方法并不能夠根據(jù)句子內(nèi)容的專門性話題和根據(jù)主題的偏好(bias)來提取詞。
例如,這些方法不能夠從記錄在音樂CD(光盤)上的音樂評論文本中提取代表歌曲音樂特性和藝術(shù)家的音樂特性的詞。音樂評論文本的示例是在作為介紹歌曲和藝術(shù)家的句子的、CD上記錄的句子。這就是說,這些方法不能夠根據(jù)句子的內(nèi)容正確地提取依賴于領(lǐng)域(音樂領(lǐng)域)的詞(或者代表音樂特性的詞)。
由本發(fā)明提供的信息處理裝置被配置,以便該信息處理裝置包括獲取裝置,用于獲取表示領(lǐng)域知識的特性的關(guān)鍵詞;以及提取裝置,用于從文本中提取每個具有接近關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與關(guān)鍵詞相關(guān)聯(lián)而在接近詞之中提取與關(guān)鍵詞共同出現(xiàn)的程度高的詞作為關(guān)鍵詞的特征詞。
由本發(fā)明提供的信息處理方法被配置,以便信息處理方法包括獲取步驟,用于獲取表示領(lǐng)域知識特性的關(guān)鍵詞;以及提取步驟,從文本中提取每個具有接近關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與關(guān)鍵詞相關(guān)聯(lián)而在接近詞之中提取與關(guān)鍵詞共同出現(xiàn)的程度高的詞作為關(guān)鍵詞的特征詞。
由本發(fā)明提供的程序被配置,以便該程序包括獲取步驟,用于獲取表示領(lǐng)域知識特性的關(guān)鍵詞;以及提取步驟,用于從文本中提取每個具有接近關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與關(guān)鍵詞相關(guān)聯(lián)而在接近詞之中提取與關(guān)鍵詞共同出現(xiàn)的程度高的詞作為關(guān)鍵詞的特征詞。
依據(jù)本發(fā)明提供的信息處理裝置、信息處理方法和程序,獲取關(guān)鍵詞并且從文本提取修飾關(guān)鍵詞的詞作為特征詞。
依據(jù)本發(fā)明,有可能從文本提取特征詞作為具有文本的內(nèi)容特性的詞。
圖1是示出了本發(fā)明提供的信息處理裝置典型配置的圖;圖2是示出了典型詞模型的表格;圖3是示出了典型共同出現(xiàn)頻率的表格;圖4示出了表示提取特征詞的處理的流程圖;圖5是示出詞間KL距離的表格;圖6是示出了詞間互信息(mutual information)的典型數(shù)量的表格;圖7是示出了本發(fā)明提供的信息處理裝置的另一個典型配置的圖;圖8示出了表示提取特征詞的另一處理的流程圖;以及圖9是示出了個人計算機的典型配置的方框圖。
具體實施例方式
在解釋本發(fā)明的最佳實施例之前,在下面的比較描述中解釋公開的發(fā)明和實施例之間的關(guān)系。應當注意的是,即使在該說明書中描述的實施例沒有包括在下面與發(fā)明對應的實施例的比較描述中,這樣的實施例也不應被解釋為不是與發(fā)明對應的實施例。相反地,作為與特定發(fā)明對應的實施例被包括在下面的比較描述中的實施例并不解釋為不與除了特定發(fā)明以外的發(fā)明對應的實施例。
此外,下面的比較描述并不被解釋為包括在這個說明書中公開的所有發(fā)明的全面描述。換句話說,下面的比較描述絕非否認這個說明書中公開的但是沒包括在權(quán)利要求中的發(fā)明作為用于提交專利申請的發(fā)明的存在。這就是說,下面的比較描述絕非否認下面發(fā)明的存在,該發(fā)明將被包括在專利的分案申請中,被包括在對該說明書的修改中,或者將來被加入。
依據(jù)本發(fā)明的實施例,提供一種信息處理裝置,其被配置以便該信息處理裝置包括用于獲取關(guān)鍵詞的關(guān)鍵詞獲取部件(諸如包括在圖1所示配置中的關(guān)鍵詞獲取部件26),以及用于從文本提取修飾關(guān)鍵詞的詞作為特征詞的特征詞提取部件(諸如包括在圖1所示配置中的特征詞提取部件27)。
依據(jù)本發(fā)明的另一實施例,上面所描述的信息處理裝置進一步被配置以便特征詞提取部件能夠從文本提取接近關(guān)鍵詞的詞作為接近詞(在圖4所示流程圖中例如步驟S2的處理中),從接近詞中刪除具有與關(guān)鍵詞相似的意義的關(guān)鍵詞類似詞,并且把剩下的接近詞當作特征詞(在圖4所示的流程圖中例如步驟S4的處理)。
依據(jù)本發(fā)明的進一步的實施例,上面描述的信息處理裝置進一步被配置以便特征詞提取部件(諸如圖7所示配置中包括的特征詞提取部件31)能夠把關(guān)鍵詞類似詞用作關(guān)鍵詞。
依據(jù)本發(fā)明的進一步實施例,提供一種信息處理方法,其被配置以便信息處理方法包括用于獲取關(guān)鍵詞的關(guān)鍵詞獲取步驟(諸如圖4所示流程圖的步驟S1),以及用于從文本提取修飾關(guān)鍵詞的詞作為特征詞的特征詞提取步驟(諸如圖4所示流程圖的步驟S2到S5)。
依據(jù)本發(fā)明的進一步實施例,提供一種具有與上述信息處理方法相同步驟的程序。
圖1是顯示本發(fā)明提供的信息處理裝置1的典型配置的圖。該信息處理裝置1利用用戶所輸入的關(guān)鍵詞作為從文本提取特征詞的領(lǐng)域知識,該文本例如是涉及該領(lǐng)域的一個領(lǐng)域的文本。
例如,希望從作為音樂領(lǐng)域的文本的、記錄在音樂CD上的音樂評論文本中提取代表歌曲的音樂特性或藝術(shù)家的音樂特性的特征詞。在這種情況下,通過輸入諸如‘聲音’、‘風格’或者‘語音’的詞作為關(guān)鍵詞,可以從原始文本提取修飾該關(guān)鍵詞的詞。諸如‘聲音’、‘風格’或者‘語音’的關(guān)鍵詞本身并不表示具體音樂特性。然而,可以預期諸如‘聲音’、‘風格’或者‘語音’這樣的關(guān)鍵詞能夠被諸如″清楚″或者″立體″這樣的自身表示音樂特性的詞修飾。例如,在被稱作共同出現(xiàn)(co-occurrence)的現(xiàn)象中,諸如″聲音″、″風格″或者″語音″這樣的關(guān)鍵詞很有可能隨同諸如″清楚″或者″立體″這樣的詞一起出現(xiàn)。
作為修飾關(guān)鍵詞的詞的、從文本提取的詞是適于代表音樂評論文本的內(nèi)容的詞,也就是,代表諸如包括清楚歌曲的CD的音樂CD的音樂特性的詞。在這個示例中,從文本提取的典型詞是″清楚″和″立體″。這樣,通過輸入這樣的關(guān)鍵詞并且如上所述那樣提取與關(guān)鍵詞對應的特征詞,有可能從與該領(lǐng)域相關(guān)的文本中提取音樂領(lǐng)域的特征詞。如上所述,音樂領(lǐng)域的特征詞是代表音樂特性的詞。在這個例子中,與音樂領(lǐng)域相關(guān)的文本是音樂評論文本。
例如,在相關(guān)領(lǐng)域技術(shù)中希望提取很少出現(xiàn)的詞作為特征詞。在這種情況下,有必要將針對詞的條件并入提取技術(shù)本身中。然而依據(jù)本發(fā)明,通過適當?shù)剡x擇關(guān)鍵詞,根據(jù)關(guān)鍵詞的特征詞可以被提取作為具有某種語義趨勢的特征詞。
下面解釋信息處理裝置1的典型配置。原始文檔文本存儲部件21用于存儲要從中提取特征詞的句子(或者文本數(shù)據(jù))。在本示例的情況下,在原始文檔文本存儲部件21中存儲的句子是音樂CD的評論文本。
語素(morpheme)分析部件22用于將原始文檔文本存儲部件21中存儲的文本數(shù)據(jù)(或者句子)分離成詞并將這些詞提供給模型詞產(chǎn)生部件23。這些詞的例子是″聲音″、″音像″、″硬″、″立體″、″唱片集”和″做″。
模型詞產(chǎn)生部件23是如下部件,用于將從語素分析部件22接收的詞轉(zhuǎn)換成數(shù)學詞模型以觀察詞間的關(guān)系,并將作為轉(zhuǎn)換結(jié)果獲取的詞模型提供給模型詞存儲部件24。
詞模型是諸如PLSA(Probabilistic Latent Semantic Analysis,概率性潛在語義分析)和SAM(Semantic Aggregate Model,語義聚合體模型)的概率模型。在這些詞模型中,在句子和詞之間或者在詞和詞之間的共同出現(xiàn)背后存在潛在變量。概率性出現(xiàn)決定個體表達。
1999年的Uncertainty in Artificial Intelligence(人工智能中的不確定性)會議上作者為Hofmann,T.的″Probabilistic Latent SemanticAnalysis(概率性潛在語義分析)″中介紹了PLSA。另一方面,2002年信息研究報告2002-NL-147中的77到84頁中的作者為Daichi Mochihashi和YujiMatsumoto的″Semantic Probability Expression(語義概率表達)″中介紹了SAM。
在SAM的情況下,例如詞wi和詞wj共同出現(xiàn)的概率由等式(1)關(guān)于潛在概率變量c表示,該變量c是可能具有k個預先確定了的值c0,c1,...ck-1之一的變量。從等式(1),關(guān)于詞w的概率分布P(c|w)可以如等式(2)所示那樣確定。概率分布P(c|w)是詞模型。等式(1)中的概率變量c是潛在變量。通過使用EM算法建立概率分布P(w|c)和概率分布P(c)。
P(wi,wj)=ΣCP(c)P(wi|c)P(wi|c)...(1)]]>P(c|w)∝P(w|c)P(c)...(2)例如,從諸如″聲音″、″音像″、″硬″、″立體″、″唱片集″和″做″的詞w中,獲取如圖2所示那樣的詞模型(P(ci|w)(i=0、1、2、3))。
應當注意的是,在SAM中,如果一個詞關(guān)于另一個詞的共同出現(xiàn)趨勢是類似的,那么他們的概率分布也相互類似。一個詞關(guān)于另一個詞共同出現(xiàn)趨勢的示例是在這兩個詞兩者在一個句子中被使用過的次數(shù)。具體地說,詞‘聲音’、‘音像’、‘硬’和‘立體’關(guān)于詞1至3的共同出現(xiàn)趨勢是相互類似的。這就是說,如圖3所示,詞‘聲音’、‘音像’、‘硬’和‘立體’與詞1和3共同出現(xiàn)的頻率都很高,而詞‘聲音’、‘音像’、‘硬’和‘立體’與詞2共同出現(xiàn)的頻率都很低。在這種情況下,詞‘聲音’、‘音像’、‘硬’和‘立體’的概率分布具有相同的趨勢。這就是說,如圖2顯示,對于所有的詞‘聲音’、‘音像’、‘硬’和‘立體’,P(c1|w)和P(c3|w)很小,而P(c0|w)和P(c2|w)很大。
另一方面,如圖3中所示,詞‘聲音’、‘音像’、‘硬’和‘立體’關(guān)于詞1至3的共同出現(xiàn)趨勢與詞‘唱片集’和‘做’關(guān)于詞1至3的共同出現(xiàn)趨勢不類似。在這種情況下,如圖2所示,詞‘聲音’、‘音像’、‘硬’和‘立體’的概率分布每個都具有與詞‘唱片集’和‘做’的概率分布的趨勢不同的趨勢。應注意到,公知地,諸如詞‘做’這樣的普通詞的概率分布接近離散均勻分布。
除了諸如PLSA和SAM的概率模型以外,作為詞模型,有可能使用已經(jīng)通過使用諸如LSA(潛在語義分析)技術(shù)經(jīng)過維數(shù)壓縮處理的諸如文本向量、共同出現(xiàn)向量和語義向量的矢量??梢匀我膺x擇這些矢量之一。應注意到,如在上面描述的那樣,由于PLSA和SAM在潛在概率狀態(tài)變量的空間中表達詞,所以與普通的共同出現(xiàn)矢量等的使用相比可以較容易地掌握語義趨勢。
在Deerwester,S.等的“Indexing by latent semantic analysis(通過潛在語義分析進行索引)”,Journal of the Society for InformationScience(信息科學協(xié)會期刊),41(6),pp.391-407,1990中介紹了LSA。
重新參見圖1。關(guān)鍵詞存儲部件25在這個例子中用于存儲諸如″聲音″、″風格″和″語音″的詞作為關(guān)鍵詞。
在這個實施例中從由用戶操作一操作部件輸入的詞中收集關(guān)鍵詞,該操作部件在圖中沒有顯示。關(guān)鍵詞獲取部件26是用于獲取經(jīng)由該操作部件輸入的關(guān)鍵詞的部件。關(guān)鍵詞存儲部件25是用作存儲所獲取的關(guān)鍵詞的存儲器。
應注意到,例如可以在源詞之中任意地選擇關(guān)鍵詞,只要可以預期到源詞每一個都由特征詞修飾,即使源詞本身并不表示領(lǐng)域。這就是說,源詞很有可能在被稱作共同出現(xiàn)的現(xiàn)象中隨著特征詞一起出現(xiàn)。例如,源詞是使用頻率比預定值更高的詞。
此外,通過擁有關(guān)鍵詞的更多變化,提供可提取的特征詞的更廣范圍是有可能的。例如,如稍后將描述的那樣,詞‘音像’可以被用作關(guān)鍵詞。因為詞‘音像’語義上與詞″聲音″類似,即,由于詞‘音像’和詞‘聲音’都是表達音質(zhì)的詞,所以通過使用詞″聲音″作為關(guān)鍵詞,選擇詞‘音像’作為新關(guān)鍵詞的必要程度減少了。然而,通過使用代表正交于詞‘聲音’的概念的詞作為關(guān)鍵詞,有可能提取與通過使用詞‘聲音’可以提取的特征詞不同的特征詞。代表正交于詞″聲音″的概念的詞的例子是詞‘節(jié)奏(tempo)’和‘展開(development)’。
特征詞提取部件27使用存儲在模型詞存儲部件24中的詞模型來提取詞作為特征詞并將所提取的詞存儲在特征詞存儲部件28中。所提取的詞是修飾存儲在關(guān)鍵詞存儲部件25中的關(guān)鍵詞的詞。這就是說,所提取的特征詞典型地是很有可能在被稱作共同出現(xiàn)的現(xiàn)象中隨著關(guān)鍵詞一起出現(xiàn)的詞。
下面,通過參考圖4所示的流程圖解釋特征詞提取處理。
如圖中所顯示的,流程圖從步驟S1開始,在該步驟,特征詞提取部件27選擇在關(guān)鍵詞存儲部件25中存儲的關(guān)鍵詞之一。
然后,在下個步驟S2,特征詞提取部件27使用在模型詞存儲部件24中存儲的詞模型來選擇每個與在步驟S1中執(zhí)行的過程中所選擇的關(guān)鍵詞接近的詞。在以下的描述中,接近關(guān)鍵詞的詞被稱為接近詞。
為了表達具體一些,特征詞提取部件27使用根據(jù)詞模型的距離尺度(scale)以發(fā)現(xiàn)關(guān)鍵詞和詞之間的距離。如果關(guān)鍵詞和詞之間的距離比預定值更小,那么該詞被當作接近詞。
如果詞模型是概率模型,那么Kullback-Leibler Divergence(散度)距離可以被用作距離尺度。在以下的描述中,Kullback-Leibler Divergence距離被稱作KL距離。另一方面,如果詞模型是矢量空間方法,那么可以使用歐幾里得(Euclid)距離或余弦距離。
例如,如圖所示,如果詞模型是SAM,則關(guān)鍵詞‘聲音’與詞‘音像’、‘硬’、‘立體’、‘唱片集’和‘做’之間的KL距離分別是0.015、0.012、0.040、0.147和0.069。如果閾值是0.05,那么詞‘音像’、‘硬’和‘立體’每一個都是關(guān)鍵詞″聲音″的接近詞。例如在關(guān)鍵詞″聲音″和詞″音像″之間的KL距離的情況下,從關(guān)鍵詞″聲音″到詞″音像″的距離不同于從詞″音像″到關(guān)鍵詞″聲音″的距離。圖5所示的KL距離每個都是在兩個方向上的距離的平均值。
然后,在下個步驟S3,特征詞提取部件27檢測步驟S1執(zhí)行的處理中所選擇的關(guān)鍵詞的關(guān)鍵詞類似詞。關(guān)鍵詞的關(guān)鍵詞類似詞是語義上與關(guān)鍵詞等同的詞。
通常,用于選擇接近詞的、根據(jù)詞模型的距離尺度對于傾向于共同出現(xiàn)的詞或與關(guān)鍵詞語義類似的詞減小。這就是說,最可能與關(guān)鍵詞共同出現(xiàn)的詞或語義上與關(guān)鍵詞等同的詞被選擇作為關(guān)鍵詞的接近詞。
作為共同出現(xiàn)程度的指示器,諸如互信息量,X2值或dice系數(shù)的量是公知的。
在這種情況下,因為希望提取很有可能與關(guān)鍵詞共同出現(xiàn)的詞,所以特征詞提取部件27使用諸如交互信息量、X2值或dice系數(shù)的量來計算與步驟S1執(zhí)行的過程中所選擇的關(guān)鍵詞共同出現(xiàn)的程度和與步驟S2執(zhí)行的過程中所選擇的接近詞共同出現(xiàn)的程度。然后,特征詞提取部件27把出現(xiàn)程度不超過預定值的詞當作語義上類似于關(guān)鍵詞的接近詞并且將語義上與關(guān)鍵詞等同的接近詞作為關(guān)鍵詞類似詞。
例如,在關(guān)鍵詞‘聲音’和詞‘音像’、‘硬’、‘立體’之間的互信息量是圖6中所示的典型值。在這種情況下,從圖中所示的典型值很明顯的是,關(guān)鍵詞‘聲音’和短語‘音像’之間的互信息量小于在關(guān)鍵詞‘聲音’和詞‘硬’、‘立體’之間的互信息量,說明短語″音像″幾乎不與詞″聲音″共同出現(xiàn)。這就是說,針對關(guān)鍵詞‘聲音’,短語‘音像’被選擇作為與關(guān)鍵詞‘聲音’語義等同的接近詞。
在實際情況中,詞″音像″和″聲音″都是描述音質(zhì)的詞并且它們有幾乎相同的含義。然而,它們被互相獨立地使用在句子中,如″聲音是立體的″和″音像是立體的″。因此,幾乎沒有詞″音像″和″聲音″共同出現(xiàn)的情況。
如上所述,關(guān)鍵詞的關(guān)鍵詞類似詞是與關(guān)鍵詞語義等同的詞。然而,應注意到,這個定義意味著關(guān)鍵詞的關(guān)鍵詞類似詞能夠成為關(guān)鍵詞。關(guān)鍵詞本身不是表示領(lǐng)域特性的詞,但是可以預期的是,關(guān)鍵詞被特征詞修飾。
然后,在下個步驟S4,特征詞提取部件27把在步驟S3執(zhí)行的處理中所檢測到的關(guān)鍵詞類似詞從步驟S2執(zhí)行的處理中所檢測到的接近詞中去除。特征詞提取部件27把剩下的接近詞當作特征詞,并將這些特征詞存儲在特征詞存儲部件28中。
然后,在下個步驟S5,特征詞提取部件27產(chǎn)生關(guān)于是否已選擇了所有關(guān)鍵詞的判定結(jié)果。如果判定結(jié)果指示尚余有待選擇的關(guān)鍵詞,那么處理的流程就繼續(xù)到步驟S1,在步驟S1選擇下一個關(guān)鍵詞。然后,通過相同的方式執(zhí)行步驟S2和后繼步驟的處理。
另一方面,如果步驟S5執(zhí)行的處理中所產(chǎn)生的判定結(jié)果指示所有關(guān)鍵詞都已經(jīng)被選擇了,那么該處理的執(zhí)行結(jié)束。
如上所述,修飾關(guān)鍵詞的詞(與關(guān)鍵詞共同出現(xiàn)的詞)被作為特征詞提取。因此,例如,如果詞″聲音″被作為關(guān)鍵詞輸入,那么可以從音樂評論文本中提取每個修飾關(guān)鍵詞的特征詞(或每個描述音樂特性的詞)。典型的每個修飾關(guān)鍵詞″聲音″的特征詞為″硬″和″立體″。
這就是說,例如,如果音樂CD的音樂評論文本通過強調(diào)從該文本提取的特征詞來顯示,那么有可能為用戶提供一種音樂CD介紹屏幕,其允許用戶容易地識別出表達音樂特性的詞。
此外,如上所述,如果提取的特征詞被用作用于設置與表示用戶喜好的信息匹配的元數(shù)據(jù),那么有可能推薦音樂特性方面更適合用戶喜好的歌曲。
因為普通的元數(shù)據(jù)也包括與音樂特性松散相關(guān)的詞,與使用這些松散相關(guān)的詞進行的匹配建立相比,從音樂特性的觀點來看,通過僅僅使用作為描述音樂特性的特征詞的根據(jù)本發(fā)明所提取的特征詞進行的匹配建立使得有可能推薦給用戶的歌曲更適合作為其喜好的歌曲。與音樂特性松散相關(guān)的詞的示例是描述銷售區(qū)域的詞和涉及藝術(shù)家的偶象特性的詞。自然地,應當注意的是,通過提取描述藝術(shù)家的偶象特性的特征詞作為用于關(guān)鍵詞″形象″或″偶象″的特征詞,那么從偶象特性的觀點來看,有可能推薦適合喜好的歌曲。
通過指定每個均代表ABC公司的名字的ABC、abc和ABC Corp中的一個作為關(guān)鍵詞,可以從報紙的新聞文章中提取特征詞。典型的特征詞包括″喜愛″和″進步″來揭示好的財政狀況。換句話說,關(guān)于ABC公司的領(lǐng)域知識可以用一個詞表示,即公司名字ABC abc或ABC Corp中的一個。
如上所述,可以使用根據(jù)本發(fā)明提取的特征詞。
在上面的描述中,僅使用預先存儲在關(guān)鍵詞存儲部件25中的關(guān)鍵詞。但是,如上所述,因為從接近詞中去除的關(guān)鍵詞類似詞可以被用作關(guān)鍵詞,所以被去除的關(guān)鍵詞類似詞可以用作附加關(guān)鍵詞。
圖7是示出了被去除的關(guān)鍵詞類似詞用作附加關(guān)鍵詞的情況下的信息處理裝置1的典型配置的結(jié)構(gòu)圖。圖中所示的信息處理裝置1使用特征詞提取部件31作為圖1所示的配置中包括的特征詞提取部件27的替換。圖7中顯示的配置的其他部件與圖1所示配置相同。
通過參考圖8所示的流程圖解釋由特征詞提取部件31為提取特征詞而執(zhí)行的處理。
圖8所示的流程圖中步驟S11到S14所執(zhí)行的處理分別等同于圖4所示的流程圖中步驟S1到S4所執(zhí)行的處理。因此,為避免重復而不再復述對這些處理的解釋。
在步驟S15執(zhí)行的過程中,特征詞提取部件31將在步驟S13執(zhí)行的處理中檢測到的關(guān)鍵詞類似詞作為附加關(guān)鍵詞存儲到關(guān)鍵詞存儲部件25中。
然后,在下個步驟S16,特征詞提取部件31產(chǎn)生判定結(jié)果,即是否包括步驟S15執(zhí)行的處理中所存儲的附加關(guān)鍵詞在內(nèi)的所有關(guān)鍵詞都已經(jīng)被選擇了。如果判定結(jié)果指示尚余有關(guān)鍵詞待選擇,那么處理的流程就繼續(xù)到步驟S11,在步驟S11選擇下一個關(guān)鍵詞。然后,通過相同的方式實現(xiàn)步驟S12和后繼步驟的處理。
前面描述的一系列過程,諸如提取特征詞的處理的一系列過程,可以通過硬件和/或軟件的執(zhí)行來實現(xiàn)。如果上面描述的一系列過程是通過軟件執(zhí)行而實現(xiàn)的,那么組成軟件的程序可以典型地從網(wǎng)絡或記錄媒體被安裝到嵌入有專用硬件的計算機、通用個人計算機或類似物中。圖9是顯示計算機或個人計算機的配置的結(jié)構(gòu)圖。通過安裝各種程序到通用的個人計算機里,該個人計算機能夠?qū)崿F(xiàn)各種功能。
圖9所示的配置中,CPU(中央處理器)111通過執(zhí)行ROM(只讀存儲器)112中存儲的程序或從硬盤114加載到RAM(隨機存取存儲器)113里的程序來實施各種處理。RAM 113也用于適當?shù)卮鎯Ω鞣N信息,諸如執(zhí)行處理所需要的數(shù)據(jù)。
CPU 111、ROM 112、RAM 113和硬盤114通過總線115相互連接,該總線也連接到輸入/輸出接口116。
輸入/輸出接口116連接到輸入部件118、輸出部件117和通信部件119。該輸入部件118包括鍵盤、鼠標和輸入終端,而輸出部件117包括顯示單元和揚聲器。顯示單元可以是CRT(陰極射線管)顯示單元或LCD(液晶顯示)單元。通信部件119具有諸如ADSL(非對稱數(shù)字用戶線)調(diào)制解調(diào)器、終端適配器或LAN(局域網(wǎng))卡的裝置。通信部件119是用于通過諸如互聯(lián)網(wǎng)這樣的網(wǎng)絡執(zhí)行與其他裝置的通信處理的單元。
輸入/輸出接口116還連接到驅(qū)動器120上,在該驅(qū)動器上適當?shù)匕惭b有諸如可拆卸媒體的前述記錄媒體。該記錄媒體可以是包括軟盤的磁盤131、包括CD-ROM(光盤只讀存儲器)和DVD(數(shù)字多功能盤)的光盤132,包括MD(迷你盤)的磁光盤133,以及包括半導體器件的可拆卸媒體134。如上所述,將由CPU 111執(zhí)行的計算機程序被從記錄媒體安裝到硬盤114里,以最終被加載到RAM 113里。
還應注意到,在這個說明書中,上述流程圖的步驟不僅僅可以以預定的順序沿著時間軸來執(zhí)行,還可以并行地或獨立地執(zhí)行。
此外,本領(lǐng)域技術(shù)人員應該理解,落在所附的權(quán)利要求或其等同范圍之內(nèi)的各種修改、組合、次組合和改變都可以根據(jù)設計需要和其它因素而發(fā)生。
還應注意到,在這個說明書中使用的技術(shù)術(shù)語″系統(tǒng)″意味著包括多個裝置的匯合的配置。
本發(fā)明包含的主題內(nèi)容涉及于2005年3月31日在日本專利局申請的日本專利申請JP 2005-101963,其整個內(nèi)容被作為參考合并在此。
權(quán)利要求
1.一種信息處理裝置,包括獲取裝置,用于獲取代表領(lǐng)域知識特性的關(guān)鍵詞;以及提取裝置,用于從文本中提取每個具有接近所述關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與所述關(guān)鍵詞相關(guān)聯(lián)而在所述接近詞之中提取與所述關(guān)鍵詞共同出現(xiàn)的程度高的詞作為所述關(guān)鍵詞的特征詞。
2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中所述提取裝置產(chǎn)生詞模型,用作規(guī)定在作為對文本數(shù)據(jù)執(zhí)行語素分析的結(jié)果所獲取的詞之間的關(guān)系的數(shù)學模型;以及以所述詞模型提取每個都具有接近所述關(guān)鍵詞的距離尺度的接近詞。
3.根據(jù)權(quán)利要求1所述的信息處理裝置,其中所述提取裝置提取修飾所述關(guān)鍵詞的詞作為用于關(guān)鍵詞的所述特征詞。
4.根據(jù)權(quán)利要求1所述的信息處理裝置,其中所述提取裝置在所述接近詞之中提取與所述關(guān)鍵詞共同出現(xiàn)的程度低的詞,并將所述提取的詞用作附加關(guān)鍵詞。
5.根據(jù)權(quán)利要求1所述的信息處理裝置,其中所述的信息處理裝置進一步包括處理裝置,用于從其他文本中獲取代表另一文本特性的詞;選擇與代表所述其他文本的所述特性的所述詞對應的關(guān)鍵詞;從所述其他文本中提取所述選擇的關(guān)鍵詞和與所述選擇的關(guān)鍵詞相關(guān)的特征詞;以及執(zhí)行將所述提取的特征詞呈現(xiàn)給用戶的處理。
6.一種信息處理方法,包括步驟獲取代表領(lǐng)域知識特性的關(guān)鍵詞;以及從文本中提取每個具有接近所述關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與所述關(guān)鍵詞相關(guān)聯(lián)而在所述接近詞之中提取與所述關(guān)鍵詞共同出現(xiàn)的程度高的詞作為所述關(guān)鍵詞的特征詞。
7.一種程序記錄媒體,用于存儲包括以下步驟的程序獲取代表領(lǐng)域知識特性的關(guān)鍵詞;以及從文本中提取每個具有接近所述關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與所述關(guān)鍵詞相關(guān)聯(lián)而在所述接近詞之中提取與所述關(guān)鍵詞共同出現(xiàn)的程度高的詞作為所述關(guān)鍵詞的特征詞。
8.一種信息處理裝置,包括獲取部件,用于獲取代表領(lǐng)域知識特性的關(guān)鍵詞;以及提取部件,用于從文本中提取每個具有接近所述關(guān)鍵詞的距離尺度的接近詞,以及通過將特征詞與所述關(guān)鍵詞相關(guān)聯(lián)而在所述接近詞之中提取與所述關(guān)鍵詞共同出現(xiàn)的程度高的詞作為所述關(guān)鍵詞的特征詞。
全文摘要
本發(fā)明提供一種提取給定關(guān)鍵詞的特征詞的方法。用戶指定關(guān)鍵詞作為領(lǐng)域知識,以便從文本提取特征詞。例如,用戶希望從用作音樂領(lǐng)域中的文本的音樂CD音樂評論文本中提取代表歌曲音樂特性或藝術(shù)家音樂特性的特征詞。在這種情況下,用戶指定諸如“聲音”、“風格”或“語音”這樣本身并不代表具體的音樂特性的詞作為關(guān)鍵詞。然而,可以預期諸如“聲音”、“風格”或者“語音”這樣的詞能夠被諸如“清楚”或者“立體”這樣表示音樂特性的詞修飾。通過指定諸如“聲音”、“風格”或“語音”這樣的詞作為關(guān)鍵詞,可以從原始文本中提取修飾指定詞的詞。從音樂評論文本中提取的作為修飾關(guān)鍵詞的詞是適用于表示文本內(nèi)容的詞。
文檔編號G06F17/30GK1855102SQ200610089858
公開日2006年11月1日 申請日期2006年3月31日 優(yōu)先權(quán)日2005年3月31日
發(fā)明者館野啟 申請人:索尼株式會社