專利名稱:根據(jù)單詞相關(guān)度識別單詞聚類的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及詞典(lexigmphical)分析,更具體地說,涉及根據(jù)單詞相關(guān)度識別單詞聚類。
背景技術(shù):
一組數(shù)據(jù)可以包含大量信息,然而査找到相關(guān)信息卻可能比較困難。關(guān)鍵詞搜索是査找信息的主要技術(shù)。然而,在特定情況下關(guān)鍵詞搜索在定位信息時并不有效。
發(fā)明內(nèi)容
圖1例示了根據(jù)語言的單詞之間的相關(guān)度來生成語言本體的系統(tǒng)的一種實施方式-,
圖2例示了可與圖1的系統(tǒng)一起使用的相關(guān)度模塊的一種實施方式;圖3例示了記錄基本相關(guān)度的相關(guān)度矩陣的實施例;圖4例示了記錄有向相關(guān)度的相關(guān)度矩陣的實施例;圖5例示了記錄平均相關(guān)度的相關(guān)度矩陣的實施例;圖6例示了相關(guān)度圖的實施例;以及
圖7例示了可與圖1所示的系統(tǒng)一起使用的聚類模塊的一種實施方式。
具體實施方式
概述
在一種實施方式中,識別單詞聚類包括訪問記錄相關(guān)度的記錄。第
8一單詞和第二單詞之間的相關(guān)度描述了第一單詞和第二單詞之間的定量關(guān)系。單詞聚類是根據(jù)近似度識別的。聚類中包括彼此足夠相關(guān)的單詞。如果第一單詞和第二單詞之間的相關(guān)度滿足一個或更多個相關(guān)度判據(jù)則第一單詞與第二單詞足夠相關(guān)。利用聚類進行聚類分析。
示例實施方式
在具體實施方式
中,領(lǐng)域本體的創(chuàng)建及查詢包括以下步驟
1、 收集領(lǐng)域中的文檔。在具體實施方式
中,文檔是詞條的集合。文檔包括可讀文本,例如,書《新約》。文檔不需要包括敘述性形式的文本,
例如,文檔可以包括用戶輸入的一組標注(tag),其單獨及共同地描述了圖像的內(nèi)容。文檔的集合可稱為"領(lǐng)域文集(domain corpus)"。
2、 識別該領(lǐng)域中感興趣的詞條("詞典詞條")。詞條的實施例包括單詞(諸如"樹")、短語(諸如"圖形算法")、命名實體(諸如"紐約")等。詞條(或概念)可具有不同的形式。在特定情況下,不同的單詞用于同一概念,例如,"kidney stones (腎結(jié)石)"和"kidney calculi (腎結(jié)石)"是指同一概念,即"腎結(jié)石"。在其它情況下,詞干可具有多種詞形變化
(inflected varian),例如,詞干"tree"具有詞形變化"tree"和"trees"。在具體實施方式
中,同一詞條的各種形式可處理為映射到同一詞條。詞典詞條的任意適當形式可出現(xiàn)在文檔中,但是具體詞典詞條不一定出現(xiàn)在任意文檔中。
識別詞典詞條的方法的實施例包括利用用于特定領(lǐng)域的人造詞典,例如,醫(yī)學詞典。在具體實施方式
中,可根據(jù)文檔集中的一組文本串自動地生成詞典詞條的列表??梢园凑疹l度對這些串進行索引及分類,并且可選擇頻度大于閾值的串??墒褂闷渌线m的統(tǒng)計方法來確定詞條。在具體實施方式
中,"單詞"可與"詞條"及"詞典詞條"互換。
3、 計算給定的共現(xiàn)上下文中詞典詞條的共現(xiàn)(co-occurrence)數(shù)量。如果兩個詞條中的每一個都在同一共現(xiàn)上下文(co-occurrence context)中至少出現(xiàn)一次,則這兩個詞條共現(xiàn)。共現(xiàn)上下文的實施例包括文檔和段落。
4、 創(chuàng)建包括該領(lǐng)域本體的有向加權(quán)圖(directed weighted graph)。該有向加權(quán)圖包括作為節(jié)點的詞典詞條以及作為邊權(quán)重的相關(guān)度。"有向加權(quán)圖"可以用作可由任意合適的數(shù)據(jù)結(jié)構(gòu)(例如,矩陣、二值判決圖、或二值判決圖的集合)代表的同一信息的實際表達。
5、應(yīng)用查詢該有向加權(quán)圖的流程。給定一個或更多個詞典詞條作為輸入,該流程輸出與輸入的詞典詞條有關(guān)的一個或更多個詞典詞條。例如,該流程可輸出一個或更多個詞條的分類列表,所述一個或更多個詞條針對一個或更多個輸入詞條具有最高的差分有向相關(guān)度(如下所述)。在這種情況下,就該本體涉及的領(lǐng)域而言,該輸出包括較接近輸入詞條的詞條。
可使用任意適當?shù)南嚓P(guān)度定義。在具體的實施方式中,可使用以下
定義
1、 基本相關(guān)度
a. 詞條A與B之間的基本相關(guān)度(A)可定義為包括詞條A和B這兩者的共現(xiàn)上下文的數(shù)量與包括詞條A或B的共現(xiàn)上下文的數(shù)量的比值
A(A,B) = |AB|/|A or B|
b. 詞條A與B之間的基本相關(guān)度(A)還可定義為包括詞條A和B這兩者的共現(xiàn)上下文的數(shù)量與包括A的共現(xiàn)上下文的數(shù)量或包括B的共現(xiàn)上下文的數(shù)量中的最大值的比值-
A(A,B) = |AB|/max(|A|,|B|)
2、 有向相關(guān)度
詞條A與B之間的有向相關(guān)度(DAff)可定義為在假定共現(xiàn)上下文中觀察到了 A的情況下觀察到B的條件概率
DAff(A,B) = |AB| / |A|也就是說,有向相關(guān)度可以是包括詞條A和B這兩者的共現(xiàn)上下文的數(shù)量與包括詞條A的共現(xiàn)上下文的數(shù)量的比值。通常,DAff(A,B)與DAff(B,A)不同。
3、 差分有向相關(guān)度
詞條A和B之間的差分有向相關(guān)度(DiffDAff)可定義為詞條A
10與B之間的有向相關(guān)度減去考慮了該文集中的詞條B的常見程度(common-ness)的參數(shù)。在該文集中的詞條B的常見程度可以是詞條B
與該文集中的其它詞條的基本相關(guān)度或有向相關(guān)度值的統(tǒng)計值。在具體實施方式
中,該文集中的詞條B的常見程度可以是詞條B的平均相關(guān)度(AA),這得到以下差分有向相關(guān)度的定義
DiffDAff(A,B) = DA(A,B) - AA(B)詞條B的平均相關(guān)度(AA)或平均有向相關(guān)度可定義為
AA(B) = AVERAGE一x DAff(x, B)也就是說,平均相關(guān)度是共現(xiàn)上下文中的詞條B與其他詞條的有向相關(guān)度的平均值。
圖1示出了識別單詞的聚類的系統(tǒng)10的一種實施方式。在特定實施方式中,系統(tǒng)10根據(jù)單詞之間的相關(guān)度識別單詞的聚類。聚類中包括彼此足夠相關(guān)的單詞,其中足夠的相關(guān)度是根據(jù)一個或更多個相關(guān)度判據(jù)確定的。在具體實施方式
中,系統(tǒng)10進行聚類分析。聚類分析的實施例包括根據(jù)頁面的聚類對頁面分類,根據(jù)文集的聚類確定文檔集的特性,以及基于用戶的文檔中的聚類分析用戶。
在特定實施方式中,對于給定的單詞子集和詞典D,可以基于特定
的反向索引II計算有向相關(guān)度,其中索引II例如包括針對單詞Wj和Wj的條目I(Wi)和I(Wj)。 一般而言,反向索引是存儲從詞條到它的位置(即詞條出現(xiàn)的共現(xiàn)上下文)的映射的索引數(shù)據(jù)結(jié)構(gòu)。對于D中的每對單詞Wi和Wj, DA(i,j)可以被定義為II中的條目I(Wi)和I(Wj)的合取值除以I(Wi)的數(shù)目值。一般而言,DA(i,j)不必等于DA(j,i)。結(jié)果可以以任意合適的方式例如以行方式存儲,其中D(l,i)被存儲,然后D(2,j)被存儲,依此類
推。對于每行i,可以存儲iI(Wi)l,接著是與Wj的合取的基數(shù)。
在特定實施方式中,可以在三個階段中計算有向相關(guān)度。在這些實施方式中,每個詞典詞條被指派以唯一的整數(shù)標識符。反向索引的條目對應(yīng)于整數(shù)標識符。在階段O,對應(yīng)于D的II條目被讀取。對于參數(shù)(s,Q),僅形式ks+o的元素標識符被保留。值ks+o定義了將被檢驗的II條目的子集。以這樣的方式,可以并行地計算有向相關(guān)度。作為示例,來自參數(shù)s,o(l,0)的結(jié)果相當于對參數(shù)(3, 0)、 (3, 1)、 (3, 2)的計算進行合并獲 得的結(jié)果。該步驟允許計算用于很大反向索引的DA表。
在階段1內(nèi),僅僅針對DA(i, j)以行的方式進行合取運算。在階段2 內(nèi),讀取計算出的上三角形UTDA陣列。據(jù)此獲得作為UT置換的下三 角形部分。在特定的實施方式中,可以將多個維數(shù)相同的DA陣列并成 單個陣列??梢砸?s,i)為參數(shù)按照犯!^=()...(3_1) DA來計算與大II相關(guān)的 DA數(shù)組??梢詫⒏郊有畔⑴c計算的合取存儲起來,以便可以計算有向相 關(guān)度。在一定的情況中,可以存儲n條目的基數(shù)。
在特定的實施方式中,可以以行的方式存儲DA,所以AA條目的計 算可以與DA條目的計算并行地進行。具體地,可以通過在從盤中讀取 DA時對DA的行進行求和,最后通過詞典條目的數(shù)量進行歸一化而生成 AA。
在示出的實施方式中,系統(tǒng)10包括客戶端20、服務(wù)器22和存儲器 24??蛻舳?0允許用戶與服務(wù)器22通信以便生成語言本體??蛻舳?0 可以將用戶輸入發(fā)送到服務(wù)器22,并且可以將服務(wù)器輸出提供(例如顯示 或打印)給用戶。服務(wù)器系統(tǒng)24管理用于生成語言本體的應(yīng)用。存儲器 24存儲服務(wù)器系統(tǒng)24使用的數(shù)據(jù)。
在示出的實施方式中,存儲器24存儲頁面50和記錄54。頁面50(或 文檔或共現(xiàn)上下文)可以指文字集合。頁面50的例子包括一個或更多個文 檔頁面、 一個或更多個文檔、 一本或更多本書、 一個或更多個網(wǎng)頁、信 件(例如電子郵件或即時消息)和/或其它文字集合。可以通過頁面識別符 識別頁面50??梢詫㈨撁?0電子地存儲中一個或更多個有形計算機可讀 媒介中。頁面50可以與任何適當?shù)膬?nèi)容例如文本(例如字符、文字和/或 數(shù)字)、圖像(例如圖形、像片或視頻)、音頻(例如錄音或計算機生成的聲 音)和/或軟件程序相聯(lián)系。在特定的實施方式中, 一組頁面50可以屬于 --個文集。該文集可以與具體的主題、社區(qū)、組織或其它實體相聯(lián)系。
記錄54描述了頁面50。在該實施方式中,記錄54包括索引58、反 向索引62、本體66以及聚類67。索引58包括索引列表,其中,頁面50 的索引列表指示頁面50的單詞。反向索引62包括反向索引列表,其中,
12單詞(或單詞集)的反向索引列表指示包括所述單詞(或所述單詞集)
的頁面50。在一個實施例中,列表Wi包括包含有單詞Wj的頁面50的頁 面標識符。列表Wi&Wj包括合取頁面50 (其包含單詞Wj和Wj這兩者) 的頁面標識符。列表Wi+Wj包括分取(disjunction)頁面50 (其包含單 詞Wi或Wj)的頁面標識符。P(Wi)是Wi中頁面50的數(shù)量,B卩,包括單詞 Wi的頁面50的數(shù)量。
在一種實施方式中,列表(諸如索引列表或反向索引列表)可被存 儲為二值判決圖(BDD)。在一個實施例中,集合Wi的二值判決圖BDD (Wi)代表具有單詞Wi的頁面50。 BDD(Wj)的滿足指定計數(shù)(satisfying assignment count) Satisf(BDD(WO)得到具有單詞w;的頁面50的數(shù)量
P(Wj):
P(Wj) = Satisf(BDD(Wi)) 因此,
P(W在Wj) = Satisf(BDD(Wi) AND BDD(W》) P(Wj+Wj) = Satisf(BDD(Wi) OR BDD(W》)
本體66代表語言的單詞以及這些單詞之間的關(guān)系。在一種實施方式 中,本體66代表單詞之間的相關(guān)度。在例示的實施例中,本體66包括 相關(guān)度矩陣和相關(guān)度圖。參照圖3到圖5來描述相關(guān)度矩陣的實施例。 參照圖6來描述相關(guān)度圖的實施例。聚類67記錄彼此相關(guān)的詞的聚類。 參照圖7更詳細地描述這些聚類。
在示出的實施方式中,服務(wù)器22包括相關(guān)度模塊30和聚類模塊31 。 相關(guān)度模塊30可以計算單詞對的相關(guān)度、記錄相關(guān)度矩陣中的相關(guān)度和 /或報告相關(guān)度矩陣。相關(guān)度模塊30還可以產(chǎn)生相關(guān)度圖。將參照圖2 更詳細地描述相關(guān)度模塊30。
在特定實施方式中,聚類模塊31可以通過識別數(shù)據(jù)集中相關(guān)元素的 聚類發(fā)現(xiàn)數(shù)據(jù)集中的模式(pattem)。在特定實施方式中,聚類模塊31 可以識別一組單詞(例如, 一種語言或一組頁面50)的聚類。 一般而言, 聚類單詞彼此高度相關(guān),但是不與聚類外的單詞高度相關(guān)。單詞聚類可 以指示單詞集的主題(或題目)。在特定實施方式中,聚類模塊31根據(jù)單詞之間的相關(guān)度識別相關(guān)單詞的聚類。在這些實施方式中,聚類單詞
彼此高度相關(guān),但是不與聚類外的單詞高度相關(guān)。將參照圖7更詳細地 描述聚類模塊31。
系統(tǒng)10的組件可以包括接口、邏輯、存儲器和/或其他合適的元件。 接口接收輸入、發(fā)送輸出,處理輸入和/或輸出,和/或執(zhí)行其他合適的操 作。接口可以包括硬件和/或軟件。
邏輯執(zhí)行組件的操作,例如,執(zhí)行指令以根據(jù)輸入產(chǎn)生輸出。邏輯 可以包括硬件、軟件和/或其他邏輯。邏輯可以在一個或更多個有形介質(zhì) 中編碼且當被計算機執(zhí)行時可以進行操作。某些邏輯,例如,處理器, 可以管理組件的操作。處理器的實施例包括一個或更多個計算機、 一個 或更多個微處理器、 一個或更多個應(yīng)用和/或其他邏輯。
存儲器存儲信息。存儲器可以包括一個或更多個有形的、計算機可 讀的和/或計算機可執(zhí)行的存儲介質(zhì)。存儲器的示例包括計算機存儲器(例 如,隨機存取存儲器(RAM)或只讀存儲器(ROM),)、海量存儲介質(zhì) (例如,硬盤)、可移動存儲介質(zhì)(光盤(CD)或數(shù)字視頻光盤(DVD))、 數(shù)據(jù)庫和/或網(wǎng)絡(luò)存儲器(例如,服務(wù)器)以及/或其他計算機可讀介質(zhì)。
可以對系統(tǒng)10做出修改、添加或省略而不偏離本發(fā)明的范圍。系統(tǒng) 10的組件可以是集成的或分立的。而且,系統(tǒng)10的操作可以通過更多或 更少或其他組件實施。例如,生成器42和46的操作可以通過一個組件 執(zhí)行,或者相關(guān)度計算器34的操作可以通過多于一個的組件執(zhí)行。另外, 系統(tǒng)10的操作可以使用任意合適的邏輯實施,包括軟件、硬件和/或其他 邏輯。當在本文中使用時,"各個"表示集中的各個成員或集的子集中的 各個成員。
可以對矩陣的實施例做出修改、添加或省略而不偏離本發(fā)明的范圍。 矩陣可以包括更多的、更少的或其他的值。另外,矩陣的值可以以任意 合適的順序布置。
圖2示出了可以與圖1的系統(tǒng)10—起使用的相關(guān)度模塊30的一種 實施方式。相關(guān)度模塊30可以為單詞對計算相關(guān)度、在相關(guān)度矩陣中記 錄相關(guān)度以及/或者報告相關(guān)度矩陣。相關(guān)度模塊30還產(chǎn)生相關(guān)度圖。
14在所示出的實施方式中,相關(guān)度模塊30包括相關(guān)度計算器34、本 體生成器38和單詞推薦器48。相關(guān)度計算器34為單詞w,.或包括第一單 詞vt;,和第二單詞v^的單詞對計算任意類型的相關(guān)度。相關(guān)度的實施例包 括基本相關(guān)度、有向相關(guān)度、平均相關(guān)度、差分相關(guān)度和/或其他相關(guān)度。
在一種實施方式中,單詞推薦器48接收種單詞且識別與該種單詞之 間的相關(guān)度大于閾值相關(guān)度的單詞。閾值相關(guān)度可以具有任何適當?shù)闹担?諸如大于或等于0.25、 0.5、 0.75或0.95。閾值相關(guān)度可以被預(yù)編程或由 用戶設(shè)定。
基本相關(guān)度可以根據(jù)包括單詞w,和/或"的頁面50的數(shù)量(例如, 數(shù)目)計算。合取頁面數(shù)量代表包括單詞w,和單詞Wy兩者的頁面50的 數(shù)量。分取頁面數(shù)量代表包括w,或勺的頁面50的數(shù)量。通過將合取頁 面數(shù)量除以分取頁面數(shù)量,可以給出基本相關(guān)度。在一個實施例中,合 取頁面數(shù)表示包括單詞vv,和單詞巧的頁面數(shù),而分取頁面數(shù)表示包括單 詞w,.或Wy的頁面數(shù)。通過將合取頁面數(shù)除以分取頁面數(shù)可以給出基本相 關(guān)度
Affinity w》=尸W c&『》/ P(W +巧)
圖3例示了記錄基本相關(guān)度的相關(guān)度矩陣110的實施例。在所例示 的實施例中,相關(guān)度矩陣IIO記錄單詞W/,...,w的逐對相關(guān)度。根據(jù)相關(guān) 度矩陣IIO,單詞vi^與w/之間的相關(guān)度是0.003,單詞v^與v^之間的相 關(guān)度是0.005,以此類推。
返回參照圖1,相關(guān)度組包括彼此具有高相關(guān)度的單詞對,并可用 于針對頁面內(nèi)容而獲得單詞w和巧之間的關(guān)系。較高的相關(guān)度可指定為 大于相關(guān)度組閾值的相關(guān)度。閾值可以設(shè)定為任意合適的值,例如大于 或等于0.50, 0.60, 0.75, 0.90或0.95。 一個單詞可屬于多于一個的相關(guān) 度組。在一種實施方式中,相關(guān)度組可表示為BDD。用于該BDD的指 針可與該組的各個單詞一起存儲在反向索引62中。
有向相關(guān)度可用于測量單詞w,對于圬的重要性。相關(guān)度計算器34 根據(jù)包括單詞w,和巧的頁面50的數(shù)量(例如,數(shù)目)來計算單詞 與 給定單詞HV的有向相關(guān)度。單詞^頁面數(shù)量表示包括單詞w,的頁面50
15的數(shù)量。單詞W,與給定單詞巧的有向相關(guān)度可通過合取頁面數(shù)量除以單 詞巧頁面數(shù)量得到。例如,單詞"頁面的數(shù)量指示包括單詞W,.的頁面
50的數(shù)量。單詞w,.與給定單詞力的有向相關(guān)度可通過合取頁面50的數(shù) 量除以單詞w,頁面50的數(shù)量得到 DAffinity(w,, wy)=尸(『,'在『》/尸(
DAffinity(w,, w》與DAffinity(w力w,.)不同。單詞w與"之間的高有向 相關(guān)度DAffmity(w,,、力)指示在頁面50包括單詞wy的情況下頁面50包括 單詞w,的概率較高。在一個實施例中,頁面[l 2 3 4 5 6]包括單詞w,,而 頁面[4 2]包括單詞W,包括單詞Wy的頁面也包括單詞W,,因此從單詞". 的角度,單詞vv'.具有較高的重要性。包括單詞w,.的頁面中僅有三分之一 的頁面也包括單詞" ,因此從單詞w,的角度,單詞VV/具有較低的重要性。
圖4例示了記錄單詞v^,.,.,v^的有向相關(guān)度的相關(guān)度矩陣120。在該 實施例中,單詞124是A單詞,而單詞128是B單詞。矩陣120的各行 記錄了 B單詞與給定A單詞的相關(guān)度,而矩陣120的各列記錄了 A單詞 與給定B單詞的相關(guān)度。
返回參照圖l,針對其它單詞"來計算單詞w,的平均相關(guān)度。在一 種實施方式中,平均相關(guān)度可以是單詞w,與其它各個單詞Wy之間的相關(guān) 度的平均。iV個單詞中的單詞v^的平均相關(guān)度可由下式給出
AveAff(W,)= ^S二尸(一)
圖5例示了記錄平均相關(guān)度的相關(guān)度矩陣140的實施例。行142記 錄單詞1到單詞50,000的基本相關(guān)度。行144記錄單詞1到單詞50,000 的平均相關(guān)度。
返回參照圖1,單詞的平均相關(guān)度可指示該單詞的深度(depth)。具 有較低平均相關(guān)度的單詞可認為是較深的單詞,而具有較高平均相關(guān)度 的單詞可認為是較淺的單詞。較深的單詞傾向于更技術(shù)、更具體和更精 確。較深單詞的百分比較高的頁面50可被認為是較深的頁面,而較深單 詞的百分比較低的頁面50可被認為是較淺的頁面。在一種實施方式中, 用戶可指定要提取的單詞和/或頁面50的深度。
頁面50的較深的單詞可形成具有高度相關(guān)單詞的一個或更多個聚
16類(duster)。聚類可表示共同思想或主題。頁面50的主題的數(shù)量可指示 頁面50的特異性。具有較少主題的頁面50可被認為是較特殊的,而具 有較多主題的頁面50可被認為是較不特殊的。
單詞w,.相對單詞VV;的差分相關(guān)度是單詞w,與單詞^之間的有向相 關(guān)度減去單詞w,相對其它全部單詞的平均相關(guān)度。差分相關(guān)度可表示為-
DiffAff(w,., w》=DAffinity(w,., w》—AveAff(w》
差分相關(guān)度排除了由單詞w,在頁面50中出現(xiàn)的一般趨勢而造成的 偏差(bias)。在具體情況下,差分相關(guān)度可提供針對給定了頁面包括單 詞w/瞎況下該頁面包括單詞w,的概率的更精確指示。
差分相關(guān)度可用于多種應(yīng)用。在一個實施例中,人名之間的差分相 關(guān)度可用于研究社會網(wǎng)絡(luò)。在另一實施例中,語言元素之間的差分相關(guān) 度可用于研究自然語言處理。在另一實施例中,產(chǎn)品之間的差分相關(guān)度 可用于研究營銷。
相關(guān)度計算器34可使用任意合適的技術(shù)來搜索反向索引列表,以計 算相關(guān)度。例如,為了識別包括單詞w,和單詞"這兩者的頁面,相關(guān)度 計算器34可搜索單詞^的列表^以及單詞"的列表% ,以獲得公共元 素,即公共頁面標識符。
在特定實施方式中,本體生成器38產(chǎn)生語言的本體66,諸如相關(guān) 度矩陣或相關(guān)度圖。本體可以根據(jù)任意合適的相關(guān)度產(chǎn)生,諸如根據(jù)基 本相關(guān)度、有向相關(guān)度、平均相關(guān)度、差分相關(guān)度和/或其他相關(guān)度產(chǎn)生。 本體66可以以任意方式根據(jù)從語言中選出的單詞產(chǎn)生。例如,可以選擇 來自于語言的普遍使用部分的單詞或涉及一個或更多個特定主題領(lǐng)域的 單詞。
在所示出的實施方式中,本體生成器38包括相關(guān)度矩陣生成器42 和相關(guān)度圖生成器46。相關(guān)度矩陣生成器42產(chǎn)生相關(guān)度矩陣,該相關(guān)度 矩陣記錄單詞之間的相關(guān)度。相關(guān)度圖生成器46產(chǎn)生相關(guān)度圖,該相關(guān) 度圖代表單詞之間的相關(guān)度。在相關(guān)度圖中,節(jié)點代表單詞,節(jié)點之間 的有向邊的權(quán)重代表節(jié)點代表的單詞之間的相關(guān)度。相關(guān)度圖可以具有 任意適當大小的維數(shù)。
17圖6示出了相關(guān)度圖150的示例。相關(guān)度圖150包括節(jié)點154和鏈 路158。節(jié)點154代表單詞。在該實施例中,節(jié)點154a代表單詞"二進制"。 節(jié)點154之間的節(jié)點有向邊的權(quán)重代表節(jié)點154代表的單詞之間的相關(guān) 度。例如,較大的權(quán)重代表較大的相關(guān)度。節(jié)點之間的鏈路158表示節(jié) 點154代表的單詞之間的相關(guān)度大于相關(guān)度閾值。相關(guān)度閾值可以具有 任意合適的值,例如,大于或等于0.25、 0.5、 0.75或0.95。
圖7示出了可以與圖1的系統(tǒng)10—起使用的聚類模塊31的一種實 施方式。在特定實施方式中,聚類模塊31通過識別數(shù)據(jù)集中的相關(guān)元素 的聚類發(fā)現(xiàn)數(shù)據(jù)集中的圖案。在特定實施方式中,聚類模塊31可以識別 一組單詞(例如,語言或一組頁面50)的聚類。 一般而言,聚類單詞彼 此高度相關(guān),但是不與聚類之外的單詞高度相關(guān)。單詞的聚類可以指示 該組單詞的主題(或題目)。
在特定實施方式中,聚類模塊31根據(jù)單詞之間的相關(guān)度識別相關(guān)單 詞的聚類。在該實施方式中,聚類的單詞彼此高度相關(guān),但是不與聚類 外的單詞高度相關(guān)。在一種實施方式中,如果單詞足夠相關(guān),它們可以 被認為高度相關(guān)。如果單詞滿足一個或更多個相關(guān)度標準(例如閾值), 單詞可以足夠相關(guān),標準的實施例在下面提供。
任意合適的相關(guān)度都可用于識別聚類。在特定實施方式中,聚類模 塊31使用有向相關(guān)度。單詞相對其他單詞的有向相關(guān)度表征了單詞的共 現(xiàn)。聚類包括具有相似共現(xiàn)的單詞。在特定實施方式中,聚類模塊31使 用差分相關(guān)度。差分相關(guān)度旨在去除單詞在頁面50中出現(xiàn)的一般趨勢導 致的偏差。
在所示出的實施方式中,聚類模塊31包括聚類引擎210和聚類分析 器214。聚類引擎210根據(jù)相關(guān)度識別單詞的聚類,且聚類分析器214應(yīng) 用相關(guān)度聚類以分析各種情況。
聚類引擎210可以以任意合適方式根據(jù)相關(guān)度識別單詞的聚類。用 于識別聚類的方法的三個實施例為根據(jù)一組單詞建立聚類,將單詞分 入聚類,以及比較單詞的相關(guān)度向量。在一種實施方式中,聚類引擎210 根據(jù)一組單詞建立聚類。在一種實施方式中,聚類引擎210根據(jù)具有相
18關(guān)度-Aff(w,,".)的單詞—,.}的集『建立聚類S。相關(guān)度值*八任(>^ 代表 單詞w,:相對于wy的任意合適類型的相關(guān)度,諸如有向相關(guān)度DAffinity(w,, Wy)或差分相關(guān)度DiffAff(W,, w,.)。這里提供的相關(guān)度值的某些實施例可以 被認為是歸一化值。在該實施例中,Afff。r w)代表前向相關(guān)度,且
Affback (W/, W,)代表后向相關(guān)度。
在該實施例中,聚類5*開始于種單詞viv當前單詞v^代表在當前迭
代中與來自集『的單詞比較的聚類S的單詞。最初,當前單詞W被設(shè)置 為種單詞w9。
在迭代中,當前單詞^被設(shè)置為聚類S的單詞。集『的單詞w,根 據(jù)它們與當前單詞W的前向聚類Afff。^^ vO分類。從分類集『的起點 開始,識別滿足相關(guān)度標準的候選單詞we。相關(guān)度標準可以包括與當前
單詞W的前向相關(guān)度標準 AfffbrOc,> Thcf
以及與種單詞V^的后向相關(guān)度標準 AffbackOp Wc) > Thcb
其中Thef代表候選單詞的前向閾值,Theb代表候選單詞的后向閾值。 候選單詞{>^}的有序集的第一單詞被添加到聚類&添加的單詞數(shù)由參數(shù) Size。給出。閾值Th。f和Theb可以為范圍從最小值到最大值的任何適當值 的浮點參數(shù)。在特定的實施例中,閾值Thef和Theb的適當值可以根據(jù)實
際相關(guān)度的等級列表確定。例如,可以使用列表的第200個值。參數(shù)Sizee 可以是具有任意合適值的整數(shù)參數(shù)。合適的值的實施例包括缺省值1、 2、 3或4。在特定實施方式中,參數(shù)可以在特定迭代處變化。
可以執(zhí)行任意合適數(shù)目的迭代。在一個實施例中,可以在方法啟動 之前設(shè)計迭代數(shù)目。在另一實施例中,可以在方法的執(zhí)行過程中計算次 數(shù)。例如,可以根據(jù)聚類S的尺寸的生長速度計算次數(shù)。
在另一實施方式中,聚類引擎210通過將一組單詞中的單詞分類成 聚類來識別聚類。在一個實施例中,集『的單詞^v, }根據(jù)相關(guān)度*Aff(W,, ")(諸如差分相關(guān)度或有向相關(guān)度)分類。在另一實施例中,單詞{>^} 根據(jù)聚集函數(shù)分類,例如,根據(jù)單詞w,的與單詞分離集Q中的各個成員的相關(guān)度之和分類。集『可以以任意合適的方式選擇。例如,集『可以
是與査詢最相關(guān)的x個單詞,其中x可以是任意合適的值,諸如從10至
100, 100至200或等于或大于200的值。
在該實施例中,聚類最初為空。集『的第一單詞w,被放置在聚類中。 在每次迭代,當前單詞w從集『中選擇。如果tAff(v^, 滿足相關(guān)度閾 值Th給出的相關(guān)度標準,則當前單詞w被放入到聚類,其中ny代表聚 類中放置的第一單詞。閾值Th可以具有任意合適的值,例如,0.1至0.5 范圍的值(最小值為0.0和最大值為1.0)。如果*八任(>^ vv》不滿足閾值 Th,則當前單詞w被置于空聚類。針對集『中的每個單詞重復(fù)該迭代。
在處理了集『的單詞之后,小聚類可以被消除。例如,可以消除具 有少于Y個單詞的聚類。Y可以具有任意合適的值,諸如3至5、 5至 10、 10至25、 25至50,或大于等于50的范圍中的值。
如果聚類的數(shù)目不在滿意的范圍內(nèi),可以使用不同的閾值Th重復(fù)該 處理,該不同的閾值Th給出了針^t在聚類中進行放置的較嚴格或較松的 標準。滿意的范圍可以由具有任意合適值的聚類數(shù)目最小值和聚類數(shù)目 最大值給出。合適值的實施例包括針對最小值的1至5、 5至10或大于 或等于10范圍的值,以及針對最大值的10至15、 15至20或大于或等 于20的范圍中的值。可以增加閾值Th的值以增加聚類的數(shù)目,且可以 減小閾值Th的值以減小聚類數(shù)目。
在另一實施方式中,聚類引擎210通過比較單詞的相關(guān)度向量識別 聚類。在特定實施方式中,相關(guān)度矩陣的行和列可以得出相關(guān)度向量o^,
*Aff(v^, w》,…,*Aff(w,, …,*Aff(w,, w )>,這代表單詞w,.相對于單詞 "的相關(guān)度,j、l,…,"。相關(guān)度值*八汪0^")代表單詞^相對于單詞>^ 的任意合適類型的相關(guān)度,例如,有向相關(guān)度或差分相關(guān)度。
在特定實施方式中,具有相似相關(guān)度值的相關(guān)度向量可以表示聚類。 僅用于描述目的,相關(guān)度向量可以被認為是相關(guān)度空間中單詞的相關(guān)度 的坐標。即,每個相關(guān)度值*八纟代>^, w)可以被認為是特定維數(shù)的坐標。具 有相似相關(guān)度值的相關(guān)度向量表示這些向量與之相關(guān)的單詞在相關(guān)度空 間彼此靠近。即,這些向量表示這些單詞與其他單詞具有類似相關(guān)度關(guān)
20系,且因而可以適用于相同聚類中的成員關(guān)系。
如合適的距離函數(shù)所確定的,如果一個相關(guān)度向量接近另一相關(guān)度 向量,則這些相關(guān)度向量相似。距離函數(shù)可以基于相關(guān)度向量定義為例 如針對給定尺寸的向量的標準歐幾里得距離,或者給定尺寸的向量的余
弦。距離函數(shù)可以通過聚類引擎210或通過用戶指定。
在特定實施方式中,聚類引擎210應(yīng)用聚類算法以識別值彼此接近 的相關(guān)度向量。聚類算法的示例包括直接算法、重復(fù)二等分算法、聚合 算法、偏差聚合算法和/或其它適當算法。在一個實施例中,聚類引擎210 可以包括聚類軟件,諸如CLUTO。
聚類分析器214可以在任意合適的應(yīng)用中使用相關(guān)度聚類以用于分 析。在一種實施方式中,聚類分析器214可以使用相關(guān)度聚類對頁面50 進行分類。類可以與聚類標識符或一個或更多個聚類成員相關(guān)。在一個 實施例中,頁面50的聚類被識別,然后可以根據(jù)聚類對頁面50進行分 類。在另一實施例中,可以選擇頁面50的重要單詞,然后定位包括該單 詞的聚類。然后根據(jù)定位的聚類對頁面50進行分類。
在一種實施方式中,聚類分析器214可以使用相關(guān)度聚類來分析頁 面50的文集。文集可以與特定主題、 一個或更多個個體的社團、組織或 它們的實體相關(guān)。在一個實施例中,聚類分析器214可以識別文集的聚 類且根據(jù)聚類確定文集的文集特性。文集特性可以表示與實體(所述實 體與文集相關(guān))相關(guān)的單詞。如果一個或更多的頁面50具有文集特征的 聚類,則頁面50可以與該實體相關(guān)。
在一種實施方式中,針對搜索查詢歧義消除和擴展,聚類分析器214 可以使用相關(guān)度聚類。在該實施方式中,聚類分析器214識別包括給定 搜索查詢的搜索詞條的聚類。聚類提供與給定搜索查詢相關(guān)的另選單詞 和/或分類。在一個實施例中,來自于聚類的單詞可以被報告給搜索者以 幫助下一次搜索查詢。在另一實施例中,聚類分析器214可以從聚類選 擇單詞且自動地形成一個或更多個新的搜索查詢。聚類分析器214可以 順序地或并行地運行新的查詢。
在一種實施方式中,聚類分析器214可以使用相關(guān)度聚類來研究社
21會網(wǎng)絡(luò)。在一個實施例中,頁面50可以提供社會網(wǎng)絡(luò)的洞察。這種頁面 的實施例包括信件(諸如信、電子郵件和即時消息)、備忘錄、文章和會 議記錄。這些頁面50可以包括包含社會網(wǎng)絡(luò)的中的人的用戶標識符(諸 如名字)的單詞??梢宰R別名字的聚類以分析該網(wǎng)絡(luò)中的人之間的關(guān)系。 在一個實施例中,差分相關(guān)度聚類可用于過濾頁面50中的出現(xiàn)最多的名 字,而不提供諸如系統(tǒng)管理員的名字之類的信息。
在特定實施方式中,聚類分析器214可以通過組合和/或比較數(shù)據(jù)集 的聚類來分析數(shù)據(jù)集。在一種實施方式中,比較交疊數(shù)據(jù)集的聚類。一 個數(shù)據(jù)集的聚類可以映射到其他數(shù)據(jù)集的聚類,這可以提供兩個數(shù)據(jù)集 之間的關(guān)系的洞察。例如,數(shù)據(jù)集可以來自于對一組同事的文檔的分析 且來自于該組的社會網(wǎng)絡(luò)研究。社會網(wǎng)絡(luò)聚類可以映射到文檔主題聚類 以分析社會網(wǎng)絡(luò)和主題之間的關(guān)系。
本發(fā)明的某些實施方式可以提供一個或更多的技術(shù)優(yōu)點。 一種實施 方式的技術(shù)優(yōu)點是可以根據(jù)從單詞之間的相關(guān)度識別單詞的聚類。聚類 包括彼此足夠相關(guān)的單詞,其中足夠的相關(guān)度是根據(jù)一種或更多種相關(guān) 度判據(jù)確定的。 一種實施方式的另一技術(shù)優(yōu)點可以是可進行聚類分析。 聚類分析的實施例包括根據(jù)頁面的聚類對頁面分類,根據(jù)文集的聚類確 定文集特性,并且基于用戶的文檔中的聚類分析用戶。本發(fā)明的特定實 施方式可包括零個、 一些或全部上述技術(shù)優(yōu)點。對于本領(lǐng)域技術(shù)人員而 言,從這里所包括的附圖、說明書以及權(quán)利要求得到一項或更多項其它 技術(shù)優(yōu)點是明顯的。
盡管已經(jīng)根據(jù)某些實施方式描述了本公開,但這些實施方式的變型 和改變對于本領(lǐng)域技術(shù)人員而言是顯見的。因此,實施方式的上述描述 并不限制本公開。在不偏離所附權(quán)利要求限定的本發(fā)明的精神和范圍的
情況下,可以做出其他變型、替代和變更。
本申請要求David(nmi) Marvit等人于2007年10月5日提交的題為 "WORD CLUSTERING BASED ON AFFINITY"的美國臨時申請第 60/977,811號(律所案號:073338.0550)的優(yōu)先權(quán)。
2權(quán)利要求
1、一種方法,所述方法包括訪問存儲于一個或更多個有形存儲介質(zhì)中的記錄,所述記錄記錄了多個相關(guān)度,第一單詞和第二單詞之間的相關(guān)度描述了所述第一單詞和所述第二單詞之間的定量關(guān)系;根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類,聚類包括一個或更多個彼此足夠相關(guān)的單詞,如果第一單詞和第二單詞之間的相關(guān)度滿足一種或更多種相關(guān)度判據(jù)則所述第一單詞與所述第二單詞足夠相關(guān);利用所述聚類進行聚類分析以產(chǎn)生結(jié)果;以及報告聚類分析的結(jié)果。
2、 根據(jù)權(quán)利要求1所述的方法,其中所述相關(guān)度還包括從由基本相關(guān)度、有向相關(guān)度、以及差分相關(guān)度組成的組中選出的相關(guān)度。
3、 根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類還包括通過以下步驟建立聚類在所述聚類中放入種子單詞,以及為添加進所述聚類的各個單詞重復(fù)以下步驟根據(jù)該個單詞和當前單詞之間的前向相關(guān)度對多個單詞分類;識別滿足所述一種或多種相關(guān)度判據(jù)的一個或更多個候選單詞,所述一種或更多種相關(guān)度判據(jù)包括與當前單詞的前向相關(guān)度判據(jù)和與種子單詞的后向相關(guān)度判據(jù);以及將所述一個或更多個候選單詞放入所述聚類。
4、 根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類還包括通過為所述多個單詞中的各個單詞重復(fù)以下步驟將單詞分類進聚類-如果該各單詞和聚類的第一單詞之間的相關(guān)度滿足相關(guān)度閾值,則將該個單詞放入所述聚類;以及否則將該個單詞放入空聚類。
5、 根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類還包括通過以下步驟比較所述單詞的多個相關(guān)度向量獲得記錄了相關(guān)度值的多個相關(guān)度向量,相關(guān)度向量與單詞相關(guān)聯(lián)并包括多個相關(guān)度值,相關(guān)度值指示關(guān)聯(lián)的單詞和另一單詞之間的相關(guān)度;識別一組彼此接近的相關(guān)度向量;以及將與該組相關(guān)度向量關(guān)聯(lián)的單詞放入聚類。
6、 根據(jù)權(quán)利要求1所述的方法,其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括根據(jù)聚類對包括所述多個單詞的頁進行分類。
7、 根據(jù)權(quán)利要求1所述的方法,其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括通過以下步驟根據(jù)聚類對頁進行分類-選擇所述頁的一個或更多個重要單詞;確定所述多個聚類中的包括所述一個或更多個重要單詞的一個或更多個聚類;以及根據(jù)所述一個或更多個聚類對所述頁進行分類。
8、 根據(jù)權(quán)利要求1所述的方法,其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括根據(jù)所述聚類確定包括所述多個單詞的文集的文集特性。
9、 根據(jù)權(quán)利要求1所述的方法,其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括確定所述多個聚類中的包括給定搜索查詢的一個或更多個搜索術(shù)語的一個或更多個聚類;根據(jù)所述一個或更多個聚類選擇一個或更多個單詞;以及報告所選擇的一個或更多個單詞。
10、 根據(jù)權(quán)利要求1所述的方法,其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括確定所述多個聚類中的包括給定搜索查詢的一個或更多個搜索術(shù)語的一個或更多個聚類;根據(jù)所述一個或更多個聚類選擇一個或更多個單詞;以及根據(jù)所選出的一個或更多個單詞生成一個或更多個下一搜索查詢。
11、 根據(jù)權(quán)利要求1所述的方法,其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括分析人的社會網(wǎng)絡(luò),每個人與用戶標識符關(guān)聯(lián),所述單詞包括所述用戶標識符,通過以下步驟分析所述社會網(wǎng)絡(luò)根據(jù)所述聚類確定所述人之間的一個或更多個關(guān)系。
12、 根據(jù)權(quán)利要求1所述的方法,其中訪問存儲于一個或更多個有形的存儲介質(zhì)中的記錄的步驟還包括訪問根據(jù)多個數(shù)據(jù)集合生成的相關(guān)度值,所述多個數(shù)據(jù)集合包括所述多個單詞;所述根據(jù)多個相關(guān)度識別多個單詞的多個聚類的步驟還包括為每個數(shù)據(jù)集合識別聚類集合;以及其中所述利用聚類進行聚類分析以產(chǎn)生結(jié)果的步驟還包括-比較第一數(shù)據(jù)集合的第一聚類集合與第二數(shù)據(jù)集合的第二聚類集合以分析第一數(shù)據(jù)集合和第二數(shù)據(jù)集合之間的關(guān)系。
13、 一種或多種編碼有軟件的計算機可讀的有形介質(zhì),所述軟件在執(zhí)行時能夠訪問記錄,所述記錄記錄了多個相關(guān)度,第一單詞和第二單詞之間的相關(guān)度描述了所述第一單詞和所述第二單詞之間的定量關(guān)系;根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類,聚類包括一個或更多個彼此足夠相關(guān)的單詞,如果第一單詞和第二單詞之間的相關(guān)度滿足一種或多種相關(guān)度判據(jù)則第一單詞與第二單詞足夠相關(guān);利用所述聚類進行聚類分析以產(chǎn)生結(jié)果;以及報告聚類分析的結(jié)果。
14、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述相關(guān)度還包括從由基本相關(guān)度、有向相關(guān)度、以及差分相關(guān)度組成的組中選擇的相關(guān)度。
15、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠通過以下步驟建立聚類以根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類在所述聚類中放入種子單詞,以及為添加進所述聚類的每個單詞重復(fù)以下步驟根據(jù)每個單詞和當前單詞之間的前向相關(guān)度對多個單詞分類;識別滿足所述一種或更多種相關(guān)度判據(jù)的一個或更多個候選單詞,所述一種或多種相關(guān)度判據(jù)包括與當前單詞的前向相關(guān)度判據(jù)和與種子單詞的后向相關(guān)度判據(jù);以及將所述一個或更多個候選單詞放入所述聚類。
16、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠通過為所述多個單詞中的各個單詞重復(fù)以下步驟將單詞分類為聚類以根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類如果該個單詞和聚類的第一單詞之間的相關(guān)度滿足相關(guān)度閾值,則將該個單詞放入所述聚類;以及否則將該個單詞放入空聚類。
17、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠通過以下步驟比較所述單詞的多個相關(guān)度向量以根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類-獲得記錄了相關(guān)度值的多個相關(guān)度向量,相關(guān)度向量與單詞相關(guān)聯(lián)并包括多個相關(guān)度值,相關(guān)度值指示關(guān)聯(lián)的單詞和另一單詞之間的相關(guān)度;識別一組彼此接近的相關(guān)度向量;以及將與該組相關(guān)度向量關(guān)聯(lián)的單詞放入聚類。
18、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠操作以根據(jù)聚類將包括所述多個單詞的頁分類以利用聚類進行聚類分析以產(chǎn)生結(jié)果。
19、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠操作以通過以下步驟根據(jù)聚類將頁分類以利用聚類進行聚類分析以產(chǎn)生結(jié)果選擇所述頁的一個或更多個重要單詞;確定所述多個聚類中的包括所述一個或更多個重要單詞的一個或更多個聚類;以及根據(jù)所述一個或更多個聚類對所述頁進行分類。
20、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠操作以根據(jù)所述聚類確定包括所述多個單詞的文集的文集特性以利用聚類進行聚類分析以產(chǎn)生結(jié)果。
21、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠通過以下步驟利用聚類進行聚類分析以產(chǎn)生結(jié)果-確定所述多個聚類中的包括給定搜索査詢的一個或更多個搜索術(shù)語的一個或更多個聚類;根據(jù)所述一個或更多個聚類選擇一個或更多個單詞;以及報告所選擇的一個或更多個單詞。
22、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠操作以通過以下步驟利用聚類進行聚類分析以產(chǎn)生結(jié)果確定所述多個聚類中的包括給定搜索査詢的一個或更多個搜索術(shù)語的一個或更多個聚類;根據(jù)所述一個或更多個聚類選擇一個或更多個單詞;以及根據(jù)所選擇的一個或更多個單詞生成一個或更多個下一搜索查詢。
23、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠操作以通過分析人的社會網(wǎng)絡(luò)利用聚類進行聚類分析以產(chǎn)生結(jié)果,每個人與用戶標識符關(guān)聯(lián),所述單詞包括所述用戶標識符,通過以下步驟分析所述社會網(wǎng)絡(luò)根據(jù)所述聚類確定所述人之間的一個或更多個關(guān)系。
24、 根據(jù)權(quán)利要求13所述的計算機可讀的有形介質(zhì),其中所述軟件還能夠操作以通過以下步驟訪問存儲于一個或更多個有形的存儲介質(zhì)中的記錄訪問從多個數(shù)據(jù)集合生成的相關(guān)度值,所述多個數(shù)據(jù)集合包括所述多個單詞;通過以下步驟根據(jù)多個相關(guān)度識別多個單詞的多個聚類為每個數(shù)據(jù)集合識別聚類集合;以及通過以下步驟利用聚類進行聚類分析以產(chǎn)生結(jié)果-比較第一數(shù)據(jù)集合的第一聚類集合與第二數(shù)據(jù)集合的第二聚類集合以分析第一數(shù)據(jù)集合和第二數(shù)據(jù)集合之間的關(guān)系。
25、 一種系統(tǒng),所述系統(tǒng)包括裝置,所述裝置用于訪問存儲于有形的存儲介質(zhì)中的記錄,所述記錄記錄了多個相關(guān)度,第一單詞和第二單詞之間的相關(guān)度描述了所述第一單詞和第二單詞之間的定量關(guān)系;裝置,所述裝置用于根據(jù)所述多個相關(guān)度識別多個單詞的多個聚類,聚類包括一個或更多個彼此足夠相關(guān)的單詞,如果第一單詞和第二單詞之間的相關(guān)度滿足一種或多種相關(guān)度判據(jù)則所述第一單詞與第二單詞足夠相關(guān);裝置,所述裝置用于利用所述聚類進行聚類分析以產(chǎn)生結(jié)果;以及裝置,所述裝置用于報告聚類分析的結(jié)果。
全文摘要
本發(fā)明涉及根據(jù)單詞相關(guān)度識別單詞聚類。在一種實施方式中,識別單詞聚類包括訪問記錄了相關(guān)度的記錄。第一單詞和第二單詞之間的相關(guān)度描述了第一單詞和第二單詞之間的定量關(guān)系。根據(jù)相關(guān)度識別單詞聚類。聚類包括彼此具有足夠相關(guān)的單詞。如果第一單詞和第二單詞之間的相關(guān)度滿足一種或多種相關(guān)度判據(jù)則第一單詞與第二單詞足夠相關(guān)。利用聚類進行聚類分析。
文檔編號G06F17/30GK101493823SQ20081016617
公開日2009年7月29日 申請日期2008年10月6日 優(yōu)先權(quán)日2007年10月5日
發(fā)明者B·托馬斯·阿德勒, 亞歷克斯·吉爾曼, 大衛(wèi)·馬爾維特, 斯特吉奧斯·斯特吉奧, 賈瓦哈拉·賈殷 申請人:富士通株式會社