本發(fā)明涉及自然語言處理領(lǐng)域,具體而言,涉及一種主題詞抽取方法及裝置。
背景技術(shù):
主題可以體現(xiàn)文檔所表達的中心思想,是計算機表達文檔的有效方式之一。提取主題信息有助于理解文檔的有效信息,提高計算機對文檔的處理效率。目前,主題抽取技術(shù)是自然語言處理領(lǐng)域一項熱門技術(shù)。
一般地,以漢語主題抽取為例,主題抽取任務(wù)中通常分為主題詞、主題概念和主題句三個層面。雖然單個主題詞不像主題概念和主題句那樣,具有明確的意義,但是一個主題詞集合可以清晰地描述一個主題,并且更有利于計算機處理。
在相關(guān)技術(shù)中,提供了一種主題詞抽取方法,具體執(zhí)行過程如下:(1)收集大量文檔構(gòu)建大型文檔集合,統(tǒng)計詞語在所有文檔中出現(xiàn)的頻率,構(gòu)建詞語-文檔的頻率模型(Inverse Document Frequency,簡稱為IDF);(2)針對需要抽取主題的文檔,統(tǒng)計詞語在該文檔中的詞頻信息(Term Frequency,簡稱為TF);(3)構(gòu)建基于詞頻信息的加權(quán)權(quán)重計算模型,確定文檔中每個詞語的權(quán)重值,并按權(quán)重值大小對所有詞語排序;(4)根據(jù)預(yù)先設(shè)定的閾值,輸出上一步排序后的top-n個詞語。
發(fā)明人發(fā)現(xiàn),上述技術(shù)方法存在以下缺點:(1)基于詞頻信息的主題詞抽取模型,抽取主題詞時需要依賴詞頻信息,容易受高頻噪聲詞影響,導(dǎo)致抽取出來的主題詞及其集合容易被高頻噪聲詞污染,不能保證主題詞的抽取質(zhì)量;(2)基于權(quán)重值排序的主題詞抽取技術(shù),不管權(quán)重值計算模型如何變化,都無法考慮每個詞語的語義,因而不能解決中文一詞多義或多詞同義等問題,即不能有效地區(qū)分詞語的語義,從而影響抽取的主題詞及其集合的質(zhì)量。另外,上述方案需要學(xué)習(xí)IDF模型,并且IDF模型在不分領(lǐng)域的全網(wǎng)數(shù)據(jù)中效果明顯,而處理相同領(lǐng)域的文檔時,效果明顯下降,一般需要重新訓(xùn)練該領(lǐng)域的IDF模型,不夠靈活。
針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種主題詞抽取方法及裝置,以至少解決由于一詞多義或多詞同義造成的影響主題詞抽取質(zhì)量的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種主題詞抽取方法,包括:獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,所述詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;利用潛在語義分析模型對所述詞語文檔矩陣進行語義分析,生成潛在語義空間;根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞。
進一步地,利用潛在語義分析模型對上述詞語文檔矩陣進行語義分析,生成潛在語義空間包括:利用上述潛在語義分析模型分析上述詞語文檔矩陣中的詞語與文檔的對應(yīng)關(guān)系;按照上述對應(yīng)關(guān)系將上述詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成上述潛在語義空間。
進一步地,利用潛在語義分析模型對上述詞語文檔矩陣進行語義分析,生成潛在語義空間包括:利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對上述詞語文檔矩陣進行語義分析,生成潛在語義空間。
進一步地,根據(jù)上述潛在語義空間抽取上述所有需要抽取主題詞的文檔的主題詞包括:根據(jù)上述潛在語義空間確定主題詞詞語矩陣,其中,上述主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在上述所有需要抽取主題詞的文檔中出現(xiàn)的詞語;對上述主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語作為上述所有需要抽取主題詞的文檔的主題詞。
進一步地,獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語包括:獲取上述所有需要抽取主題詞的文檔;對上述所有需要抽取主題詞的文檔進行分詞處理,得到上述出現(xiàn)在該文檔中的詞語。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種主題詞抽取裝置,包括:獲取單元,用于獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;構(gòu)建單元,用于基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,上述詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;生成單元,用于利用潛在語義分析模型對上述詞語文檔矩陣進行語義分析,生成潛在語義空間;抽取單元,用于根據(jù)上述潛在語義空間抽取上述所有需要抽取主題詞的文檔的主題詞。
進一步地,上述生成單元包括:分析模塊,用于利用上述潛在語義分析模型分析上述詞語文檔矩陣中的詞語與文檔的對應(yīng)關(guān)系;生成模塊,用于按照上述對應(yīng)關(guān)系將上述詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成上述潛在語義空間。
進一步地,上述生成單元還用于利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對上述詞語文檔矩陣進行語義分析,生成潛在語義空間。
進一步地,上述抽取單元包括:確定模塊,用于根據(jù)上述潛在語義空間確定主題詞詞語矩陣,其中,上述主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在上述所有需要抽取主題詞的文檔中出現(xiàn)的詞語;排序模塊,用于對上述主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;抽取模塊,用于抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語作為上述所有需要抽取主題詞的文檔的主題詞。
進一步地,上述獲取單元包括:獲取模塊,用于獲取上述所有需要抽取主題詞的文檔;分詞模塊,用于對上述所有需要抽取主題詞的文檔進行分詞處理,得到上述出現(xiàn)在該文檔中的詞語。
在本發(fā)明實施例中,采用基于語義分析結(jié)果抽取主題詞的方式,通過獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間;根據(jù)潛在語義空間抽取所有需要抽取主題詞的文檔的主題詞,達到了基于語義分析結(jié)果抽取主題詞的目的,從而實現(xiàn)了提高主題詞抽取質(zhì)量的技術(shù)效果,進而解決了由于一詞多義或多詞同義造成的影響主題詞抽取質(zhì)量的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的一種可選的主題詞抽取方法的流程圖;
圖2是根據(jù)本發(fā)明實施例的一種可選的主題詞抽取裝置的示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實施例1
根據(jù)本發(fā)明實施例,提供了一種主題詞抽取方法的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本發(fā)明實施例的一種可選的主題詞抽取方法的流程圖,如圖1所示,該方法包括如下步驟:
步驟S102,獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;
步驟S104,基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;
步驟S106,利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間;
步驟S108,根據(jù)潛在語義空間抽取所有需要抽取主題詞的文檔的主題詞。
例如,假設(shè)共有N篇需要抽取主題詞的文檔,這些文檔共涉及M個詞語,該文檔的集合表示為D={d1,d2,d3……,dn},這M個詞語的集合表示為W={w1,w2,w3……,wm},那么由上述文檔和詞語可以建立一個N*M的詞語文檔矩陣A(即詞語-文檔矩陣A), 矩陣A如下所示:
矩陣A中的每一行對應(yīng)一篇文檔,其中每個元素表示對應(yīng)詞語在該篇文檔中的詞頻信息;每一列對應(yīng)一個詞語,其中每個元素表示該詞語在對應(yīng)文檔中的詞頻信息,具體的,A中aij由D和W通過aij=DiWj映射得到,表示詞語j在文檔i中的詞頻信息。
進一步,在矩陣A的基礎(chǔ)上,可以計算歸一化因子,并將各行向量歸一化。歸一化因子計算方法包括多種,在此不作限定,例如,可以選用L2-normal ization方法進行向量歸一化。具體地,L2-normal ization歸一化因子的計算方法如下:
Norm=(d1)2+…+…(dn)2
通過上述步驟,可以實現(xiàn)使用潛在語義分析方法對篇章級文檔進行處理,完善基于詞頻信息抽取主題詞的不足,兼顧詞語的語義以減少噪聲詞對主題詞質(zhì)量的影響,使得用來表示主題的主題詞能夠更好的地涵蓋文檔信息,使主題的表示更加完善,從而有效地提高了抽取到的主題詞的質(zhì)量,使得抽取出來的主題在后期應(yīng)用中有著更好的普適性,對計算相似度或文檔檢索等工作有著重要的意義。
可選地,利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間包括:
S2,利用潛在語義分析模型分析詞語文檔矩陣中的詞語與文檔的對應(yīng)關(guān)系;
S4,按照對應(yīng)關(guān)系將詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成潛在語義空間。
潛在語義分析的目的在于要找出各詞語在文檔中的真正含義,也就是潛在語義,從而獲得詞語的語義信息及詞語與主題之間的關(guān)系。具體說來,生成潛在語義空間就是使用一個合理維度對一個大型文檔集合在維護空間中建模,并將詞語和文檔都表示到該空間中。例如,有2000篇文檔,包含7000個詞語,在潛在語義分析時,將詞語和文檔按照對應(yīng)關(guān)系表示到一個維度為100的向量空間中。
通過本發(fā)明實施例,基于潛在語義分析模型抽取主題,可以減小噪聲詞的影響,使抽取出來的主題詞能更好的描述文檔的主題。
基于上述實施例,可選地,利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間包括:
S6,利用奇異值分解模型或非負(fù)矩陣分解模型NMF或概率潛在語義索引模型pLSI對詞語文檔矩陣進行語義分析,生成潛在語義空間。
下面以使用奇異值分解K-SVD模型為例,詳細(xì)介紹生成潛在語義空間的過程:
其中,奇異值分解(Singular Value Decomposition,簡稱為SVD)是線性代數(shù)中一種重要的矩陣分解,是矩陣分析中正規(guī)矩陣酉對角化的推廣,在信號處理、統(tǒng)計學(xué)等領(lǐng)域有重要應(yīng)用。酉矩陣U是一個n行n列的復(fù)數(shù)矩陣,滿足UTU=UUT=En,其中,UT為U的共軛轉(zhuǎn)置,En為n階單位矩陣。在線性代數(shù)中,矩陣的列秩是矩陣的線性無關(guān)縱列的極大數(shù)目。類似地,矩陣的行秩是矩陣的線性無關(guān)橫行的極大數(shù)目。
實施時,使用SVD對詞語文檔矩陣進行處理,將矩陣A按照A=UΣVT的方式分解為U、Σ、VT三個矩陣,其中,Σ為對角矩陣,對角線上每一個元素都是矩陣A的奇異值(即特征值)。下面介紹A=UΣVT的一種簡單求解方法:
(1)求矩陣ATA的酉相似對角矩陣及酉相似矩陣V:
(2)記V=(V1,V2),V1∈Cn×r,V2∈Cn×(n-r),
(3)令U1=AV1Δ-1,U1∈Cm×r,
(4)擴充U1為U矩陣,U=(U1,U2),
(5)構(gòu)造奇異值分解
其中,Σ中每個奇異值對應(yīng)的是每個“語義”維度的權(quán)重值。進一步,可以將不太重要的權(quán)重值配置為0,即將小于某一權(quán)重閾值的所有維度數(shù)值都配置為0,只保留最重要的維度信息,這樣可以得到的潛在語義空間可以濾除一些噪聲詞。
通過本發(fā)明實施例,采用奇異值分解方式,可以通過奇異值過濾及隸屬度過濾兩種方式,過濾掉了權(quán)重值較小的主題詞的語義類別和隸屬度不高的詞語,消除高頻噪聲詞的影響,使得抽取出來的主題詞能更好的描述文檔的主題。
可選地,根據(jù)潛在語義空間抽取所有需要抽取主題詞的文檔的主題詞包括:
S8,根據(jù)潛在語義空間確定主題詞詞語矩陣,其中,主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在所有需要抽取主題詞的文檔中出現(xiàn)的詞語;
S10,對主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;
S12,抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語作為所有需要抽取主題詞的文檔的主題詞。
基于前述實施例,在對詞語文檔矩陣A進行奇異值分解后,得到三個矩陣中的對角矩陣Σ和VT兩個矩陣,按照T1=ΣVT的乘積方式獲得中間矩陣T1,過濾掉T1矩陣中的全0行和全0列,得到最終的主題詞詞語矩陣T2,其中T2中的行表示抽取的主題詞的語義類別,列表示文檔中的詞語,T2中每一個元素表示該元素所在的列表示的詞語與該元素所在的行表示的主題詞之間的隸屬關(guān)系(即隸屬度)。而后對矩陣T2中每一行,按照權(quán)重值大小排序,并將權(quán)重值大于權(quán)重閾值的列對應(yīng)的詞語及權(quán)重作為主題詞及主題信息加入到主題集合中,構(gòu)成主題詞詞語集合,用以表示各文檔的主題。
需要說明的是,根據(jù)任務(wù)需求的不同,權(quán)重閾值可以分為兩種:一是整數(shù)型m,表示需要抽取與該主題相關(guān)的前m個主題詞用來表示文檔的主題;二是小數(shù)型f,表示需要抽取權(quán)重值比f大的所有詞語作為主題詞用來表示文檔的主題。
可選地,獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語包括:
S14,獲取所有需要抽取主題詞的文檔;
S16,對所有需要抽取主題詞的文檔進行分詞處理,得到出現(xiàn)在該文檔中的詞語。
也即,在所有需要抽取主題詞的文檔后,需要對這些文檔進行預(yù)處理,包括:對文檔進行分詞處理,得到這些文檔所涉及的詞語,以及統(tǒng)計這些詞語的詞頻信息。對于中文文檔而言,可以使用中文分詞工具進行分詞處理,從而將長文本文檔處理成詞語集合。為了提高抽取主題詞的質(zhì)量,降低高頻噪聲詞的影響,可以在分詞結(jié)束后,對“的”,“嗯”等常用中文停用詞進行過濾處理。
通過本發(fā)明實施例,無需預(yù)先訓(xùn)練大型的語料模型,使用靈活,對不同領(lǐng)域的文檔集合或全網(wǎng)數(shù)據(jù)都具有普適性。
實施例2
根據(jù)本發(fā)明實施例,提供了一種主題詞抽取裝置的裝置實施例。
圖2是根據(jù)本發(fā)明實施例的一種可選的主題詞抽取裝置的示意圖,如圖2所示, 該裝置包括:獲取單元202,用于獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;構(gòu)建單元204,用于基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;生成單元206,用于利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間;抽取單元208,用于根據(jù)潛在語義空間抽取所有需要抽取主題詞的文檔的主題詞。
例如,假設(shè)共有N篇需要抽取主題詞的文檔,這些文檔共涉及M個詞語,該文檔的集合表示為D={d1,d2,d3……,dn},這M個詞語的集合表示為W={w1,w2,w3……,wm},那么由上述文檔和詞語可以建立一個N*M的詞語文檔矩陣A(即詞語-文檔矩陣A),矩陣A如下所示:
矩陣A中的每一行對應(yīng)一篇文檔,其中每個元素表示對應(yīng)詞語在該篇文檔中的詞頻信息;每一列對應(yīng)一個詞語,其中每個元素表示該詞語在對應(yīng)文檔中的詞頻信息,具體的,A中aij由D和W通過aij=DiWj映射得到,表示詞語j在文檔i中的詞頻信息。
進一步,在矩陣A的基礎(chǔ)上,可以計算歸一化因子,并將各行向量歸一化。歸一化因子計算方法包括多種,在此不作限定,例如,可以選用L2-normal ization方法進行向量歸一化。具體地,L2-norm歸一化因子的計算方法如下:
Norm=(d1)2+…+…(dn)2
通過上述實施例,可以實現(xiàn)使用潛在語義分析方法對篇章級文檔進行處理,完善基于詞頻信息抽取主題詞的不足,兼顧詞語的語義以減少噪聲詞對主題詞質(zhì)量的影響,使得用來表示主題的主題詞能夠更好的地涵蓋文檔信息,使主題的表示更加完善,從而有效地提高了抽取到的主題詞的質(zhì)量,使得抽取出來的主題在后期應(yīng)用中有著更好的普適性,對計算相似度或文檔檢索等工作有著重要的意義。
可選地,上述生成單元包括:分析模塊,用于利用潛在語義分析模型分析詞語文檔矩陣中的詞語與文檔的對應(yīng)關(guān)系;生成模塊,用于按照對應(yīng)關(guān)系將詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成潛在語義空間。
潛在語義分析的目的在于要找出各詞語在文檔中的真正含義,也就是潛在語義, 從而獲得詞語的語義信息及詞語與主題之間的關(guān)系。具體說來,生成潛在語義空間就是使用一個合理維度對一個大型文檔集合在維護空間中建模,并將詞語和文檔都表示到該空間中。例如,有2000篇文檔,包含7000個詞語,在潛在語義分析時,將詞語和文檔按照對應(yīng)關(guān)系表示到一個維度為100的向量空間中。
通過本發(fā)明實施例,基于潛在語義分析模型抽取主題,可以減小噪聲詞的影響,使抽取出來的主題詞能更好的描述文檔的主題。
基于上述實施例,可選地,生成單元還用于利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對詞語文檔矩陣進行語義分析,生成潛在語義空間。
其使用奇異值分解K-SVD模型生成潛在語義空間的過程同實施例1中介紹的過程,在此不再贅述。
通過本發(fā)明實施例,采用奇異值分解方式,可以通過奇異值過濾及隸屬度過濾兩種方式,過濾掉了權(quán)重值較小的主題詞的語義類別和隸屬度不高的詞語,消除高頻噪聲詞的影響,使得抽取出來的主題詞能更好的描述文檔的主題。
可選地,上述抽取單元包括:確定模塊,用于根據(jù)潛在語義空間確定主題詞詞語矩陣,其中,主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在所有需要抽取主題詞的文檔中出現(xiàn)的詞語;排序模塊,用于對主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;抽取模塊,用于抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語作為所有需要抽取主題詞的文檔的主題詞。
基于前述實施例,在對詞語文檔矩陣A進行奇異值分解后,得到三個矩陣中的對角矩陣Σ和VT兩個矩陣,按照T1=ΣVT的乘積方式獲得中間矩陣T1,過濾掉T1矩陣中的全0行和全0列,得到最終的主題詞詞語矩陣T2,其中T2中的行表示抽取的主題詞的語義類別,列表示文檔中的詞語,T2中每一個元素表示該元素所在的列表示的詞語與該元素所在的行表示的主題詞之間的隸屬關(guān)系(即隸屬度)。而后對矩陣T2中每一行,按照權(quán)重值大小排序,并將權(quán)重值大于權(quán)重閾值的列對應(yīng)的詞語及權(quán)重作為主題詞及主題信息加入到主題集合中,構(gòu)成主題詞詞語集合,用以表示各文檔的主題。
需要說明的是,根據(jù)任務(wù)需求的不同,權(quán)重閾值可以分為兩種:一是整數(shù)型m,表示需要抽取與該主題相關(guān)的前m個主題詞用來表示文檔的主題;二是小數(shù)型f,表示需要抽取權(quán)重值比f大的所有詞語作為主題詞用來表示文檔的主題。
可選地,上述獲取單元包括:獲取模塊,用于獲取所有需要抽取主題詞的文檔;分詞模塊,用于對所有需要抽取主題詞的文檔進行分詞處理,得到出現(xiàn)在該文檔中的詞語。
也即,在所有需要抽取主題詞的文檔后,需要對這些文檔進行預(yù)處理,包括:對文檔進行分詞處理,得到這些文檔所涉及的詞語,以及統(tǒng)計這些詞語的詞頻信息。對于中文文檔而言,可以使用中文分詞工具進行分詞處理,從而將長文本文檔處理成詞語集合。為了提高抽取主題詞的質(zhì)量,降低高頻噪聲詞的影響,可以在分詞結(jié)束后,對“的”,“嗯”等常用中文停用詞進行過濾處理。
通過本發(fā)明實施例,無需預(yù)先訓(xùn)練大型的語料模型,使用靈活,對不同領(lǐng)域的文檔集合或全網(wǎng)數(shù)據(jù)都具有普適性。
上述主題詞抽取裝置包括處理器和存儲器,上述獲取單元、構(gòu)建單元、生成單元、抽取單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)解析文本內(nèi)容。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(f l ash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品的實施例,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間;根據(jù)潛在語義空間抽取所有需要抽取主題詞的文檔的主題詞。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。