欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種從單個(gè)中文文本中提取多主題詞的方法

文檔序號(hào):6545326閱讀:2351來源:國知局
一種從單個(gè)中文文本中提取多主題詞的方法
【專利摘要】本發(fā)明提供了一種從單個(gè)中文文本中自動(dòng)提取多主題詞的方法,包含以下步驟:首先使用傳統(tǒng)方法對(duì)文檔進(jìn)行預(yù)處理后初步得到由特征詞組成的向量;其次利用《知網(wǎng)》詞義與概念間的對(duì)應(yīng)關(guān)系對(duì)同義詞進(jìn)行歸并,根據(jù)語義類與上下文語境的相關(guān)性對(duì)多義詞進(jìn)行排歧,構(gòu)造概念向量模型表示該文檔;再利用《知網(wǎng)》中概念的相關(guān)語義信息計(jì)算概念相似度,通過“預(yù)設(shè)種子”的方法改進(jìn)K-means算法對(duì)概念進(jìn)行聚類,形成多個(gè)主題概念簇;最后根據(jù)概念和詞的對(duì)應(yīng)關(guān)系,得到多個(gè)子主題詞集。該方法考慮了語義信息,克服K-means算法對(duì)初始中心的敏感性和時(shí)空開銷不穩(wěn)定等缺陷,提高了提取主題的質(zhì)量。
【專利說明】一種從單個(gè)中文文本中提取多主題詞的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本信息提取【技術(shù)領(lǐng)域】,特別是涉及一種從單個(gè)中文文本中提取多主題詞的方法。
【背景技術(shù)】
[0002]自人類社會(huì)進(jìn)入信息時(shí)代以來,各種電子文本大量涌現(xiàn),這些海量文本中存在著大量多主題文本,包含著多方面豐富的主題信息,例如:一篇關(guān)于李克強(qiáng)總理訪問歐洲的報(bào)道,既屬于政治類新聞,又屬于經(jīng)濟(jì)類新聞。隨著科學(xué)技術(shù)的發(fā)展,學(xué)科之間融合度越來越高,大多數(shù)研究都跨越多個(gè)學(xué)科領(lǐng)域,許多科技文本內(nèi)容都從不同側(cè)面包含了多個(gè)主題,如一篇關(guān)于生物基因信息挖掘的文本,既包含計(jì)算機(jī)科學(xué)方面的主題又包含生物醫(yī)學(xué)領(lǐng)域主題。因此,現(xiàn)實(shí)世界中存在大量多主題文本,如何從這些文本中提取有價(jià)值的反映不同方面的多個(gè)子主題信息,在信息檢索、圖書情報(bào)和信息安全等領(lǐng)域有著非常廣泛的應(yīng)用。
[0003]國外對(duì)文本主題提取研究起于上世紀(jì)50年代,目前比較成熟的主題提取方法是基于統(tǒng)計(jì)模型的方法,該方法主要是利用詞頻統(tǒng)計(jì)信息提取主題,后來研究人員加入了對(duì)標(biāo)題、位置、句法結(jié)構(gòu)和線索詞等要素的考慮,能夠從英文文本中提取高質(zhì)量的主題。國內(nèi)對(duì)主題提取的研究起于上世紀(jì)80年代后期,然而,由于漢語言的復(fù)雜性,許多成功的英文主題提取方法不適用于中文。
[0004]目前,國內(nèi)應(yīng)用廣泛的還是基于統(tǒng)計(jì)的方法,該方法在向量空間模型(VSM)下,前提假設(shè)是向量之間兩兩正交,即構(gòu)成文本的詞匯之間毫無聯(lián)系,這顯然與文本中詞匯語義與上下文相關(guān)的現(xiàn)實(shí)不符,又由于中文詞匯量很大,在VSM下,必然存在向量高維、稀疏、忽略詞匯語義及上下文背景等問題,同時(shí)提取過程受到同義詞和多義詞的干擾,因而在質(zhì)量和效率上表現(xiàn)欠佳。目前關(guān)于主題提取的研究熱點(diǎn)集中在如何增加語義信息上,雖然有很多學(xué)者提出了各種基于語義的主題提取方法,但仍然沒有達(dá)到應(yīng)用級(jí)別的突破性進(jìn)展。另夕卜,提取多主題和單主題提取在算法上有很大差別,從一篇文本中識(shí)別多個(gè)子主題詞,僅使用傳統(tǒng)基于詞頻統(tǒng)計(jì)的方法無法實(shí)現(xiàn)。廖濤等人提出的復(fù)雜網(wǎng)絡(luò)中的社區(qū)劃分算法能夠提取多主題,但未涉及詞的語義信息,是一個(gè)純粹的統(tǒng)計(jì)方法,提取的多主題質(zhì)量不高。
[0005]因此,針對(duì)現(xiàn)有的以詞頻統(tǒng)計(jì)為依據(jù)的傳統(tǒng)文本處理技術(shù),一篇文本只能提出單個(gè)主題的問題,同時(shí)考慮了傳統(tǒng)文本處理方法面對(duì)向量高維、稀疏以及缺乏詞義信息、上下文信息所導(dǎo)致的算法效率低和提取主題詞質(zhì)量不高的問題,需要提供一種從單個(gè)中文文本中提取多主題詞的方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明要解決的技術(shù)問題是,為了解決傳統(tǒng)文本處理技術(shù)以詞頻統(tǒng)計(jì)為依據(jù),一篇文本只能提出單個(gè)主題的問題,同時(shí)考慮了傳統(tǒng)文本處理方法面對(duì)向量高維、稀疏以及缺乏詞義信息、上下文信息所導(dǎo)致的算法效率低和提取主題詞質(zhì)量不高的問題,提供了一種從單個(gè)中文文本中提取多主題詞的方法,該方法利用《知網(wǎng)》語義知識(shí)庫,對(duì)表示文本的特征詞進(jìn)行一一映射,把該文本表示成概念模型,并且在映射過程中同義詞自動(dòng)歸并到了同一概念中,實(shí)現(xiàn)了向量降維;根據(jù)語義類與上下文語境的相關(guān)性對(duì)文中出現(xiàn)的多義詞進(jìn)行排歧。
[0007]本發(fā)明的目的在于提供一種從單個(gè)中文文本中提取多主題詞的方法,包括以下步驟:
[0008]Stepl:向量模型表示:對(duì)文本進(jìn)行預(yù)處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預(yù)處理后的文本表示成特征詞組成的向量;
[0009]Step2:概念模型映射:基于以概念來表達(dá)自然語言詞匯語義且以樹形結(jié)構(gòu)來表示概念間語義關(guān)系的語義知識(shí)庫,利用詞義與所述概念之間的對(duì)應(yīng)關(guān)系對(duì)所述預(yù)處理后的組成文本的特征詞進(jìn)行概念映射,在概念映射過程中,文本中的同義詞自動(dòng)進(jìn)行歸并,接著,根據(jù)語義類與上下文語境的相關(guān)性對(duì)文中出現(xiàn)的多義詞進(jìn)行排歧,之后,將所述經(jīng)過歸并和排歧后的文本的向量空間模型映射成概念空間模型;
[0010]Step3:多主題詞提取:使用改進(jìn)的K-means算法對(duì)所述經(jīng)過歸并和排歧后的文本概念空間模型中的概念進(jìn)行聚類,形成多個(gè)主題概念簇,根據(jù)形成的多個(gè)主題概念簇,利用概念和原文本特征詞對(duì)應(yīng)關(guān)系,逆向得到多個(gè)主題特征詞集,以提取單個(gè)中文文本中的多主題詞。
[0011]進(jìn)一步地,所述步驟Stepl可以包括如下步驟:
[0012]Stepl-1:使用分詞系統(tǒng)對(duì)待處理文本T進(jìn)行分詞,接著,進(jìn)行去停、去噪,之后,得到所述文本的初級(jí)向量空間模型T = {C1; C2,…,CJ,其中C1, C2,…,Cn表示η個(gè)由特征詞組成的向量,所述 去停是指過濾文本中出現(xiàn)的停用詞,所述去噪是指過濾文本中出現(xiàn)的無實(shí)際意義的詞匯;
[0013]Stepl-2:從初級(jí)向量空間模型中進(jìn)一步提取特征向量,以得到該文本的高級(jí)向量空間模型 T = IC1, C2,..., Cj ,其中 m〈 = η。
[0014]進(jìn)一步地,所述步驟Step2可以包括如下步驟:
[0015]文本中所包含詞匯含義分三種情況:單義詞、同義詞和多義詞;
[0016]概念映射過程通過查詢所述語義知識(shí)庫實(shí)現(xiàn),其中:
[0017]查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是單義詞時(shí),直接得到其唯一對(duì)應(yīng)的概念;
[0018]查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是同義詞時(shí),直接得到其唯一對(duì)應(yīng)的概念,在這個(gè)過程中,通過將該文本中出現(xiàn)的同義詞自動(dòng)歸并到同一個(gè)概念中,以實(shí)現(xiàn)向量降維;
[0019]查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是多義詞時(shí),該多義詞對(duì)應(yīng)多個(gè)概念,概念與語義類一一對(duì)應(yīng),根據(jù)語義類成員詞在該文本中的信息量計(jì)算語義類權(quán)值,選取權(quán)值最大的語義類對(duì)應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧。
[0020]進(jìn)一步地,所述查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是多義詞時(shí),該多義詞對(duì)應(yīng)多個(gè)概念,概念與語義類一一對(duì)應(yīng),根據(jù)語義類成員詞在該文本中信息量計(jì)算語義類權(quán)值,選取權(quán)值最大的語義類對(duì)應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧,包括如下步驟:[0021]在所述語義知識(shí)庫中,概念的語義主要由基本義原集描述,基本義原集又由一組語義相關(guān)的詞來描述,描述某概念基本義原集的詞構(gòu)成了一個(gè)語義類;
[0022]判斷多義詞對(duì)應(yīng)多個(gè)概念,計(jì)算所述概念對(duì)應(yīng)語義類的所有成員詞在所述處理文本中的信息量,加權(quán)計(jì)算得到每一個(gè)語義類的權(quán)值;
[0023] 選擇權(quán)值最大的語義類對(duì)應(yīng)的概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧。
[0024]進(jìn)一步地,所述步驟Step2可以包括如下步驟:
[0025]St印2-1:對(duì)待處理文本T中所有特征詞依次查詢語義知識(shí)庫,進(jìn)行概念映射;
[0026]St印2-1-1:查詢知識(shí)庫,若T的特征詞Cm對(duì)應(yīng)唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉(zhuǎn)至步驟Setp2-2 ;
[0027]Step2-1-2:查詢知識(shí)庫,若T的特征詞(;對(duì)應(yīng)多個(gè)概念,則特征詞Cm為多義詞,則需對(duì)多義詞Cm進(jìn)行詞義排歧,選擇出適合該文上下文語境的概念;
[0028]St印2-2:得到文本 T 對(duì)應(yīng)概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)};
[0029]St印2-3:進(jìn)一步按照概念進(jìn)行整理輸出文本T對(duì)應(yīng)概念向量T= {(Gl,(C1,...,Ci)), (G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,(;)為概念 Gq 在文中對(duì)應(yīng)出現(xiàn)的詞。
[0030]進(jìn)一步地,所述步驟Step2_l_2可以包括如下步驟:
[0031]Step2-1-2-l:查詢知識(shí)庫,多義詞Cm對(duì)應(yīng)多個(gè)概念,描述概念語義的基本義原集夠成了一個(gè)語義類,因而多義詞Cm對(duì)應(yīng)多個(gè)語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關(guān)的詞組;
[0032]Step2-1-2-2:計(jì)算多義詞Cm每一個(gè)語義類成員詞在該文中的信息量,所述成員詞Wi在該文中所含的信息量H(Wi)計(jì)算公式如下:
[0033]H(Wi) = -TF (Wi, ST) X log [p (Wi)],
[0034]其中,TF (Wi, ST)表示詞Wi在文本中出現(xiàn)的頻率,ST表示文本,P(Wi)為詞Wi的概率分布;
[0035]St印2-1-2-3:計(jì)算多義詞Cm每一個(gè)語義類的權(quán)值,它的第i個(gè)語義類Li權(quán)值為:
【權(quán)利要求】
1.一種從單個(gè)中文文本中提取多主題詞的方法,其特征在于,包括以下步驟: Stepl:向量模型表示:對(duì)文本進(jìn)行預(yù)處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預(yù)處理后的文本表示成特征詞組成的向量; Step2:概念模型映射:基于以概念來表達(dá)自然語言詞匯語義且以樹形結(jié)構(gòu)來表示概念間語義關(guān)系的語義知識(shí)庫,利用詞義與所述概念之間的對(duì)應(yīng)關(guān)系對(duì)所述預(yù)處理后的組成文本的特征詞進(jìn)行概念映射,在概念映射過程中,文本中的同義詞自動(dòng)進(jìn)行歸并,接著,根據(jù)語義類與上下文語境的相關(guān)性對(duì)文中出現(xiàn)的多義詞進(jìn)行排歧,之后,將所述經(jīng)過歸并和排歧后的文本的向量空間模型映射成概念空間模型; Step3:多主題詞提取:使用改進(jìn)的K-means算法對(duì)所述經(jīng)過歸并和排歧后的文本概念空間模型中的概念進(jìn)行聚類,形成多個(gè)主題概念簇,根據(jù)形成的多個(gè)主題概念簇,利用概念和原文本特征詞對(duì)應(yīng)關(guān)系,逆向得到多個(gè)主題特征詞集,以提取單個(gè)中文文本中的多主題
2.根據(jù)權(quán)利要求1所述的從單個(gè)中文文本中提取多主題詞的方法,其特征在于,所述步驟Stepl進(jìn)一步包括如下步驟: Stepl-1:使用分詞系統(tǒng)對(duì)待處理文本T進(jìn)行分詞,接著,進(jìn)行去停、去噪,之后,得到所述文本的初級(jí)向量空間模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η個(gè)由特征詞組成的向量,所述去停是指過濾文本中出現(xiàn)的停用詞,所述去噪是指過濾文本中出現(xiàn)的無實(shí)際意義的詞匯; Stepl-2:從初級(jí)向量空間模型中進(jìn)一步提取特征向量,以得到該文本的高級(jí)向量空間模型 T =IC1, C2,..., Cj ,其中 m〈 = η。
3.根據(jù)權(quán)利要求1所述的從單個(gè)中文文本中提取多主題詞的方法,其特征在于,所述步驟Step2進(jìn)一步包括如下步驟: 文本中所包含詞匯含義分三種情況:單義詞、同義詞和多義詞; 概念映射過程通過查詢所述語義知識(shí)庫實(shí)現(xiàn),其中: 查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是單義詞時(shí),直接得到其唯一對(duì)應(yīng)的概念; 查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是同義詞時(shí),直接得到其唯一對(duì)應(yīng)的概念,在這個(gè)過程中,通過將該文本中出現(xiàn)的同義詞自動(dòng)歸并到同一個(gè)概念中,以實(shí)現(xiàn)向量降維; 查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是多義詞時(shí),該多義詞對(duì)應(yīng)多個(gè)概念,概念與語義類一一對(duì)應(yīng),根據(jù)語義類成員詞在該文本中的信息量計(jì)算語義類權(quán)值,選取權(quán)值最大的語義類對(duì)應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧。
4.根據(jù)權(quán)利要求3所述的從單個(gè)中文文本中提取多主題詞的方法,其特征在于,所述查詢知識(shí)庫,判斷當(dāng)文本中所包含的詞匯是多義詞時(shí),該多義詞對(duì)應(yīng)多個(gè)概念,概念與語義類一一對(duì)應(yīng),根據(jù)語義類成員詞在該文本中信息量計(jì)算語義類權(quán)值,選取權(quán)值最大的語義類對(duì)應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧,進(jìn)一步包括如下步驟: 在所述語義知識(shí)庫中,概念的語義主要由基本義原集描述,基本義原集又由一組語義相關(guān)的詞來描述,描述某概念基本義原集的詞構(gòu)成了一個(gè)語義類; 判斷多義詞對(duì)應(yīng)多個(gè)概念,計(jì)算所述概念對(duì)應(yīng)語義類的所有成員詞在所述處理文本中的信息量,加權(quán)計(jì)算得 到每一個(gè)語義類的權(quán)值;選擇權(quán)值最大的語義類對(duì)應(yīng)的概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧。
5.根據(jù)權(quán)利要求1所述的從單個(gè)中文文本中提取多主題詞的方法,其特征在于,所述改進(jìn)的K-means算法進(jìn)一步包括如下步驟: 通過對(duì)待處理文本中的向量概念進(jìn)行聚類,形成多個(gè)主題概念簇; 選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對(duì)其進(jìn)行改進(jìn)。
6.根據(jù)權(quán)利要求1所述的從單個(gè)中文文本中提取多主題詞的方法,其特征在于,所述選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對(duì)其進(jìn)行改進(jìn),進(jìn)一步包括如下步驟: 根據(jù)統(tǒng)計(jì)的主題提取思想方法,檢測(cè)到文本中的某個(gè)主題由一組同義詞圍繞而產(chǎn)生同義詞共現(xiàn)語言現(xiàn)象; 基于檢測(cè)到的同義詞共現(xiàn)語言現(xiàn)象,判斷文本中的同義詞所圍繞的同一個(gè)主題,同義詞在概念向量模型中表現(xiàn)為同一個(gè)概念; 在所述概念向量映射過程中,同義詞歸并到同一個(gè)概念中,一個(gè)概念可能對(duì)應(yīng)屬于該文本的多個(gè)詞匯,在多主題詞提取過程中,選取包含待處理文本詞個(gè)數(shù)最多的前K個(gè)概念作為K-means聚類的初始中心的預(yù)設(shè)種子。
7.根據(jù)權(quán)利要求1所述的 從單個(gè)中文文本中提取多主題詞的方法,其特征在于,所述計(jì)算概念與概念之間的相似度和計(jì)算概念與概念集之間的相似度,進(jìn)一步包括如下步驟: 所述語義知識(shí)庫通過多個(gè)義原來描述概念,并且義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹狀的義原層次體系; 通過計(jì)算義原在樹狀層次體系中的距離得到義原之間的相似度; 概念的語義由一組義原描述,由義原的相似度可計(jì)算概念之間的相似度; 通過計(jì)算某概念與概念集中所有概念的相似度,選取和該概念相似度最大的值,作為該概念與概念集的相似度。
【文檔編號(hào)】G06F17/27GK103970730SQ201410179275
【公開日】2014年8月6日 申請(qǐng)日期:2014年4月29日 優(yōu)先權(quán)日:2014年4月29日
【發(fā)明者】馬甲林, 王志堅(jiān) 申請(qǐng)人:河海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
诸城市| 商河县| 顺昌县| 津市市| 册亨县| 田林县| 黔西县| 莱芜市| 都昌县| 台中县| 昌邑市| 高邑县| 鱼台县| 贵德县| 鸡泽县| 庄河市| 凤山市| 溆浦县| 会同县| 株洲县| 登封市| 寿阳县| 马关县| 岱山县| 华亭县| 沂南县| 贵州省| 孙吴县| 耒阳市| 嘉鱼县| 青川县| 灵丘县| 库伦旗| 张家口市| 榆林市| 哈巴河县| 新和县| 德保县| 于田县| 洛川县| 南投县|