欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于簇排列的面向主題或查詢的多文檔摘要方法

文檔序號:6557967閱讀:191來源:國知局
專利名稱:一種基于簇排列的面向主題或查詢的多文檔摘要方法
技術(shù)領(lǐng)域
本發(fā)明屬于語言文字處理技術(shù)領(lǐng)域,具體涉及一種基于簇排列(manifold-ranking)的面向主題或查詢的多文檔摘要方法。
背景技術(shù)
多文檔摘要是自然語言處理領(lǐng)域的一個核心問題,近年來被廣泛應(yīng)用于文本/Web檢索等應(yīng)用中。例如,Google、百度等搜索引擎都提供了新聞服務(wù),通過采集網(wǎng)絡(luò)上的新聞信息形成多個新聞專題,為了方便用戶瀏覽感興趣的新聞專題,需要利用多文檔摘要技術(shù)為每個新聞專題生成一個簡明扼要的摘要。而面向主題或查詢的多文檔摘要則可以看作是一種特殊的多文檔摘要任務(wù),該任務(wù)生成的多文檔摘要需要反映用戶指定的某個主題或查詢(或稱為用戶屬性),也就是說,生成的摘要能夠解釋或者回答用戶關(guān)注的焦點或提出的信息需求。在上述的新聞服務(wù)產(chǎn)品中,個性化新聞服務(wù)越來越受到重視,用戶通常只關(guān)心自己感興趣的新聞主題,根據(jù)用戶定義的興趣愛好等屬性,要求新聞服務(wù)產(chǎn)品能夠返回相關(guān)的新聞信息和面向用戶屬性的摘要。在一些智能問答系統(tǒng)中,我們也要求系統(tǒng)能從相關(guān)文檔中生成能夠回答用戶提問的摘要,這種摘要也是一種典型的面向主題或查詢的多文檔摘要。
面向主題或查詢的多文檔摘要的困難之處在于第一,和普通多文檔摘要的困難一樣,由于不同文檔中包含的信息存在很大程度的重復(fù)和冗余,因此一個好的多文檔摘要方法要能有效地融合不同文檔中的信息,即既要使生成的摘要保留原文檔中的主要信息,又要使摘要中的信息保持一定的新穎性。第二,與普通多文檔摘要不同的是,面向主題或查詢的多文檔摘要要求其包含的信息要與主題或查詢相關(guān),能夠詮釋主題和回答查詢,因此在摘要過程中要充分利用用戶提供的主題或查詢信息。近年來,多文檔摘要已經(jīng)成為自然語言處理領(lǐng)域和信息檢索領(lǐng)域的熱門研究課題,其研究進展反映在一系列關(guān)于自動文檔摘要的學(xué)術(shù)會議上,包括NTCIR,DUC以及ACL,COLING和SIGIR.
概括來說,普通多文檔摘要方法可分為基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比較簡單實用,不需要利用深層的自然語言理解技術(shù);該方法在對文本進行分句之后,對每個句子賦予一定權(quán)重,反映其重要性,然后選取權(quán)重最大的若干個句子形成摘要?;诰渥由傻姆椒▌t需要利用深層的自然語言理解技術(shù),在對原文檔進行句法、語義分析之后,利用信息抽取或自然語言生成技術(shù)產(chǎn)生新的句子,從而形成摘要。
目前大部分多文檔摘要方法都基于句子抽取技術(shù),現(xiàn)有文獻中也記載了多篇關(guān)于多文檔摘要的方法。文章Centroid-based summarization ofmultiple documents(該文作者是D.R.Radev,H.Y.Jing,M.Stys andD.Tam,發(fā)表于2004年出版的期刊Information Processing andManagement)公開了一種基于中心點的句子抽取方法,該方法是目前比較流行的一種基于句子抽取的摘要方法,MEAD是利用該方法實現(xiàn)的一個原型摘要系統(tǒng),它在賦予句子權(quán)重的過程中,綜合考慮了句子級以及句子之間的特征,包括類簇中心點,句子位置,TF*IDF等。文章From Single toMulti-document SummarizationA Prototype System and its Evaluation(作者C.-Y.Lin and E.H.Hovy,發(fā)表于2002年出版的期刊Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02),)公開了一種名為NeATS的句子抽取系統(tǒng),該系統(tǒng)是ISI開發(fā)的一個多文檔摘要系統(tǒng),它源于單文檔摘要系統(tǒng)-SUMMARIST,該系統(tǒng)選擇重要句子時考慮了句子位置、詞語頻率、主題簽名和詞語類簇等多個特征,同時利用MMR技術(shù)對句子消重。文章Cross-documentsummarization by concept classification(作者H.Hardy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,發(fā)表于2003年出版的期刊Proceedings of SIGIR’02)公開了一種名為XdoX的句子抽取系統(tǒng),該系統(tǒng)適合為大規(guī)模的文檔集生成摘要,它首先通過段落聚類檢測出文檔集中最重要的主題,然后抽取反映重要主題的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu,發(fā)表于2005年出版的期刊Proceedings of SIGIR’05)公開了Harabagiu和Lacatusu的方法,該方法探討了五種不同的多文檔主題表現(xiàn)方式并且提出了一種新的主題表現(xiàn)方式。
基于圖結(jié)構(gòu)的方法也被用來對句子的重要性進行排序。文章Summarizing Similarities and Differences Among Related Documents(作者I.Mani and E.Bloedorn,發(fā)表于2000年出版的期刊InformationRetrieval)公開了一種名為WebSumm的方法,該方法利用圖連接模型,根據(jù)與多個其他頂點相連接的頂點具有較高重要性這個假設(shè)來對句子的重要性進行排序。文章LexPageRankprestige in multi-document textsummarization(作者G.Erkan and D.Radev,發(fā)表于2004年出版的期刊Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公開了一種名為LexPageRank的方法,該方法首先構(gòu)建句子連接矩陣,然后基于類似PageRank的算法來計算句子重要性。文章Alanguage independent algorithmfor single and multipledocument summarization(作者R.Mihalcea and P.Tarau,發(fā)表于2005年出版的期刊Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公開了一種名為Mihalcea和Tarau的方法,該方法也提出了一個類似的基于PageRank和HITS的算法計算句子重要性。
面向主題或查詢的多文檔摘要方法通?;谄胀ǘ辔臋n摘要方法,在摘要過程中集成主題或查詢信息,使得摘要能夠滿足用戶的特定信息需求,現(xiàn)有文獻中也記載了多篇關(guān)于多文檔摘要的方法。文章Robust genericand query-based summarization(作者H.Saggion,K.Bontcheva,andH.Cunningham,發(fā)表于2005出版的期刊Proceedings of EACL-2003)公開了一種面向主題或查詢的多文檔摘要方法,該方法利用基于查詢的權(quán)重計算器計算每個句子和查詢的相似度,然后在基于查詢的摘要過程中考慮這個相似度值。文章Approaches to event-focused summarization basedon named entities and query words(作者J.Ge.,X.Huang,and L.Wu,發(fā)表于2003年出版的期刊Proceedings of the 2003 DocumentUnderstanding Workshop)公開了一種面向主題或查詢的多文檔摘要方法,文章CLASSY query-based multi-document summarization(作者J.M.Conroy and J.D.Schlesinger,發(fā)表于2005年出版的期刊Proceedingsof the 2005 Document Understanding Workshop)也公開了一種面向主題或查詢的多文檔摘要方法,這兩種多文檔摘要的方法探討了主題描述中查詢詞和命名實體對面向事件或查詢的多文檔摘要的作用。文章CATS atopic-oriented multi-document summarization system at DUC 2005(作者A.Farzindar,F(xiàn).Rozon,and G.Lapalme,發(fā)表于2005年出版的期刊Proceedings of the 2005 Document Understanding Workshop)公開了一種面向主題或查詢的多文檔摘要方法,該方法首先對文檔進行主題分析,然后將得到的主題和用戶提供的主題進行匹配,最后得到面向主題的多文檔摘要。但是,上述方法仍然存在一些不足,這些方法未能綜合考慮句子的面向主題或查詢的信息豐富程度和信息新穎程度,因而不能精確地根據(jù)用戶定義的興趣愛好等屬性,返回相關(guān)的新聞信息和面向用戶屬性的摘要。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種基于簇排列(manifold-ranking)的面向主題或查詢的多文檔摘要方法,該方法能夠綜合考慮句子的面向主題或查詢的信息豐富程度和信息新穎程度,并且利用簇排列算法自然一體地考慮句子之間的相互關(guān)系以及用戶主題或查詢的信息可以實現(xiàn)在給定主題或查詢的情況下為多個文檔形成更符合用戶需求的摘要。
為達到以上目的,本發(fā)明采用的技術(shù)方案是一種基于簇排列的面向主題或查詢的多文檔摘要方法,包括以下步驟(1)讀入主題或查詢以及文檔,對主題或查詢描述以及每個文檔進行分句,句子集合為χ={x1,...,xp,xp+1,...,xn}Rm,其中x1到xp表示p個從主題或查詢中得到的句子,xp+1到xn表示n-p個從文檔中得到的句子。計算這n個句子中任意兩個句子的相似度,構(gòu)建句子關(guān)系圖,其對應(yīng)的規(guī)范化的句子相似矩陣為S;(2)采用簇排列算法迭代計算文檔中每個句子的排列值,所述的排列值即初始權(quán)重值;(3)對句子進行差異性懲罰,得到每個句子的最終權(quán)重值;(4)根據(jù)每個句子的最終權(quán)重值,從文檔中選擇權(quán)重值大的句子形成摘要。
進一步來說,步驟(2)中所述的簇排列算法具體方法如下令fχ→R表示一個排列函數(shù),對句子集合χ中每個句子xi,其中,1≤i≤n,賦予一個排列值fi,將f看作一個向量f=[f1,...,fn]T,同時,定義一個向量y=[y1,...,yn]T,其中對于1≤i≤p有yi=1,表示這p個句子來自用戶給定的主題或查詢,而對于文檔中的n-p個句子均有yi=0(p+1≤i≤n),其中,T表示向量轉(zhuǎn)置;根據(jù)下式迭代計算每個句子的排列值,直到收斂f(t+1)=αSf(t)+(1-α)y (1)其中f(t)表示第t次迭代得到的向量,t為正整數(shù),S是步驟(1)得到的規(guī)范化的句子相似矩陣,α是
之間的一個參數(shù),決定著某個句子的排列值計算過程中其相鄰句子的排列值和初始排列值相對的貢獻大??;每一次迭代過程均基于上次迭代計算得到的排列值,利用上式計算每個句子的新的排列值,直到所有句子的前后兩次迭代計算得到的排列值不再變化為止,實際計算時只要所有句子的排列值的變化小于閾值時算法即停止,通常令f(1)=y(tǒng);令fi*表示算法收斂后句子xi得到的排列值。
上述算法的基本思想是相鄰接的句子之間的排列值在一定程度上應(yīng)該相近,因此每個句子都將自身的排列值擴散到它的相鄰句子,直到這個過程達到一個全局的穩(wěn)定狀態(tài)為止,最后每個文檔中的句子都獲得了一個排列值,反映該句子的面向用戶主題或查詢的信息豐富程度,上述算法可以從理論上證明收斂到f*=β(I-αS)-1y (2)其中β=1-α,f*表示得到的排列值向量,I是單位矩陣;進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(1)中所述的主題或查詢信息是跟特定用戶有關(guān)的個性化描述,包括用戶屬性、用戶提問、用戶查詢,這些描述由用戶直接提供,或者從用戶的行為分析得到。
再進一步,步驟(1)中將主題或查詢信息分成1到5個句子,也即是p的取值范圍為1到5。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(1)中計算句子相似度,構(gòu)建句子關(guān)系圖時,具體方法如下1)對用戶給定的主題或查詢分句,得到x1到xp這p個句子,對所有文檔進行分句得到xp+1到xn這n-p個句子,對這n個句子分詞,然后利用下面的余弦公式對句子集合χ={x1,...,xp,xp+1,...,xn}Rm中的任意兩個句子xi和xj計算相似度值sim(xi,xj)=cos(xρi,xρj)=xρi·xρj||xρi||·||xρj||---(3)]]>其中 和 為兩個句子對應(yīng)的詞向量表示,向量中詞t對應(yīng)的權(quán)重根據(jù)tft*isft公式計算,tft表示詞t在句子中的頻率,isft表示詞t倒排句子頻率,也就是1+log(N/nt),其中N是句子的總數(shù)量,nt是包含詞t的句子數(shù)量;2)將每個句子當作一個頂點,如果兩個句子xi和xj之間的相似度值大于閾值,那么在這兩個句子之間建立一條邊,邊的權(quán)重為句子之間的相似度值,從而得到一個帶權(quán)圖G,令W表示圖G對應(yīng)的鄰接矩陣,如果句子xi和xj之間存在邊,那么Wij=sim(xi,xj),且對于所有的i,Wii=0;3)對于得到的帶權(quán)圖G,本發(fā)明區(qū)分其中文檔內(nèi)句子關(guān)系和文檔間句子關(guān)系,如果兩個句子屬于同一文檔,那么它們之間的關(guān)系為文檔內(nèi)句子關(guān)系;如果兩個句子分屬不同文檔,那么它們之間的關(guān)系為文檔間句子關(guān)系。為了區(qū)分這兩種關(guān)系的不同重要性,本發(fā)明將得到的鄰接矩陣分解為W~=λ1Wintra+λ2Winter---(4)]]>其中Wintra是僅包含表示文檔內(nèi)句子關(guān)系的邊的鄰接矩陣(表示文檔間句子關(guān)系的邊權(quán)值設(shè)為0),Winter則是僅包含表示文檔間句子關(guān)系的邊的鄰接矩陣(表示文檔內(nèi)句子關(guān)系的邊權(quán)值設(shè)為0),λ1,λ2∈
;4)對新的鄰接矩陣 進行規(guī)范化得到新的相似矩陣S=D-1/2W~D-1/2,]]>其中D是對角矩陣,第(i,i)個元素等于 的第i行元素之和;令對原鄰接矩陣W進行同樣規(guī)范化得到的矩陣為 再進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(1)中設(shè)定兩個句子xi和xj之間的相似度值大于閾值時,閾值設(shè)定為0.01。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(1)中區(qū)分文檔內(nèi)句子關(guān)系和文檔間句子關(guān)系時,公式(4)中λ1設(shè)為0.3,λ2設(shè)為1。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(2)中公式(1)中α設(shè)定為0.6。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(2)中設(shè)定句子的排列值的變化小于閾值時,閾值設(shè)定為0.0001。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(3)中對句子進行差異性懲罰時,采用貪心算法來對每個句子進行差異性懲罰,從而保證候選句子的新穎性,具體方法如下1)初始化兩個集合A=φ,B={xi|i=p+1,...,n},每個句子的最終權(quán)重值初始化為其排列值,也就是說RankScore(xi)=fi*,i=p+1,...n;2)按照當前最終權(quán)重值降序排列B中的句子;3)假定xi是排名最高的句子,也就是序列中第一個句子,將xi從B移到A,并且對B中每一個和xi相鄰接的句子xj(j≠i)進行如下的差異性懲罰RankScore(xj)=RankScore(xj)-ω·S^ji·fi*---(5)]]>其中ω>0是懲罰程度因子,ω越大,差異性懲罰越強;如果ω為0,那么就沒有差異性懲罰;
4)循環(huán)執(zhí)行步驟2)和步驟3),直到B=φ。
再進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟3)中公式(5)中所述的懲罰程度因子ω設(shè)定為8。
進一步,步驟(4)中,從文檔句子xp+1到xn中選擇權(quán)重值最大的2-10個句子形成摘要。
本發(fā)明的效果在于采用本發(fā)明所述的方法,能夠全面考慮了句子之間的相互關(guān)系以及用戶主題或查詢的信息,實現(xiàn)了使生成的多文檔摘要既能包含文檔集的主要信息,又能詮釋主題或回答查詢,能夠得到更好的面向主題或查詢的多文檔摘要。
本發(fā)明之所以具有上述發(fā)明效果,是因為本發(fā)明具有下述特點本發(fā)明提出了一種全新的摘要方法,該方法基于一種新的半監(jiān)督學(xué)習(xí)算法-基于簇排列的算法,一體化考慮句子之間的相互關(guān)系以及用戶主題或查詢的信息,從而使得生成的摘要既能包含文檔集的主要信息,又能詮釋主題或回答查詢,同時利用差異性懲罰算法來保證生成摘要的新穎性。該方法在基于簇排列的算法中還區(qū)別對待了文檔內(nèi)句子關(guān)系和文檔間句子關(guān)系這兩種不同的關(guān)系,賦予文檔間句子關(guān)系更大的貢獻權(quán)重。


圖1是本發(fā)明所述方法的流程圖;圖2是使用本發(fā)明提出的方法改善文檔檢索的示意圖。
具體實施例方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述如圖1所示,一種基于簇排列的面向主題或查詢的多文檔摘要方法,包括以下步驟(1)讀入文檔,將主題或查詢信息作為句子,對每個文檔及主題或查詢信息分句、分詞,計算句子相似度,構(gòu)建句子關(guān)系圖;本實施例中所述的主題包括用戶屬性、用戶提問、用戶查詢等跟特定用戶有關(guān)的個性化描述,這些描述是由用戶直接提供,當然也可以從用戶的行為分析得到;如果主題過長,可以將主題分成多個句子,最好是分成1到5個句子。由于本實施例中的主題較短,所以就將主題當作一個句子,也就是令p=1。
本實施例中計算句子相似度,構(gòu)建句子關(guān)系圖時,采用具體方法如下將用戶給定的主題當作一個句子x1,對每個文檔分句得到n-1個句子,同時得到句子集合χ={x1,X2,...,xn}Rm,其中x1表示用戶給定的主題或查詢,x2,...,xn表示文檔中的n-1個句子;對這n個句子分詞,然后利用下面的余弦公式對句子集合χ={x1,x2,...,xn}Rm中的任意兩個句子xi和xj計算相似度值sim(xi,xj)=cos(xρi,xρj)=xρi·xρj||xρi||·||xρj||---(3)]]>其中 和 為兩個句子對應(yīng)的詞向量表示,向量中詞t對應(yīng)的權(quán)重根據(jù)tft*isft公式計算,tft表示詞t在句子中的頻率,isft表示詞t倒排句子頻率,也就是1+log(N/nt),其中N是句子的總數(shù)量,nt是包含詞t的句子數(shù)量。
將每個句子當作一個頂點,如果兩個句子xi和xj之間的相似度值大于閾值,本實施例中,設(shè)定閾值為0.01;那么在這兩個句子之間建立一條邊,邊的權(quán)重為句子之間的相似度值,從而得到一個帶權(quán)圖G。令W表示圖G對應(yīng)的鄰接矩陣,如果句子xi和xj之間存在邊,那么Wij=sim(xi,xj),且對于所有的i,Wij=0。
對于得到的帶權(quán)圖G,本發(fā)明區(qū)分其中文檔內(nèi)句子關(guān)系和文檔間句子關(guān)系。如果兩個句子屬于同一文檔,那么它們之間的關(guān)系為文檔內(nèi)句子關(guān)系;如果兩個句子分屬不同文檔,那么它們之間的關(guān)系為文檔間句子關(guān)系。為了區(qū)分這兩種關(guān)系的不同重要性,本發(fā)明將得到的鄰接矩陣分解為W~=λ1Wintra+λ2Winter---(4)]]>其中Wintra是僅包含表示文檔內(nèi)句子關(guān)系的邊的鄰接矩陣(表示文檔間句子關(guān)系的邊權(quán)值設(shè)為0),Winter則是僅包含表示文檔間句子關(guān)系的邊的鄰接矩陣(表示文檔內(nèi)句子關(guān)系的邊權(quán)值設(shè)為0),λ1,λ2∈
,本實施例中,設(shè)定設(shè)λ1=0.3,λ2=1,從而對文檔間句子關(guān)系賦予更多重要性。
對新的鄰接矩陣 進行規(guī)范化得到新的相似矩陣S=D-1/2W~D-1/2,]]>其中D是對角矩陣,第(i,i)個元素等于 的第i行元素之和;令對原鄰接矩陣W進行同樣規(guī)范化得到的矩陣為 (2)采用簇排列算法迭代計算文檔中每個句子的排列值;本實施例中,簇排列算法具體方法如下
令fχ→R表示一個排列函數(shù),對每個句子xi(1≤i≤n)賦予一個排列值fi.我們可以將f看作一個向量f=[f1,...,fn]T。同時,我們定義一個向量y=[y1,...,yn]T,其中y1=1反映了句子x1表示用戶給定的主題或查詢,而對于文檔中的所有句子均有yi=0(2≤i≤n)。
根據(jù)下式迭代計算每個句子的排列值,直到收斂f(t+1)=αSf(t)+(1-α)y (1)其中f(t)表示第t次迭代得到的向量,α是
之間的一個參數(shù),決定著某個句子的排列值計算過程中其相鄰句子的排列值和初始排列值相對的貢獻大小,本實施例中α設(shè)定為為0.6;通常令f(1)=y(tǒng),每一次迭代過程均基于上次迭代計算得到的排列值,利用上式計算每個句子的新的排列值,直到所有句子的前后兩次迭代計算得到的排列值不再變化為止,實際計算時只要所有句子的排列值的變化小于閾值時算法即停止,本實施例中,閾值設(shè)定為0.0001;令fi*表示算法收斂后句子xi得到的排列值。
上述算法的基本思想是相鄰接的句子之間的排列值在一定程度上應(yīng)該相近,因此每個句子都將自身的排列值擴散到它的相鄰句子,直到這個過程達到一個全局的穩(wěn)定狀態(tài)為止。最后每個文檔中的句子都獲得了一個排列值,反映該句子的面向用戶主題或查詢的信息豐富程度。
上述算法可以從理論上證明收斂到f*=β(I-αS)-1y (2)其中β=1-α。
(3)對句子進行差異性懲罰,得到每個句子的最終權(quán)重值;對句子進行差異性懲罰時,采用貪心算法來對每個句子進行差異性懲罰,從而保證候選句子的新穎性,具體方法如下1)初始化兩個集合A=φ,B={xi|i=2,...,n},每個句子的最終權(quán)重值初始化為其排列值,也就是說RankScore(xi)=fi*,i=2,...n;2)按照當前最終權(quán)重值降序排列B中的句子;3)假定xi是排名最高的句子,也就是序列中第一個句子,將xi從B移到A,并且對B中每一個和xi相鄰接的句子xj(j≠i)進行如下的差異性懲罰RankScore(xj)=RankScore(xj)-ω·S^ji·fi*---(5)]]>其中ω>0是懲罰程度因子,ω越大,差異性懲罰越強,本實施例中,懲罰程度因子ω設(shè)定為8;如果ω為0,那么就沒有差異性懲罰;
使用A的位圖否則使用F的位圖在F的位圖中記錄寫(如果有)的影響A2)對向A的后續(xù)客戶寫上應(yīng)用下面的規(guī)則如果A不可訪問則對A的所有客戶寫都失敗否則將所有客戶寫重定向到F并且改變F的位圖以記錄寫的影響通過下表所示的A和F的位圖管理對F的重定向客戶寫操作。
顆粒狀態(tài)

其中1)活動1.1-如果必要,從級聯(lián)中讀原始數(shù)據(jù),并且和客戶數(shù)據(jù)合并。將合并的/客戶數(shù)據(jù)寫到F。將F的位圖設(shè)置為ND。
2)活動1.2-將客戶數(shù)據(jù)寫到F。
3)活動1.3-從F讀顆粒,以通常的方法將原始數(shù)據(jù)寫到級聯(lián)中。將客戶數(shù)據(jù)寫到F,將F的位圖設(shè)置為ND。
表2在DUC2003第3個任務(wù)上評測的比較結(jié)果

表3在DUC2005唯一任務(wù)上評測的比較結(jié)果

實驗結(jié)果表明,本發(fā)明的方法表現(xiàn)優(yōu)異,在三個評價指標上都優(yōu)于參評者的系統(tǒng)以及基準系統(tǒng)。
ROUGE評測方法可以參見文獻Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者C.-Y.Lin and E.H.Hovy,發(fā)表于2003年出版的期刊Proceedings of 2003 LanguageTechnology Conference(HLT-NAACL 2003))本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種基于簇排列的面向主題或查詢的多文檔摘要方法,包括以下步驟(1)讀入主題或查詢以及文檔,對主題或查詢描述以及每個文檔進行分句,句子集合為x={x1,...,xp,xp+1,...,xn}Rm,其中x1到xp表示p個從主題或查詢中得到的句子,xp+1到xn表示n-p個從文檔中得到的句子,計算這n個句子中任意兩個句子的相似度,構(gòu)建句子關(guān)系圖,其對應(yīng)的規(guī)范化的句子相似矩陣為S;(2)采用簇排列算法迭代計算文檔中每個句子的排列值,所述的排列值即初始權(quán)重值;(3)對上述句子進行差異性懲罰,得到每個句子的最終權(quán)重值;(4)選擇權(quán)重值大的句子形成摘要。
2.如權(quán)利要求1所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(2)中簇排列算法具體方法如下令f:x→R表示一個排列函數(shù),對句子集合x中每個句子xi,其中,1≤i≤n,賦予一個排列值fi,將f看作一個向量f=[f1,...,fn]T,同時,定義一個向量y=[y1,...,yn]T,其中對于1≤i≤p有yi=1,表示這p個句子來自用戶給定的主題或查詢,而對于文檔中的n-p個句子均有yi=0(p+1≤i≤n),其中,T表示向量轉(zhuǎn)置;根據(jù)下式迭代計算每個句子的排列值,直到收斂f(t+1)=αSf(t)+(1-α)y(1)其中f(t)表示第t次迭代得到的向量,t為正整數(shù),S是步驟(1)得到的規(guī)范化的句子相似矩陣,α是
之間的一個參數(shù),決定著某個句子的排列值計算過程中其相鄰句子的排列值和初始排列值相對的貢獻大?。幻恳淮蔚^程均基于上次迭代計算得到的排列值,利用上式計算每個句子的新的排列值,直到所有句子的前后兩次迭代計算得到的排列值的變化小于閾值時算法即停止,通常令f(1)=y(tǒng);令fi*表示算法收斂后句子xi得到的排列值;
3.如權(quán)利要求2所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(1)中所述的主題或查詢信息是跟特定用戶有關(guān)的個性化描述,包括用戶屬性、用戶提問、用戶查詢,這些描述由用戶直接提供,或者從用戶的行為分析得到。
4.如權(quán)利要求3所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(1)中將主題或查詢信息分成1到5個句子,也就是p取值范圍為1到5。
5.如權(quán)利要求1、2、3或4所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(1)中計算句子相似度,構(gòu)建句子關(guān)系圖時,具體方法如下1)對用戶給定的主題或查詢分句,得到x1到xp這p個句子,對所有文檔進行分句得到xp+1到xn這n-p個句子,對這n個句子分詞,然后利用下面的余弦公式對句子集合x={x1,...,xp,xp+1,...,xn}Rm中的任意兩個句子xi和xj計算相似度值sim(xi,xj)=cos(xρi,xρj)=xρi·xρj||xρi||·||xρj||···(3)]]>其中 和 為兩個句子對應(yīng)的詞向量表示,向量中詞t對應(yīng)的權(quán)重根據(jù)tft*isft公式計算,tft表示詞t在句子中的頻率,isft表示詞t倒排句子頻率,也就是1+log(N/nt),其中N是句子的總數(shù)量,nt是包含詞t的句子數(shù)量;2)將每個句子當作一個頂點,如果兩個句子xi和xj之間的相似度值大于閾值,那么在這兩個句子之間建立一條邊,邊的權(quán)重為句子之間的相似度值,從而得到一個帶權(quán)圖G,令W表示圖G對應(yīng)的鄰接矩陣,如果句子xi和xj之間存在邊,那么Wij=sim(xi,xj),且對于所有的i,Wij=0;3)對于得到的帶權(quán)圖G,本發(fā)明區(qū)分其中文檔內(nèi)句子關(guān)系和文檔間句子關(guān)系,如果兩個句子屬于同一文檔,那么它們之間的關(guān)系為文檔內(nèi)句子關(guān)系;如果兩個句子分屬不同文檔,那么它們之間的關(guān)系為文檔間句子關(guān)系,為了區(qū)分這兩種關(guān)系的不同重要性,本發(fā)明將得到的鄰接矩陣分解為W~=λ1Wintra+λ2Winter···(4)]]>其中Wintra是僅包含表示文檔內(nèi)句子關(guān)系的邊的鄰接矩陣,表示文檔間句子關(guān)系的邊權(quán)值設(shè)為0,Winter則是僅包含表示文檔間句子關(guān)系的邊的鄰接矩陣,表示文檔內(nèi)句子關(guān)系的邊權(quán)值設(shè)為0,λ1,λ2∈
;4)對新的鄰接矩陣 進行規(guī)范化得到新的相似矩陣S=D-1/2W~D-1/2,]]>其中D是對角矩陣,第(i,i)個元素等于 的第i行元素之和,令對原鄰接矩陣W進行同樣規(guī)范化得到的矩陣為
6.如權(quán)利要求5所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是設(shè)定兩個句子xi和xj之間的相似度值大于閾值時,閾值設(shè)定為0.01。
7.如權(quán)利要求5所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(1)中區(qū)分文檔內(nèi)句子關(guān)系和文檔間句子關(guān)系時,公式(4)中λ1設(shè)為0.3,λ2設(shè)為1。
8如權(quán)利要求2、3或4所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(2)中公式(1)中α設(shè)定為0.6。
9.如權(quán)利要求2、3或4所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(2)中設(shè)定句子的排列值的變化小于閾值時,閾值設(shè)定為0.0001。
10.如權(quán)利要求1、2、3或4所述的種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(3)中對句子進行差異性懲罰時,采用貪心算法來對每個句子進行差異性懲罰,從而保證候選句子的新穎性,具體方法如下a)初始化兩個集合A=φ,B={xi|i=p+1,...,n},每個句子的最終權(quán)重值初始化為其排列值,也就是說RankScore(xi)=fi*,i=p+1,...n;b)按照當前最終權(quán)重值降序排列B中的句子;c)假定xi是排名最高的句子,也就是序列中第一個句子,將xi從B移到A,并且對B中每一個和xi相鄰接的句子xj(j≠i)進行如下的差異性懲罰RankScore(xj)=RankScore(xj)-ω·S^ji·fi*···(5)]]>其中ω>0是懲罰程度因子,ω越大,差異性懲罰越強;如果ω為0,那么就沒有差異性懲罰;d)循環(huán)執(zhí)行步驟2)和步驟3),直到B=φ。
11.如權(quán)利要求10所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟3)中公式(5)中所述的懲罰程度因子ω設(shè)定為8;步驟(4)中,文檔句子xp+1到xn中選擇權(quán)重值最大的2-10個句子形成摘要。
12.如權(quán)利要求1、2、3或4所述的一種基于簇排列的面向主題或查詢的多文檔摘要方法,其特征是步驟(4)中,文檔句子xp+1到xn中選擇權(quán)重值最大的2-10個句子形成摘要。
全文摘要
本發(fā)明涉及一種基于簇排列的面向主題或查詢的多文檔摘要方法,屬于語言文字處理技術(shù)領(lǐng)域?,F(xiàn)有的多文檔摘要方法,在用戶搜索感興趣的主題時,不能準確地根據(jù)用戶定義的興趣愛好等屬性返回相關(guān)的新聞信息和面向用戶屬性的摘要。本發(fā)明所述的方法提供了一種新的半監(jiān)督學(xué)習(xí)算法即基于簇排列的算法,該方法全面考慮了句子之間的相互關(guān)系以及句子和用戶主題或查詢之間的關(guān)系,從而使得生成的摘要既能包含文檔集的主要信息,又能詮釋主題或回答查詢,同時利用差異性懲罰算法來保證摘要的新穎性。采用本發(fā)明所述的方法能夠根據(jù)用戶的興趣愛好等需求,返回相關(guān)的新聞信息,從而得到更好的面向主題或查詢的多文檔摘要,可以滿足不同用戶的個性化需求。
文檔編號G06F17/27GK1828609SQ20061007258
公開日2006年9月6日 申請日期2006年4月13日 優(yōu)先權(quán)日2006年4月13日
發(fā)明者萬小軍, 楊建武, 吳於茜, 陳曉鷗, 肖建國 申請人:北大方正集團有限公司, 北京大學(xué), 北京北大方正技術(shù)研究院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
庐江县| 淮滨县| 上蔡县| 平江县| 吉木萨尔县| 德令哈市| 奎屯市| 耒阳市| 乌拉特前旗| 文成县| 抚州市| 林芝县| 运城市| 凤凰县| 精河县| 瑞安市| 巴林左旗| 霸州市| 浦城县| 韶关市| 桐庐县| 罗定市| 喀喇| 北安市| 平罗县| 六枝特区| 仲巴县| 晋中市| 龙陵县| 黄冈市| 仙游县| 镇宁| 晴隆县| 碌曲县| 全州县| 万年县| 郧西县| 上饶县| 达孜县| 荆州市| 广宗县|