欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法

文檔序號(hào):6555987閱讀:159來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù),更具體地說(shuō),涉及一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法。
背景技術(shù)
所謂網(wǎng)頁(yè)主題,就是網(wǎng)頁(yè)正文所描述事件的摘要內(nèi)容或者關(guān)鍵詞列表,標(biāo)示了該網(wǎng)頁(yè)的主題內(nèi)容和中心思想?,F(xiàn)有的網(wǎng)頁(yè)主題提取方法主要有兩種。一種是是基于標(biāo)題的網(wǎng)頁(yè)主題提取技術(shù)。其方法是采用Html(HyperText MarkupLanguage,超文件鏈接標(biāo)記語(yǔ)言)文檔解析器,按照html協(xié)議分析html網(wǎng)頁(yè),按照網(wǎng)頁(yè)源文件的tag標(biāo)識(shí)建立html語(yǔ)法樹(shù),以找出網(wǎng)頁(yè)的標(biāo)題、正文等的內(nèi)容,然后將網(wǎng)頁(yè)中標(biāo)題<title>標(biāo)簽的值作為網(wǎng)頁(yè)的主題思想。該方法是早期比較常用的網(wǎng)頁(yè)主題提取方法。但是這種計(jì)算方法顯然過(guò)于簡(jiǎn)單,實(shí)際應(yīng)用中準(zhǔn)確率、召回率均很低,并且不可避免的會(huì)出現(xiàn)正文部分信息丟失的情況。
另外一種是基于標(biāo)題的網(wǎng)頁(yè)主題提取技術(shù)。隨著統(tǒng)計(jì)自然語(yǔ)言處理技術(shù)的發(fā)展,按照高詞頻關(guān)鍵詞來(lái)標(biāo)示網(wǎng)頁(yè)主題的方法得到了廣泛的應(yīng)用,具體做法是先將網(wǎng)頁(yè)源文件去tag標(biāo)記,然后將文章內(nèi)容進(jìn)行分詞統(tǒng)計(jì)詞頻,最后按詞頻對(duì)關(guān)鍵詞排序,給出前N個(gè)高詞頻作為文章主題。但是由于表義語(yǔ)言發(fā)展得很充分,一義多詞是普遍現(xiàn)象,再加上修辭法的運(yùn)用使得詞匯稀疏現(xiàn)象客觀存在,特別是對(duì)于網(wǎng)頁(yè)類(lèi)的短文章,該算法整體效果不是很理想。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的缺陷,提供一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法,其基于義元集語(yǔ)義分析技術(shù)、充分利用網(wǎng)頁(yè)預(yù)分類(lèi)信息、顯示屬性信息來(lái)增加單純語(yǔ)義分析技術(shù)的準(zhǔn)確度。
本發(fā)明的技術(shù)方案是一種網(wǎng)頁(yè)主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文;還包括分詞模塊,其用于將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。
進(jìn)一步的,所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對(duì)所述第二詞匯表中的詞匯進(jìn)行處理。
具體的,所述義元處理模塊包括義元擴(kuò)展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,表示為第一義元表;網(wǎng)頁(yè)主題義元計(jì)算模塊,其用于對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重;義元復(fù)原關(guān)鍵詞模塊,其用于對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。
本發(fā)明一種網(wǎng)頁(yè)主題提取系統(tǒng)還包括網(wǎng)頁(yè)主題輸出接口,其用于將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表,所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
本發(fā)明還提供了一種網(wǎng)頁(yè)主題提取方法,包括以下步驟(a),所述文檔解析器從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文;(b),所述分詞模塊將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞,得到第一詞匯表;(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
其中,步驟(a)中,提取網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)正文的方法是所述文檔解析器對(duì)所述網(wǎng)頁(yè)的源文件進(jìn)行解析,得到網(wǎng)頁(yè)的語(yǔ)法樹(shù),然后從語(yǔ)法樹(shù)上獲得網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
進(jìn)一步的,步驟(b)中,所述分詞模塊還對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注,得到第一詞匯表。步驟(b)之后進(jìn)一步包括步驟(b1),所述分詞后處理模塊至少對(duì)所述第一詞匯表中的詞匯進(jìn)行去停用詞、去虛詞,得到第二詞匯表。
具體的,步驟(c)包括步驟(c1),所述義元擴(kuò)展模塊按照詞典與義元詞典的對(duì)應(yīng)關(guān)系將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;(c2),所述網(wǎng)頁(yè)主題義元計(jì)算模塊對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重,得到具有不同權(quán)重的第二義元表;(c3),所述義元復(fù)原關(guān)鍵詞模塊按照義元詞典對(duì)所述第二義元表中的義元進(jìn)行反向還原,得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
本發(fā)明方法中,步驟(c)之后進(jìn)一步包括步驟(d),所述網(wǎng)頁(yè)主題輸出接口將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表,所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
本發(fā)明的有益效果在于①采用基于義元集的語(yǔ)義分析技術(shù),避免了詞匯稀疏的難題,對(duì)短文章的分析效果良好。②充分考慮了網(wǎng)頁(yè)的預(yù)分類(lèi)、標(biāo)題信息和顯示屬性,能夠準(zhǔn)確地提取出網(wǎng)頁(yè)的主題。③采用帶權(quán)重的詞匯排序表表示網(wǎng)頁(yè)的主題,避免了信息的丟失。


圖1是本發(fā)明一種網(wǎng)頁(yè)主題提取系統(tǒng)的結(jié)構(gòu)圖。
圖2是本發(fā)明一種網(wǎng)頁(yè)主題提取方法的流程圖。
具體實(shí)施例方式
下面根據(jù)附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步闡述。
如圖1所示,本發(fā)明一種網(wǎng)頁(yè)主題提取系統(tǒng)包括文檔解析器1、分詞模塊2、分詞后處理模塊3、義元處理模塊和網(wǎng)頁(yè)主題輸出接口7。義元處理模塊包括義元擴(kuò)展模塊4、網(wǎng)頁(yè)主題義元計(jì)算模塊5和義元復(fù)原關(guān)鍵詞模塊6。網(wǎng)站或其它應(yīng)用系統(tǒng)中與本發(fā)明系統(tǒng)相關(guān)的模塊可以包括網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8、網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9、網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10和網(wǎng)頁(yè)主題應(yīng)用模塊11。本發(fā)明中文檔解析器1采用Html(HyperText Markup Language,超文件鏈接標(biāo)記語(yǔ)言)文檔解析器。
其中,Html文檔解析器1能夠把html網(wǎng)頁(yè)按照Html協(xié)議解析成一棵語(yǔ)法樹(shù),同時(shí)具有提取網(wǎng)頁(yè)標(biāo)題、提取具有不同突出顯示屬性的網(wǎng)頁(yè)正文的能力。它與分詞模塊2相連,并與網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8(或其它可獲得相關(guān)網(wǎng)頁(yè)源文件的模塊)相連,以獲得網(wǎng)頁(yè)源文件。網(wǎng)頁(yè)源文件中的font tag標(biāo)記指示了網(wǎng)頁(yè)的顯示屬性,一般來(lái)說(shuō)顯示的突出程度(大字體、彩色)和內(nèi)容的重要程度成正比。本發(fā)明主要提取網(wǎng)頁(yè)正文中比較突出、容易得到用戶注意的正文(如大字體、彩色,及其后的正文),即具有突出顯示屬性的網(wǎng)頁(yè)正文。
分詞模塊2負(fù)責(zé)按照詞典將網(wǎng)頁(yè)的正文和標(biāo)題、類(lèi)別切分成詞匯。如將“我是一個(gè)學(xué)生”進(jìn)行分詞,分為“我”、“是”、“一個(gè)”、“學(xué)生”四個(gè)詞?,F(xiàn)有的分詞算法可分為三大類(lèi)基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本實(shí)施例中采用基于字符串匹配的分詞方法。該方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。
本發(fā)明中,分詞模塊2還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能,以方便分詞后處理模塊3將詞匯中的停用詞和虛詞等去掉。它與文檔解析器1、詞典、分詞后處理模塊3相連,并與網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10(或其它可獲得相應(yīng)網(wǎng)頁(yè)分類(lèi)信息的模塊)相連,以獲得相應(yīng)網(wǎng)頁(yè)的類(lèi)別信息。
分詞后處理模塊3的功能包括但不限于對(duì)分詞模塊2的輸出去停用詞、去虛詞等功能,剔除對(duì)主題無(wú)關(guān)的信息。
義元擴(kuò)展模塊4用于使用義元詞典完成詞匯到義元的正向轉(zhuǎn)換。它與分詞后處理模塊3、網(wǎng)頁(yè)主題義元計(jì)算模塊5和義元詞典相連。
本發(fā)明在網(wǎng)頁(yè)主題提取過(guò)程中并不是用詞匯作為計(jì)算單元的,而是使用義元詞典將詞匯轉(zhuǎn)換成義元表示,是一種基于義元集的語(yǔ)義分析技術(shù)。
所謂義元(semantic primitives)就是組義語(yǔ)言中最基本的元素。它可以解釋成一組意思的符號(hào),它可以無(wú)需定義地被所有人理解,此外,所有的其它詞匯都能用它們來(lái)定義。自然語(yǔ)言處理所面臨的一個(gè)重大難題是詞匯稀疏,所以將關(guān)鍵詞轉(zhuǎn)換成義元詞表示能很大程度上避免詞匯稀疏現(xiàn)象,義元集是一個(gè)小規(guī)模詞匯或者義元序號(hào)集合,表征了自然界的所有概念,一個(gè)義元集元素唯一的、不重復(fù)的表示一個(gè)概念。
網(wǎng)頁(yè)主題義元計(jì)算模塊5用于利用統(tǒng)計(jì)語(yǔ)言學(xué)原理對(duì)網(wǎng)頁(yè)義元進(jìn)行計(jì)算,計(jì)算的結(jié)果是對(duì)不同的義元賦予了不同的權(quán)重。計(jì)算的過(guò)程中對(duì)于網(wǎng)頁(yè)的分類(lèi)信息、標(biāo)題信息和不同顯示屬性的正文信息分別給予不同的統(tǒng)計(jì)權(quán)值。
義元復(fù)原關(guān)鍵詞模塊6用于按照義元詞典和網(wǎng)頁(yè)正文對(duì)義元進(jìn)行反向還原,得到一組帶權(quán)重的主題詞匯集合。這些主題詞匯集合表征了網(wǎng)頁(yè)的主題。它與網(wǎng)頁(yè)主題義元計(jì)算模塊5、網(wǎng)頁(yè)主題輸出接口7和義元詞典相連。
網(wǎng)頁(yè)主題輸出接口7用于將上述帶權(quán)重的主題詞匯集合轉(zhuǎn)換為標(biāo)準(zhǔn)化的、帶不同權(quán)重的詞匯列表,以適合應(yīng)用層的調(diào)用。故,其與網(wǎng)頁(yè)主題應(yīng)用模塊11相連。
本實(shí)施例中,網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8與網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9、網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10相連,網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9與網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10相連。網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8內(nèi)存儲(chǔ)著網(wǎng)站中所有網(wǎng)頁(yè)的源文件。網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9用于生成網(wǎng)站導(dǎo)航樹(shù)。網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10用于根據(jù)網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9生成的網(wǎng)站導(dǎo)航樹(shù)對(duì)網(wǎng)頁(yè)源文件進(jìn)行分析,以生成網(wǎng)頁(yè)分類(lèi)信息。網(wǎng)頁(yè)主題應(yīng)用模塊11用于從所述網(wǎng)頁(yè)主題輸出接口調(diào)用對(duì)應(yīng)網(wǎng)頁(yè)的主題信息,然后根據(jù)業(yè)務(wù)相關(guān)性進(jìn)行計(jì)算,為用戶提供個(gè)性化的服務(wù)。例如,用戶正在瀏覽一個(gè)關(guān)于手機(jī)的網(wǎng)站,本發(fā)明系統(tǒng)對(duì)其正在瀏覽的網(wǎng)頁(yè)進(jìn)行主題提取,得出其正在觀看諾基亞3310款手機(jī)的資料,則網(wǎng)頁(yè)主題應(yīng)用模塊立刻在其業(yè)務(wù)庫(kù)中搜索與諾基亞3310相關(guān)的廣告信息或服務(wù),并推送給用戶。
如圖2所示,本發(fā)明一種網(wǎng)頁(yè)主題提取方法包括步驟
S1,文檔解析器1從網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8獲取一個(gè)網(wǎng)頁(yè)的源文件,并從網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10上獲得將該網(wǎng)頁(yè)的分類(lèi)信息。
多數(shù)網(wǎng)站導(dǎo)航條里面都指明了某個(gè)網(wǎng)頁(yè)的所屬類(lèi)別信息,即網(wǎng)頁(yè)的分類(lèi)信息。分類(lèi)信息一般是從網(wǎng)站導(dǎo)航樹(shù)中獲得,網(wǎng)站導(dǎo)航樹(shù)可以是直接由網(wǎng)站中取得,也可以由網(wǎng)站目錄樹(shù)生成。
S2,文檔解析器1對(duì)網(wǎng)頁(yè)的源文件進(jìn)行解析,得到網(wǎng)頁(yè)的html語(yǔ)法樹(shù)。
S3,文檔解析器1從網(wǎng)頁(yè)語(yǔ)法樹(shù)上面取得網(wǎng)頁(yè)的標(biāo)題信息以及正文中具有不同突出顯示屬性的正文內(nèi)容,并按照正文中的突出顯示順序記為body1body2 body3...bodyN。
S4,分詞模塊2對(duì)網(wǎng)頁(yè)的類(lèi)別、標(biāo)題和正文body1 body2 body3...bodyN進(jìn)行分詞,并對(duì)上述切分后的詞匯進(jìn)行詞性標(biāo)注,形成第一詞匯表。
S5,分詞后處理模塊3將第一詞匯表中的停用詞、虛詞等剔除,形成第二詞匯表。
S6,義元擴(kuò)展模塊4按照詞典和義元詞典的對(duì)應(yīng)關(guān)系將第二詞匯表中的詞匯用義元表示為第一義元表。
S7,網(wǎng)頁(yè)主題義元計(jì)算模塊5按照量空間模型的Tf-Idf(特征項(xiàng)賦權(quán)因子)等算法給第一義元表里的所有義元計(jì)算權(quán)重,得到帶權(quán)重的第二義元表。
本實(shí)施例中,采用Tf-Idf算法對(duì)第一義元表中的義元計(jì)算權(quán)重。當(dāng)然也可以采用交叉熵等算法對(duì)第一義元表中的義元計(jì)算權(quán)重。Tf-Idf算法采用倒排索引技術(shù),其主要應(yīng)用在全文檢索。該算法可以保證為中等頻率的義元賦以高的權(quán)重,并排除噪聲詞匯。在計(jì)算時(shí)候,根據(jù)先前的分類(lèi)信息、標(biāo)題信息、突出顯示信息(font)對(duì)關(guān)鍵詞表賦予不同權(quán)值擴(kuò)展分類(lèi)信息詞表為classwords,每個(gè)詞權(quán)重為m;標(biāo)題擴(kuò)展詞匯為titlewords,每個(gè)詞權(quán)重為n;font字體擴(kuò)展詞匯為fontwords,每個(gè)詞權(quán)重隨字體突出程度遞增。
S8,義元復(fù)原關(guān)鍵詞模塊6按照義元詞典和網(wǎng)頁(yè)正文對(duì)第二義元表中的義元進(jìn)行反向還原,得到表征了網(wǎng)頁(yè)主題的、帶權(quán)重的主題詞匯集合。主題詞匯集合即為考慮了預(yù)分類(lèi)信息,標(biāo)題信息,網(wǎng)頁(yè)突出顯示信息的網(wǎng)頁(yè)主題詞表。
S9,網(wǎng)頁(yè)主題輸出接口7將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表,等待網(wǎng)頁(yè)主題應(yīng)用模塊11調(diào)用。其中,列表中的詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)頁(yè)主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文;其特征在于,還包括分詞模塊,其用于將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁(yè)主題提取系統(tǒng),其特征在于所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對(duì)所述第二詞匯表中的詞匯進(jìn)行處理。
3.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁(yè)主題提取系統(tǒng),其特征在于,所述義元處理模塊包括義元擴(kuò)展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;網(wǎng)頁(yè)主題義元計(jì)算模塊,其用于對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重;義元復(fù)原關(guān)鍵詞模塊,其用于對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。
4.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁(yè)主題提取系統(tǒng),其特征在于還包括網(wǎng)頁(yè)主題輸出接口,其用于將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表,所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
5.一種網(wǎng)頁(yè)主題提取方法,其特征在于,包括以下步驟(a),所述文檔解析器從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文;(b),所述分詞模塊將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞,得到第一詞匯表;(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
6.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁(yè)主題提取方法,其特征在于,步驟(a)中,提取網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)正文的方法是所述文檔解析器對(duì)所述網(wǎng)頁(yè)的源文件進(jìn)行解析,得到網(wǎng)頁(yè)的語(yǔ)法樹(shù),然后從語(yǔ)法樹(shù)上獲得網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
7.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁(yè)主題提取方法,其特征在于,進(jìn)一步的步驟(b)中,所述分詞模塊還對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注,得到第一詞匯表。
8.根據(jù)權(quán)利要求7所述的一種網(wǎng)頁(yè)主題提取方法,其特征在于步驟(b)之后進(jìn)一步包括步驟(b1),所述分詞后處理模塊至少對(duì)所述第一詞匯表中的詞匯進(jìn)行去停用詞、去虛詞,得到第二詞匯表。
9.根據(jù)權(quán)利要求8所述的一種網(wǎng)頁(yè)主題提取方法,其特征在于,具體的,步驟(c)包括步驟(c1),所述義元擴(kuò)展模塊按照詞典與義元詞典的對(duì)應(yīng)關(guān)系將所述W1中的詞匯轉(zhuǎn)換成義元,組成第一義元表;(c2),所述網(wǎng)頁(yè)主題義元計(jì)算模塊對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重,得到具有不同權(quán)重的第二義元表;(c3),所述義元復(fù)原關(guān)鍵詞模塊按照義元詞典對(duì)所述第二義元表中的義元進(jìn)行反向還原,得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
10.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁(yè)主題提取方法,其特征在于步驟(c)之后進(jìn)一步包括步驟(d),所述網(wǎng)頁(yè)主題輸出接口將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表,所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
全文摘要
本發(fā)明提供了一種網(wǎng)頁(yè)主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文;還包括分詞模塊,其用于將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。本發(fā)明還提供了一種網(wǎng)頁(yè)主題提取方法。本發(fā)明的有益效果在于采用基于義元集的語(yǔ)義分析技術(shù),避免了詞匯稀疏的難題,對(duì)短文章的分析效果良好。充分考慮了網(wǎng)頁(yè)的預(yù)分類(lèi)、標(biāo)題信息和顯示屬性,能夠準(zhǔn)確地提取出網(wǎng)頁(yè)的主題。采用帶權(quán)重的詞匯排序表表示網(wǎng)頁(yè)的主題,避免了信息的丟失。
文檔編號(hào)G06F17/30GK101079031SQ20061003600
公開(kāi)日2007年11月28日 申請(qǐng)日期2006年6月15日 優(yōu)先權(quán)日2006年6月15日
發(fā)明者丁江偉 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
汾西县| 舒兰市| 阿尔山市| 新和县| 金山区| 崇信县| 崇仁县| 搜索| 根河市| 大宁县| 叙永县| 辽宁省| 铜山县| 开化县| 贺兰县| 栾川县| 花莲县| 霍山县| 田东县| 嘉黎县| 基隆市| 前郭尔| 哈尔滨市| 桦南县| 梁山县| 兰考县| 大悟县| 江城| 商城县| 建瓯市| 沧州市| 大新县| 炉霍县| 新巴尔虎左旗| 沁源县| 建德市| 拉孜县| 林甸县| 岫岩| 绥棱县| 当阳市|