一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法

文檔序號(hào)：6555987閱讀：159來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)，更具體地說(shuō)，涉及一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法。
背景技術(shù)：
所謂網(wǎng)頁(yè)主題，就是網(wǎng)頁(yè)正文所描述事件的摘要內(nèi)容或者關(guān)鍵詞列表，標(biāo)示了該網(wǎng)頁(yè)的主題內(nèi)容和中心思想?，F(xiàn)有的網(wǎng)頁(yè)主題提取方法主要有兩種。一種是是基于標(biāo)題的網(wǎng)頁(yè)主題提取技術(shù)。其方法是采用Html(HyperText MarkupLanguage，超文件鏈接標(biāo)記語(yǔ)言)文檔解析器，按照html協(xié)議分析html網(wǎng)頁(yè)，按照網(wǎng)頁(yè)源文件的tag標(biāo)識(shí)建立html語(yǔ)法樹(shù)，以找出網(wǎng)頁(yè)的標(biāo)題、正文等的內(nèi)容，然后將網(wǎng)頁(yè)中標(biāo)題<title>標(biāo)簽的值作為網(wǎng)頁(yè)的主題思想。該方法是早期比較常用的網(wǎng)頁(yè)主題提取方法。但是這種計(jì)算方法顯然過(guò)于簡(jiǎn)單，實(shí)際應(yīng)用中準(zhǔn)確率、召回率均很低，并且不可避免的會(huì)出現(xiàn)正文部分信息丟失的情況。
另外一種是基于標(biāo)題的網(wǎng)頁(yè)主題提取技術(shù)。隨著統(tǒng)計(jì)自然語(yǔ)言處理技術(shù)的發(fā)展，按照高詞頻關(guān)鍵詞來(lái)標(biāo)示網(wǎng)頁(yè)主題的方法得到了廣泛的應(yīng)用，具體做法是先將網(wǎng)頁(yè)源文件去tag標(biāo)記，然后將文章內(nèi)容進(jìn)行分詞統(tǒng)計(jì)詞頻，最后按詞頻對(duì)關(guān)鍵詞排序，給出前N個(gè)高詞頻作為文章主題。但是由于表義語(yǔ)言發(fā)展得很充分，一義多詞是普遍現(xiàn)象，再加上修辭法的運(yùn)用使得詞匯稀疏現(xiàn)象客觀存在，特別是對(duì)于網(wǎng)頁(yè)類(lèi)的短文章，該算法整體效果不是很理想。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的缺陷，提供一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法，其基于義元集語(yǔ)義分析技術(shù)、充分利用網(wǎng)頁(yè)預(yù)分類(lèi)信息、顯示屬性信息來(lái)增加單純語(yǔ)義分析技術(shù)的準(zhǔn)確度。
本發(fā)明的技術(shù)方案是一種網(wǎng)頁(yè)主題提取系統(tǒng)，包括文檔解析器，其用于從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文；還包括分詞模塊，其用于將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞，得到第一詞匯表；義元處理模塊，其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元，對(duì)所述義元計(jì)算權(quán)重，最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到主題詞匯集合。
進(jìn)一步的，所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊；所述分詞模塊還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能；所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性，剔除其中的停用詞、虛詞，得到第二詞匯表；所述義元處理模塊用于對(duì)所述第二詞匯表中的詞匯進(jìn)行處理。
具體的，所述義元處理模塊包括義元擴(kuò)展模塊，其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元，表示為第一義元表；網(wǎng)頁(yè)主題義元計(jì)算模塊，其用于對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重；義元復(fù)原關(guān)鍵詞模塊，其用于對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到主題詞匯集合。
本發(fā)明一種網(wǎng)頁(yè)主題提取系統(tǒng)還包括網(wǎng)頁(yè)主題輸出接口，其用于將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表，所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
本發(fā)明還提供了一種網(wǎng)頁(yè)主題提取方法，包括以下步驟(a)，所述文檔解析器從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文；(b)，所述分詞模塊將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞，得到第一詞匯表；(c)，所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元，對(duì)所述義元計(jì)算權(quán)重，最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
其中，步驟(a)中，提取網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)正文的方法是所述文檔解析器對(duì)所述網(wǎng)頁(yè)的源文件進(jìn)行解析，得到網(wǎng)頁(yè)的語(yǔ)法樹(shù)，然后從語(yǔ)法樹(shù)上獲得網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)正文中具有不同突出顯示屬性的正文內(nèi)容，并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
進(jìn)一步的，步驟(b)中，所述分詞模塊還對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注，得到第一詞匯表。步驟(b)之后進(jìn)一步包括步驟(b1)，所述分詞后處理模塊至少對(duì)所述第一詞匯表中的詞匯進(jìn)行去停用詞、去虛詞，得到第二詞匯表。
具體的，步驟(c)包括步驟(c1)，所述義元擴(kuò)展模塊按照詞典與義元詞典的對(duì)應(yīng)關(guān)系將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元，組成第一義元表；(c2)，所述網(wǎng)頁(yè)主題義元計(jì)算模塊對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重，得到具有不同權(quán)重的第二義元表；(c3)，所述義元復(fù)原關(guān)鍵詞模塊按照義元詞典對(duì)所述第二義元表中的義元進(jìn)行反向還原，得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
本發(fā)明方法中，步驟(c)之后進(jìn)一步包括步驟(d)，所述網(wǎng)頁(yè)主題輸出接口將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表，所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
本發(fā)明的有益效果在于①采用基于義元集的語(yǔ)義分析技術(shù)，避免了詞匯稀疏的難題，對(duì)短文章的分析效果良好。②充分考慮了網(wǎng)頁(yè)的預(yù)分類(lèi)、標(biāo)題信息和顯示屬性，能夠準(zhǔn)確地提取出網(wǎng)頁(yè)的主題。③采用帶權(quán)重的詞匯排序表表示網(wǎng)頁(yè)的主題，避免了信息的丟失。

圖1是本發(fā)明一種網(wǎng)頁(yè)主題提取系統(tǒng)的結(jié)構(gòu)圖。
圖2是本發(fā)明一種網(wǎng)頁(yè)主題提取方法的流程圖。
具體實(shí)施例方式
下面根據(jù)附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步闡述。
如圖1所示，本發(fā)明一種網(wǎng)頁(yè)主題提取系統(tǒng)包括文檔解析器1、分詞模塊2、分詞后處理模塊3、義元處理模塊和網(wǎng)頁(yè)主題輸出接口7。義元處理模塊包括義元擴(kuò)展模塊4、網(wǎng)頁(yè)主題義元計(jì)算模塊5和義元復(fù)原關(guān)鍵詞模塊6。網(wǎng)站或其它應(yīng)用系統(tǒng)中與本發(fā)明系統(tǒng)相關(guān)的模塊可以包括網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8、網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9、網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10和網(wǎng)頁(yè)主題應(yīng)用模塊11。本發(fā)明中文檔解析器1采用Html(HyperText Markup Language，超文件鏈接標(biāo)記語(yǔ)言)文檔解析器。
其中，Html文檔解析器1能夠把html網(wǎng)頁(yè)按照Html協(xié)議解析成一棵語(yǔ)法樹(shù)，同時(shí)具有提取網(wǎng)頁(yè)標(biāo)題、提取具有不同突出顯示屬性的網(wǎng)頁(yè)正文的能力。它與分詞模塊2相連，并與網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8(或其它可獲得相關(guān)網(wǎng)頁(yè)源文件的模塊)相連，以獲得網(wǎng)頁(yè)源文件。網(wǎng)頁(yè)源文件中的font tag標(biāo)記指示了網(wǎng)頁(yè)的顯示屬性，一般來(lái)說(shuō)顯示的突出程度(大字體、彩色)和內(nèi)容的重要程度成正比。本發(fā)明主要提取網(wǎng)頁(yè)正文中比較突出、容易得到用戶注意的正文(如大字體、彩色，及其后的正文)，即具有突出顯示屬性的網(wǎng)頁(yè)正文。
分詞模塊2負(fù)責(zé)按照詞典將網(wǎng)頁(yè)的正文和標(biāo)題、類(lèi)別切分成詞匯。如將“我是一個(gè)學(xué)生”進(jìn)行分詞，分為“我”、“是”、“一個(gè)”、“學(xué)生”四個(gè)詞?，F(xiàn)有的分詞算法可分為三大類(lèi)基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本實(shí)施例中采用基于字符串匹配的分詞方法。該方法又叫做機(jī)械分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功(識(shí)別出一個(gè)詞)。
本發(fā)明中，分詞模塊2還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能，以方便分詞后處理模塊3將詞匯中的停用詞和虛詞等去掉。它與文檔解析器1、詞典、分詞后處理模塊3相連，并與網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10(或其它可獲得相應(yīng)網(wǎng)頁(yè)分類(lèi)信息的模塊)相連，以獲得相應(yīng)網(wǎng)頁(yè)的類(lèi)別信息。
分詞后處理模塊3的功能包括但不限于對(duì)分詞模塊2的輸出去停用詞、去虛詞等功能，剔除對(duì)主題無(wú)關(guān)的信息。
義元擴(kuò)展模塊4用于使用義元詞典完成詞匯到義元的正向轉(zhuǎn)換。它與分詞后處理模塊3、網(wǎng)頁(yè)主題義元計(jì)算模塊5和義元詞典相連。
本發(fā)明在網(wǎng)頁(yè)主題提取過(guò)程中并不是用詞匯作為計(jì)算單元的，而是使用義元詞典將詞匯轉(zhuǎn)換成義元表示，是一種基于義元集的語(yǔ)義分析技術(shù)。
所謂義元(semantic primitives)就是組義語(yǔ)言中最基本的元素。它可以解釋成一組意思的符號(hào)，它可以無(wú)需定義地被所有人理解，此外，所有的其它詞匯都能用它們來(lái)定義。自然語(yǔ)言處理所面臨的一個(gè)重大難題是詞匯稀疏，所以將關(guān)鍵詞轉(zhuǎn)換成義元詞表示能很大程度上避免詞匯稀疏現(xiàn)象，義元集是一個(gè)小規(guī)模詞匯或者義元序號(hào)集合，表征了自然界的所有概念，一個(gè)義元集元素唯一的、不重復(fù)的表示一個(gè)概念。
網(wǎng)頁(yè)主題義元計(jì)算模塊5用于利用統(tǒng)計(jì)語(yǔ)言學(xué)原理對(duì)網(wǎng)頁(yè)義元進(jìn)行計(jì)算，計(jì)算的結(jié)果是對(duì)不同的義元賦予了不同的權(quán)重。計(jì)算的過(guò)程中對(duì)于網(wǎng)頁(yè)的分類(lèi)信息、標(biāo)題信息和不同顯示屬性的正文信息分別給予不同的統(tǒng)計(jì)權(quán)值。
義元復(fù)原關(guān)鍵詞模塊6用于按照義元詞典和網(wǎng)頁(yè)正文對(duì)義元進(jìn)行反向還原，得到一組帶權(quán)重的主題詞匯集合。這些主題詞匯集合表征了網(wǎng)頁(yè)的主題。它與網(wǎng)頁(yè)主題義元計(jì)算模塊5、網(wǎng)頁(yè)主題輸出接口7和義元詞典相連。
網(wǎng)頁(yè)主題輸出接口7用于將上述帶權(quán)重的主題詞匯集合轉(zhuǎn)換為標(biāo)準(zhǔn)化的、帶不同權(quán)重的詞匯列表，以適合應(yīng)用層的調(diào)用。故，其與網(wǎng)頁(yè)主題應(yīng)用模塊11相連。
本實(shí)施例中，網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8與網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9、網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10相連，網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9與網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10相連。網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8內(nèi)存儲(chǔ)著網(wǎng)站中所有網(wǎng)頁(yè)的源文件。網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9用于生成網(wǎng)站導(dǎo)航樹(shù)。網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10用于根據(jù)網(wǎng)站導(dǎo)航樹(shù)生成系統(tǒng)9生成的網(wǎng)站導(dǎo)航樹(shù)對(duì)網(wǎng)頁(yè)源文件進(jìn)行分析，以生成網(wǎng)頁(yè)分類(lèi)信息。網(wǎng)頁(yè)主題應(yīng)用模塊11用于從所述網(wǎng)頁(yè)主題輸出接口調(diào)用對(duì)應(yīng)網(wǎng)頁(yè)的主題信息，然后根據(jù)業(yè)務(wù)相關(guān)性進(jìn)行計(jì)算，為用戶提供個(gè)性化的服務(wù)。例如，用戶正在瀏覽一個(gè)關(guān)于手機(jī)的網(wǎng)站，本發(fā)明系統(tǒng)對(duì)其正在瀏覽的網(wǎng)頁(yè)進(jìn)行主題提取，得出其正在觀看諾基亞3310款手機(jī)的資料，則網(wǎng)頁(yè)主題應(yīng)用模塊立刻在其業(yè)務(wù)庫(kù)中搜索與諾基亞3310相關(guān)的廣告信息或服務(wù)，并推送給用戶。
如圖2所示，本發(fā)明一種網(wǎng)頁(yè)主題提取方法包括步驟
S1，文檔解析器1從網(wǎng)站網(wǎng)頁(yè)存儲(chǔ)中心8獲取一個(gè)網(wǎng)頁(yè)的源文件，并從網(wǎng)頁(yè)類(lèi)別計(jì)算模塊10上獲得將該網(wǎng)頁(yè)的分類(lèi)信息。
多數(shù)網(wǎng)站導(dǎo)航條里面都指明了某個(gè)網(wǎng)頁(yè)的所屬類(lèi)別信息，即網(wǎng)頁(yè)的分類(lèi)信息。分類(lèi)信息一般是從網(wǎng)站導(dǎo)航樹(shù)中獲得，網(wǎng)站導(dǎo)航樹(shù)可以是直接由網(wǎng)站中取得，也可以由網(wǎng)站目錄樹(shù)生成。
S2，文檔解析器1對(duì)網(wǎng)頁(yè)的源文件進(jìn)行解析，得到網(wǎng)頁(yè)的html語(yǔ)法樹(shù)。
S3，文檔解析器1從網(wǎng)頁(yè)語(yǔ)法樹(shù)上面取得網(wǎng)頁(yè)的標(biāo)題信息以及正文中具有不同突出顯示屬性的正文內(nèi)容，并按照正文中的突出顯示順序記為body1body2 body3...bodyN。
S4，分詞模塊2對(duì)網(wǎng)頁(yè)的類(lèi)別、標(biāo)題和正文body1 body2 body3...bodyN進(jìn)行分詞，并對(duì)上述切分后的詞匯進(jìn)行詞性標(biāo)注，形成第一詞匯表。
S5，分詞后處理模塊3將第一詞匯表中的停用詞、虛詞等剔除，形成第二詞匯表。
S6，義元擴(kuò)展模塊4按照詞典和義元詞典的對(duì)應(yīng)關(guān)系將第二詞匯表中的詞匯用義元表示為第一義元表。
S7，網(wǎng)頁(yè)主題義元計(jì)算模塊5按照量空間模型的Tf-Idf(特征項(xiàng)賦權(quán)因子)等算法給第一義元表里的所有義元計(jì)算權(quán)重，得到帶權(quán)重的第二義元表。
本實(shí)施例中，采用Tf-Idf算法對(duì)第一義元表中的義元計(jì)算權(quán)重。當(dāng)然也可以采用交叉熵等算法對(duì)第一義元表中的義元計(jì)算權(quán)重。Tf-Idf算法采用倒排索引技術(shù)，其主要應(yīng)用在全文檢索。該算法可以保證為中等頻率的義元賦以高的權(quán)重，并排除噪聲詞匯。在計(jì)算時(shí)候，根據(jù)先前的分類(lèi)信息、標(biāo)題信息、突出顯示信息(font)對(duì)關(guān)鍵詞表賦予不同權(quán)值擴(kuò)展分類(lèi)信息詞表為classwords，每個(gè)詞權(quán)重為m；標(biāo)題擴(kuò)展詞匯為titlewords，每個(gè)詞權(quán)重為n；font字體擴(kuò)展詞匯為fontwords，每個(gè)詞權(quán)重隨字體突出程度遞增。
S8，義元復(fù)原關(guān)鍵詞模塊6按照義元詞典和網(wǎng)頁(yè)正文對(duì)第二義元表中的義元進(jìn)行反向還原，得到表征了網(wǎng)頁(yè)主題的、帶權(quán)重的主題詞匯集合。主題詞匯集合即為考慮了預(yù)分類(lèi)信息，標(biāo)題信息，網(wǎng)頁(yè)突出顯示信息的網(wǎng)頁(yè)主題詞表。
S9，網(wǎng)頁(yè)主題輸出接口7將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表，等待網(wǎng)頁(yè)主題應(yīng)用模塊11調(diào)用。其中，列表中的詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)頁(yè)主題提取系統(tǒng)，包括文檔解析器，其用于從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文；其特征在于，還包括分詞模塊，其用于將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞，得到第一詞匯表；義元處理模塊，其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元，對(duì)所述義元計(jì)算權(quán)重，最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到主題詞匯集合。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁(yè)主題提取系統(tǒng)，其特征在于所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊；所述分詞模塊還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能；所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性，剔除其中的停用詞、虛詞，得到第二詞匯表；所述義元處理模塊用于對(duì)所述第二詞匯表中的詞匯進(jìn)行處理。
3.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁(yè)主題提取系統(tǒng)，其特征在于，所述義元處理模塊包括義元擴(kuò)展模塊，其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元，組成第一義元表；網(wǎng)頁(yè)主題義元計(jì)算模塊，其用于對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重；義元復(fù)原關(guān)鍵詞模塊，其用于對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到主題詞匯集合。
4.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁(yè)主題提取系統(tǒng)，其特征在于還包括網(wǎng)頁(yè)主題輸出接口，其用于將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表，所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
5.一種網(wǎng)頁(yè)主題提取方法，其特征在于，包括以下步驟(a)，所述文檔解析器從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文；(b)，所述分詞模塊將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞，得到第一詞匯表；(c)，所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元，對(duì)所述義元計(jì)算權(quán)重，最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
6.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁(yè)主題提取方法，其特征在于，步驟(a)中，提取網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)正文的方法是所述文檔解析器對(duì)所述網(wǎng)頁(yè)的源文件進(jìn)行解析，得到網(wǎng)頁(yè)的語(yǔ)法樹(shù)，然后從語(yǔ)法樹(shù)上獲得網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)正文中具有不同突出顯示屬性的正文內(nèi)容，并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
7.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁(yè)主題提取方法，其特征在于，進(jìn)一步的步驟(b)中，所述分詞模塊還對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注，得到第一詞匯表。
8.根據(jù)權(quán)利要求7所述的一種網(wǎng)頁(yè)主題提取方法，其特征在于步驟(b)之后進(jìn)一步包括步驟(b1)，所述分詞后處理模塊至少對(duì)所述第一詞匯表中的詞匯進(jìn)行去停用詞、去虛詞，得到第二詞匯表。
9.根據(jù)權(quán)利要求8所述的一種網(wǎng)頁(yè)主題提取方法，其特征在于，具體的，步驟(c)包括步驟(c1)，所述義元擴(kuò)展模塊按照詞典與義元詞典的對(duì)應(yīng)關(guān)系將所述W1中的詞匯轉(zhuǎn)換成義元，組成第一義元表；(c2)，所述網(wǎng)頁(yè)主題義元計(jì)算模塊對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重，得到具有不同權(quán)重的第二義元表；(c3)，所述義元復(fù)原關(guān)鍵詞模塊按照義元詞典對(duì)所述第二義元表中的義元進(jìn)行反向還原，得到表征了網(wǎng)頁(yè)主題的、具有不同權(quán)重的主題詞匯集合。
10.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁(yè)主題提取方法，其特征在于步驟(c)之后進(jìn)一步包括步驟(d)，所述網(wǎng)頁(yè)主題輸出接口將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表，所述詞匯按照語(yǔ)義密度分別被賦予不同的權(quán)重。
全文摘要
本發(fā)明提供了一種網(wǎng)頁(yè)主題提取系統(tǒng)，包括文檔解析器，其用于從網(wǎng)頁(yè)源文件中提取網(wǎng)頁(yè)標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁(yè)正文；還包括分詞模塊，其用于將所述網(wǎng)頁(yè)正文、網(wǎng)頁(yè)標(biāo)題和網(wǎng)頁(yè)類(lèi)別信息進(jìn)行分詞，得到第一詞匯表；義元處理模塊，其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元，對(duì)所述義元計(jì)算權(quán)重，最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原，得到主題詞匯集合。本發(fā)明還提供了一種網(wǎng)頁(yè)主題提取方法。本發(fā)明的有益效果在于采用基于義元集的語(yǔ)義分析技術(shù)，避免了詞匯稀疏的難題，對(duì)短文章的分析效果良好。充分考慮了網(wǎng)頁(yè)的預(yù)分類(lèi)、標(biāo)題信息和顯示屬性，能夠準(zhǔn)確地提取出網(wǎng)頁(yè)的主題。采用帶權(quán)重的詞匯排序表表示網(wǎng)頁(yè)的主題，避免了信息的丟失。
文檔編號(hào)G06F17/30GK101079031SQ20061003600
公開(kāi)日2007年11月28日申請(qǐng)日期2006年6月15日優(yōu)先權(quán)日2006年6月15日
發(fā)明者丁江偉申請(qǐng)人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：丁江偉
技術(shù)所有人：騰訊科技(深圳)有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

提取網(wǎng)頁(yè)數(shù)據(jù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁(yè)主題提取系統(tǒng)和方法