欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁文本摘要生成方法和裝置制造方法

文檔序號(hào):6623730閱讀:227來源:國知局
一種網(wǎng)頁文本摘要生成方法和裝置制造方法
【專利摘要】本申請(qǐng)實(shí)施例提供了一種網(wǎng)頁文本摘要生成方法和裝置,所述方法包括:確定網(wǎng)頁文本中的關(guān)鍵詞條;根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,計(jì)算所述網(wǎng)頁文本中每一詞條的初始權(quán)重;當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),增大所述關(guān)鍵詞條的初始權(quán)重,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重;當(dāng)所述網(wǎng)頁文本中的任一詞條為非關(guān)鍵詞條時(shí),將所述非關(guān)鍵詞條的初始權(quán)重作為所述非關(guān)鍵詞條的目標(biāo)權(quán)重;利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,計(jì)算得到每一句子的句子權(quán)重;根據(jù)所述句子權(quán)重,選擇摘要句子,并由所述摘要句子生成網(wǎng)頁文本摘要。本申請(qǐng)實(shí)施例提高了網(wǎng)頁文本摘要的準(zhǔn)確度。
【專利說明】一種網(wǎng)頁文本摘要生成方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及信息處理【技術(shù)領(lǐng)域】,更具體的說是涉及一種網(wǎng)頁文本摘要生成方法和 裝直。

【背景技術(shù)】
[0002] 網(wǎng)頁文本摘要是能夠反映網(wǎng)頁文本中心內(nèi)容的簡潔連貫的短文,在網(wǎng)絡(luò)信息傳輸 中,通過網(wǎng)頁文本摘要可以實(shí)現(xiàn)信息快速瀏覽,減少網(wǎng)絡(luò)搜索時(shí)間等優(yōu)點(diǎn),因此網(wǎng)頁文本摘 要的自動(dòng)生成是網(wǎng)絡(luò)信息傳輸過程中的重要技術(shù)。
[0003] 現(xiàn)有技術(shù)中,一種網(wǎng)頁文本摘要的生成方法主要利用出現(xiàn)頻率等統(tǒng)計(jì)信息,確定 出能夠代表網(wǎng)頁文本主題的句子作為摘要句,由摘要句組成網(wǎng)頁文本摘要。
[0004] 但是現(xiàn)有的這種方式,僅利用出現(xiàn)頻率等統(tǒng)計(jì)信息得到的摘要句,并不能準(zhǔn)確反 映網(wǎng)頁文本主題。


【發(fā)明內(nèi)容】

[0005] 有鑒于此,本申請(qǐng)?zhí)峁┝艘环N網(wǎng)頁文本摘要生成方法和裝置,用以提高網(wǎng)頁文本 摘要的準(zhǔn)確度。
[0006] 為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:
[0007] -種網(wǎng)頁文本摘要生成方法,包括:
[0008] 確定網(wǎng)頁文本中的關(guān)鍵詞條;
[0009] 根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,計(jì)算所述網(wǎng)頁文本中每一詞條的初始 權(quán)重;
[0010] 當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),增大所述關(guān)鍵詞條的初始權(quán)重,得 到所述關(guān)鍵詞條的目標(biāo)權(quán)重;
[0011] 當(dāng)所述網(wǎng)頁文本中的任一詞條為非關(guān)鍵詞條時(shí),將所述非關(guān)鍵詞條的初始權(quán)重作 為所述非關(guān)鍵詞條的目標(biāo)權(quán)重;
[0012] 利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,計(jì)算得到每一句子的句子權(quán)重;
[0013] 根據(jù)所述句子權(quán)重,選擇摘要句子,并由所述摘要句子生成網(wǎng)頁文本摘要。
[0014] 優(yōu)選地,所述確定所述網(wǎng)頁文本中的關(guān)鍵詞條包括:
[0015] 至少確定所述網(wǎng)頁文本中標(biāo)題中的詞條、小標(biāo)題中的詞條、超鏈接中的詞條、標(biāo)簽 中的詞條和/或出現(xiàn)頻率大于預(yù)設(shè)值的詞條作為關(guān)鍵詞條。
[0016] 優(yōu)選地,當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),增大所述關(guān)鍵詞條的初始 權(quán)重,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重包括:
[0017] 當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),將所述關(guān)鍵詞條的類型對(duì)應(yīng)的權(quán)重 比例因子與所述關(guān)鍵詞條的初始權(quán)重相乘,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重,所述關(guān)鍵詞條 的權(quán)重比例因子為大于1的自然數(shù)。
[0018] 優(yōu)選地,所述根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,計(jì)算所述網(wǎng)頁文本中每 一詞條的初始權(quán)重包括:
[0019] 根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,按照第一權(quán)重計(jì)算公式,計(jì)算所述述 網(wǎng)頁文本中每一詞條的初始權(quán)重;
[0020] 所述第一權(quán)重計(jì)算公式為:
[0021]

【權(quán)利要求】
1. 一種網(wǎng)頁文本摘要生成方法,其特征在于,包括: 確定網(wǎng)頁文本中的關(guān)鍵詞條; 根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,計(jì)算所述網(wǎng)頁文本中每一詞條的初始權(quán) 重; 當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),增大所述關(guān)鍵詞條的初始權(quán)重,得到所 述關(guān)鍵詞條的目標(biāo)權(quán)重; 當(dāng)所述網(wǎng)頁文本中的任一詞條為非關(guān)鍵詞條時(shí),將所述非關(guān)鍵詞條的初始權(quán)重作為所 述非關(guān)鍵詞條的目標(biāo)權(quán)重; 利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,計(jì)算得到每一句子的句子權(quán)重; 根據(jù)所述句子權(quán)重,選擇摘要句子,并由所述摘要句子生成網(wǎng)頁文本摘要。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述網(wǎng)頁文本中的關(guān)鍵詞條包 括: 至少確定所述網(wǎng)頁文本中標(biāo)題中的詞條、小標(biāo)題中的詞條、超鏈接中的詞條、標(biāo)簽中的 詞條和/或出現(xiàn)頻率大于預(yù)設(shè)值的詞條作為關(guān)鍵詞條。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵 詞條時(shí),增大所述關(guān)鍵詞條的初始權(quán)重,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重包括: 當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),將所述關(guān)鍵詞條的類型對(duì)應(yīng)的權(quán)重比例 因子與所述關(guān)鍵詞條的初始權(quán)重相乘,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重,所述關(guān)鍵詞條的權(quán) 重比例因子為大于1的自然數(shù)。
4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁文本中每一詞條的 出現(xiàn)頻率,計(jì)算所述網(wǎng)頁文本中每一詞條的初始權(quán)重包括: 根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,按照第一權(quán)重計(jì)算公式,計(jì)算所述述網(wǎng)頁 文本中每一詞條的初始權(quán)重; 所述第一權(quán)重計(jì)算公式為:
其中,表示詞條tk的初始權(quán)重,k = 1、2、......η,η為網(wǎng)頁文本中的詞條數(shù)量;tfk 表示詞條tk的在網(wǎng)頁文本中的出現(xiàn)次數(shù);N為網(wǎng)頁文本中的段落數(shù)目;nk表示存在詞條t k 的段落數(shù)量;N/nk表示詞條tk的段落密度; 則當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),增大所述關(guān)鍵詞條的初始權(quán)重,得到 所述關(guān)鍵詞條的目標(biāo)權(quán)重包括: 當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),按照第二權(quán)重計(jì)算公式,得到所述關(guān)鍵 詞條的目標(biāo)權(quán)重; 所述第二權(quán)重計(jì)算公式為:
其中,β表示關(guān)鍵詞條的權(quán)重比例因子,表示詞條tk的初始權(quán)重; 則所述利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,計(jì)算得到每一句子的;句子權(quán)重包 括: 利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,按照第三權(quán)重計(jì)算公式,得到每一句子的 句子權(quán)重; 所述第三權(quán)重計(jì)算公
式為: 其中,S(i)為網(wǎng)頁文本中的第i個(gè)句子;ws(i)表示s(i)的權(quán)重;w%表示詞條t k的初 始權(quán)重;Len(s(i))為句子s(i)中的詞條數(shù)量;α為結(jié)構(gòu)比例因子; 表示句子s(i)中具有特殊格式的詞條的數(shù)量; f2表示句子s(i)中的書簽詞語和超鏈接詞語的總數(shù)量; &表示句子s(i)位于網(wǎng)頁文本的段落的段首時(shí)取值為1,位于網(wǎng)頁文本中段落的段尾 時(shí)取值為〇 ; &表示句子s(i)包括指示性詞語時(shí)取值為1,否則取值為0。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述句子權(quán)重,選擇摘要句子, 并由所述摘要句子生成網(wǎng)頁文本摘要包括: 按照句子權(quán)重從大到小的順序,選擇預(yù)設(shè)數(shù)量的句子作為摘要句子; 計(jì)算任意兩個(gè)摘要句子之間的相似度; 將相似度大于預(yù)設(shè)值的任意兩個(gè)摘要句子中的其中一個(gè)冗余句子刪除; 由刪除冗余句子之后的摘要句子生成網(wǎng)頁文本摘要。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,計(jì)算任意兩個(gè)摘要句子之間的相似度包 括: 按照相似度計(jì)算公式,計(jì)算任意兩個(gè)摘要句子之間的相似度; 所述相似度計(jì)算公式為:
Si和Sj表示任意的兩個(gè)摘要句子^(Si,Sj)表示Si和Sj的相似度;ik表示句子Si中 的詞條,為中的詞條
羑示詞條ik與句子的中每一詞條之間的詞義距 離,詞義距離表示詞義相似度;d(ik)表示si中詞條ik與句子的詞義距離。
7. -種網(wǎng)頁文本摘要生成裝置,其特征在于,包括: 關(guān)鍵詞條確定模塊,用于確定所述網(wǎng)頁文本中的關(guān)鍵詞條; 第一權(quán)重確定模塊,用于根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,計(jì)算所述網(wǎng)頁文 本中每一詞條的初始權(quán)重; 第二權(quán)重確定模塊,用于當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),增大所述關(guān)鍵 詞條的初始權(quán)重,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重;當(dāng)所述網(wǎng)頁文本中的任一詞條為非關(guān)鍵 詞條時(shí),將所述非關(guān)鍵詞條的初始權(quán)重作為所述非關(guān)鍵詞條的目標(biāo)權(quán)重; 句子權(quán)重確定模塊,用于利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,計(jì)算得到每一句 子的句子權(quán)重; 摘要生成模塊,用于根據(jù)所述句子權(quán)重,選擇摘要句子,并由所述摘要句子生成網(wǎng)頁文 本摘要。
8.據(jù)權(quán)利要求7述的裝置,其特征在于,所述第一權(quán)重計(jì)算模塊包括: 第一權(quán)重計(jì)算單元,用于根據(jù)所述網(wǎng)頁文本中每一詞條的出現(xiàn)頻率,按照第一權(quán)重計(jì) 算公式,計(jì)算所述述網(wǎng)頁文本中每一詞條的初始權(quán)重; 所述第一權(quán)重計(jì)算公式為:
其中,w:,表示詞條tk的初始權(quán)重,k = 1、2、......η,η為網(wǎng)頁文本中的詞條數(shù)量;tfk 表示詞條tk的在網(wǎng)頁文本中的出現(xiàn)次數(shù);N為網(wǎng)頁文本中的段落數(shù)目;nk表示存在詞條t k 的段落數(shù)量;N/nk表示詞條tk的段落密度; 所述第二權(quán)重計(jì)算模塊包括: 第二權(quán)重計(jì)算單元,用于當(dāng)所述網(wǎng)頁文本中的任一詞條為關(guān)鍵詞條時(shí),按照第二權(quán)重 計(jì)算公式,得到所述關(guān)鍵詞條的目標(biāo)權(quán)重; 所述第二權(quán)重計(jì)算公式為:
其中,β表示關(guān)鍵詞條的權(quán)重比例因子,wti表示詞條tk的初始權(quán)重; 第三權(quán)重計(jì)算單元,用于當(dāng)所述網(wǎng)頁文本中的任一詞條為非關(guān)鍵詞條時(shí),將所述非關(guān) 鍵詞條的初始權(quán)重作為所述非關(guān)鍵詞條的目標(biāo)權(quán)重; 所述句子權(quán)重計(jì)算模塊包括: 句子權(quán)重計(jì)算單元,用于利用所述網(wǎng)頁文本中每一詞條的目標(biāo)權(quán)重,按照第三權(quán)重計(jì) 算公式,得到每一句子的句子權(quán)重; 所述第三權(quán)重計(jì)算公式為:
其中,S(i)為網(wǎng)頁文本中的第i個(gè)句子;ws(i)表示S(i)的權(quán)重;wti表示詞條t k的初 始權(quán)重;Len(s(i))為句子s(i)中的詞條數(shù)量;α為結(jié)構(gòu)比例因子; 表示句子s(i)中具有特殊格式的詞條的數(shù)量; f2表示句子s(i)中的書簽詞語和超鏈接詞語的總數(shù)量; &表示句子s(i)位于網(wǎng)頁文本的段落的段首時(shí)取值為1,位于網(wǎng)頁文本中段落的段尾 時(shí)取值為ο; &表示句子S(i)包括指示性詞語時(shí)取值為1,否則取值為0。
9. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述摘要生成模塊包括: 選擇單元,用于按照句子權(quán)重從大到小的順序,選擇預(yù)設(shè)數(shù)量的句子作為摘要句子; 相似度確定單元,用于計(jì)算任意兩個(gè)摘要句子之間的相似度; 冗余消除單元,用于將相似度大于預(yù)設(shè)值的任意兩個(gè)摘要句子中的其中一個(gè)冗余句子 刪除; 摘要生成單元,用于由刪除冗余句子之后的摘要句子生成網(wǎng)頁文本摘要。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述相似度確定單元具體用于按照相似 度計(jì)算公式,計(jì)算任意兩個(gè)摘要句子之間的相似度; 所述相似度計(jì)算公式為:
Si和Sj表示任意的兩個(gè)摘要句子^(Si,Sj)表示Si和Sj的相似度;ik表示句子Si中 的詞條,為中的詞條;
表示詞條ik與句子的中每一詞條之間的詞義距 離,詞義距離表示詞義相似度;d(ik)表示si中詞條ik與句子的詞義距離。
【文檔編號(hào)】G06F17/30GK104156452SQ201410405758
【公開日】2014年11月19日 申請(qǐng)日期:2014年8月18日 優(yōu)先權(quán)日:2014年8月18日
【發(fā)明者】楊樹強(qiáng), 薛竹君, 尹洪, 陳志坤, 金松昌, 宋錫寧, 束陽雪, 黃鴻杰, 蔣千月, 韓偉紅, 周斌, 李愛平 申請(qǐng)人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
温州市| 丁青县| SHOW| 巍山| 拜城县| 大方县| 筠连县| 新河县| 陵川县| 石阡县| 文成县| 祁门县| 汉源县| 荥经县| 桐梓县| 自贡市| 晋城| 图木舒克市| 邹城市| 南部县| 平和县| 玉门市| 惠东县| 叙永县| 茶陵县| 永康市| 武穴市| 泸州市| 重庆市| 尼玛县| 潼关县| 河津市| 卓尼县| 尤溪县| 鲁山县| 屏山县| 依兰县| 玉溪市| 齐河县| 姜堰市| 泰宁县|