欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

主題詞抽取方法及裝置與流程

文檔序號(hào):12464592閱讀:來源:國(guó)知局

技術(shù)特征:

1.一種主題詞抽取方法,其特征在于,包括:

獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;

基于每個(gè)詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,所述詞語文檔矩陣的每一行表示各個(gè)詞語在一篇文檔中的詞頻信息,每一列表示一個(gè)詞語在各篇文檔中的詞頻信息;

利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間;

根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間包括:

利用所述潛在語義分析模型分析所述詞語文檔矩陣中的詞語與文檔的對(duì)應(yīng)關(guān)系;

按照所述對(duì)應(yīng)關(guān)系將所述詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成所述潛在語義空間。

3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間包括:

利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞包括:

根據(jù)所述潛在語義空間確定主題詞詞語矩陣,其中,所述主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在所述所有需要抽取主題詞的文檔中出現(xiàn)的詞語;

對(duì)所述主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;

抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語作為所述所有需要抽取主題詞的文檔的主題詞。

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語包括:

獲取所述所有需要抽取主題詞的文檔;

對(duì)所述所有需要抽取主題詞的文檔進(jìn)行分詞處理,得到所述出現(xiàn)在該文檔中的詞語。

6.一種主題詞抽取裝置,其特征在于,包括:

獲取單元,用于獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;

構(gòu)建單元,用于基于每個(gè)詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,所述詞語文檔矩陣的每一行表示各個(gè)詞語在一篇文檔中的詞頻信息,每一列表示一個(gè)詞語在各篇文檔中的詞頻信息;

生成單元,用于利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間;

抽取單元,用于根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞。

7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述生成單元包括:

分析模塊,用于利用所述潛在語義分析模型分析所述詞語文檔矩陣中的詞語與文檔的對(duì)應(yīng)關(guān)系;

生成模塊,用于按照所述對(duì)應(yīng)關(guān)系將所述詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成所述潛在語義空間。

8.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述生成單元還用于利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間。

9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述抽取單元包括:

確定模塊,用于根據(jù)所述潛在語義空間確定主題詞詞語矩陣,其中,所述主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在所述所有需要抽取主題詞的文檔中出現(xiàn)的詞語;

排序模塊,用于對(duì)所述主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;

抽取模塊,用于抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語 作為所述所有需要抽取主題詞的文檔的主題詞。

10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取單元包括:

獲取模塊,用于獲取所述所有需要抽取主題詞的文檔;

分詞模塊,用于對(duì)所述所有需要抽取主題詞的文檔進(jìn)行分詞處理,得到所述出現(xiàn)在該文檔中的詞語。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邮箱| 公主岭市| 汕尾市| 承德市| 长兴县| 通化市| 扎兰屯市| 洞口县| 名山县| 咸丰县| 密山市| 北川| 桐柏县| 施秉县| 虎林市| 洪江市| 连江县| 包头市| 友谊县| 仲巴县| 杭州市| 樟树市| 石林| 榆树市| 文成县| 宁陕县| 合川市| 静海县| 阿勒泰市| 泊头市| 襄樊市| 微山县| 东明县| 利辛县| 西峡县| 灵璧县| 房产| 两当县| 龙胜| 九龙县| 宁强县|