1.一種主題詞抽取方法,其特征在于,包括:
獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;
基于每個(gè)詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,所述詞語文檔矩陣的每一行表示各個(gè)詞語在一篇文檔中的詞頻信息,每一列表示一個(gè)詞語在各篇文檔中的詞頻信息;
利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間;
根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間包括:
利用所述潛在語義分析模型分析所述詞語文檔矩陣中的詞語與文檔的對(duì)應(yīng)關(guān)系;
按照所述對(duì)應(yīng)關(guān)系將所述詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成所述潛在語義空間。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間包括:
利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞包括:
根據(jù)所述潛在語義空間確定主題詞詞語矩陣,其中,所述主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在所述所有需要抽取主題詞的文檔中出現(xiàn)的詞語;
對(duì)所述主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;
抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語作為所述所有需要抽取主題詞的文檔的主題詞。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語包括:
獲取所述所有需要抽取主題詞的文檔;
對(duì)所述所有需要抽取主題詞的文檔進(jìn)行分詞處理,得到所述出現(xiàn)在該文檔中的詞語。
6.一種主題詞抽取裝置,其特征在于,包括:
獲取單元,用于獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;
構(gòu)建單元,用于基于每個(gè)詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,所述詞語文檔矩陣的每一行表示各個(gè)詞語在一篇文檔中的詞頻信息,每一列表示一個(gè)詞語在各篇文檔中的詞頻信息;
生成單元,用于利用潛在語義分析模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間;
抽取單元,用于根據(jù)所述潛在語義空間抽取所述所有需要抽取主題詞的文檔的主題詞。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述生成單元包括:
分析模塊,用于利用所述潛在語義分析模型分析所述詞語文檔矩陣中的詞語與文檔的對(duì)應(yīng)關(guān)系;
生成模塊,用于按照所述對(duì)應(yīng)關(guān)系將所述詞語文檔矩陣中的詞語與文檔映射到滿足預(yù)定維度條件的向量空間中,生成所述潛在語義空間。
8.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述生成單元還用于利用奇異值分解模型或非負(fù)矩陣分解模型或概率潛在語義索引模型對(duì)所述詞語文檔矩陣進(jìn)行語義分析,生成潛在語義空間。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述抽取單元包括:
確定模塊,用于根據(jù)所述潛在語義空間確定主題詞詞語矩陣,其中,所述主題詞詞語矩陣的每一行表示主題詞的語義類別,每一列表示在所述所有需要抽取主題詞的文檔中出現(xiàn)的詞語;
排序模塊,用于對(duì)所述主題詞詞語矩陣中每一行詞語按其權(quán)重值排序;
抽取模塊,用于抽取排序后的主題詞詞語矩陣中權(quán)重值大于預(yù)設(shè)閾值的詞語 作為所述所有需要抽取主題詞的文檔的主題詞。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取單元包括:
獲取模塊,用于獲取所述所有需要抽取主題詞的文檔;
分詞模塊,用于對(duì)所述所有需要抽取主題詞的文檔進(jìn)行分詞處理,得到所述出現(xiàn)在該文檔中的詞語。