本發(fā)明涉及信息技術領域,特別是一種基于帶約束非負矩陣分解的科技資源元數(shù)據(jù)檢索方法。
背景技術:
詞袋模型(Bag of Word):將一片文檔表示成為一個詞向量,每一維度對應一個詞,維度數(shù)值大小表示該文檔中對應詞的詞頻或者詞權重。
隱含語義分析LSA(Latent Semantic Analysis):利用奇異值分解,將文檔矩陣拆分為三個矩陣,實現(xiàn)文檔到詞空間的映射,實現(xiàn)詞的語義表示。
隱含狄利克雷分布LDA(Latent Dirichlet Allocation):基于概率分布,通過詞來生成文檔表示,使該文檔表示能夠含有語義信息。
Word2Vec:使用深度學習方法,學習每一個詞在空間中的表示,使得詞在該空間中滿足一定的語義信息。
技術實現(xiàn)要素:
本發(fā)明需要解決的技術問題是提供一種簡單的基于帶約束非負矩陣分解的科技資源元數(shù)據(jù)檢索方法。
為解決上述的技術問題,本發(fā)明的基于帶約束非負矩陣分解的科技資源元數(shù)據(jù)檢索方法,包括以下步驟,
S101:形成原始文檔矩陣,對文本數(shù)據(jù)進行編號,并進行分詞,為每個詞分配唯一序號,以便能獲取詞對應的列,抽取文檔Tf-Idf特征,按照每一篇文檔進行歸一化,形成原始文檔矩陣;
S102:按照維度生成兩個矩陣;
S103:文檔主題分類;
S104:獲得文檔在主題下的表示,采用梯度下降方法,迭代矩陣,直至矩陣收斂,即可獲得文檔在主題下的表示。
進一步的,所述步驟S102中設定主題個數(shù)k,按照維度要求生成兩個矩陣,用隨機數(shù)初始化矩陣中的數(shù)值。
進一步的,所述步驟S103中文檔主題分為共有主題和私有主題兩大類。
更進一步的,所述步驟S103中共有主題的約束條件為約束文檔的主題表示矩陣,前n列采用平滑約束;私有主題的約束條件為約束文檔的主題表示矩陣,后m列采用稀疏約束。
采用上述方法后,本發(fā)明相比計算較為復雜的奇異值分解,非負矩陣分解求解方法在算法復雜度上更加簡單一些;另外,在主題質量上,產生的主題更加專有,更適合應用于檢索。
附圖說明
下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。
圖1為本發(fā)明基于帶約束非負矩陣分解的科技資源元數(shù)據(jù)檢索方法的流程示意圖。
具體實施方式
如圖1所示,本發(fā)明的基于帶約束非負矩陣分解的科技資源元數(shù)據(jù)檢索方法,包括以下步驟,
S101:形成原始文檔矩陣,對文本數(shù)據(jù)進行編號,并進行分詞,為每個詞分配唯一序號,以便能獲取詞對應的列,抽取文檔Tf-Idf特征,按照每一篇文檔進行歸一化,形成原始文檔矩陣;
S102:按照維度生成兩個矩陣;
S103:文檔主題分類;
S104:獲得文檔在主題下的表示,采用梯度下降方法,迭代矩陣,直至矩陣收斂,即可獲得文檔在主題下的表示。
進一步的,所述步驟S102中設定主題個數(shù)k,按照維度要求生成兩個矩陣,用隨機數(shù)初始化矩陣中的數(shù)值。
進一步的,所述步驟S103中文檔主題分為共有主題和私有主題兩大類。
更進一步的,所述步驟S103中共有主題的約束條件為約束文檔的主題表示矩陣,前n列采用平滑約束;私有主題的約束條件為約束文檔的主題表示矩陣,后m列采用稀疏約束。
雖然以上描述了本發(fā)明的具體實施方式,但是本領域熟練技術人員應當理解,這些僅是舉例說明,可以對本實施方式作出多種變更或修改,而不背離本發(fā)明的原理和實質,本發(fā)明的保護范圍僅由所附權利要求書限定。