1.一種基于帶約束非負(fù)矩陣分解的科技資源元數(shù)據(jù)檢索方法,其特征在于,包括以下步驟,
S101:形成原始文檔矩陣,對(duì)文本數(shù)據(jù)進(jìn)行編號(hào),并進(jìn)行分詞,為每個(gè)詞分配唯一序號(hào),以便能獲取詞對(duì)應(yīng)的列,抽取文檔Tf-Idf特征,按照每一篇文檔進(jìn)行歸一化,形成原始文檔矩陣;
S102:按照維度生成兩個(gè)矩陣;
S103:文檔主題分類;
S104:獲得文檔在主題下的表示,采用梯度下降方法,迭代矩陣,直至矩陣收斂,即可獲得文檔在主題下的表示。
2.按照權(quán)利要求1所述的基于帶約束非負(fù)矩陣分解的科技資源元數(shù)據(jù)檢索方法,其特征在于:所述步驟S102中設(shè)定主題個(gè)數(shù)k,按照維度要求生成兩個(gè)矩陣,用隨機(jī)數(shù)初始化矩陣中的數(shù)值。
3.按照權(quán)利要求1所述的基于帶約束非負(fù)矩陣分解的科技資源元數(shù)據(jù)檢索方法,其特征在于:所述步驟S103中文檔主題分為共有主題和私有主題兩大類。
4.按照權(quán)利要求3所述的基于帶約束非負(fù)矩陣分解的科技資源元數(shù)據(jù)檢索方法,其特征在于:所述步驟S103中共有主題的約束條件為約束文檔的主題表示矩陣,前n列采用平滑約束;私有主題的約束條件為約束文檔的主題表示矩陣,后m列采用稀疏約束。