技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明一種基于拓?fù)涮卣鲾U展的知識主題短文本層次分類方法,能夠有效的對知識主題短文本進行組織和管理,解決互聯(lián)網(wǎng)海量知識短文本造成的信息過載問題。其包括以下步驟:1)初始文本特征構(gòu)建;2)基于拓?fù)涮卣鞯亩涛谋咎卣鲾U展;3)異構(gòu)知識主題間的遷移學(xué)習(xí)方法。通過采集多個知識主題對應(yīng)的短文本長度做初步的量化統(tǒng)計和分析,明確了知識主題短文本文本特征的稀疏程度。通過短文本之間的詞共現(xiàn)情況構(gòu)建并分析知識主題短文本網(wǎng)絡(luò),最終選取社區(qū)特征有效擴展文本特征。通過計算知識主題之間的KL散度來度量域的差異性,進而選擇輔助數(shù)據(jù);將層次分類問題轉(zhuǎn)換為多分類問題,有效的對知識主題短文本進行組織和管理。
技術(shù)研發(fā)人員:魏筆凡;吳蓓;劉均;鄭慶華;郭朝彤;鄭元浩;吳科煒
受保護的技術(shù)使用者:西安交通大學(xué)
技術(shù)研發(fā)日:2017.03.06
技術(shù)公布日:2017.07.28