技術(shù)編號:40653705
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。本發(fā)明屬于文本分類領(lǐng)域,具體涉及中文文本分類、標(biāo)簽混淆、神經(jīng)網(wǎng)絡(luò)以及對比學(xué)習(xí)方法。背景技術(shù)、在文本分類中,文本的特征表示是將文本轉(zhuǎn)化為計算機能夠讀懂的數(shù)字序列。詞向量技術(shù)出現(xiàn)之前,常見的文本特征表示包括:詞頻特征、n-gram特征、特征選擇方法選擇出來的特征等,這類方法的信息提取能力單一,得到的文本表示中蘊含的信息有限。之后出現(xiàn)了one-hot編碼,開始這種方法在工業(yè)界得到了廣泛應(yīng)用,但隨著數(shù)據(jù)量的增大,會出現(xiàn)維度爆炸的問題?,F(xiàn)如今基于深層網(wǎng)絡(luò)的預(yù)訓(xùn)練模型gpt、bert系列、ernie、xl...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學(xué)習(xí)研究技術(shù)思路。