本申請實施例涉及文件搜索,尤其涉及一種文件搜索方法、裝置、計算機存儲介質(zhì)及終端。
背景技術(shù):
1、相關(guān)技術(shù)中office套件能夠通過標題中的關(guān)鍵詞檢索到所需要的文件,但是不能通過文件內(nèi)容檢索到所需要的文件。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種文件搜索方法、裝置、計算機存儲介質(zhì)及終端,能夠通過文件的內(nèi)容檢索到所需要的文件。
2、第一方面,本申請實施例提供一種文件搜索方法,所述文件搜索方法包括:
3、讀取目標文件的文件內(nèi)容;
4、對所述文件內(nèi)容進行分詞處理,得到分詞結(jié)果;
5、響應于搜索信息的輸入,根據(jù)所述搜索信息和所述分詞結(jié)果定位所述目標文件。
6、在一些實施例中,所述對所述文件內(nèi)容進行分詞處理,得到分詞結(jié)果,包括:
7、將所述文件內(nèi)容輸入文件解析器得到目標字符串;
8、對所述目標字符串進行分詞處理,得到分詞結(jié)果。
9、在一些實施例中,所述將所述文件內(nèi)容輸入文件解析器得到目標字符串,包括:
10、將所述文件內(nèi)容輸入所述文件解析器得到初始字符串;
11、對所述初始字符串進行優(yōu)化處理,得到目標字符串。
12、在一些實施例中,所述對所述文件內(nèi)容進行分詞處理,得到分詞結(jié)果,包括:
13、將所述文件內(nèi)容輸入分詞模型,得到分詞結(jié)果;
14、所述分詞模型包括:第一分詞子模型、第二分詞子模型以及第三分詞子模型;所述將所述文件內(nèi)容輸入分詞模型,得到分詞結(jié)果,包括:
15、將所述文件內(nèi)容輸入所述第一分詞子模型,得到第一詞向量;
16、將所述文件內(nèi)容輸入所述第二分詞子模型,得到第二詞向量;
17、將所述第一詞向量和所述第二詞向量拼接在一起,得到拼接詞向量;
18、將所述拼接詞向量輸入所述第三分詞子模型,得到分詞結(jié)果。
19、在一些實施例中,所述分詞模型還包括類型判斷子模型,所述第一分詞子模型有多個,對應不同類型的文件,在所述將所述文件內(nèi)容輸入所述第一分詞子模型,得到第一詞向量之前,所述方法還包括:
20、將所述文件內(nèi)容輸入所述類型判斷子模型,得到所述目標文件對應的類型;
21、根據(jù)所述目標文件對應的類型,調(diào)用對應的第一分詞子模型。
22、在一些實施例中,所述方法還包括:
23、獲取文件內(nèi)容樣本集,所述文件內(nèi)容樣本集包括多個文件內(nèi)容樣本,每個所述文件內(nèi)容樣本均事先標記有對應的分詞標簽;
24、將所述文件內(nèi)容樣本逐個輸入分詞模型,得到分詞模型輸出的分詞結(jié)果。
25、根據(jù)所述分詞標簽和所述分詞模型輸出的所述分詞結(jié)果,對所述分詞模型進行參數(shù)更新,直至滿足預定條件,停止訓練,得到訓練好的分詞模型。
26、在一些實施例中,所述根據(jù)所述分詞標簽和所述分詞模型輸出的所述分詞結(jié)果,對所述分詞模型進行參數(shù)更新,包括:
27、根據(jù)所述分詞標簽和所述分詞模型輸出的所述分詞結(jié)果,確定分詞損失;
28、根據(jù)所述分詞損失,對所述分詞模型進行參數(shù)更新,直至滿足預定條件,停止訓練,得到訓練好的所述分詞模型。
29、在一些實施例中,所述根據(jù)所述分詞標簽和所述分詞模型輸出的所述分詞結(jié)果,對所述分詞模型進行參數(shù)更新,包括:
30、若所述文件內(nèi)容樣本集中,只有不超過預定數(shù)量個所述文件內(nèi)容樣本輸入到所述分詞模型中得到的所述分詞結(jié)果和所述分詞標簽一致,對所述分詞模型進行參數(shù)更新;
31、若所述文件內(nèi)容樣本集中,有超過預定數(shù)量個所述文件內(nèi)容樣本輸入到所述分詞模型中得到的所述分詞結(jié)果和所述分詞標簽一致,結(jié)束訓練,得到訓練好的所述分詞模型。
32、第二方面,本申請實施例提供一種文件搜索裝置,所述文件搜索裝置包括:
33、讀取模塊,用于讀取目標文件的文件內(nèi)容;
34、分詞模塊,用于對所述文件內(nèi)容進行分詞處理,得到分詞結(jié)果;
35、定位模塊,用于響應于搜索信息的輸入,根據(jù)所述搜索信息和所述分詞結(jié)果定位所述目標文件。
36、第三方面,本申請實施例提供一種包含指令的計算機程序產(chǎn)品,當計算機程序產(chǎn)品在計算機或處理器上運行時,使得計算機或處理器執(zhí)行第一方面及第一方面的實施例中的方法步驟。
37、第四方面,本申請實施例提供一種計算機存儲介質(zhì),計算機存儲介質(zhì)存儲有多條指令,指令適于由處理器加載并執(zhí)行第一方面及第一方面的實施例中的方法步驟。
38、第五方面,本申請實施例提供一種終端,終端包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執(zhí)行程序時實現(xiàn)如第一方面及第一方面的實施例中的方法步驟。
39、本申請實施例提供的技術(shù)方案帶來的有益效果至少包括:
40、本申請實施例提供了一種文件搜索方法、裝置、計算機存儲介質(zhì)及終端,通過預先讀取目標文件的文件內(nèi)容,對文件內(nèi)容進行分詞處理得到分詞結(jié)果;在用戶輸入搜索信息時,響應于搜索信息的輸入,根據(jù)搜索信息和分詞結(jié)果定位目標文件。由于搜索信息可以與分詞處理的文件內(nèi)容進行比對,那么當搜索信息與文件內(nèi)容中的其中一分詞一致時,就可以直接通過此分詞定位到目標文件,從而通過搜索文件內(nèi)容定位目標文件。相比于現(xiàn)有技術(shù),本申請的實施例除了能夠檢索到標題相似的目標文件外,還能夠檢索到內(nèi)容相似的目標文件,提高了目標文件關(guān)于搜索信息搜索的全面性。
1.一種文件搜索方法,其特征在于,所述文件搜索方法包括:
2.根據(jù)權(quán)利要求1所述的文件搜索方法,其特征在于,所述對所述文件內(nèi)容進行分詞處理,得到分詞結(jié)果,包括:
3.根據(jù)權(quán)利要求2所述的文件搜索方法,其特征在于,所述將所述文件內(nèi)容輸入文件解析器得到目標字符串,包括:
4.根據(jù)權(quán)利要求1所述的文件搜索方法,其特征在于,所述對所述文件內(nèi)容進行分詞處理,得到分詞結(jié)果,包括:
5.根據(jù)權(quán)利要求4所述的文件搜索方法,其特征在于,所述分詞模型還包括類型判斷子模型,所述第一分詞子模型有多個,對應不同類型的文件,在所述將所述文件內(nèi)容輸入所述第一分詞子模型,得到第一詞向量之前,所述方法還包括:
6.根據(jù)權(quán)利要求4所述的文件搜索方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的文件搜索方法,其特征在于,所述根據(jù)所述分詞標簽和所述分詞模型輸出的所述分詞結(jié)果,對所述分詞模型進行參數(shù)更新,包括:
8.一種文件搜索裝置,其特征在于,所述文件搜索裝置包括:
9.一種計算機存儲介質(zhì),其特征在于,
10.一種終端,其特征在于,