欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分詞處理方法及全文檢索方法

文檔序號:6618821閱讀:282來源:國知局
專利名稱:分詞處理方法及全文檢索方法
技術領域
本發(fā)明涉及全文才全索,更具體地涉及在全文才企索中的分詞方法 及其在全文才全索中的應用。
背景技術
現(xiàn)有基于數(shù)據庫的全文檢索系統(tǒng)多利用 一元分詞、二元分詞或 預置詞表分詞后的分詞結果進行凄t據庫全文^企索。
比如,查詢詞"數(shù)據庫軟件",經過一元分詞處理后為"數(shù)、 據、庫、軟、件,,,之后系統(tǒng)以該分詞結果作為查詢詞組合進行數(shù) 據庫全文檢索。但是,這樣的檢索結果并不十分準確。僅因為"軟" 這個一元分詞結果在其中出現(xiàn),就使得包含"可口可樂發(fā)布了一款 新的軟飲料"的文本也會出現(xiàn)在4企索結果中。
使用二元分詞結果"數(shù)據、據庫、庫軟、軟件"作為查詢詞, 上述文本不會^皮4企索出來, 一定程度上4是高了才企索結果的準確性, 但是像"這款軟件采用了異步數(shù)據處理方式"這種包含二元分詞結 果但又與查詢無關的文本還是會被4企索到,也不能完全避免 一元分 詞中出現(xiàn)的同樣問題。
使用預置詞表分詞可以更準確地提高分詞的準確性,但其前提 是預置詞表的詞匯量足夠大,如果預置詞表中包含"數(shù)據庫、軟件", 查詢詞會被準確的分割為"數(shù)據庫、軟件"從而改善檢索結果。如
5果"軟件、數(shù)據"在預置詞表中而"數(shù)據庫"不在其中,分詞結果 將為"數(shù)據、庫、軟件",這同樣不能避免一元或二元分詞所出現(xiàn) 的確告誤;險索結果。并且因為預置詞表的詞匯相對固定,而新的詞匯 層出不窮,所以對使用預置表進行分詞的準確性都能產生影響。
如今,在企業(yè)數(shù)據庫中,結構化數(shù)據多以元數(shù)據的形式存儲于 數(shù)據庫表的字段中,半結構化或非結構化數(shù)據多以全文本形式被存 儲。但是結構化、半結構化以及非結構化數(shù)據多為企業(yè)的領域相關 內容,彼此之間存在著相當程度上的關聯(lián)。全文沖企索中分詞的作用 是將非結構化的查詢詞結構化,然后4企索非結構化的文本。因此, 適當?shù)剡x取企業(yè)數(shù)據庫中的結構化特征項作為分詞的依據,有助于 更加準確i也判定查詢詞與 一皮4企索文本的相關禾呈度,乂人而達到優(yōu)^匕全 文才企索的歲支果。
因此,為了解決上述現(xiàn)有分詞方法中不能解決的技術問題,針
對企業(yè)翁:才居庫,_提出了一種分詞方法及應用該分詞方法的全文4全索 方法。

發(fā)明內容
為了解決上述技術問題至少之一 ,本發(fā)明提供了 一種分詞處理 方法,其特征在于,包括創(chuàng)建基于數(shù)據庫特征項的新分詞系統(tǒng), 并將所述數(shù)據庫特征項添加到所述新分詞系統(tǒng)中;以及將用戶4是交 的查詢詞以所述新分詞系統(tǒng)中的所述數(shù)據庫特征項作為詞表進行 分詞,以生成分詞結果集。
在上述才支術方案中,還可以包4舌基于所述凄t據庫特4正項,將 所生成的所述分詞結果集分成包含所述數(shù)據庫特征項的第 一分詞 結果子集和不包含所述數(shù)據庫特征項的第二分詞結果子集;對所述 第二分詞結果子集^f吏用不同于所述新分詞系統(tǒng)的其j也分詞系統(tǒng)進4亍分詞處理以生成第三分詞結果子集;以及將所述第 一分詞結果子 集與所述第三分詞結果子集合并得到新分詞結果集。
其中,其他分詞系統(tǒng)包括 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預 置詞表分詞系統(tǒng)。數(shù)據庫特征項包括數(shù)據庫中的表和字段。
根據本發(fā)明的另 一方面,本發(fā)明還提供了 一種全文檢索方法, 用于在企業(yè)數(shù)據庫中進行全文4企索,其特征在于,包括創(chuàng)建基于 凄史據庫特4正項的新分詞系統(tǒng),并將所述lt據庫特4正項添加到所述新 分詞系統(tǒng)中;將用戶提交的查詢詞以所述新分詞系統(tǒng)中的所述數(shù)據 庫特征項作為詞表進行分詞,以生成分詞結果集;基于所述數(shù)據庫 特征項,將所生成的所述分詞結果集分成包含所述#:據庫特4正項的 第 一分詞結果子集和不包含所述數(shù)據庫特征項的第二分詞結果子 集;對所述第二分詞結果子集^f吏用不同于所述新分詞系統(tǒng)的其他分 詞系統(tǒng)進行分詞處理以生成第三分詞結果子集;將所述第 一分詞結 果子集與所述第三分詞結果子集合并得到新分詞結果集;以及以所 述新分詞結果集作為查詢詞集合進行全文檢索,獲取檢索結果文本 集。
在上述4支術方案中,還可以包括對所述4企索結果文本集和所 述新分詞結果集進行相關度計算;以及按照計算出的所述相關度對 所述4企索結果文本集進4于排序,并作為查詢結果返回。
在上述技術方案中,在返回所述查詢結果之前,還包括為所 述相關度設定相關度閾值,排除相關度過低的無效結果。
在上述技術方案中,相關度是通過以下7>式計算的
Z / (《呵,.) i fowery ,TeW ) = ~^-^- (公式i)
7<formula>formula see original document page 8</formula>
其中,z'為所述新分詞結果中的分詞項的數(shù)目,以及gweo^為 第Z個分詞項,以及Text為^r索文本。
在上述技術方案中,其他分詞系統(tǒng)包括 一元分詞系統(tǒng)、二元 分詞系統(tǒng)或預置詞表分詞系統(tǒng)。數(shù)據庫特征項包括數(shù)據庫中的表 和字段。
沖艮據本發(fā)明的分詞處理方法和全文檢索方法,提出了一種結合 數(shù)據庫特征項的分詞處理方法,及其在企業(yè)數(shù)據庫全文才全索系統(tǒng)中 的斗全索方法。其通過適當?shù)剡x耳又企業(yè)凄t據庫中的結構化4爭征項作為 分詞的依據,有助于更加準確地判定查詢詞與,皮才企索文本的相關程 度,以及改善'


下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。
圖1是根據本發(fā)明的分詞處理方法的流程圖2是根據本發(fā)明的一個實施例的分詞處理方法的流程圖3是根據本發(fā)明的全文檢索方法的流程圖;以及
圖4是根據本發(fā)明的一個實施例的全文檢索方法的流程圖。
具體實施例方式
下面將詳細參考本發(fā)明的優(yōu)選實施例,根據附圖來描述優(yōu)選實 施例的示例。
圖l是根據本發(fā)明的分詞處理方法的流程圖。如圖l所示,根
據本發(fā)明的分詞方法包4舌以下步驟步驟S102,創(chuàng)建基于lt才居庫特 征項的新分詞系統(tǒng),并將凄t據庫特4正項添加到新分詞系統(tǒng)中;以及 步驟S104,將用戶提交的查詢詞以該新分詞系統(tǒng)中的數(shù)據庫特征項 作為詞表進行分詞,以生成分詞結果集。在才艮據本發(fā)明的分詞處理 方法中,其4也分詞系統(tǒng)可以是一元分詞系統(tǒng)、二元分詞系統(tǒng)或予貞置 詞表分詞系統(tǒng)。而數(shù)據庫特征項可以是數(shù)據庫中的表或字段。
圖2是根據本發(fā)明的一個實施例的分詞處理系統(tǒng)。在圖2所示 的根據本發(fā)明的一個實施例的分詞處理系統(tǒng)中,在使用基于數(shù)據庫 特4正項的分詞系統(tǒng)進4亍分詞之后,還包括 使用其他分詞系統(tǒng)進4亍分 詞。如圖2所示,該分詞處理系統(tǒng)包括S202,創(chuàng)建基于數(shù)據庫特 征項的新分詞系統(tǒng),并將凄t據庫特4正項添力口到新分詞系統(tǒng)中;S204, 將用戶提交的查詢詞以該新分詞系統(tǒng)中的數(shù)據庫特征項作為詞表 進行分詞,以生成分詞結果集;S206,基于數(shù)據庫特征項,將所生 成的分詞結果集分成包含lt據庫特4正項的第 一分詞結果子集和不 包含H據庫特征項的第二分詞結果子集;S208,對第二分詞結果子 集l吏用不同于新分詞系統(tǒng)的其4也分詞系統(tǒng)進4亍分詞處理以生成第 三分詞結果子集;以及S210,將第一分詞結果子集與所述第三分詞 結果子集合并得到新分詞結果集。
在上述根據本發(fā)明的分詞處理方法中,其他分詞系統(tǒng)可以是^f旦 不限于, 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預置詞表分詞系統(tǒng)。而凝: 據庫特征項可以是數(shù)據庫中的表或字段。才艮據本發(fā)明的分詞處理方法中,解決了現(xiàn)有4支術中分詞不準確 導致錯誤檢索結果的問題,其根據數(shù)據庫特征項進行分詞而能更加 準確地進行分詞。
圖3是根據本發(fā)明的全文檢索方法的流程圖。如圖3所示,根 據本發(fā)明的全文4全索方法包括S302,創(chuàng)建基于凄t據庫特4正項的新 分詞系統(tǒng),并將所述數(shù)據庫特征項添加到新分詞系統(tǒng)中;S304,將 用戶4是交的查詢詞以該新分詞系統(tǒng)中的凄t據庫特4正項作為詞表進 4亍分詞,以生成分詞結果集;S306,基于凄t據庫特4正項,將所生成 的分詞結果集分成包含數(shù)據庫特征項的第 一分詞結果子集和不包 含數(shù)據庫特征項的第二分詞結果子集;S308,對第二分詞結果子集 使用不同于新分詞系統(tǒng)的其他分詞系統(tǒng)進行分詞處理以生成第三 分詞結果子集;S310,將第一分詞結果子集與第三分詞結果子集合 并得到新分詞結果集;以及S312,以新分詞結果集作為查詢詞集合 進行全文4企索,獲取4企索結果文本集。
在上述才支術方案中,還可以包4舌乂于;險索結果文本集和新分詞 結果集進行相關度計算;以及按照計算出的相關度對檢索結果文本 集進行排序,并作為查詢結果返回。
在上述技術方案中,在返回查詢結果之前,還包括為相關度 設定相關度閾值,排除相關度過低的無效結果。
在上述技術方案中,相關度是通過以下/>式計算的
i (G"e" ,Tot ) = ~^-^- (公式i)<formula>formula see original document page 11</formula>(公式2 )
其中,f為新分詞結果中的分詞項的數(shù)目,以及^weo^為第/ 個分詞項,以及Text為4全索文本。
在上述技術方案中,本領域的技術人員應該理解,其他分詞系 統(tǒng)可以包括但不限于 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預置詞表分 詞系統(tǒng)。數(shù)據庫特征項可以包括數(shù)據庫中的表和字段。
圖4是根據本發(fā)明的一個實施例的全文才企索方法的流程圖。如 圖4所示,首先,步驟S402,選定數(shù)據庫中表和字段作為特征項; 其次,步驟S404,將特征項加入到基于數(shù)據庫特征項的分詞系統(tǒng), 使用基于數(shù)據庫特征項的分詞系統(tǒng)對用戶提交的查詢詞進行分詞 以生成分詞結果集再次,步-驟S406,在/^5w/f中篩選出包 含數(shù)據庫特征項中詞條的集合m^/o,以及步驟S408,非數(shù)據庫特 征項中詞條的集合resw/f2;然后,步-驟S410,對resw^中詞條4吏用 其他分詞系統(tǒng)進行分詞,步驟S412,生成分詞結果集合mst^2,; 然后,步艱《S414, ^l尋m^/^與/^w/b,合并為r^w/r;然后,步專聚 S416,以msw/r作為查詢詞集合進行全文才全索,步驟S418,獲得抬二 索結果文本集fexf;然后,步4聚S420,在文本相關度計算系鄉(xiāng)充中只于 和msM/f,進行相關度計算;最后,步驟S422,按相關度乂人高至 低對排序,并作為查詢結果返回。
在該實施例中,相關度是通過以下7>式計算的
<formula>formula see original document page 11</formula>(公式1)J= (公式2)
其中,為新分詞結果中的分詞項的數(shù)目,以及q"eo^為第
個分詞項,以及Text為4全索文本。
下面列出了根據現(xiàn)有的分詞方法,以及采用本發(fā)明提供的分詞 方法進^f亍分詞并進4亍全文^r索的比4交示例。在該比4交示例中,有ti殳
查詢詞^t據庫庫欠件
預置詞表凄t據、l欠件
數(shù)據庫特征項凄t據庫、中間件、瀏覽器、終端才幾、... 文本
7kxO:可口可樂發(fā)布了一涼欠新的壽欠々大料。
:rexf2:這款軟件的動態(tài)鏈接庫采用了異步數(shù)據處理方式。
rexf3:大多數(shù)服務器軟件的運行都需要借助于數(shù)據庫存儲數(shù)據。
由上面的々支i殳,下面列出了采用不同分詞方法得到的分詞結

(1)采用一元分詞
查詢詞分詞結果數(shù)、據、庫、軟、件沖金索結果取并集7fcc~、 rexf2、 7fec。
(2) 采用二元分詞
查詢詞分詞結果^據、據庫、庫軟、4欠件
才t索結果取并集reW2、 7fex^
(3) 釆用預置詞表分詞 查詢詞分詞結果數(shù)據、庫、軟件 斗全索結果耳又并集rexf2、 Ifejcf3
(4) 采用數(shù)據庫記錄項分詞+ —元分詞 分詞結果數(shù)據庫、軟、件 才金索結果耳又并集7fec〃、 7fexf2、 7fexb
(5) 采用數(shù)據庫記錄項分詞+ 二元分詞 分詞結果數(shù)據庫、軟件 沖企索結果耳又并集Texb
(6) 采用凄t據庫記錄項分詞+預置詞表分詞
分詞結果數(shù)據庫、軟件
才企索結果耳又并集7fe^。
根據公式1和公式2計算出的相關度如下
13(1)采用一元分詞 分詞結果數(shù)、據、庫、軟、件
4企索結果耳又并集 W(G"e",:TexO = 0.2 、 i (QMery,rexf2) = 1
(2) 采用二元分詞
分詞結果數(shù)據、據庫、庫軟、軟件
斗企索結果耳又并集K(G"ery,re^2) = 0.5 、 i (G"eo%re"3) = 0.75;
(3) 采用預置詞表分詞 分詞結果數(shù)據、庫、軟件
檢索結果W(G"",r叫)=l 、 i (G"eo^, rew3) = 1.
(4) 采用數(shù)據庫記錄項分詞+ —元分詞 分詞結果數(shù)據庫、軟、件
檢索結果A(G"ery,r加》0.3333 、7 (0"^,7^2) = 0.6667
(5) 采用凄史據庫記錄項分詞+ 二元分詞 分詞結果數(shù)據庫、軟件
檢索結果尺(2呵,—)=1;(6)釆用tt據庫記錄項分詞+預置詞表分詞 分詞結果數(shù)據庫、軟件 檢索結果W(2呵,—)=1 。
通過上述對根據本發(fā)明的實施例的描述,本發(fā)明提出的方法基 于數(shù)據庫的全文才企索,檢索范圍局限于數(shù)據庫內的文本。根據本發(fā)
明提出的方法選定數(shù)據庫中字段作為特征項進行分詞,利用了數(shù)據 庫特征項與數(shù)據庫內文本的關聯(lián)關系,有效地改善了一元、二元、
預置詞表等傳統(tǒng)分詞方法的分詞準確度。同時,還沖是出了一種新的 結合數(shù)據庫特征項分詞結果的相關度計算方法,該方法的計算結果 為檢索結果的輸出提供了排序的依據,從而將與查詢詞相關度最高 的文本靠前地輸出給用戶,并可以設定相關度閾值,排除相關度過 4氐的無效結果。
盡管已經參照多個示范性實施方式描述了實施例,本領域技術 人員應當j里解,可以i殳i十出多個其它^f務 文和實施例,落入本i兌明書
的4青神和原理范圍。更具體i也,在本"i兌明書、附圖及所附的—又利要 求書的范圍內的本組合布置的組成部分和/或布置中的各種變化和 ^修改是可能的。除了《且成部分和/或布置中的變4匕和-修改之外, 4吏用對于本領域4支術人員而言是顯然的。
權利要求
1.一種分詞處理方法,其特征在于,包括創(chuàng)建基于數(shù)據庫特征項的新分詞系統(tǒng),并將所述數(shù)據庫特征項添加到所述新分詞系統(tǒng)中;以及將用戶提交的查詢詞以所述新分詞系統(tǒng)中的所述數(shù)據庫特征項作為詞表進行分詞處理,以生成分詞結果集。
2. 根據權利要求1所述的分詞處理方法,其特征在于,還包括基于所述數(shù)據庫特征項,將所生成的所述分詞結果集分 成包含所述數(shù)據庫特征項的第一分詞結果子集和不包含所述 數(shù)據庫特征項的第二分詞結果子集;對所述第二分詞結果子集^f吏用不同于所述新分詞系統(tǒng)的 其他分詞系統(tǒng)進4亍分詞處理以生成第三分詞結果子集;以及將所述第一分詞結果子集與所述第三分詞結果子集合并 得到新分詞結果集。
3. 根據權利要求2所述的分詞處理方法,其特征在于,所述其他 分詞系統(tǒng)包括 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預置詞表分詞 系統(tǒng)。
4. 根據權利要求1至3中任一項所述的分詞處理方法,其特征在 于,所述凄t據庫特4i項包4舌凄t據庫中的表和字,殳。
5. —種全文檢索方法,用于在企業(yè)彩::梧庫中進4亍全文斥企索,其特 ;f正在于,包4舌創(chuàng)建基于翁:據庫特4i項的新分詞系統(tǒng),并將所述凄t才居庫 特;f正項添力cr到所述新分詞系統(tǒng)中;將用戶提交的查詢詞以所述新分詞系統(tǒng)中的所述數(shù)據庫 特征項作為詞表進4于分詞處理,以生成分詞結果集;基于所述數(shù)據庫特征項,將所生成的所述分詞結果集分 成包含所述凄t據庫特;f正項的第 一分詞結果子集和不包含所述 數(shù)據庫特征項的第二分詞結果子集;對所述第二分詞結果子集^f吏用不同于所述新分詞系統(tǒng)的 其他分詞系統(tǒng)進4亍分詞處理以生成第三分詞結果子集;將所述第 一分詞結果子集與所述第三分詞結果子集合并 得到新分詞結果集;以及以所述新分詞結果集作為查詢詞集合進一于全文一企索,獲 取才企索結果文本集。
6. 根據權利要求5所述的全文檢索方法,其特征在于,還包括對所述4企索結果文本集和所述新分詞結果集進4于相關度 計算;以及按照計算出的所述相關度對所述4企索結果文本集進行排 序,并4乍為查詢結果返回。
7. 根據權利要求6所述的全文4全索方法,其特征在于,在返回所 述查詢結果之前,還包括為所述相關度設定相關度閾值,排 除相關度過低的無效結果。
8. 根據權利要求7所述的全文檢索方法,其特征在于,根據以下 公式進行相關度計算<formula>formula see original document page 4</formula>其中,i'為所述新分詞結果中的分詞項的數(shù)目,以及gwe^y ;為第/個分詞項,以及Text為4企索文本。
9. 根據權利要求5所述的全文4僉索方法,其特征在于,所述其他 分詞系統(tǒng)包4舌 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預置詞表分詞 系統(tǒng)。
10. 根據權利要求5至9中任一項所述的全文檢索方法,其特征在 于,所述凄t據庫特4i項包括凄t據庫中的表和字^:。
全文摘要
本發(fā)明提供了一種分詞處理方法及其在數(shù)據庫全文檢索中的一種應用,包括創(chuàng)建基于數(shù)據庫特征項的新分詞系統(tǒng),并將所述數(shù)據庫特征項添加到所述新分詞系統(tǒng)中;以及將用戶提交的查詢詞以所述數(shù)據庫特征項作為詞表進行分詞處理以生成分詞結果集。根據本發(fā)明提出的方法選定數(shù)據庫中字段作為特征項進行分詞,利用了數(shù)據庫特征項與數(shù)據庫內文本的關聯(lián)關系,有效地改善了一元、二元、預置詞表等傳統(tǒng)分詞方法的分詞準確度。
文檔編號G06F17/30GK101561818SQ20091008377
公開日2009年10月21日 申請日期2009年5月13日 優(yōu)先權日2009年5月13日
發(fā)明者哲 劉 申請人:北京用友移動商務科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
两当县| 甘德县| 临江市| 文化| 库车县| 南通市| 乐陵市| 永登县| 固始县| 额尔古纳市| 孟津县| 尼勒克县| 五原县| 滦平县| 咸阳市| 当雄县| 惠来县| 射阳县| 竹山县| 平罗县| 舟山市| 华坪县| 棋牌| 信丰县| 南雄市| 陕西省| 乌苏市| 六枝特区| 丹巴县| 屏东县| 温州市| 拜城县| 扬中市| 卓尼县| 巴林右旗| 布尔津县| 香格里拉县| 古丈县| 广德县| 辛集市| 息烽县|