欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中文分詞方法、裝置和服務(wù)器的制造方法

文檔序號(hào):6511900閱讀:205來源:國(guó)知局
中文分詞方法、裝置和服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了一種中文分詞方法、裝置和服務(wù)器,屬于搜索引擎【技術(shù)領(lǐng)域】。所述方法包括:接收分詞指令;獲取第一漢字集;根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,獲取所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息;根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組合詞以及檢索概率;根據(jù)所述多個(gè)組合詞中包括的漢字,進(jìn)行路徑組合;獲取每條路徑的檢索概率;確定所述檢索概率最大的路徑;根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分詞。本發(fā)明無需人工進(jìn)行分詞,也無需依賴于字典等工具,操作簡(jiǎn)便;且實(shí)現(xiàn)了動(dòng)態(tài)地更新數(shù)據(jù)源,能夠快速地修正錯(cuò)誤的分詞方式,對(duì)新詞也有很高的辨識(shí)度,提高了分詞的準(zhǔn)確性。
【專利說明】中文分詞方法、裝置和服務(wù)器

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及搜索引擎【技術(shù)領(lǐng)域】,特別涉及一種中文分詞方法、裝置和服務(wù)器。

【背景技術(shù)】
[0002] 隨著搜索技術(shù)的發(fā)展和用戶搜索需求的提高,在進(jìn)行數(shù)據(jù)搜索時(shí),用戶可能會(huì)輸 入很長(zhǎng)的待搜索關(guān)鍵詞,此時(shí),若直接對(duì)關(guān)鍵詞進(jìn)行搜索,搜索成功率一般很低。而為了提 高搜索成功率,可以在搜索之前,對(duì)關(guān)鍵詞進(jìn)行分詞,再對(duì)得到的分詞結(jié)果進(jìn)行搜索,將與 分詞結(jié)果匹配的內(nèi)容作為關(guān)鍵詞的搜索結(jié)果。
[0003] 其中,在對(duì)中文關(guān)鍵詞進(jìn)行分詞時(shí),可以采用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。具體包括 以下步驟:(1)從公開發(fā)行的媒體等數(shù)據(jù)源中采集文本集;(2)人工選取其中的部分文本 集,進(jìn)行分詞;(3)根據(jù)人工分詞的結(jié)果并利用統(tǒng)計(jì)學(xué)習(xí)模型,學(xué)習(xí)人工分詞的規(guī)律;(4)在 對(duì)當(dāng)前的中文關(guān)鍵詞進(jìn)行分詞時(shí),按照學(xué)習(xí)到的分詞規(guī)律,對(duì)該中文關(guān)鍵詞進(jìn)行分詞。
[0004] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005] 基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法需要耗費(fèi)大量的人力和時(shí)間,且非常依賴于人工分詞的 結(jié)果,當(dāng)人工分詞結(jié)果存在錯(cuò)誤時(shí),無法快速地進(jìn)行糾正;此外,由于采集文本集的局限性, 基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法對(duì)新詞的識(shí)別能力很弱,且對(duì)于專有領(lǐng)域的分詞,錯(cuò)誤率也很高。


【發(fā)明內(nèi)容】

[0006] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種中文分詞方法、裝置和服務(wù) 器。所述技術(shù)方案如下:
[0007] 第一方面,提供了一種中文分詞方法,所述方法包括:
[0008] 接收分詞指令,所述分詞指令攜帶待切分的關(guān)鍵詞;
[0009] 將所述關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字集,所述第一漢字集包括所 述關(guān)鍵詞的每個(gè)漢字;
[0010] 根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息;
[0011] 根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組 合詞,以及所述多個(gè)組合詞的檢索概率;
[0012] 根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行路徑組合,得到多條 路徑;
[0013] 根據(jù)所述多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率;
[0014] 根據(jù)每條路徑的檢索概率,確定所述檢索概率最大的路徑;
[0015] 根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分詞。
[0016] 第二方面,提供了一種中文分詞裝置,所述裝置包括:
[0017] 指令接收模塊,用于接收分詞指令,所述分詞指令攜帶待切分的關(guān)鍵詞;
[0018] 第一漢字集獲取模塊,用于將所述關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字 集,所述第一漢字集包括所述關(guān)鍵詞的每個(gè)漢字;
[0019] 檢索信息獲取模塊,用于根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢字集中每個(gè)漢 字對(duì)應(yīng)的檢索信息;
[0020] 組合詞獲取模塊,用于根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的 檢索信息,獲取多個(gè)組合詞,以及所述多個(gè)組合詞的檢索概率;
[0021] 路徑組合模塊,用于根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行 路徑組合,得到多條路徑;
[0022] 概率獲取模塊,用于根據(jù)所述多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概 率;
[0023] 最大概率確定模塊,用于根據(jù)每條路徑的檢索概率,確定所述檢索概率最大的路 徑;
[0024] 分詞模塊,用于根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn) 行分詞。
[0025] 第三方面,提供了一種服務(wù)器,包括:接收器、發(fā)射器、存儲(chǔ)器和處理器,所述接收 器、所述發(fā)射器和所述存儲(chǔ)器分別與所述處理器連接,所述存儲(chǔ)器存儲(chǔ)有程序代碼,所述處 理器用于調(diào)用所述程序代碼,執(zhí)行以下操作:
[0026] 接收分詞指令,所述分詞指令攜帶待切分的關(guān)鍵詞;
[0027] 將所述關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字集,所述第一漢字集包括所 述關(guān)鍵詞的每個(gè)漢字;
[0028] 根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,所述 預(yù)設(shè)對(duì)應(yīng)關(guān)系包括漢字和檢索信息之間的對(duì)應(yīng)關(guān)系;
[0029] 根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組 合詞,以及所述多個(gè)組合詞的檢索概率;
[0030] 根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行路徑組合,得到多條 路徑;
[0031] 根據(jù)所述多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率;
[0032] 根據(jù)每條路徑的檢索概率,確定所述檢索概率最大的路徑;
[0033] 根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分詞。
[0034] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0035] 本發(fā)明實(shí)施例提供的方法、裝置和服務(wù)器,通過對(duì)待切分的關(guān)鍵詞按照單個(gè)漢字 進(jìn)行切分,無需人工進(jìn)行分詞,也無需依賴于字典等工具,操作簡(jiǎn)便;且通過建立并更新該 預(yù)設(shè)對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)了動(dòng)態(tài)地更新數(shù)據(jù)源,能夠快速地修正錯(cuò)誤的分詞方式,對(duì)新詞也有很 高的辨識(shí)度,提高了分詞的準(zhǔn)確性。

【專利附圖】

【附圖說明】
[0036] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0037] 圖1是本發(fā)明實(shí)施例提供的一種中文分詞方法的流程圖;
[0038] 圖2是本發(fā)明實(shí)施例提供的一種中文分詞方法的流程圖;
[0039] 圖3是本發(fā)明實(shí)施例提供的路徑組合示意圖;
[0040] 圖4是本發(fā)明實(shí)施例提供的一種中文分詞裝置結(jié)構(gòu)示意圖;
[0041] 圖5是本發(fā)明實(shí)施例提供的一種服務(wù)器結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0042] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā) 明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明保護(hù)的范圍。
[0043] 圖1是本發(fā)明實(shí)施例提供的一種中文分詞方法的流程圖。本發(fā)明實(shí)施例的執(zhí)行主 體為服務(wù)器,參見圖1,所述方法包括:
[0044] 101 :接收分詞指令,該分詞指令攜帶待切分的關(guān)鍵詞;
[0045] 本發(fā)明實(shí)施例應(yīng)用于服務(wù)器根據(jù)終端設(shè)備提供的關(guān)鍵詞進(jìn)行搜索的場(chǎng)景下。該服 務(wù)器可以為搜索服務(wù)器,具體用于對(duì)該關(guān)鍵詞進(jìn)行分詞,對(duì)得到的分詞結(jié)果進(jìn)行搜索。
[0046] 在本發(fā)明實(shí)施例中,終端設(shè)備可以在搜索界面上提供用于輸入待搜索的關(guān)鍵詞的 搜索欄,以及用于對(duì)該待搜索的關(guān)鍵詞進(jìn)行數(shù)據(jù)搜索的搜索按鍵,用戶在搜索欄中輸入關(guān) 鍵詞,當(dāng)該終端設(shè)備檢測(cè)到對(duì)該搜索按鍵的點(diǎn)擊操作時(shí),向該服務(wù)器發(fā)送該分詞指令,該分 詞指令攜帶該搜索欄中的關(guān)鍵詞,該服務(wù)器接收該分詞指令。或者,該終端設(shè)備在搜索界面 上顯示熱門搜索關(guān)鍵詞,當(dāng)檢測(cè)到對(duì)熱門搜索關(guān)鍵詞的點(diǎn)擊操作時(shí),該終端設(shè)備向該服務(wù) 器發(fā)送該分詞指令,該分詞指令攜帶該熱門搜索關(guān)鍵詞,該服務(wù)器接收該分詞指令。本發(fā)明 實(shí)施例對(duì)該分詞指令的觸發(fā)方式不做限定。
[0047] 實(shí)際上,在語言分析領(lǐng)域,采用本發(fā)明實(shí)施例提供的技術(shù)方案對(duì)關(guān)鍵詞進(jìn)行分詞 后,還可以進(jìn)行詞組組合分析或詞組應(yīng)用分析等。即在本發(fā)明實(shí)施例提供的另一實(shí)施例中, 所述中文分詞方法應(yīng)用于通過服務(wù)器對(duì)關(guān)鍵詞進(jìn)行分詞,而不進(jìn)行搜索過程。本發(fā)明實(shí)施 例對(duì)分詞之后是否執(zhí)行搜索過程不作具體限定。
[0048] 102 :將該關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字集,該第一漢字集包括該 關(guān)鍵詞的每個(gè)漢字;
[0049] 優(yōu)選地,該服務(wù)器將該關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,并按照該關(guān)鍵詞的漢字順 序,獲取該第一漢字集,也即是,該第一漢字集不僅包括該關(guān)鍵詞的每個(gè)漢字,還包括該關(guān) 鍵詞中每個(gè)漢字的先后順序。
[0050] 例如,關(guān)鍵詞為"建立繁榮富強(qiáng)的社會(huì)主義國(guó)家",則經(jīng)過切分,獲取到的第一漢字 集為{:建立繁榮富強(qiáng)的社會(huì)主義國(guó)家}。
[0051] 103 :根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息;
[0052] 可選地,該預(yù)設(shè)對(duì)應(yīng)關(guān)系包括漢字和檢索信息之間的對(duì)應(yīng)關(guān)系,該檢索信息至少 包括檢索詞、該檢索詞的檢索概率和第二漢字集,該第二漢字集為該檢索詞的漢字集。根據(jù) 該預(yù)設(shè)對(duì)應(yīng)關(guān)系,可以獲取該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息。在本發(fā)明實(shí)施例中, 該服務(wù)器根據(jù)歷史搜索記錄,預(yù)先建立該預(yù)設(shè)對(duì)應(yīng)關(guān)系,并將該預(yù)設(shè)對(duì)應(yīng)關(guān)系保存在數(shù)據(jù) 庫(kù)中。
[0053] 其中,與該第一漢字集類似,該第二漢字集為該檢索詞切分得到的漢字集,可以包 括該檢索詞的每個(gè)漢字和該檢索詞中每個(gè)漢字的先后順序。
[0054] 基于步驟102的舉例,對(duì)于漢字"建"來說,根據(jù)該預(yù)設(shè)對(duì)應(yīng)關(guān)系,可以確定漢字 "建"對(duì)應(yīng)有檢索詞"建立穩(wěn)定國(guó)家",且檢索詞"建立穩(wěn)定國(guó)家"的檢索概率為f0,第二漢字 集為{建立穩(wěn)定國(guó)家},即漢字"建"的檢索信息至少包括檢索詞"建立穩(wěn)定國(guó)家"、檢索概 率f0和第二漢字集{建立穩(wěn)定國(guó)家}。
[0055] 在本發(fā)明實(shí)施例中,該服務(wù)器通過更新該預(yù)設(shè)對(duì)應(yīng)關(guān)系中的檢索詞或者檢索詞的 檢索概率,可以動(dòng)態(tài)地更新數(shù)據(jù)源,進(jìn)而能夠提高分詞的準(zhǔn)確性。
[0056] 104 :根據(jù)該第一漢字集和該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組 合詞,以及該多個(gè)組合詞的檢索概率;
[0057] 具體地,該服務(wù)器將該第一漢字集和該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索詞進(jìn)行 比較,獲取多個(gè)組合詞,該組合詞用于指示所比較的檢索詞和該關(guān)鍵詞的相同漢字和不同 漢字,以便于在后續(xù)過程中,根據(jù)檢索詞的檢索概率以及該檢索詞與該關(guān)鍵詞的相同漢字 和不同漢字,確定該關(guān)鍵詞的最大可能性的分詞方式。
[0058] 優(yōu)選地,對(duì)于一個(gè)檢索詞,該服務(wù)器將該第一漢字集和該檢索詞的第二漢字集進(jìn) 行比較,將該第一漢字集與該第二漢字集中包括的相同漢字以第一標(biāo)識(shí)表示,將該第一漢 字集與該檢索詞包括的不同的漢字以第二標(biāo)識(shí)表示,根據(jù)該第一標(biāo)識(shí)和該第二標(biāo)識(shí),生成 組合詞。其中,該組合詞的漢字順序與該檢索詞的漢字順序?qū)?yīng),該第一標(biāo)識(shí)和該第二標(biāo)識(shí) 可以為漢字或符號(hào)等,本發(fā)明實(shí)施例對(duì)此不做限定。
[0059] 假設(shè)該第一標(biāo)識(shí)為1,該第二標(biāo)識(shí)為0,則基于步驟102和步驟103的舉例,第一漢 字集為{:建立繁榮富強(qiáng)的社會(huì)主義國(guó)家},第二漢字集為{建立穩(wěn)定國(guó)家},將第一漢字集 與第二漢字集中包括的相同漢字以1表示,包括的不同的漢字以〇表示,則按照該第二漢字 集的漢字順序,生成的組合詞為"110011"。
[0060] 105 :根據(jù)該多個(gè)組合詞中包括的漢字,對(duì)該多個(gè)組合詞進(jìn)行路徑組合,得到多條 路徑;
[0061] 106 :根據(jù)該多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率;
[0062] 在本發(fā)明實(shí)施例中,一條路徑包括一個(gè)或多個(gè)組合詞。對(duì)于一條路徑,當(dāng)該路徑包 括一個(gè)組合詞時(shí),該服務(wù)器將該組合詞的檢索概率確定為該路徑的檢索概率,或,當(dāng)該路徑 包括多個(gè)組合詞時(shí),該服務(wù)器對(duì)該多個(gè)組合詞的檢索概率進(jìn)行統(tǒng)計(jì)計(jì)算,將獲取到的統(tǒng)計(jì) 結(jié)果確定為該路徑的檢索概率。
[0063] 其中,該統(tǒng)計(jì)結(jié)果可以為該多個(gè)組合詞的檢索概率的平均值、最大值等,本發(fā)明實(shí) 施例對(duì)此不做限定。
[0064] 107 :根據(jù)每條路徑的檢索概率,確定檢索概率最大的路徑;
[0065] 108:根據(jù)該檢索概率最大的路徑中包括的組合詞,對(duì)該關(guān)鍵詞進(jìn)行分詞。
[0066] 本發(fā)明實(shí)施例提供的方法,通過對(duì)待切分的關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,無需 人工進(jìn)行分詞,也無需依賴于字典等工具,操作簡(jiǎn)便;且通過建立并更新該預(yù)設(shè)對(duì)應(yīng)關(guān)系, 實(shí)現(xiàn)了動(dòng)態(tài)地更新數(shù)據(jù)源,能夠快速地修正錯(cuò)誤的分詞方式,對(duì)新詞也有很高的辨識(shí)度,提 高了分詞的準(zhǔn)確性。
[0067] 可選地,該預(yù)設(shè)對(duì)應(yīng)關(guān)系包括漢字和檢索信息之間的對(duì)應(yīng)關(guān)系,該檢索信息至少 包括檢索詞、該檢索詞的檢索概率和第二漢字集,該第二漢字集為該檢索詞的漢字集。
[0068] 可選地,根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息 之前,該方法還包括:
[0069] 獲取預(yù)設(shè)時(shí)間間隔內(nèi)預(yù)設(shè)網(wǎng)站的多個(gè)檢索詞和該獲取到的多個(gè)檢索詞的檢索概 率;
[0070] 對(duì)該獲取到的多個(gè)檢索詞按照單個(gè)漢字進(jìn)行切分,得到該多個(gè)檢索詞的第二漢字 集;
[0071] 對(duì)于切分得到的每個(gè)漢字,獲取包括該漢字的多個(gè)檢索詞、該多個(gè)檢索詞的檢索 概率以及該多個(gè)檢索詞的第二漢字集;
[0072] 根據(jù)切分得到的多個(gè)漢字和該多個(gè)漢字對(duì)應(yīng)的檢索詞、檢索概率和第二漢字集, 建立該預(yù)設(shè)對(duì)應(yīng)關(guān)系。
[0073] 可選地,根據(jù)該第一漢字集和該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多 個(gè)組合詞,以及該多個(gè)檢索詞的檢索概率包括:
[0074] 對(duì)于該第一漢字集的每個(gè)漢字對(duì)應(yīng)的檢索詞,根據(jù)該第一漢字集是否包括該檢索 詞的第二漢字集中的漢字,獲取該第二漢字集中漢字的組合字;
[0075] 當(dāng)獲取到該第二漢字集中的所有漢字的組合字時(shí),按照該檢索詞的漢字順序,將 該所有漢字的組合字組成組合詞;
[0076] 將該檢索詞的檢索概率獲取為該組合詞的檢索概率。
[0077] 可選地,對(duì)于該第一漢字集的每個(gè)漢字對(duì)應(yīng)的每個(gè)檢索詞,根據(jù)該第一漢字集是 否包括該檢索詞的第二漢字集中的漢字,獲取該第二漢字集中漢字的組合字包括 :
[0078] 對(duì)于該第一漢字集的每個(gè)漢字對(duì)應(yīng)的每個(gè)檢索詞,當(dāng)該第一漢字集包括該檢索詞 的第二漢字集中的漢字時(shí),將該漢字獲取為該漢字的組合字;或,
[0079] 當(dāng)該第一漢字集不包括該漢字時(shí),將指定標(biāo)識(shí)獲取為該漢字的組合字。
[0080] 可選地,根據(jù)該檢索概率最大的路徑中包括的組合詞,對(duì)該關(guān)鍵詞進(jìn)行分詞包 括:
[0081] 根據(jù)該檢索概率最大的路徑中的組合詞所包括的組合字的位置,對(duì)該關(guān)鍵詞進(jìn)行 切分,獲取該關(guān)鍵詞的分詞結(jié)果。
[0082] 可選地,根據(jù)該第一漢字集和該第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,生成多 個(gè)組合詞,并獲取該多個(gè)檢索詞的檢索概率之后,根據(jù)該多個(gè)組合詞中包括的漢字,對(duì)該多 個(gè)組合詞進(jìn)行路徑組合之前,該方法還包括:
[0083] 當(dāng)該多個(gè)組合詞中存在至少兩個(gè)相同的組合詞時(shí),將該至少兩個(gè)相同的組合詞合 并,合并后的組合詞的檢索概率為該至少兩個(gè)相同的組合詞的檢索概率之和。
[0084] 可選地,根據(jù)該多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率包括:
[0085] 獲取每條路徑中所有組合詞的檢索概率的平均值;
[0086] 將每條路徑中的所有組合詞的檢索概率的平均值獲取為每條路徑的檢索概率。
[0087] 上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再 --贅述。
[0088] 圖2是本發(fā)明實(shí)施例提供的一種中文分詞方法的流程圖。該發(fā)明實(shí)施例的執(zhí)行主 體為服務(wù)器,參見圖2,所述方法包括:
[0089] 201 :該服務(wù)器獲取預(yù)設(shè)時(shí)間間隔內(nèi)預(yù)設(shè)網(wǎng)站的多個(gè)檢索詞和該獲取到的多個(gè)檢 索詞的檢索概率;
[0090] 其中,該預(yù)設(shè)網(wǎng)站可以為具有搜索功能的任意一個(gè)或多個(gè)網(wǎng)站,如百度、谷歌等, 本發(fā)明實(shí)施例對(duì)此不做限定。該預(yù)設(shè)時(shí)間間隔可以由該服務(wù)器與該預(yù)設(shè)網(wǎng)站的服務(wù)器約 定,本發(fā)明實(shí)施例對(duì)此不做限定。
[0091] 具體地,在用戶進(jìn)行數(shù)據(jù)搜索的過程中,該預(yù)設(shè)網(wǎng)站的服務(wù)器獲取用戶輸入的檢 索詞,并根據(jù)用戶輸入的多個(gè)檢索詞,計(jì)算每個(gè)檢索詞的檢索概率。該預(yù)設(shè)網(wǎng)站的服務(wù)器按 照預(yù)設(shè)時(shí)間間隔,將該預(yù)設(shè)時(shí)間間隔內(nèi)獲取到的檢索詞和檢索詞的檢索概率發(fā)送給該服務(wù) 器,該服務(wù)器獲取該預(yù)設(shè)網(wǎng)站的服務(wù)器發(fā)送的該預(yù)設(shè)時(shí)間間隔內(nèi)的多個(gè)檢索詞和該獲取到 的多個(gè)檢索詞的檢索概率。或者,該預(yù)設(shè)網(wǎng)站的服務(wù)器在接收到該服務(wù)器發(fā)送的請(qǐng)求時(shí),將 該預(yù)設(shè)時(shí)間間隔內(nèi)獲取到的檢索詞和檢索詞的檢索概率發(fā)送給該服務(wù)器。
[0092] 在本發(fā)明實(shí)施例提供的另一實(shí)施例中,該步驟201包括:該服務(wù)器實(shí)時(shí)獲取該預(yù) 設(shè)網(wǎng)站的多個(gè)檢索詞和該獲取到的多個(gè)檢索詞的檢索概率。具體地,該預(yù)設(shè)網(wǎng)站的服務(wù)器 實(shí)時(shí)地獲取用戶輸入的檢索詞,實(shí)時(shí)地計(jì)算檢索詞的檢索概率,并將獲取到的檢索詞和檢 索概率發(fā)送給該服務(wù)器,使得該服務(wù)器實(shí)時(shí)地獲取該預(yù)設(shè)網(wǎng)站的多個(gè)檢索詞和該多個(gè)檢索 詞的檢索概率。
[0093] 在本發(fā)明實(shí)施例中,通過動(dòng)態(tài)地獲取該預(yù)設(shè)網(wǎng)站的檢索詞和檢索概率,可以快速 地糾正錯(cuò)誤的分詞方式,且當(dāng)該預(yù)設(shè)網(wǎng)站出現(xiàn)如"高富帥"、"給力"等網(wǎng)絡(luò)新詞時(shí),通過多次 獲取新詞,更新數(shù)據(jù)源,可以準(zhǔn)確地對(duì)關(guān)鍵詞中的新詞進(jìn)行識(shí)別,即提高了對(duì)新詞的識(shí)別能 力。
[0094] 202:該服務(wù)器對(duì)該獲取到的多個(gè)檢索詞按照單個(gè)漢字進(jìn)行切分,得到該多個(gè)檢索 詞的第二漢字集;
[0095] 具體地,該服務(wù)器對(duì)該獲取到的多個(gè)檢索詞按照單個(gè)漢字進(jìn)行切分,得到該多個(gè) 檢索詞的第二漢字集,并建立該第二漢字集與該第二漢字集中的漢字的對(duì)應(yīng)關(guān)系。
[0096] 例如,該服務(wù)器獲取到的檢索詞、檢索概率,以及將獲取到的檢索詞按照單個(gè)漢字 進(jìn)行切分得到的第二漢字集如表1所示。
[0097] 表 1
[0098]

【權(quán)利要求】
1. 一種中文分詞方法,其特征在于,所述方法包括: 接收分詞指令,所述分詞指令攜帶待切分的關(guān)鍵詞; 將所述關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字集,所述第一漢字集包括所述關(guān) 鍵詞的每個(gè)漢字; 根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息; 根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組合 詞,W及所述多個(gè)組合詞的檢索概率; 根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行路徑組合,得到多條路 徑; 根據(jù)所述多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率; 根據(jù)每條路徑的檢索概率,確定所述檢索概率最大的路徑; 根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分詞。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)對(duì)應(yīng)關(guān)系包括漢字和檢索信息 之間的對(duì)應(yīng)關(guān)系,所述檢索信息至少包括檢索詞、所述檢索詞的檢索概率和第二漢字集,所 述第二漢字集為所述檢索詞的漢字集。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢 字集中每個(gè)漢字對(duì)應(yīng)的檢索信息之前,所述方法還包括: 獲取預(yù)設(shè)時(shí)間間隔內(nèi)預(yù)設(shè)網(wǎng)站的多個(gè)檢索詞和所述獲取到的多個(gè)檢索詞的檢索概 率; 對(duì)所述獲取到的多個(gè)檢索詞按照單個(gè)漢字進(jìn)行切分,得到所述多個(gè)檢索詞的第二漢字 集; 對(duì)于切分得到的每個(gè)漢字,獲取包括所述漢字的多個(gè)檢索詞、所述多個(gè)檢索詞的檢索 概率W及所述多個(gè)檢索詞的第二漢字集; 根據(jù)切分得到的多個(gè)漢字和所述多個(gè)漢字對(duì)應(yīng)的檢索詞、檢索概率和第二漢字集,建 立所述預(yù)設(shè)對(duì)應(yīng)關(guān)系。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述第一漢字集和所述第一漢字集 中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組合詞,W及所述多個(gè)組合詞的檢索概率包括: 對(duì)于所述第一漢字集的每個(gè)漢字對(duì)應(yīng)的檢索詞,根據(jù)所述第一漢字集是否包括所述檢 索詞的第二漢字集中的漢字,獲取所述第二漢字集中漢字的組合字; 當(dāng)獲取到所述第二漢字集中的所有漢字的組合字時(shí),按照該檢索詞的漢字順序,將所 述所有漢字的組合字組成組合詞; 將所述檢索詞的檢索概率獲取為所述組合詞的檢索概率。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,對(duì)于所述第一漢字集的每個(gè)漢字對(duì)應(yīng)的 每個(gè)檢索詞,根據(jù)所述第一漢字集是否包括所述檢索詞的第二漢字集中的漢字,獲取所述 第二漢字集中漢字的組合字包括: 對(duì)于所述第一漢字集的每個(gè)漢字對(duì)應(yīng)的每個(gè)檢索詞,當(dāng)所述第一漢字集包括所述檢索 詞的第二漢字集中的漢字時(shí),將所述漢字獲取為所述漢字的組合字;或, 當(dāng)所述第一漢字集不包括所述漢字時(shí),將指定標(biāo)識(shí)獲取為所述漢字的組合字。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述檢索概率最大的路徑中包括的 組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分詞包括: 根據(jù)所述檢索概率最大的路徑中的組合詞所包括的組合字的位置,對(duì)所述關(guān)鍵詞進(jìn)行 切分,獲取所述關(guān)鍵詞的分詞結(jié)果。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述第一漢字集和所述第一漢字集 中每個(gè)漢字對(duì)應(yīng)的檢索信息,生成多個(gè)組合詞,并獲取所述多個(gè)檢索詞的檢索概率之后, 根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行路徑組合之前,所述方法還包 括: 當(dāng)所述多個(gè)組合詞中存在至少兩個(gè)相同的組合詞時(shí),將所述至少兩個(gè)相同的組合詞合 并,合并后的組合詞的檢索概率為所述至少兩個(gè)相同的組合詞的檢索概率之和。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述多個(gè)組合詞的檢索概率,獲取每 條路徑的檢索概率包括: 獲取每條路徑中所有組合詞的檢索概率的平均值; 將每條路徑中的所有組合詞的檢索概率的平均值獲取為每條路徑的檢索概率。
9. 一種中文分詞裝置,其特征在于,所述裝置包括: 指令接收模塊,用于接收分詞指令,所述分詞指令攜帶待切分的關(guān)鍵詞; 第一漢字集獲取模塊,用于將所述關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字集,所 述第一漢字集包括所述關(guān)鍵詞的每個(gè)漢字; 檢索信息獲取模塊,用于根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢字集中每個(gè)漢字對(duì) 應(yīng)的檢索信息; 組合詞獲取模塊,用于根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索 信息,獲取多個(gè)組合詞,W及所述多個(gè)組合詞的檢索概率; 路徑組合模塊,用于根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行路徑 組合,得到多條路徑; 概率獲取模塊,用于根據(jù)所述多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率; 最大概率確定模塊,用于根據(jù)每條路徑的檢索概率,確定所述檢索概率最大的路徑; 分詞模塊,用于根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分 詞。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述預(yù)設(shè)對(duì)應(yīng)關(guān)系包括漢字和檢索信息 之間的對(duì)應(yīng)關(guān)系,所述檢索信息至少包括檢索詞、所述檢索詞的檢索概率和第二漢字集,所 述第二漢字集為所述檢索詞的漢字集。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置包括: 檢索詞獲取模塊,用于獲取預(yù)設(shè)時(shí)間間隔內(nèi)預(yù)設(shè)網(wǎng)站的多個(gè)檢索詞和所述獲取到的多 個(gè)檢索詞的檢索概率; 第二漢字集獲取模塊,用于對(duì)所述獲取到的多個(gè)檢索詞按照單個(gè)漢字進(jìn)行切分,得到 所述多個(gè)檢索詞的第二漢字集; 漢字信息獲取模塊,用于對(duì)于切分得到的每個(gè)漢字,獲取包括所述漢字的多個(gè)檢索詞、 所述多個(gè)檢索詞的檢索概率W及所述多個(gè)檢索詞的第二漢字集; 關(guān)系建立模塊,用于根據(jù)切分得到的多個(gè)漢字和所述多個(gè)漢字對(duì)應(yīng)的檢索詞、檢索概 率和第二漢字集,建立所述預(yù)設(shè)對(duì)應(yīng)關(guān)系。
12. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述組合詞獲取模塊包括: 組合字獲取單元,用于對(duì)于所述第一漢字集的每個(gè)漢字對(duì)應(yīng)的檢索詞,根據(jù)所述第一 漢字集是否包括所述檢索詞的第二漢字集中的漢字,獲取所述第二漢字集中漢字的組合 字; 組合單元,用于當(dāng)獲取到所述第二漢字集中的所有漢字的組合字時(shí),按照該檢索詞的 漢字順序,將所述所有漢字的組合字組成組合詞; 概率獲取單元,用于將所述檢索詞的檢索概率獲取為所述組合詞的檢索概率。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述組合字獲取單元用于對(duì)于所述第 一漢字集的每個(gè)漢字對(duì)應(yīng)的每個(gè)檢索詞,當(dāng)所述第一漢字集包括所述檢索詞的第二漢字集 中的漢字時(shí),將所述漢字獲取為所述漢字的組合字;或,當(dāng)所述第一漢字集不包括所述漢字 時(shí),將指定標(biāo)識(shí)獲取為所述漢字的組合字。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分詞模塊用于根據(jù)所述檢索概率 最大的路徑中的組合詞所包括的組合字的位置,對(duì)所述關(guān)鍵詞進(jìn)行切分,獲取所述關(guān)鍵詞 的分詞結(jié)果。
15. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括: 合并模塊,用于當(dāng)所述多個(gè)組合詞中存在至少兩個(gè)相同的組合詞時(shí),將所述至少兩個(gè) 相同的組合詞合并,合并后的組合詞的檢索概率為所述至少兩個(gè)相同的組合詞的檢索概率 之和。
16. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述概率獲取模塊包括: 平均值獲取單元,用于獲取每條路徑中所有組合詞的檢索概率的平均值; 概率獲取單元,用于將每條路徑中的所有組合詞的檢索概率的平均值獲取為每條路徑 的檢索概率。
17. -種服務(wù)器,其特征在于,包括;接收器、發(fā)射器、存儲(chǔ)器和處理器,所述接收器、所 述發(fā)射器和所述存儲(chǔ)器分別與所述處理器連接,所述存儲(chǔ)器存儲(chǔ)有程序代碼,所述處理器 用于調(diào)用所述程序代碼,執(zhí)行W下操作: 接收分詞指令,所述分詞指令攜帶待切分的關(guān)鍵詞; 將所述關(guān)鍵詞按照單個(gè)漢字進(jìn)行切分,獲取第一漢字集,所述第一漢字集包括所述關(guān) 鍵詞的每個(gè)漢字; 根據(jù)預(yù)設(shè)對(duì)應(yīng)關(guān)系,依次獲取所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息; 根據(jù)所述第一漢字集和所述第一漢字集中每個(gè)漢字對(duì)應(yīng)的檢索信息,獲取多個(gè)組合 詞,W及所述多個(gè)組合詞的檢索概率; 根據(jù)所述多個(gè)組合詞中包括的漢字,對(duì)所述多個(gè)組合詞進(jìn)行路徑組合,得到多條路 徑; 根據(jù)所述多個(gè)組合詞的檢索概率,獲取每條路徑的檢索概率; 根據(jù)每條路徑的檢索概率,確定所述檢索概率最大的路徑; 根據(jù)所述檢索概率最大的路徑中包括的組合詞,對(duì)所述關(guān)鍵詞進(jìn)行分詞。
【文檔編號(hào)】G06F17/30GK104462105SQ201310422879
【公開日】2015年3月25日 申請(qǐng)日期:2013年9月16日 優(yōu)先權(quán)日:2013年9月16日
【發(fā)明者】馬超 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
河北区| 沧州市| 南汇区| 噶尔县| 玛纳斯县| 潢川县| 武冈市| 青岛市| 定西市| 得荣县| 满城县| 乌拉特后旗| 筠连县| 合山市| 宜宾市| 广东省| 绵竹市| 宁陵县| 高台县| 文昌市| 固镇县| 延安市| 玉山县| 子洲县| 凉城县| 漳浦县| 福海县| 葫芦岛市| 陆川县| 宁南县| 九江市| 集安市| 镇沅| 正蓝旗| 贺兰县| 卫辉市| 扬中市| 贵定县| 泾川县| 罗平县| 永州市|