欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種獲取英文詞的方法及裝置的制作方法

文檔序號:6436727閱讀:170來源:國知局
專利名稱:一種獲取英文詞的方法及裝置的制作方法
技術(shù)領域
本發(fā)明涉及計算機通信技術(shù),特別涉及一種獲取英文詞的方法及裝置。
背景技術(shù)
隨著計算機通信技術(shù)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)絡上傳輸?shù)男畔①Y源成指數(shù)增長,通過互聯(lián)網(wǎng)絡獲取相關信息越來越成為人們生活以及工作中不可或缺的一部分。但隨著傳輸?shù)男畔①Y源的指數(shù)增長,隨之也會相應的產(chǎn)生很多新詞以及網(wǎng)絡詞,其中也包括很多英文詞,因而,如何去獲取這些新出現(xiàn)的英文詞資源也就成為了亟待解決的問題?,F(xiàn)有技術(shù)中,對于英文詞的獲取,主要方法是利用大型的詞典資源,包括在線的詞典資源以及傳統(tǒng)的詞典資源,例如,在線的詞典資源可以是劍橋線上的英英詞典(Cambridge Dictionary)等,傳統(tǒng)的詞典資源可以是牛津大辭典等。由上述可見,現(xiàn)有通過大型詞典獲取英文詞的方法,較為簡單有效,但是,由于信息資源的增長十分迅速,英文詞以及網(wǎng)絡新詞層出不窮,而無論是在線的詞典資源還是傳統(tǒng)的詞典資源,其維護與更新需要一定的時間周期,因而,利用詞典的方法并不能做到很好的覆蓋新詞,對于一些新出現(xiàn)的英文詞以及網(wǎng)絡中文詞,通過上述詞典還無法獲取該類新詞,使得通過詞典獲取英文詞的效率不高;進一步地,對在線的詞典或傳統(tǒng)的詞典進行維護和更新,也需要首先獲取新出現(xiàn)的英文詞,而現(xiàn)有技術(shù)中,對于如何獲取新出現(xiàn)的英文詞還沒有較好的解決方法。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提出一種獲取英文詞的方法,提升獲取英文詞的效率。本發(fā)明的另一目的在于提出一種獲取英文詞的裝置,提升獲取英文詞的效率。為達到上述目的,本發(fā)明提供了一種獲取英文詞的方法,該方法包括:獲取搜索引擎查詢?nèi)罩静⑦M行分詞,獲取含有字母串的查詢詞;根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的特征值對應的含有字母串的查詢詞作為候選詞,統(tǒng)計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統(tǒng)計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。所述含有字母串的查詢詞包括:含有英文串的查詢詞以及含有拼音串的查詢詞。所述詞語特征解析方法包括:詞語的搜索次數(shù)統(tǒng)計方法以及詞語對應的網(wǎng)頁點擊次數(shù)統(tǒng)計方法。所述根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞包括:
統(tǒng)計獲取的各含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的搜索次數(shù);獲取搜索次數(shù)大于預先設置的搜索次數(shù)閾值對應的含有字母串的查詢詞,作為初步候選詞;根據(jù)初步候選詞,統(tǒng)計該初步候選詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的網(wǎng)頁點擊次數(shù);獲取網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的初步候選詞,作為候選詞輸出。所述在獲取網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的初步候選詞之后,作為候選詞輸出之前,進一步包括:將獲取的網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的初步候選詞作為中間候選詞;統(tǒng)計中間候選詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的混合查詢次數(shù);獲取混合查詢次數(shù)次數(shù)大于預先設置的混合查詢次數(shù)閾值對應的中間候選詞。所述提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞的步驟之后,獲取候選詞中字母串對應的中文詞的步驟之前,進一步包括:根據(jù)拼音構(gòu)成規(guī)則對候選詞進行識別;如果候選詞不符合拼音構(gòu)成規(guī)則,直接將其作為英文詞;如果候選詞符合拼音構(gòu)成規(guī)則,執(zhí)行獲取候選詞中字母串對應的中文詞的步驟。一種獲取英文詞的裝置,該裝置包括:查詢詞選取模塊、詞語特征匹配模塊以及英文詞特征匹配模塊,其中,查詢詞選取模塊,用于根據(jù)獲取的搜索引擎查詢?nèi)罩?,進行分詞,獲取含有字母串的查詢詞;詞語特征匹配模塊,用于根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統(tǒng)計該候選詞的詞語特征值;英文詞特征匹配模塊,用于獲取候選詞中字母串對應的中文詞,統(tǒng)計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。進一步包括:拼音串過濾模塊,用于根據(jù)拼音構(gòu)成規(guī)則對詞語特征匹配模塊輸出的候選詞進行識別,如果候選詞不符合拼音構(gòu)成規(guī)則,直接將其作為英文詞;如果候選詞符合拼音構(gòu)成規(guī)貝U,將該候選詞輸出至英文詞特征匹配模塊。所述詞語特征匹配模塊包括搜索次數(shù)統(tǒng)計單元、搜索次數(shù)判斷單元、網(wǎng)頁點擊次數(shù)統(tǒng)計單元、網(wǎng)頁點擊次數(shù)判斷單元以及候選詞單元,其中,搜索次數(shù)統(tǒng)計單元,用于統(tǒng)計查詢詞選取模塊獲取的各含有字母串的查詢詞在搜索弓I擎查詢?nèi)罩局谐霈F(xiàn)的搜索次數(shù);搜索次數(shù)判斷單元,用于將搜索次數(shù)大于預先設置的搜索次數(shù)閾值對應的含有字母串的查詢詞輸出至網(wǎng)頁點擊次數(shù)統(tǒng)計單元;網(wǎng)頁點擊次數(shù)統(tǒng)計單元,用于根據(jù)接收的含有字母串的查詢詞,統(tǒng)計該含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的網(wǎng)頁點擊次數(shù);網(wǎng)頁點擊次數(shù)判斷單元,用于將網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞單元進行存儲。所述詞語特征匹配模塊進一步包括:混合查詢次數(shù)統(tǒng)計單元以及混合查詢次數(shù)判斷單元,其中,混合查詢次數(shù)統(tǒng)計單元,用于根據(jù)網(wǎng)頁點擊次數(shù)判斷單元輸出的含有字母串的查詢詞,統(tǒng)計該含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的混合查詢次數(shù);混合查詢次數(shù)判斷單元,用于將混合查詢次數(shù)次數(shù)大于預先設置的混合查詢次數(shù)閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞存儲單元進行存儲。由上述的技術(shù)方案可見,本發(fā)明實施例提供的一種獲取英文詞的方法及裝置,獲取搜索引擎查詢?nèi)罩静⑦M行分詞,獲取含有字母串的查詢詞;根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統(tǒng)計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統(tǒng)計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。這樣,基于較為全面地覆蓋互聯(lián)網(wǎng)絡中出現(xiàn)新詞的搜索引擎查詢?nèi)罩?,進行分詞處理,獲取含有字母串的查詢詞,基于詞語特征解析方法對其正確性進行認證,并基于字母串對應的中文詞的詞語特征值,將含有字母串的查詢詞中的含有英文串的查詢詞以及含有拼音串的查詢詞進行區(qū)分,從而可以獲取最新的英文詞資源,提升了獲取英文詞的效率。


圖1為本發(fā)明實施例獲取英文詞的裝置結(jié)構(gòu)示意圖。圖2為本發(fā)明實施例獲取英文詞的方法流程示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖及具體實施例對本發(fā)明作進一步地詳細描述?,F(xiàn)有通過大型詞典獲取英文詞的方法,由于不能實時對詞典進行更新,因而,對于信息資源中一些新出現(xiàn)的英文詞,未能收錄在詞典中,存在滯后效應。本發(fā)明實施例中,考慮到互聯(lián)網(wǎng)絡中搜索引擎所具有的強大搜索能力,在用戶輸入搜索關鍵詞,使用搜索引擎進行搜索查詢時,搜索引擎將記錄用戶的查詢行為,包括輸入的搜索關鍵詞以及進行搜索查詢的得到的搜索查詢結(jié)果,生成搜索引擎查詢?nèi)罩静⒋鎯?,因而,基于搜索引擎查詢?nèi)罩?,從搜索引擎查詢?nèi)罩局蝎@取英文詞資源,由于用戶輸入的搜索關鍵詞一般與最近的熱點相關,因而,搜索引擎查詢?nèi)罩究梢暂^為全面地覆蓋互聯(lián)網(wǎng)絡中新出現(xiàn)的新詞,例如,英文詞,從而提升獲取英文詞的效率。圖1為本發(fā)明實施例獲取英文詞的裝置結(jié)構(gòu)示意圖。參見圖1,該裝置包括:查詢詞選取模塊、詞語特征匹配模塊以及英文詞特征匹配模塊,其中,查詢詞選取模塊,用于根據(jù)獲取的搜索引擎查詢?nèi)罩?,進行分詞,獲取含有字母串的查詢詞;
本發(fā)明實施例中,獲取搜索引擎查詢?nèi)罩?,對獲取的搜索引擎查詢?nèi)罩緝?nèi)容進行切詞以及分詞處理,形成各查詢詞,再從各查詢詞中獲取含有字母串的查詢詞。實際應用中,由于拼音串也以字母的形式存在,因此,含有字母串的查詢詞包括含有英文串的查詢詞以及含有拼音串的查詢詞。含有英文串的查詢詞包括:英文查詢詞以及中英混合查詢詞,表I為搜索引擎查詢?nèi)罩局邪⑽拇牟樵冊~或者拼音串的查詢詞的一些示例。表權(quán)利要求
1.一種獲取英文詞的方法,其特征在于,該方法包括: 獲取搜索引擎查詢?nèi)罩静⑦M行分詞,獲取含有字母串的查詢詞; 根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統(tǒng)計該候選詞的詞語特征值; 獲取候選詞中字母串對應的中文詞,統(tǒng)計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。
2.按權(quán)利要求1所述的方法,其特征在于,所述含有字母串的查詢詞包括:含有英文串的查詢詞以及含有拼音串的查詢詞。
3.按權(quán)利要求2所述的方法,其特征在于,所述詞語特征解析方法包括:詞語的搜索次數(shù)統(tǒng)計方法以及詞語對應的網(wǎng)頁點擊次數(shù)統(tǒng)計方法。
4.按權(quán)利要求3所述的方法,其特征在于,所述根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,包括: 統(tǒng)計獲取的各含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的搜索次數(shù); 獲取搜索次數(shù)大于預先設置的搜索次數(shù)閾值對應的含有字母串的查詢詞,作為初步候選詞; 根據(jù)初步候選詞,統(tǒng)計該初步候選詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的網(wǎng)頁點擊次數(shù); 獲取網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的初步候選詞,作為候選詞輸出。
5.按權(quán)利要求4所述的方法,其特征在于,所述在獲取網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的初步候選詞之后,作為候選詞輸出之前,進一步包括: 將獲取的網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的初步候選詞作為中間候選詞; 統(tǒng)計中間候選詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的混合查詢次數(shù); 獲取混合查詢次數(shù)大于預先設置的混合查詢次數(shù)閾值對應的中間候選詞。
6.按權(quán)利要求1至5任一項所述的方法,其特征在于,所述提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞的步驟之后,獲取候選詞中字母串對應的中文詞的步驟之前,進一步包括: 根據(jù)拼音構(gòu)成規(guī)則對候選詞進行識別; 如果候選詞不符合拼音構(gòu)成規(guī)則,直接將其作為英文詞; 如果候選詞符合拼音構(gòu)成規(guī)則,執(zhí)行獲取候選詞中字母串對應的中文詞的步驟。
7.一種獲取英文詞的裝置,其特征在于,該裝置包括:查詢詞選取模塊、詞語特征匹配模塊以及英文詞特征匹配模塊,其中, 查詢詞選取模塊,用于根據(jù)獲取的搜索引擎查詢?nèi)罩?,進行分詞,獲取含有字母串的查詢詞; 詞語特征匹配模塊,用于根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統(tǒng)計該候選詞的詞語特征值; 英文詞特征匹配模塊,用于獲取候選詞中字母串對應的中文詞,統(tǒng)計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。
8.按權(quán)利要求7所述的裝置,其特征在于,進一步包括: 拼音串過濾模塊,用于根據(jù)拼音構(gòu)成規(guī)則對詞語特征匹配模塊輸出的候選詞進行識另O,如果候選詞不符合拼音構(gòu)成規(guī)則,直接將其作為英文詞;如果候選詞符合拼音構(gòu)成規(guī)貝U,將該候選詞輸出至英文詞特征匹配模塊。
9.按權(quán)利要求7或8所述的裝置,其特征在于,所述詞語特征匹配模塊包括搜索次數(shù)統(tǒng)計單元、搜索次數(shù)判斷單元、網(wǎng)頁點擊次數(shù)統(tǒng)計單元、網(wǎng)頁點擊次數(shù)判斷單元以及候選詞存儲單元,其中, 搜索次數(shù)統(tǒng)計單元,用于統(tǒng)計查詢詞選取模塊獲取的各含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的搜索次數(shù); 搜索次數(shù)判斷單元,用于將搜索次數(shù)大于預先設置的搜索次數(shù)閾值對應的含有字母串的查詢詞輸出至網(wǎng)頁點擊次數(shù)統(tǒng)計單元; 網(wǎng)頁點擊次數(shù)統(tǒng)計單元,用于根據(jù)接收的含有字母串的查詢詞,統(tǒng)計該含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的網(wǎng)頁點擊次數(shù); 網(wǎng)頁點擊次數(shù)判斷單元,用于將網(wǎng)頁點擊次數(shù)大于預先設置的網(wǎng)頁點擊次數(shù)閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞存儲單元進行存儲。
10.按權(quán)利要求9所述的裝置,其特征在于,所述詞語特征匹配模塊進一步包括: 混合查詢次數(shù)統(tǒng)計單元以及混合查詢次數(shù)判斷單元,其中, 混合查詢次數(shù)統(tǒng)計單元,用于根據(jù)網(wǎng)頁點擊次數(shù)判斷單元輸出的含有字母串的查詢詞,統(tǒng)計該含有字母串的查詢詞在搜索引擎查詢?nèi)罩局谐霈F(xiàn)的混合查詢次數(shù); 混合查詢次數(shù)判斷單元,用于將混合查詢次數(shù)大于預先設置的混合查詢次數(shù)閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞存儲單元進行存儲。
全文摘要
本發(fā)明公開了一種獲取英文詞的方法及裝置。該方法包括獲取搜索引擎查詢?nèi)罩静⑦M行分詞,獲取含有字母串的查詢詞;根據(jù)預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統(tǒng)計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統(tǒng)計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。應用本發(fā)明,可以提升獲取英文詞的效率。
文檔編號G06F17/30GK103092838SQ20111033367
公開日2013年5月8日 申請日期2011年10月28日 優(yōu)先權(quán)日2011年10月28日
發(fā)明者李超, 宋國龍, 賈自艷 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
中卫市| 来凤县| 北辰区| 涡阳县| 冕宁县| 红原县| 遵义市| 大同市| 闸北区| 监利县| 获嘉县| 福清市| 福安市| 诏安县| 格尔木市| 丰都县| 依安县| 武定县| 阳曲县| 蓬莱市| 毕节市| 九龙城区| 苏尼特右旗| 简阳市| 遵义县| 合肥市| 汪清县| 江达县| 崇礼县| 景泰县| 永仁县| 禹州市| 观塘区| 龙江县| 宁安市| 襄汾县| 宣化县| 肇庆市| 抚远县| 浦县| 肥东县|