欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

短文本數(shù)據(jù)聚合系統(tǒng)及方法與流程

文檔序號:11677598閱讀:178來源:國知局
本發(fā)明涉及數(shù)據(jù)融合
技術領域
,更具體地說,涉及一種短文本數(shù)據(jù)聚合系統(tǒng)及方法。
背景技術
:目前,社交媒體、移動互聯(lián)網(wǎng)、大數(shù)據(jù)分析、云計算、物聯(lián)網(wǎng)這些行業(yè)不是孤立發(fā)展的,而是在相互融合,進而實現(xiàn)高速協(xié)同發(fā)展。作為智能決策的支持手段,大數(shù)據(jù)在金融機構、企業(yè)、事業(yè)、政府、社會管理和發(fā)展領域內的應用是研發(fā)人員努力的方向。傳統(tǒng)的統(tǒng)計分析經(jīng)常是對單一數(shù)據(jù)源(營銷數(shù)據(jù)、行政報表、問卷調查、人口普查等)進行深入的追蹤和分析,分析人員對數(shù)據(jù)的來源和結構有一定的控制和深層的了解。而在大數(shù)據(jù)時代,數(shù)據(jù)源是多樣的、自然形成的、海量的數(shù)據(jù)常常是半結構或無結構的。這就要求數(shù)據(jù)科學家和分析師駕馭多樣、多源的數(shù)據(jù),將它們梳理后進行挖掘和分析。將來源不同的數(shù)據(jù)進行歸類、分析,其中涉及兩個技術瓶頸。一、各類數(shù)據(jù)來源不同、結構不同,在數(shù)據(jù)聚類融合之前,需要提取其中共同的字段;二、數(shù)據(jù)聚類融合技術的準確率制約著該技術的應用廣度和深度。現(xiàn)有技術中,就短文本數(shù)據(jù)之間的聚類融合而言,存在許多應用技術,但其中,往往以短文本中關鍵詞出現(xiàn)的詞頻作為數(shù)據(jù)聚合的首要依據(jù),這容易造成決策的片面性,進而嚴重影響數(shù)據(jù)聚合的準確率。此外,在需要處理海量數(shù)據(jù)的場合,數(shù)據(jù)聚合的執(zhí)行效率是本領域技術人員格外重視的技術問題。技術實現(xiàn)要素:本發(fā)明的目的在于提供一種聚合準確率高、執(zhí)行效率高的短文本數(shù)據(jù)聚合系統(tǒng)。為實現(xiàn)上述目的,本發(fā)明提供一種技術方案如下:一種短文本數(shù)據(jù)聚合系統(tǒng),包括:數(shù)據(jù)獲取模塊,其包括內部數(shù)據(jù)加載單元和外部數(shù)據(jù)獲取單元,內部數(shù)據(jù)加載單元從系統(tǒng)的數(shù)據(jù)存儲模塊獲取短文本數(shù)據(jù)的第一集合,外部數(shù)據(jù)獲取單元從系統(tǒng)的外部獲取待聚合短文本數(shù)據(jù);數(shù)據(jù)抽取模塊,與數(shù)據(jù)獲取模塊耦合,其包括字段抽取單元,字段抽取單元從第一集合中分別抽取各短文本數(shù)據(jù)的參與聚合的字段,以形成第一字段屬性數(shù)據(jù)的第二集合,并從待聚合短文本數(shù)據(jù)中抽取參與聚合的字段,以形成第二字段屬性數(shù)據(jù);以及數(shù)據(jù)聚合模塊,與數(shù)據(jù)抽取模塊耦合,其包括候選數(shù)據(jù)查詢單元、相似度計算單元以及短文本數(shù)據(jù)聚合單元;其中,候選數(shù)據(jù)查詢單元從第二集合中查詢與第二字段屬性數(shù)據(jù)相關的若干個第一字段屬性數(shù)據(jù),以形成第一字段屬性數(shù)據(jù)的第三集合,相似度計算單元計算第三集合中的每一第一字段屬性數(shù)據(jù)與第二字段屬性數(shù)據(jù)之間的相似度,短文本數(shù)據(jù)聚合單元將第三集合中、與第二字段屬性數(shù)據(jù)相似度最高的第一字段屬性數(shù)據(jù)所對應的短文本數(shù)據(jù)與待聚合文本數(shù)據(jù)進行數(shù)據(jù)聚合。優(yōu)選地,數(shù)據(jù)聚合模塊還包括倒排表構造單元,倒排表構造單元對第二字段屬性數(shù)據(jù)構造倒排表,候選數(shù)據(jù)查詢單元根據(jù)倒排表來從第二集合中查詢相關的若干個第一字段屬性數(shù)據(jù)。優(yōu)選地,數(shù)據(jù)抽取模塊還包括數(shù)據(jù)過濾單元,數(shù)據(jù)過濾單元從第二集合中濾除與第二字段屬性數(shù)據(jù)無法匹配的第一字段屬性數(shù)據(jù)。優(yōu)選地,候選數(shù)據(jù)查詢單元計算第二集合中各第一字段屬性數(shù)據(jù)與第二字段屬性數(shù)據(jù)之間的相關度,并以相關度大于相關度閾值的第一字段屬性數(shù)據(jù)形成第三集合。優(yōu)選地,相關度以第一字段屬性數(shù)據(jù)的分詞序列與第二字段屬性數(shù)據(jù)的分詞序列之間相同的分詞詞語的個數(shù)為計算因子。優(yōu)選地,該系統(tǒng)還包括序列化單元、反序列化單元,序列化單元用于將內存數(shù)據(jù)序列化以供存儲于磁盤上,反序列化單元用于將磁盤文件轉換為內存數(shù)據(jù)。本發(fā)明還公開一種短文本數(shù)據(jù)聚合方法,其包括如下步驟:a)、從數(shù)據(jù)存儲模塊獲取短文本數(shù)據(jù)的第一集合,從外部獲取待聚合短文本數(shù)據(jù);b)、從第一集合中分別抽取各短文本數(shù)據(jù)的參與聚合的字段,以形成第一字段屬性數(shù)據(jù)的第二集合,并從待聚合短文本數(shù)據(jù)中抽取參與聚合的字段,以形成第二字段屬性數(shù)據(jù);c)、從第二集合中查詢與第二字段屬性數(shù)據(jù)之間的相關度滿足相關度閾值的若干個第一字段屬性數(shù)據(jù),以形成第一字段屬性數(shù)據(jù)的第三集合;d)、計算第三集合中的每一第一字段屬性數(shù)據(jù)與第二字段屬性數(shù)據(jù)之間的相似度;e)、將第三集合中、與第二字段屬性數(shù)據(jù)相似度最高的第一字段屬性數(shù)據(jù)所對應的短文本數(shù)據(jù)與待聚合文本數(shù)據(jù)進行數(shù)據(jù)聚合。本發(fā)明提供的短文本數(shù)據(jù)聚合系統(tǒng)及方法,實現(xiàn)了一種匹配準確率高、系統(tǒng)執(zhí)行效率高的數(shù)據(jù)聚合過程。通過多批次的過濾或匹配,在對海量外部數(shù)據(jù)進行處理時,其耗時顯著縮短。該系統(tǒng)邏輯簡單、配置方便、實施成本低,便于在行業(yè)內推廣應用。附圖說明圖1示出本發(fā)明一實施例的短文本數(shù)據(jù)聚合系統(tǒng)的模塊結構示意圖。具體實施方式如圖1所示,本發(fā)明一實施例提供一種短文本數(shù)據(jù)聚合系統(tǒng),其包括數(shù)據(jù)獲取模塊10、數(shù)據(jù)抽取模塊20、數(shù)據(jù)聚合模塊30以及數(shù)據(jù)存儲模塊40。其中,數(shù)據(jù)獲取模塊10包括內部數(shù)據(jù)加載單元101和外部數(shù)據(jù)獲取單元102,內部數(shù)據(jù)加載單元101從數(shù)據(jù)存儲模塊40獲取短文本數(shù)據(jù)的第一集合,外部數(shù)據(jù)獲取單元102從系統(tǒng)的外部獲取輸入,即,待聚合短文本數(shù)據(jù)或待聚合短文本數(shù)據(jù)的集合??紤]到數(shù)據(jù)存儲模塊40中儲存的短文本數(shù)據(jù)可能相當大,該系統(tǒng)還可包括序列化單元、反序列化單元(附圖未示出),序列化單元用于將內存數(shù)據(jù)序列化以供存儲于磁盤上,而反序列化單元則用于將磁盤文件轉換為內存數(shù)據(jù)。數(shù)據(jù)抽取模塊20與數(shù)據(jù)獲取模塊10相耦合,數(shù)據(jù)抽取模塊20至少包括字段抽取單元201,字段抽取單元201從第一集合中分別抽取各短文本數(shù)據(jù)的參與聚合的字段,以形成第一字段屬性數(shù)據(jù)的第二集合;并從待聚合短文本數(shù)據(jù)中抽取參與聚合的字段,以形成第二字段屬性數(shù)據(jù)。其中,字段抽取單元201可包括一字段配置表,供用戶對參與聚合的字段進行配置或定義。用戶配置完成后,字段抽取單元201直接加載該字段配置表,并依照其進行字段抽取動作。進一步地,數(shù)據(jù)抽取模塊20還可以包括數(shù)據(jù)過濾單元(附圖未示出),數(shù)據(jù)過濾單元從第二集合中濾除與第二字段屬性數(shù)據(jù)明顯無法匹配的第一字段屬性數(shù)據(jù)。作為示例,若第二集合中存在一數(shù)據(jù)元素(第一字段屬性數(shù)據(jù)),其各字段與待聚合短文本數(shù)據(jù)的各字段沒有任何交集,則可從第二集合中濾除該數(shù)據(jù)元素。數(shù)據(jù)聚合模塊30與數(shù)據(jù)抽取模塊耦合20相耦合,數(shù)據(jù)聚合模塊30包括候選數(shù)據(jù)查詢單元301、相似度計算單元302以及短文本數(shù)據(jù)聚合單元303,其中,候選數(shù)據(jù)查詢單元301耦合至相似度計算單元302,相似度計算單元302耦合至短文本數(shù)據(jù)聚合單元303。具體地,候選數(shù)據(jù)查詢單元301從第二集合中查詢與第二字段屬性數(shù)據(jù)相關的若干個第一字段屬性數(shù)據(jù),以形成第一字段屬性數(shù)據(jù)的第三集合,相似度計算單元302計算第三集合中的每一第一字段屬性數(shù)據(jù)與第二字段屬性數(shù)據(jù)之間的相似度,短文本數(shù)據(jù)聚合單元303將第三集合中相似度最高的第一字段屬性數(shù)據(jù)所對應的短文本數(shù)據(jù)與待聚合文本數(shù)據(jù)進行數(shù)據(jù)聚合,并以聚合的結果形成系統(tǒng)的輸出。其中,候選數(shù)據(jù)查詢單元301計算第二集合中各第一字段屬性數(shù)據(jù)與第二字段屬性數(shù)據(jù)之間的相關度,并以相關度大于相關度閾值的第一字段屬性數(shù)據(jù)形成第三集合。其中,相似度計算單元302可采用如下算法其中一項或多項的組合來計算相似度:jaro-winkler相似度算法;levenshetin相似度算法;最長公共子串算法;短語相似度算法;以及余弦相似度算法。作為優(yōu)選實施方式,數(shù)據(jù)聚合模塊30還包括倒排表構造單元(附圖未示出),倒排表構造單元對第二字段屬性數(shù)據(jù)構造倒排表,候選數(shù)據(jù)查詢單元301將根據(jù)倒排表來從第二集合中查詢相關的若干個第一字段屬性數(shù)據(jù)。具體地,對外部數(shù)據(jù),即,待聚合短文本數(shù)據(jù)進行倒排訓練,在產生的倒排表的基礎上,在系統(tǒng)存儲的內部數(shù)據(jù)范圍內(即,第一字段屬性數(shù)據(jù)的第二集合)查詢與第二字段屬性數(shù)據(jù)相關的第一字段屬性數(shù)據(jù),以產生第一字段屬性數(shù)據(jù)的第三集合。第三集合中的數(shù)據(jù)元素經(jīng)歷了內部數(shù)據(jù)同外部數(shù)據(jù)的一一映射,這相比于直接將第二集合中的每一數(shù)據(jù)元素同第二字段屬性數(shù)據(jù)進行相似度計算,第三集合在規(guī)模上要遠遠小于第二集合,利用內外部數(shù)據(jù)之間的某些相關性,可以避免計算那些完全無關聯(lián)的數(shù)據(jù),從而大大降低了運算量,提升了計算效率。關于候選數(shù)據(jù)查詢單元301進行的相關度計算,作為示例,以下說明一種相關度計算方法:對每一對數(shù)據(jù),即,待聚合短文本數(shù)據(jù)和第一集合中的任一短文本數(shù)據(jù),分別經(jīng)字段抽取單元201抽取出參與聚合的字段后,形成第二字段屬性數(shù)據(jù)和第二集合中的一個數(shù)據(jù)元素(第一字段屬性數(shù)據(jù)),對第二字段屬性數(shù)據(jù)構造倒排表,然后統(tǒng)計該倒排表中與該數(shù)據(jù)元素相同的分詞詞語的個數(shù)count,按照如下公式計算相關度:其中,len(termsa)表示第一字段屬性數(shù)據(jù)的分詞序列a的長度,len(termsb)表示第二字段屬性數(shù)據(jù)的分詞序列b的長度。接著,對相關度按照從大到小降序排序,再選取,例如,topn(相關度最高的n個)第二集合中的數(shù)據(jù)元素(第一字段屬性數(shù)據(jù))形成第三集合,以供相似度計算單元302進行后續(xù)處理選。選取topn而不是處理整個第二集合,這主要是從實際執(zhí)行效率與準確度平衡的角度進行考慮的。從相關度的定義來看,其保證了內部數(shù)據(jù)與外部數(shù)據(jù)相似點(相同的分詞詞語)越多,則相關度也就相應越高,而且,將第二集合縮小到第三集合卻把正確(最適合與待聚合短文本數(shù)據(jù)進行數(shù)據(jù)聚合)的數(shù)據(jù)元素排除掉的可能性是十分低的。上述實施例提供的短文本數(shù)據(jù)聚合系統(tǒng),通過進行數(shù)據(jù)抽取、過濾、相關度計算以及相似度計算,整個數(shù)據(jù)聚合過程匹配準確率高,系統(tǒng)執(zhí)行效率高。該系統(tǒng)邏輯簡單、配置方便。優(yōu)選情況下,可按照云計算系統(tǒng)來部署該系統(tǒng),便于系統(tǒng)的升級、維護、在行業(yè)內的推廣應用。本發(fā)明又一實施例提供一種短文本數(shù)據(jù)聚合方法,其包括如下步驟:步驟s10、從數(shù)據(jù)存儲模塊獲取短文本數(shù)據(jù)的第一集合,從外部獲取待聚合短文本數(shù)據(jù)。步驟s20、從第一集合中分別抽取各短文本數(shù)據(jù)的參與聚合的字段,以形成第一字段屬性數(shù)據(jù)的第二集合,并從待聚合短文本數(shù)據(jù)中抽取參與聚合的字段,以形成第二字段屬性數(shù)據(jù)。步驟s30、從第二集合中查詢與第二字段屬性數(shù)據(jù)之間的相關度滿足相關度閾值的若干個第一字段屬性數(shù)據(jù),以形成第一字段屬性數(shù)據(jù)的第三集合。具體地,相關度閾值可以靜態(tài)設置,也可以根據(jù)相關度的計算結果來動態(tài)設置。相關度的計算公式為:其中,len(termsa)表示第一字段屬性數(shù)據(jù)的分詞序列a的長度,len(termsb)表示第二字段屬性數(shù)據(jù)的分詞序列b的長度,count為第一字段屬性數(shù)據(jù)的分詞序列a與第二字段屬性數(shù)據(jù)的分詞序列b之間相同的分詞詞語的個數(shù)。步驟s40、計算第三集合中的每一第一字段屬性數(shù)據(jù)與第二字段屬性數(shù)據(jù)之間的相似度。具體地,可采用如下算法其中一項或多項的組合來計算相似度:jaro-winkler相似度算法;levenshetin相似度算法;最長公共子串算法;短語相似度算法;以及余弦相似度算法。步驟s50、將第三集合中、與第二字段屬性數(shù)據(jù)相似度最高的第一字段屬性數(shù)據(jù)所對應的短文本數(shù)據(jù)與待聚合文本數(shù)據(jù)進行數(shù)據(jù)聚合。作為本發(fā)明上述實施例的一種具體應用,以下給出針對商戶數(shù)據(jù)的聚合示例。外部商戶數(shù)據(jù)來自于各外部互聯(lián)網(wǎng)平臺,比如大眾點評網(wǎng)、攜程網(wǎng)、藝龍網(wǎng)等網(wǎng)站。這些第三方的公共數(shù)據(jù)平臺一方面能夠包含社會上許多商戶的公開信息,具備多樣的數(shù)據(jù)來源;另一方面,許多第三方公共數(shù)據(jù)平臺是可交互的,用戶可以根據(jù)自己的喜好對各個商戶進行評價打分,這樣就形成了潛在的、對商戶信用等級的社會化評價,有助于對商戶的實際價值做出適當?shù)脑u估。在該具體應用的第一階段,利用網(wǎng)絡爬蟲從上述三個網(wǎng)站獲取部分商戶信息,以大眾點評網(wǎng)為例,爬取字段如下表所示:字段信息樣例商戶id2209663城市上海行政區(qū)浦東新區(qū)店銷名稱王品臺塑牛排店鋪別名na分店信息華潤時低店分店數(shù)目5所屬分類{西餐-牛排}所屬商貿八佰伴地址浦東新區(qū)張楊路500號華潤時代廣場7樓(近浦東南路)營業(yè)時間{11.5-14,17.5-21}人均消費323元總體評分4.5重要標簽{情侶約會:1418,可以刷卡:543,朋友聚餐:534,商務宴請:484}評分詳情{531,699,187,22,6}默認點評2815簽到短評698全部點評3224團購點評4口味評分(細分a)8.3環(huán)境評分(細分b)8.8服務評分(細分c)9.1收藏數(shù)1895瀏覽數(shù)643919最近一周瀏覽2328還瀏覽過百萬莊園(廣安門店),萬樓福風味菜館,饞人小館,新疆兵團食府…地理信息116.37707,39.89292時間戳2014-3-1415:43交通信息riek_mam:停車在胡同里,比較費勁(13-08-14),芳菲四季:免費停車.從外部獲取的商戶數(shù)據(jù)包含了大量的字段,這些字段有些是離散信息,對商戶的特征進行了文字描述,而有些字段則是連續(xù)信息,對商戶的價值進行了數(shù)值描述。顯然,這些字段并不是所有都需要應用到聚合過程中的,不僅某些字段對數(shù)據(jù)聚合過程沒有起到任何作用,而且還會增加聚合過程的數(shù)據(jù)吞吐量和處理量,進而導致系統(tǒng)的執(zhí)行效率下降。作為聚合的另一方,內部商戶數(shù)據(jù)的獲取相對容易。然而內部數(shù)據(jù)由于涉及到商戶個體的具體信息,直接操作容易導致錯誤發(fā)生。因此對于內部商戶數(shù)據(jù)采用導出再處理的做法,這樣既可以隔離原數(shù)據(jù),又可以將內部商戶數(shù)據(jù)按照外部商戶數(shù)據(jù)的格式進行組織。在該具體應用的第二階段,參與聚合的字段主要例如包括:在字段抽取單元201抽取外部商戶數(shù)據(jù)時,即可根據(jù)上表中的各字段來抽取,形成第二字段屬性數(shù)據(jù)。在字段抽取單元201抽取內部商戶數(shù)據(jù)時,抽取的數(shù)據(jù)字段至少包括如下三個字段:字段說明商戶id唯一標識內部商戶個體的id.方便后續(xù)時行回溯:商戶名稱聚合的核心字段:商戶mcc商戶的類型:以上2個表僅示出若干字段,但是可以理解,根據(jù)需要,對于內部商戶數(shù)據(jù)和外部商戶數(shù)據(jù),都可以配置按照字段配置表來抽取任何數(shù)量、任何類別的字段。在分別抽取內外部商戶數(shù)據(jù)形成第一字段屬性數(shù)據(jù)的第二集合(對應于內部商戶數(shù)據(jù))及第二字段屬性數(shù)據(jù)(對應于外部商戶數(shù)據(jù))之后,這些數(shù)據(jù)是否適合聚合還需要進行進一步驗證。由于大眾點評網(wǎng)、攜程和藝龍是第三方公共數(shù)據(jù)平臺,其關注的商戶數(shù)據(jù)是存在一定的傾向性的,例如攜程主要關注的是酒店信息。所以內部商戶數(shù)據(jù)不一定全部都能夠實現(xiàn)聚合,只有通過增加不同的數(shù)據(jù)源,才能保證內部商戶數(shù)據(jù)盡可能多地與外部商戶數(shù)據(jù)進行聚合。由于大量內部商戶數(shù)據(jù)需要參與相關度、相似度計算,對第二集合盡可能地進行過濾以提高系統(tǒng)執(zhí)行效率是有益的。主要過濾的目標例如包括:過慮目標過濾規(guī)則atm內部名稱中包含“atm”,“取款機”這類字符串時,這類商戶需被剔除;pos機內部名稱中包含“pos”這類字符串時,這類商戶需被剔除;個體戶內部名稱中包含“個體戶”,“個體”這類字符串時,這類商戶需被剔除:特殊類(mcc)若內部商戶的mcc是“特殊類”的時候也需要濾掉;名稱長度若內部商戶名稱太短,信息量不足也是不能參加聚合的從上述過濾的目標來看,過濾的內容包含了兩種模式:一、類別模式。通過對內部商戶數(shù)據(jù)的mcc檢查后發(fā)現(xiàn),“特殊類”是一個比較特殊的mcc,里面包含了很多清算內容,而非真正的商戶信息,不適宜加入到聚合過程中,需要剔除掉這類商戶;二、包含模式。通過商戶名稱中所包含的某些關鍵字來剔除掉某些商戶或者通過名稱長度來過濾掉信息量太少的商戶。因此這類過濾所采用的配置文件需要包含兩個部分:在包含模式中可以增加相關關鍵字,這樣只要商戶名稱中包含了這些關鍵字就會被過濾掉;在類別模式中則指定mcc,只要是該mcc的商戶都會被濾除。在通過字段提取和異常數(shù)據(jù)篩選之后,我們就可以得到符合聚合條件的內部及外部商戶數(shù)據(jù)。此時這些數(shù)據(jù)需要在hdfs平臺上進行存儲,作為聚合的實際操作數(shù)據(jù)使用;而過濾掉的數(shù)據(jù)雖然被從源數(shù)據(jù)中去除,但是不應當丟棄而是將這些數(shù)據(jù)進行適當?shù)拇鎯?,以供后續(xù)的分析和評估。在該具體應用的第三階段,候選數(shù)據(jù)查詢單元301對每一對商戶數(shù)據(jù)(具體地,為一特定的第二字段屬性數(shù)據(jù)和第二集合中的任一第一字段屬性數(shù)據(jù)),按照如上所述的相關度計算公式,來計算相關度。隨后,按相關度降序排列,候選數(shù)據(jù)查詢單元301從第二集合中選取與第二字段屬性數(shù)據(jù)的分詞序列相關度最高的、top1000條(個)第一字段屬性數(shù)據(jù),形成第三集合,以供進行下一步的相似度計算算法。相似度計算單元302針對第三集合中的每一數(shù)據(jù)元素(第一字段屬性數(shù)據(jù)),分別計算其與該特定的第二字段屬性數(shù)據(jù)之間的相似度,計算相似度時采用jaro-winkler相似度算法。可以理解,相似度計算也可以采用基于編輯距離(levenshtein)相似度計算、最長公共子串(lcs)算法、短語相似度計算方法或余弦相似度計算方法等。短文本數(shù)據(jù)聚合單元303對前述步驟計算出的各相似度進行降序排序,將相似度最高的第一字段屬性數(shù)據(jù)所對應的內部商戶數(shù)據(jù)與該特定的第二字段屬性數(shù)據(jù)所對應的外部商戶數(shù)據(jù)進行數(shù)據(jù)聚合,形成聚合商戶數(shù)據(jù)并輸出。以商戶數(shù)據(jù)作為聚合對象進行測試,通過對北京和上海地區(qū)銀聯(lián)(內部)商戶數(shù)據(jù)和大眾點評網(wǎng)(外部)商戶數(shù)據(jù)的測試驗證抽樣結果表明,內外部商戶數(shù)據(jù)的整體平均匹配率為27.5%;聚合模型的最優(yōu)匹配準確率(匹配結果集中正確匹配的條數(shù)在匹配結果集中的占比)可以達到75%左右,而召回率(結果集中正確匹配的條數(shù)除以測試集中存在匹配項的條數(shù))可以達到85%左右。上述說明僅針對于本發(fā)明的優(yōu)選實施例,并不在于限制本發(fā)明的保護范圍。本領域技術人員可作出各種變形設計,而不脫離本發(fā)明的思想及附隨的權利要求。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
济宁市| 昆明市| 新田县| 健康| 临桂县| 石首市| 霍林郭勒市| 长丰县| 宜良县| 永靖县| 五原县| 浦江县| 南澳县| 双牌县| 新乡市| 高淳县| 繁峙县| 霍林郭勒市| 铁岭县| 乐至县| 武穴市| 仁化县| 广南县| 梨树县| 望谟县| 宝山区| 石阡县| 温泉县| 吉林省| 大石桥市| 曲阳县| 崇礼县| 武胜县| 宁乡县| 洛浦县| 鸡泽县| 苍山县| 甘泉县| 石城县| 广南县| 洛南县|