一種文本文件的并行解析過濾方法

文檔序號：10553084閱讀：279來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本文件的并行解析過濾方法【專利摘要】本發(fā)明公開一種文本文件的并行解析過濾方法,涉及數(shù)據(jù)抽取轉(zhuǎn)換技術(shù)，用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配；最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫，進行文本文件的分類解析過濾。本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾，通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理；增加了系統(tǒng)的可擴展性，同時使用了分類解析、存儲、管理的方式，增強了文本數(shù)據(jù)解析過濾后的可用性?！緦＠f明】一種文本文件的并行解析過濾方法[0001]
技術(shù)領(lǐng)域：
[0002]本發(fā)明涉及數(shù)據(jù)抽取轉(zhuǎn)換技術(shù)，具體的說是一種文本文件的并行解析過濾方法?！?br>背景技術(shù)：
】[0003]隨著數(shù)據(jù)信息系統(tǒng)應(yīng)用的不斷發(fā)展，系統(tǒng)對應(yīng)不同種類數(shù)據(jù)的解析、分類和管理能力的要求越來越高，由于很大一部分社會化數(shù)據(jù)信息以文本文件的方式存放，系統(tǒng)需要將此部分信息錄入管理，比如:高校信息、生活信息(煤氣/水電)、交通出行信息、求職就業(yè)信息等等。如何實現(xiàn)數(shù)據(jù)的高效提取、分類、管理，顯得尤為重要。[0004]為了更好的實現(xiàn)數(shù)據(jù)的高效提取管理，本發(fā)明提出了一種文本文件的并行解析過濾方法，實現(xiàn)文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換，保證了文本數(shù)據(jù)的高效解析、分類、管理。[0005]文本文件是一種計算機文件，存在于計算機文件系統(tǒng)中，是一種包含純文本的容器。文本文件中文件的邏輯結(jié)構(gòu)屬于流式文件，是以ASCII碼方式(也稱文本方式)存儲的文件。文本文件中除了存儲文件有效字符信息外，不能存儲其他任何信息。[000?]HBase是一個分布式的、面向列的開源數(shù)據(jù)庫，HBase在Hadoop之上提供了類似于Bigtable的能力;不同于一般的關(guān)系數(shù)據(jù)庫，它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。HBase-HadoopDatabase，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群?！?br/>發(fā)明內(nèi)容】[0007]本發(fā)明針對目前技術(shù)發(fā)展的需求和不足之處，提供一種文本文件的并行解析過濾方法。[0008]本發(fā)明所述一種文本文件的并行解析過濾方法，解決上述技術(shù)問題采用的技術(shù)方案如下:所述一種文本文件的并行解析過濾方法，用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫，實現(xiàn)文本文件的分類解析過濾，進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0009]優(yōu)選的，所述文本文件的并行解析過濾方法，其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板，過濾文本文件類型，解析匹配數(shù)據(jù)，以及多線程入庫hbase。[0010]優(yōu)選的，所述創(chuàng)建數(shù)據(jù)模板這一步驟，其主要內(nèi)容包括，不同的用戶能夠自定義不同的數(shù)據(jù)模板，數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。[0011]優(yōu)選的，所述過濾文本文件類型這一步驟，其主要內(nèi)容包括，解析出不同的文本文件類型，然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。[0012]優(yōu)選的，若文本文件類型不匹配，則結(jié)束;若文本文件類型匹配，則上傳文本文件。[0013]優(yōu)選的，所述解析匹配數(shù)據(jù)這一步驟，其主要內(nèi)容包括，根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型，再匹配選定的數(shù)據(jù)模板，并作相應(yīng)標記。[0014]優(yōu)選的，所述多線程入庫hbase這一步驟，其主要內(nèi)容包括，根據(jù)匹配的不同的數(shù)據(jù)類型，分多線程批量存儲到hbase數(shù)據(jù)庫。[0015]本發(fā)明所述一種文本文件的并行解析過濾方法與現(xiàn)有技術(shù)相比具有的有益效果是:本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾，通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理；由于使用了數(shù)據(jù)模板增加了系統(tǒng)的可擴展性，同時使用了分類解析、存儲、管理的方式，增強了文本數(shù)據(jù)解析過濾后的可用性。[0016]說明書附圖附圖1為所述文本文件的并行解析過濾方法的流程圖。【具體實施方式】[0017]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白，以下結(jié)合具體實施例，對本發(fā)明所述一種文本文件的并行解析過濾方法進一步詳細說明。[0018]本發(fā)明公開了一種文本文件的并行解析過濾方法，用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲至IJhbase數(shù)據(jù)庫，實現(xiàn)文本文件的分類解析過濾，進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0019]實施例:本實施例所述一種文本文件的并行解析過濾方法，主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板，過濾文本文件類型，解析匹配數(shù)據(jù)，以及多線程入庫hbase。如附圖1所示，該并行解析過濾方法的具體實施流程包括:所述創(chuàng)建數(shù)據(jù)模板這一步驟，其主要內(nèi)容是指，不同的用戶能夠自定義不同的數(shù)據(jù)模板，數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊，保證了可擴展性。[0020]所述過濾文本文件類型這一步驟，其主要內(nèi)容包括，解析出不同的文本文件類型，查看文本數(shù)據(jù)是否為csv、txt、excel2003、excel2007等等;然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;若文本文件類型不匹配，則結(jié)束;若文本文件類型匹配，則上傳文本文件。[0021]所述解析匹配數(shù)據(jù)這一步驟，其主要內(nèi)容包括，根據(jù)不同的文本文件類型解析過濾，首先匹配內(nèi)置的常用數(shù)據(jù)類型，再匹配選定的數(shù)據(jù)模板，并作相應(yīng)標記。[0022]所述多線程入庫hbase這一步驟，其主要內(nèi)容包括，根據(jù)匹配的不同的數(shù)據(jù)類型，分多線程批量存儲到hbase數(shù)據(jù)庫。[0023]上述【具體實施方式】僅是本發(fā)明的具體個案，本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】，任何符合本發(fā)明的權(quán)利要求書的且任何所屬
技術(shù)領(lǐng)域：
的普通技術(shù)人員對其所做的適當(dāng)變化或替換，皆應(yīng)落入本發(fā)明的專利保護范圍?！局鳈?quán)項】1.一種文本文件的并行解析過濾方法，其特征在于，用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫，進行文本文件的分類解析過濾。2.根據(jù)權(quán)利要求1所述一種文本文件的并行解析過濾方法，其特征在于，所述文本文件的并行解析過濾方法，其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板，過濾文本文件類型，解析匹配數(shù)據(jù)，以及多線程入庫hbase。3.根據(jù)權(quán)利要求2所述一種文本文件的并行解析過濾方法，其特征在于，所述創(chuàng)建數(shù)據(jù)模板這一步驟，其主要內(nèi)容包括，不同的用戶能夠自定義不同的數(shù)據(jù)模板，數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。4.根據(jù)權(quán)利要求3所述一種文本文件的并行解析過濾方法，其特征在于，所述過濾文本文件類型這一步驟，其主要內(nèi)容包括，解析出不同的文本文件類型，然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。5.根據(jù)權(quán)利要求4所述一種文本文件的并行解析過濾方法，其特征在于，若文本文件類型不匹配，則結(jié)束;若文本文件類型匹配，則上傳文本文件。6.根據(jù)權(quán)利要求5所述一種文本文件的并行解析過濾方法，其特征在于，所述解析匹配數(shù)據(jù)這一步驟，其主要內(nèi)容包括，根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型，再匹配選定的數(shù)據(jù)模板，并作相應(yīng)標記。7.根據(jù)權(quán)利要求6所述一種文本文件的并行解析過濾方法，其特征在于，所述多線程入庫hbase這一步驟，其主要內(nèi)容包括，根據(jù)匹配的不同的數(shù)據(jù)類型，分多線程批量存儲到hbase數(shù)據(jù)庫?！疚臋n編號】G06F17/30GK105912735SQ201610483787【公開日】2016年8月31日【申請日】2016年6月28日【發(fā)明人】孫凱【申請人】浪潮軟件股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫凱;
技術(shù)所有人：浪潮軟件股份有限公司;
我是此專利的發(fā)明人

上一篇：一種統(tǒng)一資源定位符url分類方法及裝置的制造方法
上一篇：一種用戶反饋自動回復(fù)方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

并行工程的理論與方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本文件的并行解析過濾方法