欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本文件的并行解析過濾方法

文檔序號:10553084閱讀:279來源:國知局
一種文本文件的并行解析過濾方法【專利摘要】本發(fā)明公開一種文本文件的并行解析過濾方法,涉及數(shù)據(jù)抽取轉(zhuǎn)換技術(shù),用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫,進行文本文件的分類解析過濾。本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾,通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理;增加了系統(tǒng)的可擴展性,同時使用了分類解析、存儲、管理的方式,增強了文本數(shù)據(jù)解析過濾后的可用性?!緦@f明】一種文本文件的并行解析過濾方法[0001]
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及數(shù)據(jù)抽取轉(zhuǎn)換技術(shù),具體的說是一種文本文件的并行解析過濾方法?!?br>背景技術(shù)
】[0003]隨著數(shù)據(jù)信息系統(tǒng)應(yīng)用的不斷發(fā)展,系統(tǒng)對應(yīng)不同種類數(shù)據(jù)的解析、分類和管理能力的要求越來越高,由于很大一部分社會化數(shù)據(jù)信息以文本文件的方式存放,系統(tǒng)需要將此部分信息錄入管理,比如:高校信息、生活信息(煤氣/水電)、交通出行信息、求職就業(yè)信息等等。如何實現(xiàn)數(shù)據(jù)的高效提取、分類、管理,顯得尤為重要。[0004]為了更好的實現(xiàn)數(shù)據(jù)的高效提取管理,本發(fā)明提出了一種文本文件的并行解析過濾方法,實現(xiàn)文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換,保證了文本數(shù)據(jù)的高效解析、分類、管理。[0005]文本文件是一種計算機文件,存在于計算機文件系統(tǒng)中,是一種包含純文本的容器。文本文件中文件的邏輯結(jié)構(gòu)屬于流式文件,是以ASCII碼方式(也稱文本方式)存儲的文件。文本文件中除了存儲文件有效字符信息外,不能存儲其他任何信息。[000?]HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase在Hadoop之上提供了類似于Bigtable的能力;不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。HBase-HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群?!?br/>發(fā)明內(nèi)容】[0007]本發(fā)明針對目前技術(shù)發(fā)展的需求和不足之處,提供一種文本文件的并行解析過濾方法。[0008]本發(fā)明所述一種文本文件的并行解析過濾方法,解決上述技術(shù)問題采用的技術(shù)方案如下:所述一種文本文件的并行解析過濾方法,用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫,實現(xiàn)文本文件的分類解析過濾,進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0009]優(yōu)選的,所述文本文件的并行解析過濾方法,其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過濾文本文件類型,解析匹配數(shù)據(jù),以及多線程入庫hbase。[0010]優(yōu)選的,所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容包括,不同的用戶能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。[0011]優(yōu)選的,所述過濾文本文件類型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類型,然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。[0012]優(yōu)選的,若文本文件類型不匹配,則結(jié)束;若文本文件類型匹配,則上傳文本文件。[0013]優(yōu)選的,所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型,再匹配選定的數(shù)據(jù)模板,并作相應(yīng)標記。[0014]優(yōu)選的,所述多線程入庫hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類型,分多線程批量存儲到hbase數(shù)據(jù)庫。[0015]本發(fā)明所述一種文本文件的并行解析過濾方法與現(xiàn)有技術(shù)相比具有的有益效果是:本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾,通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理;由于使用了數(shù)據(jù)模板增加了系統(tǒng)的可擴展性,同時使用了分類解析、存儲、管理的方式,增強了文本數(shù)據(jù)解析過濾后的可用性。[0016]說明書附圖附圖1為所述文本文件的并行解析過濾方法的流程圖。【具體實施方式】[0017]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,對本發(fā)明所述一種文本文件的并行解析過濾方法進一步詳細說明。[0018]本發(fā)明公開了一種文本文件的并行解析過濾方法,用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲至IJhbase數(shù)據(jù)庫,實現(xiàn)文本文件的分類解析過濾,進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0019]實施例:本實施例所述一種文本文件的并行解析過濾方法,主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過濾文本文件類型,解析匹配數(shù)據(jù),以及多線程入庫hbase。如附圖1所示,該并行解析過濾方法的具體實施流程包括:所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容是指,不同的用戶能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊,保證了可擴展性。[0020]所述過濾文本文件類型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類型,查看文本數(shù)據(jù)是否為csv、txt、excel2003、excel2007等等;然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;若文本文件類型不匹配,則結(jié)束;若文本文件類型匹配,則上傳文本文件。[0021]所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類型解析過濾,首先匹配內(nèi)置的常用數(shù)據(jù)類型,再匹配選定的數(shù)據(jù)模板,并作相應(yīng)標記。[0022]所述多線程入庫hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類型,分多線程批量存儲到hbase數(shù)據(jù)庫。[0023]上述【具體實施方式】僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】,任何符合本發(fā)明的權(quán)利要求書的且任何所屬
技術(shù)領(lǐng)域
的普通技術(shù)人員對其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護范圍?!局鳈?quán)項】1.一種文本文件的并行解析過濾方法,其特征在于,用于文本文件與hbase數(shù)據(jù)庫的轉(zhuǎn)換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫,進行文本文件的分類解析過濾。2.根據(jù)權(quán)利要求1所述一種文本文件的并行解析過濾方法,其特征在于,所述文本文件的并行解析過濾方法,其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過濾文本文件類型,解析匹配數(shù)據(jù),以及多線程入庫hbase。3.根據(jù)權(quán)利要求2所述一種文本文件的并行解析過濾方法,其特征在于,所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容包括,不同的用戶能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。4.根據(jù)權(quán)利要求3所述一種文本文件的并行解析過濾方法,其特征在于,所述過濾文本文件類型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類型,然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。5.根據(jù)權(quán)利要求4所述一種文本文件的并行解析過濾方法,其特征在于,若文本文件類型不匹配,則結(jié)束;若文本文件類型匹配,則上傳文本文件。6.根據(jù)權(quán)利要求5所述一種文本文件的并行解析過濾方法,其特征在于,所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型,再匹配選定的數(shù)據(jù)模板,并作相應(yīng)標記。7.根據(jù)權(quán)利要求6所述一種文本文件的并行解析過濾方法,其特征在于,所述多線程入庫hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類型,分多線程批量存儲到hbase數(shù)據(jù)庫?!疚臋n編號】G06F17/30GK105912735SQ201610483787【公開日】2016年8月31日【申請日】2016年6月28日【發(fā)明人】孫凱【申請人】浪潮軟件股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
成安县| 开化县| 青铜峡市| 潮州市| 前郭尔| 左云县| 永吉县| 万州区| 西乌珠穆沁旗| 周宁县| 拉萨市| 巴彦淖尔市| 江孜县| 明水县| 温州市| 怀仁县| 健康| 西城区| 新和县| 平顺县| 墨竹工卡县| 都江堰市| 云梦县| 信阳市| 阳城县| 开远市| 肥城市| 新河县| 汽车| 龙泉市| 扎赉特旗| 雷州市| 桑植县| 溆浦县| 松滋市| 博野县| 潍坊市| 云阳县| 西乡县| 石林| 定陶县|