欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

超大量文本信息數(shù)據(jù)處理方法

文檔序號(hào):6339543閱讀:1402來(lái)源:國(guó)知局
專利名稱:超大量文本信息數(shù)據(jù)處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)處理方法,特別是指處理文字稿件的方法。
現(xiàn)在因特網(wǎng)信息服務(wù)商處理信息的步驟和流程主要是是這樣1、確定信息內(nèi)容結(jié)構(gòu)在規(guī)劃設(shè)計(jì)網(wǎng)站內(nèi)容之初,必須將整個(gè)網(wǎng)站的分類做詳細(xì)的規(guī)劃,比如要定義出“國(guó)內(nèi)新聞”、“國(guó)際新聞”、“科技新聞”等欄目。欄目一經(jīng)確定之后,一般很難再做改動(dòng),因?yàn)橐坏└膭?dòng),必然牽涉到整個(gè)體系的改變。
2、收集信息的渠道和處理方式①信息員提供的文字稿件;②從報(bào)紙、雜志上摘錄信息;③從網(wǎng)上查找信息;以上的數(shù)據(jù)來(lái)了以后,由公司重新錄入、排版成統(tǒng)一格式,并最終形成頁(yè)面文件(一般都是HTML格式);④或者將報(bào)刊雜志的內(nèi)容掃描,存成頁(yè)面文件。
3、發(fā)布上網(wǎng),在完成上述信息編輯制作后存入服務(wù)器中,將每條信息的標(biāo)題放在相應(yīng)的欄目下,并鏈接到該信息的頁(yè)面。
上述信息處理方法的缺陷是①必須對(duì)每條信息逐條進(jìn)行加工編輯,影響了編輯的速度;②分類不細(xì),使用中一般只能通過(guò)全文檢索的方式進(jìn)行檢索、查詢,檢索、查詢過(guò)程麻煩,效率不高;③通常的編輯器如Ms-Office中的Word、Frontpage及純文本編輯器等,一般都有容量限制,若同時(shí)對(duì)大量的信息進(jìn)行編輯則難以勝任。
本發(fā)明的目的在于提供一種超大量文本信息數(shù)據(jù)處理方法,可以有效地提高信息編輯速度,同時(shí)提高信息處理能力。
本發(fā)明所提供的超大量文本信息數(shù)據(jù)處理方法分為以下步驟① 對(duì)不同來(lái)源的文稿文件進(jìn)行人工分割,在每篇文稿的標(biāo)題與正文之間、正文與下一文稿標(biāo)題之間均插入一分割符,形成如下格式<分割符>標(biāo)題1<分割符>正文1<分割符>標(biāo)題2<分割符>正文2<分割符>標(biāo)題3<分割符>正文3…的格式,其中分割符可采用文稿中不會(huì)出現(xiàn)的特殊字符,如“※※※”等。
②入庫(kù),將上述格式的文稿導(dǎo)入數(shù)據(jù)庫(kù)中,導(dǎo)入后,數(shù)據(jù)庫(kù)的格式為
③最終用數(shù)據(jù)庫(kù)文件形式發(fā)布。
導(dǎo)入過(guò)程需要數(shù)據(jù)庫(kù)支持微軟的SQL結(jié)構(gòu)化數(shù)據(jù)庫(kù)語(yǔ)言規(guī)范,所以在選擇數(shù)據(jù)庫(kù)方面首先要考慮這一條件,其次還要考慮數(shù)據(jù)庫(kù)是否便于管理,應(yīng)用支持是否廣泛,表功能是否強(qiáng)大,是否便于修改、刪除、添加數(shù)據(jù),是否擁有良好直觀的用戶界面,以便于非技術(shù)人員進(jìn)行各項(xiàng)操作管理,是否可以在多種格式之間相互轉(zhuǎn)換,是否支持多種數(shù)據(jù)格式以便于向多種數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)。
與已有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于可對(duì)多種不同來(lái)源的文稿進(jìn)行快速編輯,處理的信息量大,對(duì)信息的深度處理更容易,檢索準(zhǔn)確快速。
下面結(jié)合實(shí)施例對(duì)本發(fā)明提供的超大量文本信息數(shù)據(jù)處理方法作進(jìn)一步說(shuō)明。
本實(shí)施例為一用于糧油信息網(wǎng)的信息數(shù)據(jù)處理方法,本例中采用Microsoft access數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,Microsoft access數(shù)據(jù)庫(kù)是一個(gè)管理簡(jiǎn)便、功能齊備、應(yīng)用支持廣泛的數(shù)據(jù)庫(kù),它的開發(fā)功能和表功能強(qiáng)大,使它在修改、刪除、添加數(shù)據(jù)方面都很方便。它可以方便地在各種格式之間轉(zhuǎn)換,編輯出的內(nèi)容可隨意被任何數(shù)據(jù)庫(kù)和應(yīng)用程序所使用,例如Sq1大型數(shù)據(jù)庫(kù)、各種文本編輯器、Excell、Dbase、FoxBase等。它的用戶界面非常良好直觀,最適合非技術(shù)人員的使用,使普通人員稍加培訓(xùn)就可上崗工作,這樣有利于降低使用成本,使數(shù)據(jù)庫(kù)應(yīng)用趨于平民化。其處理過(guò)程為
①?gòu)母鞯胤骄W(wǎng)站匯總來(lái)不同版本格式的電子文稿;②由人工進(jìn)行分割,在標(biāo)題與正文之間、正文與下一篇標(biāo)題之間插入分割符,本例中分割符為“***”;③入庫(kù)過(guò)程為導(dǎo)入之前系統(tǒng)首先要應(yīng)用Sq1(結(jié)構(gòu)化數(shù)據(jù)庫(kù))語(yǔ)言在空數(shù)據(jù)庫(kù)內(nèi)建立一個(gè)Table(表),品種、屬性、時(shí)間等字段名是在建庫(kù)之前就已預(yù)先定義的,除了定義Table的名稱和字段名外還要定義字段的屬性,如“品種”字段的屬性是數(shù)據(jù)類型字符形數(shù)據(jù)字段長(zhǎng)度最長(zhǎng)200個(gè)字節(jié)是否允許空字符允許空字符導(dǎo)入時(shí)系統(tǒng)先自動(dòng)生成序號(hào)、時(shí)間,然后與標(biāo)題、正文一起形成一個(gè)RECORD(記錄),添加到數(shù)據(jù)庫(kù)中,其它的字段暫時(shí)為空;等所有數(shù)據(jù)導(dǎo)入之后由人工使用應(yīng)用程序根據(jù)標(biāo)題、正文的內(nèi)容將適當(dāng)?shù)拇a添加到預(yù)留的字段中使記錄完整,至此完成所有的入庫(kù)過(guò)程。入庫(kù)后成為如下格式
④用數(shù)據(jù)庫(kù)文件形式INTERNET網(wǎng)上發(fā)布。
權(quán)利要求
一種超大量文本信息數(shù)據(jù)處理的方法,其特征在于分為以下步驟①對(duì)不同來(lái)源的文稿文件進(jìn)行人工分割,在每篇文稿的標(biāo)題與正文之間、正文與下一文稿標(biāo)題之間均插入一分割符,形成如下格式<分割符>標(biāo)題1<分割符>正文1<分割符>標(biāo)題2<分割符>正文2<分割符>標(biāo)題3<分割符>正文3…的格式,其中分割符可采用文稿中不會(huì)出現(xiàn)的特殊字符;②入庫(kù),將上述格式的文稿導(dǎo)入數(shù)據(jù)庫(kù)中,導(dǎo)入后,數(shù)據(jù)庫(kù)的格式為
③最終用數(shù)據(jù)庫(kù)文件形式發(fā)布。
全文摘要
一種超大量文本信息數(shù)據(jù)處理方法,首先對(duì)不同來(lái)源的文稿文件進(jìn)行人工分割,在每篇文稿的標(biāo)題與正文之間、正文與下一文稿標(biāo)題之間均插入一分割符,然后將上述格式的文稿導(dǎo)入數(shù)據(jù)庫(kù)中,最終用數(shù)據(jù)庫(kù)文件形式發(fā)布。本發(fā)明的優(yōu)點(diǎn)在于:可對(duì)多種不同來(lái)源的文稿進(jìn)行快速編輯,處理的信息量大,對(duì)信息的深度處理更容易,檢索準(zhǔn)確快速。
文檔編號(hào)G06F17/21GK1343947SQ0012453
公開日2002年4月10日 申請(qǐng)日期2000年9月19日 優(yōu)先權(quán)日2000年9月19日
發(fā)明者胡天木 申請(qǐng)人:北京新華國(guó)信科貿(mào)有限責(zé)任公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
桐柏县| 谢通门县| 阜阳市| 黔西县| 高唐县| 正蓝旗| 青岛市| 湾仔区| 汉源县| 沂南县| 尉犁县| 常宁市| 博白县| 新乡县| 大冶市| 景东| 新龙县| 克拉玛依市| 新源县| 南澳县| 大化| 安宁市| 宣恩县| 鞍山市| 江达县| 钦州市| 苗栗市| 三明市| 美姑县| 眉山市| 巴青县| 宜章县| 阳东县| 柏乡县| 信阳市| 高碑店市| 遂宁市| 孝义市| 三穗县| 天镇县| 宜都市|