一種數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明提出了一種數(shù)據(jù)挖掘方法,解決了網(wǎng)絡(luò)信息重復(fù)程度高,冗余信息多的問題,數(shù)據(jù)挖掘速率高,查全率好,效果較為理想,其分為,定點采集:預(yù)制行業(yè)內(nèi)網(wǎng)站作為數(shù)據(jù)源,并對每一個數(shù)據(jù)源設(shè)置可信度權(quán)值;針對數(shù)據(jù)源設(shè)置數(shù)據(jù)采集模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù);自動發(fā)現(xiàn):設(shè)置網(wǎng)絡(luò)探針,自動發(fā)現(xiàn)相似度高的網(wǎng)站作為采集點網(wǎng)站;將采集點網(wǎng)站添加到采集點網(wǎng)站庫,并對每一個采集點網(wǎng)站設(shè)置可信度權(quán)值;針對采集點網(wǎng)站設(shè)置數(shù)據(jù)提取模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù);數(shù)據(jù)分析和存儲:對挖掘到的數(shù)據(jù)進行統(tǒng)一編碼,去除重復(fù)信息,篩選數(shù)據(jù);對篩選后的數(shù)據(jù)進行聚類分析,計算同一話題的信息量,并標(biāo)注話題關(guān)注度權(quán)重;存儲數(shù)據(jù),并建立索引。
【專利說明】一種數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,尤其涉及一種數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]當(dāng)今社會已經(jīng)進入信息高速傳播的時代,這為人們帶來方便的同時,也出現(xiàn)了越來越多的問題,例如,現(xiàn)有搜索引擎搜索結(jié)果重復(fù)性太高、不符合期望的冗余信息多、搜索時間長、效率低等。
[0003]由于目前互聯(lián)網(wǎng)上信息轉(zhuǎn)載率很高,百度、google等搜索引擎為了搜索的查全率,導(dǎo)致通用搜索耗時長,搜索結(jié)果重復(fù)度非常高,不利于用戶快速發(fā)現(xiàn)有價值的內(nèi)容。另外,一些行業(yè)搜索引擎,只針對行業(yè)網(wǎng)站,提高了搜索效率,但時查全率低,容易造成遺漏。
[0004]現(xiàn)在的商業(yè)競爭很大程度上決定與企業(yè)對最新信息的掌握程度,換言之企業(yè)對行業(yè)信息的更新與分析決定了企業(yè)的潛力,但是企業(yè)信息化方面基礎(chǔ)千差萬別,而且資源都相對有限,尤其是中小企業(yè)往往無力承擔(dān)獨立的信息搜索消耗,另一方面,企業(yè)定制的搜索引擎往往只搜索行業(yè)網(wǎng)站,不對對整個互聯(lián)網(wǎng)編錄,容易造成信息遺漏。
【發(fā)明內(nèi)容】
[0005]基于【背景技術(shù)】存在的問題,本發(fā)明提出了一種數(shù)據(jù)挖掘方法,解決了網(wǎng)絡(luò)信息重復(fù)程度高,冗余信息多的問題,數(shù)據(jù)挖掘速率高,查全率好,效果較為理想。
[0006]本發(fā)明提出的一種數(shù)據(jù)挖掘方法,通過定點采集和自動發(fā)現(xiàn)兩種方式進行數(shù)據(jù)挖掘,并對挖掘到的數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)分析和存儲;
[0007]定點采集包括:
[0008]預(yù)制行業(yè)內(nèi)網(wǎng)站作為數(shù)據(jù)源,并對每一個數(shù)據(jù)源設(shè)置可信度權(quán)值;
[0009]針對數(shù)據(jù)源設(shè)置數(shù)據(jù)采集模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù);
[0010]自動發(fā)現(xiàn)包括:
[0011]設(shè)置網(wǎng)絡(luò)探針,自動發(fā)現(xiàn)相似度高的網(wǎng)站作為采集點網(wǎng)站;
[0012]將采集點網(wǎng)站添加到采集點網(wǎng)站庫,并對每一個采集點網(wǎng)站設(shè)置可信度權(quán)值;
[0013]針對采集點網(wǎng)站設(shè)置數(shù)據(jù)提取模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù);
[0014]數(shù)據(jù)分析和存儲包括:
[0015]對挖掘到的數(shù)據(jù)進行統(tǒng)一編碼,去除重復(fù)信息,篩選數(shù)據(jù);
[0016]對篩選后的數(shù)據(jù)進行聚類分析,計算同一話題的信息量,并標(biāo)注話題關(guān)注度權(quán)重;
[0017]存儲數(shù)據(jù),并建立索引。
[0018]優(yōu)選地,行業(yè)內(nèi)網(wǎng)站包括行業(yè)內(nèi)知名網(wǎng)站鏈接、論壇、博客。
[0019]優(yōu)選地,數(shù)據(jù)源可信度權(quán)值由人工設(shè)置。
[0020]優(yōu)選地,采集點網(wǎng)站可信度權(quán)值人工設(shè)置。
[0021 ] 優(yōu)選地,采集點網(wǎng)站可信度權(quán)值根據(jù)網(wǎng)站排名或評分自動設(shè)置。
[0022]本發(fā)明即實現(xiàn)了針對行業(yè)內(nèi)網(wǎng)站的重點關(guān)注,又兼顧了對整個互聯(lián)網(wǎng)數(shù)據(jù)信息的兼顧,前者減少了數(shù)據(jù)搜索時間,提高了搜索效率,后者提高了搜索結(jié)果的查全率,本發(fā)明通過二者兼顧的方式,對搜索效率和查全率實現(xiàn)了一個比較理想的平衡。本發(fā)明中通過數(shù)據(jù)統(tǒng)一分析,有效的解決了信息重復(fù)的問題,去除冗余信息,減少數(shù)據(jù)所占空間,同時提高后續(xù)處理效率。本發(fā)明對數(shù)據(jù)進行聚類分析并建立索引,可提高數(shù)據(jù)庫的利用效率。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明提出的一種數(shù)據(jù)挖掘方法的流程圖;
[0024]圖2為定點采集挖掘數(shù)據(jù)的流程圖;
[0025]圖3為自動發(fā)現(xiàn)挖掘數(shù)據(jù)的流程圖;
[0026]圖4為數(shù)據(jù)分析與存儲流程圖。
【具體實施方式】
[0027]參照圖1,本發(fā)明提出的一種數(shù)據(jù)挖掘方法,通過定點采集和自動發(fā)現(xiàn)兩種方式進行數(shù)據(jù)挖掘,并對挖掘到的數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)分析和存儲。行業(yè)內(nèi)網(wǎng)站包括行業(yè)內(nèi)知名網(wǎng)站鏈接、論壇、博客等,定點采集可重點關(guān)注這些重要的網(wǎng)站,即關(guān)注了行業(yè)動態(tài),由縮小了查找網(wǎng)站的時間。自動發(fā)現(xiàn)是對定點采集的補充,通過對其他非知名網(wǎng)站的搜索,補充數(shù)據(jù),避免目標(biāo)數(shù)據(jù)的遺漏。數(shù)據(jù)統(tǒng)一分析可有效去除重復(fù)信息,解決了網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)載頻繁,信息重復(fù)的問題,同時。
[0028]參照圖2,定點采集包括以下步驟:
[0029]預(yù)制行業(yè)內(nèi)網(wǎng)站作為數(shù)據(jù)源,并對每一個數(shù)據(jù)源設(shè)置可信度權(quán)值;
[0030]針對數(shù)據(jù)源設(shè)置數(shù)據(jù)采集模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù)。
[0031]數(shù)據(jù)源預(yù)制,即節(jié)約了網(wǎng)站搜索時間,提高數(shù)據(jù)采集效率,又提高了行業(yè)針對性,使得采集數(shù)據(jù)的方向更加符合用戶預(yù)期。數(shù)據(jù)源可信度權(quán)值由人工設(shè)置,可作為數(shù)據(jù)采集的參考。
[0032]參照圖3,自動發(fā)現(xiàn)包括以下步驟:
[0033]設(shè)置網(wǎng)絡(luò)探針,自動發(fā)現(xiàn)相似度高的網(wǎng)站作為采集點網(wǎng)站;
[0034]將采集點網(wǎng)站添加到采集點網(wǎng)站庫,并對每一個采集點網(wǎng)站設(shè)置可信度權(quán)值;
[0035]針對采集點網(wǎng)站設(shè)置數(shù)據(jù)提取模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù)。
[0036]網(wǎng)絡(luò)探針的設(shè)置以數(shù)據(jù)源為參考,如此可限定探針發(fā)現(xiàn)網(wǎng)站的方向,縮小采集點網(wǎng)站的范圍,減小數(shù)據(jù)挖掘范圍,提高速率并減少存儲空間,同時,數(shù)據(jù)源為參考也可以提高采集點網(wǎng)站與行業(yè)信息的相關(guān)度,減少冗余信息。
[0037]本實施方式中,采集點網(wǎng)站可信度權(quán)值根據(jù)網(wǎng)站排名或評分自動設(shè)置,考慮到網(wǎng)絡(luò)的發(fā)達(dá),各種網(wǎng)站繁雜紛亂,自動設(shè)置可減少人力需求并提高工作效率。具體實施時,采集點網(wǎng)站可信度權(quán)值也可人工設(shè)置,該種方式更加符合用戶期望,數(shù)據(jù)采集精度更高。
[0038]參照圖4數(shù)據(jù)分析和存儲包括以下步驟:
[0039]對挖掘到的數(shù)據(jù)進行統(tǒng)一編碼,去除重復(fù)信息,篩選數(shù)據(jù);
[0040]對篩選后的數(shù)據(jù)進行聚類分析,計算同一話題的信息量,并標(biāo)注話題關(guān)注度權(quán)重;
[0041]存儲數(shù)據(jù),并建立索引。
[0042]本實施方式中,有效的解決了信息重復(fù)的問題,減少數(shù)據(jù)所占空間,同時提高后續(xù)處理效率。對數(shù)據(jù)進行聚類分析并建立索引,可提高數(shù)據(jù)庫的檢索效率,提高數(shù)據(jù)利用率。話題關(guān)注度的計算與標(biāo)注,明確提醒用戶關(guān)注重要信息。
[0043]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)挖掘方法,其特征在于,通過定點采集和自動發(fā)現(xiàn)兩種方式進行數(shù)據(jù)挖掘,并對挖掘到的數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)分析和存儲; 定點采集包括: 預(yù)制行業(yè)內(nèi)網(wǎng)站作為數(shù)據(jù)源,并對每一個數(shù)據(jù)源設(shè)置可信度權(quán)值; 針對數(shù)據(jù)源設(shè)置數(shù)據(jù)采集模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù); 自動發(fā)現(xiàn)包括: 設(shè)置網(wǎng)絡(luò)探針,自動發(fā)現(xiàn)相似度高的網(wǎng)站作為采集點網(wǎng)站; 將采集點網(wǎng)站添加到采集點網(wǎng)站庫,并對每一個采集點網(wǎng)站設(shè)置可信度權(quán)值; 針對采集點網(wǎng)站設(shè)置數(shù)據(jù)提取模式定期或不定期向數(shù)據(jù)源挖掘數(shù)據(jù); 數(shù)據(jù)分析和存儲包括: 對挖掘到的數(shù)據(jù)進行統(tǒng)一編碼,去除重復(fù)信息,篩選數(shù)據(jù); 對篩選后的數(shù)據(jù)進行聚類分析,計算同一話題的信息量,并標(biāo)注話題關(guān)注度權(quán)重; 存儲數(shù)據(jù),并建立索引。
2.如權(quán)利要求1所述的數(shù)據(jù)挖掘方法,其特征在于,行業(yè)內(nèi)網(wǎng)站包括行業(yè)內(nèi)知名網(wǎng)站鏈接、論壇、博客。
3.如權(quán)利要求1或2所述的數(shù)據(jù)挖掘方法,其特征在于,數(shù)據(jù)源可信度權(quán)值由人工設(shè)置。
4.如權(quán)利要求1或2所述的數(shù)據(jù)挖掘方法,其特征在于,采集點網(wǎng)站可信度權(quán)值人工設(shè)置。
5.如權(quán)利要求1或2所述的數(shù)據(jù)挖掘方法,其特征在于,采集點網(wǎng)站可信度權(quán)值根據(jù)網(wǎng)站排名或評分自動設(shè)置。
【文檔編號】G06F17/30GK104166683SQ201410347539
【公開日】2014年11月26日 申請日期:2014年7月21日 優(yōu)先權(quán)日:2014年7月21日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司