一種互聯(lián)網(wǎng)信息分析方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種互聯(lián)網(wǎng)信息分析方法和一種互聯(lián)網(wǎng)信息分析裝置,用于分析由互聯(lián)網(wǎng)獲取的海量信息。其中互聯(lián)網(wǎng)信息分析方法包括:預(yù)先設(shè)置標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表;抓取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,將每段正文切分為至少一個片段;以及分析所述片段以獲取互聯(lián)網(wǎng)信息,具體包括對每一個片段執(zhí)行以下操作:判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記,若是則進一步判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,若是則使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記。使用本發(fā)明的方法和裝置,可以提高對互聯(lián)網(wǎng)信息進行分析的準(zhǔn)確度。
【專利說明】一種互聯(lián)網(wǎng)信息分析方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及對由互聯(lián)網(wǎng)獲取的海量信息進行分析方法,具體涉及一種互聯(lián)網(wǎng)信息分析方法和一種互聯(lián)網(wǎng)信息分析裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息爆炸式增長,人們對海量的互聯(lián)網(wǎng)信息進行分析處理的需求也越來越高,利用大規(guī)模的搜索引擎以及數(shù)據(jù)抓取技術(shù),可以獲取互聯(lián)網(wǎng)上的海量信息(由超文本鏈接標(biāo)示語言HTML代碼構(gòu)成)。
[0003]但是現(xiàn)有的對獲取的互聯(lián)網(wǎng)上的海量信息進行分析的方法,例如利用海量信息獲得用戶對相關(guān)產(chǎn)品的反饋的方法,僅僅是簡單地使用準(zhǔn)確率低的字段匹配算法或者使用運算復(fù)雜度高的語義匹配算法。使用字段匹配算法獲得的信息的準(zhǔn)確率很低,使用語義匹配算法的運算開銷巨大而無法與信息量的快速增加相適應(yīng),另外,網(wǎng)絡(luò)語言所具有的語義不規(guī)范的特點進一步增大了使用語義匹配算法的運算復(fù)雜度,網(wǎng)絡(luò)語言所具有的變化極快的特點進一步增大了使用語義匹配算法的算法維護工作的難度,換言之,由于網(wǎng)絡(luò)語言變化極快,因此使用語義匹配算法時維護人員需要經(jīng)常性地對算法進行比較大的調(diào)整,維護開銷和維護難度比較大。因此,亟需能夠在保證分析準(zhǔn)確率的同時,有效地減小運算開銷的方法和系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少解決上述部分問題的一種互聯(lián)網(wǎng)信息分析方法和一種互聯(lián)網(wǎng)信息分析裝置。
[0005]本發(fā)明提供了一種互聯(lián)網(wǎng)信息分析方法。該方法包括如下步驟:
[0006]預(yù)先設(shè)置標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表;所述標(biāo)記數(shù)據(jù)列表包括多個字段標(biāo)記;所述規(guī)則數(shù)據(jù)列表包括匹配規(guī)則以及與每個匹配規(guī)則對應(yīng)的屬性;所述關(guān)聯(lián)屬性列表包括多個關(guān)聯(lián)列表,每個關(guān)聯(lián)列表對應(yīng)于一個字段標(biāo)記并包括與該字段標(biāo)記對應(yīng)的屬性;
[0007]抓取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,將每段正文切分為至少一個片段;
[0008]分析所述片段以獲取互聯(lián)網(wǎng)信息,具體包括對每一個片段執(zhí)行以下操作:判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記,若是則進一步判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,若是則使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記作為獲取的互聯(lián)網(wǎng)信息。
[0009]較佳地,所述使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記,具體包括:
[0010]選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及對每一個與該片段匹配的匹配規(guī)則執(zhí)行以下操作:判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記。。
[0011]較佳地,所述規(guī)則數(shù)據(jù)列表,還包括與每個匹配規(guī)則對應(yīng)的評價參數(shù);所述使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記,具體包括:選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及對每一個與該片段匹配的匹配規(guī)則執(zhí)行以下操作:判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記,同時保存與該匹配規(guī)則對應(yīng)的評價參數(shù)。
[0012]較佳地,所述抓取海量的互聯(lián)網(wǎng)文件,具體包括:使用網(wǎng)絡(luò)爬蟲采集海量的HTML源文件。所述從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,具體包括:對所述HTML源文件使用正則表達式進行凈化和提取正文的操作,從而選取正文。所述將每段正文切分為至少一個片段,具體包括:使用正則表達式將選取的正文按照標(biāo)點符號進行斷句,得到的每一個句子為一個片段。
[0013]較佳地,所述判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記具體包括:使用字段匹配方法,判斷標(biāo)記數(shù)據(jù)列表中的字段標(biāo)記是否等于該片段中的一個字段。
[0014]較佳地,所述匹配規(guī)則為預(yù)先設(shè)定的匹配算法,包括多個關(guān)鍵詞以及不同關(guān)鍵詞之間的位置關(guān)系。所述判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,包括對每一個匹配算法執(zhí)行以下操作:判斷該片段是否包括該匹配算法中的所述多個關(guān)鍵詞,若否則該片段不與該匹配規(guī)則匹配,若是則進一步判斷所述關(guān)鍵詞在該片段中的位置是否符合匹配算法中的位置關(guān)系,若否則該片段不與該匹配規(guī)則匹配,若是則該片段與該匹配規(guī)則匹配。
[0015]本發(fā)明提供了一種互聯(lián)網(wǎng)信息分析裝置。該裝置包括數(shù)據(jù)庫單元、片段獲取單元和信息分析單元;
[0016]所述數(shù)據(jù)庫單元,適于預(yù)先保存有標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表;所述標(biāo)記數(shù)據(jù)列表包括多個字段標(biāo)記;所述規(guī)則數(shù)據(jù)列表包括匹配規(guī)則以及與每個匹配規(guī)則對應(yīng)的屬性;所述關(guān)聯(lián)屬性列表包括多個關(guān)聯(lián)列表,每個關(guān)聯(lián)列表對應(yīng)于一個字段標(biāo)記并包括與該字段標(biāo)記對應(yīng)的屬性;
[0017]所述片段獲取單元,適于抓取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,以及將每段正文切分為至少一個片段,將片段發(fā)送給信息分析單元;
[0018]所述信息分析單元,適于分析接收到的片段以獲取互聯(lián)網(wǎng)信息,具體包括字段分析子單元、匹配分析子單元,以及關(guān)聯(lián)分析子單元;
[0019]所述字段分析子單元,適于對每一個接收到的片段判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記,若是則將該片段發(fā)送給所述匹配分析子單元;
[0020]所述匹配分析子單元,適于對每一個接收到的片段判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,若是則將該片段發(fā)送給所述關(guān)聯(lián)分析子單元;
[0021]所述關(guān)聯(lián)分析子單元,適于對每一個接收到的片段,使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記作為獲取的互聯(lián)網(wǎng)信肩、O
[0022]較佳地,所述關(guān)聯(lián)分析子單元,適于在接收到片段時,選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及對每一個與該片段匹配的匹配規(guī)則,判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記。
[0023]較佳地,所述規(guī)則數(shù)據(jù)列表,還包括與每個匹配規(guī)則對應(yīng)的評價參數(shù)。所述關(guān)聯(lián)分析子單元,適于在接收到片段時,選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及對每一個與該片段匹配的匹配規(guī)則,判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記,同時保存與該匹配規(guī)則對應(yīng)的評價參數(shù)。
[0024]較佳地,所述片段獲取單元,適于使用網(wǎng)絡(luò)爬蟲采集海量的HTML源文件;對所述HTML源文件使用正則表達式進行凈化和提取正文的操作,從而選取正文。所述片段獲取單元,適于使用正則表達式將選取的正文按照標(biāo)點符號進行斷句,得到的每一個句子為一個片段。所述字段分析子單元,適于對每一個接收到的片段,使用字段匹配方法,判斷標(biāo)記數(shù)據(jù)列表中的字段標(biāo)記是否等于該片段中的一個字段。所述匹配規(guī)則為預(yù)先設(shè)定的匹配算法,包括多個關(guān)鍵詞以及不同關(guān)鍵詞之間的位置關(guān)系;所述匹配分析子單元,適于對每一個接收到的片段,判斷該片段是否包括該匹配算法中的所述多個關(guān)鍵詞,若否則該片段不與該匹配規(guī)則匹配,若是則進一步判斷所述關(guān)鍵詞在該片段中的位置是否符合匹配算法中的位置關(guān)系,若否則該片段不與該匹配規(guī)則匹配,若是則該片段與該匹配規(guī)則匹配。
[0025]根據(jù)本發(fā)明的互聯(lián)網(wǎng)信息分析方法和互聯(lián)網(wǎng)信息分析裝置可以將獲取的互聯(lián)網(wǎng)信息進行整理以得到片段以及對得到的片段分兩步依序進行匹配,對兩次均被成功地匹配的片段判斷兩次的匹配結(jié)果是否符合預(yù)設(shè)的關(guān)聯(lián)關(guān)系。由此,雖然經(jīng)過兩次匹配,但是第一步匹配的開銷比較小,且只有在第一步匹配通過的基礎(chǔ)上才進行第二步匹配操作,因此整體開銷??;同時,由于本發(fā)明對兩次匹配的結(jié)果按照關(guān)聯(lián)關(guān)系進行比對篩選,可以提高對互聯(lián)網(wǎng)信息進行分析的準(zhǔn)確度;同時,可以通過修改關(guān)聯(lián)列表中的屬性,控制篩選得到的屬性的范圍,有助于提高篩選獲得的信息的專注度。
[0026]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0027]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0028]圖1為本發(fā)明互聯(lián)網(wǎng)信息分析方法一個實施例的流程圖;
[0029]圖2為圖1中步驟S300的詳細的流程圖;
[0030]圖3為本發(fā)明互聯(lián)網(wǎng)信息分析裝置一個實施例的框圖;
[0031]圖4為本發(fā)明互聯(lián)網(wǎng)信息分析裝置另一個實施例的框圖。
【具體實施方式】
[0032]下面將參照附圖更詳細地描述本發(fā)明的示例性實施例。雖然附圖中顯示了本發(fā)明的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本發(fā)明而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本發(fā)明,并且能夠?qū)⒈景l(fā)明的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
[0033]由以上對于【背景技術(shù)】的說明可知,本發(fā)明發(fā)明人已知的技術(shù)方案,在進行大數(shù)據(jù)處理時,存在運算開銷和準(zhǔn)確度無法兼得的問題,本發(fā)明通過
[0034]圖1為本發(fā)明互聯(lián)網(wǎng)信息分析方法一個實施例的流程圖。該方法包括如下的步驟:
[0035]SlOO:預(yù)先設(shè)置標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表。
[0036]本實施例中,標(biāo)記數(shù)據(jù)列表包括多個字段標(biāo)記;規(guī)則數(shù)據(jù)列表包括匹配規(guī)則以及與每個匹配規(guī)則對應(yīng)的屬性;關(guān)聯(lián)屬性列表包括多個關(guān)聯(lián)列表,每個關(guān)聯(lián)列表對應(yīng)于一個字段標(biāo)記并包括與該字段標(biāo)記對應(yīng)的屬性。
[0037]當(dāng)然,在實際工程中,可以根據(jù)需要設(shè)置多個標(biāo)記數(shù)據(jù)列表、多個規(guī)則數(shù)據(jù)列表和多個關(guān)聯(lián)屬性列表,并根據(jù)具體的使用需要選擇使用相應(yīng)的標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表。以分析網(wǎng)絡(luò)用戶對特定種類產(chǎn)品的評價為例,可以針對不同的產(chǎn)品領(lǐng)域(例如汽車、餐飲等等),設(shè)置不同的標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表,根據(jù)需要進行分析的領(lǐng)域而選擇相應(yīng)的標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表。
[0038]規(guī)則數(shù)據(jù)列表還可以包括與每個匹配規(guī)則對應(yīng)的評價參數(shù)。同樣以分析網(wǎng)絡(luò)用戶對特定種類產(chǎn)品的評價為例,字段標(biāo)記為產(chǎn)品名稱,例如越野車、登山鞋等等;規(guī)則數(shù)據(jù)列表包括匹配規(guī)則以及與匹配規(guī)則對應(yīng)的屬性和評價參數(shù),例如,屬性為啟動速度、耐磨性、防水性等,評價參數(shù)為較好或較差或給出相應(yīng)的分數(shù)以表示網(wǎng)絡(luò)用戶對產(chǎn)品屬性的評價。進一步地,字段標(biāo)記也可以包括商品或者服務(wù)提供者的名稱,從而可以方便使用者對使用本發(fā)明的方法所得到的分析結(jié)果進行后續(xù)的處理,例如,方便使用者分析網(wǎng)絡(luò)用戶對不同商品提供者提供的商品的評價。
[0039]S200:抓取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,將每段正文切分為至少一個片段;
[0040]較佳地,抓取海量的互聯(lián)網(wǎng)文件具體包括:使用網(wǎng)絡(luò)爬蟲采集海量的HTML源文件。更具體地,可以先通過調(diào)用搜索引擎而檢索得到所需要的互聯(lián)網(wǎng)網(wǎng)頁,進而使用網(wǎng)絡(luò)爬蟲從上述檢索得到的互聯(lián)網(wǎng)網(wǎng)頁采集HTML源文件。
[0041]從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文具體包括:對所述HTML源文件使用正則表達式進行凈化和提取正文的操作,從而選取正文,本實施例中可以通過利用HTML所規(guī)定的各種TAG設(shè)置正則表達式,從而濾除圖片、FLASH、廣告等不需要分析的內(nèi)容并且選出正文。
[0042]將每段正文切分為至少一個片段具體包括:使用正則表達式將選取的正文按照標(biāo)點符號進行斷句,得到的每一個句子為一個片段。
[0043]S300:分析所述片段以獲取互聯(lián)網(wǎng)信息。
[0044]圖2為圖1中步驟S300的詳細的流程圖。步驟S300具體包括:
[0045]S310:讀取所述片段中的一個片段。
[0046]S320:判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記,若否則執(zhí)行步驟S350,若是則執(zhí)行步驟S330。[0047]本實施例中,判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記具體是使用字段匹配方法,分別判斷標(biāo)記數(shù)據(jù)列表中的各個字段標(biāo)記是否等于該片段中的一個字段,進而篩選得到匹配的字段標(biāo)記。同樣以分析網(wǎng)絡(luò)用戶對特定種類產(chǎn)品的評價為例,如果需要分析網(wǎng)絡(luò)用戶對戶外用品的評價,則判斷包括戶外用品的產(chǎn)品名稱(例如沖鋒衣、登山鞋等等)的標(biāo)記數(shù)據(jù)列表中是否存在與獲取的片段匹配的字段標(biāo)記(即產(chǎn)品名稱),如果存在則進一步執(zhí)行步驟S330并保存所述字段標(biāo)記,否則執(zhí)行步驟S350。
[0048]S330:判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,若否則執(zhí)行步驟S350,若是則執(zhí)行步驟S341。
[0049]本實施例中,匹配規(guī)則為預(yù)先設(shè)定的匹配算法,包括多個關(guān)鍵詞以及不同關(guān)鍵詞之間的位置關(guān)系。則判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,包括對每一個匹配算法執(zhí)行以下操作:判斷該片段是否包括該匹配算法中的所述多個關(guān)鍵詞,若否則該片段不與該匹配規(guī)則匹配,若是則進一步判斷所述關(guān)鍵詞在該片段中的位置是否符合匹配算法中的位置關(guān)系,若否則該片段不與該匹配規(guī)則匹配,若是則該片段與該匹配規(guī)則匹配,可以記錄該匹配規(guī)則對應(yīng)的屬性。
[0050]通過這樣的方法,可以借助判斷片段中是否存在關(guān)鍵詞以及存在關(guān)鍵詞的片段中的關(guān)鍵詞的位置關(guān)系,快速且準(zhǔn)確地進行匹配運算。
[0051]雖然本發(fā)明對一個片段,分兩次采用匹配算法,但是因為后續(xù)會將兩次匹配算法得到的結(jié)果進行校驗,所以能夠降低每一次匹配算法的復(fù)雜度;進一步地,因為在通過步驟S320匹配之后,只對存在與其匹配的字段標(biāo)記的片段進行步驟S330的匹配操作,運算復(fù)雜度降低。
[0052]S340:使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記。
[0053]其中,步驟S340具體包括以下步驟:
[0054]S341:選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表。本實施例中,根據(jù)字段標(biāo)記選擇關(guān)聯(lián)列表,同樣以分析網(wǎng)絡(luò)用戶對特定種類產(chǎn)品的評價為例,如果在步驟S320中,與一個片段匹配的字段標(biāo)記為登山鞋;則選擇與登山鞋所對應(yīng)的關(guān)聯(lián)列表,該關(guān)聯(lián)列表包括的屬性為耐磨性、防水性等等。
[0055]S342:讀取一個與該片段匹配的匹配規(guī)則。本實施例中,在步驟S330中可以獲得與片段匹配的匹配規(guī)則;同樣以分析網(wǎng)絡(luò)用戶對特定種類產(chǎn)品的評價為例,如果在步驟S330中,與該片段匹配的匹配規(guī)則共有兩個,對應(yīng)的屬性分別為防水性和耐磨性;則在步驟S342讀取其中一個匹配規(guī)則。
[0056]S343:判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則執(zhí)行步驟S344,否則執(zhí)行步驟S345。本實施例中,同樣以分析網(wǎng)絡(luò)用戶對特定種類產(chǎn)品的評價為例,如果在步驟S342中,讀取的匹配規(guī)則對應(yīng)的屬性為防水性;則在步驟S343判斷防水性的屬性是否位于在步驟S341中選擇的關(guān)聯(lián)列表中。即通過判斷經(jīng)過上述匹配算法得到的屬性與字段標(biāo)記是否位于同一關(guān)聯(lián)列表,實現(xiàn)了對匹配運算結(jié)果的二次校驗,提高了分析的準(zhǔn)確率。
[0057]S344:將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記,作為獲取的互聯(lián)網(wǎng)信息。本實施例中,如果步驟S343的判斷結(jié)果為是,則將屬性以及字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記,從而獲取互聯(lián)網(wǎng)信息,供使用者使用以進行后續(xù)的處理。
[0058]S345:判斷是否存在未讀取的匹配規(guī)則,若判斷為是則執(zhí)行步驟S342,否則執(zhí)行步驟S350。即如果存在未讀取的匹配規(guī)則,則返回步驟S342讀取匹配規(guī)則。
[0059]S350:判斷是否存在未讀取的片段,若判斷為是則執(zhí)行步驟S310,否則退出流程。即如果存在未讀取的片段,則返回步驟S310讀取片段。
[0060]進一步地,使用本實施例的互聯(lián)網(wǎng)信息分析方法時,可以通過修改關(guān)聯(lián)列表中的屬性,控制篩選得到的屬性的范圍,有助于提高篩選獲得的信息的專注度。例如,如果需要針對特定屬性進行分析,則可以將關(guān)聯(lián)列表中的屬性設(shè)置為所上述特定屬性,從而對信息進一步進行篩選,而且這一步篩選操作的準(zhǔn)確率更高?,F(xiàn)有技術(shù)中的這一步篩選一般是通過在使用搜索引擎的操作中設(shè)置搜索條件而實現(xiàn)的,在搜索條件多的情況下往往會導(dǎo)致搜索引擎獲取的搜索結(jié)果遺漏部分信息,本發(fā)明則可以更好地保證信息的完整性和準(zhǔn)確性。
[0061]進一步地,使用本發(fā)明的互聯(lián)網(wǎng)信息分析方法時,由于將匹配操作分為兩個步驟,與使用一次匹配操作的方法相比,在網(wǎng)絡(luò)語言變化時,修改匹配規(guī)則的操作更方便。原因在于將匹配操作分為兩個步驟時,單個匹配操作的復(fù)雜度明顯降低,匹配規(guī)則的復(fù)雜度也明顯降低,則對匹配規(guī)則的修改也更方便。
[0062]圖3為本發(fā)明互聯(lián)網(wǎng)信息分析裝置一個實施例的框圖。本發(fā)明的互聯(lián)網(wǎng)信息分析裝置,包括數(shù)據(jù)庫單元100、片段獲取單元200和信息分析單元300。
[0063]其中,數(shù)據(jù)庫單元100預(yù)先保存有標(biāo)記數(shù)據(jù)列表110、規(guī)則數(shù)據(jù)列表120和關(guān)聯(lián)屬性列表130。本發(fā)明的標(biāo)記數(shù)據(jù)列表110包括多個字段標(biāo)記,規(guī)則數(shù)據(jù)列表120包括匹配規(guī)則以及與每個匹配規(guī)則對應(yīng)的屬性,關(guān)聯(lián)屬性列表130包括多個關(guān)聯(lián)列表,每個關(guān)聯(lián)列表對應(yīng)于一個字段標(biāo)記并包括與該字段標(biāo)記對應(yīng)的屬性。
[0064]片段獲取單元200,適于抓取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,以及將每段正文切分為至少一個片段,將片段發(fā)送給信息分析單元300。具體地,本發(fā)明的片段獲取單元200,適于使用網(wǎng)絡(luò)爬蟲采集海量的HTML源文件,更具體地,可以先通過調(diào)用搜索引擎而檢索得到所需要的互聯(lián)網(wǎng)網(wǎng)頁,進而使用網(wǎng)絡(luò)爬蟲從上述檢索得到的互聯(lián)網(wǎng)網(wǎng)頁采集HTML源文件。片段獲取單元200,適于對HTML源文件使用正則表達式進行凈化和提取正文的操作,從而選取正文,本實施例中的片段獲取單元200可以通過利用HTML所規(guī)定的各種TAG設(shè)置正則表達式,從而濾除圖片、FLASH、廣告等不需要分析的內(nèi)容并且選出正文;片段獲取單元200還適于使用正則表達式將選取的正文按照標(biāo)點符號進行斷句,得到的每一個句子為一個片段。
[0065]信息分析單元300,連接于數(shù)據(jù)庫單元100和片段獲取單元200。適于分析接收到的片段以獲取互聯(lián)網(wǎng)信息,具體包括字段分析子單元310、匹配分析子單元320,以及關(guān)聯(lián)分析子單兀330。
[0066]字段分析子單元310,適于對每一個接收到的片段判斷標(biāo)記數(shù)據(jù)列表110中是否存在與該片段匹配的字段標(biāo)記,若是則將該片段發(fā)送給所述匹配分析子單元320。本實施例的字段分析子單元310通過對每一個接收到的片段,使用字段匹配方法判斷標(biāo)記數(shù)據(jù)列表110中的字段標(biāo)記是否等于該片段中的一個字段,從而判斷標(biāo)記數(shù)據(jù)列表110中是否存在與該片段匹配的字段標(biāo)記。[0067]匹配分析子單元320,適于對每一個接收到的片段判斷規(guī)則數(shù)據(jù)列表120中是否存在與該片段匹配的匹配規(guī)則,若是則將該片段發(fā)送給所述關(guān)聯(lián)分析子單元330。本實施例的匹配規(guī)則為預(yù)先設(shè)定的匹配算法,包括多個關(guān)鍵詞以及不同關(guān)鍵詞之間的位置關(guān)系。本實施例的匹配分析子單元320,適于在接收到片段時,對每一個匹配規(guī)則,判斷該片段是否包括該匹配規(guī)則中的所述多個關(guān)鍵詞,若否則該片段不與該匹配規(guī)則匹配,若是則進一步判斷所述關(guān)鍵詞在該片段中的位置是否符合匹配規(guī)則中的位置關(guān)系,若否則該片段不與該匹配規(guī)則匹配,若是則該片段與該匹配規(guī)則匹配
[0068]關(guān)聯(lián)分析子單元330,適于對每一個接收到的片段使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表130篩選對應(yīng)的屬性與字段標(biāo)記作為獲取的互聯(lián)網(wǎng)信息。
[0069]更具體地,關(guān)聯(lián)分析子單元330,適于在接收到片段時,選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表,以及對每一個與該片段匹配的匹配規(guī)則,判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記。
[0070]較佳地,本發(fā)明的規(guī)則數(shù)據(jù)列表120,還包括與每個匹配規(guī)則對應(yīng)的評價參數(shù),則關(guān)聯(lián)分析子單元330,在上述將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記的同時,一并保存評價參數(shù),則可以方便使用者對使用本發(fā)明的方法所得到的分析結(jié)果進行后續(xù)的處理。
[0071]圖4為本發(fā)明互聯(lián)網(wǎng)信息分析裝置另一個實施例的框圖。圖4所示的裝置與圖3所示的裝置大致相同,不同之處在于,圖4所示的裝置還包括數(shù)據(jù)修改單元400,數(shù)據(jù)修改單元400連接于數(shù)據(jù)庫單元100并適于修改數(shù)據(jù)庫單元100所保存的標(biāo)記數(shù)據(jù)列表110、規(guī)則數(shù)據(jù)列表120和關(guān)聯(lián)屬性列表130。
[0072]需要說明的是:
[0073]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0074]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0075]本領(lǐng)域技術(shù)人員可以理解,可以對實施例中的設(shè)備中的單元進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
【權(quán)利要求】
1.一種互聯(lián)網(wǎng)信息分析方法,其中,該方法包括如下步驟: 預(yù)先設(shè)置標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表;所述標(biāo)記數(shù)據(jù)列表包括多個字段標(biāo)記;所述規(guī)則數(shù)據(jù)列表包括匹配規(guī)則以及與每個匹配規(guī)則對應(yīng)的屬性;所述關(guān)聯(lián)屬性列表包括多個關(guān)聯(lián)列表,每個關(guān)聯(lián)列表對應(yīng)于一個字段標(biāo)記并包括與該字段標(biāo)記對應(yīng)的屬性; 抓取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,將每段正文切分為至少一個片段; 分析所述片段以獲取互聯(lián)網(wǎng)信息,具體包括對每一個片段執(zhí)行以下操作:判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記,若是則進一步判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,若是則使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記作為獲取的互聯(lián)網(wǎng)信息。
2.根據(jù)權(quán)利要求1所述的方法,其中, 所述使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記,具體包括: 選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及 對每一個與該片段匹 配的匹配規(guī)則執(zhí)行以下操作:判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記。
3.根據(jù)權(quán)利要求1所述的方法,其中, 所述規(guī)則數(shù)據(jù)列表,還包括與每個匹配規(guī)則對應(yīng)的評價參數(shù); 所述使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記,具體包括: 選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及 對每一個與該片段匹配的匹配規(guī)則執(zhí)行以下操作:判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記,同時保存與該匹配規(guī)則對應(yīng)的評價參數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其中, 所述抓取海量的互聯(lián)網(wǎng)文件,具體包括:使用網(wǎng)絡(luò)爬蟲采集海量的HTML源文件; 所述從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,具體包括:對所述HTML源文件使用正則表達式進行凈化和提取正文的操作,從而選取正文; 所述將每段正文切分為至少一個片段,具體包括:使用正則表達式將選取的正文按照標(biāo)點符號進行斷句,得到的每一個句子為一個片段。
5.根據(jù)權(quán)利要求1所述的方法,其中, 所述判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記具體包括:使用字段匹配方法,判斷標(biāo)記數(shù)據(jù)列表中的字段標(biāo)記是否等于該片段中的一個字段。
6.根據(jù)權(quán)利要求1所述的方法,其中, 所述匹配規(guī)則為預(yù)先設(shè)定的匹配算法,包括多個關(guān)鍵詞以及不同關(guān)鍵詞之間的位置關(guān)系; 所述判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,包括對每一個匹配算法執(zhí)行以下操作: 判斷該片段是否包括該匹配算法中的所述多個關(guān)鍵詞,若否則該片段不與該匹配規(guī)則匹配,若是則進一步判斷所述關(guān)鍵詞在該片段中的位置是否符合匹配算法中的位置關(guān)系,若否則該片段不與該匹配規(guī)則匹配,若是則該片段與該匹配規(guī)則匹配。
7.—種互聯(lián)網(wǎng)信息分析裝置,其中,該裝置包括數(shù)據(jù)庫單元、片段獲取單元和信息分析單元; 所述數(shù)據(jù)庫單元,適于預(yù)先保存有標(biāo)記數(shù)據(jù)列表、規(guī)則數(shù)據(jù)列表和關(guān)聯(lián)屬性列表;所述標(biāo)記數(shù)據(jù)列表包括多個字段標(biāo)記;所述規(guī)則數(shù)據(jù)列表包括匹配規(guī)則以及與每個匹配規(guī)則對應(yīng)的屬性;所述關(guān)聯(lián)屬性列表包括多個關(guān)聯(lián)列表,每個關(guān)聯(lián)列表對應(yīng)于一個字段標(biāo)記并包括與該字段標(biāo)記對應(yīng)的屬性; 所述片段獲取單元,適于抓 取海量的互聯(lián)網(wǎng)文件,從所述海量的互聯(lián)網(wǎng)文件中提取出多段正文,以及將每段正文切分為至少一個片段,將片段發(fā)送給信息分析單元; 所述信息分析單元,適于分析接收到的片段以獲取互聯(lián)網(wǎng)信息,具體包括字段分析子單元、匹配分析子單元,以及關(guān)聯(lián)分析子單元; 所述字段分析子單元,適于對每一個接收到的片段,判斷標(biāo)記數(shù)據(jù)列表中是否存在與該片段匹配的字段標(biāo)記,若是則將該片段發(fā)送給所述匹配分析子單元; 所述匹配分析子單元,適于對每一個接收到的片段,判斷規(guī)則數(shù)據(jù)列表中是否存在與該片段匹配的匹配規(guī)則,若是則將該片段發(fā)送給所述關(guān)聯(lián)分析子單元; 所述關(guān)聯(lián)分析子單元,適于對每一個接收到的片段,使用與該片段匹配的字段標(biāo)記和匹配規(guī)則并利用所述關(guān)聯(lián)屬性列表篩選對應(yīng)的屬性與字段標(biāo)記作為獲取的互聯(lián)網(wǎng)信息。
8.根據(jù)權(quán)利要求7所述的裝置,其中, 所述關(guān)聯(lián)分析子單元,適于在接收到片段時,選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及對每一個與該片段匹配的匹配規(guī)則,判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記。
9.根據(jù)權(quán)利要求7所述的裝置,其中, 所述規(guī)則數(shù)據(jù)列表,還包括與每個匹配規(guī)則對應(yīng)的評價參數(shù); 所述關(guān)聯(lián)分析子單元,適于在接收到片段時,選擇與該片段匹配的字段標(biāo)記所對應(yīng)的關(guān)聯(lián)列表;以及對每一個與該片段匹配的匹配規(guī)則,判斷與該匹配規(guī)則所對應(yīng)的屬性是否位于上述所選擇的關(guān)聯(lián)列表中,若是則將該屬性以及與該屬性所在的關(guān)聯(lián)列表相對應(yīng)的字段標(biāo)記保存為對應(yīng)的屬性與字段標(biāo)記,同時保存與該匹配規(guī)則對應(yīng)的評價參數(shù)。
10.根據(jù)權(quán)利要求7所述的裝置,其中, 所述片段獲取單元,適于使用網(wǎng)絡(luò)爬蟲采集海量的HTML源文件;對所述HTML源文件使用正則表達式進行凈化和提取正文的操作,從而選取正文; 所述片段獲取單元,適于使用正則表達式將選取的正文按照標(biāo)點符號進行斷句,得到的每一個句子為一個片段; 所述字段分析子單元,適于對每一個接收到的片段,使用字段匹配方法,判斷標(biāo)記數(shù)據(jù)列表中的字段標(biāo)記是否等于該片段中的一個字段; 所述匹配規(guī)則為預(yù)先設(shè)定的匹配算法,包括多個關(guān)鍵詞以及不同關(guān)鍵詞之間的位置關(guān)系;所述匹配分析子單元,適于對每一個接收到的片段,判斷該片段是否包括該匹配算法中的所述多個關(guān)鍵詞,若否則該片段不與該匹配規(guī)則匹配,若是則進一步判斷所述關(guān)鍵詞在該片段中的位置是否符合匹配算法中的位置關(guān)系,若否則該片段不與該匹配規(guī)則匹配,若是則該片段與該匹配規(guī)則匹配 。
【文檔編號】G06F17/30GK103500181SQ201310412581
【公開日】2014年1月8日 申請日期:2013年9月11日 優(yōu)先權(quán)日:2013年9月11日
【發(fā)明者】劉春梅 申請人:劉春梅