1.一種基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,包括以下步驟:
步驟S1、從Spout任務數(shù)據(jù)源獲得的URL,計算所述URL的Hash值并發(fā)往相應的節(jié)點,在所述節(jié)點上篩選待爬取URL和已爬取URL,若屬于其中一種,則將該URL舍棄;
步驟S2、對需要爬取的URL頁面的關鍵內容進行解析和提取,獲得頁面的所有關鍵詞,計算提取每個關鍵詞的特征值,所述所有關鍵字的特征值組成該記錄的特征向量;
步驟S3、對關鍵詞和特征向量其中的數(shù)值信息進行提取,并判斷其數(shù)值信息是否位于價格置信區(qū)間當中,對于不在置信區(qū)間內的價格信息直接舍棄;
步驟S4、將數(shù)值過濾后獲得該條記錄的關鍵詞,與不同類別關鍵詞列表進行匹配,根據(jù)相似度確定該條記錄發(fā)往對應類別及其所在節(jié)點;
步驟S5、將該記錄特征向量與該類別所有成員的特征向量進行相似度平均值計算;若相似度平均值低于第二預設閾值區(qū)間,則將該記錄特征向量發(fā)往其他類別所在節(jié)點,計算與不同類別的相似度平均值;
步驟S6、根據(jù)特征向量匹配計算結果,對共享資源進行更新操作。
2.如權利要求1所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,采用頁面解析技術和中文分詞技術對URL頁面的關鍵內容進行解析和提取,獲得頁面的所有關鍵詞。
3.如權利要求1所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,所述關鍵詞的特征值計算方法為TF*IDF,其中,TF代表該條記錄中每個關鍵詞詞頻,IDF代表該關鍵詞出現(xiàn)的記錄條數(shù)。
4.如權利要求1所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,步驟S6具體為:通過計算該條記錄URL Hash值確定對應節(jié)點,鎖定和更新該節(jié)點上的已爬取URL列表;根據(jù)特征向量計算確定該條記錄所屬類別,鎖定并更新該類別的關鍵詞列表和類別特征向量。
5.如權利要求1所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,步驟S4具體為:將該信息的關鍵詞列表發(fā)往各類別節(jié)點,與各類別關鍵詞列表進行相似度計算,根據(jù)計算結果與預設的第一閾值區(qū)間對比,進行相應處理:
如果與各類別關鍵詞列表計算后,相似度最大值仍低于預設第一閾值區(qū)間下限,則認為其與貨物價格信息相關性較低,同時舍棄;否則,將該信息發(fā)送到與其相似度最大的類別所在的節(jié)點。
6.如權利要求1所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,在步驟S5中,如果特征向量相似度平均值大于預設第二閾值區(qū)間的上限,則認為該條信息屬于該類別,進行后續(xù)的鎖定更新操作,否則,將該信息及其特征向量發(fā)往其他類別進行相似度平均值計算,根據(jù)得到的特征向量相似度平均值進行以下相應處理:
如果與該類別的特征向量相似度平均值大于預設第二閾值區(qū)間上限,則認為該條信息屬于該類別,對該類別進行后續(xù)的鎖定更新操作;
如果與該類別特征向量相似度平均值最大值介于預設第二閾值區(qū)間上下限之間,則認為將會產生新的類別;
如果與該類別的特征向量相似度平均值小于預設第二閾值區(qū)間下限,則認為該條信息與貨物價格信息無關,同時舍棄。
7.如權利要求1所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,特征向量相似度計算采用余弦相似度匹配算法。
8.如權利要求6所述的基于流式計算的金融倉單風險信息爬取和篩選方法,其特征在于,產生新的類別包括:類別關鍵詞列表以及類別特征向量庫。