技術(shù)總結(jié)
本發(fā)明公開一種基于流式計算的金融倉單風險信息爬取和篩選方法,基于流式計算技術(shù)將爬蟲過程解耦為6個子過程:URL篩選、頁面分析、關(guān)鍵詞過濾、數(shù)值過濾、特征向量匹配過濾、資源更新。采用本發(fā)明的技術(shù)方案,以解決傳統(tǒng)方法在并行爬蟲方面實時性較低,金融倉單風控對貨物估值實時性要求高的問題。
技術(shù)研發(fā)人員:李浩
受保護的技術(shù)使用者:北京工業(yè)大學
文檔號碼:201610465640
技術(shù)研發(fā)日:2016.06.23
技術(shù)公布日:2016.11.16