欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于at的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法

文檔序號:9929642閱讀:603來源:國知局
基于at的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘、自然語言處理和信息檢索領(lǐng)域,設(shè)及網(wǎng)絡(luò)突發(fā)事件模型構(gòu) 建和發(fā)展分析,用于對網(wǎng)絡(luò)文檔流進行建模,并通過對模型計算得到的結(jié)果做進一步處理, 對可能的突發(fā)事件進行預(yù)警。具體講,設(shè)及基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù) 警方法。
【背景技術(shù)】
[0002] 文本分類技術(shù)首次出現(xiàn)在上世紀50年代末,Luhn提出了一種基于詞頻的文本自動 分類方法。隨著近年來信息技術(shù)的迅猛發(fā)展,文本分類已經(jīng)成為信息檢索領(lǐng)域內(nèi)的研究熱 點。
[0003] 話題檢測與跟蹤(Topic Detection and Tracking,TDT)與文本分類技術(shù)一脈相 承,是文本分類技術(shù)的一種更為具體的應(yīng)用,它最早由美國國防高級研究計劃署(DARPA)提 出,是一種能在沒有人工干預(yù)的情況下自動判斷新聞數(shù)據(jù)流的主題的新技術(shù)。主要設(shè)及準 確地進行話題檢測和跟蹤已知話題的動態(tài)演化過程。
[0004] 為話題和文檔建立計算機可W表示的模型是TDT中最為基礎(chǔ)的研究內(nèi)容,目前文 本表示模型主要有向量空間模型(Vector Space Model,VSM)、概率檢索模型(Probability Retrieval Model)、詞匯鏈模型和圖模型(Gra地S Models,GM)。
[0005] 在文本表示模型中需要對文檔進行特征提取,而權(quán)重計算是特征提取的最重要一 環(huán),目前最為廣泛的權(quán)重計算方法為TF-IDF(詞頻-逆文檔頻率)。近年來,研究人員在其基 礎(chǔ)上改進,提出了解決短期內(nèi)熱點發(fā)現(xiàn)的TF-PDF方法。
[0006] 話題檢測算法在本質(zhì)上是對文檔庫中的文檔進行聚類,將描述較為相似的、很可 能屬于同一個話題的文檔聚類到一個文本簇中,而運個文本簇就是話題的原型。文本聚類 是一種無監(jiān)督的機器學習方法,其主要依據(jù)運樣一個著名的聚類假設(shè):同類的文檔相似度 較大,不同類的文檔相似度較小,也就是說,兩個文檔的相似度越大,它們屬于同一個類的 概率越大,反之亦然。在話題檢測技術(shù)中常用的文本聚類方法包括層次聚類方法,基于劃分 的聚類方法W及增量聚類方法。
[0007] 生物成長理論(Aging化eo巧,AT)可W使用微生物在培養(yǎng)基上的生長情況為代表 來進行說明。如圖2所示,為微生物的生長曲線。微生物的生長需要經(jīng)歷四個過程,首先是調(diào) 整期,此時微生物剛剛接種到培養(yǎng)基之上,其代謝系統(tǒng)需要適應(yīng)新的環(huán)境,同時要合成酶、 輔酶、其他代謝中間代謝產(chǎn)物等,所W此時期的細胞數(shù)目沒有明顯增加;然后進入對數(shù)增長 期,經(jīng)過調(diào)整期的準備,為此時期的微生物生長提供了足夠的物質(zhì)基礎(chǔ),同時外界環(huán)境也是 最佳狀態(tài);第=個階段是穩(wěn)定期,由于營養(yǎng)的消耗使營養(yǎng)物比例失調(diào)、有害代謝產(chǎn)物積累、 PH值EH值等理化條件不適宜,使得細胞數(shù)目保持相對穩(wěn)定,總細菌數(shù)達到最高水平,細胞代 謝產(chǎn)物積累達到最高峰;最后是衰亡期,在此階段,主要是外界環(huán)境對繼續(xù)生長越來越不 利、細胞的分解代謝大于合成代謝、繼而導致大量細菌死亡。類似于生物生長的自然規(guī)律, 一個事件在網(wǎng)絡(luò)中被討論的熱度,也會隨著時間的推移呈現(xiàn)出類似于微生物生長的趨勢變 化曲線。

【發(fā)明內(nèi)容】

[0008] 為克服現(xiàn)有技術(shù)的不足,本發(fā)明旨在:
[0009] (1)利用最前沿的話題檢測技術(shù),改進檢測方案,選取符合需求的聚類方法,從而 得到較為準確的聚類結(jié)果。
[0010] (2)改進的生長理論為話題構(gòu)建生命周期模型,考慮諸多因素使得事件模型更契 合實際情況。
[0011] (3)在已構(gòu)建的生命周期模型的基礎(chǔ)上進行熱點事件W及突發(fā)事件的檢測及預(yù)警 并保證較高的準確率。
[0012] 本發(fā)明采用的技術(shù)方案是,基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方 法,步驟如下:
[0013] 步驟一:定制網(wǎng)絡(luò)爬蟲,爬取網(wǎng)絡(luò)新聞文檔;
[0014] 步驟二:對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理;
[0015] 步驟=:對文檔中的詞語進行詞語權(quán)重計算;
[0016] 步驟四:文本表示及相似度計算;
[0017] 步驟五:對文檔進行聚類;
[0018] 步驟六:選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子.
[0019] 步驟屯:突發(fā)事件檢測與預(yù)警。
[0020] 步驟二在步驟一的基礎(chǔ)上對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理,具 體步驟如下:降噪處理,刪除爬取到的垃圾信息;去重處理,去除完全相同的新聞報道;去停 用詞,停用詞沒有任何實際意義,對此進行過濾處理;中文分詞處理,將中文句子分成單獨 的一個一個詞。
[0021] 步驟=在步驟二的基礎(chǔ)上對文檔中的詞語進行詞語權(quán)重計算,具體步驟如下:
[0022] 在增量TF-IDF計算詞語W的權(quán)重時,需要對在i時刻包含W的文檔個數(shù)壯i(W) W及 當前獲取的文檔總數(shù)Ni進行更新,其更新的公式如1和2所示;其中成'(vr)表示在第i個時間 段內(nèi)新加入的包含W的文檔個數(shù),W,,表示在第i個時間段內(nèi)新加入的總的文檔個數(shù),dfi(W) 表示前i個時間窗內(nèi)包含詞語W的文檔數(shù),壯i-i(w)表示前i-1個時間窗內(nèi)包含詞語W的文檔 數(shù),N康示前i個時間窗內(nèi)文檔總數(shù):
[0023] (1)
[0024] (2)
[0025] 利用公式(3)計算詞語W的增量TF-IDF值,其中tfidf/ (w,d)表示文檔d中詞語W的 權(quán)重,count (W,d)表示文檔d中詞語W出現(xiàn)的次數(shù),count (,d)表示文檔d中詞語W'出現(xiàn)的 次數(shù),IogO是WlO為底的對數(shù)函數(shù):
[0026]
(引'
[0027] 將詞語的位置信息考慮到詞語的權(quán)重計算中,對表示地點、人物等名詞加大權(quán)重, 得到加權(quán)TF-IDF計算方法,如公式4所示。其中tf idf" (W,d)表示詞語W在文檔d中的加權(quán)權(quán) 重,Wheadline和Wentity權(quán)重因子。
[002引
(4)
[00巧]Wheadline和Wentity計算方式如公式5所不。
[0030]

[0031] 加入時間距離因子,時間距離因子TIF的計算方法如公式8所示,其中doc證Ublish 代表當前文檔的發(fā)布時間,topic化date則表示話題中的文檔集合最后一次更新的時間,時 間單位為秒,
[0032] 微
[0033] 結(jié)合時間距離因子后,計算文檔和話題的相似度Sim(d,t)的方法如公式9所示:
[0034] Sim(d,t) =Similarity'(d,t)*TIF (9)。
[0035] 步驟四在步驟=的基礎(chǔ)上對文檔中的詞語進行詞語權(quán)重計算,具體步驟如下:
[0036] 采用空間向量模型來表示話題和文檔,對每一個文檔D,都可W將其表示為一個由 n個關(guān)鍵詞組成的n維向量,而后就可W將文檔中的內(nèi)容轉(zhuǎn)換為向量空間中的向量進行運 算,在將話題和文檔使用向量空間模型表示為向量W后,就可W使用向量夾角來對文檔與 話題之間的相似度進行量化;在將話題和文檔使用向量空間模型表示為向量W后,使用向 量夾角來對文檔與話題之間的相似度進行量化,如公式7所示,其中SimiIarit/ (d,t)表示 文檔d和話題t的相似度,tfi壯(w,d)表示詞語W在文檔d中的權(quán)重,tfi壯(w,t)表示詞語W在 話題t的權(quán)重。
[0037]
(7)。
[0038] 步驟五在步驟四的基礎(chǔ)上對文檔進行聚類,具體步驟如下:使用Single-Pass作為 在線話題檢測的增量聚類方法,利用該方法并結(jié)合時間距離因子將新聞文檔進行分類,具 體是:
[0039] (1)輸入一篇網(wǎng)絡(luò)文檔d;
[0040] (2)計算文檔d與當前已有話題中的各個話題中的每一篇文檔的相似度,并選取其 中的最大值作為與該話題的相似度;
[0041] (3)在所有話題中選出與文檔d相似度最大的一個話題,并記錄此時的相似度值S;
[0042] (4)如果S大于聚類闊值Tc,文檔d被分配給運個話題模型的文本類,跳轉(zhuǎn)至(6);
[0043] (5)如果S小于聚類闊值Tc,說明文檔d不屬于當前已有的話題集合中的任意話題, 創(chuàng)建新話題并將文檔d加入該新話題;
[0044] (6)聚類結(jié)束,等待新文檔的到來。
[0045] 步驟六在步驟五的基礎(chǔ)上選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子,具體步驟如下:
[0046] 對一個話題V,記在一個時間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加和 為Xt,設(shè)置營養(yǎng)轉(zhuǎn)換因子a (Nutrition Transferred Factor)和營養(yǎng)衰減因子0(Nut;r it ion Decayed Factor),a決定了新聞文檔能夠貢獻給話題的營養(yǎng)值,e則代表營養(yǎng)衰減因子,通 過設(shè)定相關(guān)函數(shù),并通過機器學習的方法獲得最佳的營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子,根據(jù) 實際情況,網(wǎng)絡(luò)新聞發(fā)布數(shù)量不是按時間均勻分布的,在新聞報道重量較少的情況下,話題 的能量值會衰減過快,因此考慮實際情況在計算即寸乘上一個與該時間窗內(nèi)文檔數(shù)量有關(guān) 的函數(shù);同時在新話題建立初期,營養(yǎng)值會出現(xiàn)增長過快的情況,在計算當前文檔對話題的 影響時乘上一個與該話題當前文檔數(shù)相關(guān)的函數(shù)W進行抑制。
[0047] 步驟六進一步具體形式是:
[0048] 對于一個話題V,記在一個時間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加 和為Xt,在t時刻話題的能量值可記為一個與a和PW及每
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
渑池县| 土默特右旗| 华蓥市| 洛扎县| 额尔古纳市| 柳河县| 永城市| 郎溪县| 宣城市| 赫章县| 青神县| 射阳县| 都江堰市| 阿坝| 西乌珠穆沁旗| 五常市| 宝丰县| 垦利县| 兴安县| 太康县| 襄樊市| 章丘市| 南溪县| 方城县| 会昌县| 乳山市| 涟源市| 通许县| 东乌珠穆沁旗| 丹凤县| 桂东县| 邯郸县| 长乐市| 兴国县| 中江县| 庆城县| 红河县| 荆州市| 竹北市| 南平市| 红桥区|