欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于at的時間模型構建方法與網絡突發(fā)事件預警方法_3

文檔序號:9929642閱讀:來源:國知局
和2所示。其中斯表示在 第i個時間段內新加入的包含W的文檔個數,%表示在第i個時間段內新加入的總的文檔個 數,dfi(w)表示前i個時間窗內包含詞語W的文檔數,dfi-i(w)表示前i-1個時間窗內包含詞 語W的文檔數,Ni表示前i個時間窗內文檔總數。
[0116] (1)
[0117] 巧
[0118] 步驟S0302:利用公式3計算詞語W的增量TF-IDF值,其中tfi壯/ (w,d)表示文檔d中 詞語W的權重,COimt (W,d)表示文檔d中詞語W出現的次數,COimt (,d)表示文檔d中詞語W ' 出現的次數,IogO是WlO為底的對數函數。
[0119]
[0120] 步驟S0303:將詞語的位置信息考慮到詞語的權重計算中,對表示地點、人物等名 詞加大權重(特征詞的詞性由分詞工具可得),得到加權TF-IDF計算方法,如公式4所示。其 中tfi壯"(W,d)表示詞語W在文檔d中的加權權重,Wheadline和Wenti1;y權重因子。
[0121] tfidf''(W,d) = (l.0+Wheadline+Wenti1;y)*tfidf' (W,d) (4)
[01 22] Wheadline和Wentity計算方式如公式5所不。
[0123]
(5)
[0124] 步驟S0401:對每一個文檔D,都可W將其表示為一個由n個關鍵詞組成的n維向量, 而后就可W將文檔中的內容轉換為向量空間中的向量進行運算,記為(dl,d2,......,山), 稱di為D的第i個分量??紤]到計算的時間復雜度,選取文檔中權重較高的K個詞作為該文檔 的向量維數。同樣的,為了方便相似度的計算,對于話題集合中的話題,也采用向量空間模 型來對其進行表示。運樣,每一個文檔和話題都能夠使用一個向量進行量化表示,如式6其 中Wi表示di在文檔D中的權重。
[0125] D=(wi,W2, . . . ,Wn) (6)
[0126] 步驟S0402:在將話題和文檔使用向量空間模型表示為向量W后,使用向量夾角來 對文檔與話題之間的相似度進行量化。如公式7所示,其中similarity/(d,t)表示文檔d和 話題t的相似度,tfi壯(w,d)表示詞語W在文檔d中的權重,tfi壯(w,t)表示詞語W在話題t的
權重。
[0127] 巧)
[0128] 步驟S0403:加入時間距離因子,時間距離因子TIF的計算方法如公式8所示,其中 docuPublish代表當前文檔的發(fā)布時間,topic化date則表示話題中的文檔集合最后一次更 新的時間,時間單仿為砂。
[0129]
揖)
[0130] 結合時間距離因子后,計算文檔和話題的相似度Sim(d,t)的方法如公式9所示。
[0131] Sim(d,t) =Similarity'(d,t)*TIF (9)
[0132] 步驟S0501:使用Single-Pass作為在線話題檢測的增量聚類方法?;玖鞒倘缦拢?br>[0133] (1)輸入一篇網絡文檔d;
[0134] (2)計算文檔d與當前已有話題中的各個話題中的每一篇文檔的相似度,并選取其 中的最大值作為與該話題的相似度;
[0135] (3)在所有話題中選出與文檔d相似度最大的一個話題,并記錄此時的相似度值S;
[0136] (4)如果S大于聚類闊值Tc,文檔d被分配給運個話題模型的文本類,跳轉至(6);
[0137] (5)如果S小于聚類闊值Tc,說明文檔d不屬于當前已有的話題集合中的任意話題, 創(chuàng)建新話題并將文檔d加入該新話題;
[0138] (6)聚類結束,等待新文檔的到來。
[0139] 步驟S0601:本發(fā)明將連續(xù)的時間序列劃分為長度相同的時間段(time SO11),并 W每個時間窗口為單位對話題的進行能量值計算,本發(fā)明選取10分鐘作為一個時間窗口的 長度。
[0140] 步驟S0602:對于一個話題V,記在一個時間窗t內所有的屬于該話題的文檔與其相 似度的累加和為Xt,設置營養(yǎng)轉換因子a(Nu1:;rition IYansferred Factor)和營養(yǎng)衰減因 子^(Nutrition Decayed化Ctor),其中a決定了新聞文檔能夠貢獻給該話題的營養(yǎng)值,0則 代表營養(yǎng)衰減因子。另外,在t時刻話題的能量值可記為一個與a和PW及每一個時間段內的 加入話題的文檔相似度的累加和(X1,X2,...Xt)相關的聯合函數如式10所示:
[0141] yt = g(xi, . . . ,xt,a,0) (10)
[0142] 步驟S0603:定義一個能量函數F(y)用于計算話題的熱度值,該函數的參數是該文 檔的營養(yǎng)值。函數需滿足W下屬性,如式11所示:
[0143] 〇<F(y)<l
[0144] 嚴格單調遞增 (11)
[0145] F(O)=O,F(^) = I
[0146] 步驟S0604:對能量函數進行更為具體的定義如式12所示:
[0147]
(12)
[0148] 其中,r指的是營養(yǎng)值的系數(考慮到衰減因子等因素,r不是一個常量),s是一個 常量,T是時間窗口的數目,r和S均由用戶進行選擇。
[0149] 步驟S0605:考慮一種極端的情況,話題的能量值不隨著時間有所衰減,即衰減因 子為0。運樣話題的營養(yǎng)值就僅僅與營養(yǎng)轉換因子有關,在T時刻話題的能量值就可W表示 為式13:
[0150]
U3)
[0151] 由于F是一個嚴格單調遞增函數,該式的兩邊取反可得式14:
[0152]
(14)
[0153] 運樣就可W通過兩邊同時除
來計算〇,得式15:
[0154]
CIS)
[0155] 步驟S0606:S0605討論的極端情況是不符合現實情況的,不論在生物的成長過程 還是在網絡新聞事件的發(fā)展過程中,其能量值總是要隨著時間的推移而有所衰減的。所W, 本發(fā)明中定義一個營養(yǎng)衰減因子來表示每個時間段內話題能量的衰減值。因此可使用公式 15計算t時刻話題的營養(yǎng)值:
[0156]
(16)
[015 引 (]7)
[0157]步驟S0607:選取兩組不同的參數(ri,si)和(r2,S2),即可獲得轉換因子及衰減因 子的計算公式17和式18:
[0159] (18)
[0160] 步驟S0608:考慮客觀影響因子,不同時間段新聞報道的數量不同,在報道量較小 的時間段會產生話題的能力值下降過快下降的情況。本發(fā)明所使用的營養(yǎng)衰減因子的計算 方法如式19所示:
[0161] Pi =帕log(l .0+m/avg) (19)
[0162] 其中,01指的是在第i個時間窗口內的動態(tài)衰減闊值,巧旨營養(yǎng)衰減因子,m指在第i 個時間窗口內總的新聞報道數目,avg是一個常量經驗值,代表在一個時間窗口內平均發(fā)布 的新聞報道數目。
[0163] 步驟S0609:同樣考慮話題剛剛建立時由于營養(yǎng)值的迅速增加,事件的熱度值也會 有一個快速的增長而跳過事件發(fā)展生命周期中的萌芽期,同時運也會造成新話題的熱度值 虛高,從而影響到熱點發(fā)現及突發(fā)預警的結果。所W需要在話題中所包含的文檔數較少的 時候對能量值的增長進行抑制。本課題通過改進營養(yǎng)值的計算方法來解決運個問題。一篇 文檔對當前話題貢獻的營養(yǎng)值的計算方法可W表示如式20所示:
[0164] ANut;rition = a*sim*logEnimi(l'num) (20)
[0165] 其中化um表示當前話題中的文檔數目,Enum為經驗值,Sim表示當前文檔與該話題 的相似度。
[0166] 步驟S0610:綜上本發(fā)明所使用的模型構建方法可W描述為算法如下:
[01A71
[0168] 本文使用了在國內幾大新聞口戶網站上爬取的從2013年12月I號到12月5號之間 的50000篇新聞作為數據來源。從中隨機選取5000篇作為話題檢測的數據集。然后從中選取 新聞文檔數較多(超過20篇)的9個話題做人工標注,選取運些話題相關的新聞報道作為訓 練集。表1中列出了運些話題的報道數目。
[0169] 表1話題報道數量
[0170]
[0171] 首先,使用訓練集對建模過程中用到的各個參數進行訓練,得到較優(yōu)的聚類闊值 t虹eshold = 0.17,而后通過上文中的方法對營養(yǎng)轉換因子aW及營養(yǎng)衰減因子0進行訓練, 得到a = 〇. 14332,0 = 0.01467。
[0172] 本發(fā)明通過對比原始話題檢測方法(NormalTDT)和時間距離相關的話題檢測方法 (TIFTDT)得到的準確率(Precision),召回率(Recall)和F值來評估方法的效果。如表2,表3
[0174] 所示為兩種方法的準確率,召回率和F值的比較。[0173] 表2原始話題檢測方法(Norma 口 DT)
[0175]
[0176]
[0177] 由表2和表3的對比結果??芍谠诰€話題檢測的過程中加入時間距離因子,對檢 測的效果具有一定程度的提升。觀察兩表可W看到,盡管對某些話題F值不升反降,但對大 部分的話題來說,加入TIF都是能夠有效提高聚類效果的。本發(fā)明中所提出的時間距離相關 的話題檢測更傾向于對短期內出現大量報道的新聞話
當前第3頁1 2 3 4 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
盘山县| 富顺县| 崇义县| 南木林县| 克拉玛依市| 阳东县| 晋宁县| 盘锦市| 健康| 高碑店市| 奉新县| 武平县| 永城市| 漳浦县| 九江市| 庄河市| 时尚| 西峡县| 阆中市| 古丈县| 普陀区| 静海县| 宜昌市| 康乐县| 多伦县| 龙山县| 汕头市| 和平县| 武威市| 德惠市| 锡林郭勒盟| 潮安县| 泰来县| 公主岭市| 虎林市| 常德市| 通辽市| 博白县| 怀集县| 东方市| 涪陵区|