一種基于社交媒體計算的金融行為分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其特征在于,系統(tǒng)包括三大類模塊:爬蟲、數(shù)據(jù)庫及索引和分析器,爬蟲主要負責數(shù)據(jù)采集,數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)采集的數(shù)據(jù)信息,在建立索引時,對每個用戶和每條微博設(shè)定一個全局ID,以此來對不同數(shù)據(jù)庫中的信息進行對齊和檢索,分析器是系統(tǒng)的核心,包括6個子模塊,分別是:話題分析、實體識別、動作識別、消息跟蹤、情感分析和社區(qū)聚類分析。本發(fā)明所述的一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng)能夠有效、準確地收集到用戶信息,從而對用戶數(shù)據(jù)進行較為完整的歸檔、整理,建立用戶信息庫,根據(jù)用戶的信息庫給用戶提供用戶關(guān)注的消息推送。
【專利說明】一種基于社交媒體計算的金融行為分析系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),所屬計算機軟件應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002]隨著Web2.0的發(fā)展,越來越多的人們希望能夠在互聯(lián)網(wǎng)上自由的表達自己的觀點。這些觀點可以是發(fā)表或轉(zhuǎn)載一條消息或新聞,或者對某一條新聞的評論,也可以是自己的某種情緒的宣泄。傳統(tǒng)的討論版、BBS、博客漸漸無法滿足高速信息的沖擊。在此背景下,微博作為一種新型社交媒體,越來越多的吸引互聯(lián)網(wǎng)上的用戶的關(guān)注,形成了極大的使用粘性和覆蓋率。由此,這些海量具有時效性的數(shù)據(jù)帶來了巨大的機會和挑戰(zhàn)。
[0003]首先,大數(shù)據(jù)中蘊含大機會。華爾街Derwent Capital Markets公司Paul Hawtin利用電腦程序分析全球3.4億Twitter賬戶留言,進而判斷民眾情緒,依據(jù)分析結(jié)果決定如何處理手中數(shù)以百萬美元計的股票。此外,對沖基金依據(jù)購物網(wǎng)站顧客評論分析企業(yè)產(chǎn)品銷售狀況;銀行根據(jù)求職網(wǎng)站崗位數(shù)量推斷就業(yè)率;投資機構(gòu)搜集并分析上市企業(yè)聲明尋找破產(chǎn)原因。美國總統(tǒng)Obama的競選團隊也依據(jù)選情比較關(guān)鍵的各州選民的Twitter留言,實時分析選民對總統(tǒng)競選人的喜好;研究人員也試圖通過機器學(xué)習(xí)的手段來預(yù)測Twitter上的某個用戶是民主黨還是共和黨派。Google與美國疾病控制和預(yù)防中心等機構(gòu)合作,依據(jù)網(wǎng)民搜索內(nèi)容分析全球范圍內(nèi)流感等病疫傳播狀況。聯(lián)合國機構(gòu)依據(jù)拉丁美洲超市發(fā)布在互聯(lián)網(wǎng)的促銷廣告,判斷通貨膨脹走勢等等?;ヂ?lián)網(wǎng)社交媒體中蘊含著大量具有價值的信息和資源,能夠自動從中識別發(fā)現(xiàn)這些資源將會帶來大量的新的產(chǎn)業(yè)和機會。
[0004]第二,海量數(shù)據(jù)以及由于微博的發(fā)表字數(shù)限制和時效性,對數(shù)據(jù)分析和處理提出了很大的挑戰(zhàn)。Twitter,Facebook,Google和Bing每天都產(chǎn)生數(shù)百至數(shù)千Terabyte的數(shù)據(jù),如何有效的處理這些數(shù)據(jù)對數(shù)據(jù)分析提出了巨大的挑戰(zhàn)。大量的信息通過文本、圖像、聲音被記錄下來,因此有效的分析和翻譯并形成機器能夠讀懂的內(nèi)容成為了計算機科學(xué)家最關(guān)注的問題之一。特別的,互聯(lián)網(wǎng)中的信息有80%都來自于文本。因此,機器閱讀和理解越來越為人們所關(guān)注。例如,CMU機器學(xué)習(xí)系的創(chuàng)始人Tom Mitchell教授于2010年1月發(fā)起了一個機器閱讀的項目:Never ending language learning (NELL),其目的就在于從互聯(lián)網(wǎng)上大量的文本中自動抽取有用的知識。
[0005]對于微博中發(fā)表的短文本,相對于傳統(tǒng)的長文分析更加困難。短文本的寫法更加隨意和模糊。因此如何從短文本中抽取有用的信息和知識,甚至用戶的情感、觀點則更為困難。同時,更具有時效性,我們不能保存所有的信息。因此,必要的信息抽取和整合可以帶來更有效的存儲和檢索效率。
_6] 互聯(lián)網(wǎng)數(shù)據(jù)挖掘
[0007]在文本中,我們可以根據(jù)討論內(nèi)容的級別和模式,將其歸結(jié)為話題、實體、行動和消息幾類。
[0008]話題是最上層的表達形式。新聞、博客和微博可以對某一個特定的事件進行討論。如iphone的大賣、美國總統(tǒng)大選、方舟子和韓寒的熱議、三鹿奶粉三聚氰胺事件等等,都可以引發(fā)微博的討論、評論和轉(zhuǎn)載。對于這類問題,如果能夠及時從大量文本中找到大眾關(guān)注的問題并統(tǒng)計相關(guān)熱度,則可以幫助我們識別用戶的關(guān)注熱點。
[0009]實體是語言表達中的基本元素,常見的如人名、地名、公司名等等。在金融領(lǐng)域,我們還關(guān)心關(guān)鍵的時間、地點、股票名稱、漲幅百分比、債券利率、投入產(chǎn)出資金數(shù)量等等。對于某個特定的金融產(chǎn)品,我們關(guān)注其相關(guān)的人(如CE0,董事會成員,具有關(guān)鍵技術(shù)的人等)、產(chǎn)品、上下游產(chǎn)業(yè)相應(yīng)的公司等等。只有快速準確的挖掘出實體,我們才能更加有效地進行進一步的分析,如相應(yīng)話題熱度和股票相關(guān)性、人們的情緒情感和某支股票的相關(guān)度等等。
[0010]行動在此被定義為實體之間的關(guān)系。如“蘋果公司換CE0”,“某化工廠發(fā)生爆炸”,“日本海嘯”等等。行動由三元組組成:它具有一個主體,如“蘋果公司”;具有一個目標,如“CEO” ;并用一個動詞將兩個實體聯(lián)系起來。行動既可以刻畫某個關(guān)鍵的事件,又可以刻畫互聯(lián)網(wǎng)上大眾的一種集體行為。比如,互聯(lián)網(wǎng)上有很多很多的人表達自己的意愿,像“我想買一個iphone”,“我想買一個ipad”,“我覺得一個朋友的手機很好看”等等。如果能夠把人們在相關(guān)領(lǐng)域的意愿總結(jié)出來,則可以更加清晰地通過研究互聯(lián)網(wǎng)上的動態(tài)來研究大眾的消費和經(jīng)濟行為。
[0011]消息(Meme)在此被定義為“被不停轉(zhuǎn)載的一小段話”。在微博中,有大量的時效性新聞、評論、名人名言、哲理性的語言,甚至某個有趣的圖片或一段文字被不停地轉(zhuǎn)載。在本項目中,我們更加關(guān)心時效性的新聞和評論對經(jīng)濟數(shù)據(jù)的反應(yīng)以及反作用。因此,快速統(tǒng)計并有效地識別這些不停被轉(zhuǎn)載的新聞和評論將大大提高分析的效率和效果。
[0012]情感觀點的分類和識別
[0013]在社交媒體中,人們經(jīng)常會對某個事件表達自己的觀點。能夠正確識別這些觀點的傾向和情感,可以更好的分析社會網(wǎng)絡(luò)中人們的情緒偏向,以及對特定事件的集體響應(yīng)。比如,對三鹿奶粉三聚氰胺事件,大家經(jīng)常會使用“憤怒”,“道德淪喪”等等詞匯來描述;而對日本海嘯的消息則可能用“恐怖”,“同情”等詞來描述。另外對于公司可以用“有創(chuàng)意”,“贏家”,“看好”,“有風(fēng)險”等詞來描述;而對某個公司的名人則用“有領(lǐng)導(dǎo)力”,“羨慕”,“學(xué)習(xí)”,“詐騙”,“困局”等詞來描述。這些詞并不完全是形容詞,但是他們在不同層次表達了人們對特定的人或事件的情緒和傾向。因此,需要用更多的判別技術(shù)來判斷詞語所表達的含義。當這些情感和觀點通過不同的人匯集到一起時,則代表了市場或者社會輿論的整體傾向性。在社區(qū)媒體中,我們需要更多的在集體(population)層次上對這些情感進行分析、判斷甚至預(yù)測。
[0014]微博中社區(qū)聚類分析
[0015]對于社交媒體的分析,除了要在文本層次上對其進行話題、實體、消息、行為和他們相關(guān)的情感觀點進行挖掘,還要在不同層面上對其進行總結(jié)和歸納。其中一個重要的方面就是要對社交媒體中的社區(qū)(community)進行分析。社區(qū)可以是在某個特定地理位置上的人群,也可以是具有相同工作性質(zhì)的人群,也可以是具有共同興趣話題的人群。對于微博這個新興的特定社交媒體,地理位置和相同的興趣的人群顯得更為重要。這些人群中的人會相互影響,他們的觀點也會帶有集群效應(yīng)。對不同地區(qū)或具有相同興趣愛好的人區(qū)別分析,將會提供更加細分的行為分析結(jié)果。對于具有相同興趣的的人群進行分析,也可以精確地組織分析的結(jié)果。例如,在三聚氰胺事件發(fā)生的時間段內(nèi),對于共同關(guān)注這個事件的人群進行分析,可以濾掉很多關(guān)于三聚氰胺的其他事件的噪音。另外,將關(guān)注這一事件的人平時關(guān)注的話題進行剖析,可以更加詳細的分析是哪類人傾向于對這類事件進行討論。
[0016]微博用戶行為分析的可行性分析
[0017]下面,我們先來簡單介紹一下國內(nèi)股票市場的參與者和微博的參與者,進而簡要分析一下微博用戶金融行為分析的可行性。
[0018]?市場參與者
[0019]中國股票市場的參與者多為中小投資者。根據(jù)2002年的統(tǒng)計,A股市場的投資者僅20%以下為機構(gòu)投資者,而B股的海外投資者的資產(chǎn)總量不到A股的2.5%。據(jù)2012年4月中國證券登記結(jié)算公司統(tǒng)計數(shù)據(jù)顯示最新的統(tǒng)計,流通市值在10萬元以下的賬戶比例高達85%,而市值在50萬元以下的賬戶比例更是超過97%。相比之下,1996年到2002年數(shù)據(jù)顯示,日本和美國市場的 機構(gòu)投資者數(shù)量穩(wěn)定在開戶總數(shù)量的40%-50%。正是由于大量的散戶和中小投資者在市場中的比重過大,A股市場表現(xiàn)的更為波動劇烈,一個或多個個體的行為對整個市場的影響相對較小,市場表現(xiàn)為集群的效應(yīng),大眾情緒也更偏向于非理性。
[0020]籲微博參與者
[0021]隨著互聯(lián)網(wǎng)的不斷發(fā)展和上網(wǎng)觀念日漸深入人心,越來越多的人選擇使用快捷方便的互聯(lián)網(wǎng)社區(qū)交換、分享信息和心情。微博在此大環(huán)境下應(yīng)運而生。截止到2011年3月份,僅新浪和騰訊微博就各擁有1億以上的用戶。在這些用戶中,有大量的用戶希望表達自己的觀點。如圖1所示,有46.4%的用戶會非常愿意表達自己的觀點和情感,閱讀他人微博;有16.2%的用戶會跟蹤他人的微博,并參與討論;有16.4%的用戶不太跟蹤他人微博,但樂于對熱點問題進行討論;還有21%的用戶并不發(fā)表文章,但會閱讀他人微博??梢?,在微博上,用戶的活躍度是非常高的,有80%的用戶會或多或少參與討論,與其他人發(fā)生聯(lián)系。有統(tǒng)計顯示,89.4%的用戶愿意給自己的好友推薦朋友;有47%的用戶會轉(zhuǎn)發(fā)(Re-tweet)微博。在如此強大的用戶基礎(chǔ)上,可以說微博上的用戶行為時時刻刻反映著中國社會經(jīng)濟活動的方方面面。
[0022]另據(jù)數(shù)據(jù)顯示,用戶所發(fā)微博中,有12.1%為實效新聞;有15.3%為有較好內(nèi)容信息;有26.8%為笑話和幽默信息;有27.4%為名人名言。在所有用戶中,1970年左右出生的用戶有38%關(guān)注金融相關(guān)的新聞;1980年左右出生的用戶有33.9%關(guān)注金融新聞;1990年出生的用戶有22.8%關(guān)注金融新聞??梢?,如何從微博中有效地挖掘金融相關(guān)的新聞和消息,將會產(chǎn)生非常大的經(jīng)濟和社會價值。
[0023]?市場有效性和行為金融學(xué)
[0024]新古典主義金融學(xué)奉行市場有效性假說。例如,認為市場上的股票價格反映了其內(nèi)在價值,價格的波動是完全隨機的。然而,后來興起的行為金融學(xué)則認為,證券的市場價格并不只由證券內(nèi)在價值所決定,還在很大程度上受到投資者主體行為的影響,即投資者心理與行為對證券市場的價格決定及其變動具有重大影響。行為金融學(xué)不僅懷疑并揭示了市場有效假設(shè)的局限性,并且強調(diào)市場的情緒對市場行為的影響。目前,越來越多的對沖基金使用計算機讀取新聞數(shù)據(jù)并進行交易?;邶嫶蟮漠a(chǎn)業(yè)和需求,彭博社、道瓊斯和湯森路透等新聞機構(gòu)都已經(jīng)接受了用計算機軟件來獲取數(shù)據(jù)的想法,并已開始提供服務(wù),來幫助華爾街客戶自動篩選新聞。
[0025]近年來,隨著社交媒體的日益發(fā)展,人們的行為和情緒以及對時效新聞的觀點看法越來越多并越來越快的反映在諸如Facebook、Twitter、ffeibo等社交媒體中。華爾街敏感的嗅覺也引導(dǎo)相應(yīng)的交易公司把目光轉(zhuǎn)向了社交媒體。據(jù)金融服務(wù)顧問公司Aite Group統(tǒng)計2009年有35%的專業(yè)交易公司專業(yè)性的使用社交媒體作為幫助其決策的手段之一。隨著市場的發(fā)展和演化,2011年使用社交媒體的公司比例增長到46%。其中有19% (2009年為36%)的交易公司認為社交媒體可以有效追蹤市場情緒;9% (2009年為21%)的交易公司宣稱他們使用了社交媒體幫助他們區(qū)分和其他公司的不同;另外,6% (2009年為16%)的公司稱社交媒體幫助他們提升了業(yè)績。雖然2011年數(shù)據(jù)顯示,使用社交媒體的交易公司中認為能夠從中發(fā)現(xiàn)新的觀點或能提升公司業(yè)績的比例較2009年有所減少,但社交媒體中的信息已經(jīng)越來越為更多公司所了解和使用,進而不構(gòu)成區(qū)分某個或某類專業(yè)交易公司的標志之一。在此背景下,正確的提取和使用社交媒體也顯得更為的重要,同時,也蘊含著大量的產(chǎn)生經(jīng)濟效益的機會。
【發(fā)明內(nèi)容】
[0026]發(fā)明目的:本發(fā)明的目的是為了解決目前數(shù)據(jù)分析系統(tǒng)的不足,提供一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng)。
[0027]技術(shù)方案:本發(fā)明所述的基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其目的是這樣實現(xiàn)的,
[0028]一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),系統(tǒng)主要由三大類模塊組成:爬蟲(Crawler)、數(shù)據(jù)庫及索引(Database/Indexer)、分析器(Analyzer)。
[0029]數(shù)據(jù)采集和處理
[0030]?爬蟲
[0031]爬蟲主要負責數(shù)據(jù)采集。數(shù)據(jù)源分為兩部分。第一部分為經(jīng)濟指標和時間序列。經(jīng)濟指標包括國家、地方和公司的財務(wù)數(shù)據(jù)。國家每月每季度都會公布關(guān)鍵經(jīng)濟數(shù)據(jù),這些經(jīng)濟數(shù)據(jù)可以用來配合人們的評論在分析社會經(jīng)濟行為。相關(guān)時間序列包括市場主要股票、商品、債券、匯率等金融指數(shù),具體公司的股價等。國外主要數(shù)據(jù)源為彭博社(Bloomberg)、道瓊斯(Dow Jones)和湯森路透(Thomson Reuters)等公司;國內(nèi)包括新浪財經(jīng)、大智慧和同花順等。
[0032]第二部分為微博數(shù)據(jù)。微博提供API方便用戶進行定向抓取。為此,我們需要保持一個定向抓取列表,包括關(guān)鍵的用戶(及其好友),主要的上市公司,相關(guān)產(chǎn)品,以及經(jīng)濟活動相關(guān)的關(guān)鍵詞等等。對于微博,還有一類重要的信息,就是用戶、標簽(hashtag)和轉(zhuǎn)載之間的鏈接信息。因此,對于抓取下來的數(shù)據(jù),相關(guān)的鏈接和轉(zhuǎn)載也要包括進來。
[0033]?數(shù)據(jù)庫及索引
[0034]數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括重要經(jīng)濟指標、時間序列、財務(wù)報表等。這些數(shù)據(jù)使用MySQL存儲。非結(jié)構(gòu)化數(shù)據(jù)包括微博文本、以及標注的話題、實體等等。這部分信息可以通過Lucene配合MySQL來實現(xiàn)索引。Lucene擅長對文本簡歷倒排表索引,可以讓我們很容易的檢索到那個微博發(fā)表了對某個關(guān)鍵詞的信息和評論。MySQL用來對標注的話題、實體、行動和消息進行檢索。因此我們可以對具有相同ID的微博檢測各種域的信息。
[0035]話題:話題使用標號來建立索引。對于整體微博數(shù)據(jù),我們給出固定的若干大類信息。對于每條微博數(shù)據(jù),我們標注其類別信息。另外,微博可以屬于多類,因此對于話題域,我們需要建立一對多的映射。
[0036]實體:實體包括人名、地名、機構(gòu)名等以及一些常用語中的固定名詞短語。對于實體,我們需要標注實體的類別和實體名稱,并記錄用戶ID和微博ID。
[0037]行動:對于行動,我們需要標注三元組信息,即〈主體,動作,目標 >,并記錄用戶ID和微博ID。
[0038]消息:如果是轉(zhuǎn)載的訊息,我們需要存儲其被轉(zhuǎn)載的用戶ID,微博ID等。
[0039]根據(jù)以上信息,在建立索引時,我們對每個用戶和每條微博設(shè)定一個全局ID,以此來對不同數(shù)據(jù)庫中的信息進行對齊和檢索。
[0040]?分析器
[0041]分析器是系統(tǒng)的核心,包括6個子模塊,分別是:話題分析、實體識別、動作識別、消息跟蹤、情感分析和社區(qū)聚類分析。
[0042]話題分析是上層較為粗糙的語義分析。話題是多角度多層次的多標簽的分類問題。我們可以將微博數(shù)據(jù)分類成經(jīng)濟、政治、體育、娛樂、教育等;也可以將新聞消息分為國內(nèi)或國外新聞。據(jù)此可以將與經(jīng)濟社會活動相關(guān)的微博篩選出來。我們可以將經(jīng)濟類微博數(shù)據(jù)進一步分類成宏觀經(jīng)濟分析評論、股票分析、公司評論等等。另外,我們還可以對某一個特定的話題進行劃分,例如找出三聚氰胺事件、日本海嘯事件相關(guān)的微博等等。
[0043]實體分析和行動分析是較為細的一種語義分析。我們對每條微博進行實體和語義分析,檢測實體的同義詞以及動作的聚類。在此基礎(chǔ)上我們可以給出相應(yīng)實體和動作的的頻率組成的時間序列,這些時間序列構(gòu)成我們未來數(shù)據(jù)服務(wù)和專家系統(tǒng)的基礎(chǔ)。
[0044]對于不停轉(zhuǎn)載的消息,我們首先可以把消息轉(zhuǎn)載的次數(shù)組織成時間序列;其次,我們將不停轉(zhuǎn)載這個消息的用戶構(gòu)成的帶有時序的子圖存儲起來,便于未來分析互聯(lián)網(wǎng)中興趣的遷移和演化。
[0045]情感分析用來識別語言中的帶有情感的詞匯,我們可以把這個模塊輸出的結(jié)果和其他模塊組合起來,實現(xiàn)具有聚集意義的情感分析。
[0046]社區(qū)聚類分析提供用戶聚類。聚類可根據(jù)不同的語義和語境,也可以根據(jù)用戶之間的好友連接和轉(zhuǎn)載連接進行分析。不同的聚類給予人們對數(shù)據(jù)認識的不同側(cè)面。我們的聚類模塊將很容組裝和拆卸。
[0047]數(shù)據(jù)服務(wù)和專家系統(tǒng)
[0048]我們不僅提供上述數(shù)據(jù)抓取、分析的技術(shù),而且會基于這些分析出來的數(shù)據(jù)提供一些服務(wù)。我們的系統(tǒng)中的數(shù)據(jù)服務(wù)和專家系統(tǒng)為用戶提供了更為專業(yè)的知識和信息推送。我們在此詳細介紹這部分的具體功能。
[0049]?數(shù)據(jù)服務(wù)
[0050]數(shù)據(jù)服務(wù)包括以下幾個方面的內(nèi)容。
[0051]市場情緒指數(shù):我們通過對每天所有跟社會經(jīng)濟活動相關(guān)的微博進行情感分析,得到一個市場情緒指數(shù),并每天進行公布,以提高影響力。
[0052]關(guān)鍵事件檢測:對微博中關(guān)鍵事件,尤其是突發(fā)事件進行檢測,為用戶第一時間提供預(yù)警和提醒。
[0053]人物活躍度、關(guān)鍵人物挖掘:基于對話題和事件的挖掘?qū)ζ渲杏懻撝凶罨钴S的人進行挖掘。通過發(fā)文統(tǒng)計,文章被轉(zhuǎn)載和回復(fù)熱度等頻率的統(tǒng)計來給出熱點人物的排名。
[0054]用戶信息統(tǒng)計和預(yù)測:年齡、性別、興趣、位置:對于在話題中出現(xiàn)的所有人進行不同側(cè)面屬性的統(tǒng)計。有些信息我們可以通過開放平臺中的接口獲得,有些屬性我們可以通過每個用戶的發(fā)文內(nèi)容進行挖掘和預(yù)測。
[0055]時間序列相關(guān)性分析:對于話題、實體、動作和消息,以及他們相應(yīng)的情感指數(shù),我們都可以建立一個時間序列。這些時間序列和重要的經(jīng)濟指標、股票及其指數(shù)之間可以挖掘出一些相關(guān)性。我們提供用戶指數(shù)或者某只股票最相關(guān)的文本時間序列以供分析。
[0056]網(wǎng)絡(luò)演化分析:對于不同話題,我們給出不同的網(wǎng)絡(luò)演化分析,例如網(wǎng)絡(luò)大小,結(jié)構(gòu)的統(tǒng)計特性等等。這些網(wǎng)絡(luò)演化結(jié)果也可以用來幫助用戶對互聯(lián)網(wǎng)的社會經(jīng)濟行為分析時有效獲取到有用的信息。
[0057]?專家系統(tǒng)
[0058]專家系統(tǒng)是集合了我們所有分析技術(shù)給出的一系列建議和解決方案。在此,我們給出三個具體的例子。
[0059]股市多空判斷:我們通過對歷史數(shù)據(jù)的統(tǒng)計,可以得到那些關(guān)鍵的實體、行動、消息以及他們相關(guān)的情感會和股市的運動產(chǎn)生相關(guān)性。比如,股票指數(shù)本身代表了市場的情緒,微博上人們發(fā)文的情緒在某種意義上也反映了大眾對市場的態(tài)度。因此如果很多人在微博上看多大市,那么股市有多大的概率上漲可以通過歷史數(shù)據(jù)計算出來,進而可以給用戶一些投資建議。
[0060]盤后實事自動分析:對于當天收盤以后的結(jié)果進行分析,通過挖掘歷史數(shù)據(jù),找到有可能影響當天走勢的關(guān)鍵事件。例如“蘋果換CEO”以及人們對新CEO的評價;又如“日本發(fā)生海嘯”以及相應(yīng)的情感指數(shù)等等,都可以作為總結(jié)當天走勢的事件供用戶分析。
`[0061]網(wǎng)絡(luò)熱議分析:對于網(wǎng)絡(luò)熱議的話題進行分析和預(yù)測。例如雙方爭論某個熱點問題,進而判斷雙方的情感指數(shù)、哪方會贏的預(yù)測等等。例如:對“小米手機發(fā)布”事件進行分析,預(yù)測雙方論點以及小米手機是否會成功。
[0062]有益效果:本發(fā)明所述的一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng)能夠有效、準確地收集到用戶信息,從而對用戶數(shù)據(jù)進行較為完整的歸檔、整理,建立用戶信息庫,根據(jù)用戶的信息庫給用戶提供用戶關(guān)注的消息推送。
【具體實施方式】
[0063]為了加深對本發(fā)明的理解,下面將結(jié)合實施例對本發(fā)明作進一步詳述,該實施例僅用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明保護范圍的限定。
[0064]本發(fā)明所述的基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),系統(tǒng)主要由三大類模塊組成:爬蟲(Crawler)、數(shù)據(jù)庫及索引(Database/Indexer)、分析器(Analyzer)。
[0065]數(shù)據(jù)采集和處理
[0066]?爬蟲
[0067]爬蟲主要負責數(shù)據(jù)采集。數(shù)據(jù)源分為兩部分。第一部分為經(jīng)濟指標和時間序列。經(jīng)濟指標包括國家、地方和公司的財務(wù)數(shù)據(jù)。國家每月每季度都會公布關(guān)鍵經(jīng)濟數(shù)據(jù),這些經(jīng)濟數(shù)據(jù)可以用來配合人們的評論在分析社會經(jīng)濟行為。相關(guān)時間序列包括市場主要股票、商品、債券、匯率等金融指數(shù),具體公司的股價等。國外主要數(shù)據(jù)源為彭博社(Bloomberg)、道瓊斯(Dow Jones)和湯森路透(Thomson Reuters)等公司;國內(nèi)包括新浪財經(jīng)、大智慧和同花順等。
[0068]第二部分為微博數(shù)據(jù)。微博提供API方便用戶進行定向抓取。為此,我們需要保持一個定向抓取列表,包括關(guān)鍵的用戶(及其好友),主要的上市公司,相關(guān)產(chǎn)品,以及經(jīng)濟活動相關(guān)的關(guān)鍵詞等等。對于微博,還有一類重要的信息,就是用戶、標簽(hashtag)和轉(zhuǎn)載之間的鏈接信息。因此,對于抓取下來的數(shù)據(jù),相關(guān)的鏈接和轉(zhuǎn)載也要包括進來。
[0069]?數(shù)據(jù)庫及索引
[0070]數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括重要經(jīng)濟指標、時間序列、財務(wù)報表等。這些數(shù)據(jù)使用MySQL存儲。非結(jié)構(gòu)化數(shù)據(jù)包括微博文本、以及標注的話題、實體等等。這部分信息可以通過Lucene配合MySQL來實現(xiàn)索引。Lucene擅長對文本簡歷倒排表索引,可以讓我們很容易的檢索到那個微博發(fā)表了對某個關(guān)鍵詞的信息和評論。MySQL用來對標注的話題、實體、行動和消息進行檢索。因此我們可以對具有相同ID的微博檢測各種域的信息:
[0071]話題:話題使用標號來建立索引。對于整體微博數(shù)據(jù),我們給出固定的若干大類信息。對于每條微博數(shù)據(jù),我們標注其類別信息。另外,微博可以屬于多類,因此對于話題域,我們需要建立一對多的映射。
[0072]實體:實體包括 人名、地名、機構(gòu)名等以及一些常用語中的固定名詞短語。對于實體,我們需要標注實體的類別和實體名稱,并記錄用戶ID和微博ID。
[0073]行動:對于行動,我們需要標注三元組信息,即〈主體,動作,目標 >,并記錄用戶ID和微博ID。
[0074]消息:如果是轉(zhuǎn)載的訊息,我們需要存儲其被轉(zhuǎn)載的用戶ID,微博ID等。
[0075]根據(jù)以上信息,在建立索引時,我們對每個用戶和每條微博設(shè)定一個全局ID,以此來對不同數(shù)據(jù)庫中的信息進行對齊和檢索。
[0076]?分析器
[0077]分析器是系統(tǒng)的核心,包括6個子模塊,分別是:話題分析、實體識別、動作識別、消息跟蹤、情感分析和社區(qū)聚類分析。
[0078]話題分析是上層較為粗糙的語義分析。話題是多角度多層次的多標簽的分類問題。我們可以將微博數(shù)據(jù)分類成經(jīng)濟、政治、體育、娛樂、教育等;也可以將新聞消息分為國內(nèi)或國外新聞。據(jù)此可以將與經(jīng)濟社會活動相關(guān)的微博篩選出來。我們可以將經(jīng)濟類微博數(shù)據(jù)進一步分類成宏觀經(jīng)濟分析評論、股票分析、公司評論等等。另外,我們還可以對某一個特定的話題進行劃分,例如找出三聚氰胺事件、日本海嘯事件相關(guān)的微博等等。
[0079]實體分析和行動分析是較為細的一種語義分析。我們對每條微博進行實體和語義分析,檢測實體的同義詞以及動作的聚類。在此基礎(chǔ)上我們可以給出相應(yīng)實體和動作的的頻率組成的時間序列,這些時間序列構(gòu)成我們未來數(shù)據(jù)服務(wù)和專家系統(tǒng)的基礎(chǔ)。
[0080]對于不停轉(zhuǎn)載的消息,我們首先可以把消息轉(zhuǎn)載的次數(shù)組織成時間序列;其次,我們將不停轉(zhuǎn)載這個消息的用戶構(gòu)成的帶有時序的子圖存儲起來,便于未來分析互聯(lián)網(wǎng)中興趣的遷移和演化。
[0081]情感分析用來識別語言中的帶有情感的詞匯,我們可以把這個模塊輸出的結(jié)果和其他模塊組合起來,實現(xiàn)具有聚集意義的情感分析。[0082]社區(qū)聚類分析提供用戶聚類。聚類可根據(jù)不同的語義和語境,也可以根據(jù)用戶之間的好友連接和轉(zhuǎn)載連接進行分析。不同的聚類給予人們對數(shù)據(jù)認識的不同側(cè)面。我們的聚類模塊將很容組裝和拆卸。
[0083]數(shù)據(jù)服務(wù)和專家系統(tǒng)
[0084]我們不僅提供上述數(shù)據(jù)抓取、分析的技術(shù),而且會基于這些分析出來的數(shù)據(jù)提供一些服務(wù)。我們的系統(tǒng)中的數(shù)據(jù)服務(wù)和專家系統(tǒng)為用戶提供了更為專業(yè)的知識和信息推送。我們在此詳細介紹這部分的具體功能。
[0085]?數(shù)據(jù)服務(wù)
[0086]數(shù)據(jù)服務(wù)包括以下幾個方面的內(nèi)容。
[0087]市場情緒指數(shù):我們通過對每天所有跟社會經(jīng)濟活動相關(guān)的微博進行情感分析,得到一個市場情緒指數(shù),并每天進行公布,以提高影響力。
[0088]關(guān)鍵事件檢測:對微博中關(guān)鍵事件,尤其是突發(fā)事件進行檢測,為用戶第一時間提供預(yù)警和提醒。
[0089]人物活躍度、關(guān)鍵人物挖掘:基于對話題和事件的挖掘?qū)ζ渲杏懻撝凶罨钴S的人進行挖掘。通過發(fā)文統(tǒng)計,文章被轉(zhuǎn)載和回復(fù)熱度等頻率的統(tǒng)計來給出熱點人物的排名。
[0090]用戶信息統(tǒng)計和預(yù)測:年齡、性別、興趣、位置:對于在話題中出現(xiàn)的所有人進行不同側(cè)面屬性的統(tǒng)計。有些信息我們可以通過開放平臺中的接口獲得,有些屬性我們可以通過每個用戶的發(fā)文內(nèi)容進行挖掘和預(yù)測。
[0091]時間序列相關(guān)性分析:對于話題、實體、動作和消息,以及他們相應(yīng)的情感指數(shù),我們都可以建立一個時間序列。這些時間序列和重要的經(jīng)濟指標、股票及其指數(shù)之間可以挖掘出一些相關(guān)性。我們提供用戶指數(shù)或者某只股票最相關(guān)的文本時間序列以供分析。
[0092]網(wǎng)絡(luò)演化分析:對于不同話題,我們給出不同的網(wǎng)絡(luò)演化分析,例如網(wǎng)絡(luò)大小,結(jié)構(gòu)的統(tǒng)計特性等等。這些網(wǎng)絡(luò)演化結(jié)果也可以用來幫助用戶對互聯(lián)網(wǎng)的社會經(jīng)濟行為分析時有效獲取到有用的信息。
[0093]?專家系統(tǒng)
[0094]專家系統(tǒng)是集合了我們所有分析技術(shù)給出的一系列建議和解決方案。在此,我們給出三個具體的例子。
[0095]股市多空判斷:我們通過對歷史數(shù)據(jù)的統(tǒng)計,可以得到那些關(guān)鍵的實體、行動、消息以及他們相關(guān)的情感會和股市的運動產(chǎn)生相關(guān)性。比如,股票指數(shù)本身代表了市場的情緒,微博上人們發(fā)文的情緒在某種意義上也反映了大眾對市場的態(tài)度。因此如果很多人在微博上看多大市,那么股市有多大的概率上漲可以通過歷史數(shù)據(jù)計算出來,進而可以給用戶一些投資建議。
[0096]盤后實事自動分析:對于當天收盤以后的結(jié)果進行分析,通過挖掘歷史數(shù)據(jù),找到有可能影響當天走勢的關(guān)鍵事件。例如“蘋果換CEO”以及人們對新CEO的評價;又如“日本發(fā)生海嘯”以及相應(yīng)的情感指數(shù)等等,都可以作為總結(jié)當天走勢的事件供用戶分析。
[0097]網(wǎng)絡(luò)熱議分析:對于網(wǎng)絡(luò)熱議的話題進行分析和預(yù)測。例如雙方爭論某個熱點問題,進而判斷雙方的情感指數(shù)、哪方會贏的預(yù)測等等。例如:對“小米手機發(fā)布”事件進行分析,預(yù)測雙方論點以及小米手機是否會成功。
[0098]下面介紹話題分析的兩大框架:分類和話題模型。文本的話題是具有某一類話題的文檔的集合,例如新聞中談?wù)撜巍④娛?、?jīng)濟和娛樂的文章涉及的內(nèi)容會有很大的不同。如果已知需要的話題是哪幾類,則我們可以使用針對帶監(jiān)督信息的分類技術(shù)進行判斷;如果給定的文本集合未指定話題的類別,則需要使用非監(jiān)督的聚類或者話題模型來進行分析。
[0099]?話題分析
[0100]話題分類主要由六個模塊構(gòu)成:分別是話題訓(xùn)練模塊(Training)、模型模塊(Model)、文擋打分模塊(Document Ranking)、關(guān)鍵詞打分模塊(Keyword Ranking)、話題打分模塊(Topic Ranking)、用戶打分模塊(Author Ranking)。
[0101]話題訓(xùn)練模塊:話題訓(xùn)練模塊負責根據(jù)歷史或標注數(shù)據(jù)對話題進行分析。如果我們已知需要哪幾類話題,如政治、經(jīng)濟、軍事、娛樂等,那么我們需要訓(xùn)練一個多類分類器;如果我們未知話題的種類,則我們需要訓(xùn)練相應(yīng)的話題模型。
[0102]模型模塊:模型是根據(jù)訓(xùn)練模塊的輸出結(jié)果對新的數(shù)據(jù)進行話題分類的模塊。不管使用分類器還是話題模型,我們都會得到一個把新來文本映射到我們能判斷的話題上的函數(shù)。根據(jù)這個函數(shù),我們可以對文本進行標注、輸送到下面的打分模塊中進行打分標注,并最后存儲在數(shù)據(jù)庫中。
[0103]文擋打分模塊:文檔打分是根據(jù)該文檔的流行程度(popularity ;如轉(zhuǎn)載率)以及在話題中的重要程度(importance ;如關(guān)鍵的人物發(fā)文、原始的文檔等)、典型程度進行(typicality ;是否能代表某個話題)等進行標注的模塊。
[0104]關(guān)鍵詞打分模 塊:關(guān)鍵詞打分是對文檔中重要的關(guān)鍵詞進行標注。這個模塊會配合話題模型、實體識別、行動識別和情感分析等其他模塊一起工作,找到有用的詞便于檢索、比較和分析。例如在實體 識別中,我們可以識別“福島”、“東京發(fā)電”等地名和公司名,但對“海嘯”我們沒有相應(yīng)的標注。在關(guān)鍵詞打分模塊,我們還希望能夠標注對識別事件、消息、話題最有幫助的詞匯。
[0105]話題打分模塊:話題打分分為兩個部分:第一部分是全局話題的打分一我們希望知道哪個話題最容易引起關(guān)注;第二部分是話題相對于某一個文本的打分一我們希望知道文本中哪個話題是最重要的。
[0106]用戶打分模塊:對于每個話題,我們希望知道最活躍的用戶是誰;對于每個文檔,我們希望知道評論最活躍的用戶是誰。用戶打分模塊配合其他模塊,對每個話題動態(tài)的進行用戶打分和標注。
[0107]實體識別
[0108]實體分析是經(jīng)濟金融活動分析的最重要組成部分。重要的人名、地名、公司名的識別都在實體分析模塊中實現(xiàn)。
[0109]實體識別主要包含以下幾個模塊:語法處理模塊(Chunking/POS Tagging)、實體識別訓(xùn)練器模塊(Training Named Entity Recognizer)、知識庫模塊(KnowledgeBase)、模型模塊(Model)、知識庫幫助模塊(Knowledge Base helper)、實體消歧模塊(EntityDisambiguation)、實體聚類模塊(Entity Clustering)、關(guān)系抽取幫助模塊(EntityRelation Extraction Helper)。
[0110]語法處理模塊:語法處理模塊包括中文分詞,詞性標注。主要用來幫助實體識別訓(xùn)練模塊和模型模塊產(chǎn)生特征。實體基本上是名詞短語,有效地提取語法信息能夠幫助實體分類器更好進行識別。
[0111]實體識別訓(xùn)練器模塊:訓(xùn)練模塊主要是根據(jù)已經(jīng)標注好的訓(xùn)練數(shù)據(jù)來識別相應(yīng)的實體。實體類別可以是人名、地名、公司名,也可以是錢數(shù)、百分比、日期、股票名稱等。
[0112]知識庫模塊:知識庫模塊是實體分析中非常重要的一個環(huán)節(jié),因為我們需要的某些信息必須非常準確。例如公司名稱、相應(yīng)的股東、總經(jīng)理、CEO、公司產(chǎn)品等等。這些信息必須通過構(gòu)建知識庫的方法從特定的網(wǎng)站解析出來、或者人手工標注出來。只有這樣,我們才能更好的分析財經(jīng)新聞中相應(yīng)的事件。
[0113]模型模塊:模型模塊根據(jù)知識庫和實體識別分類器訓(xùn)練的結(jié)果,綜合起來實時標注新來的微博數(shù)據(jù)。
[0114]知識庫幫助模塊:知識庫幫助模塊是根據(jù)模型的輸出、消岐和聚類模塊的輸出進行總結(jié),將非常確定的實體信息放入知識庫中。
[0115]實體消歧模塊:實體會有歧義。例如蘋果可以是公司,也可以是水果。我們需要根據(jù)上下文語義對特定的實體進行消岐。所用的知識包括知識庫、外部的數(shù)據(jù)源(如互聯(lián)網(wǎng)上的共現(xiàn)詞頻)等。
[0116]實體聚類模塊:實體聚類模塊幫助我們找到同義詞,例如微軟、微軟公司等。這些同義詞根據(jù)我們的打分,將非常確定的部分送入知識庫中進行內(nèi)容的豐富。同時,我們也可以根據(jù)同義詞進行檢索,找到討論同樣實體的微博。
[0117]關(guān)系抽取幫助模塊:實體識別的輸出同樣可以作為關(guān)系抽取的特征,幫助關(guān)系抽取更準確的找到關(guān)鍵實體所對應(yīng)的事件、行為。
[0118]關(guān)系和動作抽取
[0119]關(guān)系抽取主要包括以下幾個模塊:語法處理模塊(Chunking/POS Tagging/Parsing)、關(guān)系識別訓(xùn)練器模塊(Training Relation Extractor)、模型模塊(Model)、關(guān)系消歧模塊(Relation Disambiguation)、關(guān)系聚類模塊(Relation Clustering)、實體識別中關(guān)系抽取幫助模塊(Entity Relation Extraction Helper)。
[0120]語法處理模塊:語法處理模塊包括分詞、詞性標注以及語法樹分析。語法處理模塊為關(guān)系識別訓(xùn)練和模型模塊提供特征。由于關(guān)系抽取需要動詞和相應(yīng)的主語賓語,因此需要語法樹分析。同時,我們也可以嘗試不使用語法樹的方法。該方法在第3.3.2節(jié)中詳述。
[0121]關(guān)系識別訓(xùn)練器模塊:關(guān)系識別通過判斷詞性、動詞左右兩邊的名詞短語以及相應(yīng)的知識庫(如百科)來進行關(guān)系抽取。關(guān)系抽取屬于開放式信息抽取技術(shù),無法做到對某一個領(lǐng)域非常全面的覆蓋。為此,我們需要對金融和經(jīng)濟領(lǐng)域進行特殊制定。根據(jù)我們的金融知識庫和識別的實體庫進行不斷改進和豐富。
[0122]模型模塊:模型模塊負責對新來的微博進行識別。
[0123]關(guān)系消歧模塊:關(guān)系消岐模塊與實體消岐模塊類似,負責對其中的名詞短語和動詞短語進行消岐。
[0124]關(guān)系聚類模塊:關(guān)系聚類是對類似的關(guān)系進行聚類分析,將同義或近義的關(guān)系組織在一起。例如〈日本,發(fā)生,海嘯 >、〈日本,被襲擊,海嘯〉和〈海嘯,襲擊,日本〉應(yīng)被聚在一起。實體識別中關(guān)系抽取幫助模塊:這個模塊是實體分析部分的輸出,在這里用于關(guān)系抽取的輸入特征。
[0125]情感分析[0126]情感分析主要包括以下幾個模塊:語法處理模塊(Chunking/POS Tagging)、半監(jiān)督關(guān)鍵詞標注模塊(Training Sem1-supervised Word Annotation)、情感知識庫模塊(SentimentKnowledge Base)、模型模塊(Model)、總體時間相關(guān)情感標注模塊(OverallTime-stampedSentiment)> 實體相關(guān)情感標注模塊(Entity Associated Sentiment)、微博句子情感標注模塊(Sentence Level Sentiment)、用戶情感標注模塊(User LevelSentiment)。
[0127]語法處理模塊:語法處理模塊包括中文分詞,詞性標注。主要用來為詞的情感標注提供特征。
[0128]半監(jiān)督關(guān)鍵詞標注模塊:我們根據(jù)已有的情感知識庫(如HowNet)以及大量的觀測到的樣本(如詞之間的共現(xiàn)頻率)可以進行半監(jiān)督的情感標注。這個標注結(jié)果可以存到知識庫中。情感知識庫模塊:情感知識庫由兩部分組成。一部分為人標注的情感詞匯、程度詞匯以及觀點詞匯等。第二類是由機器根據(jù)語義自動標注的詞匯。我們把兩部分知識組織成知識庫,供模型模塊使用。
[0129]模型模塊:模型模塊使用知識庫中的兩類詞匯進行打分。打分機制有兩類。第一類根據(jù)人的經(jīng)驗,給出評分。第二類可根據(jù)數(shù)據(jù)進行學(xué)習(xí)。例如我們可以根據(jù)股票指數(shù)的漲跌來學(xué)習(xí)哪類詞匯傾向于用來形容牛市、哪類詞匯用來形容熊市等。
[0130]總體時間相關(guān)情感標注模塊:對于微博整體、不同社區(qū)、不同人群,我們可以給出一個隨著時間變化的情感指數(shù)。這個指數(shù)根據(jù)當時人們的發(fā)文來加權(quán)平均。
[0131]實體相關(guān)情感標注模塊:對于每個識別到的實體,我們也給出相應(yīng)的情感分數(shù),以便未來查詢實體相關(guān)的情感和評論。如可以將對小米手機的討論熱度和評論好壞可以進行對比。
[0132]微博句子情感標注模塊:對每條微博進行情感標注。
[0133]用戶情感標注模塊:對每個用戶不同時間進行情感標注。
[0134]社區(qū)分析
[0135]社區(qū)分析包括以下幾個模塊:特征提取模塊(Feature Extractor)、訓(xùn)練社區(qū)挖掘參數(shù)模塊(Training Community Mining Parameters)、用戶分析提供的社區(qū)挖掘幫助模塊(User Based Community Mining Helper)、模型模塊(Model)、社區(qū)演變分析模塊(Community Evolving Analyzer)、社區(qū)統(tǒng)計模塊(Community Statistics)、用戶預(yù)測幫助模塊(Community based User Prediction Helper)。
[0136]特征提取模塊:特征提取模塊為社區(qū)挖掘模塊提取每個用戶的特征,包括用戶發(fā)文文本、粉絲、關(guān)注、群、興趣標簽等。
[0137]訓(xùn)練社區(qū)挖掘參數(shù)模塊:根據(jù)不同的社區(qū)挖掘需求,提出聚類模型,根據(jù)歷史或人工標注的數(shù)據(jù)進行參數(shù)調(diào)節(jié)。例如社區(qū)挖掘中不同的社區(qū)會有重疊的用戶,我們可以控制參數(shù)來調(diào)節(jié)在多大的程度上允許系統(tǒng)保持社區(qū)的重疊。
[0138]用戶分析提供的社區(qū)挖掘幫助模塊:用戶分析和用戶屬性預(yù)測提供了額外的特征供社區(qū)挖掘使用。例如預(yù)測用戶的年齡,預(yù)測用戶的興趣,可能的標簽,預(yù)測是否為機器人用戶等。利用這些預(yù)測信息可以幫助社區(qū)挖掘更好的找到可能的聚團。
[0139]模型模塊:模型具有可以自動的將新用戶分類(如機器人過濾),把用戶推薦到最有可能的社區(qū)、群等功能。[0140]社區(qū)統(tǒng)計模塊:社區(qū)統(tǒng)計可以幫助我們從多個角度觀察社區(qū)的特點,如大小、連接度、社區(qū)的共同興趣、社區(qū)對特定事件的情感、態(tài)度、觀點等。
[0141]社區(qū)演變分析模塊:社區(qū)的演變模塊配合社區(qū)統(tǒng)計模塊,可以幫我們找到特定社區(qū)的用戶個數(shù)的變化,用戶共同的興趣變化,以及用戶之間的連接(關(guān)注、粉絲)程度的變化,以及社區(qū)群體中微博情感和觀點的變化等。
[0142]用戶預(yù)測幫助模塊:社區(qū)分析的結(jié)果通過協(xié)同推薦的方法可以幫助我們預(yù)測某個特定的用戶屬性、對某個事件的反應(yīng)等等。
[0143]用戶屬性預(yù)測
[0144]用戶屬性預(yù)測包括以下幾個模塊:特征提取模塊(Feature Extractor)、訓(xùn)練用戶預(yù)測模型模塊(Training User Prediction)、社區(qū)挖掘輸出的用戶預(yù)測幫助模塊(Community based User Prediction Helper)、模型模塊(Model)、用戶統(tǒng)計模塊(UserStatistics)、廣告和推薦系統(tǒng)幫助模塊(Advertising/Recommendation Helper)、社區(qū)挖掘幫助模塊(User based Community Mining Helper)。
[0145]特征提取模塊:特征提取包括用戶的粉絲、關(guān)注、tag標簽、發(fā)文內(nèi)容等。
[0146]訓(xùn)練用戶預(yù)測模型模塊:這個模塊根據(jù)特征提取和社區(qū)挖掘輸出的結(jié)果來預(yù)測用戶屬性如年齡段、工作性質(zhì)、當天心情、如果買股票是買還是賣等。
[0147]社區(qū)挖掘輸出的用戶預(yù)測幫助模塊:這個模塊是社區(qū)分析的輸出結(jié)果,通過社區(qū)的協(xié)同推薦來給訓(xùn)練模型提供更多的特征。
[0148]模型模塊:模型模塊根據(jù)訓(xùn)練的結(jié)果綜合判斷用戶的屬性等。
[0149]用戶統(tǒng)計模塊:用戶統(tǒng)計模塊產(chǎn)生預(yù)測用戶信息在整體微博或某個社區(qū)中的統(tǒng)計特性。雖然個別用戶的預(yù)測有可能不夠準確,但在集合級別可以看出更有意義的信息。
[0150]廣告和推薦系統(tǒng)幫助模塊:為推廣本項目,我們可以給特定的用戶群和社區(qū)推薦本項目的應(yīng)用。廣告和推薦系統(tǒng)模塊幫助我們選擇有可能使用我們項目的用戶。
[0151]社區(qū)挖掘幫助模塊:用戶預(yù)測模塊的輸出結(jié)果可以幫助社區(qū)挖掘更有效的找到社區(qū),本模塊為社區(qū)挖掘提供更多可能的特征。
[0152]時間序列分析
[0153]時間序列分析主要包括以下幾個模塊:時間序列分割(Segmentation)、峰值谷值檢測(Peak/Valley Detection)、相關(guān)性分析(Correlation)、協(xié)整及時間序列因果分析分析(Co-1ntegration/Lead-lag analysis)。
[0154]時間序列分割:時間序列分割模塊負責切分話題、實體、消息等或金融數(shù)據(jù)形成的時間序列,找到具有周期性或時效性的部分,供用戶分析。
[0155]峰值谷值檢測:峰值谷值檢測負責找到時間序列的波峰波谷、關(guān)鍵事件的檢測分析等。
[0156]相關(guān)性分析:相關(guān)性分析模塊負責找到具有強相關(guān)性的時間序列,便于用戶檢索和分析。
[0157]協(xié)整及時間序列因果分析分析:協(xié)整是金融分析中常用的手段,用來分析兩個時間序列是否具有相關(guān)性。于相關(guān)分析不同,它允許兩個時間序列在某些位置有差別。另夕卜,協(xié)整分析是判斷時間序列因果分析的前一步。因果分析通常用來分析時間序列的Lead-lag,進而發(fā)現(xiàn)那個序列領(lǐng)先于另外一個序列。[0158]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其特征在于,系統(tǒng)包括三大類模塊:爬蟲、數(shù)據(jù)庫及索引和分析器,爬蟲主要負責數(shù)據(jù)采集,數(shù)據(jù)庫分為兩部分,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)采集的數(shù)據(jù)信息,在建立索引時,對每個用戶和每條微博設(shè)定一個全局ID,以此來對不同數(shù)據(jù)庫中的信息進行對齊和檢索,分析器是系統(tǒng)的核心,包括6個子模塊,分別是:話題分析、實體識別、動作識別、消息跟蹤、情感分析和社區(qū)聚類分析。
2.根據(jù)權(quán)利要求1所述的基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其特征在于,對具有相同ID的微博檢測各種域的信息: 話題:話題使用標號來建立索引,對于整體微博數(shù)據(jù),我們給出固定的若干大類信息,對于每條微博數(shù)據(jù),我們標注其類別信息,另外,微博可以屬于多類,因此對于話題域,我們需要建立一對多的映射; 實體:實體包括人名、地名、機構(gòu)名等以及一些常用語中的固定名詞短語,對于實體,我們需要標注實體的類別和實體名稱,并記錄用戶ID和微博ID ; 行動:對于行動,我們需要標注三元組信息,即主體,動作,目標,并記錄用戶ID和微博ID ; 消息:如果是轉(zhuǎn)載的訊息,我們需要存儲其被轉(zhuǎn)載的用戶ID,微博ID等; 根據(jù)以上信息,在建立索引時,對每個用戶和每條微博設(shè)定一個全局ID,以此來對不同數(shù)據(jù)庫中的信息進行對齊和檢索。
3.根據(jù)權(quán)利要求1所述的基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其特征在于,所述系統(tǒng)還包括基于分析出來的數(shù)據(jù)提供的系統(tǒng)中的數(shù)據(jù)服務(wù)和專家系統(tǒng),用于為用戶提供了更為專業(yè)的知識和信息推送。
4.根據(jù)權(quán)利要求3所述的基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其特征在于,數(shù)據(jù)服務(wù)包括以下幾個方面的內(nèi)容: 市場情緒指數(shù):通過對每天所有跟社會經(jīng)濟活動相關(guān)的微博進行情感分析,得到一個市場情緒指數(shù),并每天進行公布,以提聞影響力; 關(guān)鍵事件檢測:對微博中關(guān)鍵事件,尤其是突發(fā)事件進行檢測,為用戶第一時間提供預(yù)警和提醒; 人物活躍度、關(guān)鍵人物挖掘:基于對話題和事件的挖掘?qū)ζ渲杏懻撝凶罨钴S的人進行挖掘,通過發(fā)文統(tǒng)計,文章被轉(zhuǎn)載和回復(fù)熱度等頻率的統(tǒng)計來給出熱點人物的排名; 用戶信息統(tǒng)計和預(yù)測:年齡、性別、興趣、位置:對于在話題中出現(xiàn)的所有人進行不同側(cè)面屬性的統(tǒng)計,有些信息我們可以通過開放平臺中的接口獲得,有些屬性我們可以通過每個用戶的發(fā)文內(nèi)容進行挖掘和預(yù)測; 時間序列相關(guān)性分析:對于話題、實體、動作和消息,以及他們相應(yīng)的情感指數(shù),建立一個時間序列,這些時間序列和重要的經(jīng)濟指標、股票及其指數(shù)之間可以挖掘出一些相關(guān)性,提供給用戶指數(shù)或者某只股票最相關(guān)的文本時間序列以供分析; 網(wǎng)絡(luò)演化分析:對于不同話題,給出不同的網(wǎng)絡(luò)演化分析,這些網(wǎng)絡(luò)演化結(jié)果也可以用來幫助用戶對互聯(lián)網(wǎng)的社會經(jīng)濟行為分析時有效獲取到有用的信息。
5.根據(jù)權(quán)利要求3所述的基于社交媒體的經(jīng)濟金融行為分析系統(tǒng),其特征在于,專家系統(tǒng)是集合了所有分析技術(shù)給出的一系列建議和解決方案,包括: 股市多空判斷:通過對歷史數(shù)據(jù)的統(tǒng)計,得到那些關(guān)鍵的實體、行動、消息以及他們相關(guān)的情感會和股市的運動產(chǎn)生相關(guān)性; 盤后實事自動分析:對于當天收盤以后的結(jié)果進行分析,通過挖掘歷史數(shù)據(jù),找到有可能影響當天走勢的關(guān)鍵事件; 網(wǎng)絡(luò)熱議分析:對于網(wǎng)絡(luò)熱議的話題進行分析和預(yù) 測。
【文檔編號】G06F17/30GK103559207SQ201310469922
【公開日】2014年2月5日 申請日期:2013年10月10日 優(yōu)先權(quán)日:2013年10月10日
【發(fā)明者】秦謙, 宋陽秋, 常凱斯 申請人:江蘇名通信息科技有限公司