欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于向量查詢的自媒體傳播圖譜分析方法和裝置制造方法

文檔序號:6550851閱讀:226來源:國知局
基于向量查詢的自媒體傳播圖譜分析方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于向量查詢的自媒體傳播圖譜分析方法和裝置。該方法主要包括:采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息,構(gòu)造事件主題相關(guān)的查詢語句,利用查詢語句的查詢向量對媒體信息的文檔數(shù)據(jù)進(jìn)行查詢,輸出與事件主題相關(guān)的文檔集合;對文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù)相似性分析結(jié)果生成元組數(shù)據(jù)集;根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將各個(gè)文章展現(xiàn)出來,生成事件主題相關(guān)的媒體信息的傳播路徑。本發(fā)明實(shí)施例能夠?qū)崿F(xiàn)對所有自媒體平臺(tái)中的媒體信息的傳播情況的綜合分析,做到真正的自媒體傳播圖譜分析,能夠?qū)崿F(xiàn)對自媒體中任意事件的傳播分析結(jié)果的查詢功能。
【專利說明】基于向量查詢的自媒體傳播圖譜分析方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及媒體傳播分析【技術(shù)領(lǐng)域】,尤其涉及一種基于向量查詢的自媒體傳播圖 譜分析方法和裝置。

【背景技術(shù)】
[0002] 微博(Weibo)是微型博客(MicroBlog)的簡稱,即一句話博客,是一個(gè)基于用 戶關(guān)系信息分享、傳播以及獲取的平臺(tái)。通過該平臺(tái)用戶可以通過WEB、WAP(Wirele SS Application Protocol,無線應(yīng)用協(xié)議)等各種客戶端組建個(gè)人社區(qū),在該個(gè)人社區(qū)中更新 圖片、文字或視頻等信息,并實(shí)現(xiàn)即時(shí)分享。
[0003] 目前,現(xiàn)有技術(shù)中的微博傳播路徑分析方法主要包括:分析微博的轉(zhuǎn)發(fā)時(shí)間、轉(zhuǎn)發(fā) 人、關(guān)鍵賬號、轉(zhuǎn)發(fā)層級,從而分析出微博傳播的路徑。
[0004] 上述現(xiàn)有技術(shù)中的微博傳播路徑分析方法的缺點(diǎn)為:只能對微博單一媒體進(jìn)行分 析,不能分析微信等其他自媒體;無查詢功能,只能提供對特定微博事件的簡單統(tǒng)計(jì)功能。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的實(shí)施例提供了一種基于向量查詢的自媒體傳播圖譜分析方法和裝置,以 實(shí)現(xiàn)對所有自媒體平臺(tái)中的媒體信息的傳播情況的綜合分析。
[0006] 本發(fā)明提供了如下方案:
[0007] -種基于向量查詢的自媒體傳播圖譜分析方法,包括:
[0008] 采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息,對所述媒體信息進(jìn)行分析 得到結(jié)構(gòu)化的文檔數(shù)據(jù);
[0009] 構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量化得到查詢向量,利用 所述查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān)的文檔集合;
[0010] 對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù)相似性分析結(jié)果生成所 述事件主題相關(guān)的元組數(shù)據(jù)集;
[0011] 根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將所述各個(gè) 文章展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路徑。
[0012] 所述的采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息,對所述媒體信息進(jìn) 行分析得到結(jié)構(gòu)化的文檔數(shù)據(jù),包括:
[0013] 根據(jù)自媒體中的每種媒體傳播平臺(tái)的特征信息分別設(shè)計(jì)對應(yīng)的媒體采集工具,通 過媒體采集工具采集各種媒體傳播平臺(tái)所傳播的媒體信息,將采集到的媒體信息進(jìn)行格式 化處理,將格式化的媒體信息分布式地存儲(chǔ)在服務(wù)器中;
[0014] 利用Map函數(shù)將所述服務(wù)器中存儲(chǔ)的媒體信息中的文章進(jìn)行拆分,將拆分后的文 章分配給對應(yīng)的Reduce函數(shù),利用所述Reduce函數(shù)對對應(yīng)的文章進(jìn)行傳播軌跡分析和/ 或媒體事件分析技術(shù),得到結(jié)構(gòu)化的文檔數(shù)據(jù),該文檔數(shù)據(jù)包括文檔集和文檔的元數(shù)據(jù)。
[0015] 所述的構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量化得到查詢向 量,利用所述查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān)的文檔集合,包 括:
[0016] 根據(jù)自媒體中感興趣的事件主題構(gòu)造查詢語句,將所述查詢語句進(jìn)行向量化,采 用分詞技術(shù)將向量化的查詢語句切分解成多維查詢向量,使用全文查詢技術(shù)利用所述多維 查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出一個(gè)與所述事件主題相關(guān)的原始的文檔集合。
[0017] 所述的對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù)相似性分析結(jié)果 生成所述事件主題相關(guān)的元組數(shù)據(jù)集,包括:
[0018] 對所述事件主題相關(guān)的原始的文檔集合中的兩兩文章之間進(jìn)行基于文檔向量模 型的相似性分析,將相似性高于第一判斷閾值的兩篇文章判斷為屬于相互轉(zhuǎn)載,將相似性 高于或者等于第二判斷閾值的兩篇文章判斷為屬于在討論同一個(gè)話題,將相似性低于第二 判斷閾值的兩篇文章判斷為屬于沒有相似性;
[0019] 將屬于相互轉(zhuǎn)載和屬于在討論同一個(gè)話題的所有文章組成元組數(shù)據(jù)集,將所述元 組數(shù)據(jù)集中發(fā)布時(shí)間最早的文章作為原始文章。
[0020] 所述的根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將所 述各個(gè)文章展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路徑,包括:
[0021] 根據(jù)地域特征對所述元組數(shù)據(jù)集中的各個(gè)文章進(jìn)行地理編碼,獲取各個(gè)文章的經(jīng) 緯度坐標(biāo);
[0022] 根據(jù)各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將各個(gè)文章展現(xiàn)出來,并對各個(gè) 文章進(jìn)行多個(gè)維度的展示,把所述事件主題相關(guān)的各個(gè)文章隨著時(shí)間和地域的擴(kuò)散的情況 采用地理信息系統(tǒng)推演的方式展示出來,生成事件主題相關(guān)的媒體信息的傳播路徑和地域 模型。
[0023] -種基于向量查詢的自媒體傳播圖譜分析裝置,包括:
[0024] 媒體信息采集模塊,用于采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息, 對所述媒體信息進(jìn)行分析得到結(jié)構(gòu)化的文檔數(shù)據(jù);
[0025] 向量查詢模塊,用于構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量化 得到查詢向量,利用所述查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān)的 文檔集合;
[0026] 相似性分析模塊,用于對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù) 相似性分析結(jié)果生成所述事件主題相關(guān)的元組數(shù)據(jù)集;
[0027] 傳播圖譜展現(xiàn)模塊,用于根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地 理信息系統(tǒng)上將所述各個(gè)文章展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路徑。
[0028] 所述的媒體信息采集模塊,具體用于根據(jù)自媒體中的每種媒體傳播平臺(tái)的特征信 息分別設(shè)計(jì)對應(yīng)的媒體采集工具,通過媒體采集工具采集各種媒體傳播平臺(tái)所傳播的媒體 信息,將采集到的媒體信息進(jìn)行格式化處理,將格式化的媒體信息分布式地存儲(chǔ)在服務(wù)器 中;
[0029] 利用Map函數(shù)將所述服務(wù)器中存儲(chǔ)的媒體信息中的文章進(jìn)行拆分,將拆分后的文 章分配給對應(yīng)的Reduce函數(shù),利用所述Reduce函數(shù)對對應(yīng)的文章進(jìn)行傳播軌跡分析和/ 或媒體事件分析技術(shù),得到結(jié)構(gòu)化的文檔數(shù)據(jù),該文檔數(shù)據(jù)包括文檔集和文檔的元數(shù)據(jù)。
[0030] 所述的向量查詢模塊,具體用于根據(jù)自媒體中感興趣的事件主題構(gòu)造查詢語句, 將所述查詢語句進(jìn)行向量化,采用分詞技術(shù)將向量化的查詢語句切分解成多維查詢向量, 使用全文查詢技術(shù)利用所述多維查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出一個(gè)與所述事件 主題相關(guān)的原始的文檔集合。
[0031] 所述的相似性分析模塊,具體用于對所述事件主題相關(guān)的原始的文檔集合中的兩 兩文章之間進(jìn)行基于文檔向量模型的相似性分析,將相似性高于第一判斷閾值的兩篇文章 判斷為屬于相互轉(zhuǎn)載,將相似性高于或者等于第二判斷閾值的兩篇文章判斷為屬于在討論 同一個(gè)話題,將相似性低于第二判斷閾值的兩篇文章判斷為屬于沒有相似性;
[0032] 將屬于相互轉(zhuǎn)載和屬于在討論同一個(gè)話題的所有文章組成元組數(shù)據(jù)集,將所述元 組數(shù)據(jù)集中發(fā)布時(shí)間最早的文章作為原始文章。
[0033] 所述的傳播圖譜展現(xiàn)模塊,具體用于根據(jù)各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系 統(tǒng)上將各個(gè)文章展現(xiàn)出來,并對各個(gè)文章進(jìn)行多個(gè)維度的展示,把所述事件主題相關(guān)的各 個(gè)文章隨著時(shí)間和地域的擴(kuò)散的情況采用地理信息系統(tǒng)推演的方式展示出來,生成事件主 題相關(guān)的媒體信息的傳播路徑和地域模型。
[0034] 由上述本發(fā)明的實(shí)施例提供的技術(shù)方案可以看出,本發(fā)明實(shí)施例通過基于向量查 詢的自媒體傳播圖譜分析技術(shù),能夠?qū)崿F(xiàn)對所有自媒體平臺(tái)中的媒體信息的傳播情況的綜 合分析,做到真正的自媒體傳播圖譜分析。本發(fā)明實(shí)施例以向量查詢技術(shù)為基礎(chǔ),能夠?qū)崿F(xiàn) 對自媒體中任意事件的傳播分析結(jié)果的查詢功能,能夠?qū)ψ悦襟w傳播進(jìn)行深入分析,自動(dòng) 生成多維度智能圖譜,展示自媒體傳播軌跡、傳播趨勢。

【專利附圖】

【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0036] 圖1為本發(fā)明實(shí)施例一提供的一種基于向量查詢的自媒體傳播圖譜分析方法的 處理流程圖;
[0037] 圖2為本發(fā)明實(shí)施例二提供的一種基于向量查詢的自媒體傳播圖譜分析裝置的 具體實(shí)現(xiàn)結(jié)構(gòu)圖,圖中,媒體信息采集模塊21,向量查詢模塊22,相似性分析模塊23和傳播 圖譜展現(xiàn)模塊24。

【具體實(shí)施方式】
[0038] 為便于對本發(fā)明實(shí)施例的理解,下面將結(jié)合附圖以幾個(gè)具體實(shí)施例為例做進(jìn)一步 的解釋說明,且各個(gè)實(shí)施例并不構(gòu)成對本發(fā)明實(shí)施例的限定。
[0039] 實(shí)施例一
[0040] 該實(shí)施例提供了一種基于向量查詢的自媒體傳播圖譜分析方法的處理流程如圖1 所示,包括如下的處理步驟:
[0041] 步驟S110、通過媒體采集工具采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信 息。
[0042] 自媒體是包含博客、SNS (Social Networking Services,社會(huì)性網(wǎng)絡(luò)服務(wù))、微博、 微信公眾平臺(tái)等多種媒體傳播平臺(tái)的即時(shí)傳播方式。通過自媒體,一個(gè)普通市民或機(jī)構(gòu)組 織能夠在任何時(shí)間、任何地點(diǎn),以任何一個(gè)自媒體平臺(tái)提供并分享各種信息。
[0043] 本發(fā)明實(shí)施例需要利用云采集技術(shù)通過媒體采集工具采集自媒體中的各種媒體 傳播平臺(tái)所傳播的媒體信息,將采集到的媒體信息進(jìn)行格式化處理,得到格式化的媒體信 息,并存儲(chǔ)在媒體信息數(shù)據(jù)庫中。上述媒體采集工具可以為網(wǎng)頁爬蟲工具等。
[0044] 在實(shí)際應(yīng)用中,可以根據(jù)每種媒體傳播平臺(tái)的特征信息分別設(shè)計(jì)對應(yīng)的媒體采集 工具,現(xiàn)在有很多成熟的基于HTTP (Hypertext transfer protocol,超文本轉(zhuǎn)移協(xié)議)協(xié)議 的抓取技術(shù)和框架可以使用。比如,可以采用python技術(shù),基于http協(xié)議對相應(yīng)的站點(diǎn)進(jìn) 行定時(shí)定點(diǎn)的抓取。Python技術(shù)具有靈活,可移植,跨平臺(tái),功能強(qiáng)大的特點(diǎn)。又比如,還可 以采用正則表達(dá)式,基于http協(xié)議將感興趣的內(nèi)容,從自媒體上抓取過來,并進(jìn)行結(jié)構(gòu)化 的存儲(chǔ)。
[0045] 然后,將采集的自媒體中的媒體信息使用大數(shù)據(jù)存儲(chǔ)方式,分布式的存儲(chǔ)到云服 務(wù)器上。
[0046] 步驟S120、對采集的自媒體中的各種媒體信息進(jìn)行多維度的綜合分析,輸出結(jié)構(gòu) 化的文檔數(shù)據(jù)。
[0047] 本發(fā)明實(shí)施例需要對上述待分析的自媒體文章的傳播軌跡、傳播趨勢相關(guān)的各種 因素進(jìn)行多維度的綜合分析,該綜合分析可以包括:傳播軌跡分析、媒體事件分析技術(shù)、媒 體覆蓋分析、媒體粉絲分析等。
[0048] 其中,傳播軌跡分析,主要包括分析媒體信息在新聞、論壇、博客、微博等媒體傳播 載體中的傳播規(guī)律。
[0049] 媒體事件分析技術(shù),主要包括分析媒體事件的起因,傳播速度,爆發(fā)趨勢。
[0050] 媒體輿情分析技術(shù),主要包括分析媒體輿情的輿情走勢,輿情傳播,發(fā)展態(tài)勢。
[0051] 媒體覆蓋分析技術(shù),主要包括分析媒體覆蓋的媒體范圍,媒體數(shù)量,文章數(shù)量等。
[0052] 媒體信息的存儲(chǔ)技術(shù)可以采用hadoop集群,使用haddop集群自帶的分布式文件 系統(tǒng),支持超大數(shù)據(jù)集,支持?jǐn)?shù)據(jù)備份。
[0053] 媒體信息的分析技術(shù)可以采用MapReduce模型,Map函數(shù)將所有的媒體信息的文 章進(jìn)行拆分,將拆分后的文章分配給對應(yīng)的Reduce函數(shù)。
[0054] 利用Reduce函數(shù)對對應(yīng)的文章進(jìn)行傳播軌跡分析和/或媒體事件分析,Reduce函 數(shù)還可以進(jìn)行不同文章之間的具體的相似性分析。
[0055] 所以,經(jīng)過這一步驟,文章經(jīng)過初步的分析、整理和過濾,輸出了比較整齊的、結(jié)構(gòu) 化的文檔數(shù)據(jù),該文檔數(shù)據(jù)包括文檔集和文檔的元數(shù)據(jù)。
[0056] 步驟S130、將事件主題相關(guān)的查詢語句向量化,利用查詢向量對上述文檔數(shù)據(jù)進(jìn) 行查詢,輸出與上述事件主題相關(guān)的原始的文檔集合。
[0057] 根據(jù)自媒體中用戶感興趣的事件主題構(gòu)造查詢語句,將查詢語句進(jìn)行向量化,采 用分詞技術(shù)將向量化的查詢語句切分解成η維查詢向量。然后使用全文查詢技術(shù),利用上 述η維查詢向量對上述步驟S120處理輸出的文檔數(shù)據(jù)進(jìn)行查詢,輸出一個(gè)與上述事件主題 相關(guān)的原始的文檔集合。
[0058] 該步驟可以實(shí)現(xiàn)對自媒體中任意事件主題相關(guān)的文檔的查詢功能。
[0059] 步驟S140、對事件主題相關(guān)的文檔集合進(jìn)行基于文檔向量模型的相似性分析,生 成原始文章的元組數(shù)據(jù)集。
[0060] 對S130步驟輸出的原始的文檔集合中的兩兩文檔之間進(jìn)行基于文檔向量模型的 相似性分析,將相似性高于第一判斷閾值的兩篇文章判斷為屬于相互轉(zhuǎn)載,將相似性高于 或者等于第二判斷閾值的兩篇文章判斷為屬于在討論同一個(gè)話題,將相似性低于第二判斷 閾值的兩篇文章判斷為屬于沒有相似性。示例性的,上述第一判斷閾值可以為〇. 9,上述第 二判斷閾值可以為0.7。
[0061] 上述文檔向量模型是一種成熟、穩(wěn)定的相似性分析技術(shù),該技術(shù)的原理主要包括: 把每篇文章分詞成η維的文檔向量,然后計(jì)算兩篇文檔向量之間的夾角,夾角越小,就認(rèn)為 兩篇文檔之間的相似度越大。
[0062] 將屬于相互轉(zhuǎn)載和屬于在討論同一個(gè)話題的所有文章組成元組數(shù)據(jù)集,將所述元 組數(shù)據(jù)集中發(fā)布時(shí)間最早的文章作為原始文章。
[0063] 步驟S150、對原始文章的元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在GIS系統(tǒng)上 將各個(gè)文章展現(xiàn)出來,生成事件主題相關(guān)的各種文章的傳播路徑和地域模型。
[0064] 基于向量查詢的自媒體傳播圖譜分析技術(shù)能夠?qū)ψ悦襟w傳播進(jìn)行深入分析,自動(dòng) 生成多維度的傳播圖譜,展示采集的自媒體中的媒體信息的傳播軌跡、傳播趨勢。
[0065] 根據(jù)地域特征對于上述元組數(shù)據(jù)集中的各個(gè)文章進(jìn)行地理編碼,獲取各個(gè)文章大 致的經(jīng)緯度坐標(biāo)。
[0066] 然后,根據(jù)各個(gè)文章的經(jīng)纟韋度坐標(biāo),在GIS (Geographic Information System,地理 信息系統(tǒng))系統(tǒng)上將各個(gè)文章展現(xiàn)出來,并對各個(gè)文章進(jìn)行多個(gè)維度的展示,如根據(jù)時(shí)間, 根據(jù)地域,把上述事件主題相關(guān)的各個(gè)文章隨著時(shí)間和地域的擴(kuò)散的情況采用GIS推演的 方式展示出來,生成事件主題相關(guān)的媒體信息的傳播路徑和地域模型。
[0067] 上述本發(fā)明實(shí)施例的方法可以采用向量的,并行的方式同時(shí)分析多組文章,得到 任意媒體的傳播路線和傳播圖譜,并按照時(shí)間序列進(jìn)行排序,并使用gis的方式建立相應(yīng) 的輿情傳播和預(yù)測模型。
[0068] 實(shí)施例二
[0069] 該實(shí)施例提供了一種基于向量查詢的自媒體傳播圖譜分析裝置,其具體實(shí)現(xiàn)結(jié)構(gòu) 如圖2所示,具體可以包括如下的模塊:
[0070] 媒體信息采集模塊21,用于采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信 息,對所述媒體信息進(jìn)行分析得到結(jié)構(gòu)化的文檔數(shù)據(jù);
[0071] 向量查詢模塊22,用于構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量 化得到查詢向量,利用所述查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān) 的文檔集合;
[0072] 相似性分析模塊23,用于對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根 據(jù)相似性分析結(jié)果生成所述事件主題相關(guān)的元組數(shù)據(jù)集;
[0073] 傳播圖譜展現(xiàn)模塊24,用于根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在 地理信息系統(tǒng)上將所述各個(gè)文章展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路 徑。
[0074] 進(jìn)一步地,所述的媒體信息采集模塊21,具體用于根據(jù)自媒體中的每種媒體傳播 平臺(tái)的特征信息分別設(shè)計(jì)對應(yīng)的媒體采集工具,通過媒體采集工具采集各種媒體傳播平臺(tái) 所傳播的媒體信息,將采集到的媒體信息進(jìn)行格式化處理,將格式化的媒體信息分布式地 存儲(chǔ)在服務(wù)器中;
[0075] 利用Map函數(shù)將所述服務(wù)器中存儲(chǔ)的媒體信息中的文章進(jìn)行拆分,將拆分后的文 章分配給對應(yīng)的Reduce函數(shù),利用所述Reduce函數(shù)對對應(yīng)的文章進(jìn)行傳播軌跡分析和/ 或媒體事件分析技術(shù),得到結(jié)構(gòu)化的文檔數(shù)據(jù),該文檔數(shù)據(jù)包括文檔集和文檔的元數(shù)據(jù)。
[0076] 進(jìn)一步地,所述的向量查詢模塊22,具體用于根據(jù)自媒體中感興趣的事件主題構(gòu) 造查詢語句,將所述查詢語句進(jìn)行向量化,采用分詞技術(shù)將向量化的查詢語句切分解成多 維查詢向量,使用全文查詢技術(shù)利用所述多維查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出一 個(gè)與所述事件主題相關(guān)的原始的文檔集合。
[0077] 進(jìn)一步地,所述的相似性分析模塊23,具體用于對所述事件主題相關(guān)的原始的文 檔集合中的兩兩文章之間進(jìn)行基于文檔向量模型的相似性分析,將相似性高于第一判斷閾 值的兩篇文章判斷為屬于相互轉(zhuǎn)載,將相似性高于或者等于第二判斷閾值的兩篇文章判 斷為屬于在討論同一個(gè)話題,將相似性低于第二判斷閾值的兩篇文章判斷為屬于沒有相似 性;
[0078] 將屬于相互轉(zhuǎn)載和屬于在討論同一個(gè)話題的所有文章組成元組數(shù)據(jù)集,將所述元 組數(shù)據(jù)集中發(fā)布時(shí)間最早的文章作為原始文章。
[0079] 進(jìn)一步地,所述的傳播圖譜展現(xiàn)模塊24,具體用于根據(jù)各個(gè)文章的經(jīng)緯度坐標(biāo),在 地理信息系統(tǒng)上將各個(gè)文章展現(xiàn)出來,并對各個(gè)文章進(jìn)行多個(gè)維度的展示,把所述事件主 題相關(guān)的各個(gè)文章隨著時(shí)間和地域的擴(kuò)散的情況采用地理信息系統(tǒng)推演的方式展示出來, 生成事件主題相關(guān)的媒體信息的傳播路徑和地域模型。
[0080] 用本發(fā)明實(shí)施例的裝置進(jìn)行基于向量查詢的自媒體傳播圖譜分析的具體過程與 前述方法實(shí)施例類似,此處不再贅述。
[0081] 綜上所述,本發(fā)明實(shí)施例通過基于向量查詢的自媒體傳播圖譜分析技術(shù),能夠?qū)?現(xiàn)對所有自媒體平臺(tái)中的媒體信息的傳播情況的綜合分析,做到真正的自媒體傳播圖譜分 析。
[0082] 本發(fā)明實(shí)施例基于向量查詢技術(shù),以向量查詢技術(shù)為基礎(chǔ),能夠?qū)崿F(xiàn)對自媒體中 任意事件的傳播分析結(jié)果的查詢功能,能夠?qū)ψ悦襟w傳播進(jìn)行深入分析,自動(dòng)生成多維度 智能圖譜,展示自媒體傳播軌跡、傳播趨勢。
[0083] 本領(lǐng)域普通技術(shù)人員可以理解:附圖只是一個(gè)實(shí)施例的示意圖,附圖中的模塊或 流程并不一定是實(shí)施本發(fā)明所必須的。
[0084] 通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可 借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì) 上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品 可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備 (可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些 部分所述的方法。
[0085] 本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部 分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置或 系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法 實(shí)施例的部分說明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為 分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或 者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿?據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù) 人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0086] 以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍 為準(zhǔn)。
【權(quán)利要求】
1. 一種基于向量查詢的自媒體傳播圖譜分析方法,其特征在于,包括: 采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息,對所述媒體信息進(jìn)行分析得到 結(jié)構(gòu)化的文檔數(shù)據(jù); 構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量化得到查詢向量,利用所述 查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān)的文檔集合; 對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù)相似性分析結(jié)果生成所述事 件主題相關(guān)的元組數(shù)據(jù)集; 根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將所述各個(gè)文章 展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路徑。
2. 根據(jù)權(quán)利要求1所述的基于向量查詢的自媒體傳播圖譜分析方法,其特征在于,所 述的采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息,對所述媒體信息進(jìn)行分析得到 結(jié)構(gòu)化的文檔數(shù)據(jù),包括: 根據(jù)自媒體中的每種媒體傳播平臺(tái)的特征信息分別設(shè)計(jì)對應(yīng)的媒體采集工具,通過媒 體采集工具采集各種媒體傳播平臺(tái)所傳播的媒體信息,將采集到的媒體信息進(jìn)行格式化處 理,將格式化的媒體信息分布式地存儲(chǔ)在服務(wù)器中; 利用Map函數(shù)將所述服務(wù)器中存儲(chǔ)的媒體信息中的文章進(jìn)行拆分,將拆分后的文章分 配給對應(yīng)的Reduce函數(shù),利用所述Reduce函數(shù)對對應(yīng)的文章進(jìn)行傳播軌跡分析和/或媒 體事件分析技術(shù),得到結(jié)構(gòu)化的文檔數(shù)據(jù),該文檔數(shù)據(jù)包括文檔集和文檔的元數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的基于向量查詢的自媒體傳播圖譜分析方法,其特征在于,所 述的構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量化得到查詢向量,利用所述 查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān)的文檔集合,包括: 根據(jù)自媒體中感興趣的事件主題構(gòu)造查詢語句,將所述查詢語句進(jìn)行向量化,采用分 詞技術(shù)將向量化的查詢語句切分解成多維查詢向量,使用全文查詢技術(shù)利用所述多維查詢 向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出一個(gè)與所述事件主題相關(guān)的原始的文檔集合。
4. 根據(jù)權(quán)利要求3所述的基于向量查詢的自媒體傳播圖譜分析方法,其特征在于,所 述的對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù)相似性分析結(jié)果生成所述事 件主題相關(guān)的元組數(shù)據(jù)集,包括: 對所述事件主題相關(guān)的原始的文檔集合中的兩兩文章之間進(jìn)行基于文檔向量模型的 相似性分析,將相似性高于第一判斷閾值的兩篇文章判斷為屬于相互轉(zhuǎn)載,將相似性高于 或者等于第二判斷閾值的兩篇文章判斷為屬于在討論同一個(gè)話題,將相似性低于第二判斷 閾值的兩篇文章判斷為屬于沒有相似性; 將屬于相互轉(zhuǎn)載和屬于在討論同一個(gè)話題的所有文章組成元組數(shù)據(jù)集,將所述元組數(shù) 據(jù)集中發(fā)布時(shí)間最早的文章作為原始文章。
5. 根據(jù)權(quán)利要求4所述的基于向量查詢的自媒體傳播圖譜分析方法,其特征在于,所 述的根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將所述各個(gè)文章 展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路徑,包括: 根據(jù)地域特征對所述元組數(shù)據(jù)集中的各個(gè)文章進(jìn)行地理編碼,獲取各個(gè)文章的經(jīng)緯度 坐標(biāo); 根據(jù)各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上將各個(gè)文章展現(xiàn)出來,并對各個(gè)文章 進(jìn)行多個(gè)維度的展示,把所述事件主題相關(guān)的各個(gè)文章隨著時(shí)間和地域的擴(kuò)散的情況采用 地理信息系統(tǒng)推演的方式展示出來,生成事件主題相關(guān)的媒體信息的傳播路徑和地域模 型。
6. -種基于向量查詢的自媒體傳播圖譜分析裝置,其特征在于,包括: 媒體信息采集模塊,用于采集自媒體中的各種媒體傳播平臺(tái)所傳播的媒體信息,對所 述媒體信息進(jìn)行分析得到結(jié)構(gòu)化的文檔數(shù)據(jù); 向量查詢模塊,用于構(gòu)造事件主題相關(guān)的查詢語句,對所述查詢語句進(jìn)行向量化得到 查詢向量,利用所述查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出與所述事件主題相關(guān)的文檔 集合; 相似性分析模塊,用于對所述文檔集合中的各個(gè)文檔之間進(jìn)行相似性分析,根據(jù)相似 性分析結(jié)果生成所述事件主題相關(guān)的元組數(shù)據(jù)集; 傳播圖譜展現(xiàn)模塊,用于根據(jù)所述元組數(shù)據(jù)集中的各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信 息系統(tǒng)上將所述各個(gè)文章展現(xiàn)出來,生成所述事件主題相關(guān)的媒體信息的傳播路徑。
7. 根據(jù)權(quán)利要求6所述的基于向量查詢的自媒體傳播圖譜分析裝置,其特征在于: 所述的媒體信息采集模塊,具體用于根據(jù)自媒體中的每種媒體傳播平臺(tái)的特征信息 分別設(shè)計(jì)對應(yīng)的媒體采集工具,通過媒體采集工具采集各種媒體傳播平臺(tái)所傳播的媒體 信息,將采集到的媒體信息進(jìn)行格式化處理,將格式化的媒體信息分布式地存儲(chǔ)在服務(wù)器 中; 利用Map函數(shù)將所述服務(wù)器中存儲(chǔ)的媒體信息中的文章進(jìn)行拆分,將拆分后的文章分 配給對應(yīng)的Reduce函數(shù),利用所述Reduce函數(shù)對對應(yīng)的文章進(jìn)行傳播軌跡分析和/或媒 體事件分析技術(shù),得到結(jié)構(gòu)化的文檔數(shù)據(jù),該文檔數(shù)據(jù)包括文檔集和文檔的元數(shù)據(jù)。
8. 根據(jù)權(quán)利要求7所述的基于向量查詢的自媒體傳播圖譜分析裝置,其特征在于: 所述的向量查詢模塊,具體用于根據(jù)自媒體中感興趣的事件主題構(gòu)造查詢語句,將所 述查詢語句進(jìn)行向量化,采用分詞技術(shù)將向量化的查詢語句切分解成多維查詢向量,使用 全文查詢技術(shù)利用所述多維查詢向量對所述文檔數(shù)據(jù)進(jìn)行查詢,輸出一個(gè)與所述事件主題 相關(guān)的原始的文檔集合。
9. 根據(jù)權(quán)利要求8所述的基于向量查詢的自媒體傳播圖譜分析裝置,其特征在于: 所述的相似性分析模塊,具體用于對所述事件主題相關(guān)的原始的文檔集合中的兩兩文 章之間進(jìn)行基于文檔向量模型的相似性分析,將相似性高于第一判斷閾值的兩篇文章判斷 為屬于相互轉(zhuǎn)載,將相似性高于或者等于第二判斷閾值的兩篇文章判斷為屬于在討論同一 個(gè)話題,將相似性低于第二判斷閾值的兩篇文章判斷為屬于沒有相似性; 將屬于相互轉(zhuǎn)載和屬于在討論同一個(gè)話題的所有文章組成元組數(shù)據(jù)集,將所述元組數(shù) 據(jù)集中發(fā)布時(shí)間最早的文章作為原始文章。
10. 根據(jù)權(quán)利要求9所述的基于向量查詢的自媒體傳播圖譜分析裝置,其特征在于: 所述的傳播圖譜展現(xiàn)模塊,具體用于根據(jù)各個(gè)文章的經(jīng)緯度坐標(biāo),在地理信息系統(tǒng)上 將各個(gè)文章展現(xiàn)出來,并對各個(gè)文章進(jìn)行多個(gè)維度的展示,把所述事件主題相關(guān)的各個(gè)文 章隨著時(shí)間和地域的擴(kuò)散的情況采用地理信息系統(tǒng)推演的方式展示出來,生成事件主題相 關(guān)的媒體信息的傳播路徑和地域模型。
【文檔編號】G06F17/30GK104063456SQ201410290283
【公開日】2014年9月24日 申請日期:2014年6月25日 優(yōu)先權(quán)日:2014年6月25日
【發(fā)明者】屈偉 申請人:紅麥聚信(北京)軟件技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
句容市| 平定县| 北安市| 武安市| 南充市| 科尔| 天门市| 南京市| 兴化市| 沾化县| 灵山县| 水城县| 大英县| 资源县| 双辽市| 永善县| 宿州市| 嘉义市| 天柱县| 大名县| 嫩江县| 许昌县| 临城县| 灌南县| 萝北县| 陆川县| 永嘉县| 平阳县| 正定县| 沛县| 鹤庆县| 德化县| 鹰潭市| 天气| 冕宁县| 陵川县| 泰兴市| 吉木萨尔县| 喀什市| 岗巴县| 聂拉木县|