一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析系統(tǒng)和方法
【專利摘要】一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析系統(tǒng),所述的大數(shù)據(jù)包括來自互聯(lián)網(wǎng)資源的論文、專利文獻(xiàn)和網(wǎng)頁內(nèi)容,所述系統(tǒng)包括用以從互聯(lián)網(wǎng)獲取所需數(shù)據(jù)的數(shù)據(jù)采集模塊、用以存儲(chǔ)所獲得數(shù)據(jù)的系統(tǒng)存儲(chǔ)模塊、用以對(duì)獲得數(shù)據(jù)進(jìn)行分析的數(shù)據(jù)模塊和用以產(chǎn)生分析報(bào)告的一體化報(bào)告模塊。本發(fā)明實(shí)現(xiàn)了專利、論文、網(wǎng)頁內(nèi)容三種信息源的融合,擴(kuò)展創(chuàng)新資源,實(shí)現(xiàn)全方位的資源搜索;本發(fā)明采用動(dòng)態(tài)配置關(guān)鍵字,實(shí)時(shí)抓取,能更好的擴(kuò)充數(shù)據(jù)資源,使得數(shù)據(jù)資源與當(dāng)前網(wǎng)絡(luò)資源同步;本發(fā)明采用一體化的結(jié)構(gòu)模式,用戶通過配置,可實(shí)現(xiàn)定時(shí)、定向的數(shù)據(jù)分析報(bào)告,便于用戶一站式檢索其所需信息,簡(jiǎn)化用戶操作。
【專利說明】一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于大數(shù)據(jù)分析挖掘【技術(shù)領(lǐng)域】,特別涉及一種可處理多種信息類型的信息 源的企業(yè)創(chuàng)新資源管理與分析系統(tǒng)和方法。
【背景技術(shù)】
[0002] 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)逐漸成為企業(yè)及行業(yè)的最重要資產(chǎn)之一,發(fā)展決策與市場(chǎng)定 位行為將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗(yàn)和直覺。作為構(gòu)筑在數(shù)據(jù)分 析和信息處理基礎(chǔ)上的競(jìng)爭(zhēng)情報(bào),它的發(fā)展將面臨著全新的信息空間所帶來的機(jī)遇和挑 戰(zhàn)。相關(guān)的數(shù)據(jù)整合在一起,能不斷產(chǎn)生新的信息和知識(shí),有助于提高生產(chǎn)率、降低經(jīng)營成 本。
[0003] 技術(shù)創(chuàng)新數(shù)據(jù)是競(jìng)爭(zhēng)情報(bào)的重要組成部分,而創(chuàng)新數(shù)據(jù)分析多為針對(duì)單一領(lǐng)域, 要么是網(wǎng)頁新聞、要么是專利、要么為科研論文,較少將三者有效融合,提供整合的分析結(jié) 果,導(dǎo)致創(chuàng)新資源本身缺少全面性,不利于企業(yè)做全方位的分析,難以提升核心競(jìng)爭(zhēng)能力, 保持或獲得行業(yè)領(lǐng)先地位。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析系統(tǒng)和方法。
[0005] 本發(fā)明的技術(shù)方案是,一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析系統(tǒng),所述的 大數(shù)據(jù)包括來自互聯(lián)網(wǎng)資源的論文、專利文獻(xiàn)和網(wǎng)頁內(nèi)容,所述系統(tǒng)包括用以從互聯(lián)網(wǎng)獲 取所需數(shù)據(jù)的數(shù)據(jù)采集模塊、用以存儲(chǔ)所獲得數(shù)據(jù)的系統(tǒng)存儲(chǔ)模塊、用以對(duì)獲得數(shù)據(jù)進(jìn)行 分析的數(shù)據(jù)模塊和用以產(chǎn)生分析報(bào)告的一體化報(bào)告模塊,
[0006] 所述的數(shù)據(jù)采集模塊動(dòng)態(tài)設(shè)定關(guān)鍵詞,組建大數(shù)據(jù)URL種子,建立網(wǎng)站優(yōu)先檢索 表,以深度優(yōu)先的算法利用數(shù)據(jù)抓取器采集開放的互聯(lián)網(wǎng)內(nèi)容和封閉的數(shù)據(jù)庫信息;
[0007] 所述的系統(tǒng)存儲(chǔ)模塊,將采集的信息資源分類,分別存儲(chǔ)到專利數(shù)據(jù)庫、論文數(shù)據(jù) 庫和網(wǎng)頁內(nèi)容數(shù)據(jù)庫中,并依據(jù)采集是的相關(guān)關(guān)鍵字建立初步的數(shù)據(jù)索引表;
[0008] 所述的數(shù)據(jù)分析模塊,根據(jù)數(shù)據(jù)分析模塊中的數(shù)據(jù)分析方式對(duì)采集到的信息依次 進(jìn)行熱點(diǎn)追蹤、信息分析、領(lǐng)域分析以及相關(guān)性的關(guān)系挖掘分析,并依據(jù)分析結(jié)果建立索 引;
[0009] 所述的一體化報(bào)告模塊,根據(jù)用戶設(shè)定的關(guān)鍵字,調(diào)用數(shù)據(jù)分析模塊給出整體的 分析報(bào)告。
[0010] 一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析方法,所述的大數(shù)據(jù)包括來自互聯(lián) 網(wǎng)資源的論文、專利文獻(xiàn)和網(wǎng)頁內(nèi)容,所述系統(tǒng)包括用以從互聯(lián)網(wǎng)獲取所需數(shù)據(jù)的數(shù)據(jù)采 集模塊、用以存儲(chǔ)所獲得數(shù)據(jù)的系統(tǒng)存儲(chǔ)模塊、用以對(duì)獲得數(shù)據(jù)進(jìn)行分析的數(shù)據(jù)模塊和用 以產(chǎn)生分析報(bào)告的一體化報(bào)告模塊,包括以下步驟:
[0011] 其中,第一階段包括,
[0012] 步驟一:系統(tǒng)根據(jù)初始設(shè)定的關(guān)鍵字,組建優(yōu)質(zhì)URL種子,利用爬蟲技術(shù),采用關(guān) 鍵字權(quán)重過濾算法,以優(yōu)質(zhì)網(wǎng)站優(yōu)先深度搜索的方法,采集互聯(lián)網(wǎng)關(guān)于專利、論文、網(wǎng)頁新 聞等相關(guān)信息資源;
[0013] 步驟二:將采集的信息資源分類,分別存儲(chǔ)到專利數(shù)據(jù)庫、論文數(shù)據(jù)庫、網(wǎng)頁新聞 數(shù)據(jù)庫中,并依據(jù)采集是的相關(guān)關(guān)鍵字建立初步的數(shù)據(jù)索引表;
[0014] 步驟三:根據(jù)數(shù)據(jù)分析模塊中的數(shù)據(jù)分析方式對(duì)采集到的信息依次進(jìn)行熱點(diǎn)追 蹤、信息分析、領(lǐng)域分析以及其他相關(guān)性的關(guān)系挖掘分析,并依據(jù)分析結(jié)果建立索引;
[0015] 步驟四:根據(jù)需要改變領(lǐng)域、關(guān)鍵字或/和分析方法,重復(fù)進(jìn)行步驟一、二、三;
[0016] 第二階段包括,
[0017] 步驟一:判斷用戶輸入的關(guān)鍵字或領(lǐng)域是否在系統(tǒng)前期的配置表中,若不在則將 其加入到系統(tǒng)的配置表中,進(jìn)行第一階段的實(shí)施步驟;
[0018] 步驟二:針對(duì)用戶的需求對(duì)所采集數(shù)據(jù)信息進(jìn)行分析,并根據(jù)報(bào)告配置的模式,呈 現(xiàn)分析結(jié)果,并可將報(bào)告結(jié)果導(dǎo)出或定時(shí)發(fā)送的用戶郵箱或手機(jī)。
[0019] 本發(fā)明的有益效果包括:
[0020] 1、本發(fā)明實(shí)現(xiàn)了專利、論文、網(wǎng)頁內(nèi)容三種信息源的融合,擴(kuò)展創(chuàng)新資源,實(shí)現(xiàn)全 方位的資源搜索;
[0021] 2、本發(fā)明采用動(dòng)態(tài)配置關(guān)鍵字,實(shí)時(shí)抓取,能更好的擴(kuò)充數(shù)據(jù)資源,使得數(shù)據(jù)資源 與當(dāng)前網(wǎng)絡(luò)資源同步;
[0022] 3、本發(fā)明采用一體化的結(jié)構(gòu)模式,用戶通過配置,可實(shí)現(xiàn)定時(shí)、定向的數(shù)據(jù)分析報(bào) 告,便于用戶一站式檢索其所需信息,簡(jiǎn)化用戶操作。
【專利附圖】
【附圖說明】
[0023] 圖1為本發(fā)明實(shí)施例中企業(yè)創(chuàng)新資源管理與分析系統(tǒng)結(jié)構(gòu)示意圖。
[0024] 圖2是本發(fā)明中數(shù)據(jù)采集模塊的網(wǎng)頁下載流程。
[0025] 圖3是本發(fā)明中數(shù)據(jù)采集模塊的網(wǎng)頁內(nèi)容結(jié)構(gòu)化提取流程圖。
[0026] 圖4是本發(fā)明中系統(tǒng)存儲(chǔ)模塊中使用的文本分類流程圖。
【具體實(shí)施方式】
[0027] 本發(fā)明所述企業(yè)創(chuàng)新資源管理與分析系統(tǒng)結(jié)構(gòu)示意圖,如圖1所示,系統(tǒng)包括數(shù) 據(jù)采集模塊、數(shù)據(jù)分析模塊、系統(tǒng)存儲(chǔ)模塊、一體化報(bào)告模塊。資源管理與分析包括兩個(gè)部 分:一為系統(tǒng)根據(jù)前期配置領(lǐng)域(關(guān)鍵字),和數(shù)據(jù)分析方向的設(shè)定,自動(dòng)的數(shù)據(jù)采集和分 析數(shù)據(jù);二為系統(tǒng)根據(jù)客戶的設(shè)定需求,有具體針對(duì)性的數(shù)據(jù)采集與分析。其中第一個(gè)部分 是不間斷執(zhí)行的部分,其中配置領(lǐng)域(關(guān)鍵字)和數(shù)據(jù)分析方式可動(dòng)態(tài)的修改或擴(kuò)充;第二 部分是中的采集工作在用戶設(shè)定后也為不間斷執(zhí)行的部分,但針對(duì)客戶的分析,只有在客 戶有需求的時(shí)候才開始執(zhí)行。其實(shí)施步驟如下:
[0028] 第一部分實(shí)施步驟如下:
[0029] 步驟一:系統(tǒng)根據(jù)初始設(shè)定的關(guān)鍵字,組建優(yōu)質(zhì)URL種子,利用爬蟲技術(shù),采用關(guān) 鍵字權(quán)重過濾算法,以優(yōu)質(zhì)網(wǎng)站優(yōu)先深度搜索的方法,采集互聯(lián)網(wǎng)關(guān)于專利、論文、網(wǎng)頁新 聞等相關(guān)信息資源;
[0030] 步驟二:將采集的信息資源分類,分別存儲(chǔ)到專利數(shù)據(jù)庫、論文數(shù)據(jù)庫、網(wǎng)頁新聞 數(shù)據(jù)庫中,并依據(jù)采集是的相關(guān)關(guān)鍵字建立初步的數(shù)據(jù)索引表;
[0031] 步驟三:根據(jù)數(shù)據(jù)分析模塊中的數(shù)據(jù)分析方式對(duì)采集到的信息依次進(jìn)行熱點(diǎn)追 蹤、信息分析、領(lǐng)域分析以及其他相關(guān)性的關(guān)系挖掘分析,并依據(jù)分析結(jié)果建立索引。
[0032] 步驟四:是否需更改(擴(kuò)充)前期領(lǐng)域、關(guān)鍵字、分析方法,重復(fù)進(jìn)行前述步驟一、 --、___〇
[0033] 第二部分實(shí)施步驟如下:
[0034] 步驟一:判斷用戶輸入的關(guān)鍵字或領(lǐng)域是否在系統(tǒng)前期的配置表中,若不在則將 其加入到系統(tǒng)的配置表中,進(jìn)行第一部分的實(shí)施步驟;
[0035] 步驟二:針對(duì)用戶的需求對(duì)所采集數(shù)據(jù)信息進(jìn)行分析,并根據(jù)報(bào)告配置的模式,呈 現(xiàn)分析結(jié)果,并可將報(bào)告結(jié)果導(dǎo)出或定時(shí)發(fā)送的用戶郵箱或手機(jī)。
[0036] 在本發(fā)明中,關(guān)于網(wǎng)站數(shù)據(jù)信息的采數(shù)據(jù)集模塊的實(shí)現(xiàn)還系統(tǒng)包括兩個(gè)子模塊, 分別是網(wǎng)頁下載子模塊和網(wǎng)頁內(nèi)容結(jié)構(gòu)化提取子模塊。其中,網(wǎng)頁下載子模塊專門負(fù)責(zé)下 載網(wǎng)頁,存儲(chǔ)到原始網(wǎng)頁數(shù)據(jù)庫中。它把用戶指定的網(wǎng)站作為目標(biāo)網(wǎng)站,采用遞歸下載的方 式不斷從已經(jīng)下載的網(wǎng)頁中提取新的URL鏈接,在智能判斷URL的合法性和去除后,把新發(fā) 現(xiàn)的URL加到URL隊(duì)列中繼續(xù)下載,這樣可以把目標(biāo)網(wǎng)站全部網(wǎng)頁遍歷下載完,同時(shí)也就滿 足了用戶對(duì)這些網(wǎng)站的歷史數(shù)據(jù)的需求。具體流程如圖2所示,包括以下步驟:
[0037] 步驟1,根據(jù)已有的網(wǎng)站URL列表,下載網(wǎng)頁并存儲(chǔ)到原始網(wǎng)頁數(shù)據(jù)庫;
[0038] 步驟2,在所述的已下載網(wǎng)頁中提取URL,如果判斷其不是目標(biāo)網(wǎng)站,則刪除該 URL,
[0039] 如果判斷其是目標(biāo)網(wǎng)站,則判斷其內(nèi)容是否以抓取,若未抓取,則將該URL加入 URL列表,并繼續(xù)執(zhí)行步驟1。
[0040] 關(guān)于網(wǎng)頁內(nèi)容抓取,或者叫提取,可按用戶需求,提取網(wǎng)頁中包含的各類數(shù)據(jù),即 把網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化。我們研發(fā)的智能算法,能準(zhǔn)確提取90%以上的網(wǎng)頁內(nèi)容,再對(duì)個(gè)別網(wǎng)站 加以定制開發(fā)可以達(dá)到100%提取網(wǎng)頁內(nèi)容的需求。提取流程如圖3所示,包括以下步驟:
[0041] 步驟1,從原始網(wǎng)頁數(shù)據(jù)庫讀取網(wǎng)頁;
[0042] 步驟2,判斷該網(wǎng)頁是否是具有內(nèi)容的網(wǎng)頁,如果具有內(nèi)容,則解析該網(wǎng)頁結(jié)構(gòu),提 取正文文本塊以及圖形和圖片,存入網(wǎng)頁結(jié)構(gòu)化內(nèi)容數(shù)據(jù)庫。
[0043] 在本發(fā)明的數(shù)據(jù)分析模塊中,會(huì)用到中文分詞與詞性標(biāo)注模塊?,F(xiàn)代漢語的基本 表達(dá)單元雖然為"詞",且以雙字或者多字詞居多,中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的 一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。
[0044] 我們提供一個(gè)準(zhǔn)確率很高的分詞技術(shù)模塊。我們的中文分詞詞庫包括:
[0045] (1)基礎(chǔ)詞庫:通過海量中文文本語料統(tǒng)計(jì)并人工校對(duì)得到20多萬條中文常用詞 庫。
[0046] (2)專業(yè)詞庫:包括各個(gè)行業(yè)的幾百萬專業(yè)詞庫。
[0047] (3)網(wǎng)絡(luò)新詞庫:自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)新詞。
[0048] 以上述詞庫為基礎(chǔ),結(jié)合獨(dú)有的未登錄詞識(shí)別算法、歧義處理算法開發(fā)的分詞算 法,能夠很好滿足進(jìn)一步語義分析的需求。
[0049] 同樣,在本發(fā)明的數(shù)據(jù)分析模塊中還包括文本摘要模塊。文摘是全面準(zhǔn)確地反映 某一文獻(xiàn)中心內(nèi)容地簡(jiǎn)單連貫的短文,是能夠準(zhǔn)確而且簡(jiǎn)單地讓讀者了解該文本的主要信 息,讓讀者在很短的時(shí)間內(nèi)判斷出該文本對(duì)他來說是不是有價(jià)值的。
[0050] 我們基于隱馬爾科夫模型,結(jié)合文本的多種特征(比如,textrank,段首,段尾,標(biāo) 題等)開發(fā)了文本自動(dòng)摘要模塊,
[0051] 在本發(fā)明的數(shù)據(jù)分析模塊中包括的文本相似性檢索模塊用于對(duì)文本的相似性檢 索。相似性檢索是指對(duì)給定的樣本文獻(xiàn)(例如新聞等),在文獻(xiàn)數(shù)據(jù)集合中查找出與之內(nèi)容 相似的文獻(xiàn)的技術(shù)。
[0052] 我們根據(jù)Google的Simhash算法結(jié)合中文分詞算法,對(duì)每一篇文章計(jì)算一個(gè)數(shù)字 指紋,建立指紋索引和高速比較算法,具體的Simhash過程如下:
[0053] (1)首先基于傳統(tǒng)IR方法,將文章轉(zhuǎn)換為一組加權(quán)的特征值構(gòu)成的向量。
[0054] (2)初始化一個(gè)f維的向量V,其中每一個(gè)元素初始值為0。
[0055] (3)對(duì)于文章的特征向量集中的每一個(gè)特征,做如下計(jì)算:
[0056] 利用傳統(tǒng)的hash算法映射到一個(gè)f-bit的簽名。對(duì)于這個(gè)f-bit的簽名,如果簽 名的第i位上為1,則對(duì)向量V中第i維加上這個(gè)特征的權(quán)值,否則對(duì)向量的第i維減去該 特征的權(quán)值。
[0057] (4)對(duì)整個(gè)特征向量集合迭代上述運(yùn)算后,根據(jù)V中每一維向量的符號(hào)來確定生 成的f-bit指紋的值,如果V的第i維為正數(shù),則生成f-bit指紋的第i維為1,否則為0。
[0058] 在本發(fā)明的數(shù)據(jù)存儲(chǔ)模塊中,包括文本分類過程。將互聯(lián)網(wǎng)上的網(wǎng)頁按照合理的 分類體系進(jìn)行存儲(chǔ)與管理,不僅便于對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行管理,還可以在此基礎(chǔ)上進(jìn)行許多有 意義的信息挖掘。
[0059] 根據(jù)圖4,建立文本分類模塊,主要步驟如下:
[0060] (1)訓(xùn)練集整理
[0061] 文本分類屬于有監(jiān)督的學(xué)習(xí),所以需要整理樣本文本語料庫。根據(jù)業(yè)務(wù)需求,確定 樣本標(biāo)簽與數(shù)目,其中樣本標(biāo)簽多為整數(shù)。
[0062](2)特征選擇
[0063] 文本分類中最著名的特征提取方法就是向量空間模型(VSM),即將樣本轉(zhuǎn)換為向 量的形式。為了能實(shí)現(xiàn)這種轉(zhuǎn)換,需要做兩個(gè)工作:確定特征集和提取特征。
[0064] (2· 1)確定特征集
[0065] 特征集其實(shí)就是詞典,而且還需要給每個(gè)詞設(shè)定一個(gè)編號(hào)。
[0066] 一般可以將所有樣本的詞都提取出來作為詞典,而詞典的編號(hào)可以隨意設(shè)置,默 認(rèn)情況下,所有詞的權(quán)重都是等同的。如何從樣本中提取出一個(gè)個(gè)意義的詞呢?最常用的 方法就是使用分詞工具。
[0067] (2. 2)特征選擇
[0068] 根據(jù)不同的業(yè)務(wù),文本分類中詞典的規(guī)模在萬級(jí)到千萬級(jí)甚至億級(jí)。而這么大的 維度可能會(huì)帶來維度災(zāi)難,因此就要想辦法從大量的特征中選擇一些有代表性的特征而又 不影響分類的效果(而根據(jù)文獻(xiàn)中的結(jié)果,特征選擇可以在一定程度上提高分類的效果)。 特征選擇就是從特征集中選擇一些代表性的詞。而如何衡量詞的代表性呢? 一般的計(jì)算方 法有詞頻、卡方公式、信息增益等。當(dāng)前文獻(xiàn)中一致認(rèn)為比較好的方法是卡方公式。
[0069] (2. 3)特征抽取
[0070] 另外一種解決維度災(zāi)難的思路就是特征抽取。同樣是降維,相比特征選擇,特征抽 取采用了一種高級(jí)的方法來進(jìn)行。TopicModeling是原理就是將利用映射將高緯度空間映 射到低緯空間,從而達(dá)到降維的目的。
[0071] (3)計(jì)算特征權(quán)重
[0072] 給定一個(gè)樣本,計(jì)算特征權(quán)重的流程:
[0073] (3. 1)首先,對(duì)樣本進(jìn)行分詞,提取出所有的詞。
[0074] (3. 2)根據(jù)已經(jīng)生成的詞典,如果詞典中的詞出現(xiàn),就在相應(yīng)對(duì)應(yīng)的位置填入該詞 的詞頻。
[0075] (3. 3)對(duì)生成的向量進(jìn)行歸一化
[0076] 上面的所示的方法是比較簡(jiǎn)單的一種,其中特征權(quán)重采用的為詞頻來表示,現(xiàn)在 比較常用的特征權(quán)重的計(jì)算方式為TF*IDF,TF*RF。
[0077] (4)模型訓(xùn)練與預(yù)測(cè)
[0078] 當(dāng)把文本轉(zhuǎn)換成向量的形式后,大部分的工作其實(shí)已經(jīng)做完了。后面所要做的就 是利用算法進(jìn)行訓(xùn)練和預(yù)測(cè)了?,F(xiàn)在文本分類的算法很多,常見的有Na'iveBayes,SVM, KNN,Logistic回歸等。
[0079] 通過以上流程,我們研發(fā)的文本分類模塊能夠很好滿足項(xiàng)目需求:
[0080] 在文本分類過程中,還有一個(gè)文本聚類處理模塊。聚類是把相似的對(duì)象通過靜態(tài) 分類的方法分成不同的組別或者更多的子集,這樣讓在同一個(gè)子集中的成員對(duì)象都有相似 的一些屬性,從而可以為上層的推薦等模塊服務(wù)。
[0081] 文本聚類主要依據(jù)聚類假設(shè):同類的文檔相似度較大,非同類的文檔相似度較小。 作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過程、以及不需要預(yù)先對(duì)文檔手工 標(biāo)注類別,因此具有較高的靈活性和自動(dòng)化處理能力,成為對(duì)文本信息進(jìn)行有效組織、摘要 和導(dǎo)航的重要手段。文本聚類的具體過程如下所述:
[0082] (1)文本信息的預(yù)處理
[0083] 文本聚類的首要問題是如何將文本內(nèi)容表示成為數(shù)學(xué)上可分析處理的形式,即建 立文本特征,以一定的特征項(xiàng)(如詞條或描述)來代表目標(biāo)文本信息。要建立文本信息的 文本特征,常用的方法是:對(duì)文本信息進(jìn)行預(yù)處理(詞性標(biāo)注、語義標(biāo)注),構(gòu)建統(tǒng)計(jì)詞典, 對(duì)文本進(jìn)行詞條切分,完成文本信息的分詞過程。
[0084] (2)文本信息特征的建立
[0085] 文本信息的特征表示模型有多種,常用的有布爾邏輯型、向量空間型、概率型以及 混合型等。其中,向量空間模型(VectorSpaceModel,VSM)是近幾年來應(yīng)用較多且效果較 好的方法之一,它是文檔表示的一個(gè)統(tǒng)計(jì)模型。該模型的主要思想是:將每一文檔都映射為 由一組規(guī)范化正交詞條矢量張成的向量空間中的一個(gè)點(diǎn)。對(duì)于所有的文檔類和未知文檔, 都可以用此空間中的詞條向量(Tl,W1,T2,W2,…,Tn,Wn)來表示(其中,Ti為特征向量 詞條;Wi為Ti的權(quán)重)[5]。一般需要構(gòu)造一個(gè)評(píng)價(jià)函數(shù)來表示詞條權(quán)重,其計(jì)算的唯一準(zhǔn) 則就是要最大限度地區(qū)別不同文檔。這種向量空間模型的表示方法最大的優(yōu)點(diǎn)在于將非結(jié) 構(gòu)化和半結(jié)構(gòu)化的文本表示為向量形式,使得各種數(shù)學(xué)處理成為可能。
[0086] (3)文本信息特征集的縮減
[0087] VSM將文本內(nèi)容表示成數(shù)學(xué)上可分析處理的形式,但是存在的一個(gè)問題是文檔特 征向量具有驚人的維數(shù)。因此,在對(duì)文本進(jìn)行聚類處理之前,應(yīng)對(duì)文本信息特征集進(jìn)行縮 減。通常的方法是針對(duì)每個(gè)特征詞條的權(quán)重排序,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特 征子集。選取的數(shù)目以及采用的評(píng)價(jià)函數(shù)都要針對(duì)具體問題來分析決定。
[0088] 降低文本特征向量維數(shù)的另一個(gè)方法是采用向量的稀疏表示方法。雖然文本信息 特征集的向量維數(shù)非常大,但是對(duì)于單個(gè)文檔,絕大多數(shù)向量元素都為零,這一特征也決定 了單個(gè)文檔的向量表示將是一個(gè)稀疏向量。為了節(jié)省內(nèi)存占用空間,同時(shí)加快聚類處理速 度,可以采用向量的稀疏表示方法。假設(shè)確定的特征向量詞條的個(gè)數(shù)為Π,傳統(tǒng)的表示方法 為而(Tl,W1,T2,W2,…,Tn,Wn)稀疏表示方法為(D1,Wl,D2,W2,Dp,…,Wp,n)(Wi關(guān) 0)。 其中,Di為權(quán)重不為零的特征向量詞條;Wi為其相應(yīng)權(quán)重;η為向量維度。這種表示方式大 大減小了內(nèi)存占用,提升了聚類效率,但是由于每個(gè)文本特征向量維數(shù)不一致,一定程度上 增加了數(shù)學(xué)處理的難度。
[0089] ⑷文本聚類
[0090] 在將文本內(nèi)容表示成數(shù)學(xué)上可分析處理的形式后,接下來的工作就是在此數(shù)學(xué)形 式的基礎(chǔ)上,對(duì)文本進(jìn)行聚類處理。文本聚類主要有2種方法:基于概率和基于距離?;?于概率的方法以貝葉斯概率理論為基礎(chǔ),用概率的分布方式描述聚類結(jié)果?;诰嚯x的方 法,就是以特征向量表示文檔,將文檔看成向量空間中的一個(gè)點(diǎn),通過計(jì)算點(diǎn)之間的距離進(jìn) 行聚類。
【權(quán)利要求】
1. 一種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析系統(tǒng),所述的大數(shù)據(jù)包括來自互聯(lián)網(wǎng) 資源的論文、專利文獻(xiàn)和網(wǎng)頁內(nèi)容,其特征在于,所述系統(tǒng)包括用以從互聯(lián)網(wǎng)獲取所需數(shù)據(jù) 的數(shù)據(jù)采集模塊、用以存儲(chǔ)所獲得數(shù)據(jù)的系統(tǒng)存儲(chǔ)模塊、用以對(duì)獲得數(shù)據(jù)進(jìn)行分析的數(shù)據(jù) 模塊和用以產(chǎn)生分析報(bào)告的一體化報(bào)告模塊, 所述的數(shù)據(jù)采集模塊動(dòng)態(tài)設(shè)定關(guān)鍵詞,組建大數(shù)據(jù)URL種子,建立網(wǎng)站優(yōu)先檢索表,以 深度優(yōu)先的算法利用數(shù)據(jù)抓取器采集開放的互聯(lián)網(wǎng)內(nèi)容和封閉的數(shù)據(jù)庫信息; 所述的系統(tǒng)存儲(chǔ)模塊,將采集的信息資源分類,分別存儲(chǔ)到專利數(shù)據(jù)庫、論文數(shù)據(jù)庫和 網(wǎng)頁內(nèi)容數(shù)據(jù)庫中,并依據(jù)采集是的相關(guān)關(guān)鍵字建立初步的數(shù)據(jù)索引表; 所述的數(shù)據(jù)分析模塊,根據(jù)數(shù)據(jù)分析模塊中的數(shù)據(jù)分析方式對(duì)采集到的信息依次進(jìn)行 熱點(diǎn)追蹤、信息分析、領(lǐng)域分析以及相關(guān)性的關(guān)系挖掘分析,并依據(jù)分析結(jié)果建立索引; 所述的一體化報(bào)告模塊,根據(jù)用戶設(shè)定的關(guān)鍵字,調(diào)用數(shù)據(jù)分析模塊給出整體的分析 報(bào)告。
2. -種基于大數(shù)據(jù)的企業(yè)創(chuàng)新資源管理與分析方法,所述的大數(shù)據(jù)包括來自互聯(lián)網(wǎng) 資源的論文、專利文獻(xiàn)和網(wǎng)頁內(nèi)容,所述系統(tǒng)包括用以從互聯(lián)網(wǎng)獲取所需數(shù)據(jù)的數(shù)據(jù)采集 模塊、用以存儲(chǔ)所獲得數(shù)據(jù)的系統(tǒng)存儲(chǔ)模塊、用以對(duì)獲得數(shù)據(jù)進(jìn)行分析的數(shù)據(jù)模塊和用以 產(chǎn)生分析報(bào)告的一體化報(bào)告模塊,其特征在于,包括以下步驟: 其中,第一階段包括, 步驟一:系統(tǒng)根據(jù)初始設(shè)定的關(guān)鍵字,組建優(yōu)質(zhì)URL種子,利用爬蟲技術(shù),采用關(guān)鍵字 權(quán)重過濾算法,以優(yōu)質(zhì)網(wǎng)站優(yōu)先深度搜索的方法,采集互聯(lián)網(wǎng)關(guān)于專利、論文、網(wǎng)頁新聞等 相關(guān)信息資源; 步驟二:將采集的信息資源分類,分別存儲(chǔ)到專利數(shù)據(jù)庫、論文數(shù)據(jù)庫、網(wǎng)頁新聞數(shù)據(jù) 庫中,并依據(jù)采集是的相關(guān)關(guān)鍵字建立初步的數(shù)據(jù)索引表; 步驟三:根據(jù)數(shù)據(jù)分析模塊中的數(shù)據(jù)分析方式對(duì)采集到的信息依次進(jìn)行熱點(diǎn)追蹤、信 息分析、領(lǐng)域分析以及其他相關(guān)性的關(guān)系挖掘分析,并依據(jù)分析結(jié)果建立索引; 步驟四:根據(jù)需要改變領(lǐng)域、關(guān)鍵字或/和分析方法,重復(fù)進(jìn)行前述步驟一、二、三; 第二階段包括, 步驟一:判斷用戶輸入的關(guān)鍵字或領(lǐng)域是否在系統(tǒng)前期的配置表中,若不在則將其加 入到系統(tǒng)的配置表中,進(jìn)行第一階段的實(shí)施步驟; 步驟二:針對(duì)用戶的需求對(duì)所采集數(shù)據(jù)信息進(jìn)行分析,并根據(jù)報(bào)告配置的模式,呈現(xiàn)分 析結(jié)果,并可將報(bào)告結(jié)果導(dǎo)出或定時(shí)發(fā)送的用戶郵箱或手機(jī)。
【文檔編號(hào)】G06F17/30GK104376406SQ201410616636
【公開日】2015年2月25日 申請(qǐng)日期:2014年11月5日 優(yōu)先權(quán)日:2014年11月5日
【發(fā)明者】鄭樹泉, 王倩, 宮艷雪, 閻夢(mèng)天, 楊中山, 范仲敏 申請(qǐng)人:上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心, 上海產(chǎn)業(yè)技術(shù)研究院