本發(fā)明涉及數據發(fā)現(xiàn)領域,特別涉及一種干細胞知識發(fā)現(xiàn)大數據平臺。
背景技術:
1、干細胞是當今生命科學研究的熱點和前沿,以干細胞技術為核心的再生醫(yī)學有望成為繼藥物治療、手術治療之后的第三種疾病治療途徑,正孕育著重大的科學突破與巨大的產業(yè)帶動。在干細胞領域,以科技文獻、科學數據、臨床實驗、醫(yī)藥產品與科技服務資源為核心的科研大數據呈“井噴式”增長,科學研究日益成為數據驅動的知識發(fā)現(xiàn)活動,大數據驅動的知識發(fā)現(xiàn)與技術突破正成為科技創(chuàng)新的新引擎,集成科研大數據與知識計算環(huán)境的知識發(fā)現(xiàn)平臺已成為科研活動的重要工具。
2、干細胞領域科研大數據具有數量巨大、類型繁多、關系復雜和來源分散等特點,如何從海量的多源異構數據中進行知識的自動化抽取、結構化組織、語義化關聯(lián)與知識化計算,以及從中高效、精準地進行有價值的知識挖掘是知識發(fā)現(xiàn)的關鍵。而目前國際上同類型的數據集成知識發(fā)現(xiàn)平臺,如哈佛大學干細胞研究所(harvard?stem?cell?institute,hsci)“干細胞創(chuàng)新引擎(stem?cell?commons)”、德國“生物信息學基礎設施云(germannetwork?for?bioinformatics?infrastructure,de.nbi)”等主要提供領域科學數據管理、計算和分析服務,存在數據類型單一且缺乏關聯(lián)、知識計算算法有限等不足,難以滿足領域研究熱點、研究重點與發(fā)展趨勢分析,以及基于大數據知識計算的關鍵技術挖掘與技術預見等知識發(fā)現(xiàn)需求。
技術實現(xiàn)思路
1、針對大數據時代科研信息化應用的新形勢和新挑戰(zhàn),面向干細胞領域知識挖掘與知識發(fā)現(xiàn)的需求,本發(fā)明綜合運用數據挖掘與新一代人工智能技術,通過融合領域多源數據、挖掘領域知識內涵、集成專業(yè)知識計算工具構建了一種干細胞知識發(fā)現(xiàn)大數據平臺。
2、本發(fā)明采用的技術方案如下:一種干細胞知識發(fā)現(xiàn)大數據平臺,包括:
3、干細胞知識圖譜模塊,利用實體抽取、實體消歧、關系抽取、知識鏈接、本體及實體對齊對分散在不同數據源中的干細胞科技文獻、科技信息、科學數據與科技服務資源科研數據進行集成,對其中蘊含的知識點進行自動化抽取、結構化組織與知識化關聯(lián)以形成知識圖譜;
4、干細胞知識計算環(huán)境模塊,集成干細胞及相關領域的算法、模型、軟件與工具,提供基于工作流的知識計算環(huán)境,供干細胞知識發(fā)現(xiàn)服務模塊調用,實現(xiàn)數據管理、數據處理以及數據分析功能;
5、干細胞知識發(fā)現(xiàn)服務模塊,基于干細胞知識圖譜模塊與干細胞知識計算模塊,提供干細胞科研大數據集成化管理、“一站式”智能檢索、基于知識圖譜的精準知識檢索與知識導航、熱點前沿探測、科研畫像功能。
6、作為一種優(yōu)選方案,所述干細胞知識圖譜模塊包括基礎數據匯聚模塊、知識內涵挖掘模塊以及知識語義關聯(lián)模塊,其中,
7、基礎數據匯聚模塊,用于匯聚干細胞領域的論文專利、基金項目、臨床實驗、產品法規(guī)、專家機構的多源異構科研大數據,并建立長期更新機制;
8、知識內涵挖掘模塊,采用基于本體的知識抽取技術對多源異構科研大數據中的核心科技文獻進行文本挖掘,獲得知識實體以及實體之間的關系,以形成干細胞知識圖譜的知識組織體系,并根據知識組織體系對干細胞領域的其他科研數據進行知識實體抽取、語義標注和數據融合,形成干細胞知識圖譜中完整的實例數據;
9、知識語義關聯(lián)模塊,綜合科學計量學指標與文本挖掘技術,基于引用、致謝、合作網絡、知識實體共現(xiàn)關系,建立知識圖譜中各類科技信息、知識實體之間語義關聯(lián)。
10、作為一種優(yōu)選方案,所述知識內涵挖掘模塊的數據融合中還包括實體對齊過程,具體包括:
11、通過對不同來源的實體進行甄別、篩選和區(qū)分,將不同數據來源中表示同一對象的實體歸并為一個具有統(tǒng)一標識的實體添加到知識圖譜中;
12、在某個實體會同時屬于兩個互斥的類別或某個實體的一個屬性對應多個值時,根據各實體類型分別考慮數據源的可靠性和豐富度以及不同信息在各個數據源中出現(xiàn)的頻度進行綜合確定所屬類別或屬性對應值。
13、作為一種優(yōu)選方案,所述干細胞知識計算環(huán)境模塊包括數據管理模塊、數據處理模塊以及數據分析模塊,其中,
14、數據管理模塊,提供數據分析與知識發(fā)現(xiàn)所需的數據接引、數據整合及數據存儲功能;
15、數據處理模塊,提供算法、數據、任務的管理功能;
16、數據分析模塊,用于對數據處理模塊執(zhí)行的知識計算結果進行多維度、細粒度、多類型的可視化分析與展示。
17、作為一種優(yōu)選方案,所述數據管理模塊中,數據接引用于獲取數據,除了直接利用建立的干細胞知識圖譜數據外,能夠從外部系統(tǒng)進行數據攝入;所述數據攝入方式包括本地上傳和直連數據庫;所述數據整合用于對獲取的數據按規(guī)則清洗、轉換和整合,同時數據整合支持創(chuàng)建合表的功能,將多個數據集關聯(lián)后進行合并處理;所述數據存儲支持對數據進行預覽、導出、追加和共享操作。
18、作為一種優(yōu)選方案,所述干細胞知識發(fā)現(xiàn)服務模塊中,采用多維集成索引技術對知識圖譜中的異構信息進行索引,提供統(tǒng)一的數據視圖,即,對不同數據類型的元數據、知識實體、知識組織體系進行單獨索引和集成索引,并根據不同數據源的數據更新頻率采用相應的索引更新機制;其中,索引字段包括知識發(fā)現(xiàn)所有常用字段,如知識資源類型、資源題名、作者、發(fā)明人、機構、申請人、機構類型、出版年代、來源、關鍵詞、分類、標準級別、科學儀器、實驗動物、實驗方案、實驗試劑、方法技術、細胞、器官、疾病、基因、科研活動、科研產出。
19、作為一種優(yōu)選方案,所述干細胞知識發(fā)現(xiàn)服務模塊提供的干細胞科研大數據集成化管理具體包括:
20、利用關系型數據庫與圖數據庫對干細胞科研大數據進行集成化管理,其中,關系型數據庫用于存儲原始的基礎數據,圖數據庫用于存儲經過知識加工的知識圖譜數據。
21、作為一種優(yōu)選方案,所述干細胞知識發(fā)現(xiàn)服務模塊提供的“一站式”智能檢索以及基于知識圖譜的精準知識檢索與知識導航具體包括:
22、“一站式”智能檢索:利用solr分面檢索技術,對干細胞科研大數據與知識圖譜中的知識組織體系進行分面索引,用戶通過solr索引對所有類型干細胞資源進行一鍵檢索,獲取包括干細胞新聞資訊、論文專利、基金項目、醫(yī)藥產品、政策法規(guī)、產業(yè)情報在內的多類型科技信息;
23、基于知識圖譜的精準知識檢索與知識導航:基于構建的索引,用戶根據提供的干細胞知識點進行檢索與查閱,無需詳讀全文即可快速全面掌握科技文獻內容,實現(xiàn)精準的知識檢索與導航。
24、作為一種優(yōu)選方案,所述干細胞知識發(fā)現(xiàn)服務模塊提供的熱點前沿探測具體包括:
25、從科研重點突破方向,結合文本挖掘技術與科學計量學指標,調用干細胞知識計算環(huán)境模塊,進行數據收集處理以及特征提取,并采用相應算法識別研究群體,實現(xiàn)對知識實體與科技信息進行文本挖掘,生成一系列研究主題,完成熱點識別與展示。
26、作為一種優(yōu)選方案,所述干細胞知識發(fā)現(xiàn)服務模塊提供的科研畫像具體包括:
27、調用干細胞知識計算環(huán)境模塊,搜集知識圖譜中文獻的元數據,分別進行數據預處理、特征提取,再研究領域識別、科研影響力評估以及科研活躍度和趨勢分析,整合上述分析結果,構建科研工作者的綜合畫像,并利用圖表、網絡圖或雷達圖的方式對科研畫像進行可視化展示。
28、與現(xiàn)有技術相比,采用上述技術方案的有益效果為:本發(fā)明實現(xiàn)領域數據融合與知識關聯(lián)、打破數據孤島,為干細胞科研活動與科技管理提供“全面、專業(yè)、精準、高效”的數據獲取、信息推送、知識發(fā)現(xiàn)與情報支撐服務,推動大數據驅動的知識發(fā)現(xiàn)應用,推進科研活動與信息化的融合,提升科研信息化應用水平。