本發(fā)明屬于知識圖譜構建,具體的說是一種基于文本挖掘的基坑施工事故知識圖譜的構建方法。
背景技術:
1、知識圖譜是一種以圖的形式表示和組織知識的技術,它能夠將事故事件中的實體、屬性和關系進行結構化建模,形成一張豐富而有層次的知識網絡。通過構建基坑施工事故事件知識圖譜,可以將知識單元或知識群之間網絡、結構、互動、交叉、演化或衍生等諸多隱含的復雜關系清晰地顯示出來,更好地理解事故事件的演變過程、相關因素的關聯以及其對工程安全的影響。
2、目前在基坑施工領域缺乏統一的規(guī)范標準和數據模型,導致基坑事故數據的分散、不一致和難以共享。雖然近年來隨著知識圖譜的發(fā)展,通過應用自然語言處理和文本挖掘技術,實現了對基坑施工事故相關文本信息的自動化處理,但這種處理方式并不能對文本中的語義進行精準提取(基于災害場景的知識圖譜構建方法(cn?109992672?a))。因此需要提出基于依存句法分析抽取三元組的策略,并結合人工指導和干預,以精準繪制基坑施工事故動態(tài)事件知識圖譜。
技術實現思路
1、本發(fā)明旨在解決現有技術中存在的技術問題之一:為此,本發(fā)明提出了一種基于文本挖掘的基坑施工事故事件知識圖譜的構建方法,旨在將基坑事故的相關信息、事故根因、受影響因素等元素進行關聯和連接,全面理解事故的發(fā)生機理和影響因素,為基坑施工的安全管理和風險控制提供經驗和指導。
2、本發(fā)明的目的至少通過如下技術方案之一實現。
3、一種基于文本挖掘的基坑施工事故事件知識圖譜的構建方法,包括如下步驟:
4、步驟一:獲取基坑施工事故報告;
5、步驟二:對文本進行手動篩選工作,保留基坑施工事故報告中涵蓋事故發(fā)生的時間地點、事故性質和事故損失的概述部分,截取事故發(fā)生經過、應急處置分析以及事故原因分析的內容,刪除其余內容,得到目標文本;
6、步驟三:完成本文的預處理:對目標文本進行分詞處理,實現中文分詞和詞性標注;當文本段落中的句子直接以核心動詞開始或主語在同一段落中重復出現時,人工填充主語;人工調整因專業(yè)名詞、縮寫和特殊寫法造成的分詞不準確的結果;
7、步驟四:結合目標文本中各個詞語的詞性,分析句子中詞與詞之間的依存關系,并且結合對事故形成機理和事故特征的分析,從已完成預處理的文本中提取知識三元組,生成依存句法列表;
8、步驟五:增加所提取的知識三元組的完整性;
9、步驟六:對知識三元組中的實體、關系和屬性的語義含義和約束條件的定義進行框架規(guī)定;
10、步驟七:將提取的三元組數據導入到圖形數據庫中,輸出得到基坑施工事故事件知識圖譜;
11、步驟八:使用知識圖譜的查詢功能,檢索所需類型、所需時間范圍或所需地區(qū)的施工事故信息。
12、進一步地,步驟五中,按照以下規(guī)則以增加所抽取的知識三元組的完整性:
13、(1)針對句子中的其他成分,包括定語、狀語和賓語補足語,對實體內容進行補全;
14、(2)當句子為并列結構時,將知識三元組分當句子為謂語并列結構時和當句子為主語或賓語并列結構時分為兩種不同情況處理;
15、(3)當句子為主謂介賓結構時,將句子的主語作為主體,謂語的核心動詞與其補語介詞共同組成實體關系,介賓作為知識三元組的客體。
16、進一步地,針對句子中的其他成分,包括定語、狀語和賓語補足語,對實體內容進行補全,具體如下:
17、1)當句中的主語和賓語之前有定語修飾,且賓語前有多重定語補足語,提取三元組時加入定語進行修飾,具體思路為:
18、s1.1、判斷是否存在詞語b同需要抽取的實體a發(fā)生定中關系,若存在,按照句子詞語編號從小到大順序將所有同需要抽取的實體a發(fā)生定中關系的詞語b加入列表l;倒敘遍歷列表l,若詞語b中依舊存在詞語c同a發(fā)生定中關系,遞歸調用步驟s1.1;
19、s1.2、按照倒敘遍歷列表l的順序依次將詞語c同實體a拼接完成實體的定語補全;
20、2)當句子為只有主謂賓結構時,將句子的主語作為主體,謂語的核心動詞作為實體關系,賓語作為知識三元組的客體,具體思路為:
21、s2.1、判斷是否存在同實體a發(fā)生動賓關系的詞語b或同實體a發(fā)生主謂關系的詞語c;
22、s2.2、若存在同實體a發(fā)生動賓關系的詞語b,則判斷是否存在與詞語b發(fā)生動賓關系的詞語d,若存在則返回步驟s2.1,否則詞語b同實體a組成實體;
23、若存在同實體a發(fā)生主謂關系的詞語c,則判斷是否存在與詞語c發(fā)生主謂關系的詞語d,若存在則返回步驟s2.1,否則詞語c同實體a組成實體。
24、進一步地,當句子為并列結構時,分以下兩種情況處理:
25、1)當句子為謂語并列結構時:判斷與核心動詞存在并列結構的動詞e與其他詞是否存在主謂結構或動賓結構,若存在主謂結構,則動詞e與核心動詞有著共同的賓語;若存在動賓結構,則動詞e與核心動詞有著共同的主語;
26、2)當句子為主語或賓語并列結構時:確定同核心動詞發(fā)生主謂關系的詞語e和發(fā)生動賓動賓關系的詞語f;若詞語g與e構成并列關系,則句子中g同核心詞語發(fā)生主謂關系,抽取所得三元組客體相同;若詞語g與f構成并列關系,則句子中核心動詞同g發(fā)生動賓關系,抽取的三元組主體相同。
27、進一步地,步驟六中,構建的框架設定5種標簽,包括:“title”標簽、“l(fā)ocation”標簽、“event”標簽、“entity”標簽、“other”標簽;
28、其中,所述“title”標簽代表事故文本案例的標題,涵蓋時間、地點這類基本信息,用于快速檢索以及歸納;所述“l(fā)ocation”標簽代表基坑事故發(fā)生的具體位置,用于快速判斷事故發(fā)生類型以及進行詳細的歸類;所述“event”為事件/事件集標簽,是基坑事故中發(fā)生的某一件事情或某一類事情的集合;所述“entity”為實體標簽,代表事件鏈條中參與的名詞部分,為“event”標簽的主語或賓語;所述“other”標簽與事故行為主體鏈條無太大關系,起邏輯連接作用的部分。
29、進一步地,步驟三中,利用paddlepaddle分詞功能對目標文本進行分詞處理,實現中文分詞和詞性標注。
30、進一步地,步驟三中,因專業(yè)名詞、縮寫和特殊寫法造成的分詞不準確的結果通過手工添加自定義詞典進行解決。
31、進一步地,步驟一中,使用框架爬蟲技術從網站獲取基坑施工事故報告,包括各級政府網站、應急管理網站以及住建部等相關機構的網站。
32、進一步地,步驟四中,利用paddlenlp的依存句法分析功能,分析句子中詞與詞之間的依存關系。
33、進一步地,步驟七中,使用cypher語句中的create命令將提取的三元組數據導入到neo4j數據庫中,輸出得到基坑施工事故事件知識圖譜。
34、相比于現有技術,本發(fā)明的優(yōu)點在于:
35、(1)本發(fā)明基于依存句法分析的方法,成功實現了對基坑事故文本的三元組抽取,精準地提取出句子的語義,為更好地支持基坑事故報告文本的實體關系抽取任務建立支撐條件。
36、(2)構建了具有完整結構和豐富內容的基坑事故知識圖譜,以畫像化的表示方式將事故的相關信息、事故根因、受影響因素等元素進行關聯和連接,有助于為決策者提供可靠的參考,提高事故預防和管理的能力,為促進基坑施工行業(yè)的發(fā)展和安全管理具有積極的推動作用。