本發(fā)明涉及工程智能建造,具體地指一種安全隱患治理措施的智能推薦方法。
背景技術(shù):
1、施工作為開發(fā)和利用水資源的有效途徑,在可再生能源領(lǐng)域占據(jù)重要地位。然而,其施工難度高、危險大,準確科學(xué)地采取措施消除隱患,有助于提升施工安全管理水平,減少人員傷亡。目前,安全隱患治理措施主要由項目管理人員或邀請專家依據(jù)行業(yè)標準規(guī)范,結(jié)合項目實際制定而成,治理措施的有效性依賴于人員經(jīng)驗,制定效率相對較低。因此,利用知識圖譜結(jié)合計算機語義匹配技術(shù)快速推薦與目標隱患所對應(yīng)的歷史隱患記錄,從歷史隱患中汲取經(jīng)驗,進而迅速制定出有效的隱患治理措施,對提高施工安全管理水平具有重要意義。
2、海量歷史隱患文本中挖掘與目標隱患相似的隱患并非易事,需要深度理解文本的語義信息,而自然語言處理(nlp)技術(shù)作為計算機領(lǐng)域中重要的研究方法,通過word2vec或bert等模型將詞語轉(zhuǎn)化為向量,為進一步提取句子層面的語義信息及語義匹配提供了有效手段。隨著計算機技術(shù)的不斷發(fā)展,基于預(yù)訓(xùn)練模型的深度學(xué)習(xí)模型在語義匹配中表現(xiàn)出良好的效果,為安全隱患匹配提供了技術(shù)支撐。此外,知識圖譜通過圖結(jié)構(gòu)直觀地展示信息,可以清晰表示各實體及其關(guān)系,有助于幫助理解和分析復(fù)雜的數(shù)據(jù),為從歷史隱患中提取與治理措施有關(guān)的信息提供了便利。
技術(shù)實現(xiàn)思路
1、解決安全隱患治理措施主要由項目管理人員或邀請專家依據(jù)行業(yè)標準規(guī)范,結(jié)合項目實際制定而成,治理措施的有效性依賴于人員經(jīng)驗,制定效率相對較低的問題。本發(fā)明提供一種安全隱患治理措施的智能推薦方法,該方法構(gòu)建安全隱患知識圖譜,在此基礎(chǔ)上利用深度學(xué)習(xí)的語義提取優(yōu)勢,搭建施工隱患語義匹配的sentence-bert網(wǎng)絡(luò)模型,提取目標隱患與歷史隱患的深層語義特征并進行歷史相似隱患的智能推薦,運用cypher語句進行隱患治理措施檢索,以期為制定當前隱患治理措施提供參考。
2、本發(fā)明采取的技術(shù)方案為:
3、一種安全隱患治理措施的智能推薦方法,包括以下步驟:
4、步驟1:收集施工現(xiàn)場安全隱患記錄,安全隱患記錄包括發(fā)現(xiàn)時間、地點、整改要求、期限等內(nèi)容;
5、步驟2:文本預(yù)處理:
6、對步驟1收集到的安全隱患記錄數(shù)據(jù)進行清洗,清除安全隱患記錄不完整以及整改要求缺失的數(shù)據(jù);根據(jù)隱患的發(fā)現(xiàn)時間,選取發(fā)現(xiàn)時間較早的隱患總數(shù)的2/3作為歷史隱患集,選取發(fā)現(xiàn)時間較晚的隱患總數(shù)的1/3作為目標隱患集。
7、步驟3:安全隱患圖譜構(gòu)建:
8、將結(jié)構(gòu)化的歷史隱患集作為數(shù)據(jù)源,以隱患問題為核心抽取隱患實體、屬性以及關(guān)系,構(gòu)建隱患知識圖譜,并將其存儲在neo4j圖數(shù)據(jù)庫中;
9、步驟4:語義匹配數(shù)據(jù)集整理:
10、在歷史隱患集中查詢與目標隱患數(shù)據(jù)相似的隱患,并將目標隱患與相似隱患形成的文本對定義為正樣本集,而目標隱患與其非相似歷史隱患形成的文本對定義為負樣本集。將樣本集隨機進行打亂,以7:1.5:1.5比例劃分訓(xùn)練集、驗證集和測試集;
11、步驟5:模型構(gòu)建:
12、構(gòu)建施工隱患語義匹配的sentence-bert網(wǎng)絡(luò)模型,輸入步驟4中訓(xùn)練集進行訓(xùn)練;
13、步驟6:模型測試:
14、根據(jù)訓(xùn)練結(jié)果調(diào)整步驟5中sentence-bert網(wǎng)絡(luò)模型的參數(shù),將步驟4中的測試集輸入至訓(xùn)練好的sentence-bert網(wǎng)絡(luò)模型中,輸出與目標隱患最相似的歷史相似隱患結(jié)果;
15、步驟7:模型驗證:
16、將步驟4的驗證集輸入到步驟6中訓(xùn)練好的sentence-bert網(wǎng)絡(luò)模型中,并根據(jù)正、負樣本集對應(yīng)的標簽,計算準確率、精準率等評價指標,利用驗證集進行相似隱患智能推薦結(jié)果展示。
17、步驟8:可視化展示:
18、調(diào)用步驟6中訓(xùn)練好的sentence-bert網(wǎng)絡(luò)模型型,從歷史隱患集中檢索與目標隱患相似的隱患數(shù)據(jù),并利用步驟3構(gòu)建隱患知識圖譜的cypher語句查詢歷史隱患數(shù)據(jù)中有關(guān)隱患治理的實體內(nèi)容。
19、所述步驟3包括以下步驟:
20、s301:借助python工具,結(jié)合人工修正的方式,抽取包括檢查日期、隱患部位、隱患問題、隱患整改要求等9類實體,共計191070個實體;
21、s302:采用基于模板的關(guān)系抽取方法,抽取包括隱患-時間、隱患-類型、隱患-部位、隱患-措施、隱患-期限、隱患-單位、單位-執(zhí)行7類關(guān)系,共計148610個關(guān)系;
22、s303:在知識存儲過程中,選擇使用neo4j圖數(shù)據(jù)庫存儲施工隱患知識,借助cypher工具進行實體內(nèi)容查詢,構(gòu)建施工隱患知識圖譜;
23、s304:在依據(jù)目標隱患對歷史相似隱患進行智能推薦過程中,若目標隱患在以前從未發(fā)生,則需要將該目標隱患存儲到歷史隱患中以更新隱患知識圖譜,從而提升圖譜的泛化能力。
24、所述步驟5中,sentence-bert網(wǎng)絡(luò)模型包含輸入層、bert模型層、pooling層以及輸出層;
25、在輸入層,將安全隱患文本以及對應(yīng)的歷史相似隱患文本輸入bert模型層,將其轉(zhuǎn)化為詞嵌入向量。
26、具體如圖5所示,以“乙炔瓶與氧氣瓶安全距離不足”為例,bert模型通過去停用詞和分詞處理后,該句子為“乙炔瓶/氧氣瓶/安全距離/不足”,并把詞語以向量的形式進行呈現(xiàn)“乙炔瓶對應(yīng)詞向量為(-0.38691133?0.71248794...-0.01407175)”“氧氣瓶對應(yīng)詞向量為(-0.1483857?0.22868624...0.22028413)”“安全距離對應(yīng)的詞向量為(0.10901136-0.24216454...0.50504297)”“不足對應(yīng)的詞向量為(-0.22338304?-0.343628...-0.01832486)”;
27、pooling層對bert模型層輸出進行平均池化操作,將整個句子的表示壓縮為一個固定維度的向量。
28、具體為:經(jīng)過平均池化作用,乙炔瓶與氧氣瓶安全距離不足對應(yīng)的句子向量為詞向量對應(yīng)部分取平均值,最終向量為(-0.16241717?0.08884541...0.1732326225)。
29、經(jīng)由輸出層后計算目標隱患與歷史相似隱患句子向量x和y的余弦相似度,具體公式如式(8)所示,通過計算兩個句子向量的余弦相似度cosine_similarity(x,y)來表達二者的語義相似性。
30、
31、所述sentence-bert網(wǎng)絡(luò)模型具備孿生網(wǎng)絡(luò)結(jié)構(gòu),x1和x2作為孿生神經(jīng)網(wǎng)絡(luò)的兩個輸入,分別傳入具有相同權(quán)重w的神經(jīng)網(wǎng)絡(luò)模型中進行編碼映射,生成在新空間中的向量表示。具體操作如圖4所示,通過該操作,兩個句子經(jīng)過具有相同權(quán)值的bert模型,輸出兩個句子向量。
32、采用余弦相似度計算損失函數(shù)loss,以優(yōu)化模型在語義相似性任務(wù)上的性能,從而達到“最小化相似句子對的距離,最大化不相似句子對的距離”的效果。具體如下:
33、在訓(xùn)練過程中,隨著模型性能的提升,loss值會逐漸減小。而在loss值減小的過程中,兩個相似的文本(正樣本)其cosine_similarity值逐漸增大,兩個不相似的文本(負樣本)其cosine_similarity值逐漸減小,使得|li-cosine_similarity(xi,yi)|值逐漸減小,從而達到“最小化相似句子對的距離,最大化不相似句子對的距離”的效果。
34、
35、式中,m為訓(xùn)練集樣本量,li為第i個文本對標簽對應(yīng)值,正樣本標簽為1,負樣本標簽為0。
36、所述輸入層包括以下步驟:
37、s5021:將數(shù)據(jù)以字符形式輸入,每個字符都包含單詞特征信息、段落特征信息和位置特征信息。其中,段落特征信息用于區(qū)分字符所在的文本段落,而位置特征信息描述字符在文本中的具體位置,以區(qū)分同一字符在不同語境中的角色;
38、s5022:通過單詞特征信息經(jīng)由transformer機制,將輸入文本中的每個字符轉(zhuǎn)換為固定維度的向量。具體操作如圖5所示,以“乙炔瓶與氧氣瓶安全距離不足”為例,bert模型通過去停用詞和分詞處理后,該句子為“乙炔瓶/氧氣瓶/安全距離/不足”,并把詞語以向量的形式進行呈現(xiàn)“乙炔瓶對應(yīng)詞向量為(-0.38691133?0.71248794...-0.01407175)”“氧氣瓶對應(yīng)詞向量為(-0.1483857?0.22868624...0.22028413)”“安全距離對應(yīng)的詞向量為(0.10901136?-0.24216454...0.50504297)”“不足對應(yīng)的詞向量為(-0.22338304-0.343628...-0.01832486)”。
39、所述步驟6中,sentence-bert網(wǎng)絡(luò)模型的參數(shù)主要設(shè)置為4組,初始學(xué)習(xí)率為0.0005,優(yōu)化算法使用adam算法,迭代輪次(epochs)為50,batch_size設(shè)置為16。
40、所述步驟7包括:
41、s701:在訓(xùn)練階段,分別計算隱患文本對在曼哈頓距離(manhattan?distance)、歐幾里得距離(euclidean?distance)、點積相似度(dot?product?similarity)以及余弦相似度(cosine?similarity)四種語義相似度評估方法下的相似度得分;通過該得分與實際標簽之間的pearson系數(shù)值p和spearman系數(shù)值s來衡量文本對語義相似度與標簽之間的相關(guān)性,并將其作為模型性能的評估指標:
42、
43、
44、式中,yi為第i個文本對的相似度得分;m為訓(xùn)練集樣本量;li為第i個文本對標簽對應(yīng)值正樣本標簽為1,負樣本標簽為0;為m個文本對相似度的均值;為m個文本對標簽的均值;rank(a)為向量a的秩;p與s取值范圍均為[-1,1],當p和s值為0時表明兩個所選樣本無相關(guān)性,值越趨于1,二者正相關(guān)性越強,值越趨于-1,二者負相關(guān)性越強。
45、對于m組向量中的兩個向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),曼哈頓距離相似度為:
46、
47、對于m組向量中的兩個向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),歐幾里得距離相似度為:
48、
49、對于m組向量中的兩個向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),點積相似度為:
50、
51、對于m組向量中的兩個向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),余弦相似度為:
52、
53、通過計算曼哈頓距離(manhattan?distance)、歐幾里得距離(euclideandistance)、點積相似度(dot?product?similarity)以及余弦相似度(cosine?similarity)四種語義相似度,并將其值作為yi帶入式(1)和式(2),即可得出四種不同測算方法下模型的pearson系數(shù)值p和spearman值s。
54、s702:在測試階段,計算準確率(accuracy)、精準率(precision)、召回率(recall)和f1值(f1-score),評價模型對目標隱患和歷史相似隱患的識別效果。
55、
56、式中,tp為真陽性,表示正樣本且識別正確;fn為假陰性,表示正樣本且識別錯誤;fp為假陽性,表示負樣本且識別錯誤;tn為真陰性,表示負樣本且識別正確。
57、本發(fā)明一種安全隱患治理措施的智能推薦方法,技術(shù)效果如下:
58、1)本發(fā)明考慮了由項目管理人員或邀請專家依據(jù)行業(yè)標準規(guī)范并結(jié)合項目實際制定安全隱患治理措施造成制定措施制定過程主觀性強且效率較低的問題,構(gòu)建安全隱患知識圖譜,在此基礎(chǔ)上利用深度學(xué)習(xí)的語義提取優(yōu)勢,搭建施工隱患語義匹配的sentence-bert網(wǎng)絡(luò)模型,使施工安全管理工作更智能化、效率化。
59、2)本發(fā)明考慮歷史隱患與目標隱患的語義相似性,通過施工隱患語義匹配的sentence-bert網(wǎng)絡(luò)模型實現(xiàn)了歷史相似隱患的智能推薦,并利用知識圖譜的cypher語句檢索該歷史隱患對應(yīng)的治理措施,并將其作為制定目標隱患治理措施的參考,展現(xiàn)了良好的工程價值。
60、3)本發(fā)明意義在于,有效促進了安全隱患的高效處理,為施工安全提供了堅實保障,考慮后續(xù)將施工安全隱患與標準規(guī)范條款進行對應(yīng),解決目標隱患在以前從未發(fā)生的情況,提高安全隱患治理的全面性和準確性。