一種基于knn算法的斷路器缺陷等級劃分方法
【技術領域】
[0001] 本發(fā)明屬于電力系統(tǒng)技術領域,具體是設及一種基于腳W算法的斷路器缺陷等級 劃分方法。
【背景技術】
[0002] 斷路器的歷史缺陷文本是斷路器歷史缺陷情況的載體,可被用于斷路器的狀態(tài)評 價中W完善斷路器的狀態(tài)評價模型,是斷路器可靠性的一大表征。斷路器的歷史缺陷文本 中包含設備型式、電壓等級、廠家、出廠時間、名稱、所在變電所等基本設備信息,還包含缺 陷發(fā)現時間、缺陷描述文本、缺陷等級等缺陷內容。其中缺陷等級是斷路器歷史缺陷文本評 判的核屯、。缺陷等級通常采用運維人員現場運行經驗判斷,不僅費時費力,而且存在相同缺 陷被不同運維人員判斷為不同等級的情況。因此需要對其進行科學分類。由于缺陷文本通 常采用中文自然語言記錄,采用機器分析具有難度,目前鮮見缺陷文本被處理的相關研究。
【發(fā)明內容】
[0003] 本發(fā)明的目的在于針對現有技術的不足,提供一種基于腳W算法的斷路器缺陷等 級劃分方法。
[0004] 本發(fā)明方法包括W下步驟:
[0005] 步驟1 ;建立"斷路器缺陷文本詞庫",該是根據電力專業(yè)知識由發(fā)明人人工建立。
[0006] 步驟2 ;分詞,依據步驟1建立的詞庫,將缺陷文本中的中文字符串合理地切分成 詞語序列,該是中文文本信息處理必備且最為基礎的環(huán)節(jié)。
[0007] 步驟3 ;詞頻統(tǒng)計,是對文本中所有詞進行出現頻次的統(tǒng)計并據此排序。完整的詞 頻統(tǒng)計結果包括了文本中出現的所有詞,可用該些詞構成文本向量的向量空間。每個詞對 應向量空間中一維。
[000引步驟4;去除停用詞,去除無法表征文本的詞,執(zhí)行中考慮先建立停用詞表,再將 詞頻統(tǒng)計結果和停用詞表中的詞進行對照,刪去詞頻統(tǒng)計結果中的停用詞。
[0009] 步驟5 ;文本向量化,是把經過上述處理的文本轉化為數字向量的表示結果。每一 條文本對應一個特征向量,特征向量的每一維對應詞頻統(tǒng)計結果中的每一個詞。具體方法 為根據文本向量的向量空間,再根據分詞結果,將每條文本中的詞與向量空間每一維對應 的詞作對照,如果相同,則在該文本對應的特征向量中,將該詞對應的維記為1,否則為0。
[0010] 步驟6 ;量化缺陷文本的缺陷程度,緊急為3,重要為2, 一般為1。本步驟由專家組 根據專業(yè)知識完成。
[0011] 步驟7 ;針對每一個缺陷文本,重復步驟2~6,建立缺陷文本庫。
[0012] 步驟8 ;計算待歸類文本與缺陷文本庫中每個文本的文本相近程度。對待歸類缺 陷文本執(zhí)行步驟2~5,完成文本向量化,然后采用式(1)計算待測文本與缺陷文本庫中每 一個文本的相似度: (1)[001 引
【主權項】
1. 一種基于KNN算法的斷路器缺陷檢測方法,其特征在于該方法包括以下步驟: 步驟1 :建立斷路器缺陷文本詞庫; 步驟2 :分詞; 依據步驟1建立的詞庫,將缺陷文本中的中文字符串切分成詞語序列; 步驟3 :詞頻統(tǒng)計; 對文本中所有詞進行出現頻次的統(tǒng)計并據此排序;完整的詞頻統(tǒng)計結果包括了文本中 出現的所有詞,可用這些詞構成文本向量的向量空間;每個詞對應向量空間中一維; 步驟4 :去除停用詞,即去除無法表征文本的詞, 建立停用詞表,再將詞頻統(tǒng)計結果和停用詞表中的詞進行對照,刪去詞頻統(tǒng)計結果中 的停用詞; 步驟5 :文本向量化,即把經過上述處理的文本轉化為數字向量的表示結果;每一條文 本對應一個特征向量,特征向量的每一維對應詞頻統(tǒng)計結果中的每一個詞; 具體是根據文本向量的向量空間,再根據分詞結果,將每條文本中的詞與向量空間每 一維對應的詞作對照,如果相同,則在該文本對應的特征向量中,將該詞對應的維記為1,否 則為〇 ; 步驟6 :量化缺陷文本的缺陷程度,緊急為3,重要為2, 一般為1 ; 步驟7 :針對每一個缺陷文本,重復步驟2~6,建立缺陷文本庫; 步驟8 :計算待歸類文本與缺陷文本庫中每個文本的文本相近程度;對待歸類缺陷文 本執(zhí)行步驟2~5,完成文本向量化,然后采用式(1)計算待測文本與缺陷文本庫中每一個 文本的相似度Sij:
式中,Su為待歸類文本i與文本庫中文本j之間的相似度,M為向量的維數,W η為文 本i的特征向量的第1維的值,W#為文本j的特征向量的第1維的值; 步驟9 :按照文本相似度,在文本庫中選出與待歸類文本最相似的k條文本; 步驟10 :利用式(2)計算待歸類缺陷文本i描述的缺陷嚴重程度yi:
其中,Y1為第1條缺陷文本描述的缺陷嚴重程度。
2. 根據權利要求1所述的一種基于KNN算法的斷路器缺陷檢測方法,其特征在于:根 據步驟10計算結果將該缺陷的嚴重程度歸類,計算結果為 yi e (1,1. 5],則歸為一般類,計 算結果為Yie (1.5, 2. 5),則歸為嚴重類,計算結果為yie [2. 5, 3),則歸為緊急類。
【專利摘要】本發(fā)明涉及一種基于KNN算法的斷路器缺陷等級劃分方法?,F有的等級劃分方法為通過運維人員經驗判斷,費時費力且正確率受人為影響較大。本發(fā)明首先建立“斷路器缺陷文本詞庫”,然后針對斷路器缺陷文本屬于短文本的特點,提出了文本預處理方法,將其轉化為可直接計算的向量。接著采用KNN算法,尋找與待分類缺陷文本最相近的幾條文本,并加權計算出待分類缺陷文本所屬的缺陷等級。本發(fā)明對斷路器缺陷文本的分類計算效率高,方便應用。
【IPC分類】G06F17-30
【公開號】CN104866574
【申請?zhí)枴緾N201510267932
【發(fā)明人】王慧芳, 馬潤澤, 邱劍, 余佳文
【申請人】浙江大學
【公開日】2015年8月26日
【申請日】2015年5月23日