本發(fā)明涉及一種圖片爬取方法,尤其是涉及一種基于種子圖片識(shí)別的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法。
背景技術(shù):
電力是現(xiàn)代工業(yè)發(fā)展的根本,也是我國(guó)的重要資源。為確保電力網(wǎng)絡(luò)的安全運(yùn)行,如何對(duì)電力網(wǎng)絡(luò)進(jìn)行安全巡檢,是我們目前研究關(guān)注的重點(diǎn)。電線路巡檢目前主要可分為人工巡檢、機(jī)器人巡檢、載人直升機(jī)巡檢和無人機(jī)巡檢4種方式。傳統(tǒng)的人工巡檢不僅要求巡檢人員具有相關(guān)的專業(yè)知識(shí),而且還極大的依賴于巡檢員的工作態(tài)度,并且惡劣的環(huán)境也對(duì)人工巡檢提出了極大的挑戰(zhàn)。相比于人工巡檢,其他3種巡檢方式不僅提高了檢修效率,而且人力成本低、風(fēng)險(xiǎn)小。在這類現(xiàn)代的電路巡檢方法過程中,會(huì)拍攝大量的電路巡檢圖片,而利用這些巡檢圖片作為資源,可以開發(fā)出一個(gè)通過電力圖像來分析電力器件安全性的智能系統(tǒng)。在開發(fā)一個(gè)具有智能檢測(cè)的系統(tǒng)時(shí),系統(tǒng)的圖像資源集的大小對(duì)系統(tǒng)的智能識(shí)別準(zhǔn)備率具有決定性的影響。目前,僅僅依靠巡檢過程中現(xiàn)場(chǎng)采集的圖片非常有限,而且單一電力企業(yè)沒有足夠的訓(xùn)練數(shù)據(jù),計(jì)算機(jī)的訓(xùn)練集太小,學(xué)習(xí)訓(xùn)練不夠充分,所以導(dǎo)致識(shí)別率不高。
因此需要在互聯(lián)網(wǎng)中搜索圖片,然而基于文本關(guān)鍵詞的搜索方式在目前已經(jīng)非常成熟,但是這種基于文本的搜索方式不僅僅依賴對(duì)信息的標(biāo)簽分類和搜索引擎供應(yīng)商的信息存儲(chǔ)量,用戶輸入關(guān)鍵字的細(xì)微差別也會(huì)對(duì)搜索結(jié)果的準(zhǔn)確度產(chǎn)生重要影響。并且,這種搜索方式只能對(duì)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)文本內(nèi)容進(jìn)行搜索,已經(jīng)無法滿足用戶對(duì)萬(wàn)維網(wǎng)上多媒體信息的搜索訴求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于種子圖片識(shí)別的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
一種基于種子圖片識(shí)別的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法,包括步驟:
S1:獲取種子圖片;
S2:基于種子圖片利用搜索引擎的圖片搜索服務(wù)器搜索得到關(guān)聯(lián)圖片;
S3:下載關(guān)聯(lián)圖片。
所述步驟S2具體包括步驟。
S21:將種子圖片發(fā)送至搜索引擎的圖片搜索服務(wù)器并一同發(fā)送搜索請(qǐng)求;
S22:圖片搜索服務(wù)器基于種子圖片所搜得到關(guān)聯(lián)圖片;
S23:接收并獲取由搜索服務(wù)器返回的關(guān)聯(lián)圖片的下載鏈接;
S23:保存獲取的關(guān)聯(lián)圖片的下載鏈接。
所述步驟S23包括步驟:
S231:接收由搜索服務(wù)器返回的每一張關(guān)聯(lián)圖片的下載鏈接屬性;
S232:從反饋的每一張關(guān)聯(lián)圖片的下載鏈接屬性中獲取該關(guān)聯(lián)圖片的下載鏈接。
所述步驟S3中,下載關(guān)聯(lián)圖片時(shí)更新并保存下載狀態(tài)和源搜索引擎。
所述步驟S4中,采用異步多線程方式下載關(guān)聯(lián)圖片。
所述步驟S2中,利用搜索引擎的圖片搜索服務(wù)器搜索得到關(guān)聯(lián)圖片。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
1)利用種子圖片在互聯(lián)網(wǎng)中獲得更多的關(guān)聯(lián)圖片,基于圖片的內(nèi)容來表達(dá)自己的搜索意圖,不受文字偏差的影響,得到的關(guān)聯(lián)圖片更準(zhǔn)確,利于得到充足的智能巡檢系統(tǒng)的訓(xùn)練數(shù)據(jù)。
2)將獲取的關(guān)聯(lián)圖片的下載鏈接進(jìn)行本地保存,從而實(shí)現(xiàn)斷點(diǎn)續(xù)傳。
3)從服務(wù)器返回的下載鏈接屬性篩選出下載鏈接,避免了搜索引擎的反爬機(jī)制影響。
附圖說明
圖1為本發(fā)明的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
一種基于種子圖片識(shí)別的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法,如圖1所示,包括步驟:
S1:獲取種子圖片;
S2:基于種子圖片利用多個(gè)搜索引擎的圖片搜索服務(wù)器搜索得到關(guān)聯(lián)圖片,具體包括步驟:
S21:將種子圖片發(fā)送至搜索引擎的圖片搜索服務(wù)器并一同發(fā)送搜索請(qǐng)求;
S22:圖片搜索服務(wù)器基于種子圖片所搜得到關(guān)聯(lián)圖片;
S23:接收并獲取由搜索服務(wù)器返回的關(guān)聯(lián)圖片的下載鏈接;
S23:保存獲取的關(guān)聯(lián)圖片的下載鏈接,具體包括步驟:
S231:接收由搜索服務(wù)器返回的每一張關(guān)聯(lián)圖片的下載鏈接屬性;
S232:從反饋的每一張關(guān)聯(lián)圖片的下載鏈接屬性中獲取該關(guān)聯(lián)圖片的下載鏈接。
S3:采用異步多線程方式下載關(guān)聯(lián)圖片,同時(shí)更新并保存下載狀態(tài)和源搜索引擎。
基于得到的關(guān)聯(lián)圖片,為后續(xù)的圖像識(shí)別系統(tǒng)研發(fā)提供結(jié)構(gòu)化的訓(xùn)練集數(shù)據(jù),進(jìn)一步提升電力圖像識(shí)別算法的有效性和準(zhǔn)確率,提高系統(tǒng)的魯棒性。
在本申請(qǐng)方法中,基于電力圖片內(nèi)容的搜索方法嘗試直接分析電力相關(guān)圖片文件,將電力圖片根據(jù)特征分類。用戶可以通過提交一幅圖片來表達(dá)自己的搜索意圖:比如用戶能夠上傳種子圖片,對(duì)用戶提交的種子圖片進(jìn)行分析、比對(duì),通過種子圖片的內(nèi)容在互聯(lián)網(wǎng)上爬取相似圖片:
1)種子圖片的圖片識(shí)別。用戶在客戶端上傳種子圖片到服務(wù)器,服務(wù)器提取種子圖像的特征(顏色,紋理,形狀,sift)等,存庫(kù),然后根據(jù)圖片特征預(yù)測(cè)種子圖片表達(dá)信息;
2)根據(jù)種子圖片推薦相關(guān)內(nèi)容。服務(wù)器端得到用戶上傳的種子圖片后,提取種子圖片特征,利用種子圖片特征在服務(wù)器內(nèi)部查找相似特征,并返回相似容易與相似圖片到客戶端
3)搜索引擎的反爬蟲機(jī)制。各大搜索引擎具有反爬蟲機(jī)制,在搜索引擎的圖片服務(wù)器接收到查詢信息后返回到圖片下載鏈接是不能直接被程序下載的。在本文中,根據(jù)搜索引擎返回的html代碼,利用html解析器與正則表達(dá)式等相關(guān)技術(shù),將html代碼中圖片的原始網(wǎng)站地址提取出來,圖片的原始網(wǎng)站地址是能夠被程序下載器下載的。以百度圖片為例:下載百度圖片中的圖片,百度返回給用戶的圖片信息中包含thumbURL、middleURL、objURL、fromURL這四個(gè)圖片下載鏈接屬性,其中只有通過objURL屬性得到的圖片原始下載鏈接可以被程序自動(dòng)下載。通過其他3個(gè)屬性得到圖片下載鏈接利用程序自動(dòng)下載時(shí),都會(huì)被百度圖片網(wǎng)站的反爬蟲機(jī)制限制。
4)斷點(diǎn)續(xù)傳;從服務(wù)器得到的待下載圖片URL存入數(shù)據(jù)庫(kù),將待下載圖片URL存入數(shù)據(jù)庫(kù)中的目的是為了便于實(shí)現(xiàn)對(duì)圖片下載任務(wù)的斷點(diǎn)續(xù)傳。同時(shí)這也能夠在數(shù)據(jù)庫(kù)中保存圖片的其他相關(guān)信息,例如圖片下載狀態(tài)、源搜索引擎等。