本發(fā)明屬于搜索引擎技術(shù)領(lǐng)域,涉及一種圖文搜索引擎,具體是一種基于互聯(lián)網(wǎng)的圖文搜索引擎。
背景技術(shù):
搜索引擎是互聯(lián)網(wǎng)信息檢索工具,其可以抓取相關(guān)信息并存放于索引文件中,并依據(jù)用戶査詢內(nèi)容完成搜索,最終提供相應(yīng)的檢索內(nèi)容。搜索引擎本身也是提供專業(yè)服務(wù)的網(wǎng)站系統(tǒng),其依據(jù)相關(guān)算法收集特定范圍或者互聯(lián)網(wǎng)信息,然后將上述信息進(jìn)行處理,提供檢索服務(wù)。對(duì)于用戶而言,借助搜索引擎其可以輸入相關(guān)信息在互聯(lián)網(wǎng)中尋找到自己想要的相關(guān)信息。
搜索技術(shù)的快速發(fā)展,政府企業(yè)單位對(duì)于搜索需求與要求也在逐漸提高。隨著這些企事業(yè)單位的快速發(fā)展,其所產(chǎn)生的信息也在呈現(xiàn)快速增長(zhǎng)狀態(tài)。面對(duì)穩(wěn)定的經(jīng)濟(jì)大環(huán)境以及改革開放的深入,其競(jìng)爭(zhēng)也逐漸激烈,對(duì)于任何企事業(yè)單位而言,如何快速尋找企業(yè)內(nèi)部現(xiàn)有信息,如何更高效率的搜尋信息越發(fā)重要。
目前市而上的搜索引擎十分多,如百度搜索、360搜索等,但對(duì)于單體企事業(yè)單位而言,現(xiàn)有的搜索引擎存在內(nèi)部網(wǎng)頁(yè)抓取不夠深入,抓取信息存在冗余等問題;同時(shí)對(duì)于企事業(yè)單位而言,現(xiàn)有搜索引擎其本身存在泄密的風(fēng)險(xiǎn),但是利用自身技術(shù)開發(fā)高效率的搜索引擎難度較大,其所占用的成本、人力較多,因此搭建效率較高、成本較低的企業(yè)級(jí)搜索引擎對(duì)于企事業(yè)單位而言十分重要。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種操作簡(jiǎn)捷,搭建效率高、成本低的圖文搜索引擎。
本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):
一種基于互聯(lián)網(wǎng)的圖文搜索引擎,包括服務(wù)器端以及通過互聯(lián)網(wǎng)連接服務(wù)器端的用戶客戶端;
所述服務(wù)器端包括網(wǎng)頁(yè)抓取模塊、頁(yè)面庫(kù)、信息抓取模塊、圖像識(shí)別模塊、數(shù)據(jù)庫(kù)、索引服務(wù)模塊、索引文件庫(kù)以及搜索服務(wù)模塊;
所述網(wǎng)頁(yè)抓取模塊,接入互聯(lián)網(wǎng),完成對(duì)預(yù)設(shè)的互聯(lián)網(wǎng)網(wǎng)站所有頁(yè)面的抓取,并將抓取的頁(yè)面保存至頁(yè)面庫(kù);
所述頁(yè)面庫(kù),用于存儲(chǔ)網(wǎng)頁(yè)抓取模塊抓取的網(wǎng)站頁(yè)面;
所述信息抓取模塊,用于對(duì)存儲(chǔ)在頁(yè)面庫(kù)內(nèi)的網(wǎng)站頁(yè)面進(jìn)行逐一讀取,獲取文字內(nèi)容,分析其中的主體文字信息,存儲(chǔ)至數(shù)據(jù)庫(kù)中;
所述圖像識(shí)別模塊,用于對(duì)存儲(chǔ)在頁(yè)面庫(kù)內(nèi)的網(wǎng)站頁(yè)面進(jìn)行逐一讀取,獲取圖像數(shù)據(jù),并識(shí)別其中包含的圖像信息,存儲(chǔ)至數(shù)據(jù)庫(kù)中;
所述數(shù)據(jù)庫(kù),用于存儲(chǔ)信息抓取模塊和圖像識(shí)別模塊獲取的文字信息和圖像信息;
所述數(shù)據(jù)導(dǎo)入模塊,用于將數(shù)據(jù)庫(kù)中的文字信息和圖像信息導(dǎo)入到索引服務(wù)模塊,建立索引文件;
所述索引服務(wù)模塊,根據(jù)數(shù)據(jù)庫(kù)中的文字信息和圖像信息,調(diào)用solr構(gòu)建索引文件,并且可定時(shí)完成索引構(gòu)建,存儲(chǔ)到索引文件庫(kù);
所述索引文件庫(kù),用于存儲(chǔ)索引服務(wù)模塊建立的索引文件;
所述搜索服務(wù)模塊,對(duì)用戶客戶端輸入的檢索內(nèi)容進(jìn)行解析,并從索引文件庫(kù)獲取檢索結(jié)果信息,加以解析,轉(zhuǎn)發(fā)至用戶客戶端。
進(jìn)一步地,所述用戶客戶端包括檢索模塊和展示模塊;
所述檢索模塊,用于用戶輸入檢索內(nèi)容,上傳到服務(wù)器端,獲取對(duì)應(yīng)的檢索結(jié)果;
所述展示模塊,用于從服務(wù)器端獲取用戶需要的檢索結(jié)果信息,實(shí)時(shí)展示給用戶,并完成分頁(yè)處理操作。
本發(fā)明的有益效果:本發(fā)明提供的基于互聯(lián)網(wǎng)的圖文搜索引擎,設(shè)置網(wǎng)頁(yè)抓取模塊頁(yè)面抓取,存儲(chǔ)至頁(yè)面庫(kù),分別設(shè)置信息抓取模塊和圖像識(shí)別模塊對(duì)抓取頁(yè)面的圖文內(nèi)容進(jìn)行解析、提取,存儲(chǔ)到數(shù)據(jù)庫(kù),設(shè)置索引服務(wù)模塊,調(diào)用solr構(gòu)建索引文件,存儲(chǔ)至索引文件庫(kù),設(shè)置搜索服務(wù)模塊對(duì)用戶客戶端輸入的檢索內(nèi)容進(jìn)行解析,并從索引文件庫(kù)獲取檢索結(jié)果信息,加以解析,展示給用戶;本發(fā)明基于solr技術(shù),建立高效、獨(dú)立的企業(yè)級(jí)搜索引擎,根據(jù)互聯(lián)網(wǎng)網(wǎng)站的特點(diǎn),對(duì)網(wǎng)站頁(yè)面抓??;使用信息抓取模塊和圖像識(shí)別模塊完成圖文信息提取,調(diào)用solr構(gòu)建索引文件,采用solr工具實(shí)現(xiàn)整個(gè)信息檢索,整個(gè)搜索引擎操作簡(jiǎn)捷,搭建效率高、成本低。
附圖說明
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
圖1是本發(fā)明系統(tǒng)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明提供了一種基于互聯(lián)網(wǎng)的圖文搜索引擎,包括服務(wù)器端以及通過互聯(lián)網(wǎng)連接服務(wù)器端的用戶客戶端。
服務(wù)器端包括網(wǎng)頁(yè)抓取模塊、頁(yè)面庫(kù)、信息抓取模塊、圖像識(shí)別模塊、數(shù)據(jù)庫(kù)、索引服務(wù)模塊、索引文件庫(kù)以及搜索服務(wù)模塊。
網(wǎng)頁(yè)抓取模塊,接入互聯(lián)網(wǎng),完成對(duì)預(yù)設(shè)的互聯(lián)網(wǎng)網(wǎng)站所有頁(yè)面的抓取,并將抓取的頁(yè)面保存至頁(yè)面庫(kù)。
頁(yè)面庫(kù),用于存儲(chǔ)網(wǎng)頁(yè)抓取模塊抓取的網(wǎng)站頁(yè)面。
信息抓取模塊,用于對(duì)存儲(chǔ)在頁(yè)面庫(kù)內(nèi)的網(wǎng)站頁(yè)面進(jìn)行逐一讀取,獲取文字內(nèi)容,并對(duì)獲取的文字內(nèi)容進(jìn)行分析,完成噪音的過濾,獲取其中的主體文字信息并存儲(chǔ)至數(shù)據(jù)庫(kù)中。
圖像識(shí)別模塊,用于對(duì)存儲(chǔ)在頁(yè)面庫(kù)內(nèi)的網(wǎng)站頁(yè)面進(jìn)行逐一讀取,獲取圖像數(shù)據(jù),并對(duì)獲取的圖像數(shù)據(jù)進(jìn)行識(shí)別,識(shí)別圖像中包含的圖像信息并存儲(chǔ)至數(shù)據(jù)庫(kù)中。
數(shù)據(jù)庫(kù),用于存儲(chǔ)信息抓取模塊和圖像識(shí)別模塊獲取的文字信息和圖像信息。
數(shù)據(jù)導(dǎo)入模塊,用于將數(shù)據(jù)庫(kù)中的文字信息和圖像信息導(dǎo)入到索引服務(wù)模塊,建立索引文件。
索引服務(wù)模塊,根據(jù)數(shù)據(jù)庫(kù)中的文字信息和圖像信息,調(diào)用solr構(gòu)建索引文件,并且可定時(shí)完成索引構(gòu)建,存儲(chǔ)到索引文件庫(kù)。
索引文件庫(kù),用于存儲(chǔ)索引服務(wù)模塊建立的索引文件。
搜索服務(wù)模塊,對(duì)用戶客戶端輸入的檢索內(nèi)容進(jìn)行解析,并從索引文件庫(kù)獲取檢索結(jié)果信息,加以解析,轉(zhuǎn)發(fā)至用戶客戶端。
用戶客戶端包括檢索模塊和展示模塊。
檢索模塊,用于用戶輸入檢索內(nèi)容,上傳到服務(wù)器端,獲取對(duì)應(yīng)的檢索結(jié)果。
展示模塊,用于從服務(wù)器端獲取用戶需要的檢索結(jié)果信息,實(shí)時(shí)展示給用戶,并完成分頁(yè)處理操作。
本發(fā)明工作時(shí):首先,網(wǎng)頁(yè)抓取模塊對(duì)預(yù)設(shè)的互聯(lián)網(wǎng)網(wǎng)站所有頁(yè)面進(jìn)行抓取,并對(duì)所抓取的成果進(jìn)行下載,存儲(chǔ)至頁(yè)面庫(kù);然后,信息抓取模塊和圖像識(shí)別模塊分別對(duì)抓取頁(yè)面的圖文內(nèi)容進(jìn)行解析、提取(包括網(wǎng)頁(yè)標(biāo)題、時(shí)間、圖像主題等),同時(shí)將所提取的內(nèi)容存儲(chǔ)到數(shù)據(jù)庫(kù);隨后,利用數(shù)據(jù)導(dǎo)入模塊將上述存儲(chǔ)的數(shù)據(jù)導(dǎo)入至索引服務(wù)模塊,調(diào)用solr構(gòu)建索引文件,存儲(chǔ)至索引文件庫(kù);最后,依據(jù)索引編程成果對(duì)用戶輸入的檢索內(nèi)容進(jìn)行數(shù)據(jù)檢索,并將檢索結(jié)果信息呈現(xiàn)給用戶。
本發(fā)明提供的基于互聯(lián)網(wǎng)的圖文搜索引擎,設(shè)置網(wǎng)頁(yè)抓取模塊頁(yè)面抓取,存儲(chǔ)至頁(yè)面庫(kù),分別設(shè)置信息抓取模塊和圖像識(shí)別模塊對(duì)抓取頁(yè)面的圖文內(nèi)容進(jìn)行解析、提取,存儲(chǔ)到數(shù)據(jù)庫(kù),設(shè)置索引服務(wù)模塊,調(diào)用solr構(gòu)建索引文件,存儲(chǔ)至索引文件庫(kù),設(shè)置搜索服務(wù)模塊對(duì)用戶客戶端輸入的檢索內(nèi)容進(jìn)行解析,并從索引文件庫(kù)獲取檢索結(jié)果信息,加以解析,展示給用戶;本發(fā)明基于solr技術(shù),建立高效、獨(dú)立的企業(yè)級(jí)搜索引擎,根據(jù)互聯(lián)網(wǎng)網(wǎng)站的特點(diǎn),對(duì)網(wǎng)站頁(yè)面抓??;使用信息抓取模塊和圖像識(shí)別模塊完成圖文信息提取,調(diào)用solr構(gòu)建索引文件,采用solr工具實(shí)現(xiàn)整個(gè)信息檢索,整個(gè)搜索引擎操作簡(jiǎn)捷,搭建效率高、成本低。
在本說明書的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“示例”、“具體示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
以上內(nèi)容僅僅是對(duì)本發(fā)明結(jié)構(gòu)所作的舉例和說明,所屬本技術(shù)領(lǐng)域的技術(shù)人員對(duì)所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,只要不偏離發(fā)明的結(jié)構(gòu)或者超越本權(quán)利要求書所定義的范圍,均應(yīng)屬于本發(fā)明的保護(hù)范圍。