1.一種基于圖文識別的論文重查系統(tǒng),其特征在于,主要包括:
論文結(jié)構(gòu)識別模塊,所述論文結(jié)構(gòu)識別模塊主要用于將論文的信息識別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來;
文本查重模塊,所述文本查重模塊主要用于將論文結(jié)構(gòu)識別模塊識別并保存的文本信息與文本信息數(shù)據(jù)庫中的文本信息進(jìn)行匹配分析;
圖像重查模塊,所述圖像重查模塊主要用于將論文結(jié)構(gòu)識別模塊識別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息,并將提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析;
查重報告模塊,所述查重報告模塊主要用于將文本重查模塊和圖像重查模塊匹配分析出的結(jié)果生成查重報告,以反饋給用戶;
所述論文結(jié)構(gòu)查重模塊、文本查重模塊、圖像重查模塊和查重報告模塊相互通信連接。
2.如權(quán)利要求1所述的一種基于圖文識別的論文重查方法,其特征在于,主要包括以下步驟:
第一步,論文結(jié)構(gòu)識別模塊將論文的信息識別成文本信息和圖像信息,并將文本信息和圖片信息分別保存起來;
第二步,圖像重查模塊將論文結(jié)構(gòu)識別模塊識別并保存的圖像信息進(jìn)行分析提取出文字信息和圖像特征信息;
第三步,圖像重查模塊將圖像信息進(jìn)行分析提取出的文字信息發(fā)送給文本查重模塊;
第四步,圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析;
第五步,文本查重模塊將論文結(jié)構(gòu)識別模塊識別并保存的文本信息以及來自于圖像重查模塊提取的文字信息分別與文本信息數(shù)據(jù)庫中的文本信息進(jìn)行匹配分析;
第六步,查重報告模塊將文本重查模塊和圖像重查模塊匹配分析出的結(jié)果生成查重報告反饋給用戶。
3.根據(jù)權(quán)利要求2所述的一種基于圖文識別的論文重查方法,其特征在于,所述圖像重查模塊是采用OCR分析方式將圖像信息中的文字信息提取出來。
4.根據(jù)權(quán)利要求2所述的一種基于圖文識別的論文重查方法,其特征在于,所述圖像特征信息是指顏色特征信息、紋理特征信息和形狀特征信息進(jìn)行綜合加權(quán)形成的圖形綜合信息。
5.根據(jù)權(quán)利要求4所述的一種基于圖文識別的論文重查方法,其特征在于,所述顏色特征信息、紋理特征信息和形狀特征信息權(quán)重之和為1。
6.根據(jù)權(quán)利要求4所述的一種基于圖文識別的論文重查方法,其特征在于,所述顏色特征信息為采用RGB顏色空間的顏色直方圖特征信息。
7.根據(jù)權(quán)利要求4所述的一種基于圖文識別的論文重查方法,其特征在于,所述紋理特征信息為采用Gabor濾波器提取出來的圖像紋理特征信息。
8.根據(jù)權(quán)利要求4所述的一種基于圖文識別的論文重查方法,其特征在于,所述形狀特征信息為采用Fourier描述出來提取的形狀特征信息。
9.根據(jù)權(quán)利要求2所述的一種基于圖文識別的論文重查方法,其特征在于,所述圖像重查模塊將圖像信息進(jìn)行分析提取出的圖像特征信息與圖庫中的圖像特征進(jìn)行匹配分析的方式為采用基于歐幾里得距離進(jìn)行比較的方式。