欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中文文本自動分詞和判別文本抄襲的裝置和方法

文檔序號:6379099閱讀:622來源:國知局
專利名稱:中文文本自動分詞和判別文本抄襲的裝置和方法
技術領域
本發(fā)明涉及中文信息處理領域,具體地涉及中文文本分詞以及一種基于向量空間的文本相似度計算進行文本抄襲判別的裝置和方法。
背景技術
設計一個文本抄襲判別系統(tǒng),其目的是要代替人為判別的方法。其主要問題在于如何文本內容進行描述,以及如何對兩個文本的相似性進行評價。
向量空間模型的方法一般用在文本分類中。這里使用向量空間模型的方法,對文本內容進行描述以及相似性計算,達到判別的目的。
在實際工作中,往往采用人工判別的方法來判斷是否存在文本抄襲,這種辦法的明顯缺點在于對于人的依賴性大,受判別人的影響較大,不同的人判別的結果是不同的,此外,在大樣本集的情況下,人工判別是非常費力費時的。因此,文本抄襲的自動判別顯得尤為重要。

發(fā)明內容
本發(fā)明的目的是為了克服上述的缺陷,更好地解決中文文本抄襲判別的問題,提出了一種用于中文文本自動分詞和判別文本抄襲的裝置和方法。所述的裝置是通過如下技術方案實現(xiàn)的,所述的裝置包括樣本輸入裝置,用于在控制處理裝置的控制下,將中文文本的樣本數(shù)據(jù)輸入到樣本數(shù)據(jù)庫中;樣本數(shù)據(jù)庫,用于存儲由樣本輸入裝置輸入的中文文本樣本數(shù)據(jù),并輸出到自動分詞裝置中;自動分詞裝置,用于對輸入的中文文本進行自動分句分詞,分詞后的結果存儲到分詞數(shù)據(jù)庫中;分詞數(shù)據(jù)庫,用于保存自動分句分詞裝置處理后的結果,并為預處理裝置提供樣本數(shù)據(jù);預處理裝置,統(tǒng)計每個詞條在文本中出現(xiàn)的次數(shù),并將結果作為特征詞數(shù)據(jù)保存在特征詞數(shù)據(jù)庫中;特征詞數(shù)據(jù)庫,用于保存預處理裝置處理的結果,并為相似判別裝置提供分析數(shù)據(jù);相似判別裝置,根據(jù)特征詞數(shù)據(jù)庫提供的數(shù)據(jù),計算兩個文本之間的相似度,根據(jù)相似度與門限值進行比較,如果相似度值大于門限值,判別文本之間存在相互抄襲,否則,判別文本之間不存在互相抄襲;判別結果輸出裝置,用于將相似判別裝置中的分析結果輸出,輸出形式為直接顯示在顯示裝置上;控制處理裝置,用于對整個分詞和相似判別裝置的控制處理,負責樣本數(shù)據(jù)的讀取操作,分詞,預處理和相似判別結果的分析以及判別結果的輸出。
所述的一種用于中文文本自動分句分詞和抄襲判別的方法是根據(jù)如下的技術方案實現(xiàn)的,所述的方法包括如下步驟輸入中文文本的樣本數(shù)據(jù)到樣本數(shù)據(jù)庫中;
對輸入的中文文本的樣本數(shù)據(jù)進行自動分句分詞處理,其結果作為分詞數(shù)據(jù);統(tǒng)計每個詞條在文本中出現(xiàn)的次數(shù),并將結果作為特征詞數(shù)據(jù)保存在特征詞數(shù)據(jù)庫;根據(jù)特征詞數(shù)據(jù)計算兩個文本之間的相似度,并將該相似度與門限值進行比較,如果相似度值大于門限值,判別文本之間存在相互抄襲,否則,判別文本之間不存在互相抄襲;輸出判別結果,輸出形式為直接顯示在顯示裝置上。
所述的文本的相似度用以下方法計算Sim=cos(v1,v2)=Σi=1p(v1i×v2i)/(Σi=1pv1i2)(Σi=1pv2i2).]]>其中Sim為文本的相似度,v1,v2表示兩個文本的特征矢量,v1i,v2i表示特征矢量的第i個分量。所述的門限值是根據(jù)大量實驗的經(jīng)驗設定的,其值設定為0.7,相似判別時利用sim與門限值的比較進行,Sim高于門限值判別為抄襲,否則,判別為沒有抄襲。
利用本發(fā)明可以取代的人為檢查文本之間是否抄襲的傳統(tǒng)判別方式。其優(yōu)點在于,處理的速度快,例如100篇待比較文本,文本長度界于200~2000個漢字,利用一臺普通PC進行判別,本方法所需的時間只要20秒左右。在大文本集的情況下,比起人為判別,其速度優(yōu)勢將會更加明顯。第二,利用本方法判別,其判別結果比較準確,疏漏現(xiàn)象和誤判現(xiàn)象少。另外,人為判別的結果可能受人的主觀因素影響,導致相同的樣本,判別結果的不同。但采用本方法進行判別時,不受人主觀因素影響,可以確保結果的唯一性。


圖1是本發(fā)明的裝置構成的方框圖;圖2是本發(fā)明方法的流程示意圖。
具體實施例方式
下面結合附圖進一步說明本發(fā)明的具體技術方案。
圖1是本發(fā)明的裝置構成的方框圖。如圖1所示,本發(fā)明所述的一種用于中文文本自動分句分詞和抄襲判別的裝置是這樣實現(xiàn)的,所述的裝置包括樣本輸入裝置(1),用于在控制處理裝置(9)的控制下,將中文文本的樣本數(shù)據(jù)輸入到樣本數(shù)據(jù)庫(2)中;樣本數(shù)據(jù)庫(2),用于存儲由樣本輸入裝置(1)輸入的中文文本樣本數(shù)據(jù),并輸出到自動分詞裝置(3)中;自動分詞裝置(3),用于對輸入的中文文本進行自動分句分詞,分詞后的結果存儲到分詞數(shù)據(jù)庫(4)中;
分詞數(shù)據(jù)庫(4),用于保存自動分句分詞裝置處理后的結果,并為預處理裝置(5)提供樣本數(shù)據(jù);預處理裝置(5),用于統(tǒng)計每個詞條在文本中出現(xiàn)的次數(shù),并將結果作為特征詞數(shù)據(jù)保存在特征詞數(shù)據(jù)庫(6)中;特征詞數(shù)據(jù)庫(6),用于保存預處理裝置處理的結果,并為相似判別裝置(7)提供分析數(shù)據(jù);相似判別裝置(7),根據(jù)特征詞數(shù)據(jù)庫提供的數(shù)據(jù),計算兩個文本之間的相似度,根據(jù)相似度與門限值進行比較,如果相似度值大于門限值,判別文本之間存在相互抄襲,否則,判別文本之間不存在互相抄襲;判別結果輸出裝置(8),用于將相似判別裝置(7)中的分析結果輸出,輸出形式為直接顯示在顯示裝置上;控制處理裝置(9),用于對整個分詞和相似判別裝置的控制處理,負責樣本數(shù)據(jù)的讀取操作,分詞,預處理和相似判別結果的分析以及判別結果的輸出。
圖2是本發(fā)明方法的流程示意圖。如圖2所示,所述的一種用于中文文本自動分句分詞和抄襲判別的方法步驟是這樣實現(xiàn)的,所述的方法包括如下步驟輸入中文文本的樣本數(shù)據(jù)到樣本數(shù)據(jù)庫中;對輸入的中文文本的樣本數(shù)據(jù)進行自動分句分詞處理,其結果作為分詞數(shù)據(jù);把文本中的每個詞條作為特征詞,統(tǒng)計特征詞在文本中出現(xiàn)的次數(shù),并把統(tǒng)計結果作為該特征詞對應的權值,處理結果將被作為特征詞數(shù)據(jù)保存在特征詞數(shù)據(jù)庫中;根據(jù)特征詞數(shù)據(jù)計算兩個文本之間的相似度,并將該相似度與門限值進行比較,如果相似度值大于門限值,判別文本之間存在相互抄襲,否則,判別文本之間不存在互相抄襲;輸出判別結果,輸出形式為直接顯示在顯示裝置上。
根據(jù)向量空間模型所作的假設,各個詞語相互之間相互獨立,沒有語義上的關系。因此兩個矢量的相似度可以直接使用它們的夾角的余弦值來表示。所述的文本矢量的相似度可以用他們夾角的余弦值計算如下Sim=cos(v1,v2)=Σi=1p(v1i×v2i)/(Σi=1pv1i2)(Σi=1pv2i2).]]>其中Sim為文本的相似度,v1,v2表示兩個文本的特征矢量,v1i,v2i表示特征矢量的第i個分量。
相似判別時利用sim與門限值的比較進行。Sim高于門限值判別為抄襲,否則,判別為沒有抄襲。
所述的門限值是根據(jù)大量實驗的經(jīng)驗設定的。其值設定為0.7。實驗中取了100篇文本長度在200到2000字之間的樣本,他們中內容包括抄襲和沒有抄襲兩種情況。實驗結果,內容抄襲的文本相似度值都在0.7以上,而沒有抄襲的文本相似度都在0.7以下,因此把0.7作為門限值是合適的。
權利要求
1.一種用于中文文本自動分句分詞和抄襲判別的裝置,所述的裝置包括樣本輸入裝置(1),用于在控制處理裝置(9)的控制下,將中文文本的樣本數(shù)據(jù)輸入到樣本數(shù)據(jù)庫(2)中;樣本數(shù)據(jù)庫(2),用于存儲由樣本輸入裝置(1)輸入的中文文本樣本數(shù)據(jù),并輸出到自動分詞裝置(3)中;自動分詞裝置(3),用于對輸入的中文文本進行自動分句分詞,分詞后的結果存儲到分詞數(shù)據(jù)庫(4)中;分詞數(shù)據(jù)庫(4),用于保存自動分句分詞裝置處理后的結果,并為預處理裝置(5)提供樣本數(shù)據(jù);預處理裝置(5),用于統(tǒng)計每個詞條在文本中出現(xiàn)的次數(shù),并將結果作為特征詞數(shù)據(jù)保存在特征詞數(shù)據(jù)庫中(6)中;特征詞數(shù)據(jù)庫(6),用于保存預處理裝置處理的結果,并為相似判別裝置(7)提供分析數(shù)據(jù);相似判別裝置(7),根據(jù)特征詞數(shù)據(jù)庫提供的數(shù)據(jù),計算兩個文本之間的相似度,根據(jù)相似度與門限值進行比較,如果相似度值大于門限值,判別文本之間存在相互抄襲,否則,判別文本之間不存在互相抄襲;判別結果輸出裝置(8),用于將相似判別裝置(7)中的分析結果輸出,輸出形式為直接顯示在顯示裝置上;控制處理裝置(9),用于對整個分詞和相似判別裝置的控制處理,負責樣本數(shù)據(jù)的讀取操作,分詞,預處理和相似判別結果的分析以及判別結果的輸出。
2.一種用于中文文本自動分句分詞和抄襲判別的方法,其特征在于所述的方法包括如下步驟輸入中文文本的樣本數(shù)據(jù)到樣本數(shù)據(jù)庫中;對輸入的中文文本的樣本數(shù)據(jù)進行自動分句分詞處理,其結果作為分詞數(shù)據(jù);統(tǒng)計每個詞條在文本中出現(xiàn)的次數(shù),并將結果作為特征詞數(shù)據(jù)保存在特征詞數(shù)據(jù)庫中;根據(jù)特征詞數(shù)據(jù)計算兩個文本之間的相似度,并將該相似度與門限值進行比較,如果相似度值大于門限值,判別文本之間存在相互抄襲,否則,判別文本之間不存在互相抄襲;輸出判別結果,輸出形式為直接顯示在顯示裝置上。
3.根據(jù)權利要求2所述的方法,其特征在于所述的文本的相似度用以下方法計算Sim=cos(v1,v2)=Σi=1p(v1i×v2i)/(Σi=1pv1i2)(Σi=1pv2i2).]]>其中Sim為文本的相似度,v1,v2表示兩個文本的特征矢量,v1i,v2i表示特征矢量的第i個分量。
4.根據(jù)權利要求3所述的方法,其特征在于所述的門限值是根據(jù)大量實驗的經(jīng)驗設定的,其值設定為0.7,相似判別時利用sim與門限值的比較進行,Sim高于門限值判別為抄襲,否則,判別為沒有抄襲。
全文摘要
本發(fā)明公開了一種用于中文文本自動分詞和判別文本抄襲的裝置和方法,所述的裝置包括樣本輸入裝置、樣本數(shù)據(jù)庫、自動分句分詞裝置、分詞數(shù)據(jù)庫、預處理裝置、特征詞數(shù)據(jù)庫、相似判別裝置、判別結果輸出裝置和控制處理裝置。所述的方法是首先對中文文本進行自動分詞,然后通過計算它們的相似度,達到判別文本是否存在抄襲的成分的目的。本發(fā)明的裝置和方法思路簡捷,能夠實現(xiàn)中文文本抄襲的自動判別,判別結果準確,有效提高工作效率,減少人為的勞動量。
文檔編號G06F17/21GK1529263SQ0315718
公開日2004年9月15日 申請日期2003年9月18日 優(yōu)先權日2003年9月18日
發(fā)明者張斯 , 張斯喆, 肖波, 藺志青, 郭軍 申請人:北京郵電大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南和县| 天门市| 临泉县| 柞水县| 卓尼县| 洞头县| 会理县| 嵊泗县| 慈溪市| 建水县| 日喀则市| 屏南县| 巴塘县| 石渠县| 广水市| 合肥市| 东丰县| 大埔区| 万源市| 土默特左旗| 邢台县| 益阳市| 安顺市| 元氏县| 郧西县| 峨边| 九江县| 孝昌县| 义乌市| 金寨县| 钟祥市| 信丰县| 贡嘎县| 罗江县| 平果县| 扬州市| 竹山县| 南汇区| 武乡县| 杨浦区| 银川市|