本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于遺傳算法與最近鄰算法的案件檢索方法。
背景技術(shù):
法院作為案件審理的主體,在多年的工作中已經(jīng)積累了大量豐富的成功經(jīng)驗,并以數(shù)字化的形式保存了大量案件情報信息。同時,隨著計算機技術(shù)應(yīng)用的逐步深入,對這些信息的管理和應(yīng)用策略也日漸成熟,特別是在各種管理信息系統(tǒng)投入應(yīng)用后,對案件情報信息的應(yīng)用力度和管理能力已經(jīng)大大提高。
在歷史案件信息的綜合挖掘利用方面,部分發(fā)達國家早在上世紀80年代后期就開始了研究。他們依靠其先進的計算機技術(shù)的發(fā)展,利用計算機系統(tǒng)強大的數(shù)據(jù)處理與數(shù)據(jù)分析能力,把案件處理工作中獲取的各類信息進行統(tǒng)一而規(guī)范的管理,以人工智能(如機器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、決策樹、案例推理等)的方法進行數(shù)據(jù)的綜合挖掘與綜合利用,從而得出相對可靠的、具有預(yù)警功能的情報信息或方案建議,以利于決策并指導(dǎo)行動。具有代表性的有英國情報核心分析系統(tǒng)(icas)、美國比較數(shù)據(jù)系統(tǒng)(compstat)、加拿大自動化犯罪情報信息系統(tǒng)(aciis)、澳大利亞執(zhí)法情報網(wǎng)絡(luò)(alein)以及我國香港的警隊刑事情報信息系統(tǒng)(fcis)等。
我國司法部門從上個世紀90年代后期開始跟蹤有關(guān)技術(shù)的發(fā)展,經(jīng)過幾年的積累,目前已經(jīng)對本課題的基本研究方向有了一定的認識。當(dāng)前,全國公安系統(tǒng)正在深入開展的“金盾工程”和公安信息化建設(shè)的逐步深入,給我們提供了十分難得的發(fā)展機遇。人們已經(jīng)逐漸認識到了數(shù)據(jù)的重要價值,并努力建設(shè)相應(yīng)的應(yīng)用系統(tǒng)來發(fā)揮數(shù)據(jù)的巨大效力。有關(guān)部門在此基礎(chǔ)上提出了打造“案偵信息化”的發(fā)展思路。通過引入信息化的思想,把常規(guī)的案件偵察流程信息化,融入信息化,應(yīng)用信息化來輔助辦案。刑偵部門在這方面的探索與發(fā)展已處于國內(nèi)公安領(lǐng)域的前列,陸續(xù)建設(shè)了“刑事案件串并案系統(tǒng)”、“xx數(shù)據(jù)專家分析系統(tǒng)”、“公安指揮決策支持系統(tǒng)”等綜合分析挖掘系統(tǒng)。但是,在綜合利用數(shù)據(jù)挖掘和案例推理技術(shù)來輔助案件偵察的研究方面還十分欠缺,目前還沒有開發(fā)出成功的系統(tǒng),很多冠以“xx挖掘”的系統(tǒng),僅僅是傳統(tǒng)的查詢、統(tǒng)計方法的綜合運用罷了。并且,公安各警種相互間由于競爭而存在嚴重的技術(shù)壁壘,高新技術(shù)的產(chǎn)品及應(yīng)用系統(tǒng)往往對其他警種實施技術(shù)封鎖,使得各警種在新技術(shù)應(yīng)用水平上參差不齊,在一定程度上也阻礙了先進技術(shù)在公安案偵領(lǐng)域的應(yīng)用。
另一方面,人們雖然逐漸習(xí)慣了案件情報數(shù)字化的使用方式,而且也產(chǎn)生了明顯的實際效果。但是,法院對這些數(shù)據(jù)的應(yīng)用還僅僅停留在簡單的查詢、統(tǒng)計、數(shù)據(jù)交換上,無法提供深層次的輔助決策支持服務(wù)。各部門在建設(shè)信息化應(yīng)用系統(tǒng)時,一開始對于系統(tǒng)的長期目標規(guī)劃一般就是滿足信息的常規(guī)應(yīng)用,信息采集入庫往往是重點,缺乏深層次的綜合分析利用的規(guī)劃。而隨著時代發(fā)展,各類民事和刑事案件也是復(fù)雜紛繁,案件審理活動由人力密集型方式向信息密集型方式演進,信息對案件審理的導(dǎo)向作用越來越明顯。這些歷史數(shù)據(jù)是大量的細節(jié)數(shù)據(jù),提供了大量的事實和過程描述,缺乏深入的綜合分析與挖掘利用實在可惜。因此為了發(fā)揮這些海量數(shù)據(jù)的價值,必須借助案例推理系統(tǒng)及大數(shù)據(jù)分析等相關(guān)技術(shù)。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是,提供一種基于遺傳算法與最近鄰算法的案件檢索方法。
為實現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于遺傳算法與最近鄰算法的案件檢索方法包括以下步驟:
步驟s1、將刑事案例數(shù)據(jù)科學(xué)有效地以向量形式表述并存儲;
步驟s2、使用基于ga-knn方法算法建立的模型進行推理;
步驟s3、通過海量刑事案例數(shù)據(jù)的增刪改查模塊,為用戶存取數(shù)據(jù)提供操作接口;
步驟s4、利用神經(jīng)網(wǎng)絡(luò)進行建模,預(yù)測出法官判決的結(jié)果。
作為優(yōu)選,步驟s1具體包括:
在經(jīng)過預(yù)處理后產(chǎn)生可供機器學(xué)習(xí)使用的向量化的數(shù)據(jù);
在每次計算參數(shù)以及檢索相似案例時被多次讀取向量形式的數(shù)據(jù)。
作為優(yōu)選,步驟s2具體包括:
初始化權(quán)重種群,及產(chǎn)生大量的與刑事案例屬性對應(yīng)的權(quán)重;
使用改進的相似算法從案例庫中搜索出相似案例,即在測試數(shù)據(jù)庫中尋找相似案例,進行推理時檢索算法采用最常用的k-nn鄰近算法;
為每個染色體計算適應(yīng)性函數(shù),并進行遺傳算法的進化操作;
根據(jù)適應(yīng)性函數(shù)的具體函數(shù)值評估結(jié)果。
作為優(yōu)選,步驟s3具體包括:
對法律文書等資料的批量增加、對法律文書等資料的批量刪除、對錄入有誤數(shù)據(jù)的修改以及對特定相關(guān)案例的查詢;
海量數(shù)據(jù)的增刪改查技術(shù)必須確保對用戶操作及函數(shù)調(diào)用的及時響應(yīng);
確保數(shù)據(jù)在儲存、讀取及修改時的可靠性。
作為優(yōu)選,步驟s4具體包括:
根據(jù)以往的案例訓(xùn)練神經(jīng)網(wǎng)絡(luò),對案例判決過程建立起模型;
將待檢檢索案例輸入到神經(jīng)網(wǎng)絡(luò)后能夠輸出對判決的預(yù)測結(jié)果。
本發(fā)明具有以下特點:
(1)目前有諸多關(guān)于案件推理相關(guān)研究,但是以大數(shù)據(jù)管理和分析為基礎(chǔ)的案件推理系統(tǒng)還鮮有研究和討論,本發(fā)明研究基于遺傳算法與最近鄰算法的案件的智能分析及推理,研究內(nèi)容具有新穎性。
(2)本發(fā)明從案件的向量及過往因循案例出發(fā),實現(xiàn)案件智能分析及證據(jù)關(guān)聯(lián),有助于減輕法官的工作量,研究具有工程前瞻性。
(3)考慮到案件審理的具有一定的主觀性,同時當(dāng)前對案件的處理依然不能擺脫人工密集型的特點,本發(fā)明將基于遺傳算法與最近鄰算法的推理系統(tǒng)應(yīng)用到案件審理過程中,可以有效保障案件審理的客觀性;同時輔助決策系統(tǒng)可以有效保障案件審理的公平,提高審案效率,具有理論創(chuàng)新和應(yīng)用創(chuàng)新的價值。
附圖說明
圖1為本發(fā)明的基于遺傳算法與最近鄰算法的案件檢索方法的流程示意圖。
具體實施方式
將案例的特征與法律領(lǐng)域本體案例庫中的本體信息進行比較、匹配,通過本體解析,在法律條例本體案例庫中找到與案例的特征相似的相關(guān)法條,并提取法條及相關(guān)審判推薦,整體架構(gòu)如圖1所示。
以法院案件審理過程中重要的證據(jù)及因循案例海量數(shù)據(jù)為基礎(chǔ)的刑事案件和民事案件判決書文檔集。
把這些文檔存儲于本地或網(wǎng)絡(luò)的數(shù)據(jù)庫或根目錄下的子文件夾下。
對刑事案例進行建模,歸納案例特征:
共計39類案例特征,涵蓋了犯罪行為的起因、經(jīng)過、事后行為3方面語義。
根據(jù)刑事屬性的專家解析,我們擬將案例屬性確定為這39個指標。
將每個具體案例中的關(guān)鍵詞抽取出來,并用標量來描述每個屬性。
將所判刑罰類型歸納為如下7類:
e1:三年以下有期徒刑e5:十年以上有期徒刑
e2:三年以下拘役e6:無期徒刑
e3:三年以下管制e7:死刑
e4:三年以上十年以下有期徒刑
將事件起因可能的特征值總結(jié)如表1所示,表中第一行為一級特征;
第二行為對一級特征的特征值的進一步分類,使在表述某一案例時,各二級特征有且只有一個特征值;
第三行為各類中可能的特征值;
規(guī)范特征值的目的是為了便于使用決策樹、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法,為各非二值特征屬性的特征值賦予符號標識(如表中的a1至a9),二值特征屬性的特征值規(guī)范為0或1。
表一
將先施暴方可能的特征值總結(jié)如表2所示;
表二
將施暴方式可能的特征值總結(jié)如表3所示;
表三
在總結(jié)作案工具的特征值時,對多個可能的特征值進行歸納總結(jié),總結(jié)為如表4所示的若干二級特征值,及其規(guī)范化后的特征值。
特別地,在實際案例中,有混合使用多種作案工具的情況。
表四
將襲擊部位可能的特征值總結(jié)如表5所示;
表五
最后,將這些標量組成描述該法律案例的一個語義向量:
手工進行提取案例特征并進行以案例特征單值化為目的的預(yù)處理,即根據(jù)專家經(jīng)驗判斷案件是否滿足表1到表5描述的特征。
如果滿足某個特征則將在向量中對應(yīng)該特征的元素置為1,否則置為0。
根據(jù)專家經(jīng)驗將這些案件分類,并為每個向量增加一個元素,用于存儲類別編號。
將這些向量化的數(shù)據(jù)存儲于本地或網(wǎng)絡(luò)的數(shù)據(jù)庫或根目錄下的子文件夾下,以方便多次使用。
以故意傷害罪的法條為例,將判決結(jié)果(即預(yù)測結(jié)果)分為刑、期、緩等3部分,刑即為刑法類型,期即為具體刑期,緩即為緩刑期。
首先,分析了以案例庫為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù),根據(jù)刑事案件信息離散性和決策過程的非線性特點,提出并論證了決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的綜合應(yīng)用模式,使法規(guī)與案例在決策推理中進行結(jié)合;
其次,利用ga-knn方法,形成各類型案件特征對應(yīng)的權(quán)重;
第一步,初始化:
把每個案件特征的權(quán)重組成的向量視為遺傳算法中的個體,由這些個體組成一個種群;
選定二進制編碼,隨機產(chǎn)生初始種群;
每組權(quán)重表示成二進制碼串(對個體采用0-1串行編碼方式),具體形式為
xi=(x1,x2,..,xl),{0,1};
其中l(wèi)為個體的長度,為基因位。通常情況下,隨機選擇0或1來確定;
第二步,把現(xiàn)有數(shù)據(jù)分成兩個集合:訓(xùn)練集和測試集:
隨機抽取10%的數(shù)據(jù)作為測試集,其余作為訓(xùn)練集。
第三步,執(zhí)行最近鄰(knn)算法:
把全體數(shù)據(jù)的每個屬性分別乘以它們的權(quán)重;
利用加權(quán)后的屬性計算測試集中的每個樣本與訓(xùn)練集中的樣本的距離:
對于案例庫p={x1,x2......xn}中的任意的兩個案例,xi=(xi1,xi2,..,xil)和xj=(xj1,xj2…,xjt),有
對于案例庫中的任意兩個個體xi,xj,定義
sij=(l-dij)/l
其中l(wèi)為個體的長度,稱sij為第i個體與第j個體之間的相似度。
對于測試集中的每個案例,都能確定與之最近的k個案例,把這k個案例成為它的“鄰居”;
對于測試集中的一個案例,將包含它的“鄰居”最多的類別確定為它的類別;
第四步,確定適應(yīng)度函數(shù):
根據(jù)目標要求確定適應(yīng)度函數(shù)為
其中i是種群中的個體的索引,也可以理解為不同的加權(quán)方案的編號,testi(wrong)表示采用第i種加權(quán)方式時,利用上一步描述的knn方法來分類時,被分類錯誤的測試數(shù)據(jù)的集合,||表示集合的勢。
第五步,用遺傳算子對個體進行操作,按適應(yīng)值的大小,從種群中選出適應(yīng)值較大的一些個體進行選擇、交叉、變異操作,形成新一代的種群:
通常情況下,隨機選擇0或1來確定交叉的位置,從而得到x1,x2,..,xl構(gòu)成個體x上隨機選擇某位,然后以此點為界將其分為左右部分,根據(jù)設(shè)定的交叉概率大小決定是否將兩組權(quán)重的左右部分互相交換,交叉后會形成兩組新的權(quán)重。
變異即為了提高遺傳算法的全局搜索能力,還需要執(zhí)行變異操作;
從交叉后的每組權(quán)重中,隨機選取某位,根據(jù)設(shè)定的變異概率大小決定是否將該位取反,若滿足取反條件,則產(chǎn)生新的權(quán)重分布。
第六步,反復(fù)執(zhí)行步驟二到五,直至滿足收斂判斷為止。
利用ga-knn算法確定案例權(quán)重之后進入決策階段。
使用神經(jīng)網(wǎng)絡(luò),建立案件關(guān)鍵特征與刑事判決類型之間的推理規(guī)則—神經(jīng)網(wǎng)絡(luò)模型,主要用于分類預(yù)測,就是通過向可靠的歷史數(shù)據(jù)學(xué)習(xí),使模型具備對未來新數(shù)據(jù)或新案例進行分類預(yù)測的能力。
這里有學(xué)習(xí)的指導(dǎo)是指數(shù)據(jù)除包含作為輸入角色的變量外,一定還包含作為輸出角色的輸出變量,且輸出變量的取值在現(xiàn)有數(shù)據(jù)上是已知的。
這里的輸入數(shù)據(jù)是指上一步ga-knn算法計算得到的量刑決策問題使用的按刑罰類型分類的相似案例庫,其中的案例即包括量刑決策的輸入條件,比如案情,同時也包括案例的判決結(jié)果。
以這些數(shù)據(jù)指導(dǎo)著模型的學(xué)習(xí),使模型能夠理解怎樣的輸入變量取值或組合,能得到怎樣的分類結(jié)果。
通過把輸入數(shù)據(jù)不斷輸入到神經(jīng)網(wǎng)絡(luò),并且比較網(wǎng)絡(luò)的輸出與期望的輸出(案件的正確分類),我們利用隨機梯度下降法將這個差異反饋給網(wǎng)絡(luò)并調(diào)整網(wǎng)絡(luò)參數(shù)。
參數(shù)的調(diào)整幅度為wij(t+1)=wij(t)+α(di-yi)xj(t)
其中wij表示神經(jīng)元j到神經(jīng)元i的連接權(quán),di是神經(jīng)元i的期望輸出,yi是神經(jīng)元i的實際輸出,xj表示神經(jīng)元j狀態(tài),若神經(jīng)元j處于激活態(tài)則xj為1,若處于抑制狀態(tài)則xj為0或-1(根據(jù)激活函數(shù)而定);a是表示學(xué)習(xí)速度的常數(shù)。
基于遺傳算法與最近鄰算法的案件推理系統(tǒng)是一個自學(xué)習(xí)、自適應(yīng)的系統(tǒng),它將在問題求解過程中獲得的知識以新案例的形式加入到案例庫中,完成自學(xué)習(xí)功能。
當(dāng)新輸入的問題通過基于遺傳算法與最近鄰算法的案件推理系統(tǒng)解決以后,則形成了一個完整的新案例,由于它可能用于將來情形與之相似的問題,所以有必要把它加入到案例庫中。
隨著新案例的不斷加入,基于遺傳算法與最近鄰算法的案件推理系統(tǒng)將變得更加有用。這是學(xué)習(xí)也是知識獲取。
本發(fā)明的基于遺傳算法與最近鄰算法的案件檢索方法,借鑒國內(nèi)外相關(guān)研究成果,以智能決策理論、信息抽取理論、大數(shù)據(jù)思想為依托,總結(jié)出大數(shù)據(jù)背景下的智能決策研究的總體思路和關(guān)鍵技術(shù),建立基于規(guī)則和案例推理集成的刑事案件智能決策輔助系統(tǒng)的研究框架。依據(jù)研究框架,重點研究了刑事案件本體設(shè)計與建立,基于本體的刑事案例信息抽取,規(guī)則和案例推理集成決策模型和刑事案件量刑決策系統(tǒng)原型設(shè)計。
將案例的特征與法律領(lǐng)域本體案例庫中的本體信息進行比較、匹配,通過本體解析,在法律條例本體案例庫中找到與案例的特征相似的相關(guān)法條,并提取法條及相關(guān)審判推薦。通過與法律案例本體案例庫中的特征匹配,找到與案例相關(guān)的歷史案例,并提取審判結(jié)果。針對刑事案例多屬性、多要素特點,通過比較提出和論證了對于多屬性、多案例、多要素背景下,基于遺傳算法的刑事案例屬性優(yōu)化方法,運用ga-knn方法的結(jié)合,實現(xiàn)了多案例、多屬性、多要素司法案例推理中的案例檢索的可靠性與高精度,解決了支持刑事案件量刑決策可靠案例的關(guān)鍵技術(shù)問題。提高了司法案例檢索的精度和可靠性,拓展了多類型、多屬性案例的檢索與屬性優(yōu)化方法。