專利名稱:一種評(píng)估網(wǎng)上用戶信用的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)評(píng)估領(lǐng)域,特別是涉及一種評(píng)估網(wǎng)上用戶信用的方法及系統(tǒng)。
背景技術(shù):
目前在網(wǎng)上交易系統(tǒng)中,由于用戶在交易過(guò)程中,不知道交易對(duì)方的真實(shí) 目的,因此經(jīng)常存在一些欺詐和不誠(chéng)信的問(wèn)題。而且,網(wǎng)上交易欺詐行為越來(lái) 越多,欺詐手段也來(lái)越來(lái)越高明,很難從一些表面現(xiàn)象看透交易的真實(shí)性。
現(xiàn)有的大多數(shù)網(wǎng)站評(píng)估用戶信用的方法是把注冊(cè)時(shí)間、交易量和用戶評(píng) 價(jià)等指標(biāo)通過(guò)簡(jiǎn)單的加權(quán)處理,得到一個(gè)簡(jiǎn)單而又不能真實(shí)反映網(wǎng)上用戶的信 用現(xiàn)狀。
這種評(píng)估網(wǎng)上信用的技術(shù)手段由于比較簡(jiǎn)單,很難識(shí)破一些不真實(shí)的、故 意炒作的交易,因此一些不法分子充分利用這些漏洞進(jìn)行網(wǎng)上欺詐。例如,通 過(guò)相互轉(zhuǎn)賬來(lái)提高自己的總交易量,通過(guò)兩個(gè)賬戶相互好評(píng)等種種不誠(chéng)信的手 段來(lái)提高自己的偽信用,交易對(duì)象可以在很短的時(shí)間內(nèi)提高自己的級(jí)別或假信 用,從而給其他客戶提供一種虛假的信息。這種不真實(shí)的信用評(píng)價(jià),給交易對(duì) 方帶來(lái)不可估量的損失。
如何解決互聯(lián)網(wǎng)上交易雙方的誠(chéng)信問(wèn)題,即客戶在交易之間就能看到對(duì)方 的真實(shí)信用狀況,同時(shí)也能達(dá)成網(wǎng)上交易,成為第三方互聯(lián)網(wǎng)(如網(wǎng)站)支付 亟待解決的問(wèn)題。同時(shí)隨著互聯(lián)網(wǎng)的高速發(fā)展,也需要建設(shè)一個(gè)誠(chéng)信安全、和 諧的交易環(huán)境。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種評(píng)估網(wǎng)上用戶信用的方法及系統(tǒng), 以解決網(wǎng)上交易誠(chéng)信的問(wèn)題,從而減少不誠(chéng)信給用戶造成的損失。
為解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開(kāi)了以下 技術(shù)方案
一種評(píng)估網(wǎng)上用戶信用的方法,包括從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù); 將所述網(wǎng)上行為數(shù)據(jù)進(jìn)行ETL處理,并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù); 分析確定影響信用評(píng)估的因素,然后從數(shù)據(jù)倉(cāng)庫(kù)獲取影響因素?cái)?shù)據(jù); 利用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估模型; 利用所述模型計(jì)算用戶的信用得分。
所述方法還包括數(shù)據(jù)倉(cāng)庫(kù)的調(diào)整步驟如果數(shù)據(jù)倉(cāng)庫(kù)中沒(méi)有對(duì)應(yīng)影響因素 的數(shù)據(jù),或者數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不符合要求,則重新對(duì)網(wǎng)上行為數(shù)據(jù)進(jìn)行ETL 處理,并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)。
其中,所述影響因素包括網(wǎng)站點(diǎn)擊行為、用戶交易數(shù)據(jù)及行為、資金變動(dòng) 數(shù)據(jù)及行為。
優(yōu)選的,所述信用評(píng)估才莫型采用C5.0決策樹(shù)和LOGISTIC回歸相結(jié)合的 組合模型,對(duì)每個(gè)用戶分別采用C5.0決策樹(shù)和LOGISTIC回歸進(jìn)行分析計(jì)算, 然后根據(jù)兩者結(jié)果進(jìn)行加權(quán)處理,求出加權(quán)綜合評(píng)分。
所述方法還包括根據(jù)用戶的歷史信用記錄,生成信用變化趨勢(shì)圖,并顯示。
一種評(píng)估網(wǎng)上用戶信用的系統(tǒng),包括
數(shù)據(jù)收集單元,用于從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù),并進(jìn) 行ETL處理,然后進(jìn)行存儲(chǔ);
模型建立單元,用于分析確定影響信用評(píng)估的因素,然后從數(shù)據(jù)收集單元 獲取影響因素?cái)?shù)據(jù);利用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估-漠型;
信用評(píng)估單元,用于利用所述模型計(jì)算用戶的信用得分。
所述系統(tǒng)還包括建模分析單元,用于對(duì)影響因素?cái)?shù)據(jù)進(jìn)行初步分析,刪 除對(duì)建模無(wú)用的變量。
所述系統(tǒng)還包括業(yè)務(wù)調(diào)用單元,用于調(diào)用用戶的歷史信用記錄,生成信 用變化趨勢(shì)圖,并顯示。
優(yōu)選的,所述信用評(píng)估模型采用C5.0決策樹(shù)和LOGISTIC回歸相結(jié)合的 組合^f莫型,信用評(píng)估單元對(duì)每個(gè)用戶分別釆用C5.0決策樹(shù)和LOGISTIC回歸 進(jìn)行分析計(jì)算,然后才艮據(jù)兩者結(jié)果進(jìn)行加權(quán)處理,求出加權(quán)綜合評(píng)分。
其中,所述影響因素包括網(wǎng)站點(diǎn)擊行為、用戶交易數(shù)據(jù)及行為、資金變動(dòng)數(shù)據(jù)及行為。
根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開(kāi)了以下技術(shù)效果 本發(fā)明實(shí)施例充分利用用戶在網(wǎng)上的點(diǎn)擊行為數(shù)據(jù)、歷史交易數(shù)據(jù)、資金 變動(dòng)數(shù)據(jù)等網(wǎng)上行為數(shù)據(jù),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的ETL( Extract—數(shù)據(jù)抽取,Transform 一數(shù)據(jù)轉(zhuǎn)換,Load—數(shù)據(jù)裝載)過(guò)程從各業(yè)務(wù)系統(tǒng)收集數(shù)據(jù),然后利用C5.0 決策樹(shù)和LOGISTIC回歸相結(jié)合的組合模型等數(shù)據(jù)挖掘技術(shù),建立了 一套客觀 的信用評(píng)估體系,大大改進(jìn)了目前的網(wǎng)上信用評(píng)估方法,解決了網(wǎng)上交易的誠(chéng) 信問(wèn)題,最大P艮度地減少了交易的風(fēng)險(xiǎn)性。
所述信用評(píng)估體系能夠更加客觀地評(píng)估用戶的網(wǎng)上信用度,因?yàn)樵擉w系進(jìn) 行評(píng)估的數(shù)據(jù)來(lái)自于網(wǎng)站記錄的各種用戶行為數(shù)據(jù),這些數(shù)據(jù)是用戶在網(wǎng)上進(jìn) 行交易時(shí)產(chǎn)生的數(shù)據(jù),用戶無(wú)法隨意修改,所以能夠客觀、真實(shí)地反映用戶的 信用度。因此,利用這些客觀數(shù)據(jù)建立的評(píng)估模型和計(jì)算得到的信用得分也更 加客觀、真實(shí)。
而且,本發(fā)明實(shí)施例中建立的信用評(píng)估模型采用的是組合模型的方式,即 同時(shí)采用C5.0決策樹(shù)和LOGISTIC回歸模型,進(jìn)行信用評(píng)估時(shí),對(duì)每個(gè)用戶 分別采用C5.0決策樹(shù)和LOGISTIC回歸進(jìn)行分析計(jì)算,然后根據(jù)兩者結(jié)果進(jìn) 行加權(quán)處理,求出加權(quán)綜合評(píng)分,這樣得出來(lái)的信用分值就是兩種方法的綜合 加權(quán)處理得分,從而減少了采用一種方式評(píng)分的誤差。
圖1是本發(fā)明實(shí)施例所述一種評(píng)估網(wǎng)上用戶信用的步驟流程圖; 圖2是本發(fā)明優(yōu)選實(shí)施例所述進(jìn)行網(wǎng)上信用評(píng)估的方法流程圖; 圖3是本發(fā)明實(shí)施例所述一種評(píng)估網(wǎng)上用戶信用的系統(tǒng)結(jié)構(gòu)框圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
為解決目前網(wǎng)上交易日益突出的誠(chéng)信問(wèn)題,本發(fā)明實(shí)施例提供了一種信用 評(píng)估方法,該方法充分利用用戶在網(wǎng)上的行為屬性、交易屬性、資金變動(dòng)等影 響用戶信用的指標(biāo),通過(guò)C5.0決策樹(shù)和LOGISTIC回歸組合模型等數(shù)據(jù)挖掘技術(shù),計(jì)算和評(píng)估網(wǎng)上用戶的信用。
參照?qǐng)D1,是本發(fā)明實(shí)施例所述一種評(píng)估網(wǎng)上用戶信用的步驟流程圖。
步驟101,從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù),并進(jìn)行ETL 處理,然后存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)。
網(wǎng)上行為數(shù)據(jù)是指用戶登錄網(wǎng)站、瀏覽網(wǎng)頁(yè)、通過(guò)網(wǎng)絡(luò)進(jìn)行交易等各種網(wǎng) 上操作的詳細(xì)數(shù)據(jù)記錄,例如用戶點(diǎn)擊網(wǎng)頁(yè)的行為、點(diǎn)擊交易控件的行為,等 等信息,網(wǎng)站后臺(tái)系統(tǒng)都會(huì)記錄下來(lái)。在實(shí)際應(yīng)用中,網(wǎng)站后臺(tái)可能由幾個(gè)業(yè) 務(wù)處理系統(tǒng)分別負(fù)責(zé)不同的業(yè)務(wù)功能,因此收集大量的原始數(shù)據(jù)時(shí)就需要從各 業(yè)務(wù)系統(tǒng)獲取相應(yīng)數(shù)據(jù)。
針對(duì)實(shí)際應(yīng)用中大量的網(wǎng)上行為數(shù)據(jù)需要處理,本實(shí)施例采用數(shù)據(jù)倉(cāng)庫(kù)的 方式,利用ETL過(guò)程對(duì)各業(yè)務(wù)系統(tǒng)中的網(wǎng)上行為數(shù)據(jù)進(jìn)行抽取并進(jìn)行清洗和 轉(zhuǎn)化,然后建立一張以用戶為中心的包含多個(gè)屬性的大表存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù),以 便后續(xù)的建模分析使用。上述數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)相對(duì)穩(wěn)定的、反映歷史變化的數(shù) 據(jù)集合,用于支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)的ETL過(guò)程是指數(shù)據(jù)抽取(Extract)、 轉(zhuǎn)換(Transform),裝載(Load)的過(guò)程。其中,所述數(shù)據(jù)抽取指從源系統(tǒng)中 提取數(shù)據(jù);所述數(shù)據(jù)轉(zhuǎn)換指開(kāi)發(fā)者將提取的數(shù)據(jù),按照業(yè)務(wù)需要轉(zhuǎn)換為目標(biāo)數(shù) 據(jù)結(jié)構(gòu),并實(shí)現(xiàn)匯總;所述數(shù)據(jù)裝載指加載經(jīng)轉(zhuǎn)換和匯總的數(shù)據(jù)到目標(biāo)it據(jù)倉(cāng) 庫(kù)中。
步驟102,通過(guò)窮舉方式分析確定可能影響信用評(píng)估的因素,然后從數(shù)據(jù) 倉(cāng)庫(kù)獲取影響因素?cái)?shù)據(jù)。
本實(shí)施例中,進(jìn)行信用評(píng)估的數(shù)據(jù)都來(lái)源于用戶的網(wǎng)上行為數(shù)據(jù),在網(wǎng)上 交易的應(yīng)用中,影響因素主要包括網(wǎng)站點(diǎn)擊行為、用戶交易數(shù)據(jù)及行為、資金 變動(dòng)數(shù)據(jù)及行為這三個(gè)方面。當(dāng)然,本實(shí)施例也不限定其他能夠影響信用評(píng)估 的網(wǎng)上因素。
所述網(wǎng)站點(diǎn)擊行為主要包括頁(yè)面停留時(shí)間、點(diǎn)擊網(wǎng)頁(yè)的路徑,是否異地登 錄,訪問(wèn)頁(yè)面的MAC (Media Access Control,介質(zhì)訪問(wèn)控制)地址等。所述 用戶交易數(shù)據(jù)及行為主要包括創(chuàng)建交易的時(shí)間、數(shù)量、金額、商品類型、交易 雙方的MAC變化,付款的時(shí)間、數(shù)量、金額、MAC變化,是否確認(rèn)收貨、 是否延遲發(fā)貨、有無(wú)發(fā)生交易糾紛等等,以及這些指標(biāo)隨著時(shí)間的變化情況。所述資金變動(dòng)數(shù)據(jù)及行為主要包括資金來(lái)源、大小、變化方向、去處,以及資 金在第三方支付系統(tǒng)(例如支付寶)的停留時(shí)間,以及這些資金隨時(shí)間變化的 變動(dòng)情況等。
上述影響因素是通過(guò)客觀地分析進(jìn)行大量窮舉,并參照業(yè)務(wù)專家、建模專 家等相關(guān)專業(yè)意見(jiàn)而初步確定下來(lái)的,這些因素對(duì)于信用評(píng)估的影響比較突 出。
確定可能的影響因素后,從數(shù)據(jù)倉(cāng)庫(kù)中獲取對(duì)應(yīng)影響因素的網(wǎng)上行為數(shù) 據(jù)。在實(shí)際應(yīng)用中,由于影響因素的調(diào)整或其他原因,最初的數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有 存儲(chǔ)信用評(píng)估需要的數(shù)據(jù),即沒(méi)有對(duì)應(yīng)影響因素的網(wǎng)上行為數(shù)據(jù),或者原始存 儲(chǔ)的影響因素?cái)?shù)據(jù)不符合建模要求。例如,通過(guò)分析重新確定出一個(gè)影響因素 是"用戶在頁(yè)面的停留時(shí)間",如果原來(lái)的數(shù)據(jù)倉(cāng)庫(kù)中并沒(méi)有這個(gè)字段的數(shù)據(jù),
這時(shí),就需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行調(diào)整,即重新對(duì)原始網(wǎng)上行為數(shù)據(jù)進(jìn)行ETL處 理,得到符合建模要求的影響因素?cái)?shù)據(jù)。
優(yōu)選步驟103,對(duì)獲取到的影響因素?cái)?shù)據(jù)進(jìn)行初步的數(shù)據(jù)分析。
本步驟是對(duì)建模數(shù)據(jù)的預(yù)處理,主要是把大量的影響因素?cái)?shù)據(jù)轉(zhuǎn)化為模型 變量,并查看每個(gè)變量的分布、缺失值和缺失值替換,以及與結(jié)果變量之間的 關(guān)系和對(duì)結(jié)果變量的影響強(qiáng)度,初步刪除一些無(wú)用的變量。其中,上述列舉的 三個(gè)影響因素中包含的每個(gè)具體因素都可作為變量,這些變量影響著信用評(píng)估 的結(jié)果;結(jié)果變量是可用于評(píng)價(jià)信用的變量。
步驟104,利用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估模型。
信用評(píng)估模型是一種通過(guò)數(shù)據(jù)挖掘技術(shù)建立起來(lái)的評(píng)估框架,本實(shí)施例采 用CRISP—DM的數(shù)據(jù)挖掘方法論,CRISP-DM分成如下六個(gè)迭代的階,殳業(yè) 務(wù)理解(Business Understanding ),數(shù)據(jù)理解(Data Understanding),數(shù)據(jù)準(zhǔn)備(Data Preparation),挖掘建模(Modeling),模型評(píng)估(Evaluation),模型部署 (Deployment)。當(dāng)然,本發(fā)明并不限定采用其他可行的數(shù)據(jù)挖掘算法。。
模型建立的過(guò)程是對(duì)樣本數(shù)據(jù)進(jìn)行分組(一般為2組), 一組數(shù)據(jù)用來(lái)建 立各種各樣的模型,另一組數(shù)據(jù)用來(lái)測(cè)試各種模型的效果,如果測(cè)試效果不符 合評(píng)估要求,則需要重新建立模型或調(diào)整模型。具體過(guò)程包括首先是抽樣建 立初步模型,例如隨機(jī)抽取1%的用戶數(shù)據(jù)來(lái)建立模型;進(jìn)行模型變量的轉(zhuǎn)化與清洗等處理;然后模型采用數(shù)據(jù)挖掘算法,將各種影響因素作為自變量,并 將抽樣用戶數(shù)據(jù)輸入模型計(jì)算,得到抽樣計(jì)算結(jié)果;然后利用測(cè)試數(shù)據(jù)測(cè)試模 型的評(píng)估準(zhǔn)確率等各項(xiàng)指標(biāo),并不斷調(diào)整模型的各項(xiàng)變量或參數(shù)設(shè)置,最終得 到 一個(gè)符合評(píng)估要求的模型。
本實(shí)施例中,主要采用C5.0決策樹(shù)和LOGISTIC回歸相結(jié)合的組合模型 來(lái)計(jì)算用戶信用得分。決策樹(shù)是一種用于數(shù)據(jù)分析和作預(yù)測(cè)的技術(shù),本^t型采 用的算法是C5.0,建立決策樹(shù)的過(guò)程,即樹(shù)的生長(zhǎng)過(guò)程是不斷地把數(shù)據(jù)進(jìn)行 切分的過(guò)程,每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn),對(duì)每次切分都要求 分成的組之間的"差異"最大,決策樹(shù)的生長(zhǎng)和修建以"熵"(Entropy)的改變?yōu)榛?礎(chǔ)。Logistic回歸是普通線性回歸的一種特殊形式,采用MLE (Maximum Likelihood Estimate,極大似然估計(jì))算法進(jìn)行參數(shù)估計(jì), 一個(gè)隨機(jī)事件的發(fā) 生與否往往與多個(gè)影響因素有關(guān),Logistic回歸分析能從眾多的影響該事件發(fā) 生的可疑因素中篩選出對(duì)事件發(fā)生概率有影響的因素,并建立用這些因素估計(jì) 該事件在某段時(shí)間內(nèi)發(fā)生概率的回歸模型,該方法主要用于分類和預(yù)測(cè)等。
步驟105,模型建立后,利用所述^^莫型計(jì)算用戶的信用得分,從而評(píng)估出 用戶的信用等級(jí)。
具體的計(jì)算過(guò)程是對(duì)每個(gè)用戶分別采用C5.0決策樹(shù)和LOGISTIC回歸 進(jìn)行分析計(jì)算,然后根據(jù)兩者結(jié)果進(jìn)行加權(quán)處理,求出加權(quán)綜合評(píng)分,這樣得 出來(lái)的信用分值就是兩種方法的綜合加權(quán)處理得分,從而減少了采用 一種方式 評(píng)分的誤差。其中,權(quán)重是對(duì)所輸入資料的重要性的一個(gè)指標(biāo)。
上述網(wǎng)上信用評(píng)估過(guò)程中,由于用于計(jì)算的各種用戶行為數(shù)據(jù)是用戶在網(wǎng) 上進(jìn)行交易時(shí)產(chǎn)生的數(shù)據(jù),用戶無(wú)法隨意修改,所以能夠客觀、真實(shí)地反映用 戶的信用度。上述信用評(píng)估體系大大改進(jìn)了目前網(wǎng)上交易真實(shí)交易評(píng)估、網(wǎng)上 交易風(fēng)險(xiǎn)評(píng)估以及網(wǎng)上交易對(duì)方信用評(píng)價(jià)的方式,最大限度地減少了客戶在交 易中由不誠(chéng)信而產(chǎn)生的損失,并營(yíng)造出一個(gè)良好的互聯(lián)網(wǎng)交易環(huán)境。而且,上 述實(shí)施例建立的信用評(píng)估模型采用的是組合模型的方式,即同時(shí)采用兩種或兩 種以上的方法進(jìn)行評(píng)估,這樣得出來(lái)的信用分值就是多種方法的綜合加權(quán)處理 得分,從而減少了通常采用一種方式評(píng)分的誤差。
需要說(shuō)明的是,在信用評(píng)估體方法中,還可以通過(guò)神經(jīng)網(wǎng)絡(luò)、判別分析、聚類分析等方法來(lái)評(píng)估用戶的信用。所述神經(jīng)網(wǎng)絡(luò)法是通過(guò)模擬生物的神經(jīng)結(jié) 構(gòu)以及其處理信息的方式來(lái)進(jìn)行計(jì)算的一種算法,每個(gè)神經(jīng)元有特定數(shù)量的輸
入,也會(huì)為每個(gè)神經(jīng)元設(shè)定權(quán)重(weight )。然后,神經(jīng)元會(huì)計(jì)算出權(quán)重合計(jì) 值 (netvalue),而權(quán)重合計(jì)值就是將所有輸入乘以它們的權(quán)重的合計(jì)。每個(gè) 神經(jīng)元都有它們各自的臨界值(threshold),而當(dāng)權(quán)重合計(jì)值大于臨界值時(shí),神 經(jīng)元會(huì)輸出1;相反,則輸出0。最后,輸出會(huì)被傳送給與該神經(jīng)元連接的其 它神經(jīng)元繼續(xù)剩余的計(jì)算,其主要作用是用來(lái)分類和預(yù)測(cè)。
聚類分析和判別分析方法有相似的作用,都^到分類的作用。但是,判 別分析是已知分類然后總結(jié)出判別規(guī)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則 是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種 方法把觀測(cè)進(jìn)行合理的分類,使得同一類的觀測(cè)比較接近,不同類的觀測(cè)相差 較多,這是無(wú)指導(dǎo)的學(xué)習(xí)。
下面將列舉該信用評(píng)估方法在實(shí)際應(yīng)用中的情況來(lái)說(shuō)明。
參照?qǐng)D2,是本發(fā)明優(yōu)選實(shí)施例所述進(jìn)行網(wǎng)上信用評(píng)估的方法流程圖。
步驟201,信用評(píng)估體系首先確定出影響因素,如用戶行為數(shù)據(jù)、用戶歷 史交易數(shù)據(jù)、用戶資金數(shù)據(jù)等;
步驟202,從數(shù)據(jù)倉(cāng)庫(kù)中搜集出這些影響因素?cái)?shù)據(jù),并進(jìn)行初步的數(shù)據(jù)分 析,刪除無(wú)用的變量;
步驟203,建立信用評(píng)估模型,該模型采用C5.0決策樹(shù)和LOGISTIC回 歸的組合模型方式,計(jì)算用戶的信用得分;
步驟204,用戶如果對(duì)某一個(gè)用戶的產(chǎn)品或商品感興趣,則可以點(diǎn)擊查看 對(duì)方的信用;例如,A用戶對(duì)B用戶的某一商品感興趣,則可以查看B用戶 的信用得分;
優(yōu)選步驟205, A用戶還可以在前臺(tái)業(yè)務(wù)中調(diào)用B用戶的信用歷史記錄, 然后在用戶界面上生成一張歷史信用變化趨勢(shì)圖。
針對(duì)上述信用評(píng)估方法,本發(fā)明還提供了一種信用評(píng)估系統(tǒng)實(shí)施例。參照 圖3,是所述一種評(píng)估網(wǎng)上用戶信用的系統(tǒng)結(jié)構(gòu)框圖。所述系統(tǒng)主要包括數(shù)據(jù) 收集單元301、才莫型建立單元302和信用評(píng)估單元303。
其中,所述數(shù)據(jù)收集單元301負(fù)責(zé)從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù),并進(jìn)行ETL處理,然后進(jìn)行存儲(chǔ)。所述模型建立單元302負(fù)責(zé)分析 確定影響信用評(píng)估的因素,然后從數(shù)據(jù)收集單元301獲取影響因素?cái)?shù)據(jù),再利 用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估模型。本實(shí)施例中,該模型采用C5.0決策 樹(shù)和LOGISTIC回歸相結(jié)合的組合模型方式,這樣得出來(lái)的信用分值就是兩種 方法的綜合加權(quán)處理得分,從而減少了采用一種方式評(píng)分的誤差。所述信用評(píng) 估單元303負(fù)責(zé)利用所述模型計(jì)算用戶的信用得分。
優(yōu)選的,所述系統(tǒng)還包括建模分析單元304,用于對(duì)數(shù)據(jù)收集單元301搜 集到的影響因素?cái)?shù)據(jù)進(jìn)行初步分析,將大量的影響因素?cái)?shù)據(jù)轉(zhuǎn)化為模型變量, 并刪除對(duì)建模無(wú)用的變量。
優(yōu)選的,所述系統(tǒng)還包括業(yè)務(wù)調(diào)用單元305,用于根據(jù)前臺(tái)業(yè)務(wù)需要,調(diào) 用信用評(píng)估單元303生成的用戶信用得分;或者調(diào)用用戶的歷史信用記錄,生 成信用變化趨勢(shì)圖;并將信用得分或信用變化趨勢(shì)在前臺(tái)顯示。
圖3所示系統(tǒng)中未詳述的部分可以參見(jiàn)圖1、圖2所示方法的相關(guān)部分, 為了篇幅考慮,在此不再詳述。
以上對(duì)本發(fā)明所提供的一種評(píng)估網(wǎng)上用戶信用的方法及系統(tǒng),進(jìn)行了詳細(xì)
施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域 的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改 變之處。綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種評(píng)估網(wǎng)上用戶信用的方法,其特征在于,包括從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù);將所述網(wǎng)上行為數(shù)據(jù)進(jìn)行ETL處理,并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù);分析確定影響信用評(píng)估的因素,然后從數(shù)據(jù)倉(cāng)庫(kù)獲取影響因素?cái)?shù)據(jù);利用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估模型;利用所述模型計(jì)算用戶的信用得分。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括數(shù)據(jù)倉(cāng)庫(kù)的調(diào)整步驟如果數(shù)據(jù)倉(cāng)庫(kù)中沒(méi)有對(duì)應(yīng)影響因素的數(shù)據(jù),或者數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不符合要求,則重新對(duì)網(wǎng)上行為數(shù)據(jù)進(jìn)行ETL處理,并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述影響因素包括網(wǎng)站點(diǎn)擊行為、用戶交易數(shù)據(jù)及行為、資金變動(dòng)數(shù)據(jù)及行為。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述信用評(píng)估模型采用C5.0決策樹(shù)和LOGISTIC回歸相結(jié)合的組合模型,對(duì)每個(gè)用戶分別采用C5.0決策樹(shù)和LOGISTIC回歸進(jìn)行分析計(jì)算,然后根據(jù)兩者結(jié)果進(jìn)行加權(quán)處理,求出加權(quán)綜合評(píng)分。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括根據(jù)用戶的歷史信用記錄,生成信用變化趨勢(shì)圖,并顯示。
6、 一種評(píng)估網(wǎng)上用戶信用的系統(tǒng),其特征在于,包括數(shù)據(jù)收集單元,用于從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù),并進(jìn)行ETL處理,然后進(jìn)行存儲(chǔ);模型建立單元,用于分析確定影響信用評(píng)估的因素,然后從數(shù)據(jù)收集單元獲取影響因素?cái)?shù)據(jù);利用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估模型;信用評(píng)估單元,用于利用所述模型計(jì)算用戶的信用得分。
7、 才艮據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括建模分析單元,用于對(duì)影響因素?cái)?shù)據(jù)進(jìn)行初步分析,刪除對(duì)建模無(wú)用的變量。
8、 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括業(yè)務(wù)調(diào)用單元,用于調(diào)用用戶的歷史信用記錄,生成信用變化趨勢(shì)圖,并顯示。
9、 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于所述信用評(píng)估模型采用C5.0決策樹(shù)和LOGISTIC回歸相結(jié)合的組合模型,信用評(píng)估單元對(duì)每個(gè)用戶分別采用C5.0決策樹(shù)和LOGISTIC回歸進(jìn)行分析計(jì)算,然后根據(jù)兩者結(jié)果進(jìn)行加權(quán)處理,求出加權(quán)綜合評(píng)分。
10、根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于所述影響因素包括網(wǎng)站點(diǎn)擊行為、用戶交易數(shù)據(jù)及行為、資金變動(dòng)數(shù)據(jù)及行為。
全文摘要
本發(fā)明公開(kāi)了一種評(píng)估網(wǎng)上用戶信用的方法及系統(tǒng),解決網(wǎng)上交易誠(chéng)信的問(wèn)題,從而減少不誠(chéng)信給用戶造成的損失。所述方法包括從各業(yè)務(wù)系統(tǒng)收集用戶在網(wǎng)上的原始行為數(shù)據(jù),并進(jìn)行ETL處理,然后存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù);分析確定影響信用評(píng)估的因素,并從數(shù)據(jù)倉(cāng)庫(kù)獲取影響因素?cái)?shù)據(jù);利用所述影響因素?cái)?shù)據(jù)建立信用評(píng)估模型;利用所述模型計(jì)算用戶的信用得分。本發(fā)明由于該體系進(jìn)行評(píng)估的數(shù)據(jù)來(lái)自于網(wǎng)站記錄的各種用戶行為數(shù)據(jù),這些數(shù)據(jù)是用戶在網(wǎng)上進(jìn)行交易時(shí)產(chǎn)生的數(shù)據(jù),用戶無(wú)法隨意修改,所以能夠客觀、真實(shí)地反映用戶的信用度。本發(fā)明大大改進(jìn)了目前的網(wǎng)上信用評(píng)估方法,解決了網(wǎng)上交易的誠(chéng)信問(wèn)題,最大限度地減少了交易的風(fēng)險(xiǎn)性。
文檔編號(hào)G06Q30/00GK101493913SQ200810004180
公開(kāi)日2009年7月29日 申請(qǐng)日期2008年1月23日 優(yōu)先權(quán)日2008年1月23日
發(fā)明者蔣萃林, 邱昌恒, 陸兆禧 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司