一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法
【專利摘要】本申請公開了一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,包括以下步驟:a.對文檔庫中的文檔進(jìn)行分詞和智能摘要預(yù)處理,得到關(guān)鍵詞,對得到的關(guān)鍵詞進(jìn)行相關(guān)性分析,處理上述步驟提供的值,計(jì)算得出關(guān)鍵詞針對該篇文檔的關(guān)鍵度分值,得到帶有賦值的關(guān)鍵詞;b.按照心理學(xué)知識對用戶性格分析得用戶性格傾向值;c.將步驟b得到的性格傾向值與步驟a中得到的關(guān)鍵詞關(guān)鍵度分值匹配,得到帶有性格傾向?qū)傩缘奈臋n庫;d.用戶發(fā)起訪問請求時(shí),所述帶有性格傾向?qū)傩缘奈臋n庫給出帶有性格傾向?qū)傩缘奈臋n。本申請,基于用戶性格的推薦辦法,可以實(shí)現(xiàn)特定時(shí)空維度及場景維度下對用戶行為作出準(zhǔn)確的預(yù)判,以此辦法亦可預(yù)測用戶真正會看的內(nèi)容并予以推薦。
【專利說明】
一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及個(gè)性化推薦引擎(計(jì)算機(jī)人工智能)領(lǐng)域,尤其涉及一種基于心理學(xué)知 識賦予機(jī)器人工智能學(xué)習(xí)的方法。
【背景技術(shù)】
[0002] 個(gè)性化推薦引擎的優(yōu)劣表現(xiàn)是在針對于互聯(lián)網(wǎng)用戶進(jìn)行精準(zhǔn)內(nèi)容推薦的命中率 上。準(zhǔn)確的內(nèi)容推薦會對用戶帶來便捷和幫助,而非精準(zhǔn)的內(nèi)容推薦會導(dǎo)致用戶反感、浪費(fèi) 互聯(lián)網(wǎng)資源及內(nèi)容本身的生產(chǎn)者。
[0003] 目前應(yīng)用個(gè)性化推薦技術(shù)的領(lǐng)域非常多,例如移動互聯(lián)網(wǎng)閱讀、移動互聯(lián)網(wǎng)金融、 互聯(lián)網(wǎng)廣告網(wǎng)絡(luò)等等,但即使在大數(shù)據(jù)的行為推演下用戶的意圖和下一步行為仍很難向個(gè) 性化方向發(fā)展?,F(xiàn)在的個(gè)性化推薦引擎,大多都是從眾引擎。就是大家看了這個(gè)也會看那 個(gè),大家買了這個(gè)也買了那個(gè)的方式進(jìn)行推薦,這種推薦是基于經(jīng)驗(yàn)的和從眾的推薦,并不 真正符合個(gè)性化推薦的范疇。
[0004] 本發(fā)明基于心理學(xué)知識關(guān)聯(lián)的推薦方法,綜合考慮內(nèi)容所蘊(yùn)含的關(guān)鍵詞之間、關(guān) 鍵詞本身所具有的關(guān)鍵度特性。通過賦予內(nèi)容心理學(xué)性格特征的方法,使得推薦過程中繼 承到用戶屬性上。以性格傾向性的得分,對用戶進(jìn)行性格范圍內(nèi)的獨(dú)一無二的個(gè)性化內(nèi)容 推薦?;谟脩粜愿竦耐扑]辦法,可以實(shí)現(xiàn)特定時(shí)空維度及場景維度下對用戶作出準(zhǔn)確的 行為預(yù)判,以此辦法亦可預(yù)測用戶真正會看的內(nèi)容并予以推薦。
【發(fā)明內(nèi)容】
[0005] 本申請解決的主要問題是提供一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方 法,以解決無法實(shí)現(xiàn)的為用戶提供專屬學(xué)習(xí)內(nèi)容推介服務(wù)的技術(shù)問題。
[0006] 為了解決上述技術(shù)問題,本發(fā)明公開了一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué) 習(xí)的方法,其特征在于包括以下步驟:
[0007] a.對文檔庫中的文檔進(jìn)行分詞和智能摘要預(yù)處理,所述分詞和智能摘要預(yù)處理, 包括:獲取對應(yīng)的特定詞,并對獲取的特定詞進(jìn)行過濾去除無意義特定詞得到關(guān)鍵詞;
[0008] 對得到的關(guān)鍵詞進(jìn)行相關(guān)性分析,所述相關(guān)性分析,包括:語義相似度計(jì)算,構(gòu)建 關(guān)鍵詞關(guān)系網(wǎng)絡(luò),計(jì)算出關(guān)鍵詞閾值;
[0009] 所述相關(guān)性分析,還包括:關(guān)鍵詞密度分析及賦值,關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵詞匹配 賦值;
[0010] 處理上述步驟提供的值,計(jì)算得出關(guān)鍵詞針對該篇文檔的關(guān)鍵度分值,得到帶有 賦值的關(guān)鍵詞;
[0011] b.按照心理學(xué)知識對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照,對用戶性格傾向賦 值;
[0012] c.將步驟b得到的性格傾向值與步驟a中得到的關(guān)鍵詞關(guān)鍵度分值匹配,得到帶有 性格傾向?qū)傩缘奈臋n庫;
[0013] d.用戶發(fā)起訪問請求時(shí),所述帶有性格傾向?qū)傩缘奈臋n庫給出帶有性格傾向?qū)傩?的文檔。
[0014] 進(jìn)一步的,所述獲取對應(yīng)的特定詞,并對獲取的特定詞進(jìn)行過濾去除無意義特定 詞得到關(guān)鍵詞的步驟,包括:基于語義分析的中文文本特定詞提取及分詞、詞性分析、應(yīng)用 動態(tài)過濾算法過濾特定詞。
[0015] 進(jìn)一步的,所述應(yīng)用動態(tài)過濾算法過濾特定詞的方法,包括:經(jīng)過公網(wǎng)及應(yīng)用反饋 的新詞動態(tài)入庫即時(shí)響應(yīng)。
[0016] 進(jìn)一步的,所述相關(guān)性分析,還包括:計(jì)算并應(yīng)用關(guān)鍵詞之間的閾值。
[0017] 進(jìn)一步的,對所述關(guān)鍵詞密度分析及賦值同時(shí)對關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵詞匹配賦 值,所述關(guān)鍵詞命中公網(wǎng)熱門關(guān)鍵詞則獲較高權(quán)重加持。
[0018] 進(jìn)一步的,所述關(guān)鍵詞的關(guān)鍵度以關(guān)鍵度分值的形式體現(xiàn)。
[0019] 進(jìn)一步的,所述按照心理學(xué)知識對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照的步 驟,包括:對性格特征的識別,對不同性格對應(yīng)的喜好、偏好、行為進(jìn)行特征提取,根據(jù)心理 學(xué)理論的性格賦值傾向性對性格中對應(yīng)喜好喜好、偏好、行為提取分值。
[0020] 進(jìn)一步的,步驟d,還包括:用戶獲取帶有性格傾向的文檔,利用所述文檔中關(guān)鍵詞 分值完善用戶性格傾向值。
[0021] 進(jìn)一步的,所述步驟d,還包括:利用完善的用戶性格傾向值對用戶的下一步行為 作出預(yù)測。
[0022]與現(xiàn)有技術(shù)相比,本申請所述的一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方 法,達(dá)到了如下效果:
[0023] (1)方法合理科學(xué),實(shí)施簡單;
[0024] (2)以客戶性格特征為依據(jù),為客戶進(jìn)行獨(dú)一無二的個(gè)性化內(nèi)容推薦。
[0025] (3)采用語義與密度相結(jié)合的驗(yàn)證方法,更好的滿足用戶的動態(tài)需求;
[0026] (4)方便了人們的學(xué)習(xí)生活提高了學(xué)習(xí)效率;
[0027] (5)用戶在使用過程能夠更加用戶個(gè)人個(gè)性化配置,交互體驗(yàn)良好;
[0028] (6)本方法提供的體系建立迅速,可靠性高。
【附圖說明】
[0029] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0030] 圖1是本發(fā)明實(shí)施例1所述的一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法 的流程示意圖。
【具體實(shí)施方式】
[0031] 如在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員 應(yīng)可理解,硬件制造商可能會用不同名詞來稱呼同一個(gè)組件。本說明書及權(quán)利要求并不以 名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在 通篇說明書及權(quán)利要求當(dāng)中所提及的"包含"為一開放式用語,故應(yīng)解釋成"包含但不限定 于"。"大致"是指在可接收的誤差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述 技術(shù)問題,基本達(dá)到所述技術(shù)效果。說明書后續(xù)描述為實(shí)施本申請的較佳實(shí)施方式,然所述 描述乃以說明本申請的一般原則為目的,并非用以限定本申請的范圍。本申請的保護(hù)范圍 當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。
[0032] 以下結(jié)合附圖對本申請作進(jìn)一步詳細(xì)說明,但不作為對本申請的限定。
[0033] 實(shí)施例1
[0034]如圖1所示,為本實(shí)施例1提供的一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方 法流程示意圖,其特征在于包括以下步驟:
[0035] a.對文檔庫中的文檔100進(jìn)行分詞和智能摘要預(yù)處理200,所述分詞和智能摘要預(yù) 處理,包括:獲取對應(yīng)的特定詞210,并對獲取的特定詞進(jìn)行過濾220,去除無意義特定詞得 到關(guān)鍵詞;具體實(shí)施辦法可以為:(1)通過詞庫中的詞對文檔(A)進(jìn)行初步的機(jī)器分詞預(yù)處 理,獲得文檔(A)的特定詞組(特定詞1,特定詞2,特定詞3…特定詞N);(2)根據(jù)詞性分析,過 濾掉無意義特定詞,得到關(guān)鍵詞。
[0036] 對得到的關(guān)鍵詞進(jìn)行相關(guān)性分析300,所述相關(guān)性分析,包括:語義相似度計(jì)算 311,構(gòu)建關(guān)鍵詞關(guān)系網(wǎng)絡(luò)312,計(jì)算出關(guān)鍵詞閾值313;
[0037] 具體算法為將文檔(A)100劃分為4個(gè)區(qū)域,分別為標(biāo)題、開頭、中間、結(jié)尾。2個(gè)關(guān)鍵 詞在同一區(qū)域出現(xiàn)的頻率大于設(shè)定的閾值(>〇_2),則認(rèn)為它們有聯(lián)系并存在關(guān)系鏈接,并 構(gòu)建其關(guān)鍵詞關(guān)系網(wǎng)絡(luò)。鏈接為特定文檔產(chǎn)生,但會共享。在步驟2中單一關(guān)鍵詞的位置權(quán) 重獲取公式為 Score(loc) = E4j=ilocwjloci j
[0038] 其中Locwj為關(guān)鍵詞在文檔(A)100中出現(xiàn)的位置,我們分為1標(biāo)題,2開頭,3中間,4 結(jié)尾。賦予的分值分別對應(yīng)0.3,0.15,0.075,0.0375兒〇(^」擁有2個(gè)值,分別為0和1。其中關(guān) 鍵詞所處位置的所占分值是可以人工及機(jī)器干預(yù)的。
[0039] 所述相關(guān)性分析300,還包括:關(guān)鍵詞密度分析及賦值314,關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵 詞匹配賦值315;
[0040]關(guān)鍵詞頻密度分析計(jì)算公式為
[0042] ,其中m是關(guān)鍵詞(Wl)在文檔(A)中出現(xiàn)的次數(shù)。其中分母是文檔(A)中所有被提取 出的關(guān)鍵詞出現(xiàn)的次數(shù)總和。該關(guān)鍵詞詞頻越大,所占權(quán)重越高。其中關(guān)鍵詞(Wi )在文檔 (A)中的(TF-IDF)tfidfi 計(jì)算公式為 Tfidfi = tfiXidfi。
[0043] 對關(guān)鍵詞進(jìn)行公網(wǎng)熱門關(guān)鍵詞匹配的計(jì)算公式為
[0044] Score(top) = E4t=itopwt X topit
[0045] 其中topit包含2個(gè)值,分別為0和1。0代表該關(guān)鍵詞未出現(xiàn)在公網(wǎng)熱門詞庫中,1代 表出現(xiàn)在公網(wǎng)熱門詞庫中。當(dāng)該關(guān)鍵詞命中11時(shí)表示為24小時(shí)內(nèi)熱門賦值+0.15,當(dāng)命中t2 時(shí)表示為7天內(nèi)熱門賦值+0.1,當(dāng)命中t3時(shí)表示為30天內(nèi)熱門賦值+0.04,當(dāng)命中t4時(shí)表示 為歷史熱門賦值+0.01。
[0046]處理上述步驟提供的值410,計(jì)算得出關(guān)鍵詞針對該篇文檔(A)的關(guān)鍵度分值,得 到帶有賦值的關(guān)鍵詞420;具體處理方式為:
[0047]通過計(jì)算會得出該關(guān)鍵詞(Wi)在文檔(A) 100中的關(guān)鍵度分值,其計(jì)算公式為
[0049]公式完整版展開為:
[0051 ] 公式說明
[0052] Score (Wi)詞語在文章中的關(guān)鍵度評分
[0053] Tw為統(tǒng)計(jì)特征值的權(quán)重本發(fā)明中此處定義為0.8,Tw的權(quán)重可根據(jù)算法優(yōu)化、查全 率、查準(zhǔn)率、召回率等進(jìn)行調(diào)整。
[0054] Loc%為詞語出現(xiàn)的位置t的權(quán)重,我們分為1標(biāo)題,2開頭,3中間,4結(jié)尾
[0055] 賦予的分值為0 ? 3,0 ? 15,0 ? 075,0 ? 0375
[0056] loci j有2個(gè)值,分別為0的時(shí)候Wi未出現(xiàn)在位置J上,為1的時(shí)候表示W(wǎng)i出現(xiàn)在了位 置J上。
[0057] POSw表示統(tǒng)計(jì)特征中詞性所占的權(quán)重,本發(fā)明中賦值詞語關(guān)鍵度評分的時(shí)候,設(shè) 定POSw權(quán)重0.15,實(shí)際應(yīng)用中可根據(jù)需要進(jìn)行調(diào)整。
[0058] Posi表示W(wǎng)i的詞性值。(0.2-0.8),本發(fā)明中針對詞性的詞性值標(biāo)準(zhǔn)如下
[0059] (形容詞0.5,副詞0.3,名形詞0.6,成語0.6,簡稱0.7,慣用詞0.6,動詞0.3,動語素 0.2,副動詞0.4,動名詞0.6,名詞0.8,產(chǎn)品詞0.8)詞性預(yù)留拓展接口,可隨機(jī)器學(xué)習(xí)過程進(jìn) 行拓展和自行添加。在實(shí)際應(yīng)用中,針對不同詞性的賦值可以自由調(diào)整。
[0060] Tfidfw表示W(wǎng)i在統(tǒng)計(jì)特征中Tf-idf所占的權(quán)重,Tfidfw本發(fā)明中取值為
[0061 ] Tfidfi 表示 Wi 的 Tf-idf?值
[0062] Tfidfi = tfiXidfi
[0064] m表示該關(guān)鍵詞在文檔中出現(xiàn)的次數(shù),Eknk表示所有詞語在文檔中出現(xiàn)的總和。 (現(xiàn)行算法是文檔中所有文字出現(xiàn)的字?jǐn)?shù)總和,本發(fā)明中的算法是分詞中所有提取出的關(guān) 鍵詞過濾后的比重,這種調(diào)整可以大大優(yōu)化算法運(yùn)行效率及查全查準(zhǔn)率等)出現(xiàn)的關(guān)鍵詞 字符長度若超過12則其TF值*0.95。
[0066]分子A為文檔庫中所有文檔的數(shù)量,分母Aw表示文檔庫中包含當(dāng)前關(guān)鍵詞的所有 文檔總數(shù)。
[0067] topwt表示W(wǎng)i該關(guān)鍵詞命中公網(wǎng)熱門詞庫中t維度的權(quán)重。
[0068] t = 1為24小時(shí)熱門關(guān)鍵詞,權(quán)重0.15。t = 2為7天熱門關(guān)鍵詞,權(quán)重0.1。t = 3表示 為30天熱門關(guān)鍵詞,權(quán)重0.04。t = 4表示為超過30天的熱門關(guān)鍵詞,權(quán)重0.01。
[0069] topit表示W(wǎng)i該關(guān)鍵詞是否命中公網(wǎng)熱門關(guān)鍵詞庫。1為命中,0為未命中。
[0070] b.按照心理學(xué)知識對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照,對用戶性格傾向賦 值;
[0071] c.將步驟b得到的性格傾向值與步驟a中得到的關(guān)鍵詞關(guān)鍵度分值匹配,得到帶有 性格傾向?qū)傩缘奈臋n庫;
[0072] d.用戶發(fā)起訪問請求時(shí),所述帶有性格傾向?qū)傩缘奈臋n庫給出帶有性格傾向?qū)傩?的文檔。
[0073]本實(shí)施例1提供的一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,可靠性高, 實(shí)用性強(qiáng),為使用者提供自己專屬的適合學(xué)習(xí)的內(nèi)容,大大提高了學(xué)習(xí)效率。
[0074] 實(shí)施例2
[0075]如圖1所示,為本實(shí)施例1提供的一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方 法流程示意圖,其特征在于包括以下步驟:
[0076] a.對文檔庫中的文檔100進(jìn)行分詞和智能摘要預(yù)處理200,所述分詞和智能摘要預(yù) 處理,包括:獲取對應(yīng)的特定詞210,并對獲取的特定詞進(jìn)行過濾220,去除無意義特定詞得 到關(guān)鍵詞;可以使結(jié)構(gòu)更加精確,提尚方法實(shí)施效率。
[0077]對得到的關(guān)鍵詞進(jìn)行相關(guān)性分析300,所述相關(guān)性分析300,包括:語義相似度計(jì)算 311,構(gòu)建關(guān)鍵詞關(guān)系網(wǎng)絡(luò)312,計(jì)算出關(guān)鍵詞閾值313;
[0078] 所述相關(guān)性分析300,還包括:關(guān)鍵詞密度分析及賦值314,關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵 詞匹配賦值315;
[0079]處理上述步驟提供的值,計(jì)算得出關(guān)鍵詞針對該篇文檔的關(guān)鍵度分值410,得到帶 有賦值的關(guān)鍵詞420;通過實(shí)時(shí)機(jī)器監(jiān)控公網(wǎng)熱詞辦法動態(tài)調(diào)整詞庫中的公網(wǎng)熱門事件及 熱門關(guān)鍵詞,熱門詞庫可人工干預(yù)或通過機(jī)器經(jīng)驗(yàn)動態(tài)預(yù)測干預(yù),可以保證文檔關(guān)鍵詞的 關(guān)鍵度可以最貼合流行度和公網(wǎng)用戶關(guān)注度的動態(tài)變化需求。
[0080] b.按照心理學(xué)知識500對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照,對用戶性格傾 向賦值600;
[0081] c.將步驟b得到的性格傾向值與步驟a中得到的關(guān)鍵詞關(guān)鍵度分值匹配,得到帶有 性格傾向?qū)傩缘奈臋n庫700;
[0082] d.用戶800發(fā)起訪問請求時(shí),所述帶有性格傾向?qū)傩缘奈臋n庫給出帶有性格傾向 屬性的文檔900。對性格分析是為客戶設(shè)置獨(dú)一無二的學(xué)習(xí)內(nèi)容推介的關(guān)鍵。
[0083] 優(yōu)選地,所述獲取對應(yīng)的特定詞,并對獲取的特定詞進(jìn)行過濾去除無意義特定詞 得到關(guān)鍵詞的步驟,包括:基于語義分析的中文文本特定詞提取及分詞、詞性分析、應(yīng)用動 態(tài)過濾算法過濾特定詞。多樣化的采集信息,使方法更科學(xué)。
[0084] 優(yōu)選地,所述應(yīng)用動態(tài)過濾算法過濾特定詞的方法,包括:經(jīng)過公網(wǎng)及應(yīng)用反饋的 新詞動態(tài)入庫即時(shí)響應(yīng)。滿足用戶關(guān)注度的動態(tài)變化需求
[0085] 優(yōu)選地,所述相關(guān)性分析,還包括:計(jì)算并應(yīng)用關(guān)鍵詞之間的閾值。
[0086] 優(yōu)選地,對所述關(guān)鍵詞密度分析及賦值同時(shí)對關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵詞匹配賦 值,所述關(guān)鍵詞命中公網(wǎng)熱門關(guān)鍵詞則獲較高權(quán)重加持。
[0087] 優(yōu)選地,所述關(guān)鍵詞的關(guān)鍵度以關(guān)鍵度分值的形式體現(xiàn)。
[0088] 優(yōu)選地,所述按照心理學(xué)知識對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照的步驟, 包括:對性格特征的識別,對不同性格對應(yīng)的喜好、偏好、行為進(jìn)行特征提取,根據(jù)心理學(xué)理 論的性格賦值傾向性對性格中對應(yīng)喜好喜好、偏好、行為提取分值。根據(jù)用戶個(gè)人喜好等數(shù) 據(jù),為客戶提供更人文科學(xué)的服務(wù)。
[0089] 優(yōu)選地,步驟d,還包括:用戶獲取帶有性格傾向的文檔,利用所述文檔中關(guān)鍵詞分 值完善用戶性格傾向值。將為客戶提供越來越優(yōu)質(zhì)的的服務(wù),使用戶在過了新事物新新鮮 感后,還可以更好的接受服務(wù)。
[0090] 優(yōu)選地,所述步驟d,還包括:利用完善的用戶性格傾向值對用戶的下一步行為作 出預(yù)測??梢约皶r(shí)的滿足用戶需求,使用戶體驗(yàn)更好,學(xué)習(xí)尋找資料更加便捷有效。
[0091] 應(yīng)用實(shí)施例1
[0092]為了更明白闡述上述實(shí)施例1、實(shí)施例2中方IDF的算法的可操作性及優(yōu)越性,首先 設(shè)定庫內(nèi)所有文章為100000000篇,過濾器篩選出包含手機(jī)的文章為700萬篇,包含智能的 文章為1800萬篇,包含iphone7的文章為6萬篇)。在文章(A)中提取出3個(gè)關(guān)鍵詞分別為 "iphone7" "手機(jī)" "智能"(本發(fā)明在對關(guān)鍵詞提取時(shí)對iphone7同iphone 7根據(jù)語義分析的 匹配性定義為雷同關(guān)鍵詞進(jìn)行歸一處理)。
[0093]文章(A)中"手機(jī)"出現(xiàn)5次,"智能"出現(xiàn)7次,"iphone7"出現(xiàn)11次。應(yīng)用本發(fā)明實(shí)施 例1中公式計(jì)算關(guān)鍵詞關(guān)鍵度:
[0099] 以上得出了文章(A)中其關(guān)鍵詞所擁有的關(guān)鍵度分值。
[0100] 根據(jù)上方實(shí)例中給出的數(shù)據(jù)進(jìn)行關(guān)鍵詞之間的關(guān)系度及關(guān)系網(wǎng)絡(luò)建立的實(shí)例說 明
[0101] 詞語Wi與Wj的關(guān)系度算法如下:
[0103] ^表示同時(shí)包含1及關(guān)鍵詞%的文檔總數(shù)
[0104] Ai表示包含Wi但不包含Wj的文檔總數(shù)
[0105] TOP幻表示熱門詞庫的熱門度在詞語關(guān)鍵度評分中的熱度值
[0106] 利用實(shí)施例1中公式計(jì)算"iphone7"同"手機(jī)"之間的關(guān)聯(lián)度.
[0107] 首先利用分詞算法,得到同時(shí)包含"iphone7"和"手機(jī)"關(guān)鍵詞的文檔數(shù)量為 59000篇。而包含iphone7的文章為6萬篇?
[0109]通過公式算出iphone7同手機(jī)之間的關(guān)聯(lián)度為0.9833。相當(dāng)高的關(guān)聯(lián)度。
[0110] 如果我們假設(shè)下所有包含iphone7關(guān)鍵詞的文章都包含手機(jī),那么這個(gè)數(shù)值是趨 向與1的,那么本發(fā)明是否可以得出iphone7就是手機(jī)?而對我們來講我們當(dāng)然知道iphone7 就是手機(jī)。
[0111] 應(yīng)用實(shí)施例2
[0112] 設(shè)定庫內(nèi)所有文章為100000000篇,過濾器篩選出包含手機(jī)的文章為700萬篇,包 含智能的文章為1800萬篇,包含iphone7的文章為6萬篇。
[0113]對文章 D利用上述實(shí)施例1中的公式計(jì)算"iphone7"同"手機(jī)"之間的關(guān)聯(lián)度.
[0114]首先分詞算法得到A小包含iphone7的文章為6萬篇,同時(shí)包含"iphone7"和"手機(jī)" 關(guān)鍵詞的文檔數(shù)量為59000篇,所有文章中包含"蘋果"關(guān)鍵詞文章為600萬篇,同時(shí)包含"蘋 果"和"手機(jī)"的150萬篇,同時(shí)包含"蘋果"和"iphone7"的58990篇,同時(shí)包含"iphone7"和 "手機(jī)""蘋果"的文章為58990.
[0115] iphone7同"蘋果""手機(jī)"之間的關(guān)聯(lián)按照上述實(shí)施例1給出公式計(jì)算。
[0116]計(jì)算iphone7同"蘋果"之間的關(guān)聯(lián):
這個(gè)時(shí)候如果恰好"蘋果手機(jī)"是 TOP熱門關(guān)鍵詞,那么score (Wij)就會溢出
[0118]此時(shí)需要加一個(gè)阻尼dw,定義dw為0.8
[0120]由此得出如表2所示的關(guān)聯(lián)度
[0123]配對運(yùn)算的結(jié)果,分析下"iphone7 "與"蘋果手機(jī)"組合詞的關(guān)聯(lián)度,如表3所示:
[0127] 本發(fā)明通過這個(gè)條目知道了iphone7有0.9833的傾向性屬于"手機(jī)"而且是0.9817 傾向于"蘋果手機(jī)"。
[0128] 同級詞之間關(guān)聯(lián)性建立
[0129] 如利用本發(fā)明分詞出來的文章 Di的關(guān)鍵詞關(guān)聯(lián)度如表4、表5所示:
[0130] 表4
[0140] 本發(fā)明根據(jù)以上實(shí)例說明我們可以通過關(guān)鍵詞之間的關(guān)聯(lián)性分析獲得關(guān)鍵詞之 間的關(guān)聯(lián)性及歸屬。例用以上實(shí)例中方法,我們通過運(yùn)算,機(jī)器已經(jīng)知道Iphone7傾向歸屬 蘋果手機(jī),而Galaxy S7傾向歸屬三星手機(jī)并實(shí)現(xiàn)關(guān)鍵詞在文章中的關(guān)鍵度賦值。
[0141] 應(yīng)用實(shí)施例3
[0142] 根據(jù)榮格的心理學(xué)知識我們將性格分為16種,每種性格都由不同的性格元素組 成,我們已經(jīng)在心理學(xué)專家團(tuán)隊(duì)的幫助下建立了性格喜好傾向性的標(biāo)簽矩陣,其根據(jù)下表8 所示生成。
[0143] 表8
[0145] 根據(jù)實(shí)例中我們提取出來的關(guān)鍵詞會同我們矩陣中的與性格已有關(guān)聯(lián)的頂級關(guān) 鍵字(分類)的映射進(jìn)行配對。命中頂級關(guān)鍵詞的為直接命中,未直接命中頂級關(guān)鍵詞的則 命中分類。
[0146] 與文檔賦值的關(guān)鍵詞匹配處理,得到性格雷達(dá)圖。
[0147] 用戶通過前端網(wǎng)絡(luò)請求訪問該文檔(A)時(shí),將會繼承該性格雷達(dá),用戶請求次數(shù)越 多,該性格雷達(dá)圖會越清晰,對用戶的下一步行為預(yù)測會更加精準(zhǔn)。本發(fā)明中機(jī)器通過心理 學(xué)知識搭建的頂級關(guān)鍵詞矩陣體系擁有了對用戶性格分析的自學(xué)習(xí)系統(tǒng),并掌握了關(guān)鍵詞 之間的關(guān)系網(wǎng)及文章之間的關(guān)聯(lián)度網(wǎng)絡(luò),可以說真正解決了推薦引擎中的個(gè)性化,以及大 大提高了機(jī)器在文字處理的優(yōu)先級判斷能力。
[0148] 與現(xiàn)有技術(shù)相比,上述實(shí)施例所述的一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué) 習(xí)的方法,達(dá)到了如下效果:
[0149] (1)方法合理科學(xué),實(shí)施簡單;
[0150] (2)以客戶性格特征為依據(jù),為客戶進(jìn)行獨(dú)一無二的個(gè)性化內(nèi)容推薦。
[0151] (3)采用語義與密度相結(jié)合的驗(yàn)證方法,更好的滿足用戶的動態(tài)需求;
[0152] (4)方便了人們的學(xué)習(xí)生活提高了學(xué)習(xí)效率;
[0153] (5)用戶在使用過程能夠更加用戶個(gè)人個(gè)性化配置,交互體驗(yàn)良好;
[0154] (6)本方法提供的體系建立迅速,可靠性高。
[0155] 由于方法部分已經(jīng)對本申請實(shí)施例進(jìn)行了詳細(xì)描述,這里對實(shí)施例中涉及的系統(tǒng) 與方法對應(yīng)部分的展開描述省略,不再贅述。對于系統(tǒng)中具體內(nèi)容的描述可參考方法實(shí)施 例的內(nèi)容,這里不再具體限定。
[0156] 上述說明示出并描述了本申請的若干優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本申請 并非局限于本文所披露的形式,不應(yīng)看作是對其他實(shí)施例的排除,而可用于各種其他組合、 修改和環(huán)境,并能夠在本文所述申請構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識 進(jìn)行改動。而本領(lǐng)域人員所進(jìn)行的改動和變化不脫離本申請的精神和范圍,則都應(yīng)在本申 請所附權(quán)利要求的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于,包括以下步驟: a. 對文檔庫中的文檔進(jìn)行分詞和智能摘要預(yù)處理,所述分詞和智能摘要預(yù)處理,包括: 獲取對應(yīng)的特定詞,并對獲取的特定詞進(jìn)行過濾去除無意義特定詞,得到關(guān)鍵詞; 對得到的關(guān)鍵詞進(jìn)行相關(guān)性分析,所述相關(guān)性分析,包括:語義相似度計(jì)算,構(gòu)建關(guān)鍵 詞關(guān)系網(wǎng)絡(luò),計(jì)算出關(guān)鍵詞閾值; 所述相關(guān)性分析,還包括:關(guān)鍵詞密度分析及賦值,關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵詞匹配賦 值; 處理上述步驟提供的值,計(jì)算得出關(guān)鍵詞針對該篇文檔的關(guān)鍵度分值,得到帶有賦值 的關(guān)鍵詞; b. 按照心理學(xué)知識對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照,對用戶性格傾向賦值; c. 將步驟b得到的性格傾向值與步驟a中得到的關(guān)鍵詞關(guān)鍵度分值匹配,得到帶有性格 傾向?qū)傩缘奈臋n庫; d. 用戶發(fā)起訪問請求時(shí),所述帶有性格傾向?qū)傩缘奈臋n庫給出帶有性格傾向?qū)傩缘奈? 檔。2. 根據(jù)權(quán)利要求1所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 所述獲取對應(yīng)的特定詞,并對獲取的特定詞進(jìn)行過濾去除無意義特定詞得到關(guān)鍵詞的步 驟,包括:基于語義分析的中文文本特定詞提取及分詞、詞性分析、應(yīng)用動態(tài)過濾算法過濾 特定詞。3. 根據(jù)權(quán)利要求2所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 所述應(yīng)用動態(tài)過濾算法過濾特定詞的方法,包括:經(jīng)過公網(wǎng)及應(yīng)用反饋的新詞動態(tài)入庫即 時(shí)響應(yīng)。4. 根據(jù)權(quán)利要求1所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 所述相關(guān)性分析,還包括:計(jì)算并應(yīng)用關(guān)鍵詞之間的閾值。5. 根據(jù)權(quán)利要求1所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 對所述關(guān)鍵詞密度分析及賦值同時(shí)對關(guān)鍵詞同公網(wǎng)熱門關(guān)鍵詞匹配賦值,所述關(guān)鍵詞命中 公網(wǎng)熱門關(guān)鍵詞則獲較高權(quán)重加持。6. 根據(jù)權(quán)利要求1所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 所述關(guān)鍵詞的關(guān)鍵度以關(guān)鍵度分值的形式體現(xiàn)。7. 根據(jù)權(quán)利要求1所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 所述按照心理學(xué)知識對用戶性格進(jìn)行特征提取并進(jìn)行分詞對照的步驟,包括:對性格特征 的識別,對不同性格對應(yīng)的喜好、偏好、行為進(jìn)行特征提取,根據(jù)心理學(xué)理論的性格賦值傾 向性對性格中對應(yīng)喜好喜好、偏好、行為提取分值。8. 根據(jù)權(quán)利要求1所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于, 步驟d,還包括:用戶獲取帶有性格傾向的文檔,利用所述文檔中關(guān)鍵詞分值完善用戶性格 傾向值。9. 根據(jù)權(quán)利要求8所述的基于心理學(xué)知識賦予機(jī)器人工智能學(xué)習(xí)的方法,其特征在于: 所述步驟d,還包括:利用完善的用戶性格傾向值對用戶的下一步行為作出預(yù)測。
【文檔編號】G06F17/30GK105912563SQ201610168366
【公開日】2016年8月31日
【申請日】2016年3月23日
【發(fā)明人】郝剛
【申請人】北京數(shù)字躍動科技有限公司