基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)與流程

文檔序號(hào)：12470215閱讀：413來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及推薦
技術(shù)領(lǐng)域：
，具體地，涉及一種基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)。
背景技術(shù)：
：科研活動(dòng)是提高社會(huì)生產(chǎn)力和綜合國力的戰(zhàn)略支撐。世界各國都非常重視對(duì)于科研活動(dòng)的投入。我國已經(jīng)將科技研發(fā)擺在國家發(fā)展全局的核心位置，國家財(cái)政對(duì)科研的支出穩(wěn)步增加。2012年，中國的研究與試驗(yàn)發(fā)展投入經(jīng)費(fèi)(包括工業(yè)界和學(xué)術(shù)界)已經(jīng)超過萬億，為10298.4億元，達(dá)到中等發(fā)達(dá)國家水平?？蒲谢顒?dòng)最直接的產(chǎn)出結(jié)果之一是學(xué)術(shù)論文。據(jù)統(tǒng)計(jì)，從2004年至2014年，我國科研人員在國際上共發(fā)表科技論文136.98萬篇，位居世界第二。論文共被引用1037.01萬次，位居世界第四?？蒲袑?shí)踐表明，學(xué)術(shù)論文是科研人員開展科研活動(dòng)或繼續(xù)進(jìn)行深入研究的非常重要的信息資源。然而,面對(duì)信息化時(shí)代浩如煙海的文獻(xiàn)資料，如何快速而準(zhǔn)確地檢索到自己所需要的學(xué)術(shù)資源，對(duì)于科研人員來說確實(shí)是一項(xiàng)非常重要而且具有挑戰(zhàn)性的工作。科學(xué)文獻(xiàn)的有效排序有助于研究人員尋找高質(zhì)量的論文，并且發(fā)現(xiàn)有潛在前景的研究方向。與此同時(shí)，論文排序在學(xué)術(shù)獎(jiǎng)勵(lì)系統(tǒng)中上也起著重要的作用。傳統(tǒng)的方法往往使用引用數(shù)作為度量的標(biāo)準(zhǔn)。然而，此標(biāo)準(zhǔn)過于單一化，將每個(gè)引用的重要性平等看待，忽略了優(yōu)質(zhì)引用與普通引用之間的差異性。許多研究者將論文引用網(wǎng)絡(luò)看做與網(wǎng)頁鏈接系統(tǒng)相似，借用PageRank和HITS算法給出每篇論文的分?jǐn)?shù)以用來排序。然而在生活中，動(dòng)態(tài)的引文網(wǎng)絡(luò)不同于日常的計(jì)算機(jī)網(wǎng)絡(luò)，因?yàn)樾掳l(fā)表的論文只能夠引用在其之前發(fā)表的論文，而之前發(fā)表的論文無法引用后來發(fā)表的論文。因?yàn)檫@個(gè)引文網(wǎng)絡(luò)天生具有的不同特點(diǎn)，使得較早發(fā)表的論文在引用方面將更加有優(yōu)勢(shì)，這也將對(duì)普通算法的準(zhǔn)確性產(chǎn)生巨大的影響。人們已經(jīng)作出了許多努力來解決這個(gè)問題，但是更多的關(guān)注于文本分析，考察整個(gè)引用網(wǎng)絡(luò)，新發(fā)表的論文往往沒有被其他論文引用過，這導(dǎo)致新論文在現(xiàn)有算法中的得分偏低。但是，新論文所代表的方向一般較之前的論文更加前沿，對(duì)研究者來說也更加值得關(guān)注。所以一個(gè)全新的排序算法，對(duì)于科研人員獲取所需資源、及時(shí)掌握學(xué)科發(fā)展動(dòng)態(tài)、提高自身科研能力，進(jìn)而增強(qiáng)國家的科研實(shí)力，都具有相當(dāng)重要的意義。這在大數(shù)據(jù)時(shí)代尤為重要，不僅意味著更加便于找到前沿方向，也意味著效率的大幅提升。從2000年開始，有關(guān)論文排序和推薦系統(tǒng)的論文數(shù)量呈逐年上升的趨勢(shì)。據(jù)不完全統(tǒng)計(jì)，僅2013年的相關(guān)論文數(shù)量就達(dá)到了30余篇。但是，在面對(duì)新發(fā)表論文的排序研究仍然處于初始階段。每年數(shù)以萬計(jì)的新論文發(fā)表，這個(gè)領(lǐng)域缺乏準(zhǔn)確的排序算法使得研究者們無法迅速從海量的數(shù)據(jù)中找到符合自己需要的信息。這也催使我們尋找一種全新的算法，對(duì)這些新發(fā)表的論文進(jìn)行有效的排序，以此來預(yù)測(cè)在未來的五到十年內(nèi)，何種論文將更有可能成為未來的熱點(diǎn)與前沿方向?；诖宋覀儼l(fā)明了ZeroRank算法。將作者，會(huì)議，機(jī)構(gòu)作為評(píng)估的指標(biāo)，經(jīng)過對(duì)過去十余年的數(shù)據(jù)進(jìn)行分析檢測(cè)，最終實(shí)現(xiàn)了對(duì)論文熱點(diǎn)的有效預(yù)測(cè)，極大的彌補(bǔ)了現(xiàn)有算法在對(duì)新發(fā)表論文評(píng)估方面的不足。技術(shù)實(shí)現(xiàn)要素：針對(duì)現(xiàn)有技術(shù)中的缺陷，本發(fā)明的目的是提供一種基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)。根據(jù)本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦方法，包括如下步驟：步驟1：構(gòu)建學(xué)術(shù)網(wǎng)絡(luò)模型，通過隨機(jī)游走法獲得每篇論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值；步驟2：建立排序模型，并選取經(jīng)步驟1處理后的論文數(shù)據(jù)構(gòu)建訓(xùn)練集；步驟3：通過弱分類器對(duì)訓(xùn)練集進(jìn)行排序，所述弱分類器是指僅考慮單個(gè)特征值進(jìn)行排序的分類器；步驟4：判斷弱分類器的排序結(jié)果是否與訓(xùn)練集的真實(shí)排序結(jié)果相匹配，若不匹配，則根據(jù)弱分類器的排序結(jié)果和真實(shí)排序結(jié)果的差異調(diào)整排序模型中與該弱分類器所對(duì)應(yīng)特征值的權(quán)重，并調(diào)整訓(xùn)練集中各個(gè)片段的權(quán)重值后，返回執(zhí)行步驟3；若匹配，則判斷是否已經(jīng)對(duì)所有特征值對(duì)應(yīng)的弱分類器進(jìn)行排序，若否，則改變?nèi)醴诸惼魉紤]的特征值種類，返回執(zhí)行步驟3；若是，則得到最優(yōu)排序模型；步驟5：通過最優(yōu)排序模型推薦用戶所需零引用文獻(xiàn)。優(yōu)選地，所述步驟1包括：步驟1.1：使用微軟提供的學(xué)術(shù)圖譜數(shù)據(jù)資源獲取自1800年至今發(fā)表的所有論文資源；步驟1.2：通過對(duì)論文關(guān)鍵信息提取，建立包含四類點(diǎn)集以及四類邊集的學(xué)術(shù)網(wǎng)絡(luò)模型；其中的論文關(guān)鍵信息是包括：論文標(biāo)題、作者、論文收錄期刊或收錄的會(huì)議、論文發(fā)表機(jī)構(gòu)、論文發(fā)表年份；步驟1.3：選擇論文所屬領(lǐng)域，以某一年的論文作為零引用論文集合，以設(shè)定時(shí)間段內(nèi)的論文作為訓(xùn)練集，通過隨機(jī)游走法分析學(xué)術(shù)網(wǎng)絡(luò)模型，得到論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值評(píng)分以及該論文的評(píng)分。優(yōu)選地，所述步驟1.2包括：步驟1.2.1：建立學(xué)術(shù)網(wǎng)絡(luò)模型，用G來表示該學(xué)術(shù)網(wǎng)絡(luò)：G＝(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)邊(pv,pu)∈EPP表示論文v引用一次論文u；邊(pv,au)∈EPA表示論文v的第一作者是u；邊(pv,vu)∈EPV表示論文v被發(fā)表在會(huì)議或期刊u上；邊(pv,fu)∈EPF表示論文v的來自機(jī)構(gòu)u；其中：P，A，V，F(xiàn)分別表示論文、作者、會(huì)議及期刊、機(jī)構(gòu)所構(gòu)成的四類點(diǎn)集，pv表示論文v，pu表示論文u，au表示作者u，vu表示會(huì)議及期刊u，fu表示機(jī)構(gòu)u，EPP、EPA、EPV、EPF分別表示論文間、論文與作者、論文與會(huì)議及期刊、論文與機(jī)構(gòu)的連線；步驟1.2.2：建立學(xué)術(shù)網(wǎng)絡(luò)模型中的論文、時(shí)間對(duì)應(yīng)關(guān)系：學(xué)術(shù)網(wǎng)絡(luò)G中論文發(fā)表年份表示為t0＜t1＜…＜tcrt，其中t0表示網(wǎng)絡(luò)中最早發(fā)表的論文的年份1800年，tcrt表示當(dāng)前年份；步驟1.2.3：建立零引用論文數(shù)據(jù)集Z：Z＝{pz∈P|t(pz)＝tcrt}式中：pz表示在集合Z中的論文；t(pz)表示論文的發(fā)表年份。優(yōu)選地，所述步驟1.3包括：步驟1.3.1：設(shè)定參數(shù)：ω1,ω2,ω3,ω4,ω5,ρ,tcrt，其中，參數(shù)ω1表示其余論文對(duì)得分的貢獻(xiàn)權(quán)重，ω2表示作者對(duì)論文得分的貢獻(xiàn)權(quán)重，ω3表示收錄該論文的會(huì)議及期刊對(duì)該論文得分的貢獻(xiàn)權(quán)重，ω4表示發(fā)表該論文的機(jī)構(gòu)對(duì)論文得分的貢獻(xiàn)權(quán)重，ω5表示論文發(fā)表年份對(duì)論文得分的貢獻(xiàn)權(quán)重，ρ表示論文發(fā)表時(shí)間的重要性參數(shù)，tcrt表示當(dāng)前年份；步驟1.3.2：初始化論文分值，計(jì)算公式如下：式中：pi表示任意一篇論文，N表示領(lǐng)域數(shù)，i表示第i篇文章，i取值范圍為0～N；步驟1.3.3：通過論文分值分別計(jì)算作者、會(huì)議或期刊、機(jī)構(gòu)的得分，計(jì)算公式如下：式中：ai表示作者i得分，vi表示會(huì)議及期刊i得分，fi表示機(jī)構(gòu)i得分，Ai表示作者i，pj表示論文j，AVG(·)為平均得分計(jì)算函數(shù)；步驟1.3.4：計(jì)算論文的得分，計(jì)算公式如下：pi′=ω1ΣPj∈in(Pi)pj|out(Pj)|+ω21ZAAVGAj∈neigh(Pi)(aj)+ω31ZVAVGVj∈neigh(Pi)(vj)+ω41ZFAVGFj∈neigh(Pi)(fj)+ω51ZTexp(-ρ(ti-tcrt));]]>式中：pi'表示任意一篇論文i，pj表示被論文i引用的論文j，aj表示論文i的作者得分，vj表示論文i的收錄期刊或會(huì)議得分，fj表示論文i的發(fā)表機(jī)構(gòu)得分，ti表示論文i的發(fā)表年份，ZA,ZV,ZF,ZT為歸一化變量，ρ為時(shí)間衰減因子。優(yōu)選地，所述步驟2包括：步驟2.1:選定t為從t0到tcrt-1時(shí)刻的各個(gè)時(shí)間節(jié)點(diǎn)，將t時(shí)刻已經(jīng)發(fā)生的論文引用關(guān)系構(gòu)建成t片段，全部共tcrt-t0個(gè)片段構(gòu)建成零引用論文集；步驟2.2:針對(duì)步驟2.1構(gòu)建的零引用論文集得到包含tcrt-t0個(gè)片段數(shù)據(jù)特征值的訓(xùn)練集。優(yōu)選地，步驟1中采用并行化方法執(zhí)行隨機(jī)游走法，包括如下步驟：步驟A1：基于相鄰論文的特征值分別更新后繼論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)的特征值；步驟A2：判斷由第一作者、會(huì)議或期刊、機(jī)構(gòu)信息構(gòu)成的論文引用關(guān)系網(wǎng)絡(luò)中的所有論文節(jié)點(diǎn)的特征值是否均被更新且更新后的特征值均收斂，若否，則將后繼論文作為相鄰論文，返回執(zhí)行步驟A1；若是，則進(jìn)入步驟2繼續(xù)執(zhí)行。根據(jù)本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦系統(tǒng)，包括：學(xué)術(shù)網(wǎng)絡(luò)模型建立模塊：用于構(gòu)建學(xué)術(shù)網(wǎng)絡(luò)模型，并通過隨機(jī)游走法獲得每篇論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值；訓(xùn)練集構(gòu)建模塊：建立排序模型，并選取經(jīng)學(xué)術(shù)網(wǎng)絡(luò)模型建立模塊處理后的論文數(shù)據(jù)構(gòu)建訓(xùn)練集；弱分類器排序模塊：通過弱分類器對(duì)訓(xùn)練集進(jìn)行排序，所述弱分類器是指僅考慮單個(gè)特征值進(jìn)行排序的分類器；排序模型構(gòu)建模塊：判斷弱分類器的排序結(jié)果是否與訓(xùn)練集的真實(shí)排序結(jié)果相匹配，得到最優(yōu)排序模型。優(yōu)選地，所述學(xué)術(shù)網(wǎng)絡(luò)模型建立模塊包括：檢索模塊：用于通過微軟提供的學(xué)術(shù)圖譜數(shù)據(jù)資源獲取自1800年至今發(fā)表的所有論文資源；模型建立模塊：通過對(duì)論文關(guān)鍵信息提取，建立包含四類點(diǎn)集以及四類邊集的學(xué)術(shù)網(wǎng)絡(luò)模型；其中的論文關(guān)鍵信息是包括：論文標(biāo)題、作者、論文收錄期刊或收錄的會(huì)議、論文發(fā)表機(jī)構(gòu)、論文發(fā)表年份；模型分析模塊：選擇論文所屬領(lǐng)域，以某一年的論文作為零引用論文集合，以設(shè)定時(shí)間段內(nèi)的論文作為訓(xùn)練集，通過隨機(jī)游走法分析學(xué)術(shù)網(wǎng)絡(luò)模型，得到論文的第一作者、會(huì)議或期刊、機(jī)構(gòu)、發(fā)表時(shí)間所對(duì)應(yīng)的特征值評(píng)分以及該論文的評(píng)分。與現(xiàn)有技術(shù)相比，本發(fā)明具有如下的有益效果：1、本發(fā)明基于現(xiàn)有數(shù)據(jù)迭代處理構(gòu)建算法中的基本參數(shù)，根據(jù)算法模型的表現(xiàn)實(shí)現(xiàn)自動(dòng)訓(xùn)練進(jìn)化，在面對(duì)大數(shù)據(jù)情況下實(shí)現(xiàn)算法的并行處理，使用了全新的論文排序思想，從而使得新發(fā)表的論文得到更加有效地推薦，滿足廣大科研工作者的檢索需求。2、本發(fā)明有效解決了零引用文章排序問題，通過結(jié)合隨機(jī)游走模型及自適應(yīng)算法，分析傳統(tǒng)排序算法沒有考慮到的信息，尤其適用于新發(fā)表的論文的未來影響力及重要程度的分析，得到其優(yōu)先排序結(jié)果。附圖說明通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯：圖1為本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦方法的流程圖；圖2為導(dǎo)出時(shí)間衰減因子的數(shù)據(jù)信息示意圖；圖3為學(xué)術(shù)網(wǎng)絡(luò)模型示意圖；圖4為訓(xùn)練集的選取示意圖；圖5為并行算法的運(yùn)行時(shí)間示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明，但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是，對(duì)本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變化和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。根據(jù)本發(fā)明提供的基于隨機(jī)游走模型的零引用文章推薦方法，包括如下步驟：步驟S1：構(gòu)建學(xué)術(shù)網(wǎng)絡(luò)模型，并采用隨機(jī)游走的方法，求取撰寫每篇論文的第一作者，接納該篇論文的會(huì)議或期刊以及發(fā)表該篇論文的機(jī)構(gòu)這三個(gè)特征值的評(píng)分及論文評(píng)分；現(xiàn)對(duì)實(shí)施步驟中涉及使用的符號(hào)做說明，說明情況見表1。表1.符號(hào)定義說明由于互聯(lián)網(wǎng)上的論文資源分布十分分散，并且每年的數(shù)據(jù)量更新都十分巨大，所以對(duì)于學(xué)術(shù)網(wǎng)絡(luò)模型的構(gòu)建主要分為兩個(gè)步驟，由步驟S1.1和步驟S1.2組成，包括數(shù)據(jù)的獲取與整合；此后在對(duì)該模型的分析主要采用了隨機(jī)游走的辦法，此算法的具體展開由步驟S1.3完成。以下是步驟一所涉及的詳細(xì)步驟：步驟S1.1：使用微軟提供的學(xué)術(shù)圖譜數(shù)據(jù)資源，獲取自1800年至今發(fā)表的所有論文資源，步驟S1.2：采用優(yōu)化的文本分析工具，通過對(duì)論文關(guān)鍵信息的提取，建立包含四類點(diǎn)集以及四類邊集的學(xué)術(shù)網(wǎng)絡(luò)模型。(模型見附圖3)步驟A1：建立學(xué)術(shù)網(wǎng)絡(luò)模型，用G來表示該學(xué)術(shù)網(wǎng)絡(luò)：G＝(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)邊(pv,pu)∈EPP表示論文v引用一次論文u；邊(pv,au)∈EPA表示論文v的第一作者是u；邊(pv,vu)∈EPV表示論文v被發(fā)表在會(huì)議或期刊u上；邊(pv,fu)∈EPF表示論文v的來自機(jī)構(gòu)u。其中：P，A，V，F(xiàn)分別表示論文、作者、會(huì)議及期刊、機(jī)構(gòu)所構(gòu)成的四類點(diǎn)集，pv表示論文v，pu表示論文u，au表示作者u，vu表示會(huì)議及期刊u，fu表示機(jī)構(gòu)u，EPP、EPA、EPV、EPF分別表示論文間、論文與作者、論文與會(huì)議及期刊、論文與機(jī)構(gòu)的連線。步驟A2：建立學(xué)術(shù)網(wǎng)絡(luò)模型中的論文、時(shí)間對(duì)應(yīng)關(guān)系：學(xué)術(shù)網(wǎng)絡(luò)G中論文發(fā)表年份表示為t0＜t1＜…＜tcrt，其中t0表示網(wǎng)絡(luò)中最早發(fā)表的論文的年份1800年，tcrt表示當(dāng)前年份。步驟A3：建立零引用論文數(shù)據(jù)集Z：Z＝{pz∈P|t(pz)＝tcrt}式中：pz表示在集合Z中的論文；t(pz)表示論文的發(fā)表年份；tcrt表示當(dāng)前年份。步驟S1.3：在各領(lǐng)域下，以2011年的論文作為零引用論文集合，通過特征值評(píng)分及論文評(píng)分。由于論文、作者、會(huì)議及期刊、機(jī)構(gòu)的評(píng)分是互相關(guān)聯(lián)的，所以我們?cè)O(shè)計(jì)了優(yōu)化隨機(jī)游走方法進(jìn)行特征值提取。特征值評(píng)分及論文評(píng)分的步驟如下：步驟B1：設(shè)定參數(shù)：ω1,ω2,ω3,ω4,ω5,ρ,tcrt，其中，參數(shù)ω1表示其余論文對(duì)得分的貢獻(xiàn)權(quán)重，ω2表示作者對(duì)論文得分的貢獻(xiàn)權(quán)重，ω3表示收錄該論文的會(huì)議及期刊對(duì)該論文得分的貢獻(xiàn)權(quán)重，ω4表示發(fā)表該論文的機(jī)構(gòu)對(duì)論文得分的貢獻(xiàn)權(quán)重，ω5表示論文發(fā)表年份對(duì)論文得分的貢獻(xiàn)權(quán)重，ρ表示論文發(fā)表時(shí)間的重要性參數(shù)，tcrt表示當(dāng)前年份。步驟B2：初始化論文分值，計(jì)算公式如下：式中：pi表示任意一篇論文，N表示領(lǐng)域內(nèi)論文數(shù)，i表示第i篇論文，取值范圍為0-N；步驟B3：通過論文分值分別計(jì)算作者、會(huì)議或期刊、機(jī)構(gòu)的得分，計(jì)算公式如下：式中：ai表示作者i得分，vi表示會(huì)議及期刊i得分，fi表示機(jī)構(gòu)i得分，Ai表示作者i，pj表示論文j，AVG(·)為平均得分計(jì)算函數(shù)；步驟B4：計(jì)算論文的得分，計(jì)算公式如下：式中：pi'表示任意一篇論文i，pj表示被論文i引用的論文j，aj表示論文i的作者得分，vj表示論文i的收錄期刊或會(huì)議得分，fj表示論文i的發(fā)表機(jī)構(gòu)得分，ti表示論文i的發(fā)表年份，ZA,ZV,ZF,ZT為歸一化變量，ρ為時(shí)間衰減因子。衰減因子ρ的計(jì)算：選取計(jì)算機(jī)科學(xué)領(lǐng)域的論文，共8884763篇。根據(jù)每篇論文發(fā)表后的年份以及至該年份為止論文的引用次數(shù)的平均值，作出被引用數(shù)-時(shí)間曲線，如附圖2所示。忽略前兩個(gè)點(diǎn)，使用指數(shù)函數(shù)擬合該曲線得到最佳的結(jié)果：ce-0.124t因此，采用ρ＝-0.124作為時(shí)間衰減因子。對(duì)信息不完全點(diǎn)的處理由于在數(shù)據(jù)集中，作者、會(huì)議及期刊、機(jī)構(gòu)的信息不總是完整的，所以為了解決這個(gè)問題，采用了虛擬節(jié)點(diǎn)的辦法，譬如如果論文u沒有作者信息，則假設(shè)一位虛擬作者，且假設(shè)該作者僅發(fā)表了這一篇論文u。平均得分函數(shù)的具體實(shí)施過程：參考PageRank算法實(shí)現(xiàn)的思想，計(jì)算論文得分建立圖GP＝(P,EPP),GA＝(P∪A,EPA),GV＝(P∪V,EPV),GF＝(P∪F,EPF),各自包含了相應(yīng)的點(diǎn)集和邊集；GP表示論文圖，GA表示作者圖，GV表示期刊及會(huì)議圖，GF表示機(jī)構(gòu)圖；首先計(jì)算作者、會(huì)議及期刊、機(jī)構(gòu)的得分，初始論文得分均為a＝AAp{計(jì)算作者得分矩陣a}v＝AVp{計(jì)算會(huì)議或期刊得分矩陣v}f＝AFp{計(jì)算機(jī)構(gòu)得分矩陣f}AA,AV,AF為歸一化的鄰接矩陣，分別記錄了作者與論文，會(huì)議及期刊與論文，機(jī)構(gòu)與論文的關(guān)系，然后重復(fù)計(jì)算論文的得分：為AA,AV,AF的轉(zhuǎn)置矩陣，分別記錄了論文與作者，論文與會(huì)議及期刊，論文與機(jī)構(gòu)的關(guān)系，最終當(dāng)p收斂，即|pk-pk+1|＜10-9時(shí)結(jié)束計(jì)算。步驟B5：設(shè)置零引用論文集合(如圖4所示)，將2011年作為當(dāng)前年份，隱藏當(dāng)前年份之后年份的信息，得到零引用論文集合。步驟B6：特征值提取，將1800年至2010年的論文設(shè)定為訓(xùn)練集，并采用優(yōu)化隨機(jī)游走方法對(duì)訓(xùn)練集進(jìn)行特征值提取。步驟S2：采用排序?qū)W習(xí)算法，選取數(shù)據(jù)構(gòu)建訓(xùn)練集，選取弱分類器并根據(jù)單個(gè)弱分類器修改現(xiàn)有排序模型，不斷重復(fù)上述操作直到得到最優(yōu)模型；為解決結(jié)合步驟S1中不同特征值訓(xùn)練排序模型的問題，傳統(tǒng)方法是選擇線性回歸或K近鄰算法，然而此類方法對(duì)于上述問題并不適用。因?yàn)閷?duì)兩篇來自不同時(shí)間段的論文，論文被引用數(shù)量受到年份和歷史因素的影響，因此對(duì)這兩篇論文進(jìn)行排序是不合理的。因此采用排序?qū)W習(xí)算法，針對(duì)來自不同時(shí)間段的論文分別進(jìn)行分析，具體實(shí)施步驟如下：步驟S2.1：選定t為從t0到tcrt-1時(shí)刻的各個(gè)時(shí)間節(jié)點(diǎn)，將t時(shí)刻已經(jīng)發(fā)生的論文引用關(guān)系構(gòu)建成t片段，全部共tcrt-t0個(gè)片段構(gòu)建成“零引用論文集”，實(shí)驗(yàn)中由于t0非關(guān)鍵作用，將t0賦值為tcrt-10；步驟S2.2：采用步驟S1的特征值提取算法，針對(duì)步驟S2.1構(gòu)建的“零引用論文集”，得到包含tcrt-t0個(gè)片段數(shù)據(jù)特征值的訓(xùn)練集其中分別代表t片段中的“作者”，“會(huì)議”，“機(jī)構(gòu)”特征值，yt代表t片段的實(shí)際引用排名；步驟S2.3，針對(duì)步驟S2.2中所產(chǎn)生的訓(xùn)練集S，采用AdaRank算法進(jìn)行迭代，迭代中每一輪加入新的弱分類器kn，調(diào)整新分類器的權(quán)重αn，加入當(dāng)前排序模型得到新模型rn，當(dāng)分類器表現(xiàn)不再提升時(shí)，迭代結(jié)束，得到最優(yōu)排序模型，r表示最初加入的排序模型，由“作者”，“會(huì)議”，“機(jī)構(gòu)”三部分特征值的權(quán)重組成。步驟S3：并行隨機(jī)游走部分，是在步驟S1的隨機(jī)游走部分的基礎(chǔ)上發(fā)明并行化解決方案，節(jié)省算法運(yùn)行時(shí)間，減少空間需求；由于步驟S1的隨機(jī)游走部分有著O(M)的時(shí)間復(fù)雜度和O(M+N)的空間復(fù)雜度，其中M代表學(xué)術(shù)網(wǎng)絡(luò)模型中邊的數(shù)量，N代表訓(xùn)練集中論文的總數(shù)量，使得讓其在單個(gè)機(jī)器上運(yùn)行變得不現(xiàn)實(shí)，所以提出了一個(gè)隨機(jī)游走的并行化解決方案。步驟S3.1：RankAVF主要針對(duì)學(xué)術(shù)網(wǎng)絡(luò)模型中的作者，會(huì)議以及機(jī)構(gòu)三個(gè)對(duì)于論文評(píng)分有主要影響的三個(gè)因素進(jìn)行評(píng)分。其過程就是，采取步驟一中的特征值提取算法，在學(xué)術(shù)網(wǎng)絡(luò)模型中分別提取作者、會(huì)議、機(jī)構(gòu)節(jié)點(diǎn)相鄰論文節(jié)點(diǎn)的特征值，將其取平均計(jì)算出其特征值，以計(jì)算出的新特征值代替節(jié)點(diǎn)上原有的特征值，實(shí)現(xiàn)網(wǎng)絡(luò)的更新，再把計(jì)算得的新特征值傳遞給相鄰論文節(jié)點(diǎn)，完成一次AVF的迭代。計(jì)算公式如下：{通過論文分值p計(jì)算作者得分a}{通過論文分值p計(jì)算會(huì)議得分v}{通過論文分值p計(jì)算機(jī)構(gòu)得分f}式中：AVG代表平均值函數(shù)。步驟S3.2：RankP過程就是基于上一次迭代得到的論文節(jié)點(diǎn)特征值以及相鄰作者、會(huì)議、機(jī)構(gòu)節(jié)點(diǎn)的特征值計(jì)算新的論文節(jié)點(diǎn)的特征值并更新，把計(jì)算得的新特征值傳遞給該論文節(jié)點(diǎn)的后繼論文節(jié)點(diǎn)和相鄰的作者、會(huì)議、機(jī)構(gòu)節(jié)點(diǎn)。計(jì)算公式如下：式中：AVG代表平均值函數(shù)，exp代表指數(shù)函數(shù)。步驟S3.3：以上兩個(gè)針對(duì)學(xué)術(shù)網(wǎng)絡(luò)模型里單個(gè)節(jié)點(diǎn)的算法，不斷并行的迭代，如果所有論文節(jié)點(diǎn)計(jì)算得的特征值均收斂，算法便停止迭代，即得到對(duì)于新發(fā)表學(xué)術(shù)論文的評(píng)分。以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是，本發(fā)明并不局限于上述特定實(shí)施方式，本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改，這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。在不沖突的情況下，本申請(qǐng)的實(shí)施例和實(shí)施例中的特征可以任意相互組合。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳崢;鄧豐雨;宋振宇;王樂群;李世韜;吳昊;楊蘊(yùn)意;楊雨城;何偉堃;廖一鳴;齊雨;趙璟浩;傅洛伊;王新兵;
技術(shù)所有人：上海交通大學(xué);
我是此專利的發(fā)明人

上一篇：移動(dòng)支付方式選擇方法及系統(tǒng)與流程
上一篇：共享單車的支付方法、用戶終端及系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

隨機(jī)游走模型相關(guān)技術(shù)

馬爾科夫隨機(jī)游走模型相關(guān)技術(shù)

隨機(jī)游走模型公式相關(guān)技術(shù)

時(shí)間序列隨機(jī)游走模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于隨機(jī)游走模型的零引用文章推薦方法及系統(tǒng)與流程