一種面向文獻(xiàn)搜索系統(tǒng)的搜索提示詞的生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別涉及一種面向文獻(xiàn)搜索系統(tǒng)的搜索提示詞的 生成方法。
【背景技術(shù)】
[0002] 在大部分文獻(xiàn)搜索引擎中,提示框中的提示詞的生成方法有兩種,第一是學(xué)科分 類(lèi),第二是根據(jù)所有用戶(hù)的搜索記錄,在提示框中自動(dòng)添加搜索頻率最高的相關(guān)詞作為提 示詞。屬于一種協(xié)同過(guò)濾的提示詞生成方法。如:國(guó)內(nèi)的中國(guó)知識(shí)基礎(chǔ)設(shè)施工程(China National Knowledge Infrastructure,縮寫(xiě)為 CNKI,簡(jiǎn)稱(chēng)中國(guó)知網(wǎng));國(guó)外的 Google Scholar,IEEE Xplore,ACM Digital Library等。這些搜索引擎使用的搜索提示詞技術(shù)大 致相同,均是按作者、文獻(xiàn)名稱(chēng)、搜索熱詞、與原始查詢(xún)?cè)~具有包含關(guān)系的詞來(lái)提供搜索提 示詞,或者加入一些按照提示詞新舊程度排序的算法,或者使用查詢(xún)擴(kuò)展技術(shù),以解決檢索 過(guò)程中用戶(hù)搜索詞與檢索系統(tǒng)詞庫(kù)不匹配的問(wèn)題,提高信息檢索的召回率和準(zhǔn)確率。但這 些技術(shù)均存在不能全面獲取用戶(hù)興趣的問(wèn)題,關(guān)鍵在于它們無(wú)法將用戶(hù)個(gè)人瀏覽行為與認(rèn) 知心理學(xué)結(jié)合從而智能推理出用戶(hù)興趣,進(jìn)而根據(jù)用戶(hù)興趣來(lái)提供搜索提示詞,因此無(wú)法 滿(mǎn)足用戶(hù)個(gè)性化需求,不具備搜索提示詞應(yīng)有的個(gè)性化特征。
【發(fā)明內(nèi)容】
[0003] 針對(duì)現(xiàn)有技術(shù)存在的缺陷,本發(fā)明的目的是提供一種面向文獻(xiàn)搜索系統(tǒng)的搜索提 示詞的生成方法。在用戶(hù)下載文獻(xiàn)過(guò)程中抽取文獻(xiàn)的核心語(yǔ)義,并融合多篇下載文獻(xiàn)的核 心語(yǔ)義,從中抽取用戶(hù)個(gè)性化的需求提示詞網(wǎng)絡(luò)。將該方法添加到當(dāng)前文獻(xiàn)搜索系統(tǒng)中能 夠?yàn)橛脩?hù)提供個(gè)性化的搜索提示詞,減少搜索時(shí)間,提升用戶(hù)搜索體驗(yàn)。
[0004] 為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:
[0005] -種面向文獻(xiàn)搜索系統(tǒng)的搜索提示詞的生成方法,包括以下步驟:
[0006] S1、用戶(hù)輸入關(guān)鍵詞,文獻(xiàn)搜索系統(tǒng)返回文獻(xiàn)搜索結(jié)果,實(shí)時(shí)撲捉用戶(hù)下載行為, 獲取其下載的文獻(xiàn)文本;
[0007] S2、將用戶(hù)已下載的文獻(xiàn)文本按照下載順序首尾相連,組成一篇長(zhǎng)文本,抽取其關(guān) 鍵詞和關(guān)鍵詞之間的關(guān)系,構(gòu)建關(guān)鍵詞網(wǎng)絡(luò),作為該長(zhǎng)文本的核心語(yǔ)義;
[0008] S3、將長(zhǎng)文本的關(guān)鍵詞網(wǎng)絡(luò)融合成提不詞網(wǎng)絡(luò),實(shí)時(shí)抽取和顯不提不詞;
[0009] S4、判斷用戶(hù)是否仍有下載行為,若滿(mǎn)足跳轉(zhuǎn)至S2,不滿(mǎn)足跳轉(zhuǎn)至S5 ;
[0010] S5、結(jié)束提示詞生成。
[0011] 在步驟S2中,將用戶(hù)已下載的文獻(xiàn)文本按照下載順序首尾相連,具體方法是將文 獻(xiàn)文本的標(biāo)題、摘要、關(guān)鍵詞、正文和參考文獻(xiàn)分別首尾相連,組成一篇長(zhǎng)文本。
[0012] 在步驟S2中,所述長(zhǎng)文本中關(guān)鍵詞和關(guān)鍵詞之間的關(guān)系,是由掃描長(zhǎng)文本全文得 到的,包括以下步驟:
[0013] 步驟1、抽取長(zhǎng)文本的關(guān)鍵詞;
[0014] 步驟2、掃描全文過(guò)程中,若兩個(gè)關(guān)鍵詞出現(xiàn)在文獻(xiàn)文本集合中的同一個(gè)句子中, 則為這兩個(gè)關(guān)鍵詞節(jié)點(diǎn)建立邊的關(guān)系;
[0015] 步驟3、確定關(guān)鍵詞節(jié)點(diǎn)的權(quán)重,若關(guān)鍵詞i在文獻(xiàn)文本集合中出現(xiàn)的次數(shù)為m,則 該關(guān)鍵詞節(jié)點(diǎn)的權(quán)重為
[0016] 步驟4、確定關(guān)鍵詞節(jié)點(diǎn)間邊的權(quán)重,若兩個(gè)關(guān)鍵詞i與j在文獻(xiàn)文本集合中共現(xiàn) 且共現(xiàn)次數(shù)為n,則記i和j組成的邊為 ei],邊ei ]的權(quán)重為
[0017] 在步驟S3中,提示詞網(wǎng)絡(luò)是一個(gè)由7個(gè)節(jié)點(diǎn)組成的無(wú)向網(wǎng)絡(luò)GWN,選擇7個(gè)節(jié)點(diǎn)組 成提示詞網(wǎng)絡(luò)的理論依據(jù)是認(rèn)知心理學(xué)理論,人類(lèi)的短時(shí)記憶能力是7±2個(gè)模塊,因此選 擇中間值7從而便于用戶(hù)記憶,提示詞網(wǎng)絡(luò)GWN是從用戶(hù)下載文獻(xiàn)的關(guān)鍵詞網(wǎng)絡(luò)KWN中抽 取出的,因此提示詞網(wǎng)絡(luò)GWN的形式化定義與關(guān)鍵詞網(wǎng)絡(luò)KWN的形式化定義相同,即GWN = {V,WV, E,WE},KWN = {V,WV, E,WE},其中:
[0018] 節(jié)點(diǎn)集合V = Iv1, vy·· v7},KWN中的節(jié)點(diǎn)個(gè)數(shù)一般多于7個(gè);GWN中的節(jié)點(diǎn)個(gè)數(shù)一 般只包含7個(gè)節(jié)點(diǎn),其中,當(dāng)且僅當(dāng)在當(dāng)前長(zhǎng)文本中關(guān)鍵詞個(gè)數(shù)不足7個(gè)時(shí),節(jié)點(diǎn)數(shù)選取少 于7個(gè),且選中長(zhǎng)文本中的全部關(guān)鍵詞對(duì)應(yīng)的節(jié)點(diǎn)作為集合V的元素,每個(gè)節(jié)點(diǎn)V 1表示一 個(gè)最有價(jià)值的關(guān)鍵詞;
[0019] 節(jié)點(diǎn)的權(quán)重集合
Wv為節(jié)點(diǎn)V1的權(quán)重;
[0020] 節(jié)點(diǎn)間邊的集合E = {e^ I i, j彡η且i乒j}每一條無(wú)向邊表示兩個(gè)節(jié)點(diǎn)i, j 之間相連,η為節(jié)點(diǎn)的個(gè)數(shù),邊表示關(guān)鍵詞以句子為單位的共現(xiàn)關(guān)系,即若兩個(gè)關(guān)鍵詞出現(xiàn) 在長(zhǎng)文本中的同一個(gè)句子中,則為這兩個(gè)關(guān)鍵詞節(jié)點(diǎn)建立邊的關(guān)系,通過(guò)掃描長(zhǎng)文本得到 關(guān)鍵詞的共現(xiàn)次數(shù);
[0021] 節(jié)點(diǎn)間邊的權(quán)重
' 為邊eij的權(quán)重,每一條無(wú)向邊e ^ 表示兩個(gè)節(jié)點(diǎn)i, j之間相連,η為節(jié)點(diǎn)的個(gè)數(shù)。
[0022] 在步驟S3中,從長(zhǎng)文本的關(guān)鍵詞網(wǎng)絡(luò)中抽取提示詞網(wǎng)絡(luò)的過(guò)程是:計(jì)算關(guān)鍵詞網(wǎng) 絡(luò)中的每個(gè)節(jié)點(diǎn)的價(jià)值,選出價(jià)值最高的7個(gè)節(jié)點(diǎn),用這7個(gè)節(jié)點(diǎn)組成提示詞網(wǎng)絡(luò),具體而 言,關(guān)鍵詞網(wǎng)絡(luò)中的節(jié)點(diǎn)的價(jià)值不僅受自身權(quán)重的影響,而且也受到與之相連的節(jié)點(diǎn)的影 響,所以使用如下公式計(jì)算關(guān)鍵詞網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的價(jià)值,即Value(V 1):
[0024] 其中Vi, Vj表示關(guān)鍵詞網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)i, j ;e ^表示兩個(gè)節(jié)點(diǎn)i, j間的邊; ',乂,分別表示兩個(gè)節(jié)點(diǎn)i,j的權(quán)重;表示兩個(gè)節(jié)點(diǎn)i,j間邊的權(quán)重; '表示所有與 節(jié)點(diǎn)i相連的邊的權(quán)重之和;η為節(jié)點(diǎn)的個(gè)數(shù);以上公式計(jì)算得出Value值最大的7個(gè)節(jié)點(diǎn) 作為提示詞呈現(xiàn)給用戶(hù),這7個(gè)節(jié)點(diǎn)不僅自身權(quán)重較高,且與之相連的節(jié)點(diǎn)的權(quán)重也較高, 因此這7個(gè)節(jié)點(diǎn)能代表用戶(hù)該次搜索的核心語(yǔ)義;根據(jù)已經(jīng)得到的最有價(jià)值的7個(gè)節(jié)點(diǎn)與 相應(yīng)的邊及其權(quán)重,構(gòu)建提示詞網(wǎng)絡(luò),由于提示詞網(wǎng)絡(luò)是由關(guān)鍵詞網(wǎng)絡(luò)抽取得到的,所以提 示詞網(wǎng)絡(luò)同關(guān)鍵詞網(wǎng)絡(luò)有一致的結(jié)構(gòu)。
[0025] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下突出的實(shí)質(zhì)性特點(diǎn)和顯著的優(yōu)點(diǎn):
[0026] 本發(fā)明方法在當(dāng)前文獻(xiàn)搜索系統(tǒng)上添加實(shí)時(shí)個(gè)性化提示詞生成功能,通過(guò)撲捉用 戶(hù)的下載行為,獲取其下載的文獻(xiàn)文本集合,抽取文獻(xiàn)文本集合其核心語(yǔ)義作為用戶(hù)搜索 提示詞。另外,本方法中的提示詞的另一個(gè)顯著特色是不再以單個(gè)詞語(yǔ)出現(xiàn),而以提示詞網(wǎng) 絡(luò)的形式出現(xiàn);這樣的好處有兩點(diǎn):其一,能夠顯示關(guān)鍵詞之間的關(guān)系,其二,能夠進(jìn)行關(guān) 鍵詞的聯(lián)合搜索。
【附圖說(shuō)明】
[0027] 圖1是本發(fā)明面向文獻(xiàn)搜索系統(tǒng)的搜索提示詞的生成方法流程圖。
[0028] 圖2是實(shí)例中關(guān)鍵詞網(wǎng)絡(luò)融合成提示詞網(wǎng)絡(luò)的過(guò)程。
【具體實(shí)施方式】
[0029] 下面結(jié)合附圖,對(duì)本發(fā)明的具體實(shí)施例做進(jìn)一步的說(shuō)明。
[0030] 如圖1所示,一種面向文獻(xiàn)搜索系統(tǒng)的搜索提示詞的生成方法,包括以下步驟:
[0031] S1、用戶(hù)輸入關(guān)鍵詞,文獻(xiàn)搜索系統(tǒng)返回文獻(xiàn)搜索結(jié)果,實(shí)時(shí)撲捉用戶(hù)下載行為, 獲取其下載的文獻(xiàn)文本;
[0032] S2、將用戶(hù)已下載的文獻(xiàn)文本按照下載順序首尾相連,組成一篇長(zhǎng)文本,抽取其關(guān) 鍵詞和關(guān)鍵詞之間的關(guān)系,構(gòu)建關(guān)鍵詞網(wǎng)絡(luò),作為該長(zhǎng)文本的核心語(yǔ)義;
[0033] S3、將長(zhǎng)文本的關(guān)鍵詞網(wǎng)絡(luò)融合成提不詞網(wǎng)絡(luò),實(shí)時(shí)抽取和顯不提不詞;
[0034] S4、判斷用戶(hù)是否仍有下載行為,若滿(mǎn)足跳轉(zhuǎn)至S2,不滿(mǎn)足跳轉(zhuǎn)至S5 ;
[0035] S5、結(jié)束提示詞生成。
[0036] 在步驟S2中,將用戶(hù)已下載的文獻(xiàn)文本按照下載順序首尾相連,具體方法是將文 獻(xiàn)文本的標(biāo)題、摘要、關(guān)鍵詞、正文和參考文獻(xiàn)分別首尾相連,組成一篇長(zhǎng)文本。
[0037] 在步驟S2中,所述長(zhǎng)文本中關(guān)鍵詞和關(guān)鍵詞之間的關(guān)系,是由掃描長(zhǎng)文本全文得 到的,包括以下步驟:
[0038] 步驟1、抽取長(zhǎng)文本的關(guān)鍵詞;
[0039] 步驟2、掃描全文過(guò)程中,若兩個(gè)關(guān)鍵詞出現(xiàn)在文獻(xiàn)文本集合中的同一個(gè)句子中, 則為這兩個(gè)關(guān)鍵詞節(jié)點(diǎn)建立邊的關(guān)系;
[0040] 步驟3、確定關(guān)鍵詞節(jié)點(diǎn)的權(quán)重,若關(guān)鍵詞i在文獻(xiàn)文本集合中出現(xiàn)的次數(shù)為m,則 該關(guān)鍵詞節(jié)點(diǎn)的權(quán)重為
Vi表不關(guān)鍵詞網(wǎng)絡(luò)中的節(jié)點(diǎn)i ;
[0041] 步驟4、確定關(guān)鍵詞節(jié)點(diǎn)間邊的權(quán)重,若兩個(gè)關(guān)鍵詞i與j在文獻(xiàn)文本集合中共現(xiàn) 且共現(xiàn)次數(shù)為n,則記i和j組成的邊為 ei],邊ei ]的權(quán)重為
[0042] 在步驟S3中,提示詞網(wǎng)絡(luò)是一個(gè)由7個(gè)節(jié)點(diǎn)組成的無(wú)向網(wǎng)絡(luò)GWN,選擇7個(gè)節(jié)點(diǎn)組 成提示詞網(wǎng)絡(luò)的理論依據(jù)是認(rèn)知心理學(xué)理論,人類(lèi)的短時(shí)記憶能力是7±2個(gè)模塊,因此選 擇中間值7從而便于用戶(hù)記憶,提示詞網(wǎng)絡(luò)GWN是從用戶(hù)下載文獻(xiàn)的關(guān)鍵詞網(wǎng)絡(luò)KWN中抽 取出的,因此提示詞網(wǎng)絡(luò)GWN的形式化定義與關(guān)鍵詞網(wǎng)絡(luò)KWN的形式化定義相同,即GWN = {V,WV, E,WE},KWN = {V,WV, E,WE},其中:
[0043] 節(jié)點(diǎn)集合V = Iv1, V2…v·/},KWN中的節(jié)點(diǎn)個(gè)數(shù)一般多于7個(gè);GWN中的節(jié)點(diǎn)個(gè)數(shù)一 般只包含7個(gè)節(jié)點(diǎn),其中,當(dāng)且僅當(dāng)在當(dāng)前長(zhǎng)文本中關(guān)鍵詞個(gè)數(shù)不足7個(gè)時(shí),節(jié)點(diǎn)數(shù)選取少 于7個(gè),且選中長(zhǎng)文本中的全部關(guān)鍵詞對(duì)應(yīng)的節(jié)點(diǎn)作為集合V的元素,每個(gè)節(jié)點(diǎn)V 1表示一 個(gè)最有價(jià)值的關(guān)鍵詞;
[0044] 節(jié)點(diǎn)的權(quán)重集i
w'v為節(jié)點(diǎn)V1的權(quán)重;
[0045] 節(jié)點(diǎn)間邊的集合E = {e^ I i, j彡η且i乒j}每一條無(wú)向邊表示兩個(gè)節(jié)點(diǎn)i, j 之間相連,η為節(jié)點(diǎn)的個(gè)數(shù),邊表示關(guān)鍵詞以句子為單位的共現(xiàn)關(guān)系,即若兩個(gè)關(guān)鍵詞出現(xiàn) 在長(zhǎng)文本中的同一個(gè)句子中,則為這兩個(gè)關(guān)鍵詞節(jié)點(diǎn)建立邊的關(guān)系,通過(guò)掃描長(zhǎng)文本得到 關(guān)鍵詞的共現(xiàn)次數(shù);
[0046] 節(jié)點(diǎn)間邊的權(quán)重
%為邊的權(quán)重,每一條無(wú)向邊e ^ 表示兩個(gè)節(jié)點(diǎn)i, j之間相連,η為節(jié)點(diǎn)的個(gè)數(shù)。
[0047] 在步驟S3中,從長(zhǎng)文本的關(guān)鍵詞網(wǎng)絡(luò)中抽取提示詞網(wǎng)絡(luò)的過(guò)程是:計(jì)算關(guān)鍵詞網(wǎng) 絡(luò)中的每個(gè)節(jié)點(diǎn)的價(jià)值,選出價(jià)值最高的7個(gè)節(jié)點(diǎn),用這7個(gè)節(jié)點(diǎn)組成提示詞網(wǎng)絡(luò),具體而 言,關(guān)鍵詞網(wǎng)絡(luò)中的節(jié)點(diǎn)的價(jià)值不僅受自身權(quán)重的影響,而且也受到與之相連的節(jié)點(diǎn)的影 響,所以使用如下公式計(jì)算關(guān)鍵詞網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的價(jià)值,即Value(V 1):
[0049] 其中Vi, Vj表示關(guān)鍵詞網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)i, j ;e ^表示兩個(gè)節(jié)點(diǎn)i, j間的邊; wVm.;'分別表示兩個(gè)節(jié)點(diǎn)i,j的權(quán)重;' 表示兩個(gè)節(jié)點(diǎn)i,j間邊的權(quán)重;%表示所有與節(jié) 點(diǎn)i相連的邊的權(quán)重之和;η為節(jié)點(diǎn)的個(gè)數(shù);以上公式計(jì)算得出Value值最大的7個(gè)節(jié)點(diǎn)作 為提示詞呈現(xiàn)給用戶(hù),這7個(gè)節(jié)點(diǎn)不僅自身權(quán)重較高,且與之相連的節(jié)點(diǎn)的權(quán)重也較高,因 此這7個(gè)節(jié)點(diǎn)能代表用戶(hù)該次搜索的核心語(yǔ)義;根據(jù)已