基于相關(guān)詞語語義分析的全文檢索系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于信息檢索技術(shù),提供一種基于相關(guān)詞語語義分析的全文檢索系統(tǒng),包括查詢信息接收模塊、基于相關(guān)詞語的概念語義分析模塊、語義知識(shí)庫模塊、檢索模塊、索引庫、索引模塊、基于相關(guān)詞語的主題語義分析模塊、結(jié)果集處理模塊和數(shù)據(jù)服務(wù)器。本發(fā)明系統(tǒng)是對(duì)傳統(tǒng)互聯(lián)網(wǎng)搜索引擎的改進(jìn),能夠?qū)ξ臋n進(jìn)行基于相關(guān)詞語的概念語義分析和基于相關(guān)詞語的主題語義分析,從而使用戶可得到更準(zhǔn)確、更全面、更智能化的查詢結(jié)果。
【專利說明】基于相關(guān)詞語語義分析的全文檢索系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索技術(shù),具體涉及一種基于相關(guān)詞語語義分析的全文檢索系統(tǒng)。
【背景技術(shù)】
[0002]隨著社會(huì)的快速發(fā)展,科學(xué)技術(shù)的不斷進(jìn)步,人們所能接觸的信息也成幾何級(jí)的增長,這些信息不斷累積便形成了我們熟知的“海量數(shù)據(jù)”。那么如何在海量數(shù)據(jù)中準(zhǔn)確而快速地檢索到用戶需要的信息成為了互聯(lián)網(wǎng)信息時(shí)代所面臨的機(jī)遇和挑戰(zhàn),搜索引擎的出現(xiàn)在一定程度上解決了這個(gè)問題。傳統(tǒng)的搜索引擎主要采用的技術(shù)是對(duì)需要檢索的文檔集進(jìn)行預(yù)處理如中文分詞,去停用詞等,并對(duì)文檔集建立倒排索引,然后對(duì)用戶提交的查詢?cè)~或者查詢語句進(jìn)行檢索,并通過計(jì)算它們與文檔之間的相似度來排序檢索到的文檔,最后將結(jié)果返回給用戶。
[0003]一直以來,搜索引擎在用戶提交檢索請(qǐng)求的時(shí)候只是把用戶輸入的查詢語句和文檔集進(jìn)行一個(gè)簡單的匹配,然后以簡單的統(tǒng)計(jì)學(xué)方法來對(duì)文檔集進(jìn)行檢索排序。但這遠(yuǎn)遠(yuǎn)達(dá)不到用戶的需求,也不能很好的挖掘出文檔中每個(gè)詞對(duì)文檔主題的貢獻(xiàn)度,盡管有些搜索引擎可以根據(jù)用戶需求進(jìn)行簡單的擴(kuò)展或者個(gè)性化的檢索。但是這些都沒有挖掘出文檔中深層次的語義信息,這使得很多在字面形式上和查詢無關(guān)但是在語義上和查詢語句很緊密的文檔沒有被檢索出來,從而造成了搜索引擎檢索的不全面性和不完整性。同樣,只是僅僅從字面形式來對(duì)用戶輸入的查詢語句和文檔進(jìn)行匹配使得用戶得到的結(jié)果往往不是自己所需要的。尤其是漢語博大精深,很多字或者詞具有多種含義,在不同的語境中表達(dá)著不同的含義,而且有些含義差別很大,以上這些都是搜索引擎在搜索時(shí)遇到的瓶頸。
[0004]隨著信息檢索技術(shù)的發(fā)展,為了很好的滿足用戶的需求,簡單的從統(tǒng)計(jì)的角度來對(duì)查詢語句進(jìn)行匹配顯然已經(jīng)不能滿足時(shí)代的需求了。人們需要搜索引擎能夠智能化地去理解用戶查詢語句的內(nèi)在含義,同時(shí)也能夠充分地去挖掘文檔中詞語對(duì)文檔主題的貢獻(xiàn)度,從語義貢獻(xiàn)度的角度對(duì)查詢語句和文檔進(jìn)行智能化地匹配,這樣能夠給用戶一個(gè)更準(zhǔn)確、更全面和更人性化的查詢結(jié)果。為了提高搜索引擎的檢索性能,我們?cè)跈z索系統(tǒng)中采用基于相關(guān)詞語的概念語義分析方法和基于相關(guān)詞語的主題語義分析方法,將傳統(tǒng)的基于關(guān)鍵字或者詞匹配的檢索系統(tǒng)提升到基于相關(guān)詞語的語義分析基礎(chǔ)上,這是提高檢索準(zhǔn)確率的關(guān)鍵之處。
【發(fā)明內(nèi)容】
[0005]本發(fā)明是為了克服上面所說的傳統(tǒng)搜索引擎的不足,提出一種基于相關(guān)詞語語義分析的全文檢索系統(tǒng)。該系統(tǒng)采用了基于相關(guān)詞語的概念語義分析方法和基于相關(guān)詞語的主題語義分析方法,能夠準(zhǔn)確分析和計(jì)算相關(guān)詞語與語義標(biāo)簽之間的語義相關(guān)量化關(guān)系,這里語義標(biāo)簽是指代語義中的一個(gè)知識(shí)單元,也即概念。而且該系統(tǒng)還能夠得到相關(guān)詞語對(duì)文檔主題的貢獻(xiàn)度,從而使搜索引擎能很好地理解文檔的語義和查詢語句的語義而不是簡單地統(tǒng)計(jì)詞頻和查詢匹配,進(jìn)而使搜索引擎更準(zhǔn)確地理解用戶的需求,返回給用戶更加全面、智能的檢索結(jié)果。該系統(tǒng)是對(duì)傳統(tǒng)互聯(lián)網(wǎng)搜索引擎的改進(jìn),能夠?qū)ξ臋n進(jìn)行基于相關(guān)詞語的概念語義分析和基于相關(guān)詞語的主題語義分析,從而使用戶可得到更準(zhǔn)確、更全面、更智能化的查詢結(jié)果。
[0006]本發(fā)明是由以下技術(shù)方案實(shí)現(xiàn)的:基于相關(guān)詞語語義分析的全文檢索系統(tǒng),本系統(tǒng)包括查詢信息接收模塊、基于相關(guān)詞語的概念語義分析模塊、語義知識(shí)庫模塊、檢索模塊、索引庫、索引模塊、基于相關(guān)詞語的主題語義分析模塊、結(jié)果集處理模塊和數(shù)據(jù)服務(wù)器。
[0007]查詢信息接收模塊用于接收用戶輸入的查詢語句,對(duì)查詢語句進(jìn)行中文分詞和去停用詞處理之后,將其提交給基于相關(guān)詞語的概念語義分析模塊并且提交給檢索模塊進(jìn)行檢索服務(wù)。
[0008]基于相關(guān)詞語的概念語義分析模塊采用基于相關(guān)詞語的概念語義分析方法,得到詞語之間的語義相關(guān)量化關(guān)系,并提交給語義知識(shí)庫模塊。
[0009]語義知識(shí)庫模塊存儲(chǔ)詞語及其相關(guān)詞群和貢獻(xiàn)度信息。從查詢信息接收模塊中得到用戶輸入的查詢?cè)~,在語義知識(shí)庫中檢索,將查詢?cè)~對(duì)應(yīng)的相關(guān)詞群及貢獻(xiàn)度返回給基于相關(guān)詞語的概念語義分析模塊。
[0010]檢索模塊為用戶提供檢索服務(wù)。檢索模塊負(fù)責(zé)接收查詢信息接收模塊的指令,將查詢語句提交給索引庫進(jìn)行查詢匹配、返回所有與查詢語句匹配的文檔信息,并對(duì)檢索結(jié)果集進(jìn)行排序處理,將排序后的結(jié)果集提交給結(jié)果集處理模塊。
[0011]索引庫存儲(chǔ)由索引模塊對(duì)文檔建立的索引,索引庫還根據(jù)檢索模塊提交的查詢請(qǐng)求在索引中快速檢索,并將結(jié)果返回給檢索模塊。
[0012]索引模塊接收數(shù)據(jù)服務(wù)器提供的文檔,對(duì)文檔內(nèi)容,標(biāo)題和自定義信息進(jìn)行中文分詞和去停用詞處理得到索引詞,利用索引詞和文檔相關(guān)信息建立索引。
[0013]基于相關(guān)詞語的主題語義分析模塊采用基于相關(guān)詞語的主題語義分析方法,通過對(duì)文檔進(jìn)行主題語義分析,得到每個(gè)詞與文檔之間的語義相關(guān)量化關(guān)系,即對(duì)文檔主題的貢獻(xiàn)度,最后把這些運(yùn)用到檢索中提高搜索引擎的檢索效果。
[0014]結(jié)果集處理模塊用于接收來自檢索模塊的結(jié)果集,并根據(jù)索引庫的信息建立結(jié)果集的文摘信息和快照信息,并對(duì)返回結(jié)果進(jìn)行反顯、回顯和分頁處理。
[0015]數(shù)據(jù)服務(wù)器用于存儲(chǔ)知識(shí)數(shù)據(jù)詞典,如中文分詞詞典,停用詞表等、文檔集,為基于相關(guān)詞語的概念語義分析模塊提供數(shù)據(jù)資源和管理服務(wù),為基于相關(guān)詞語的主題語義分析模塊和索引模塊提供文檔集。
[0016]本發(fā)明系統(tǒng)針對(duì)目前搜索引擎不能很好地理解文檔中詞對(duì)文檔主題的語義貢獻(xiàn)度的缺點(diǎn)和不能智能化地反饋搜索結(jié)果而提出了以下兩個(gè)方面的解決辦法:基于相關(guān)詞語的概念語義分析方法和基于相關(guān)詞語的主題語義分析方法。通過從文檔中詞語的位置關(guān)系獲取相關(guān)詞語對(duì)語義標(biāo)簽的貢獻(xiàn)度和對(duì)文檔相關(guān)詞語的主題進(jìn)行語義分析,得到相關(guān)詞語對(duì)主題的貢獻(xiàn)度,進(jìn)而找到在語義上與查詢語句相關(guān)的文檔,從而使搜索引擎很好地理解文檔的語義而不是通過簡單的統(tǒng)計(jì)詞頻去匹配。這使得搜索引擎能更好地理解用戶的需求,給用戶更加全面、智能的結(jié)果反饋。具體而言,本發(fā)明具有如下特點(diǎn):
(I)查全率高:該系統(tǒng)能對(duì)相關(guān)詞語進(jìn)行概念語義分析,不同于傳統(tǒng)搜索引擎在統(tǒng)計(jì)的基礎(chǔ)上進(jìn)行查找,該系統(tǒng)能夠在概念語義層次上對(duì)查詢進(jìn)行匹配,避免了詞語對(duì)文檔貢獻(xiàn)度的丟失帶來的影響,從而提高了檢索的查全率。
[0017](2)查準(zhǔn)率高:該系統(tǒng)通過對(duì)文檔進(jìn)行主題語義相關(guān)分析,對(duì)文檔主題信息進(jìn)行量化分析,返回語義上最相關(guān)的檢索結(jié)果文檔,給用戶提供最準(zhǔn)確的檢索結(jié)果,實(shí)現(xiàn)查詢語句與檢索結(jié)果文檔的準(zhǔn)確匹配,從而提高檢索的查準(zhǔn)率。
[0018](3)智能化高:通過相關(guān)詞語的主題語義分析,該系統(tǒng)能夠?qū)ο嚓P(guān)詞語進(jìn)行主題語義分析得到相關(guān)詞語對(duì)文檔主題的貢獻(xiàn)度,準(zhǔn)確理解用戶的查詢含義。同時(shí)系統(tǒng)通過相關(guān)詞語的主題語義分析,能夠準(zhǔn)確理解文檔的主題信息,消除掉不符合語義的檢索結(jié)果。通過概念和主題相結(jié)合的語義分析,檢索系統(tǒng)能夠理解查詢語句和文檔的語義,最終檢索出準(zhǔn)確合理的結(jié)果,滿足用戶的檢索需求。
【專利附圖】
【附圖說明】
[0019]圖1是本發(fā)明基于相關(guān)詞語語義分析的全文檢索系統(tǒng)的體系結(jié)構(gòu)圖。
[0020]圖2是本發(fā)明基于相關(guān)詞語語義分析的全文檢索系統(tǒng)的模塊結(jié)構(gòu)示意圖。
[0021]圖3是本發(fā)明中查詢信息接收模塊的工作流程圖。
[0022]圖4是本發(fā)明中基于相關(guān)詞語的概念語義分析模塊流程圖。
[0023]圖5是本發(fā)明中基于相關(guān)詞語的概念語義分析模塊中相關(guān)詞語概念語義獲取流程圖。
[0024]圖6是本發(fā)明中檢索模塊的工作流程圖。
[0025]圖7是本發(fā)明中基于相關(guān)詞語的主題語義分析模塊中文檔層次語義處理的概率模型圖。
[0026]圖8是本發(fā)明中結(jié)果集處理模塊的工作流程圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。
[0028]如圖1所示,本發(fā)明提供的基于相關(guān)詞語語義分析的全文檢索系統(tǒng)包括查詢信息接收模塊100、基于相關(guān)詞語的概念語義分析模塊200、語義知識(shí)庫300、檢索模塊400、索引庫500、索引模塊600、基于相關(guān)詞語的主題語義分析模塊700、結(jié)果集處理模塊800和數(shù)據(jù)服務(wù)器900。
[0029]查詢信息接收模塊100用于接收用戶輸入的查詢信息并進(jìn)行一定的規(guī)范化處理,如中文分詞、去停用詞等,然后請(qǐng)求檢索模塊400進(jìn)行檢索服務(wù)。
[0030]如圖3所示,查詢信息接收模塊100的處理流程為:(I)用戶輸入查詢語句,提交查詢請(qǐng)求;(2)系統(tǒng)將用戶查詢請(qǐng)求提交給檢索模塊400。
[0031]基于相關(guān)詞語的概念語義分析模塊200通過對(duì)從數(shù)據(jù)服務(wù)器900得到的文檔運(yùn)用基于相關(guān)詞語的概念語義分析方法得到相關(guān)詞對(duì)語義標(biāo)簽的貢獻(xiàn)度,把它們提交到語義知識(shí)庫模塊300,然后計(jì)算文檔中詞的詞頻和詞的反文檔頻率的乘積的大小,得到其中乘積較大的幾個(gè)詞,從語義知識(shí)庫模塊300中查找這幾個(gè)詞對(duì)應(yīng)的相關(guān)詞,將它們作為基于相關(guān)詞語的主題語義分析模塊700的輸入,最后通過基于相關(guān)詞語的主題語義分析得到了文檔的每一個(gè)詞在這些主題上的分布,從而達(dá)到充分理解文檔含義的目的。
[0032]語義知識(shí)庫300存儲(chǔ)詞語及其相關(guān)詞群和貢獻(xiàn)度信息。對(duì)查詢語句語義處理模塊200提交的查詢?cè)~,在庫中檢索,將查詢?cè)~對(duì)應(yīng)的相關(guān)詞及貢獻(xiàn)度返回給基于相關(guān)詞語的概念語義分析模塊200。
[0033]檢索模塊400為用戶提供檢索系統(tǒng)的使用界面,并提供準(zhǔn)確、完備的檢索服務(wù);查詢模塊410負(fù)責(zé)接收查詢信息接收模塊100的指令;根據(jù)查詢內(nèi)容在索引庫500中進(jìn)行查詢匹配,返回與查詢語句匹配的所有文檔信息,根據(jù)系統(tǒng)的文檔排序打分算法(系統(tǒng)使用Lucene的文檔打分算法并融合基于相關(guān)詞語的主題語義分析模塊700得到的相關(guān)詞語對(duì)文檔貢獻(xiàn)度的加權(quán)),對(duì)返回的所有文檔進(jìn)行排序,最后將排序后的結(jié)果集遞交給結(jié)果集處理模塊800。
[0034]索引庫500用于存儲(chǔ)由索引模塊600對(duì)文檔及其對(duì)應(yīng)主題相關(guān)信息建立的索引,索引庫500還根據(jù)檢索模塊400提交的查詢請(qǐng)求在索引中快速檢索和排序,并返回檢索模塊400所提交請(qǐng)求的對(duì)應(yīng)結(jié)果。
[0035]索引模塊600用于接收數(shù)據(jù)服務(wù)器900提供的文檔,并接收基于相關(guān)詞語的主題語義分析模塊700提供的詞語對(duì)文檔的語義貢獻(xiàn)度,對(duì)文檔內(nèi)容,標(biāo)題和自定義信息處理得到索引詞,對(duì)索引詞和文檔相關(guān)信息建立索引。
[0036]基于相關(guān)詞語的主題語義分析模塊700接收數(shù)據(jù)服務(wù)器900提供的文檔集,通過對(duì)其進(jìn)行相關(guān)詞語的主題語義分析,提取文檔層次詞語對(duì)文檔語義貢獻(xiàn)度,并將其提交給索引模塊600。
[0037]結(jié)果集處理模塊800用于接收來自檢索模塊400的結(jié)果集,并根據(jù)索引庫500的信息建立結(jié)果集的文摘信息和快照信息,并對(duì)返回結(jié)果進(jìn)行反顯、回顯和分頁處理。
[0038]數(shù)據(jù)服務(wù)器900用于存儲(chǔ)文檔集,為基于相關(guān)詞語的概念語義分析模塊200提供數(shù)據(jù)資源和管理服務(wù),為索引模塊600和基于相關(guān)詞語的主題語義分析模塊700提供數(shù)據(jù)支持。
[0039]下面分別舉例對(duì)基于相關(guān)詞語的概念語義分析模塊200、檢索模塊400、基于相關(guān)詞語的主題語義分析模塊700和結(jié)果集處理模塊800作進(jìn)一步的詳細(xì)說明。
[0040]如圖2所示,基于相關(guān)詞語的概念語義分析模塊200包括文檔預(yù)處理模塊210和語義相關(guān)度獲取模塊220。
[0041]文本預(yù)處理模塊210對(duì)文檔進(jìn)行中文分詞、去停用詞(包括標(biāo)點(diǎn)、數(shù)字、單字和其它一些無意義的詞)以及文檔特征提取和詞頻統(tǒng)計(jì)、文檔向量化等操作。這里中文分詞都是采用雙向最大匹配分詞算法。
[0042]該模塊涉及的雙向最大匹配分詞算法的思想是:(1)從左向右取待切分句子的個(gè)字符作為匹配字段,?為字典中最長詞條個(gè)數(shù)。(2)查找詞典進(jìn)行匹配,若匹配成功,則將匹配字段作為一個(gè)詞切分出來,否則將匹配字段的最后一個(gè)字去掉,進(jìn)行再次匹配,重復(fù)以上過程,直到切分出所有詞為止。(3)按照上面的逆向進(jìn)行匹配,若匹配不成功,將匹配字段的前一個(gè)字去掉,重復(fù)以上過程,直到切分出所有詞為止。(4)將(I)、(2)和(3)的結(jié)果進(jìn)行比較,從而決定正確的分詞。
[0043]語義相關(guān)度獲取模塊220,采用基于相關(guān)詞語的概念語義分析方法來獲取詞對(duì)語義標(biāo)簽的語義貢獻(xiàn)度。
[0044]在基于相關(guān)詞語的概念語義分析方法中,我們把傳統(tǒng)的詞語相關(guān)度獲取方法與詞與詞之間位置關(guān)系進(jìn)行了有效的融合。充分考慮了詞與詞之間的位置和它們之間相關(guān)貢獻(xiàn)度的關(guān)系。
[0045]傳統(tǒng)的詞語相關(guān)度獲取方法認(rèn)為人們遇到一個(gè)新概念(知識(shí))時(shí),往往是將存儲(chǔ)在人腦中已有的概念與新碰到的概念建立起一定的聯(lián)系,這種聯(lián)系在一定程度上反映在詞與詞之間,詞與詞之間的這種緊密的關(guān)系就是詞對(duì)語義標(biāo)簽的貢獻(xiàn)度。
[0046]首先需要說明的是我們是通過從網(wǎng)絡(luò)百科全書中獲取關(guān)聯(lián)語義知識(shí)來獲取詞對(duì)語義標(biāo)簽的貢獻(xiàn)度的。
[0047]傳統(tǒng)的方法流程如下:
(I)用戶在瀏覽詞條解釋正文時(shí)點(diǎn)擊正文當(dāng)中的內(nèi)部鏈接即可鏈接到其他詞條的解釋頁面,我們認(rèn)為這些詞條和被解釋詞條在語義上是相關(guān)的,并將一個(gè)詞條的內(nèi)部鏈接詞條記為Inner。
[0048](2)詞條與被解釋的詞條在語義上是有關(guān)聯(lián)的,將其記為在百科中一個(gè)詞條可以屬于多個(gè)開放分類,這些類別信息共同反映了這個(gè)詞條的語義知識(shí)。
[0049](3)百科詞條Z自身屬于的開放分類集合Csev,該詞解釋正文中所有內(nèi)部鏈接詞條所屬于的開放分類的集合Ciimef與用戶添加的該詞條的相關(guān)詞條所屬于的開放分類的集合的并集定義為i司條Z的開放分類語義知識(shí)集合SC1。
[0050](4)相關(guān)詞語貢獻(xiàn)度的計(jì)算可以通過比較語義詞Z的開放分類語義知識(shí)集合SC|與其相關(guān)詞語Wi的開放分類語義知識(shí)集合SCwl而得到。
[0051 ] (5)在計(jì)算語義詞L與相關(guān)詞語Ifl之間的語義關(guān)聯(lián)度時(shí),首先定義一個(gè)開放分類
語義知識(shí)向量K,開放分類語義知識(shí)向量的維數(shù)?I= ISC1 USCwlI每一維代表一個(gè)開放分
類,記為--。語義詞ζ的開放分類語義知識(shí)向量1^在/7維上的值即為I的開放分類語義知
識(shí)集合5C!中對(duì)應(yīng)開放分類Cp出現(xiàn)的頻次。對(duì)相關(guān)詞^I開放分類語義知識(shí)向量Fwl也有同樣的定義。
[0052] (6)最后相關(guān)詞語FF1與語義詞I的語義關(guān)聯(lián)度公式如下:
【權(quán)利要求】
1.基于相關(guān)詞語語義分析的全文檢索系統(tǒng),包括查詢信息接收模塊、基于相關(guān)詞語的概念語義分析模塊、語義知識(shí)庫模塊、檢索模塊、索引庫、索引模塊、基于相關(guān)詞語的主題語義分析模塊、結(jié)果集處理模塊和數(shù)據(jù)服務(wù)器; 所述查詢信息接收模塊用于接收用戶輸入的查詢語句,對(duì)查詢語句進(jìn)行中文分詞和去停用詞處理之后,將其提交給基于相關(guān)詞語的概念語義分析模塊并且提交給檢索模塊進(jìn)行檢索服務(wù); 所述基于相關(guān)詞語的概念語義分析模塊采用基于相關(guān)詞語的概念語義分析方法,得到詞語之間的語義相關(guān)量化關(guān)系,并提交給語義知識(shí)庫模塊; 所述語義知識(shí)庫模塊用來存儲(chǔ)詞語及其相關(guān)詞群和貢獻(xiàn)度信息,從查詢信息接收模塊中得到用戶輸入的查詢?cè)~,在語義知識(shí)庫中檢索,將查詢?cè)~對(duì)應(yīng)的相關(guān)詞群及貢獻(xiàn)度返回給基于相關(guān)詞語的概念語義分析模塊; 所述檢索模塊為用戶提供檢索服務(wù),檢索模塊負(fù)責(zé)接收查詢信息接收模塊的指令,將查詢語句提交給索引庫進(jìn)行查詢匹配,返回所有與查詢語句匹配的文檔信息,并對(duì)檢索結(jié)果集進(jìn)行排序處理,將排序后的結(jié)果集提交給結(jié)果集處理模塊; 所述索引庫用來存儲(chǔ)由索引模塊對(duì)文檔建立的索引,索引庫還根據(jù)檢索模塊提交的查詢請(qǐng)求在索引中快速檢索,并將結(jié)果返回給檢索模塊; 所述索引模塊用來接收數(shù)據(jù)服務(wù)器提供的文檔,對(duì)文檔內(nèi)容,標(biāo)題和自定義信息進(jìn)行中文分詞和去停用詞處理得到索引詞,利用索引詞和文檔相關(guān)信息建立索引; 所述基于相關(guān)詞語的主題語義分析模塊采用基于相關(guān)詞語的主題語義分析方法,通過對(duì)文檔進(jìn)行主題語義分析,得到每個(gè)詞與文檔之間的語義相關(guān)量化關(guān)系,即對(duì)文檔主題的貢獻(xiàn)度,最后把這些運(yùn)用到檢索中提高搜索引擎的檢索效果; 所述結(jié)果集處理模塊用于接收來自檢索模塊的結(jié)果集,并根據(jù)索引庫的信息建立結(jié)果集的文摘信息和快照信息,并對(duì)返回結(jié)果進(jìn)行反顯、回顯和分頁處理; 所述數(shù)據(jù)服務(wù)器用于存儲(chǔ)知識(shí)數(shù)據(jù)詞典、文檔集,為基于相關(guān)詞語的概念語義分析模塊提供數(shù)據(jù)資源和管理服務(wù),為基于相關(guān)詞語的主題語義分析模塊和索引模塊提供文檔集。
2.根據(jù)權(quán)利要求1所述的基于相關(guān)詞語語義分析的全文檢索系統(tǒng),其特征在于:所述基于相關(guān)詞語的概念語義分析模塊包括文本預(yù)處理模塊和語義相關(guān)度獲取模塊; 所述文本預(yù)處理模塊主要對(duì)查詢語句進(jìn)行預(yù)處理,包括中文分詞、去停用詞;這里采用雙向最大匹配分詞方法對(duì)查詢語句進(jìn)行分詞處理,然后去掉停用詞,得到查詢?cè)~序列,并提交給語義相關(guān)度獲取模塊; 所述語義相關(guān)度獲取模塊采用基于相關(guān)詞語的概念語義分析方法來獲取詞對(duì)語義標(biāo)簽的語義貢獻(xiàn)度; 在基于相關(guān)詞語的概念語義分析方法中,把傳統(tǒng)的詞語相關(guān)度獲取方法與詞與詞之間位置關(guān)系進(jìn)行有效的融合; 通過從網(wǎng)絡(luò)百科全書中獲取關(guān)聯(lián)語義知識(shí)來獲取詞對(duì)語義標(biāo)簽的貢獻(xiàn)度的; 傳統(tǒng)的方法流程如下: (I)用戶在瀏覽詞條解釋正文時(shí)點(diǎn)擊正文當(dāng)中的內(nèi)部鏈接即可鏈接到其他詞條的解釋頁面,我們認(rèn)為這些詞條和被解釋詞條在語義上是相關(guān)的,并將一個(gè)詞條的內(nèi)部鏈接詞條記為Inner ; (2)詞條與被解釋的詞條在語義上是有關(guān)聯(lián)的,將其記為在百科中一個(gè)詞條可以屬于多個(gè)開放分類,這些類別信息共同反映了這個(gè)詞條的語義知識(shí); (3)百科詞條Z自身屬于的開放分類集合Csev,該詞解釋正文中所有內(nèi)部鏈接詞條所屬于的開放分類的集合&--@與用戶添加的該詞條的相關(guān)詞條所屬于的開放分類的集合
的并集定義為詞條Z的開放分類語義知識(shí)集合SCi ; (4)相關(guān)詞語貢獻(xiàn)度的計(jì)算可以通過比較語義詞Z的開放分類語義知識(shí)集合SC1與其相關(guān)詞語Wi的開放分類語義知識(shí)集合SCwl而得到 ; (5)在計(jì)算語義詞Z與相關(guān)詞語竭之間的語義關(guān)聯(lián)度時(shí),首先定義一個(gè)開放分類語義知識(shí)向量K,開放分類語義知識(shí)向量的維數(shù)η = ISC1 U SCwl I每一維代表一個(gè)開放分類,記為Cp,語義詞Z的開放分類語義知識(shí)向量F1在P維上的值即為I的開放分類語義知識(shí)集合Sq中對(duì)應(yīng)開放分類‘出現(xiàn)的頻次,對(duì)相關(guān)詞_開放分類語義知識(shí)向量Pwl也有同樣的定義; (6)最后相關(guān)詞語與語義詞I的語義關(guān)聯(lián)度公式如下:
3.根據(jù)權(quán)利要求1所述的基于相關(guān)詞語語義分析的全文檢索系統(tǒng),其特征在于:所述基于相關(guān)詞語的主題語義分析模塊包括文本預(yù)處理模塊和語義建模模塊; 所述文本預(yù)處理模塊主要對(duì)文檔進(jìn)行預(yù)處理,包括中文分詞、去停用詞;這里采用雙向最大匹配分詞方法對(duì)文檔進(jìn)行分詞處理,然后去掉停用詞; 所述語義建模模塊采用基于相關(guān)詞語的主題語義分析方法來獲取詞對(duì)文檔語義貢獻(xiàn)度; 基于相關(guān)詞語的主題語義分析方法具體如下: 在基于相關(guān)詞語的概念語義分析模塊中我們得到了相關(guān)詞和語義標(biāo)簽的相關(guān)度simLj(wi}kj),其中i,j分別表示第i個(gè)詞和第j個(gè)語義標(biāo)簽,這些相關(guān)詞對(duì)應(yīng)語義標(biāo)簽的語義貢獻(xiàn)度代表了它們彼此之間的語義關(guān)系,在基于相關(guān)詞語的主題語義分析模塊中得到的Fiig —[Ditf3(IVr)是相關(guān)詞語對(duì)應(yīng)相關(guān)主題的語義關(guān)系,將這種語義關(guān)系重新映射回對(duì)應(yīng)的語義標(biāo)簽,公式如下:
4.根據(jù)權(quán)利要求1所述的基于相關(guān)詞語語義分析的全文檢索系統(tǒng),其特征在于:所述檢索模塊是本系統(tǒng)提供給用戶檢索文本信息的模塊,它包括查詢模塊和排序模塊; 查詢模塊從索引庫中按檢索打分公式查找所有匹配的文檔信息,從匹配的文檔信息中選擇出滿足查詢要求的那部分文檔信息作為結(jié)果集,并將結(jié)果集發(fā)送給排序模塊; 排序模塊用于對(duì)來自查詢模塊的結(jié)果集進(jìn)行排序,該模塊根據(jù)查詢?cè)~在概念語義層次、主題語義層次對(duì)文檔貢獻(xiàn)度、在文檔中的出現(xiàn)頻率,以及文檔長度和文檔的反轉(zhuǎn)頻率等因素進(jìn)行排序;其排序打分公式如下:
5.根據(jù)權(quán)利要求1所述的基于相關(guān)詞語語義分析的全文檢索系統(tǒng),其特征在于:所述結(jié)果集處理模塊是用戶查詢顯示的界面,它包括頭信息顯示模塊、反顯模塊、回顯模塊和分頁處理模塊; 所述頭信息顯示模塊用于顯示查詢結(jié)果的提示信息,如果檢索模塊返回的結(jié)果集不為空,則在頁首顯示查詢用時(shí)和結(jié)果集中的文檔數(shù);如果檢索模塊沒有檢索到匹配的結(jié)果,則顯示結(jié)果不存在的提示信息; 所述反顯模塊用于對(duì)檢索模塊返回的文檔結(jié)果集和索引庫的文檔摘要中的關(guān)鍵詞做強(qiáng)調(diào)突出處理;具體方法是:對(duì)原查詢語句中的詞加紅色高亮; 所述回顯模塊用于顯示返回給用戶的快照和文檔摘要信息;頁面內(nèi)容以標(biāo)題、摘要的形式,按條羅列;標(biāo)題為超鏈接形式,用戶可以打開檢索內(nèi)容所在的原文;文檔摘要顯示原文中含有檢索內(nèi)容的一段摘要;具體形式類似于Google、百度等搜索引擎的返回形式;所述分頁處理模塊用于將結(jié)果集的多篇文檔分頁顯示,頁尾標(biāo)注在十頁范圍內(nèi)供用戶選擇,為了增強(qiáng)用戶體驗(yàn)和提升檢索速度,每次翻頁只返回當(dāng)前文檔的結(jié)果,不返回全部結(jié)果集。
【文檔編號(hào)】G06F17/27GK103838833SQ201410061245
【公開日】2014年6月4日 申請(qǐng)日期:2014年2月24日 優(yōu)先權(quán)日:2014年2月24日
【發(fā)明者】張茂元, 鄒春燕, 陳水銀, 張紅, 管益龍, 賀凡黎, 華麗君, 羅賢亮, 吳德鈺, 袁芳, 孟瓊瑤 申請(qǐng)人:華中師范大學(xué)