本發(fā)明一般地涉及自然語言處理領(lǐng)域。具體而言,本發(fā)明涉及一種能夠準確地獲得搜索結(jié)果的文獻搜索方法及設(shè)備、作者搜索方法及設(shè)備。
背景技術(shù):
近年來,隨著信息存儲能力和網(wǎng)絡(luò)搜索技術(shù)的快速提升,目前的學(xué)術(shù)文獻的查找和相關(guān)學(xué)者的搜索大部分通過網(wǎng)絡(luò)檢索平臺完成。網(wǎng)絡(luò)檢索平臺多采用與通用搜索引擎類似的基于關(guān)鍵詞匹配和文本相似度的檢索方式,這樣的檢索方式雖然在通用搜索引擎中表現(xiàn)不錯,但是針對學(xué)術(shù)文獻/作者的搜索,則欠缺考慮學(xué)術(shù)領(lǐng)域的分類、領(lǐng)域?qū)哟谓Y(jié)構(gòu)等方面的信息,使得搜索返回的結(jié)果不夠精準。
舉例來說,數(shù)據(jù)挖掘技術(shù)有一個具體的分支是情感分析。如果搜索情感分析方面的學(xué)術(shù)文獻,不可避免地會返回一些甚至很多專注于數(shù)據(jù)挖掘這一高層次抽象研究的文獻,可能僅僅因為在其中提及了情感分析,或者對情感分析進行簡要介紹。但是,搜索者實際上并不關(guān)心抽象的數(shù)據(jù)挖掘,而是希望獲得情感分析這一較低層次的具體研究成果。當(dāng)搜索情感分析領(lǐng)域的作者時,返回結(jié)果中也會摻雜有專注于數(shù)據(jù)挖掘的抽象研究的作者。
可見,現(xiàn)有技術(shù)的問題在于搜索結(jié)果不夠精準,產(chǎn)生問題的根源在于沒有充分利用層次信息。
因此,本發(fā)明旨在準確地進行文獻搜索和作者搜索。
技術(shù)實現(xiàn)要素:
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
本發(fā)明的目的是提出一種返回準確搜索結(jié)果的文獻搜索方法及設(shè)備、作者搜索方法及設(shè)備。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種文獻搜索方法,該方法包括:接收關(guān)于要搜索的文獻的查詢文本;利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題;以及從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果。
根據(jù)本發(fā)明的另一個方面,提供了一種文獻搜索設(shè)備,該設(shè)備包括:查詢文本接收裝置,被配置為:接收關(guān)于要搜索的文獻的查詢文本;主題確定裝置,被配置為:利用層次語義模型來確定與查詢文本相關(guān)的層次語義主題;以及文獻選擇裝置,被配置為:從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果。
根據(jù)本發(fā)明的再一方面,提供了一種作者搜索方法,該方法包括:接收關(guān)于要搜索的作者的查詢文本;利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題;以及從與所確定的層次語義主題相關(guān)的作者中,選擇作者,作為搜索結(jié)果。
根據(jù)本發(fā)明的又一方面,提供了一種作者搜索設(shè)備,該設(shè)備包括:查詢文本接收裝置,被配置為:接收關(guān)于要搜索的作者的查詢文本;主題確定裝置,被配置為:利用層次語義模型來確定與查詢文本相關(guān)的層次語義主題;以及作者選擇裝置,被配置為:從與所確定的層次語義主題相關(guān)的作者中,選擇作者,作為搜索結(jié)果。
另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介 質(zhì)包括機器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
附圖說明
參照下面結(jié)合附圖對本發(fā)明的實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。附圖中:
圖1示出了根據(jù)本發(fā)明的實施例的文獻搜索方法的流程圖;
圖2示出了層次主題模型得到的隱含層次主題結(jié)構(gòu)的示例;
圖3示出了層次主題模型得到的隱含層次主題結(jié)構(gòu)的示例;
圖4示出了步驟s2的具體實現(xiàn)方式;
圖5示出了根據(jù)本發(fā)明的實施例的作者搜索方法的流程圖;
圖6示出了根據(jù)本發(fā)明的實施例的文獻搜索設(shè)備的結(jié)構(gòu)方框圖;
圖7示出了根據(jù)本發(fā)明的實施例的作者搜索設(shè)備的結(jié)構(gòu)方框圖;以及
圖8示出了可用于實施根據(jù)本發(fā)明的實施例的方法和設(shè)備的計算機的示意性框圖。
具體實施方式
在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施方式的過程中必須做出很多特定于實施 方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
下面將參照圖1描述根據(jù)本發(fā)明的實施例的文獻搜索方法的流程。
圖1示出了根據(jù)本發(fā)明的實施例的文獻搜索方法的流程圖。如圖1所示,該文獻搜索方法包括如下步驟:接收關(guān)于要搜索的文獻的查詢文本(步驟s1);利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題(步驟s2);以及從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果(步驟s3)。
在步驟s1中,接收關(guān)于要搜索的文獻的查詢文本。
具體地,由用戶輸入關(guān)于其要搜索的文獻的查詢用文本,可以是一個或更多個關(guān)鍵詞,也可以是一段文字等,例如是用戶感興趣的文獻的摘要。
接收到查詢文本后,需要將查詢文本轉(zhuǎn)換為詞向量,以利于后續(xù)處理。
詞向量的元素對應(yīng)的詞語的集合等于文獻搜索范圍內(nèi)的所有文獻中包括的詞語的集合與領(lǐng)域詞語列表的并集。這里所說的詞語包括詞、詞組等。其中詞包括構(gòu)成詞組的詞。例如,既包括詞組“情感分析”,也包括詞“情感”、詞“分析”。
優(yōu)選地,轉(zhuǎn)換為詞向量時,按照最大長度匹配原則進行轉(zhuǎn)換。也就是說,將待轉(zhuǎn)換文本即查詢文本與詞向量的元素對應(yīng)的詞語的集合中能夠匹配上的最長的詞語對應(yīng)起來。舉例來說,如果查詢文本中含有詞組“情感 分析”,就需要詞向量體現(xiàn)出文本包括詞組“情感分析”,而不是包括詞“情感”和詞“分析”。實際操作中,例如通過如下方式進行按最大長度匹配原則的轉(zhuǎn)換:“namedentityrecognition”和“namedentity”都是自然語言處理領(lǐng)域內(nèi)的術(shù)語,按照最大長度匹配原則,首先對“namedentityrecognition”進行匹配,如果匹配不成功,再嘗試對“namedentity”進行匹配。
關(guān)于詞向量的元素對應(yīng)的詞語的集合,文獻搜索必然有其搜索范圍,搜索范圍內(nèi)的所有文獻包括的所有詞語自然需要成為比對的基本元素,相應(yīng)地構(gòu)成詞向量的元素對應(yīng)的詞語的集合的一個來源。
詞向量的元素對應(yīng)的詞語的集合的另一個來源是領(lǐng)域詞語列表。領(lǐng)域詞語列表的獲取方法包括收集文獻搜索范圍內(nèi)的各個領(lǐng)域的已知領(lǐng)域術(shù)語。也就是搜集各領(lǐng)域的現(xiàn)有領(lǐng)域術(shù)語,例如各個文獻的關(guān)鍵詞字段、專家或從業(yè)人員給出的術(shù)語表、教科書附頁中的術(shù)語表等。
領(lǐng)域詞語列表的獲取方法還包括利用熱詞分析技術(shù),從各個領(lǐng)域的文獻中,提取各種類型的熱詞。也就是挖掘出各個領(lǐng)域的高頻熱詞作為領(lǐng)域詞語,這是對現(xiàn)有領(lǐng)域術(shù)語的重要補充。
另外,傳統(tǒng)的熱詞抽取技術(shù)主要抽取名詞性詞語(包括詞和詞組),本發(fā)明不限于此,還可以抽取其它類型的詞語。
在熱詞的抽取過程中,針對中文文獻,首先還需要對中文文本進行分詞及詞性標注。分詞和詞性標注屬于自然語言處理中的常用公知處理,在此不再贅述。針對英文文獻,無需進行分詞和詞性標注。另外,由于中文和英文的不同語義表達能力,對中文抽取的熱詞是優(yōu)選包括兩到四個詞語的詞串,而對英文抽取的熱詞是優(yōu)選包括兩到三個詞語的詞串。在抽取到這些詞串以后,對這些抽取的詞串結(jié)果進行子串歸并。子串歸并的規(guī)則如公式(1)中所示,其中tlength是指詞串的長度,即詞串包含的詞的個數(shù),tfrequency是指該詞串出現(xiàn)的次數(shù),而tvalue由上述兩個因素決定,如果一個長的詞串包含另一個短的詞串,并且該長詞串的tvalue大于該短詞串的tvalue,則該短詞串將被歸并掉,否則,保留短詞串,刪除長詞串。最終得到的所有詞頻 超過設(shè)定頻率閾值的詞串均被添加入熱詞列表中。此處提到的頻率閾值可以根據(jù)文獻搜索范圍內(nèi)的各個領(lǐng)域的文獻數(shù)量來進行設(shè)置。例如,如果某個領(lǐng)域相關(guān)的文獻數(shù)量為10萬篇,則可以根據(jù)經(jīng)驗設(shè)定,出現(xiàn)次數(shù)少于100的詞串,不予考慮為熱點詞串。
tvalue=tfrequency*tlength(1)
完成熱詞抽取之后,將其抽取的熱詞列表與上述的現(xiàn)有領(lǐng)域術(shù)語進行合并,成為領(lǐng)域詞語列表。
綜上,可以利用熱詞分析技術(shù)豐富領(lǐng)域詞語列表,進而與搜索范圍內(nèi)的所有文獻包括的所有詞語一起構(gòu)成詞向量的元素對應(yīng)的詞語的集合,從而可將接收到的關(guān)于要搜索的文獻的查詢文本轉(zhuǎn)換為詞向量,以用于隨后的處理。
在步驟s2中,利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題。
本發(fā)明通過利用層次語義模型來利用層次信息,從而提高搜索的精度。
層次語義模型的訓(xùn)練方法是將文獻搜索范圍內(nèi)的所有文獻轉(zhuǎn)換為詞向量,然后將所得到的詞向量輸入到層次語義模型以進行訓(xùn)練,訓(xùn)練得到的層次語義模型具有層次,相當(dāng)于層次語義模型自動檢測出給定數(shù)據(jù)集(文獻搜索范圍內(nèi)的所有文獻)中隱含的語義層次結(jié)構(gòu)。訓(xùn)練好的層次語義模型能夠針對新輸入的詞向量給出語義層次結(jié)構(gòu)中與之對應(yīng)的層次語義主題以及相應(yīng)的語義相似度。層次語義模型例如是層次隱含狄利克雷分布(hierarchicallatentdirichletallocation,hlda)。
此處的詞向量轉(zhuǎn)換與之前查詢文本的按最大長度匹配原則的詞向量轉(zhuǎn)換不同,為了增加對用戶搜索內(nèi)容的覆蓋程度,在將文獻搜索范圍內(nèi)的所有文獻轉(zhuǎn)換為詞向量的過程中,詞和詞組同時保存。例如,一個文獻中如果包含“namedentity”,則詞向量將同時體現(xiàn)“named”、“entity”和“namedentity”的存在。類似地,一個文獻中如果包含“namedentity recognition”,則詞向量將同時體現(xiàn)“namedentityrecognition”、“namedentity”、“named”、“entity”、“recognition”的存在。
圖2和圖3分別示出了兩個層次主題模型得到的隱含層次主題結(jié)構(gòu)。圖2是利用1272篇《psychologicalreview》期刊中的文章摘要作為數(shù)據(jù),從中發(fā)現(xiàn)的隱含層次主題結(jié)構(gòu)。由于心理學(xué)包含的內(nèi)容很廣,因此圖2中的根節(jié)點中的關(guān)鍵詞為the,of和and等常用詞語,表示一個“虛擬”的根節(jié)點,亦即是說,第二層的幾個葉子節(jié)點之間實際上沒有很明顯的關(guān)聯(lián)關(guān)系,因為他們之間的共有父節(jié)點只是包含the,of和and這些常見詞語。圖3是以200多個flickr網(wǎng)站中與鳥類相關(guān)的群組作為數(shù)據(jù),從中發(fā)現(xiàn)的隱含層次主題結(jié)構(gòu)。在訓(xùn)練后的查詢過程中,本發(fā)明的處理相當(dāng)于首先要從已有的層次語義結(jié)構(gòu)中為查詢文本找到一個對應(yīng)的節(jié)點(層次主題)(步驟s2),之后再從與該節(jié)點相關(guān)聯(lián)的文獻和作者中進一步查找結(jié)果(步驟s3)。
也就是說,在步驟s2中,利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題。
具體地,如圖4所示,步驟s2可通過如下步驟實現(xiàn)。
向?qū)哟握Z義模型輸入所述查詢文本,以得到多個候選主題及其與查詢文本的語義相似度(步驟s41);從多個候選主題中確定與查詢文本相關(guān)的層次語義主題(步驟s42)。
由于層次語義模型已經(jīng)過訓(xùn)練,所以根據(jù)輸入的查詢文本(以詞向量的形式),可以得到可能與之對應(yīng)的多個候選主題,上述候選主題的確定基于查詢文本與候選主題的語義相似度。
進而,可以根據(jù)語義相似度對候選主題進行篩選。
具體地,在僅有一個候選主題的語義相似度大于預(yù)定閾值的情況下,將該候選主題確定為與查詢文本相關(guān)的層次語義主題。
在所有候選主題的語義相似度均小于或等于預(yù)定閾值的情況下,按預(yù)定規(guī)則從中選擇部分候選主題,作為與查詢文本相關(guān)的層次語義主題。預(yù) 定規(guī)則可以由本領(lǐng)域技術(shù)人員靈活設(shè)定,例如是選取語義相似度前n個候選主題,n為指定的自然數(shù)。
在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,按語義相似度由大到小的順序,選擇預(yù)定數(shù)量的候選主題,作為與查詢文本相關(guān)的層次語義主題。
或者,在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,將語義相似度大于預(yù)定閾值的所有候選主題呈現(xiàn)給用戶,由用戶選擇與查詢文本相關(guān)的層次語義主題。這一實施方式的主要優(yōu)點在于提供了用戶的反饋,可以根據(jù)用戶反饋優(yōu)化本發(fā)明,使其逐漸更接近用戶的真實想法。例如,可以提高用戶選擇的候選主題與查詢文本的語義相似度,降低用戶未選擇的候選主題與查詢文本的語義相似度。
在步驟s3中,從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果。
在最初以搜索范圍內(nèi)的所有文獻對層次語義模型進行訓(xùn)練時,實際上構(gòu)建了層次語義主題與搜索范圍內(nèi)的所有文獻的關(guān)聯(lián)關(guān)系。將搜索范圍內(nèi)的所有文獻按層次語義主題進行了分類。因此,在步驟s2中確定了層次語義主題,也就確定了經(jīng)過層次篩選的候選文獻范圍,顯然,該范圍由于層次語義主題的使用而精準地對應(yīng)于用戶期望查找的主題領(lǐng)域,如情感分析,而不涉及專注于數(shù)據(jù)挖掘這一上一層次主題的文獻。
下面需要在步驟s3中在所確定的層次語義主題相關(guān)的文獻中,繼續(xù)選擇文獻,作為最終的搜索結(jié)果。
例如,可根據(jù)所確定的層次語義主題和與之相關(guān)的文獻之間的語義相似度,選擇文獻,作為搜索結(jié)果。
還可以根據(jù)文獻發(fā)表時間、文獻所屬會議或期刊的級別、文獻被引用的次數(shù)中的至少一個與上述語義相似度,選擇文獻,作為搜索結(jié)果。
文獻所屬會議的級別可以利用core等級評價結(jié)果。文獻所屬期刊的級別可以利用期刊的影響因子。
以下的公式(2)給出了綜合以上因素進行基于主題的文獻選擇與排序的示例。
對于層次主題t,wp,t是指文獻p的排序權(quán)重。s(t,p)是指文獻p與層次主題t的語義相似度,該相似度的值由層次語義主題模型得到,為0到1之間的實數(shù)。
之后,根據(jù)wp,t的值,對文獻進行基于主題t的選擇(可選擇某主題下的全部或前m個,m為自然數(shù))和排序(可按wp,t降序排列),并將結(jié)果返回給用戶。
至此,利用層次主題信息對文獻進行篩選和排序,獲得了更具層次性因而更具針對性的精準搜索結(jié)果。
與搜索文獻的情況類似,可以利用層次信息,對作者進行搜索。
圖5示出了根據(jù)本發(fā)明的實施例的作者搜索方法的流程圖。如圖5所示,根據(jù)本發(fā)明的實施例的作者搜索方法包括如下步驟:接收關(guān)于要搜索的作者的查詢文本(步驟s51);利用層次語義模型,確定與查詢文本相 關(guān)的層次語義主題(步驟s52);以及從與所確定的層次語義主題相關(guān)的作者中,選擇作者,作為搜索結(jié)果(步驟s53)。
作者搜索方法與上述文獻搜索方法的主要區(qū)別在于建立的不是搜索范圍內(nèi)的所有文獻與層次語義主題之間的關(guān)聯(lián),而是需要建立文獻搜索范圍內(nèi)的每個作者與層次語義主題之間的關(guān)聯(lián)。
作者可以由其所作的文獻表征。
例如,將每個作者的所有文獻合并為一篇代表該作者的文本,將該文本轉(zhuǎn)換為該作者的詞向量,作為該作者的表征。在此情況下,相當(dāng)于每個文本對應(yīng)于一個作者,對作者的搜索等價于對文本的搜索,該文本進行上述文獻搜索方法即可。
也可以根據(jù)每個作者的所有文獻,以線性加權(quán)的方式,獲得該作者的詞向量。其中,該作者的每個文獻的權(quán)重可以與該文獻的發(fā)表時間、文獻所屬會議或期刊的級別、文獻被引用的次數(shù)、該作者在該文獻作者中的排序位置、該文獻與該作者的所有文獻之間的語義相似度中的至少一個相關(guān)。
也就是說,可以將作者看作其發(fā)表文獻的線性加權(quán)結(jié)果,而文獻的線性加權(quán)結(jié)果也可以認為是一篇文本,所以對作者的搜索等價于對文本的搜索,該文本進行上述文獻搜索方法即可。
相應(yīng)的層次語義模型的訓(xùn)練方法是將文獻搜索范圍內(nèi)的每個作者的詞向量輸入到層次語義模型以進行訓(xùn)練。
然后,在進行作者搜索時,在步驟s51中,接收關(guān)于要搜索的作者的查詢文本。查詢文本例如是一個或更多個關(guān)鍵詞、一段文字等。
然后,在步驟s52中,利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題。
最后,在步驟s53中,從與所確定的層次語義主題相關(guān)的作者中,選擇作者,作為搜索結(jié)果。
類似于上面基于wp,t進行文獻的選擇和排序,可以基于w(a,t)進行作者的選擇和排序。
w(a,t)例如如公式(3)所示:
其中,w(a,t)是指作者a針對于主題t排序權(quán)重。對于所有該作者發(fā)表過的文獻,將每篇文獻的w(p,t)(公式(2))乘以一定的系數(shù),并進行線性加權(quán),即可得到w(a,t)。r(a,p)是指作者a在文獻p中的排名位置,例如第一作者的r(a,p)為1,第二作者的r(a,p)為2,依次類推。seta是指所有作者a發(fā)表的文獻集合,而s(p,seta)即代表了文獻p與seta之間的語義相似度。文獻的語義相似度可以基于主題向量進行計算。具體地,利用主題模型,可以將每一篇文獻表示成主題向量,因此p與seta之間的語義相似度可以利用計算兩者對應(yīng)的主題向量之間的相似度進行計算。計算的方式一般采用余弦相似度方法,在此不做贅述。
可將基于w(a,t)進行選擇和排序的結(jié)果,呈現(xiàn)給用戶。
下面,將參照圖6描述根據(jù)本發(fā)明的實施例的文獻搜索設(shè)備。
圖6示出了根據(jù)本發(fā)明的實施例的文獻搜索設(shè)備的結(jié)構(gòu)方框圖。如圖6所示,根據(jù)本發(fā)明的文獻搜索設(shè)備600包括:查詢文本接收裝置61,被配置為:接收關(guān)于要搜索的文獻的查詢文本;主題確定裝置62,被配置為:利用層次語義模型來確定與查詢文本相關(guān)的層次語義主題;以及文獻選擇裝置63,被配置為:從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果。
在一個實施例中,文獻搜索設(shè)備600還包括:轉(zhuǎn)換裝置,被配置為:將文獻搜索范圍內(nèi)的所有文獻轉(zhuǎn)換為詞向量;訓(xùn)練裝置,被配置為:將所得到的詞向量輸入到層次語義模型以進行訓(xùn)練,訓(xùn)練得到的層次語義模型具有層次。
在一個實施例中,所述轉(zhuǎn)換裝置被進一步配置為將查詢文本接收裝置 61接收的查詢文本轉(zhuǎn)換為詞向量。
在一個實施例中,所述詞向量的元素對應(yīng)的詞語的集合等于文獻搜索范圍內(nèi)的所有文獻中包括的詞語的集合與領(lǐng)域詞語列表的并集。
在一個實施例中,文獻搜索設(shè)備600還包括:領(lǐng)域詞語列表構(gòu)建裝置,被配置為:收集文獻搜索范圍內(nèi)的各個領(lǐng)域的已知領(lǐng)域術(shù)語;利用熱詞分析技術(shù),從所述各個領(lǐng)域的文獻中,提取各種類型的熱詞;將所收集的領(lǐng)域術(shù)語和所提取的熱詞組合成所述領(lǐng)域詞語列表。
在一個實施例中,所述詞語包括詞組、以及構(gòu)成詞組的詞。
在一個實施例中,轉(zhuǎn)換為詞向量時,按照最大長度匹配原則進行轉(zhuǎn)換。
在一個實施例中,所述主題確定裝置62包括:候選主題獲取單元,被配置為:向?qū)哟握Z義模型輸入所述查詢文本,以得到多個候選主題及其與查詢文本的語義相似度;主題選擇單元,被配置為:從多個候選主題中確定與查詢文本相關(guān)的層次語義主題。
在一個實施例中,所述主題選擇單元被進一步配置為:在僅有一個候選主題的語義相似度大于預(yù)定閾值的情況下,將該候選主題確定為與查詢文本相關(guān)的層次語義主題。
在一個實施例中,所述主題選擇單元被進一步配置為:在所有候選主題的語義相似度均小于或等于預(yù)定閾值的情況下,按預(yù)定規(guī)則從中選擇部分候選主題,作為與查詢文本相關(guān)的層次語義主題。
在一個實施例中,所述主題選擇單元被進一步配置為:在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,按語義相似度由大到小的順序,選擇預(yù)定數(shù)量的候選主題,作為與查詢文本相關(guān)的層次語義主題。
在一個實施例中,所述主題選擇單元被進一步配置為:在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,將語義相似度大于預(yù)定閾值的所有候選主題呈現(xiàn)給用戶,由用戶選擇與查詢文本相關(guān)的層次語義主題。
在一個實施例中,文獻搜索設(shè)備600還包括相似度調(diào)整裝置,被配置為:提高用戶選擇的候選主題與查詢文本的語義相似度,降低用戶未選擇的候選主題與查詢文本的語義相似度。
在一個實施例中,文獻選擇裝置63被進一步配置為:根據(jù)所確定的層次語義主題和與之相關(guān)的文獻之間的語義相似度,選擇文獻,作為搜索結(jié)果。
在一個實施例中,文獻選擇裝置63被進一步配置為根據(jù)文獻發(fā)表時間、文獻所屬會議或期刊的級別、文獻被引用的次數(shù)中的至少一個與所確定的層次語義主題和與之相關(guān)的文獻之間的語義相似度,選擇文獻,作為搜索結(jié)果。
由于在根據(jù)本發(fā)明的文獻搜索設(shè)備600中所包括的各個裝置和單元中的處理分別與上面描述的文獻搜索方法中所包括的各個步驟中的處理類似,因此為了簡潔起見,在此省略這些裝置和單元的詳細描述。
下面,將參照圖7描述根據(jù)本發(fā)明的實施例的作者搜索設(shè)備。
圖7示出了根據(jù)本發(fā)明的實施例的作者搜索設(shè)備的結(jié)構(gòu)方框圖。如圖7所示,根據(jù)本發(fā)明的作者搜索設(shè)備700包括:查詢文本接收裝置71,被配置為:接收關(guān)于要搜索的作者的查詢文本;主題確定裝置72,被配置為:利用層次語義模型來確定與查詢文本相關(guān)的層次語義主題;以及作者選擇裝置73,被配置為:從與所確定的層次語義主題相關(guān)的作者中,選擇作者,作為搜索結(jié)果。
在一個實施例中,作者搜索設(shè)備700還包括:訓(xùn)練裝置,該訓(xùn)練裝置包括:轉(zhuǎn)換單元,被配置為:將文獻搜索范圍內(nèi)的每個作者的所有文獻轉(zhuǎn)換為該作者的詞向量;訓(xùn)練單元,被配置為:將所得到的詞向量輸入到層次語義模型以進行訓(xùn)練。
在一個實施例中,所述轉(zhuǎn)換單元被進一步配置為:將每個作者的所有文獻合并為一篇代表該作者的文本,將該文本轉(zhuǎn)換為該作者的詞向量。
在一個實施例中,所述轉(zhuǎn)換單元被進一步配置為:根據(jù)每個作者的所 有文獻,以線性加權(quán)的方式,獲得該作者的詞向量;其中,該作者的每個文獻的權(quán)重與文獻發(fā)表時間、文獻所屬會議或期刊的級別、文獻被引用的次數(shù)、該作者在該文獻作者中的排序位置、該文獻與該作者的所有文獻之間的語義相似度中的至少一個相關(guān)。
由于在根據(jù)本發(fā)明的作者搜索設(shè)備700中所包括的各個裝置和單元中的處理分別與上面描述的作者搜索方法中所包括的各個步驟中的處理類似,因此為了簡潔起見,在此省略這些裝置和單元的詳細描述。
此外,這里尚需指出的是,上述設(shè)備中各個組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算機(例如圖8所示的通用計算機800)安裝構(gòu)成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等。
圖8示出了可用于實施根據(jù)本發(fā)明的實施例的方法和設(shè)備的計算機的示意性框圖。
在圖8中,中央處理單元(cpu)801根據(jù)只讀存儲器(rom)802中存儲的程序或從存儲部分808加載到隨機存取存儲器(ram)803的程序執(zhí)行各種處理。在ram803中,還根據(jù)需要存儲當(dāng)cpu801執(zhí)行各種處理等等時所需的數(shù)據(jù)。cpu801、rom802和ram803經(jīng)由總線804彼此連接。輸入/輸出接口805也連接到總線804。
下述部件連接到輸入/輸出接口805:輸入部分806(包括鍵盤、鼠標等等)、輸出部分807(包括顯示器,比如陰極射線管(crt)、液晶顯示器(lcd)等,和揚聲器等)、存儲部分808(包括硬盤等)、通信部分809(包括網(wǎng)絡(luò)接口卡比如lan卡、調(diào)制解調(diào)器等)。通信部分809經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器810也可連接到輸入/輸出接口805。可拆卸介質(zhì)811比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等可以根據(jù)需要被安裝在驅(qū)動器810上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分808中。
在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)811安裝構(gòu)成軟件的程序。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖8所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)811。可拆卸介質(zhì)811的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(cd-rom)和數(shù)字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊商標))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是rom802、存儲部分808中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明的實施例的方法。
相應(yīng)地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。
在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。
應(yīng)該強調(diào),術(shù)語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。
此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。
盡管上面已經(jīng)通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露,但是,應(yīng)該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或者等同物也應(yīng)當(dāng)被認為 包括在本發(fā)明的保護范圍內(nèi)。
附記
1.一種文獻搜索方法,包括:
接收關(guān)于要搜索的文獻的查詢文本;
利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題;以及
從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果。
2.如附記1所述的方法,還包括:
將文獻搜索范圍內(nèi)的所有文獻轉(zhuǎn)換為詞向量;
將所得到的詞向量輸入到層次語義模型以進行訓(xùn)練,訓(xùn)練得到的層次語義模型具有層次。
3.如附記2所述的方法,其中,所述詞向量的元素對應(yīng)的詞語的集合等于文獻搜索范圍內(nèi)的所有文獻中包括的詞語的集合與領(lǐng)域詞語列表的并集。
4.如附記3所述的方法,還包括:
收集文獻搜索范圍內(nèi)的各個領(lǐng)域的已知領(lǐng)域術(shù)語;
利用熱詞分析技術(shù),從所述各個領(lǐng)域的文獻中,提取各種類型的熱詞;
將所收集的領(lǐng)域術(shù)語和所提取的熱詞組合成所述領(lǐng)域詞語列表。
5.如附記1所述的方法,其中,利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題包括:
向?qū)哟握Z義模型輸入所述查詢文本,以得到多個候選主題及其與查詢文本的語義相似度;
從多個候選主題中確定與查詢文本相關(guān)的層次語義主題。
6.如附記5所述的方法,其中,從多個候選主題中確定與查詢文本相關(guān)的層次語義主題包括:
在僅有一個候選主題的語義相似度大于預(yù)定閾值的情況下,將該候選主題確定為與查詢文本相關(guān)的層次語義主題;
在所有候選主題的語義相似度均小于或等于預(yù)定閾值的情況下,按預(yù) 定規(guī)則從中選擇部分候選主題,作為與查詢文本相關(guān)的層次語義主題;
在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,按語義相似度由大到小的順序,選擇預(yù)定數(shù)量的候選主題,作為與查詢文本相關(guān)的層次語義主題。
7.如附記5所述的方法,其中,從多個候選主題中確定與查詢文本相關(guān)的層次語義主題包括:
在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,將語義相似度大于預(yù)定閾值的所有候選主題呈現(xiàn)給用戶,由用戶選擇與查詢文本相關(guān)的層次語義主題。
8.如附記7所述的方法,其中,提高用戶選擇的候選主題與查詢文本的語義相似度,降低用戶未選擇的候選主題與查詢文本的語義相似度。
9.如附記1所述的方法,其中,從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻包括:
根據(jù)所確定的層次語義主題和與之相關(guān)的文獻之間的語義相似度,選擇文獻,作為搜索結(jié)果。
10.如附記9所述的方法,其中,還根據(jù)文獻發(fā)表時間、文獻所屬會議或期刊的級別、文獻被引用的次數(shù)中的至少一個,選擇文獻,作為搜索結(jié)果。
11.一種作者搜索方法,包括:
接收關(guān)于要搜索的作者的查詢文本;
利用層次語義模型,確定與查詢文本相關(guān)的層次語義主題;以及
從與所確定的層次語義主題相關(guān)的作者中,選擇作者,作為搜索結(jié)果。
12.一種文獻搜索設(shè)備,包括:
查詢文本接收裝置,被配置為:接收關(guān)于要搜索的文獻的查詢文本;
主題確定裝置,被配置為:利用層次語義模型來確定與查詢文本相關(guān)的層次語義主題;以及
文獻選擇裝置,被配置為:從與所確定的層次語義主題相關(guān)的文獻中,選擇文獻,作為搜索結(jié)果。
13.如附記12所述的設(shè)備,還包括:
轉(zhuǎn)換裝置,被配置為:將文獻搜索范圍內(nèi)的所有文獻轉(zhuǎn)換為詞向量;
訓(xùn)練裝置,被配置為:將所得到的詞向量輸入到層次語義模型以進行訓(xùn)練,訓(xùn)練得到的層次語義模型具有層次。
14.如附記13所述的設(shè)備,其中,所述詞向量的元素對應(yīng)的詞語的集合等于文獻搜索范圍內(nèi)的所有文獻中包括的詞語的集合與領(lǐng)域詞語列表的并集。
15.如附記14所述的設(shè)備,還包括:領(lǐng)域詞語列表構(gòu)建裝置,被配置為:
收集文獻搜索范圍內(nèi)的各個領(lǐng)域的已知領(lǐng)域術(shù)語;
利用熱詞分析技術(shù),從所述各個領(lǐng)域的文獻中,提取各種類型的熱詞;
將所收集的領(lǐng)域術(shù)語和所提取的熱詞組合成所述領(lǐng)域詞語列表。
16.如附記12所述的設(shè)備,其中,所述主題確定裝置包括:
候選主題獲取單元,被配置為:向?qū)哟握Z義模型輸入所述查詢文本,以得到多個候選主題及其與查詢文本的語義相似度;
主題選擇單元,被配置為:從多個候選主題中確定與查詢文本相關(guān)的層次語義主題。
17.如附記16所述的設(shè)備,其中,所述主題選擇單元被進一步配置為:
在僅有一個候選主題的語義相似度大于預(yù)定閾值的情況下,將該候選主題確定為與查詢文本相關(guān)的層次語義主題;
在所有候選主題的語義相似度均小于或等于預(yù)定閾值的情況下,按預(yù)定規(guī)則從中選擇部分候選主題,作為與查詢文本相關(guān)的層次語義主題;
在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,按語義相似度由大到小的順序,選擇預(yù)定數(shù)量的候選主題,作為與查詢文本相關(guān)的層次語義主題。
18.如附記16所述的設(shè)備,其中,所述主題選擇單元被進一步配置為:在不止一個候選主題的語義相似度大于預(yù)定閾值的情況下,將語義相似度大于預(yù)定閾值的所有候選主題呈現(xiàn)給用戶,由用戶選擇與查詢文本相關(guān)的層次語義主題。
19.如附記18所述的設(shè)備,還包括:相似度調(diào)整裝置,被配置為: 提高用戶選擇的候選主題與查詢文本的語義相似度,降低用戶未選擇的候選主題與查詢文本的語義相似度。
20.如附記12所述的設(shè)備,其中,文獻選擇裝置被進一步配置為:根據(jù)所確定的層次語義主題和與之相關(guān)的文獻之間的語義相似度,選擇文獻,作為搜索結(jié)果。