欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

全文查詢和搜索系統(tǒng)及其使用方法

文檔序號(hào):6553418閱讀:461來源:國知局
專利名稱:全文查詢和搜索系統(tǒng)及其使用方法
技術(shù)領(lǐng)域
本發(fā)明包含信息技術(shù)和軟件領(lǐng)域,具體涉及對(duì)以文本為基礎(chǔ)的數(shù)據(jù)庫的帶有評(píng)級(jí)的信息檢索方法。
背景技術(shù)
傳統(tǒng)在線的以電腦為基礎(chǔ)的文本內(nèi)容數(shù)據(jù)庫的搜索方法多數(shù)以關(guān)鍵詞為基礎(chǔ),即,一個(gè)數(shù)據(jù)庫和與它相應(yīng)的字典首先被建立。該數(shù)據(jù)庫的一個(gè)索引文件是與該字典相聯(lián)系的,在該字典中每個(gè)關(guān)鍵詞的出現(xiàn)和它們在數(shù)據(jù)庫中的位置都被記錄下來。當(dāng)一個(gè)查詢含有輸入的關(guān)鍵詞,在數(shù)據(jù)庫中含有該關(guān)鍵詞的所有條目都被返回。在“高級(jí)搜索”類型中,一個(gè)用戶也能夠具體指定排除的單詞,其中具體指定的單詞的出現(xiàn)將不允許被呈現(xiàn)在任何的命中中。
有關(guān)以關(guān)鍵詞為基礎(chǔ)的搜索引擎的主要問題在于如何評(píng)級(jí)命中,如果有許多條目含有該單詞。首先考慮一個(gè)單一關(guān)鍵詞的情況。例如GOOGLE,目前的一個(gè)互聯(lián)網(wǎng)搜索引擎,使用由其他條目所指向的那個(gè)條目的連接數(shù)量作為分類評(píng)分值(以引用或提及為基礎(chǔ)的評(píng)級(jí))。這樣,其他條目提及該條目(條目E)的次數(shù)越多,該條目E在挑出列表的可能性越高。一個(gè)關(guān)于關(guān)鍵詞的搜索被減少到二進(jìn)制搜索首先在索引文件中定位該單詞,然后定位含有該單詞的數(shù)據(jù)庫條目。含有該單詞的所有條目完整列表以一個(gè)由引用評(píng)級(jí)的挑選方式被報(bào)告給用戶。另一種方法,由GOOGLE和由YAHOO所使用,根據(jù)網(wǎng)頁所有人之間的一個(gè)拍賣方案來評(píng)級(jí)誰為該單詞支付費(fèi)用最高誰將有更高的評(píng)分值分配給它們的網(wǎng)頁。這兩種評(píng)級(jí)方法能夠被分別的實(shí)現(xiàn)或混合使用來生成一個(gè)加權(quán)評(píng)分值。
如果多個(gè)關(guān)鍵詞被使用于查詢,上面的搜索將被執(zhí)行多次,并且結(jié)果隨后應(yīng)用Boolean邏輯被處理過,典型地一個(gè)“聯(lián)合”操作,該操作中僅兩個(gè)搜索結(jié)果的交集被選出。該評(píng)級(jí)將是一個(gè)基于以下條目的加權(quán)評(píng)分值(1)一個(gè)命中中含有的命中單詞數(shù);(2)該命中的引用評(píng)級(jí);和(3)來自命中的所有人支付的廣告費(fèi)數(shù)目。
現(xiàn)有技術(shù)的局限性用該種搜索方法的一個(gè)額外問題是為一個(gè)或一些有限的關(guān)鍵詞產(chǎn)生大量的“命中”。當(dāng)一個(gè)數(shù)據(jù)庫很大,或媒體變得不均,這一方法尤其麻煩。這時(shí),傳統(tǒng)的搜索引擎限制了數(shù)據(jù)庫的內(nèi)容和大小,也限制了關(guān)鍵詞的選擇。在因特網(wǎng)范圍的網(wǎng)站搜索中,我們面對(duì)非常巨大的數(shù)據(jù)庫,并且有著非常不均等的數(shù)據(jù)內(nèi)容。這些局限應(yīng)該被排除。YAHOO首先試圖使用分類,對(duì)每個(gè)特定的種類施加數(shù)據(jù)內(nèi)容的約束和數(shù)據(jù)庫大小的限制。這種分類方法是非常勞動(dòng)密集型的,并且在眾多的種類和副種類間的瀏覽中對(duì)用戶施加很多負(fù)擔(dān)。
GOOGLE是通過評(píng)級(jí)每個(gè)條目的質(zhì)量來解決“命中量大”的問題的。對(duì)一個(gè)網(wǎng)頁數(shù)據(jù)庫,一個(gè)條目的質(zhì)量能通過連接次數(shù)(其他網(wǎng)頁提及該地址多少次),該網(wǎng)站的受歡迎度(該網(wǎng)頁有多少游客),等來計(jì)算出。對(duì)商業(yè)廣告的數(shù)據(jù)庫,質(zhì)量可以通過支付的錢數(shù)來決定?;ヂ?lián)網(wǎng)用戶因而不再承受穿過多層的種類或關(guān)鍵詞的限制的負(fù)擔(dān)。使用任何關(guān)鍵詞,google的搜索引擎返回一個(gè)由它的算法所“客觀地評(píng)級(jí)”的結(jié)果列表。
現(xiàn)有搜索技術(shù)的局限性1)限制搜索單詞的數(shù)量關(guān)鍵詞的數(shù)量非常有限(通常少于10個(gè)單詞)。通常用戶只能提供一些關(guān)鍵詞。在多數(shù)場合,可能很難用少量關(guān)鍵詞來完整地定義一件有關(guān)的主題。
2)“命中量大”的問題即,報(bào)告許多不相關(guān)的結(jié)果。通常該搜索的結(jié)果是一個(gè)巨大的數(shù)據(jù)庫條目集合,它們中多數(shù)與用戶想要的主題沒有關(guān)系,但它們都含有用戶提供的少量的關(guān)鍵詞。
3)“命中”的評(píng)級(jí)可能不能實(shí)現(xiàn)用戶的意圖即,相關(guān)的信息可能在搜索結(jié)果中但被埋在列表的深處。沒有好的挑選方法將最相關(guān)的結(jié)果帶到結(jié)果列表的前面,導(dǎo)致用戶很失望。

發(fā)明內(nèi)容
本發(fā)明提供一個(gè)搜索引擎,用于以文本為基礎(chǔ)的數(shù)據(jù)庫。該搜索引擎包含一種算法,該算法使用一個(gè)查詢來搜索、檢索、以及評(píng)級(jí)出現(xiàn)于至少一個(gè)數(shù)據(jù)庫的文本、單詞、短語、信息元、或諸如此類。該搜索引擎使用以查詢和命中文件之間的共有單詞或信息元得出的Shannon信息值為基礎(chǔ)的評(píng)級(jí),以計(jì)算出的Shannon信息評(píng)分p-值為基礎(chǔ),或者以單詞或信息元頻率、共有單詞或信息元的百分比本身為基礎(chǔ)的p-值來進(jìn)行評(píng)級(jí)。
本發(fā)明也提供一個(gè)以文本為基礎(chǔ)的搜索引擎,該引擎包含一種算法,該算法包含如下步驟1)用于將查詢文件中的第一個(gè)文本與文本數(shù)據(jù)庫中的第二個(gè)文本作比較的辦法;2)用于識(shí)別兩者之間共有的信息元的辦法;并且3)用于計(jì)算累積評(píng)分值或以下各評(píng)分值的辦法,包括利用信息元頻率分布來衡量信息內(nèi)容的重疊次數(shù)的評(píng)分,以及從共有信息元的累積Shannon信息、共有信息元的組合p-值、重疊單詞的數(shù)量、和重疊單詞的百分比的集合中挑選出的評(píng)分。
在一個(gè)具體實(shí)施例中,本發(fā)明提供一個(gè)文本信息的計(jì)算機(jī)化存儲(chǔ)和檢索系統(tǒng)用于搜索和評(píng)級(jí),該系統(tǒng)包括用于輸入和儲(chǔ)存數(shù)據(jù)以作為一個(gè)數(shù)據(jù)庫的裝置;用于顯示數(shù)據(jù)的裝置;一個(gè)用于執(zhí)行文本自動(dòng)分析的可編程的中央處理單元,其中分析的是文本,該文本從包含所查詢的全文、所查詢的網(wǎng)頁的集合中挑選出,根據(jù)查詢和命中文件之間共有單詞得出Shannon信息評(píng)分值來評(píng)級(jí)命中文件,評(píng)級(jí)以p-值,計(jì)算出的Shannon信息值為基礎(chǔ)或p-值以單詞頻率為基礎(chǔ),該單詞頻率已經(jīng)被為了專門的數(shù)據(jù)庫而直接計(jì)算出或被來自至少一個(gè)的外部來源所評(píng)估,共有信息元的百分比本身,查詢和命中文件之間共有信息元得出的Shannon信息值,共有信息元的p-值,共有信息元的百分比自身,計(jì)算出的Shannon信息值或者以信息元頻率為基礎(chǔ)的p-值,該信息元頻率已經(jīng)被為了專門的數(shù)據(jù)庫而直接計(jì)算出或被來自至少一個(gè)的外部來源所評(píng)估,并且其中文本包含至少一個(gè)單詞。在可供選擇的實(shí)施例中,該文本包含眾多的單詞。在另一個(gè)具體實(shí)施例中,查詢包含的文本的單詞數(shù)從含有1-14,15-20,20-40,40-60,60-80,80-100,100-200,200-300,300-500,500-750,750-1000,1000-2000,2000-4000,4000-7500,7500-10000,10000-20000,20000-40000,以及超過40000個(gè)單詞的集合中挑選出。在進(jìn)一步的實(shí)施例中,文本包含至少一個(gè)短語。在進(jìn)一步的實(shí)施例中,文本可以是被加密的。
在另一個(gè)實(shí)施例中,該系統(tǒng)所包含的在此以及在彼公開的系統(tǒng)自動(dòng)分析進(jìn)一步允許在查詢文件中重復(fù)的信息元和以更高的值來安置重復(fù)的信息元。在更優(yōu)的實(shí)施例中,自動(dòng)分析評(píng)級(jí)以p-值為基礎(chǔ),該p-值是命中文件對(duì)查詢文件所共有的信息元的可能性或幾率的量度,并且其中的p-值是以數(shù)據(jù)庫中信息元的分布來計(jì)算的,并且可選擇地,在此p-值是以數(shù)據(jù)庫中信息元的估計(jì)分布來計(jì)算的。在一個(gè)可供選擇的實(shí)施例中,命中文件的自動(dòng)評(píng)級(jí)是以Shannon信息評(píng)分值為基礎(chǔ)的,在此Shannon信息評(píng)分值是查詢和命中文件共有的信息元的累積Shannon信息。在另一個(gè)可供選擇的實(shí)施例中,命中文件的自動(dòng)評(píng)級(jí)是以百分比本身為基礎(chǔ)的,在此百分比本身是2*(共有的信息元)/查詢和命中文件中總信息元的比率。
在此公開的系統(tǒng)的另一個(gè)實(shí)施例中,計(jì)算查詢和命中文件中的信息元是在詞干溯源之前執(zhí)行的??晒┻x擇的,計(jì)算查詢和命中文件中的信息元是在詞干溯源之后執(zhí)行的。在另一個(gè)可供選擇中,計(jì)算查詢和命中文件中的信息元是在移走普通單詞之前執(zhí)行的。在另一可供選擇中,計(jì)算查詢和命中文件中的信息元是在移走普通單詞之后執(zhí)行的。
在此公開的系統(tǒng)的進(jìn)一步實(shí)施例中,對(duì)命中文件評(píng)級(jí)是以累積評(píng)分值為基礎(chǔ)的,該累積評(píng)分值從含有p-值、Shannon信息評(píng)分值、以及百分比本身的集合中挑選出。在一個(gè)更優(yōu)的實(shí)施例中,自動(dòng)分析分別為每個(gè)配對(duì)的單詞分配一個(gè)固定的評(píng)分值和為每個(gè)匹配的短語分配一個(gè)固定的評(píng)分值。
在該系統(tǒng)的更優(yōu)實(shí)施例中,該算法進(jìn)一步包含辦法用于在顯示器上以命中文件呈現(xiàn)查詢文件,其中讓共有的文本被強(qiáng)調(diào)。
在另一實(shí)施例中數(shù)據(jù)庫進(jìn)一步包含一個(gè)同義詞和短語列表。
在本系統(tǒng)的另一實(shí)施例中,該算法允許用戶向數(shù)據(jù)庫輸入同義詞,該同義詞與相關(guān)的查詢聯(lián)合并且包括在分析中。在另一實(shí)施例中,該算法接受文本作為查詢而不要求關(guān)鍵詞,在此文本從含有摘要、標(biāo)題、句子、論文、文章以及其中的任何部分的集合中挑選出。在可供選擇的實(shí)施例中,該算法接受文本作為查詢而不要求關(guān)鍵詞,在此文本從含有網(wǎng)頁、網(wǎng)頁URL地址、網(wǎng)頁的重要部分以及其中的任何部分的集合中挑選出。
在本發(fā)明的更優(yōu)實(shí)施例中,該算法分析一個(gè)單詞,其中該單詞可在自然語言中找到。在更優(yōu)的實(shí)施中,該語言從含有漢語、法語、日語、德語、英語、愛爾蘭語、俄語、西班牙語、意大利語、葡萄牙語、希臘語、波蘭語、捷克語、斯洛伐克語、塞卜-克羅特語、羅馬尼亞語、阿爾巴尼亞語、土耳其語、希伯來語、阿拉伯語、印度語、烏都語、泰語、togalog語、玻利尼西亞語、韓語、越南語、老撾語、kmer語、緬甸語、印度尼西亞語、瑞士語、挪威語、丹麥語、冰島語、芬蘭語、匈牙利語、以及此類的集合中挑選出。
本發(fā)明的更優(yōu)實(shí)施例中,算法分析一個(gè)單詞,其中該單詞可在電腦語言中找到。在更優(yōu)的實(shí)施例中,該語言從含有C/C++/C#,JAVA,SQL,PERL,PHP,以及此類的集合中挑選出。
本發(fā)明進(jìn)一步提供一個(gè)處理過的文本數(shù)據(jù)庫,該數(shù)據(jù)庫來源于一個(gè)原始的文本數(shù)據(jù)庫,該處理過的文本數(shù)據(jù)庫所有的文本從含有過濾出普通單詞的文本,和用詞干溯源的辦法歸并起來的、有同樣詞根的單詞,一個(gè)生成的含有單詞和自動(dòng)識(shí)別的短語的信息元列表,一個(gè)生成的頻率分布或每個(gè)單詞的估計(jì)頻率,以及與每個(gè)信息元相聯(lián)系的從頻率分布中計(jì)算出的Shannon信息的集合中挑選出。
在此公開的本系統(tǒng)的另一實(shí)施例中,可編程的中央處理單元進(jìn)一步包含一個(gè)算法用于屏蔽和忽略數(shù)據(jù)庫中很可能與查詢無關(guān)的文本。在更優(yōu)的實(shí)施例中,該屏蔽算法進(jìn)一步包含倒轉(zhuǎn)索引,查找該索引,針對(duì)該數(shù)據(jù)庫的查詢可以很快識(shí)別在數(shù)據(jù)庫中包含與該查詢相關(guān)的特定單詞的某些條目。
本發(fā)明也提供一個(gè)搜索引擎方法用于搜索和評(píng)級(jí)文本,該方法包含如下步驟1)提供如在此所公開的計(jì)算機(jī)化的儲(chǔ)存和檢索系統(tǒng);2)在可編程的中央處理單元中安裝以文本為基礎(chǔ)的搜索引擎;3)輸入文本,該文本從含有正文、全文、或關(guān)鍵詞的集合中挑選出;該方法在數(shù)據(jù)庫中產(chǎn)生一個(gè)經(jīng)搜索和評(píng)級(jí)的文本。
本發(fā)明也提供一個(gè)方法用于生成一個(gè)列表,該列表含有短語列表,在給定的文本數(shù)據(jù)庫中他們的分布頻率,以及他們相聯(lián)系的Shannon信息評(píng)分值,該方法包含如下步驟1)提供在此公開的系統(tǒng);2)提供一個(gè)閾值頻率用于識(shí)別固定長度的兩個(gè)單詞的連續(xù)詞組,在數(shù)據(jù)庫中作為一個(gè)短語;3)提供區(qū)別閾值頻率用于識(shí)別固定長度的3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,以及20個(gè)單詞的連續(xù)詞組作為數(shù)據(jù)庫中的短語;4)識(shí)別每個(gè)被識(shí)別出的短語在文本數(shù)據(jù)庫中的頻率值;5)識(shí)別至少一個(gè)信息元;并且6)有根據(jù)地調(diào)整頻率表,以使得當(dāng)新的固定長度的短語被識(shí)別后,在一個(gè)已被識(shí)別的信息元中作為其組成部分的信息元不會(huì)被多次計(jì)算,由此產(chǎn)生一個(gè)列表,含有短語、他們的分布頻率、以及與他們關(guān)聯(lián)的Shannon信息評(píng)分值。
本發(fā)明也提供一個(gè)方法用于比較兩個(gè)句子以發(fā)現(xiàn)它們之間的相似性并且提供相似評(píng)分值,其中比較以兩個(gè)或多個(gè)項(xiàng)目為基礎(chǔ),這些項(xiàng)目從含有單詞頻率、短語頻率、單詞和短語的順序、插入和刪除處罰的集合中挑選出,并且利用代替矩陣來計(jì)算相似值,其中該代替矩陣提供一個(gè)不同單詞和短語之間的相似評(píng)分值。
本發(fā)明也提供一個(gè)文本查詢搜索引擎包含裝置用于使用在此公開的方法,用全文作為查詢的搜索引擎或者用網(wǎng)頁作為查詢的搜索引擎。
本發(fā)明進(jìn)一步提供一個(gè)用戶接口,該接口顯示使用在此公開的算法識(shí)別的數(shù)據(jù),該顯示使用從含有網(wǎng)頁、圖形的用戶接口、觸摸屏接口的集合中挑選出的顯示裝置來呈現(xiàn),以及因特網(wǎng)聯(lián)接裝置,并且因特網(wǎng)連接裝置從含有寬帶連接、以太網(wǎng)連接、電話線連接、無線連接、以及電波連接的集合中挑選出。
本發(fā)明也提供一個(gè)搜索引擎包含在此公開的系統(tǒng)、在此公開的數(shù)據(jù)庫、在此公開的搜索引擎、以及用戶接口,進(jìn)一步包含一個(gè)命中,該命中從含有根據(jù)網(wǎng)絡(luò)的受歡迎度評(píng)級(jí)、引用評(píng)分值評(píng)級(jí)、支付的廣告費(fèi)的數(shù)目評(píng)級(jí)的命中文件的集合中挑選出。在更優(yōu)的實(shí)施例中,算法進(jìn)一步包含裝置用于重新評(píng)級(jí)來自其它搜索引擎的搜索結(jié)果,該重新評(píng)級(jí)使用為數(shù)據(jù)庫文本的Shannon信息或?yàn)橹丿B單詞的Shannon信息。在另一更優(yōu)實(shí)施例中,該算法進(jìn)一步包含裝置用于重新評(píng)級(jí)來自其它搜索引擎的搜索結(jié)果,該重新評(píng)級(jí)使用一個(gè)p-值,它以數(shù)據(jù)庫中的信息元分布頻率為基礎(chǔ)計(jì)算出或者以重疊信息元的分布頻率為基礎(chǔ)計(jì)算出。
本發(fā)明也提供一個(gè)方法用于為查詢和命中文件中重復(fù)的信息元計(jì)算Shannon信息,該方法包含使用等式S=min(n,m)*Sw計(jì)算值S的步驟,其中Sw是信息元的Shannon信息,在查詢中一個(gè)共有的信息元次數(shù)是m,在命中文件中一個(gè)共有的信息元次數(shù)是n。
本發(fā)明進(jìn)一步提供一個(gè)方法用于評(píng)級(jí)廣告,該方法使用在此公開的全文搜索引擎、在此公開的搜索引擎方法、Shannon信息評(píng)分值、并且該方法用于計(jì)算上面公開的Shannon信息,該方法進(jìn)一步包含創(chuàng)建一個(gè)廣告數(shù)據(jù)庫的步驟。在更優(yōu)的實(shí)施例中,用于評(píng)級(jí)廣告的該方法進(jìn)一步包含向用戶輸出評(píng)級(jí)的步驟,用戶通過從用戶接口或電子郵件公告來收到。
在另一個(gè)實(shí)施例中,本發(fā)明提供一個(gè)方法用于向使用評(píng)級(jí)廣告的方法的顧客收費(fèi),并且這是以計(jì)算廣告中的單詞和由顧客點(diǎn)擊進(jìn)入廣告商的網(wǎng)址的連接次數(shù)為基礎(chǔ)的。
在另一個(gè)實(shí)施例中,本發(fā)明提供一個(gè)方法用于重新評(píng)級(jí)來自第二搜索引擎的輸出,該方法進(jìn)一步包含如下步驟1)使用來自第二搜索引擎的命中文件作為查詢文件;并且2)使用權(quán)利要求25的方法生成一個(gè)重新評(píng)級(jí)的命中文件,其中搜索的數(shù)據(jù)庫局限于已由第二搜索引擎返回的所有命中文件。
本發(fā)明也提供一個(gè)如上面所公開的用戶接口,該用戶接口進(jìn)一步包含第一虛擬按鈕設(shè)置在至少一個(gè)命中文件的虛擬鄰接中,并且其中當(dāng)?shù)谝惶摂M按鈕被用戶點(diǎn)擊,搜索引擎使用該命中文件作為查詢再次搜索整個(gè)數(shù)據(jù)庫產(chǎn)生一個(gè)以該命中文件作為查詢基礎(chǔ)的新的結(jié)果頁。在另一個(gè)可供選擇的實(shí)施例中,用戶接口進(jìn)一步包含第二虛擬按鈕設(shè)置在至少一個(gè)命中文件的虛擬鄰接中,并且其中當(dāng)?shù)诙摂M按鈕被用戶點(diǎn)擊,搜索引擎使用該點(diǎn)擊作為查詢來重新評(píng)級(jí)所有命中文件的集合產(chǎn)生一個(gè)以該命中文件為查詢基礎(chǔ)的新的結(jié)果頁。在更優(yōu)的實(shí)施例中,該用戶接口進(jìn)一步包含一個(gè)與網(wǎng)絡(luò)瀏覽器相聯(lián)合的搜索功能和設(shè)置在網(wǎng)絡(luò)瀏覽器的頭部的第三虛擬按鈕。在更優(yōu)的實(shí)施例中,網(wǎng)絡(luò)瀏覽器從含有網(wǎng)景,IE以及sofari的集合中挑選出。在另一個(gè)實(shí)施例中,第三虛擬按鈕被標(biāo)志為“搜索因特網(wǎng)”以使當(dāng)?shù)谌摂M按鈕被用戶點(diǎn)擊后,搜索引擎將使用顯示的頁面作為查詢來搜索整個(gè)因特網(wǎng)數(shù)據(jù)庫。
本發(fā)明也提供一臺(tái)電腦包含在此公開的系統(tǒng)和用戶接口,其中該算法進(jìn)一步包含使用由用戶選擇的查詢來搜索因特網(wǎng)的步驟。
本發(fā)明也提供一個(gè)方法用于壓縮一個(gè)以文本為基礎(chǔ)的含有唯一標(biāo)識(shí)符的數(shù)據(jù)庫,該方法包含如下步驟1)產(chǎn)生一個(gè)包含字符串的表格;2)給表格中每個(gè)字符串設(shè)置一個(gè)標(biāo)識(shí)符(ID),其中給表格中的每個(gè)字符串的ID都是根據(jù)文本在數(shù)據(jù)庫中的使用空間設(shè)置的,使用空間通過利用等式freq(字符串)*length(字符串)來計(jì)算;并且3)在上升順序中用列表中的各ID來代替表格中的文本,該步驟產(chǎn)生一個(gè)壓縮數(shù)據(jù)庫。在該方法的更優(yōu)實(shí)施例中,該ID是一個(gè)整數(shù)從含有二進(jìn)制數(shù)和整數(shù)級(jí)數(shù)的集合中挑選出。在另一個(gè)可供選擇的實(shí)施例中,本方法進(jìn)一步包含使用zip壓縮和解壓軟件程序的壓縮。本發(fā)明也提供一個(gè)方法用于解壓壓縮的數(shù)據(jù)庫,該方法包含如下步驟1)用相關(guān)的字符串來代替列表中的各ID,并且2)在表格中列出字符串,該步驟產(chǎn)生一個(gè)解壓的數(shù)據(jù)庫。
本發(fā)明進(jìn)一步提供一個(gè)全文查詢和搜索方法包含在此公開的壓縮方法,該壓縮方法進(jìn)一步包含如下步驟1)在硬盤中保存數(shù)據(jù)庫;并且2)將磁盤內(nèi)容裝載進(jìn)內(nèi)存中。在另一個(gè)具體實(shí)施中,全文查詢和搜索方法進(jìn)一步含有使用各種相似矩陣來代替本身映射的步驟,其中相似矩陣定義信息元和他們的同義詞,并且進(jìn)一步有選擇地提供一個(gè)0和1之間的相似系數(shù),其中0表示沒有相似性,1表示相同。
在另一個(gè)具體實(shí)施例中用于計(jì)算Shannon信息的方法進(jìn)一步包含使用Shannon信息聚成文本簇。在更優(yōu)的實(shí)施例中,文本的格式從含有返回自搜索的一個(gè)數(shù)據(jù)庫和一個(gè)列表的集合中挑選出。
本發(fā)明也提供在此公開的系統(tǒng)和用于計(jì)算Shannon信息的方法進(jìn)一步使用Shannon信息關(guān)鍵詞為基礎(chǔ)的查詢搜索單詞少于10個(gè),其中算法包含恒量從含有限制系數(shù)恒量α,其中0<=α<=1,和限制位置系數(shù)恒量β,其中0<=β<=1的集合中挑選出,并且其中總評(píng)分值是共有信息元的一個(gè)函數(shù),總查詢信息元數(shù)目K,和在命中文件每個(gè)信息元的頻率,以及α和β。在更優(yōu)的實(shí)施例中,顯示的命中文件進(jìn)一步包含多個(gè)部分,它們的分割是根據(jù)從含有一個(gè)閾值特征的一組中選出的特征,其中該部分有一個(gè)符合查詢的命中文件超過了該閾值,一個(gè)分離的距離特征,其中有一個(gè)顯著的單詞將兩部分分離,還有一個(gè)錨狀特征處在或接近于該部分的開始和結(jié)尾,其中該錨是命中文件單詞。
在一個(gè)可供選擇的實(shí)施例中,在此公開的系統(tǒng)和用于計(jì)算Shannon信息的方法被用于篩選垃圾郵件。
在另一個(gè)可供選擇的實(shí)施例中,在此公開的系統(tǒng)和用于計(jì)算Shannon信息的方法被用于審查重要的電子郵件。


圖1說明命中文件是如何根據(jù)查詢和命中文件中重疊的信息元進(jìn)行評(píng)級(jí)的。
圖2是一個(gè)簡明流程圖,顯示本發(fā)明的一個(gè)具體實(shí)施例是如何使用的。
圖3是一個(gè)簡明流程圖,顯示本發(fā)明的另一個(gè)具體實(shí)施例是如何使用的。
圖4說明本發(fā)明的一個(gè)具體實(shí)施例,顯示查詢輸入的三種不同方法。
圖5說明一個(gè)具體輸出顯示列出的命中文件,它們是使用圖4的查詢文本頁識(shí)別出。
圖6說明查詢文本頁和命中文本頁之間的比較,顯示共有的單詞,該比較可以通過圖5的輸出顯示中的鏈接進(jìn)入。
圖7說明一個(gè)顯示經(jīng)評(píng)估的SI-score(評(píng)分)表,比較查詢文本頁中的各個(gè)單詞和命中文本頁中的相同單詞,該表格可以通過圖5的輸出顯示中鏈接進(jìn)入。
圖8說明由百分比本身挑選的在圖5中表明的具體輸出顯示列表。
圖9說明本發(fā)明的一個(gè)可供選擇的具體實(shí)施例顯示三種不同的查詢輸入方法,其中輸出顯示一個(gè)由SI-score(評(píng)分)所挑選的非交互的命中文件列表。
圖10說明本發(fā)明的一個(gè)可替代的具體實(shí)施例,顯示一種用于輸入一個(gè)URL地址來查詢的方法,該URL地址隨后被從詞法上分析并被用作查詢文本頁。
圖11說明使用圖10的具體URL的輸出。
圖12說明本發(fā)明的一個(gè)可供選擇的具體實(shí)施例,顯示一種用于輸入一個(gè)被用作查詢文本頁的關(guān)鍵詞串來查詢的方法。
圖13說明使用圖12的各個(gè)具體關(guān)鍵詞的輸出。
具體實(shí)施例方式
在該文件中公開的實(shí)施例是作為說明的和示例的,并且并非意味著對(duì)本發(fā)明的限制。其他實(shí)施例能被利用并且能夠做出結(jié)構(gòu)性的改變而不違反本發(fā)明的權(quán)利主張范圍。
正如在此和在附屬權(quán)利要求使用的,單數(shù)形式的“a”,“an”,以及“the”都包括復(fù)數(shù)的參照引用除非上下文明顯的提示除外。這樣,例如,提到“一個(gè)短語”包括該短語的復(fù)數(shù)形式,并且提到“一種算法”就是提到一個(gè)或更多的算法以及其等價(jià)物,以此類推。
定義數(shù)據(jù)庫和它的條目這里一個(gè)數(shù)據(jù)庫是一個(gè)以文本為基礎(chǔ)的個(gè)體文本文件的集合。每個(gè)文本文件是一個(gè)條目。每個(gè)條目有一個(gè)唯一的基本的關(guān)鍵詞(條目的名字)。我們期望條目長度的變化不要過大。
查詢一個(gè)文本文件含有如數(shù)據(jù)庫中的相同種類的信息。一些對(duì)用戶有特殊興趣的東西。它也能成為數(shù)據(jù)庫中的條目。
命中一個(gè)命中文件是數(shù)據(jù)庫中的一個(gè)文本文件的條目,在該數(shù)據(jù)庫中查詢與命中文件在用詞上的重疊被計(jì)算出重要性。重要性是與如下面公開的一個(gè)分值或眾多分值相聯(lián)系的。當(dāng)重疊單詞的集合分值超出某個(gè)特定條目,則該文件就被認(rèn)為是命中文件。計(jì)算分值的方法有很多,例如,記錄重疊單詞的數(shù)量;使用與重疊單詞相聯(lián)系的計(jì)算出的Shannon信息;計(jì)算p值,該值顯示與查詢相聯(lián)系的命中文件由于偶然而存在多大的相似性。
命中評(píng)分值一項(xiàng)措施(如矩陣)用于記錄命中文件相對(duì)于查詢的質(zhì)量。衡量該命中文件質(zhì)量有很多的方法,取決于該問題如何被看待或被考慮。在最簡單的場景中該分值被定義為兩個(gè)文本間重疊單詞的數(shù)量。這樣,重疊的單詞越多,分值就越高。通過引用在其他來源和/或數(shù)據(jù)庫中出現(xiàn)的命中文件的評(píng)級(jí)是另一種方式。該方法在關(guān)鍵詞搜索中使用最佳,該搜索方法中100%的查詢相匹配是足夠的,并且根據(jù)關(guān)鍵詞的文件副評(píng)級(jí)是以每個(gè)網(wǎng)址的重要性為基礎(chǔ)的。在上面提到的情況中重要性被定義為“來自外部地址的該地址的引用”。本發(fā)明的搜索引擎中,下面的命中分值能被本發(fā)明所使用百分比本身,共有單詞和短語的數(shù)量,p值,以及Shannon信息。其他參數(shù)也能被測量以獲得一個(gè)分值,并且這些在本技術(shù)領(lǐng)域是公知的。
一個(gè)數(shù)據(jù)庫的單詞分布對(duì)一個(gè)文本數(shù)據(jù)庫,存在一個(gè)總的唯一的單詞計(jì)數(shù)N。每個(gè)單詞W有它的頻率f(w),意味著其在數(shù)據(jù)庫中出現(xiàn)的次數(shù)。在數(shù)據(jù)庫中單詞的總數(shù)是Tw=Sif(wi),i=1,-----,N,其中Si代表所有i的總和。對(duì)所有單詞w(在此是一個(gè)矢量)的頻率,F(xiàn)(w),被表示為數(shù)據(jù)庫的分布。該構(gòu)思來自一個(gè)概率理論。該單詞分布可以被用于自動(dòng)移走冗余短語。
完全相同單詞的計(jì)數(shù)如果一個(gè)單詞都在查詢和命中文件中出現(xiàn)一次,很容易計(jì)算出它是兩個(gè)文件共有的普通單詞。本發(fā)明試圖計(jì)算再查詢和命中文件中出現(xiàn)都超過一次的單詞。一個(gè)實(shí)施例將遵循如下的規(guī)則對(duì)相同單詞在查詢中(出現(xiàn)m次)而在命中文件中(出現(xiàn)n次),數(shù)量計(jì)算為min(m,n),m和n中的較小者。
百分比本身一個(gè)用于衡量兩個(gè)文件(查詢和命中)之間相似性的分值。在一個(gè)具體實(shí)施例中,其實(shí)查詢文件和命中文件之間單詞相同的百分比。百分比本身被定義為(2*共有單詞的數(shù)量)/(查詢的單詞總數(shù)+命中的單詞總數(shù))。對(duì)于查詢和命中中相同的單詞,我們遵循在項(xiàng)目6中的規(guī)則。通常,分值越高,兩個(gè)條目間的相關(guān)性越高。如果查詢和命中完全相同,百分比本身=100%。
p-值在查詢和命中中共有單詞出現(xiàn)的可能性,其實(shí)完全隨機(jī)的,考慮到對(duì)于數(shù)據(jù)庫的分布功能F(w)。該p-值使用精密的概率理論來計(jì)算,但有些困難。作為第一等級(jí)的近似,我們將使用P=Pip(wi),其中Pi是所有i的乘積在命中和查詢中共有單詞,p(wi)是每個(gè)單詞的概率,p(wi)=f(wi)/Tw。真實(shí)的p-值是與該數(shù)量線性聯(lián)系的,但有一個(gè)倍數(shù)因素,該因素與查詢,命中,以及數(shù)據(jù)庫的大小相聯(lián)系。
一個(gè)單詞的Shannon信息在更復(fù)雜的場景中,該分值被定義為重疊單詞的累積Shannon信息,在此Shannon信息被定義為-log2(f/Tw),其中f是該單詞的頻率,該單詞在數(shù)據(jù)庫中出現(xiàn)的數(shù)量,以及Tw是數(shù)據(jù)庫中單詞的總數(shù)。
短語代表在一個(gè)固定的連續(xù)的順序中單詞列表,并且使用一個(gè)算法而從一個(gè)文本和/或數(shù)據(jù)庫中挑選出,該算法決定其在數(shù)據(jù)庫中出現(xiàn)的頻率(單詞分布)。
信息元是一個(gè)與在查詢和命中文件中的單詞,短語,和/或文本相聯(lián)系的最基本的信息單元。在數(shù)據(jù)庫中的該單詞,短語,和/或文本被分配一個(gè)單詞分布頻率值,以及被分配一個(gè)信息元如果頻率值是高于一個(gè)預(yù)先定義的頻率。該預(yù)先定義的頻率能因數(shù)據(jù)庫的不同而有區(qū)別,并且能夠以不同內(nèi)容的數(shù)據(jù)庫為基礎(chǔ),例如,一個(gè)基因數(shù)據(jù)庫的內(nèi)容是不同于一個(gè)中文文學(xué)數(shù)據(jù)庫的內(nèi)容的,或諸如此類。為不同數(shù)據(jù)庫所預(yù)先決定的決定可以是簡化的,并且在一個(gè)頻率表中列出。該表格能由用戶自由的獲得或者是支付一定的費(fèi)用后獲取。信息元的分布頻率被用于生成Shannon信息和p值。如果查詢和命中有一個(gè)重疊和/或類似的信息元頻率,則該命中被分配一個(gè)命中分值,該值將命中文件排列進(jìn)或置頂于輸出列表。在一些情況中,術(shù)語“單詞”與術(shù)語“信息元”是同義詞;在其他情況中術(shù)語“短語”與術(shù)語“信息元”是同義詞。
一篇文章或兩篇文章之間共有單詞的Shannon熵和信息假設(shè)X是一個(gè)在數(shù)列X={X1,---,Xn}中離散的隨機(jī)的變量,概率p(x)=Pr(X=x)。X,H(X)的熵被定義為H(X)=-Sip(Xi)log2p(Xi),其中Si定義所有的i總和。公式0log2(0)=0在定義中被采用。該對(duì)數(shù)通常采用以2為底數(shù)。當(dāng)應(yīng)用于文本搜索問題,該X是我們的文章,或兩篇文章之間共有的單詞(每個(gè)單詞都有來自字典的概率),該概率可以是在數(shù)據(jù)庫中的單詞頻率或是估計(jì)頻率。文本(或兩文本中的交集)中的信息I(X)=-Silog2(Xi)。
總體相似性搜索引擎的簡述我們對(duì)搜索引擎技術(shù)提出一個(gè)新的方法,我們稱為“總體相似性搜索”。取代試圖逐個(gè)與關(guān)鍵詞配對(duì),我們從另一個(gè)角度來考察搜索問題總體的角度。在此,與一個(gè)或兩個(gè)的關(guān)鍵詞配對(duì)不再是必不可少。關(guān)鍵在于查詢與它的命中之間整體相似性。相似性措施是以Shannon信息熵為基礎(chǔ)的,一個(gè)用于衡量每個(gè)單詞或短語的信息量的構(gòu)思。
1)對(duì)單詞的數(shù)量不作限制。事實(shí)上,用戶被鼓勵(lì)寫下任何所想查到的。查詢中的單詞越多越好。這樣,在本發(fā)明的搜索引擎中,查詢可能是一些關(guān)鍵詞,一個(gè)摘要,一個(gè)段落,一個(gè)全文文章,或者是一個(gè)網(wǎng)頁。換句話說,搜索引擎將允許“全文查詢”,其中查詢并不局限于一些單詞,而可以是一個(gè)文本文件的完整內(nèi)容。用戶被鼓勵(lì)對(duì)他們查找的內(nèi)容特定化。他們的細(xì)節(jié)越多,他們能被檢索到的信息越精確。一個(gè)用戶不需要再承受挑出關(guān)鍵詞的負(fù)擔(dān)。
2)對(duì)數(shù)據(jù)庫的內(nèi)容不作限制,不局限于互聯(lián)網(wǎng)。當(dāng)搜索引擎不再依賴于連接數(shù)量,該技術(shù)也不再受數(shù)據(jù)庫類型的限制,只要其以文本為基礎(chǔ)。這樣,它可以是任何的文本內(nèi)容,如硬盤文件,電子郵件,科技文獻(xiàn),法律集合,或諸如此類。它也是獨(dú)立于語言的。
3)巨大的數(shù)據(jù)庫尺寸是件好事。在總體相似性搜索中,命中的數(shù)量通常是非常有限的,如果用戶能夠?qū)ζ渌檎业男畔⑻囟ɑ?。?duì)查詢越特定,返回的命中越少。數(shù)據(jù)庫中巨大的尺寸事實(shí)上對(duì)本發(fā)明是件好事,因?yàn)樗业接脩粝胍糜涗浵嗨菩栽酱?。在以關(guān)鍵詞為基礎(chǔ)的搜索中,大型的數(shù)據(jù)庫尺寸是一個(gè)負(fù)面因素,因?yàn)楹袠O少關(guān)鍵詞的記錄數(shù)量通常非常的大。
4)無語言障礙。該技術(shù)應(yīng)用于任何語言(甚至是外國語如果我們某天接收到他們)。該搜索引擎是以信息理論為基礎(chǔ)的,而不是符號(hào)學(xué)。它不要求理解內(nèi)容。該搜索引擎能毫不費(fèi)力地適應(yīng)世界上存在的任何語言。
5)最重要的,用戶想要的是用戶所得到的,并且返回的命中是不存在偏差的。在此介紹一個(gè)新的計(jì)分系統(tǒng),以Shannon信息理論為基礎(chǔ)。例如,單詞“the”和短語“搜索引擎”載有不同量的信息。每個(gè)單詞和短語的信息量是它所在的數(shù)據(jù)庫內(nèi)在的。該命中根據(jù)查詢和命中之間重疊單詞和短語的信息量來評(píng)級(jí)。以此方式,在數(shù)據(jù)庫中與查詢最相關(guān)的條目通常被期待確定性越高則分值最高。該評(píng)級(jí)是單純的以信息科學(xué)理論為基礎(chǔ)的,并且與連接數(shù)量,網(wǎng)頁受歡迎度,或廣告費(fèi)無關(guān)。這樣,新的評(píng)級(jí)是真正客觀的。
我們改善用戶搜索經(jīng)驗(yàn)的觀點(diǎn)非常有別于其他的如由Yahoo或Google提供的搜索引擎。傳統(tǒng)的搜索引擎,包括Yahoo和Google,更加關(guān)注一個(gè)單詞,或一個(gè)簡短的單詞或短語列表,而我們是解決更大型的含有許多單詞和短語的文本問題。這樣,我們呈現(xiàn)一個(gè)完全不同的發(fā)現(xiàn)和評(píng)級(jí)命中文件的方式。評(píng)級(jí)含有整個(gè)查詢單詞的命中文件并非首要,但在該情況下仍然可被執(zhí)行,因?yàn)檫@在長查詢中很少出現(xiàn),即查詢含有很多單詞或眾多短語。在有許多命中的情況下,它們都含有查詢單詞,我們推薦用戶通過提供更多的描述來重新定義他們的查詢。這使得本發(fā)明的搜索引擎更好的過濾掉非相關(guān)的命中。
我們最主要的關(guān)注是與查詢的不同重疊的命中的評(píng)級(jí)方法。他們應(yīng)如何得到評(píng)級(jí)?在此提供的解決方案植根于用于交流的Shannon所發(fā)展的“信息論”。Shannon的信息論思想被應(yīng)用于給定的無關(guān)聯(lián)分布的文本數(shù)據(jù)庫。每個(gè)單詞或短語的信息量是由它在數(shù)據(jù)庫中的頻率決定的。我們使用兩篇文章之間的共有單詞和短語中的信息總量來衡量一個(gè)命中的相關(guān)性。在整個(gè)數(shù)據(jù)庫中的條目都能以此方式評(píng)級(jí),最相關(guān)的條目擁有最高的分值。
獨(dú)立于語言的技術(shù)起源于計(jì)算的生物學(xué)本發(fā)明的搜索引擎是獨(dú)立于語言的。它可以應(yīng)用于任何語言,包括非人類語言,如基因順序數(shù)據(jù)庫。它與語義學(xué)研究無關(guān)。大多數(shù)技術(shù)首先發(fā)展于為建立基因順序數(shù)據(jù)庫的計(jì)算生物學(xué)中。我們引入Shannon信息概念,簡單的將其應(yīng)用于文本數(shù)據(jù)庫搜索問題。基因數(shù)據(jù)庫搜索是一項(xiàng)成熟的技術(shù),已經(jīng)由許多科學(xué)家經(jīng)過25年的發(fā)展。它是完成人類基因評(píng)級(jí)和發(fā)現(xiàn)~30000個(gè)人類基因的主要技術(shù)之一。
在計(jì)算的生物學(xué)中,一個(gè)典型的評(píng)級(jí)搜索問題如下給定一個(gè)蛋白質(zhì)數(shù)據(jù)庫protDB,和一個(gè)查詢蛋白質(zhì)順序protQ,在protDB中找到與protQ相關(guān)的所有順序,并且根據(jù)它們與protQ相關(guān)度將它們進(jìn)行評(píng)級(jí)。將該問題轉(zhuǎn)換為一個(gè)文本的數(shù)據(jù)庫背景為一個(gè)給定的文本數(shù)據(jù)庫textDB,和一個(gè)查詢文本textQ,在textDB中找到與textQ相聯(lián)系的所有條目,根據(jù)它們與textQ的相近度將它們進(jìn)行評(píng)級(jí)。該計(jì)算的生物學(xué)問題是經(jīng)精確定義的,并且解決方案能被精確的而非模棱兩可的找到使用各種算法(例如Smith-Waterman算法)。我們的鏡像文本數(shù)據(jù)庫搜索問題也有一個(gè)精確科學(xué)的說明和解決方案。
對(duì)任何給定的文本數(shù)據(jù)庫,不考慮它的語言或數(shù)據(jù)內(nèi)容,本發(fā)明的搜索引擎將自動(dòng)地建立一個(gè)單詞和短語的字典,并且給每個(gè)單詞和短語分配Shannon信息量。這樣,一個(gè)查詢有它的信息量;在數(shù)據(jù)庫中的一個(gè)條目有它的信息量;并且數(shù)據(jù)庫有它的總信息量。每個(gè)數(shù)據(jù)庫條目與查詢的相關(guān)度是由命中和查詢之間的重疊單詞和短語中的信息總量來衡量的。這樣,如果一個(gè)查詢和一個(gè)條目沒有重疊的單詞/短語,那分值將為0。如果數(shù)據(jù)庫包含查詢本身,它將得到最高分值的可能。輸出成為一個(gè)命中列表,根據(jù)它們與查詢的信息相關(guān)性來評(píng)級(jí)。提供一個(gè)查詢和每個(gè)命中之間的列隊(duì),其中所有共有的單詞和短語能由鮮明的顏色強(qiáng)調(diào);并且每個(gè)重疊單詞/短語的Shannon信息量能被列出。在此為評(píng)級(jí)使用的算法是定量的,精確的,完全客觀的。
語言可以以任何格式并且可以是一個(gè)自然語言如,但不局限于漢語、法語、日語、德語、英語、愛爾蘭語、俄語、西班牙語、意大利語、葡萄牙語、希臘語、波蘭語、捷克語、斯洛伐克語、塞卜-克羅特語、羅馬尼亞語、阿爾巴尼亞語、土耳其語、希伯來語、阿拉伯語、印度語、烏都語、泰語、togalog語、玻利尼西亞語、韓語、越南語、老撾語、kmer語、緬甸語、印度尼西亞語、瑞士語、挪威語、丹麥語、冰島語、芬蘭語、匈牙利語。該語言可以是計(jì)算機(jī)語言,如,但不局限于C/C++/C#、JAVA、SQL、PERL、和PHP。進(jìn)一步的,語言可以被編碼并能在數(shù)據(jù)庫中被找到以及被用作一個(gè)查詢。在一個(gè)編碼的語言情況中,使用本發(fā)明不需要知道內(nèi)容的含義。
單詞可以以任何格式,包括字母,數(shù)字,二進(jìn)制碼,符號(hào),文字,象形文字,以及諸如此類,包括那些存在但尚未為人所知道的單詞。
定義一個(gè)唯一的測量矩陣典型的現(xiàn)有技術(shù)中命中和查詢要求共有完全相同的單詞/短語。這稱為完全匹配,或“本身映射”。但在本發(fā)明的搜索引擎中無此需要。在一個(gè)實(shí)踐中,我們允許用戶來定義同義詞的表格。這些有同義詞的單詞/短語查詢將擴(kuò)展到搜索數(shù)據(jù)庫中的同義詞。在另一個(gè)實(shí)踐中,我們允許用戶通過下載各種“相似矩陣”來執(zhí)行“真正的相似”。這些相似矩陣提供具有類似意思的單詞列表,并且在它們之間分配一個(gè)相似分值。例如,單詞“相似”與“相似”有100%的分值,但與“相同”之間可能有50%的分值。這種“相似矩陣”的來源可以來自使用統(tǒng)計(jì)或者來自各種字典。在不同領(lǐng)域工作的人們可能更喜歡使用一個(gè)特定的“相似矩陣”。定義“相似矩陣”在我們的研究中是一個(gè)積極的領(lǐng)域。
建立數(shù)據(jù)庫和字典條目是從詞法上分析包含的單詞,并且通過一個(gè)過濾器傳遞到1)移走無用的普通單詞如“a”,“the”,“of”,等,并且2)使用字根將具有相似意思的單詞合并為一個(gè)唯一的單詞,如“history”和“historical”,“evolution”和“evolutionary”等。所有含有相同字根的單詞合并為一個(gè)唯一的單詞。印刷上的錯(cuò)誤,罕見單詞,和/或非單詞可能被排除,取決于數(shù)據(jù)庫和搜索引擎的利用。
數(shù)據(jù)庫是由從詞法上分析的條目組成的。一個(gè)字典是為數(shù)據(jù)庫建造的,其中數(shù)據(jù)庫中出現(xiàn)的所有單詞都被收集。該字典也包含每個(gè)單詞的信息頻率。該單詞頻率隨著數(shù)據(jù)庫的擴(kuò)展而經(jīng)常更新。該數(shù)據(jù)庫也經(jīng)常通過新條目進(jìn)行更新。如果一個(gè)新單詞在字典中未發(fā)現(xiàn),那么它將被輸入進(jìn)字典,頻率等于1。數(shù)據(jù)庫中每個(gè)單詞的信息內(nèi)容根據(jù)-log2(x)被計(jì)算出,其中x是分布頻率(該單詞的頻率除以在字典中所有單詞總的頻率)。該整個(gè)單詞表格和對(duì)一個(gè)數(shù)據(jù)庫的它的相關(guān)的頻率被稱為“頻率分布”。
在數(shù)據(jù)庫中每個(gè)條目在該空間巨大的字典中被壓縮為和/或轉(zhuǎn)換為一個(gè)矢量。對(duì)特定申請(qǐng)的條目能被進(jìn)一步簡化。例如,如果在一個(gè)條目中僅一個(gè)單詞的“出現(xiàn)”或“未出現(xiàn)”是用戶所渴望評(píng)估的,該相關(guān)的條目可以被壓縮為一個(gè)‘1s’和‘0s’值的記錄流。這樣,一篇文章被壓縮為一個(gè)矢量。對(duì)此可供選擇的實(shí)踐是記錄單詞的頻率,即一個(gè)單詞出現(xiàn)的次數(shù)也被記錄下。這樣,如果“history”在文章中出現(xiàn)十次,它將在矢量的相關(guān)專欄中由值‘10’所代表。該專欄矢量可以壓縮為一個(gè)經(jīng)挑選的,相互關(guān)聯(lián)的列表,其中僅單詞的順序號(hào)和它的頻率被記錄下。
計(jì)算Shannon信息評(píng)分值每個(gè)條目有它們自己的Shannon信息評(píng)分值,該評(píng)分值是對(duì)含有的單詞所有Shannon信息(SI)的摘要。在比較兩個(gè)條目時(shí),兩個(gè)條目之間的所有共有的單詞首先被識(shí)別。對(duì)每個(gè)共有單詞的Shannon信息以被計(jì)算出的每個(gè)單詞的Shannon信息和該單詞在查詢和命中中的重復(fù)次數(shù)為基礎(chǔ)。如果一個(gè)單詞在查詢中出現(xiàn)‘m’次,在命中中出現(xiàn)‘n’次,則與該單詞相聯(lián)系的SI是SI_total(w)=min(n,m)*SI(w)。
另一種計(jì)算重復(fù)單詞的SI(w)方法是使用阻尼,意味著計(jì)算的信息量將減少到某個(gè)比例當(dāng)它第二,第三,---次出現(xiàn)時(shí)。例如,如果一個(gè)單詞重復(fù)‘n’次,限制將以如下方法計(jì)算SI_total(w)=Si(α**(i-1))*SI(w)其中α是一個(gè)恒量,稱為阻尼系數(shù);Si是所有i的總和,0<i<=n,0<=α<=1。當(dāng)α=0時(shí),它變?yōu)镾I(w),即100%阻尼,當(dāng)α=1時(shí)它變?yōu)閚*SI(w),即沒有阻尼。該參數(shù)可以由用戶在用戶接口進(jìn)行設(shè)置。阻尼在以關(guān)鍵詞為基礎(chǔ)的搜索中特別有用,當(dāng)含有更多的關(guān)鍵詞的條目比含有極少關(guān)鍵詞但重復(fù)多次的條目時(shí)更受歡迎。
在關(guān)鍵詞搜索的情況中,我們引入另一個(gè)參數(shù),稱為阻尼位置參數(shù),0<=β<=1。β被用于平衡每個(gè)關(guān)鍵詞的相關(guān)重要性,當(dāng)關(guān)鍵詞在一個(gè)命中文件中出現(xiàn)多次時(shí)。β被用于對(duì)重復(fù)單詞分配一個(gè)暫時(shí)的Shannon-info。如果我們有K詞,我們可以在SI(int(β*K))中對(duì)第一次重復(fù)的詞設(shè)置SI,其中SI(i)代表對(duì)i詞的Shannon-info。
在關(guān)鍵詞搜索中,這兩個(gè)參數(shù)(α,β)應(yīng)該同時(shí)使用。例如,使α=0.75,β=0.75。在該例中,在插入語中的數(shù)目是對(duì)每個(gè)單詞的模擬的SI值。如果一個(gè)搜索結(jié)果是TAFA(20)Tang(18)secreted(12)hormone(9)protein(5),那么,當(dāng)TAFA第二次出現(xiàn)時(shí),它的SI將是0.75*SI(hormone)=0.75*9。如果TAFA第三次出現(xiàn),它將是0.75*0.75*9?,F(xiàn)在,讓我們假設(shè)TAFA總共出現(xiàn)3次。通過SI的單詞總評(píng)級(jí)現(xiàn)在是TAFA(20)Tang(18)secreted(12)hormone(9)TAFA(6.75)TAFA(5.06)protein(5)。
如果Tang出現(xiàn)第二次,它的SI將是數(shù)目的75%,數(shù)目int(0.75*7)=5,而TAFA(6.75)。這樣,它的SI是5.06。現(xiàn)在,命中中總共有8個(gè)單詞,分值(和評(píng)級(jí))是TAFA(20)Tang(18)secreted(12)hormone(9)TAFA(6.75)TAFA(5.06)Tang(5.06)protein(5)。
我們可以看到對(duì)重復(fù)單詞的SI依賴于在查詢中所有單詞的SI范圍。
啟發(fā)式的實(shí)施1)從傳統(tǒng)的搜索引擎中挑選搜索結(jié)果。
如果一個(gè)傳統(tǒng)的搜索引擎返回一個(gè)大量的結(jié)果,其中大多數(shù)結(jié)果可能不是用戶想要的。如果用戶發(fā)現(xiàn)一篇文章(A*)正是他想要的,他現(xiàn)在可以使用我們的全文搜索方法根據(jù)與那篇文章的相似性來重新挑選出搜索結(jié)果的列表。以這種方式,每個(gè)人只需要將這些文章的每一個(gè)與A*比較一次,然后根據(jù)與A*的相關(guān)性求助該列表。
該應(yīng)用可以是“獨(dú)立存在”的軟件和/或一個(gè)可以與任何存在的搜索引擎聯(lián)系的軟件。
2)使用其他搜索引擎生成一個(gè)候選文件列表作為實(shí)施我們?nèi)牟樵兒退阉饕娴囊环N方式,我們可以使用一些來自查詢的關(guān)鍵詞(那些從以他們的相對(duì)稀少詞為基礎(chǔ)中挑選出的單詞),并使用傳統(tǒng)的以關(guān)鍵詞為基礎(chǔ)的搜索引擎來生成一個(gè)候選文章的列表。作為一個(gè)例子,我們可以使用前十位的最信息化的單詞(如由字典和Shannon信息所定義)作為查詢,并使用傳統(tǒng)的搜索引擎來生成候選列表。然后我們可以使用上面提到的挑選方法來重新評(píng)級(jí)搜索的輸出,以使與查詢最相關(guān)的出現(xiàn)在最前面。
這樣,如果在此公開的算法是與任何存在的搜索引擎相結(jié)合,我們可以實(shí)現(xiàn)一種使用其他搜索引擎來生成我們的結(jié)果的方法。本發(fā)明可對(duì)其他搜索引擎生成正確的查詢并以一種智能的方法來重新選擇它們。
3)篩選電子郵件本搜索引擎可以被用于針對(duì)垃圾郵件的篩選一個(gè)電子郵件數(shù)據(jù)庫。一個(gè)垃圾郵件數(shù)據(jù)庫可以使用用戶已經(jīng)接收到的并且用戶認(rèn)為是垃圾的郵件來建立起來;當(dāng)一封電子郵件由用戶和/或用戶的電子郵件提供者接收到,它被搜索于垃圾郵件數(shù)據(jù)庫。如果命中是超出預(yù)先決定的和/或安排的Shannon信息值或p值或百分比本身,它被分類入垃圾郵件,并且安排一個(gè)鮮明的標(biāo)記或放入一個(gè)單獨(dú)的冊子用于瀏覽或刪除。
搜索引擎能被用于篩選一個(gè)電子郵件數(shù)據(jù)庫以識(shí)別重要的郵件。使用含有對(duì)用戶重要的內(nèi)容的電子郵件的一個(gè)數(shù)據(jù)庫被創(chuàng)建,并且當(dāng)一個(gè)郵件進(jìn)入時(shí),該將經(jīng)過重要郵件數(shù)據(jù)庫的搜索。如果命中超出一個(gè)特定的Shannon信息值或p值或百分比本身,該命中將被分類作為一個(gè)重要的郵件并且被安排一個(gè)鮮明的標(biāo)志或放入一個(gè)單獨(dú)的冊子用于瀏覽或刪除。
表一顯示所公開發(fā)明(總體相似性搜索引擎)與目前包括yahoo和google搜索引擎在內(nèi)的以關(guān)鍵詞為基礎(chǔ)的搜索引擎相比的優(yōu)勢


本發(fā)明通過推薦下面的舉例將更易理解,所包括的這些例子僅以說明本發(fā)明的某個(gè)方面和實(shí)施例為目的,并非作為限制。
舉例例一理論模型的實(shí)施在該部分中本發(fā)明的搜索引擎的一個(gè)具體實(shí)施例的細(xì)節(jié)將公開。
1、介紹flatDB程序FlatDB是一組處理平面文件數(shù)據(jù)庫的C語言程序。即,他們是能處理有大量數(shù)據(jù)內(nèi)容的平面文本文件的工具。文件格式可以是多種多樣的,如表格形式,XML格式,F(xiàn)ASTA格式,以及任何形式,只要有一個(gè)唯一的原始鑰。典型應(yīng)用包括大型順序數(shù)據(jù)庫(genpept,dbEST),人類基因評(píng)級(jí)或其他基因庫,PubMed,Medline等在內(nèi)。
該工具的設(shè)置中,有一個(gè)索引程序,一個(gè)檢索程序,一個(gè)插入程序,一個(gè)更新程序,一個(gè)刪除程序。另外,為非常大型的條目,有一個(gè)程序用來檢索條目的一個(gè)特定部分。不像SQL,F(xiàn)latDB并不支持不同文件之間的聯(lián)系。例如,如果所有的文件都是大型表格文件,F(xiàn)latDB不能支持外來鑰匙對(duì)任何表格的限制。
在此是每個(gè)程序的列表和它們功能的簡要描述1、im_index對(duì)一個(gè)給定的文本文件,其中該文件存在一個(gè)領(lǐng)域分離器并且primary-id是特定化的,im_index生成一個(gè)索引文件(例如<text.db>),該索引文件記載每個(gè)條目,他們在文本中出現(xiàn)的地址,以及條目的尺寸。該索引文件被挑選出。
2、im_retrieve對(duì)一個(gè)給定的數(shù)據(jù)庫(有索引),和一個(gè)primary_id(或者在一個(gè)給定的文件中primary_ids的列表),該程序檢索來自文本數(shù)據(jù)庫的所有條目。
3、im_subseq對(duì)一個(gè)給定的條目(由一個(gè)primary_id特定化)以及對(duì)該條目的位置和尺寸,im_subseq返回該條目的特定部分。
4、im_insert它向數(shù)據(jù)庫中插入一個(gè)或一列條目并且更新該索引。在它插入時(shí),它產(chǎn)生一個(gè)上鎖文件以使其他人不能在同一時(shí)間插入內(nèi)容。
5、im_delete刪除由一個(gè)文件特定化的一個(gè)或多個(gè)的條目。
6、im_update更新由一個(gè)文件特定化的一個(gè)或多個(gè)的條目。它實(shí)際上運(yùn)行一個(gè)由im_insert所跟隨的im_delete。
使用最普遍的程序是im_index,im_retrieve。im_subseq非常有用,如果某人需要從一個(gè)大型條目中得到一個(gè)隨后的內(nèi)容,例如,人類染色體中的基因切片。
簡言之,我們已經(jīng)寫出一些作為平面文件數(shù)據(jù)庫工具的C程序。即他們是能處理一個(gè)有許多數(shù)據(jù)內(nèi)容的文本文件的工具。有一個(gè)索引程序,一個(gè)檢索程序,一個(gè)插入程序,一個(gè)更新程序,一個(gè)刪除程序。
2、建立并更新一個(gè)詞頻字典名字im_word_freq<text-file><word-freq>
輸入1一長列的文本文件。平面文本文件是以FASTA格式(如下所定義)。
2一個(gè)有詞頻的字典。
輸出更新輸入2以產(chǎn)生一個(gè)含有所有使用過的單詞以及每個(gè)單詞的頻率的字典。
語言PERL描述1該程序首先將input_2讀入存儲(chǔ)器(一個(gè)緩存word_freq)word_freq{word}=freq。
2它打開文件<text-file>。對(duì)每個(gè)條目,它將文件分割成一個(gè)列陣(@entry-one),每個(gè)單詞是$entry-one的一部分。對(duì)每個(gè)單詞,word_freq{word}+=1。
3將輸出寫入<word_ffeq.new>。
FASTA格式是生成大型文本文件的簡便方法(生物學(xué)中在列出大型順序數(shù)據(jù)文件時(shí)使用普遍)。它典型的類似于>primary_id1 xxxxxx(稱為注釋)文本文件(有許多新的行)>primary_id2該priamry_ids應(yīng)該是唯一的,但盡管如此,內(nèi)容是任意的。
3、為一個(gè)平面文件FASTA格式的數(shù)據(jù)庫生成一個(gè)單詞索引名字im_word_index<text_file><word_freq>
輸入1一長列的文本文件。平面文本文件以FASTA格式(如前所定義)。
2一個(gè)有與文本文件聯(lián)系的詞頻的字典。
輸出1、兩個(gè)索引文件一個(gè)為primary_ids,一個(gè)為bin_ids。
2、word_binary_id聯(lián)合索引文件。
語言PERL描述該程序的目的是對(duì)一個(gè)給定的單詞,某人可以很快的識(shí)別哪個(gè)條目包含該單詞。為了這樣做,我們需要一個(gè)索引文件,對(duì)在word_freq文件中的每個(gè)單詞都必不可少,我們必須列出所有含有該單詞的條目。
因?yàn)閜rimary_id通常非常長,我們試圖使用一個(gè)簡短的形式。這樣我們給每個(gè)primary_id分配一個(gè)二進(jìn)制的id(bin_id)。隨后我們需要一個(gè)映射文件實(shí)現(xiàn)primary_id和binary_id之間的迅速聯(lián)系。第一索引文件以此格式primary-id bin_id,由primary_id挑選出。而另一種是bin_id primary_id,由primary_id挑選出。這兩個(gè)文件是為查找的目的即給定一個(gè)binary_id可以迅速找到它的primary_id,反之亦然。
該最終索引文件是字典中單詞之間的聯(lián)合,以及出現(xiàn)單詞的binary_ids列表。該列表應(yīng)由bin_ids挑選出。格式可以是FASTA,例如>word1,freq.
bin_id1 bin_id2 bin_id3....
>word2,freqbin_id1 bin_id2 bin_id3,bin_id3....
4、找到含有特定單詞的所有數(shù)據(jù)庫條目名字im_word_hits<database><word>
輸入1一長列的文本文件。平面文本文件以FASTA格式,和它的聯(lián)系的3索引文件。
2一個(gè)單詞。
輸出含有該單詞的bin_ids列表(數(shù)據(jù)庫中的條目)。
語言PERL。
描述對(duì)一個(gè)給定的單詞,某人想迅速識(shí)別哪個(gè)條目含有該單詞。在輸出中,我們有一個(gè)含有該單詞的所有條目的列表。
算法對(duì)一個(gè)給定的單詞,首先使用第三索引文件來得到含有該單詞的所有文本的binary_ids。(也可以使用第二索引文件binary_id對(duì)primary_id來得到所有的primary_ids)。返回binary_ids列表。
該程序也應(yīng)該可以在子程序中獲得im_word_hits(text_file,word)。
5、對(duì)一個(gè)給定的查詢,找到與查詢共有單詞的所有條目名字im_query_2_hits<database_file><query_file>[query_word_number][share_word_number]輸入1數(shù)據(jù)庫一長列的文本文件。平面文本文件以FASTA格式。
2一個(gè)以FASTA文件的查詢,該文件就像在數(shù)據(jù)庫中的許多條目。
3用于搜索的挑選出的單詞的總數(shù),任選的,默認(rèn)10。
4命中中的單詞數(shù),該命中是在挑選出的查詢單詞,任選的,默認(rèn)1。
輸出所有與查詢共有一定數(shù)量單詞的候選文件的列表。
語言PERL描述該程序的目的是對(duì)一個(gè)給定的查詢,某人想要一個(gè)候選條目的列表,該條目至少與查詢共有一個(gè)單詞(來自一個(gè)高度信息單詞列表)。
我們首先將查詢從語法上分析為一個(gè)單詞的列表。然后我們查找word_freq表來建立query_word_number(默認(rèn)為10,但用戶可以修改)單詞有最低頻率(即,最高信息內(nèi)容)。對(duì)10個(gè)單詞的每個(gè),我們使用im_word_hits(子程序)來定位含該單詞的所有binary_ids。我們合并所有那些binary_ids,并計(jì)算該binary_id出現(xiàn)多少次。我們僅保留那些有單詞的>share_word_number的binary_ids(至少共有一個(gè)單詞,但如果有太多命中可能為2)。
在此我們可以根據(jù)每個(gè)條目的命中評(píng)分挑選,如果命中數(shù)量的總數(shù)量是>100。計(jì)算每個(gè)條目的命中評(píng)分是對(duì)10個(gè)單詞使用Shannon信息。該命中評(píng)分也能通過在查詢和命中文件中每個(gè)單詞的頻率被衡量。
query_word_number是一個(gè)用戶能修改的參數(shù)。如果更大,該搜索將更準(zhǔn)確,但它可能花更長時(shí)間。如果它太小,我們可能會(huì)喪失精確性。
6、對(duì)兩個(gè)給定的文本文件(數(shù)據(jù)庫條目),比較并分配一個(gè)分值。
名字im_align_2<word_freq><entry_1><entry_2>
輸入1為數(shù)據(jù)庫產(chǎn)生的單詞頻率文件。
2entry_1單個(gè)文本文件。一個(gè)數(shù)據(jù)庫條目以FASTA格式。
3entry_2與entry_1相同。
輸出一系列命中的分值包括Shannon信息,共有單詞數(shù)。該格式是1)摘要entry_1 entry_2 Shannon_info_score Common_word_score。
2)細(xì)節(jié)化的列表普通單詞,單詞的數(shù)據(jù)庫頻率,以及在entry_1和entry_2(3專欄)中的頻率列表。
語言C/C++。
該步驟將成為搜索速度的瓶頸。這是我們用C/C++編寫的原因。在樣板中,某人也可以使用PERL。
描述對(duì)兩個(gè)給定的文本文件,該程序比較它們,并分配一個(gè)分值數(shù)來描述兩個(gè)文本之間的相似性。
該兩個(gè)文本文件首先被從語法上分析為單詞隊(duì)列(@text1,和@text2)。一個(gè)聯(lián)合操作被執(zhí)行與兩個(gè)隊(duì)列間以找到共同單詞。如果共同單詞是空的,返回entry_1和entry_2之間對(duì)STDEER無共同單詞。
如果有共同單詞,每個(gè)共同單詞的頻率將在單詞頻率文件中找到。然后,對(duì)每個(gè)共有單詞的所有Shannon信息總和被計(jì)算出。我們在此生成一個(gè)SI_score(為Shannon信息)。在共有單詞中單詞的總數(shù)(Cw_score)也被計(jì)算出。在將來可能有更多的分值被報(bào)告(如兩個(gè)文件之間的關(guān)聯(lián)包含單詞頻率比較,以文本長度為基礎(chǔ)的正?;?,等)。
為計(jì)算Shannon信息,推薦有關(guān)該方法的原始文件(Shannon(1948)BellSyst.Tech.J.,27379-423,623-656;并察看Feinstein(1958)信息理論基礎(chǔ),McGraw Hill,New NY)。
7、對(duì)一個(gè)給定的查詢,評(píng)級(jí)所有的命中名字im_rant_hits<database_file><query_file><query_hits>
輸入1數(shù)據(jù)庫一長列的文本文件。平面文本文件以FASTA格式。
2以FASTA文件的查詢。就像在數(shù)據(jù)庫中的許多條目。
3含有在數(shù)據(jù)庫中的bin_ids列表文件。
選項(xiàng)1、[rank_by]默認(rèn)SI_score??蛇x擇CW_score。
2、[hits]報(bào)告命中數(shù)。默認(rèn)300。
3、[min_SI_score]在將來被決定。
4、[min_SW_score]在將來被決定。
輸出在查詢-命中中一個(gè)所有文件的挑選出的列表,以命中分值為基礎(chǔ)。
語言C/C++/PERL。
該步驟是搜索速度的瓶頸。這是使用C/C++編寫的原因。在樣板中,也能使用PERL。
描述該程序的目的是對(duì)一個(gè)給定的查詢和它的命中,某人想要根據(jù)分值系統(tǒng)來評(píng)級(jí)所有的那些命中。在此分值是一個(gè)全部的分值,顯示兩份文件是如何聯(lián)系的。
該程序首先命令im_align_2子程序生成一個(gè)查詢和每個(gè)命中文件之間的比較。它然后根據(jù)SI_score挑出所有的命中。為每個(gè)命中生成一個(gè)一行摘要。該摘要被列在輸出的開頭。在輸出的末尾部分,為每個(gè)命中顯示共同單詞的細(xì)節(jié)化列隊(duì)和這些單詞的頻率。
用戶應(yīng)該能夠特定化要報(bào)告的命中數(shù)量。默認(rèn)是300。用戶也能特定化挑選順序,默認(rèn)是SI_score。
例二為Medline的一個(gè)數(shù)據(jù)庫例子在此是一個(gè)數(shù)據(jù)庫文件的列表,它們已經(jīng)過處理1)Medline.raw未處理的數(shù)據(jù)庫從NLM中下載而來,以XML格式。
2)Medline.fasta處理過的數(shù)據(jù)庫為經(jīng)語法分析的條目遵循FASTA格式
>primary_id作者.(年份)標(biāo)題.期刊.專欄頁碼-頁碼word1(freq)word2(freq)...
單詞通過特征被挑選出。
3)Medline.pid2bid primary_id(pid)和binary_id(pid)之間的映射Medline.bid2pid binary_id和primary_id之間的映射primary_id被定義為FASTA文件。它是由Medline使用的唯一的標(biāo)識(shí)符。binary_id是一個(gè)分配的id,我們使用它的目的是節(jié)省空間。
Medline.pid2bid是一個(gè)表格格式文件。格式primary_id binary_id(由primary_id挑選出)Medline.bid2pid是一個(gè)表格格式文件。格式binary_id primary_id(由binary_id挑選出)4)Medline.freq在Medline.fasta中對(duì)所有單詞的單詞頻率文件,和它們的頻率。表格格式文件單詞頻率。
5)Medline.freq.stat關(guān)于Medline.fasta的統(tǒng)計(jì)(數(shù)據(jù)庫大小,計(jì)算出的總單詞數(shù),Medline釋放版本,釋放日期,未處理數(shù)據(jù)庫大小。也有關(guān)注該數(shù)據(jù)庫的額外信息)。
6)Medline.rev反轉(zhuǎn)表(單詞對(duì)binary_id)為在Medline.freq.file中的每個(gè)單詞7)im_query_2_hits<db><query.fasta>
在此數(shù)據(jù)庫和查詢都以FASTA格式。數(shù)據(jù)庫是/數(shù)據(jù)/Medline.fasta。查詢是來自Medline.fasta的任何條目,或來自網(wǎng)站的任何東西。在后一種情況中,語法分析應(yīng)該將用戶提供的任何格式的文件轉(zhuǎn)換為FASTA格式的文件以符合在項(xiàng)目2中特定化的標(biāo)準(zhǔn)。
來自該程序的輸出應(yīng)該是一個(gè)primary_id和raw_scores的文件列表。如果目前的輸出是一個(gè)binary_ids列表,它或者能夠通過運(yùn)行轉(zhuǎn)換為primary_idsim_retrieve Medline.bid2pid<bid_list>pid_list。
在生成候選文件時(shí),在此是一個(gè)上面所討論的重新敘述
1)計(jì)算一個(gè)ES值(估計(jì)Shannon值)根據(jù)數(shù)據(jù)庫的頻率字典中的最低頻率,查詢前10個(gè)單詞(10個(gè)單詞列表)2)ES值應(yīng)該為所有的文件計(jì)算出。一個(gè)假定存在的命中被定義為(a)在10個(gè)單詞列表中命中2個(gè)單詞。
(b)命中單詞the,為查詢中單詞的最高Shannon值。以這種方法,我們不會(huì)錯(cuò)過任何命中,該命中能獨(dú)一定義在數(shù)據(jù)庫中一個(gè)命中。
通過ES_score來評(píng)級(jí)所有a)和b)的命中,并且限制總數(shù)于數(shù)據(jù)庫尺寸的0.1%(例如,對(duì)一個(gè)db14,000,000中14,000)。(如果a和b的聯(lián)合少于數(shù)據(jù)庫尺寸的0.1%,評(píng)級(jí)不必執(zhí)行,簡單的通過該列表。這將節(jié)省時(shí)間)。
3)使用在下面項(xiàng)目8中所公開的公式來計(jì)算該估計(jì)的值,除了在最多只有10個(gè)單詞的情況。
8)im_rank_hits<Medline.fasta><query.fasta><pid_list>
該程序所做的第一步是運(yùn)行在存儲(chǔ)器中的所有候選命中im_retrieveMedline.fasta pid_list和分值,在開始將查詢和每個(gè)命中文件進(jìn)行1-1比較之前。
摘要上面(Medline.*)提到的每個(gè)數(shù)據(jù)庫文件應(yīng)該使用im_index指示。請(qǐng)不要忘記在運(yùn)行im_index時(shí)特定化每個(gè)文件的格式。
如果暫時(shí)文件持有你所渴望檢索到的內(nèi)容,將它們放入/tmp/directory。請(qǐng)使用$$.*的方式來命名你的暫時(shí)文件,其中$$是你的process_id。在以后的時(shí)間移走這些生成的temp文件。同時(shí),沒有永久文件應(yīng)該放在/tmp中。
計(jì)算分值的公式p值查詢和命中之間共同單詞列表的概率完全是一個(gè)隨機(jī)的事件。
Tw是單詞的總數(shù)(例如,SUM(word*word_freq)來自word_freq表為該數(shù)據(jù)庫(該數(shù)量應(yīng)該在文件的頭部中被計(jì)算出寫下Medline.freq.stat.某人應(yīng)該讀此文件以得到該數(shù)量。對(duì)在查詢中的每個(gè)字典單詞(w[i]),在數(shù)據(jù)庫中頻率是fd[i]該單詞的概率是P[i]=fd[i]/Tw。
在查詢中頻率w[i]為fq[i],而在命中中頻率是fh[i],fc[i]=min(fq[i],fh[i])。fc[i]是查詢和命中中頻率的較小數(shù)。m是查詢中共同單詞的總數(shù),i=1,...,m,p值計(jì)算p=(Sifc[i]!(p_ip[i]**fc[i])/(p_ifc[i]!)其中Si是所有i(i=1,...,m)的總和,并且p-i代表所有i(i=1,...,m),!相乘是階乘(例如,4!=4*3*2*1)p應(yīng)該是一個(gè)非常小的數(shù)字。確保浮動(dòng)類型用于計(jì)算。SI_score(Shannon信息值)是-log2(p)值。
3.word_%(#_shared_words/total_words)。如果一個(gè)單詞出現(xiàn)多次,它將被計(jì)算多次。例如查詢(100個(gè)單詞),命中(120個(gè)單詞),共有單詞50個(gè),然后word_%=50*2/(100+120)。
例三生成一個(gè)短語詞典的方法1、短語搜索的理論方面短語搜索是當(dāng)一個(gè)搜索是使用一個(gè)單詞串(非單個(gè)單詞)來執(zhí)行。例如某人可能查找有關(guān)青少年墮胎的信息。這些單詞的每一個(gè)有一個(gè)不同的意思當(dāng)單獨(dú)存在時(shí),并且會(huì)檢索出很多不相關(guān)的文件,但當(dāng)你將它們逐個(gè)結(jié)合起來他們的意思改變?yōu)榉浅?zhǔn)確地“青少年墮胎”思想。從這個(gè)角度,短語比單個(gè)單詞的結(jié)合含有更多的信息。
為了執(zhí)行短語搜索,我們需要首先生成一個(gè)短語詞典,和一個(gè)為任何給定數(shù)據(jù)庫的分布功能,就像我們?yōu)閱蝹€(gè)單詞所有的那樣。在此公開為任何給定文本數(shù)據(jù)庫生成一個(gè)短語分布的編程方法。從一個(gè)完全理論的觀點(diǎn)出發(fā),為任何2個(gè)單詞,3個(gè)單詞,...,K個(gè)單詞,通過搜查整個(gè)數(shù)據(jù)庫獲得每個(gè)候選短語的出現(xiàn)頻率,意味著它們是潛在的短語。一個(gè)自動(dòng)開關(guān)器僅被用于以超過特定條目的頻率來挑選那些候選者。對(duì)一個(gè)2個(gè)單詞的短語條目可能比一個(gè)3個(gè)單詞的短語條目高。這樣,一旦給定條目,為2個(gè)單詞,...,K個(gè)單詞的短語的短語分布就自動(dòng)產(chǎn)生了。
假設(shè)我們已經(jīng)有為2個(gè)單詞短語F(w2),3個(gè)單詞短語F(w3),....,的分布頻率,其中w2意味所有的2個(gè)單詞短語,w3是所有3個(gè)單詞短語。我們能夠?yàn)槊總€(gè)短語wk(一個(gè)k個(gè)單詞短語)分配Shannon信息SI(wk)=-log2(f(wk)/Twk)其中f(wk)是短語的頻率,Twk是在分布F(wk)中的短語總數(shù)。
可供選擇的,我們能對(duì)所有的短語有一個(gè)單一的分布,不考慮短語的長度,我們稱之為分布F(wa)。該方法與第一種相比較不受青睞,因?yàn)槲覀兺ǔUJ(rèn)為一個(gè)長的短語比一個(gè)短的短語含有更多的信息,即使他們在數(shù)據(jù)庫中出現(xiàn)相同的次數(shù)。
當(dāng)給定一個(gè)查詢,就像我們產(chǎn)生一個(gè)所有單詞的列表那樣的方法,我們產(chǎn)生一個(gè)所有潛在短語(到K個(gè)單詞)的列表。我們隨后能在短語詞典中查看是否它們的任何一個(gè)是真正的短語。我們在數(shù)據(jù)庫中挑出這些短語用于進(jìn)一步的搜索。
現(xiàn)在我們假設(shè)也存在一個(gè)為短語的反轉(zhuǎn)的詞典。即為每個(gè)短語,在數(shù)據(jù)庫中含有該短語所有的條目在反轉(zhuǎn)的詞典中列出。這樣,對(duì)在查詢中給定的短語,使用該反轉(zhuǎn)詞典我們能找出哪個(gè)條目含有該短語。就像我們處理單詞,我們?yōu)槊總€(gè)條目計(jì)算累計(jì)值,該條目含有至少一個(gè)的查詢短語。
在概括命中的最后階段,我們能使用可供選擇的方法。第一個(gè)方法是使用兩個(gè)專欄,一個(gè)為報(bào)告單詞分值,另一個(gè)為報(bào)告短語分值。默認(rèn)的將報(bào)告所有通過重疊單詞的累計(jì)Shannon信息來評(píng)級(jí)的命中,但在下個(gè)專欄中用為短語的累計(jì)Shannon信息。用戶也能挑選使用短語分值通過點(diǎn)擊專欄標(biāo)題來篩選命中。
在另一個(gè)方法中,我們將對(duì)短語的SI_score和對(duì)重疊單詞的SI值結(jié)合。在此有個(gè)非常重要的問題我們應(yīng)該如何比較為單詞的SI_score和為短語的SI_score。甚至在短語中,如我們上面所提到的,我們?nèi)绾伪容^一個(gè)2個(gè)單詞短語的SI_score和一個(gè)3個(gè)單詞短語的SI_score?在實(shí)踐中,我們能簡單的使用一系列的因素將各種SI_scores合并在一起,即SI_total=SI_word+a2*SI_2-word-phrase+..+ak*SI_K-word-phrase
其中ak,k=2,..,k是>=1的參數(shù),并且是單調(diào)增加的。
如果為短語長度調(diào)整因素已經(jīng)被在一個(gè)單一短語分布功能F(wa)生成中考慮,那么,我們有一個(gè)簡化的公式SI_total=SI_word+a*SI_phrase其中a是一個(gè)參數(shù)a>=1。反映單詞值和短語值之間的權(quán)數(shù)。
該計(jì)算Shannon信息的方法可或者應(yīng)用于一個(gè)完整的文本(即,在設(shè)定一個(gè)給定的分布F中一個(gè)文本共有多少信息)或者應(yīng)用于查詢和命中之間重疊部分(單詞和短語)。
2、Medline數(shù)據(jù)庫和自動(dòng)的短語生成方法1)定義2緩存candihash一個(gè)單個(gè)單詞緩存可能發(fā)揮作為一個(gè)短語部分的作用。
phrasehash一個(gè)記載所有發(fā)現(xiàn)的短語和它們的頻率的緩存。
定義3個(gè)參數(shù)WORD_FREQ_MIN=300WORD_FREQ_MAX=1000000PHRASE_FREQ_MIN=1002)從單詞頻率表中,取出所有頻率>=word_freq_min,<=word_freq_max的單詞。將它們讀入candihash。
3)取出Medline.stem文件(如果該文件已經(jīng)在原始文件中保留了單詞順序,否則你不得不重新生成一個(gè)Medline.stem文件以使在原始文件中單詞順序被保留)。
psuedo code:
while(<Medline.stem>){foreach entry{read in 2 words a time,shift 1 word a timecheck if both words are in candihash,if yes:
phrasehash{word1-word2}++;}}4)循環(huán)步驟2直到1)medline.stem的末尾或2)系統(tǒng)對(duì)memory-limit關(guān)閉。
如果2)寫下phrasehash,清理phrasehash,繼續(xù)直到(<medline.stem>)直到medline.stem結(jié)束。
5)如果來自步驟4的眾多輸出,merge-sort theoutputs>medline.phrase.freq.0。如果以條件1)結(jié)束,篩選phrasehash>medline.phrase.freq.0。
6)在medline.phrase.freq.0中頻率>phrase_freq_min的任何東西都是一個(gè)短語。將那些條目篩選為medline.phrase.freq。
program2.phrase_db_generator1)將medline.phrase.freq讀入一個(gè)緩存phrasehash_n2)while(<medline.stem>){foreach entry{read in 2 words a time,shift 1 word a timejoin the 2 word,and check ifit is defined in the phrasehash_nifyes{write medline.phrase for this entry}}}program3.phrase_revdb_generator該程序生成medline.phrase.rev。它生成與為單詞生成的反轉(zhuǎn)字典相同的詞典。對(duì)每個(gè)短語,該文件含有一個(gè)條目列出含有該短語的所有數(shù)據(jù)庫條目的所有的二進(jìn)制ids。
例4為本地安裝的命令行搜索引擎開發(fā)出一個(gè)搜索引擎的單獨(dú)存在的版本。該版本并沒有網(wǎng)站接口。它由上面提到的許多程序組成并編纂在一起。有一個(gè)單一制作文件。當(dāng)“制作安裝”被鍵入,該系統(tǒng)將指南中所有的程序編纂起來,并生成三個(gè)使用的主要程序。這三個(gè)程序是1)指引一個(gè)數(shù)據(jù)庫im_index_all所有生成一定量索引的程序,包括單詞/短語頻率表,以及向前和反轉(zhuǎn)索引。例如$im_index_all/path/to/some_db_file_base.fasta2)啟動(dòng)該搜索服務(wù)器Im_GSSE_serve該程序是服務(wù)器程序。它將所有的索引都裝載進(jìn)存儲(chǔ)器并保持在背景中的運(yùn)行。它處理來自客戶的服務(wù)請(qǐng)求im_GSSE_client。例如$im_GSSE_serve/path/to/some_db_file_base.fasta3)運(yùn)行搜索客服一旦服務(wù)器處于運(yùn)行中,某人可以運(yùn)行一個(gè)搜索客戶來執(zhí)行真正的搜索。該客服能在相同的機(jī)器上被本地化的運(yùn)行,或來自一個(gè)客服器遠(yuǎn)程的運(yùn)行。例如$im_GSSE_client_qf/path/to/some_query.fasta例5對(duì)文本數(shù)據(jù)庫的壓縮方法在此簡述的壓縮方法是以收縮數(shù)據(jù)庫的大小,節(jié)約硬盤和系統(tǒng)存儲(chǔ)器的使用,并增強(qiáng)電腦的運(yùn)行速度為目的。它可以單獨(dú)用于壓縮目的,或它可以與當(dāng)前存在的如zip/gzip等壓縮技術(shù)相結(jié)合。
基本的思想是定位高頻率的單詞/短語,并用更簡短的符號(hào)(我們的情況中是整數(shù),稱為未來碼)來代替這些單詞/短語。該壓縮的數(shù)據(jù)庫是由單詞/短語列表,它們的電碼,以及有單詞/短語以有條理的電碼取代的數(shù)據(jù)庫本身。一個(gè)獨(dú)立的程序在壓縮的數(shù)據(jù)文件中讀并將它重新保存進(jìn)原始文本文件。
在此是壓縮方法如何工作的簡述在生成所有單詞/短語頻率的處理過程中,分配一個(gè)唯一電碼給每個(gè)單詞/短語。單詞/短語和它的電碼之間的映射關(guān)系被保存在一個(gè)映射文件中,以格式“單詞/短語,頻率,電碼”。該表格僅從有“單詞/短語,頻率”的表格中被生成,并且該表格通過長度(單詞/短語)*頻率的顛倒順序挑選出。該電碼被分配給該表格從行1到連續(xù)地底部。在我們情況中該電碼是一個(gè)以1開始的整數(shù)。壓縮之前,所有在數(shù)據(jù)庫中存在的整數(shù)都需要通過在它的前面使用一個(gè)非文本特征來保護(hù)。
所屬領(lǐng)域的技術(shù)人員樂于看到所描述的具體實(shí)施例的各種改編和修改可以在不脫離本發(fā)明的范圍和精神的情況下重新組合。其他在技術(shù)領(lǐng)域公知的合適的技術(shù)和方法能被所屬領(lǐng)域的技術(shù)人員根據(jù)在此描述的對(duì)本發(fā)明的描述應(yīng)用于多種特別的形態(tài)。因此,有必要理解本發(fā)明可以應(yīng)用于其他情況而非局限于在此所專門描述的場合。上面的描述是為了說明,并非為了限制。許多其他的實(shí)施方式對(duì)于那些瀏覽了該描述后的所屬領(lǐng)域的技術(shù)人員是明顯的。因此,本發(fā)明的范圍應(yīng)該參考附屬權(quán)利要求,以及授予權(quán)利的公開發(fā)明的整個(gè)范圍來決定。
權(quán)利要求
1.一個(gè)用于搜索和評(píng)級(jí)文本信息的計(jì)算機(jī)化儲(chǔ)存和檢索系統(tǒng),包含輸入和儲(chǔ)存數(shù)據(jù)作為一個(gè)數(shù)據(jù)庫的裝置;顯示數(shù)據(jù)的裝置;執(zhí)行文本的自動(dòng)分析的一個(gè)可編程中央處理單元。在此分析的是文本,該文本從含有全文作為查詢、網(wǎng)頁作為查詢的集合中挑出,根據(jù)查詢和命中之間共有單詞的Shannon信息評(píng)分值來對(duì)命中評(píng)級(jí),評(píng)級(jí)命中根據(jù)p-值,計(jì)算出的Shannon信息評(píng)分值或以單詞頻率為基礎(chǔ)的p-值,該單詞頻率已經(jīng)專門為該數(shù)據(jù)庫直接計(jì)算出或從至少一個(gè)外部來源估計(jì)出,共有信息元的百分比本身,查詢和命中之間共有信息元的Shannon信息評(píng)分值,共有信息元的p-值,共有信息元的百分比本身,計(jì)算出的Shannon信息評(píng)分值或以信息元頻率為基礎(chǔ)的p-值,該信息元頻率已經(jīng)專門為該數(shù)據(jù)庫直接計(jì)算出或從至少一個(gè)外部來源估計(jì)出,并且在此文本含有至少一個(gè)單詞。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中文本含有多個(gè)單詞。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中查詢包含的文本的單詞數(shù)從含有1-14,15-20,20-40,40-60,60-80,80-100,100-200,200-300,300-500,500-750,750-1000,1000-2000,2000-4000,4000-7500,7500-10000,10000-20000,20000-40000,以及超過40000個(gè)單詞的集合中挑選出。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中文本至少含有一個(gè)短語。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中文本被加密。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中自動(dòng)分析進(jìn)一步允許在查詢中有重復(fù)的信息元并給每個(gè)重復(fù)的信息元分配較高評(píng)分值。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中自動(dòng)分析評(píng)級(jí)是以p-值為基礎(chǔ),該p-值是一個(gè)命中對(duì)查詢的共有信息元的可能性或概率的度量,其中該p-值根據(jù)在數(shù)據(jù)庫中信息元的分布來計(jì)算出,或者,其中該p-值根據(jù)在數(shù)據(jù)庫中信息元的估計(jì)分布來計(jì)算出。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中對(duì)命中的自動(dòng)分析評(píng)級(jí)是以Shannon信息評(píng)分值為基礎(chǔ)的,其中該Shannon信息評(píng)分值是查詢和命中的共有信息元的累積Shannon信息。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中對(duì)命中的自動(dòng)分析評(píng)級(jí)是以百分比本身為基礎(chǔ)的,其中百分比本身是比率2*(共有信息元)/(在查詢和命中中的信息元總數(shù))。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其中計(jì)數(shù)查詢和命中中的信息元在詞干溯源之前執(zhí)行。
11.根據(jù)權(quán)利要求6所述的系統(tǒng),其中計(jì)數(shù)查詢和命中中的信息元在詞干溯源之后執(zhí)行。
12.根據(jù)權(quán)利要求6所述的系統(tǒng),其中計(jì)數(shù)查詢和命中中的信息元在移走普通單詞之前執(zhí)行。
13.根據(jù)權(quán)利要求6所述的系統(tǒng),其中計(jì)數(shù)查詢和命中中的信息元在移走普通單詞之后執(zhí)行。
14.根據(jù)權(quán)利要求1所述的系統(tǒng),其中對(duì)命中的評(píng)級(jí)是以累計(jì)評(píng)分值為基礎(chǔ)的,該累計(jì)評(píng)分值從含有p-值、Shannon信息評(píng)分值、以及百分比本身的集合中挑出。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中自動(dòng)分析為每個(gè)匹配的單詞分配一個(gè)固定的評(píng)分值,為每個(gè)匹配的短語分配一個(gè)固定的評(píng)分值。
16.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該算法進(jìn)一步包含在可視顯示裝置上以命中文本表達(dá)查詢文本的裝置,其中該共有的信息元被強(qiáng)調(diào)表示出來。
17.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該數(shù)據(jù)庫進(jìn)一步包含一個(gè)單詞和短語的同義詞列表。
18.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該算法進(jìn)一步允許用戶向數(shù)據(jù)庫輸入同義詞,該同義詞和與其相關(guān)的查詢詞共同包括在分析中。
19.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該算法接受文本作為查詢而不要求用一個(gè)關(guān)鍵詞,其中該文本從含有摘要、標(biāo)題、句子、論文、文章、以及它們的任何部分的集合中挑出。
20.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該算法接受文本作為查詢而不要求用一個(gè)關(guān)鍵詞,其中該文本從含有一個(gè)網(wǎng)頁、一個(gè)網(wǎng)頁的URL地址、網(wǎng)頁的一個(gè)被強(qiáng)調(diào)部分、以及它們的任何部分的集合中挑出。
21.一個(gè)來源于原始文本數(shù)據(jù)庫的經(jīng)處理的文本數(shù)據(jù)庫,該經(jīng)處理的文本數(shù)據(jù)庫所含有的文本是選自一個(gè)集合,它包含過濾出普通單詞的文本、使用詞干溯源來歸并的有相同字根的單詞、一個(gè)生成的含有單詞和自動(dòng)識(shí)別的短語的信息元列表、一個(gè)對(duì)每個(gè)單詞生成的頻率或估計(jì)頻率分布、以及從頻率分布計(jì)算出的與每個(gè)信息元相聯(lián)系的Shannon信息。
22.一個(gè)以文本為基礎(chǔ)的搜索引擎,包含一個(gè)算法,該算法包含如下步驟1)將查詢中的第一文本與文本數(shù)據(jù)庫中的第二文本進(jìn)行比較的方法,2)識(shí)別兩者之間共有信息元的方法,和3)計(jì)算一個(gè)累計(jì)評(píng)分值或使用一個(gè)信息元頻率分布來衡量信息內(nèi)容的重疊的評(píng)分的方法,該評(píng)分值從含有共有信息元的累計(jì)Shannon信息、共有信息元的結(jié)合的p-值、重疊單詞的數(shù)目、以及重疊單詞的百分比的集合中挑出。
23.根據(jù)權(quán)利要求1所述的的系統(tǒng),其中該可編程的中央處理單元進(jìn)一步含有一個(gè)算法來篩選數(shù)據(jù)庫,忽略數(shù)據(jù)庫中與查詢最不相關(guān)的文本。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中該篩選算法進(jìn)一步包含反轉(zhuǎn)索引,查找所查詢的數(shù)據(jù)庫,迅速識(shí)別含有與查詢相關(guān)的某些單詞的數(shù)據(jù)庫條目。
25.一個(gè)為搜索和評(píng)級(jí)文本的搜索引擎處理方法,該方法包含如下步驟1)提供權(quán)利要求1所述的計(jì)算機(jī)化的儲(chǔ)存和檢索系統(tǒng);2)在可編程的中央處理單元安裝以文本為基礎(chǔ)的搜索引擎;3)輸入文本,該文本從含有正文、全文、或關(guān)鍵詞的集合中挑出;該方法在數(shù)據(jù)庫中產(chǎn)生一個(gè)經(jīng)搜索和評(píng)級(jí)的文本。
26.一種方法用于生成一個(gè)短語列表、在給定文本數(shù)據(jù)庫中它們的頻率分布、和它們相關(guān)的Shannon信息評(píng)分值的列表,該方法包含如下步驟1)提供權(quán)利要求1所述的系統(tǒng);2)為識(shí)別兩個(gè)單詞的固定長度的連續(xù)單詞組提供一個(gè)閾值頻率,在數(shù)據(jù)庫中作為一個(gè)短語;3)為識(shí)別在數(shù)據(jù)庫中固定長度為3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,以及20個(gè)單詞的作為短語的連續(xù)詞組,提供明顯的閾值頻率;4)識(shí)別在文本數(shù)據(jù)庫中每個(gè)識(shí)別出的短語的頻率值;5)識(shí)別至少一個(gè)信息元;并6)根據(jù)識(shí)別出的固定長度的新短語來調(diào)整頻率表以使在一個(gè)識(shí)別出的信息元中信息元的組成不會(huì)被計(jì)數(shù)多次,由此生成一個(gè)短語、它們的分布頻率、和它們相關(guān)的Shannon信息評(píng)分值的列表。
27.一種方法用于比較兩個(gè)句子以找到它們之間的相似性并提供相似性評(píng)分值,其中該比較是以兩個(gè)或更多的項(xiàng)目為基礎(chǔ),這些項(xiàng)目含有單詞頻率、短語頻率、單詞和短語的順序,插入和刪除的處罰,并且在計(jì)算相似性評(píng)分值中使用代替矩陣,其中代替矩陣提供一個(gè)不同單詞和短語之間的相似性評(píng)分值。
28.一個(gè)文本查詢搜索引擎包含使用權(quán)利要求26、權(quán)利要求27所述的方法,或包含兩種方法,用于以全文作為查詢的搜索引擎或網(wǎng)頁作為查詢的搜索引擎。
29.一個(gè)用戶接口顯示權(quán)利要求1所述的數(shù)據(jù),該顯示的表達(dá)使用從含有一個(gè)網(wǎng)頁、一個(gè)圖形用戶接口、一個(gè)觸摸屏接口的集合中挑出的顯示裝置,和從含有寬帶連接、以太網(wǎng)連接、電話線連接、無線連接、和電波連接的集合中挑出的因特網(wǎng)連接手段。
30.一個(gè)搜索引擎,含有權(quán)利要求1所述的系統(tǒng)、權(quán)利要求21所述的數(shù)據(jù)庫、權(quán)利要求22和權(quán)利要求28所述的搜索引擎、以及權(quán)利要求29所述的用戶接口,進(jìn)一步含有一個(gè)命中,該命中從含有由網(wǎng)址受歡迎度評(píng)級(jí),由引用評(píng)分值評(píng)級(jí),以及支付的廣告費(fèi)量評(píng)級(jí)的命中集合中挑出。
31.根據(jù)權(quán)利要求30所述的搜索引擎,其中該算法進(jìn)一步含有使用為數(shù)據(jù)庫文本的Shannon信息或?yàn)橹丿B單詞的Shannon信息對(duì)來自其他搜索引擎的搜索結(jié)果進(jìn)行重新評(píng)級(jí)的裝置。
32.根據(jù)權(quán)利要求30所述的搜索引擎,其中該算法進(jìn)一步含有使用根據(jù)在數(shù)據(jù)庫中信息元的頻率分布或根據(jù)重疊信息元的頻率分布計(jì)算出的p-值對(duì)來自其他搜索引擎的搜索結(jié)果進(jìn)行重新評(píng)級(jí)。
33.一種方法用于計(jì)算在查詢和命中中重復(fù)的信息元的Shannon信息,該方法進(jìn)一步含有使用等式S=min(n,m)*Sw來計(jì)算分值S,其中Sw是該信息元的Shannon信息,其信息元在查詢中的次數(shù)是m,在命中中的次數(shù)是n。
34.一種用于評(píng)級(jí)廣告的方法,使用權(quán)利要求30所述的全文搜索引擎、權(quán)利要求25所述的搜索引擎方法、權(quán)利要求30所述的Shannon信息評(píng)分值、和權(quán)利要求33所述的方法,該方法進(jìn)一步含有建立一個(gè)廣告數(shù)據(jù)庫的步驟。
35.根據(jù)權(quán)利要求34所述的評(píng)級(jí)廣告的方法,進(jìn)一步含有通過從含有一個(gè)用戶接口或一個(gè)電子郵件公告的方法向用戶輸出評(píng)級(jí)的步驟。
36.一個(gè)方法用于對(duì)用戶進(jìn)行收費(fèi),使用權(quán)利要求34、權(quán)利要求35所述的方法,或兩種方法,并以在廣告中的單詞計(jì)數(shù)和由用戶點(diǎn)擊連入廣告商的地址的鏈接次數(shù)為基礎(chǔ)。
37.一種方法用于使用權(quán)利要求26所述的方法對(duì)來自第二搜索引擎的輸出重新評(píng)級(jí),該方法進(jìn)一步含有如下步驟1)使用一個(gè)第二搜索引擎的命中作為一個(gè)查詢;和2)使用權(quán)利要求26所述的方法重新評(píng)級(jí)命中,其中搜索的數(shù)據(jù)庫局限于由第二搜索引擎返回的所有命中。
38.根據(jù)權(quán)利要求29所述的用戶接口,進(jìn)一步含有一個(gè)第一虛擬按鈕在至少一個(gè)命中的虛擬的鄰近,并且其中當(dāng)?shù)谝惶摂M按鈕被用戶點(diǎn)擊后,該搜索引擎使用該命中作為查詢來再次搜索整個(gè)數(shù)據(jù)庫產(chǎn)生一個(gè)以該命中作為查詢的新的結(jié)果頁。
39.根據(jù)權(quán)利要求29所述的用戶接口,進(jìn)一步含有一個(gè)第二虛擬按鈕在至少一個(gè)命中的虛擬的鄰近,并且其中當(dāng)?shù)诙摂M按鈕被用戶點(diǎn)擊后,該搜索引擎使用該命中作為查詢來重新評(píng)級(jí)在集合中的所有命中,根據(jù)該命中作為查詢形成一個(gè)新的結(jié)果頁。
40.根據(jù)權(quán)利要求29所述的用戶接口,進(jìn)一步含有一個(gè)搜索功能與一個(gè)網(wǎng)絡(luò)瀏覽器相聯(lián)系,和一個(gè)第三虛擬按鈕位于該網(wǎng)頁瀏覽器的頂部。
41.根據(jù)權(quán)利要求40所述的用戶接口,其中網(wǎng)頁瀏覽器從含有Netscape,Internet Explorer,和Sofari的集合中挑出。
42.根據(jù)權(quán)利要求40所述的用戶接口,其中第二虛擬按鈕被標(biāo)上“搜索互聯(lián)網(wǎng)”以便當(dāng)?shù)谌摂M按鈕被用戶點(diǎn)擊時(shí),該搜索引擎將使用顯示的頁面作為查詢來搜索整個(gè)互聯(lián)網(wǎng)。
43.一個(gè)電腦含有權(quán)利要求1所述的系統(tǒng)和權(quán)利要求40所述的用戶接口,其中該算法進(jìn)一步含有使用由用戶選擇的查詢來搜索互聯(lián)網(wǎng)的步驟。
44.一個(gè)用來壓縮數(shù)據(jù)庫的方法,以一個(gè)含有唯一標(biāo)識(shí)符的字符串表為基礎(chǔ),該方法包含如下步驟1)生成一個(gè)含有字符串的表格;2)向在表格中的每個(gè)字符串分配一個(gè)標(biāo)識(shí)符(ID),其中為在表格中的每個(gè)字符串的ID是根據(jù)在數(shù)據(jù)庫中單詞和短語的使用空間來分配的,該使用空間利用等式“freq(字符串)*length(字符串)”來計(jì)算;和3)在一個(gè)上升順序的列表中以各ID來代替在表格中的字符串,該步驟產(chǎn)生一個(gè)壓縮數(shù)據(jù)庫。
45.根據(jù)權(quán)利要求44所述的方法,其中該ID是一個(gè)從含有二進(jìn)制數(shù)和整數(shù)序列的集合中挑出的整數(shù)。
46.根據(jù)權(quán)利要求44所述的方法,進(jìn)一步含有使用一個(gè)zip壓縮和解壓的壓縮軟件程序。
47.一個(gè)方法用于解壓權(quán)利要求44所述的壓縮的數(shù)據(jù)庫,該方法含有如下步驟1)用相關(guān)的文本來代替列表中的ID,和2)列出在表格中的文本,該步驟產(chǎn)生一個(gè)解壓縮的數(shù)據(jù)庫。
48.一個(gè)全文查詢和搜索方法,含有權(quán)利要求44所述的壓縮方法,進(jìn)一步含有如下步驟1)將數(shù)據(jù)庫儲(chǔ)存在硬盤中;和2)將磁盤內(nèi)容裝載進(jìn)存儲(chǔ)器。
49.根據(jù)權(quán)利要求48所述的全文查詢和搜索方法,進(jìn)一步含有使用各種相似性矩陣代替本身映射的步驟,其中該相似性矩陣定義信息元和它們的同義詞,并進(jìn)一步可選擇的提供一個(gè)0和1之間的相似性參數(shù),其中0意味著無相似性,而1意味著相同。
50.根據(jù)權(quán)利要求1所述的系統(tǒng),其中單詞能在自然語言中找到。
51.根據(jù)權(quán)利要求1所述的系統(tǒng),其中單詞能在計(jì)算機(jī)語言中找到。
52.根據(jù)權(quán)利要求50所述的系統(tǒng),其中該語言從含有漢語、法語、日語、德語、英語、愛爾蘭語、俄語、西班牙語、意大利語、葡萄牙語、希臘語、波蘭語、捷克語、斯洛伐克語、塞卜-克羅特語、羅馬尼亞語、阿爾巴尼亞語、土耳其語、希伯來語、阿拉伯語、印度語、烏都語、泰語、togalog語、玻利尼西亞語、韓語、越南語、老撾語、kmer語、緬甸語、印度尼西亞語、瑞士語、挪威語、丹麥語、冰島語、芬蘭語、匈牙利語的集合中挑選出。
53.根據(jù)權(quán)利要求51所述的系統(tǒng),其中該語言從含有C/C++/C#、JAVA、SQL、PERL、PHP的集合中挑選出。
54.根據(jù)權(quán)利要求33所述的方法,其中該方法進(jìn)一步含有使用Shannon信息串起文本的步驟。
55.根據(jù)權(quán)利要求54所述的方法,其中該文本是以從含有一個(gè)數(shù)據(jù)庫和一個(gè)來自搜索返回的列表的集合中挑出的格式。
56.根據(jù)權(quán)利要求1所述的系統(tǒng)和權(quán)利要求33所述的方法,進(jìn)一步為一個(gè)少于10個(gè)單詞的查詢以關(guān)鍵詞為基礎(chǔ)的搜索使用Shannon信息,其中該算法含有從一個(gè)限制參數(shù)α, 0<=α<=1,和一個(gè)阻尼位置參數(shù)β,0<=β<=1。信息元在一個(gè)命中中的信息總值是該信息元、該信息元在查詢中的次數(shù)K、該信息元在命中中的頻率、以及α和β的一個(gè)函數(shù)。
57.根據(jù)權(quán)利要求1所述的系統(tǒng)和權(quán)利要求33所述的方法,其中該顯示進(jìn)一步含有對(duì)一個(gè)命中的分割。分割是根據(jù)如下的特征來決定的一個(gè)閾值特征命中中的一部分對(duì)查詢的評(píng)分值超出那個(gè)閾值;一個(gè)分離遠(yuǎn)族特征有一個(gè)顯著的單詞將兩個(gè)分割分離;以及在一個(gè)錨特征在接近于該分割的開始和結(jié)尾有一個(gè)命中的信息元。
58.根據(jù)權(quán)利要求1所述的系統(tǒng)和權(quán)利要求33所述的方法來篩選垃圾電子郵件。
59.根據(jù)權(quán)利要求1所述的系統(tǒng)和權(quán)利要求33所述的方法來篩選重要的電子郵件。
全文摘要
本發(fā)明是一種用于對(duì)基于文本的數(shù)據(jù)庫進(jìn)行文本搜索的方法,包括了對(duì)于編纂的互聯(lián)網(wǎng)內(nèi)容、科學(xué)文獻(xiàn)、書本和文章的摘要、報(bào)紙、期刊和諸如此類的數(shù)據(jù)庫。特別是,該算法支持使用全文或網(wǎng)頁作為查詢和關(guān)鍵詞搜索的搜索,它允許多條目的數(shù)據(jù)庫、以信息內(nèi)容為基礎(chǔ)的評(píng)級(jí)系統(tǒng)(Shannon信息值),其中使用p-值來代表來自隨機(jī)匹配的命中可能性。而且,用戶可以具體指定參數(shù),根據(jù)短語匹配和句子相似性,來確定命中和其評(píng)級(jí)。
文檔編號(hào)G06F17/00GK101088082SQ200580044686
公開日2007年12月12日 申請(qǐng)日期2005年10月25日 優(yōu)先權(quán)日2004年10月25日
發(fā)明者唐元華, 胡前進(jìn), 楊永紅 申請(qǐng)人:英孚威爾公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
德兴市| 金华市| 牙克石市| 讷河市| 建德市| 焦作市| 荣成市| 旺苍县| 枝江市| 墨江| 博客| 印江| 晋州市| 勃利县| 平泉县| 云阳县| 长兴县| 泾川县| 佳木斯市| 乡宁县| 合江县| 新竹县| 金坛市| 南岸区| 高州市| 晋城| 灵丘县| 萍乡市| 武邑县| 宜良县| 上饶市| 津市市| 定陶县| 蒲江县| 酒泉市| 隆德县| 伊吾县| 开鲁县| 灵川县| 连南| 鹤壁市|