欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對結(jié)構(gòu)化數(shù)據(jù)的搜索的制作方法

文檔序號:6554043閱讀:288來源:國知局
專利名稱:對結(jié)構(gòu)化數(shù)據(jù)的搜索的制作方法
對結(jié)構(gòu)化數(shù)據(jù)的搜索
相關(guān)申請
依據(jù)美國專利法第35號第119條(e)款(35U.S.C.§ 119(e)),本 申請以申請?zhí)枮?1/257,282的美國實用申請為優(yōu)先權(quán),其標(biāo)題為"對 結(jié)構(gòu)化數(shù)據(jù)的搜索",由Reddy等人于2005年10月23日提出申請。 本申請與申請?zhí)枮?1/256,883的美國申請有關(guān),其標(biāo)題為"向結(jié)構(gòu)化 數(shù)據(jù)添加屬性及標(biāo)簽",由Reddy等人于2005年10月23日提出申請, 通過引用將其結(jié)合于此。
背景技術(shù)
常規(guī)搜索引擎能夠搜索非常巨大的信息集合,諸如萬維網(wǎng)或極其 巨大的數(shù)據(jù)庫。當(dāng)所搜索的數(shù)據(jù)集合的規(guī)模增長時,常規(guī)搜索引擎不 再足夠來正確地返回與用戶輸入的査詢詞相匹配的査詢結(jié)果。替代地, 需要提供機(jī)制來幫助用戶揀選從搜索返回的大量數(shù)據(jù)。
當(dāng)前幾個常規(guī)搜索引擎使用不同的方法來組織在搜索結(jié)果中返回 的數(shù)據(jù)。
此種組織方法的目的是判定哪個搜索結(jié)果將使用戶發(fā)生最大興 趣。常規(guī)搜索引擎通常使用多種技術(shù)來以優(yōu)先順序排列搜索結(jié)果,但 是這些技術(shù)不理想,因為其必須對用戶正搜索的信息的類型做出假設(shè)。 例如,如果用戶輸入"工作",他可能是搜索工作公告、史蒂夫喬布 (Steve Jobs)的信息、特定國家的工作統(tǒng)計量、或許多其它項。因此, 當(dāng)使用常規(guī)搜索引擎時,用戶不能僅輸入"工作"作為査詢詞。用戶 也很可能輸入另外的査詢詞以縮小搜索范圍。遺憾的是,用戶也可能 錯過不包含縮小詞的相關(guān)收錄。
當(dāng)前,對可能存儲在萬維網(wǎng)上或不存儲在萬維網(wǎng)上的不同類型的 數(shù)據(jù)進(jìn)行搜索是困難的。通常常規(guī)搜索引擎對僅僅來自少數(shù)源的數(shù)據(jù) 進(jìn)行操作。例如,基于網(wǎng)絡(luò)的搜索引擎?zhèn)鹘y(tǒng)上允許用戶搜索在萬維網(wǎng) 上的頁面。網(wǎng)絡(luò)搜索引擎常常具有對信息集合進(jìn)行索引以使其可搜索
的"后臺(back-end )"。例如,基于網(wǎng)絡(luò)的搜索引擎周期性地爬行(crawl) 萬維網(wǎng)并且創(chuàng)建所爬行的頁面以及站點(diǎn)的索引。其它搜索引擎允許用 戶搜索現(xiàn)有的數(shù)據(jù)庫。此種搜索引擎依賴于數(shù)據(jù)庫的預(yù)先確定的組織。 例如,如果數(shù)據(jù)庫具有已知字段以及屬性,用戶就能夠在其屬性內(nèi)搜 索。例如,XML數(shù)據(jù)庫僅接受格式完好(well-formed)的XML輸入。 如果被搜索的數(shù)據(jù)不是如此組織的, 一般XML數(shù)據(jù)庫不能接受該數(shù)據(jù) 或不能組織該數(shù)據(jù)以用于搜索。
其它搜索引擎允許用戶搜索數(shù)據(jù)庫或搜索具有扁平式組織的文本 文檔。此種搜索引擎必須知道關(guān)于數(shù)據(jù)庫的組織以及在數(shù)據(jù)庫內(nèi)的文 檔的組織。存儲數(shù)據(jù)的位置的多樣性以及存儲數(shù)據(jù)的格式的多樣性, 意味著用戶必須經(jīng)常在多個數(shù)據(jù)庫中的多個位置搜索以找到其需要的
信息o
所需要的是,可以通過基于網(wǎng)絡(luò)的搜索引擎來搜索文檔集合,以 及因而多數(shù)人可容易地訪問所述文檔集合,同時所述文檔集合包含了 各種類型的文檔以及數(shù)據(jù)格式。此外,如果以能夠幫助用戶對其搜索 進(jìn)行微調(diào)的方法來組織可搜索的文檔集合,這將也是所需要的。

發(fā)明內(nèi)容
所描述的本發(fā)明實施例將標(biāo)簽以及屬性值與待搜索的數(shù)據(jù)項相關(guān) 聯(lián)。提供者能夠?qū)傩砸约皹?biāo)簽與它們的數(shù)據(jù)相關(guān)聯(lián),或能夠向現(xiàn)有 數(shù)據(jù)添加屬性以及標(biāo)簽。優(yōu)選實施例允許內(nèi)容提供者對項附上其自定 義的標(biāo)簽以及屬性,或使用預(yù)先定義的標(biāo)簽以及屬性。提供者能夠使 用用戶接口或批量上載機(jī)構(gòu)來上載數(shù)據(jù)。通過指定將標(biāo)簽或?qū)傩灾涤?于進(jìn)一步過濾查詢結(jié)果,用戶能夠改善搜索。


通過考慮下列與附圖相結(jié)合的詳細(xì)描述,能夠容易地理解本發(fā)明
的教導(dǎo)。在附圖中相同的標(biāo)記表示相同的部分。
圖1 (a)是示出了根據(jù)本發(fā)明優(yōu)選實施例的數(shù)據(jù)處理系統(tǒng)的框圖。 圖l (b)是示出了根據(jù)本發(fā)明優(yōu)選實施例的另一個數(shù)據(jù)處理系統(tǒng)
的框圖。
圖1 (C)是根據(jù)本發(fā)明優(yōu)選實施例的體系結(jié)構(gòu)圖。
圖2 (a)是示出了根據(jù)本發(fā)明優(yōu)選實施例的創(chuàng)建可搜索的數(shù)據(jù)項 集合的概述的流程圖。
圖2 (b)是示出了根據(jù)本發(fā)明優(yōu)選實施例的搜索文檔集合以及改 善搜索的概述的流程圖。
圖3 (a)是示出了從數(shù)據(jù)項集合提取標(biāo)簽以及屬性的方法的流程圖。
圖3(b)是示出了接收査詢詞以及顯示査詢結(jié)果的方法的流程圖。 圖3 (c)是示出了對于給定的査詢結(jié)果確定顯示哪個屬性的方法 的流程圖。
圖3 (d)是示出了允許用戶使用標(biāo)簽和/或?qū)傩灾祦砀纳扑@示的 查詢結(jié)果的方法的流程圖。
圖3 (e)示出了周期性執(zhí)行的方法,該方法確定任何新的、提供 者所提供的屬性是否應(yīng)該被添加到信息類型的核心屬性。
圖4 (a)是搜索引擎以及由用戶輸入的査詢詞的實例截屏。
圖4 (b)是示出了來自圖4 (a)的査詢的査詢結(jié)果,并且也示出 了與對査詢詞的査詢結(jié)果有關(guān)的標(biāo)簽以及屬性的實例截屏。
圖4 (c) -4 (g)是示出了另外的屬性和標(biāo)簽以及用戶如何使用屬 性和/或標(biāo)簽來縮小其搜索范圍的實例截屏。
圖5 (a)示出了用于為可搜索的數(shù)據(jù)集合存儲屬性以及標(biāo)簽的數(shù) 據(jù)格式。
圖5 (b)示出了使用圖5 (a)的格式存儲屬性的實例。 圖5 (c)示出了使用圖5 (a)的格式存儲標(biāo)簽的實例。
圖5 (d)示出了將信息類型映射到其屬性的實例數(shù)據(jù)結(jié)構(gòu)。
圖5 (e)示出了信息類型的實例,所述信息類型被映射到用于該 信息類型的一些實例屬性。
圖6 (a) -6 (e)是示出了允許提供者編輯以及向系統(tǒng)輸入數(shù)據(jù)的 用戶界面的實例截屏。
圖7是示出了用于注冊批量上載文件的用戶界面的實例截屏。
圖8 (a) -8 (d)示出了提供者是如何完成數(shù)據(jù)以及屬性值的批量 上載的。
描述本發(fā)明實施例的附圖僅用于圖示的目的。本領(lǐng)域的普通技術(shù) 人員將易于從以下論述認(rèn)識到可以使用在此所圖示的結(jié)構(gòu)以及方法的 替選實施例,而不會偏離在此所描述的發(fā)明的原理。
具體實施例方式
以下段落描述了根據(jù)本發(fā)明的進(jìn)行上載以及搜索結(jié)構(gòu)化數(shù)據(jù)的系 統(tǒng)的不同實施例。 '
圖1 (a)是示出了根據(jù)本發(fā)明優(yōu)選實施例的數(shù)據(jù)處理系統(tǒng)的框圖 100。圖l (a)包括多個客戶機(jī)數(shù)據(jù)處理系統(tǒng)11Oa…110n、網(wǎng)絡(luò)130、 以及服務(wù)器數(shù)據(jù)處理系統(tǒng)120。在圖中,實例用戶數(shù)據(jù)處理系統(tǒng)110a 包括處理器140、瀏覽器150、以及存儲器160。用戶數(shù)據(jù)處理系統(tǒng)100 或其組件可以是任何適當(dāng)?shù)臄?shù)據(jù)處理系統(tǒng),其包括但不局限于個人計 算機(jī)、有線網(wǎng)絡(luò)計算機(jī)、無線網(wǎng)絡(luò)計算機(jī)、移動電話或包含移動電話 的裝置、手持式裝置、瘦客戶機(jī)裝置、以上的一些組合等等。網(wǎng)絡(luò)130 可以是允許在一個或多個用戶數(shù)據(jù)處理系統(tǒng)110以及服務(wù)器數(shù)據(jù)處理 系統(tǒng)120之間通信的任何網(wǎng)絡(luò)。例如,網(wǎng)絡(luò)130可以是但不局限于因 特網(wǎng)、LAN、以及WAN、有線網(wǎng)絡(luò)、無線網(wǎng)絡(luò)、移動電話網(wǎng)絡(luò)、傳輸 文本消息的網(wǎng)絡(luò)、以上的一些組合。
在本發(fā)明的優(yōu)選實施例中,用戶數(shù)據(jù)處理系統(tǒng)110a包括在存儲器
160中的瀏覽器軟件150,由處理器140執(zhí)行該瀏覽器軟件來允許用戶 與服務(wù)器系統(tǒng)120通信。如下述詳細(xì)描述的,此種瀏覽器150允許用 戶與服務(wù)器數(shù)據(jù)處理系統(tǒng)120通信來發(fā)送査詢詞到服務(wù)器數(shù)據(jù)處理系 統(tǒng)120,以及從系統(tǒng)120接收查詢結(jié)果。如下述進(jìn)一步描述,瀏覽器 150允許用戶接收與査詢結(jié)果相關(guān)聯(lián)的標(biāo)簽以及屬性,以及使用標(biāo)簽以 及屬性進(jìn)一步限定查詢結(jié)果。雖然在此所論述的實施例是基于瀏覽器 的,但是本發(fā)明不局限于基于瀏覽器的搜索,并且可以使用任何適當(dāng) 的用于在用戶IIO和服務(wù)器120之間通信的機(jī)構(gòu),而不會偏離本發(fā)明 的精神和范圍。
在此所論述的所有軟件以及計算機(jī)可執(zhí)行指令中的一些能夠作為 計算機(jī)程序產(chǎn)品被存儲在計算機(jī)可讀介質(zhì)上,其包括但不局限于數(shù) 據(jù)處理系統(tǒng)的存儲器、CDROM、閃存、軟盤、或能夠在網(wǎng)絡(luò)上或在系 統(tǒng)組件間作為信號來傳輸?shù)摹?br> 服務(wù)器數(shù)據(jù)處理系統(tǒng)120包括處理器170,其執(zhí)行搜索和査詢引 擎軟件185來使服務(wù)器系統(tǒng)120能夠為查詢詞搜索結(jié)構(gòu)化數(shù)據(jù)集合 190。(搜索和査詢引擎185也被稱為"搜索引擎")。 一個結(jié)構(gòu)化數(shù) 據(jù)的實例是字段化數(shù)據(jù),即每個數(shù)據(jù)項具有一個或多個數(shù)據(jù)字段(諸 如名稱、地址、狀態(tài)等等)。
存儲器180也包括屬性儲存庫195,其為結(jié)構(gòu)化數(shù)據(jù)190中的一 些或所有數(shù)據(jù)項存儲屬性(以及標(biāo)簽)。儲存庫將連同圖5在以下論 述。雖然將儲存庫195作為結(jié)構(gòu)化數(shù)據(jù)集合190的一部分來示出,但 是也可以將儲存庫195從數(shù)據(jù)集合190中分離。
搜索引擎185、儲存庫195、以及結(jié)構(gòu)化數(shù)據(jù)集合190都在圖1 (a) 中顯示為存在于單一存儲器180內(nèi),盡管可以以多種方法存儲巨大的 搜索引擎以及巨大的數(shù)據(jù)集合,所述方法包括但不局限于分布式數(shù)據(jù) 處理系統(tǒng)、協(xié)同數(shù)據(jù)處理系統(tǒng)、網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)等等。搜索引擎185
可以是軟件、硬件、固件、或任何上述的結(jié)合。
在優(yōu)選實施例中,通過一個或多個用戶系統(tǒng)110由用戶輸入査詢
詞并且通過網(wǎng)絡(luò)130將查詢詞傳輸?shù)椒?wù)器數(shù)據(jù)處理系統(tǒng)120。由服務(wù) 器120使用以接收、索引、以及搜索數(shù)據(jù)集合的方法的細(xì)節(jié)將在此詳 細(xì)論述。
圖l (b)是示出了根據(jù)本發(fā)明優(yōu)選實施例的另一的數(shù)據(jù)處理系統(tǒng) 的框圖111。在圖1 (b)中,用戶在其機(jī)器IIO上存儲個人數(shù)據(jù)集合 190。預(yù)計個人搜索引擎將訪問并且組織該數(shù)據(jù)來使其可被用戶以及可 能被在網(wǎng)絡(luò)130上的其它用戶所搜索。此種系統(tǒng)也允許將數(shù)據(jù)庫以及 其它類型的數(shù)據(jù)集合添加到可搜索的文檔池,該文檔池可被中央搜索 引擎訪問。
在圖l (b)的實施例中,數(shù)據(jù)集合190被存儲在用戶的數(shù)據(jù)處理 系統(tǒng)110或企業(yè)服務(wù)器上(未示出),并且可以使其對所選擇的一組 個人或個體來說是可用的,諸如僅對用戶、僅對用戶的一較小子集、 或?qū)λ兄涝鯓釉L問數(shù)據(jù)集合190的用戶。在此種情況中,如在此 所描述的,通過屬性以及標(biāo)簽對搜索進(jìn)行過濾的能力可以是個人搜索 引擎185的一部分,所述個人搜索引擎本地地運(yùn)行于計算機(jī)上或本地 計算機(jī)網(wǎng)絡(luò)上。例如,可從加州山景城的谷歌公司獲得的谷歌桌面搜 索工具是一個運(yùn)行于用戶的桌面并且對在其個人計算機(jī)上的數(shù)據(jù)進(jìn)行 索引的搜索工具。結(jié)合了本發(fā)明的谷歌桌面搜索的實施將給予用戶搜 索數(shù)據(jù)庫以及搜索存儲在其桌面或可從其桌面訪問的其它類型數(shù)據(jù)集 合的能力。
結(jié)合本發(fā)明的谷歌桌面搜索的實施也將給予用戶以有用的屬性以 及標(biāo)簽來組織其數(shù)據(jù)的能力。例如,大學(xué)圖書館能夠使其所有的在線 收集品對該大學(xué)的學(xué)生、全體教員、畢業(yè)生都是可用的。在此種情況 中,信息將不會在公開可用的服務(wù)器上,而是將被存儲在大學(xué)的服務(wù)
器中,并且將僅對大學(xué)數(shù)據(jù)提供者所準(zhǔn)許訪問的那些人(以及程序) 來說是可訪問并且可搜索的。在實例中,大學(xué)也將能夠控制哪個提供 者具有向數(shù)據(jù)集合添加的能力。
圖1 (C)是根據(jù)本發(fā)明優(yōu)選實施例的體系結(jié)構(gòu)圖131。在所描述 的實施例中,提供者能夠使用向系統(tǒng)輸入數(shù)據(jù)以及屬性的三種方法中
的一個或多個。面向提供者的前臺132 (例如見圖6 (b))允許提供 者使用用戶界面輸入數(shù)據(jù)項以及屬性,也正是為了此種目的而提供用 戶界面。提供者也能夠執(zhí)行數(shù)據(jù)項的批量上載133 (例如見圖8 (a) -8 (d))。提供者也能夠從特定的URL (例如使用FTP)上載134項。 搜索和査詢引擎185對在數(shù)據(jù)集合190中的項進(jìn)行索引,所述數(shù)據(jù)集 合優(yōu)選地包括所輸入的所述數(shù)據(jù)項的屬性以及屬性值,以生成所有數(shù) 據(jù)的索引137。搜索引擎185也允許用戶輸入查詢(例如見圖4 (a))。 系統(tǒng)也包括應(yīng)用程序接口 (API)來允許軟件程序通過搜索引擎185查 詢數(shù)據(jù)。
圖2 (a)是示出了根據(jù)本發(fā)明優(yōu)選實施例的創(chuàng)建可搜索的數(shù)據(jù)項 集合的概述的流程圖200。如以下結(jié)合圖6 (a) -6 (e)以及圖8 (a) -8 (d)所討論的,服務(wù)器120接收202數(shù)據(jù)項集合。數(shù)據(jù)能夠作為標(biāo) 準(zhǔn)web爬行的結(jié)果而被接收,或能夠由一個或多個想要其數(shù)據(jù)成為可 搜索的提供者所提供。所接收的數(shù)據(jù)項集合被處理來提取如以下所描 述的標(biāo)簽、屬性、以及屬性值,并且所述標(biāo)簽、屬性、以及屬性值與 各種信息類型相關(guān)聯(lián)。在某些環(huán)境中,用戶將為一些或所有所輸入的 數(shù)據(jù)提供屬性名稱和/或?qū)傩灾怠W鳛橐粋€實例,用戶可以上載其已經(jīng) 創(chuàng)建的用于保存醫(yī)學(xué)期刊集合的數(shù)據(jù)庫。該用戶可能已經(jīng)用諸如"期 刊"、"發(fā)行年"、"期刊名稱"的反映屬性名稱的值對這些期刊指
定了屬性。該用戶也可以為每一期刊輸入零個或更多標(biāo)簽,諸如"醫(yī) 學(xué)"、"牙科"、"來自哈佛"等等。標(biāo)簽是一種特殊的屬性(也被 稱為無值標(biāo)記(valueless tag)),其不具有與其相關(guān)聯(lián)的值。元素204 的細(xì)節(jié)將結(jié)合圖3 (a)來論述。
圖2 (b)是示出了根據(jù)本發(fā)明優(yōu)選實施例的搜索文檔集合以及改
善搜索的概述的流程圖210。在所描述的實施例中,用戶輸入212—個 或多個查詢詞(諸如在圖4 (a)截屏400中的"癌受體"402)。
在某些實施例中,用戶也可以輸入屬性名稱以及值作為鍵入?yún)^(qū)域 402的查詢的一部分。例如用戶可以將以下內(nèi)容鍵入?yún)^(qū)域402: 癌受體屬性(期刊類型醫(yī)學(xué))
設(shè)想用戶知道査詢結(jié)果中的一些項具有命名為期刊類型的屬性, 但是該屬性不是屬性核心集的一部分,并且用戶想要僅返回醫(yī)學(xué)期刊。
系統(tǒng)確定213查詢結(jié)果,如結(jié)合圖3 (b)在以下更為詳細(xì)地討論 査詢結(jié)果。在一些實施例中,在此點(diǎn)顯示213查詢結(jié)果。在其它實施 例中,則不會顯示查詢結(jié)果,但是作為替代的是,要求用戶通過選擇 對査詢詞特定的標(biāo)簽和/或?qū)傩詠磉M(jìn)一步改善其搜索。例如如圖3 (d) 中所示出的,用戶通過指定標(biāo)簽以及屬性能夠改善其搜索214。
圖3 (a)是示出了從數(shù)據(jù)項集合提取標(biāo)簽以及屬性的方法的流程 圖300。該方法是用來組織數(shù)據(jù)集合以使得數(shù)據(jù)集合能夠被搜索的建立 過程的一部分。
一旦數(shù)據(jù)項被接收,對每個具有信息類型的數(shù)據(jù)項,系統(tǒng)為該信 息類型確定304標(biāo)簽以及屬性。屬性是名稱/值對,具有名稱,諸如"期 刊",然后其具有一個或多個可能的期刊名稱的值。
在優(yōu)選實施例中,屬性以及標(biāo)簽是由數(shù)據(jù)提供者指定。從而,確 定屬性僅僅是識別用戶所提供的屬性以及標(biāo)簽。
在某些情況中,數(shù)據(jù)提供者不會為其的項指定屬性以及標(biāo)簽。例 如,如果該項是由web爬行器定位的網(wǎng)頁,網(wǎng)頁所有者不會有機(jī)會來
為其頁面指定屬性或標(biāo)簽。從而,在另一個優(yōu)選實施例中,由軟件為 數(shù)據(jù)集合導(dǎo)出標(biāo)簽以及屬性。導(dǎo)出標(biāo)簽以及屬性可以涉及完全自動化 的過程,在該過程中由軟件在數(shù)據(jù)集合內(nèi)找到預(yù)先確定的標(biāo)簽以及屬
性列表的潛在值。例如,在用于銷售的項的列表中(例如谷歌的Froogle 系統(tǒng)),符合預(yù)定標(biāo)準(zhǔn)的價格金額被作為用于該項的"價格"屬性的 值而分配。在另一個優(yōu)選實施例中,軟件執(zhí)行與提供者交互的過程, 在其中軟件提出屬性/值對,然后由提供者接受或拒絕該屬性/值對。在 另一個優(yōu)選實施例中,html標(biāo)記被掃描并且用所發(fā)現(xiàn)的信息來為具有 標(biāo)記的頁面導(dǎo)出屬性值。作為一個實例,設(shè)想頁面包含html注釋
<! 當(dāng) 前 價 格 是 在 http:〃www.todayspricesforbigco.com %id=32423490!>
軟件將從所指出的URL獲得當(dāng)前價格,并且使其成為對該網(wǎng)頁的 價格屬性的值。
一旦屬性以及標(biāo)簽已經(jīng)與數(shù)據(jù)項相關(guān)聯(lián)306,就對數(shù)據(jù)項進(jìn)行索 引309以使其能夠被搜索。在第一優(yōu)選實施例中,也能對屬性以及標(biāo) 簽以及其值進(jìn)行索引,盡管在其它優(yōu)選實施例中,它們是被分別搜索 或被分別索引。
圖5(a)示出了用來在儲存庫195中存儲標(biāo)簽以及屬性的格式500 的實例。每個項與適合其類型的特定屬性以及標(biāo)簽相關(guān)聯(lián)。例如-工作 公告可以具有屬性,工作職責(zé)-產(chǎn)品管理、雇主-ABC公司以及工作類 型-專職。在優(yōu)選實施例中的屬性以及標(biāo)簽可以具有以下類型的值
BOOLEAN (布爾型)
INT (整型)
FLOAT (浮點(diǎn)型)
URL
STRING (字符串) LOCATION (位置) DATE (日期)
DATE RANGE (日期范圍)
由元標(biāo)記在存儲器中指示屬性以及標(biāo)簽,如下所示
<start name> name
</end name> <start value> value
</end value>
從而,在優(yōu)選實施例中,每個屬性是名稱/值對,諸如屬性名稱"期 刊"以及用于"期刊"屬性的值"炎癥期刊"(見圖5 (b))。每個 標(biāo)簽僅有一個名稱,諸如"醫(yī)學(xué)",其將指示特定的期刊是醫(yī)學(xué)期刊 (見圖5 (c))。在優(yōu)選實施例中,數(shù)據(jù)項的信息類型也是其標(biāo)簽之 一的名稱。從而,具有"事件和行為"信息類型的數(shù)據(jù)項也將具有相 同名稱的標(biāo)簽。那樣,通過指定與數(shù)據(jù)項的信息類型相同名稱的標(biāo)簽, 用戶能夠搜索具有特定信息類型的數(shù)據(jù)。
圖5 (d)示出了將信息類型映射到其屬性的數(shù)據(jù)結(jié)構(gòu)的實例。從 而,如果在數(shù)據(jù)集合190中的項具有"產(chǎn)品"信息類型,則該項的屬 性可以通過訪問圖5 (c)中的數(shù)據(jù)結(jié)構(gòu)被確定,該數(shù)據(jù)結(jié)構(gòu)包括屬性 以及對"產(chǎn)品"信息類型的其屬性類型。
如圖5 (d)中所示,每個信息類型具有預(yù)先定義的屬性。屬性的 值是屬性類型的值。圖5 (e)示出了一些實際的值。從而,"期刊" 信息類型具有"期刊名稱"屬性,其帶有屬性類型字符串的值,以及 "期刊"信息類型具有帶有空值的"醫(yī)學(xué)"標(biāo)簽。例如,此種屬性將 允許用戶搜索特定的期刊標(biāo)題或搜索所有的醫(yī)學(xué)期刊。同樣地,"產(chǎn) 品"信息類型具有"NumAvail"屬性,該屬性指示多個對銷售來說是 可用的特定產(chǎn)品,并且該屬性具有整型屬性類型。所有屬性是可選的。
提供者可以選擇使用任何向其建議的屬性或選擇創(chuàng)建其自己的屬性。
圖3 (b)是顯示響應(yīng)于所接收的査詢詞或詞的查詢結(jié)果的方法的
流程圖310。在優(yōu)選實施例中,查詢結(jié)果由搜索引擎185確定。例如, 對"癌受體"402的查詢(見圖4 (a))可以返回312具有諸如在圖4 (b)中所示出的屬性404的項的查詢結(jié)果406。如早先提及的,在此 點(diǎn)本發(fā)明的一些實施例確定但不顯示查詢結(jié)果406。
一旦對査詢的査詢結(jié)果被確定(并且可選地被顯示),至少顯示 一些査詢結(jié)果的屬性名稱以及標(biāo)簽322。在數(shù)據(jù)集406中的數(shù)據(jù)項具有 確定的信息類型。最初顯示的屬性404是一些或所有用于査詢結(jié)果406 中數(shù)據(jù)項的信息類型的屬性。査詢結(jié)果將含有數(shù)據(jù)項,每個數(shù)據(jù)項具 有不同的屬性。在査詢結(jié)果頂端顯示的屬性是査詢結(jié)果中最共同的屬 性,并且是已被搜索者點(diǎn)擊或改善最多的屬性。例如,査詢"住房" 具有以臥室和浴室作為屬性的許多項,搜索者常常通過屬性"浴室" 以及"臥室"來對該査詢"住房"進(jìn)行改善。因此臥室以及浴室應(yīng)該 被顯現(xiàn)在搜索結(jié)果上方的頂行上。
圖4 (b)示出了査詢結(jié)果406以及多個屬性和標(biāo)簽名稱404 ("期 刊"、"pubmed"、"資訊來源"、"作者")。在每個屬性后的數(shù) 字指示在查詢結(jié)果406中具有與其相關(guān)聯(lián)的屬性的項的數(shù)量。例如, 在圖4 (b)中,査詢結(jié)果406包括2050個含有相關(guān)聯(lián)的"期刊"屬性 /標(biāo)簽的項。從而,隨同特定查詢結(jié)果示出的屬性的數(shù)量以及特性是依 賴于査詢的,并且進(jìn)一步依賴于后來所選擇的以縮小搜索范圍的屬性 以及標(biāo)簽。
圖3 (c)是示出了對于給定的查詢結(jié)果406確定顯示哪個屬性的 方法的流程圖340。當(dāng)終端用戶執(zhí)行搜索時,搜索引擎185確定341最 相關(guān)的q個結(jié)果以及為q個最相關(guān)的結(jié)果確定342 n個最普遍的 (popular)屬性。系統(tǒng)為頂部n個屬性名稱確定344頂部m個屬性/
標(biāo)簽值。然后通過計算在相關(guān)結(jié)果集中的匹配要約(offer)的數(shù)量, 來計算348柱狀圖,或要約計數(shù)。值q、 n、以及m都是可配置的。不 應(yīng)被從限制意義上來理解的實例值有q-l,000-100,000 K (q也可以被 設(shè)置為匹配特定査詢詞的所有結(jié)果)。N在100的范圍內(nèi),M在20-100 的范圍內(nèi)。
在優(yōu)選實施例中,在確定柱狀圖以前將屬性標(biāo)準(zhǔn)化346。在某些 實施方式中,當(dāng)數(shù)據(jù)最初被存儲在數(shù)據(jù)集合190中時,就完成了一定 數(shù)量的數(shù)據(jù)清除以及標(biāo)準(zhǔn)化。在所描述的實施例中,基于被搜索的査 詢詞實時地完成數(shù)據(jù)標(biāo)準(zhǔn)化(例如,當(dāng)査詢詞是"汽車"時,將所有 的"牌子"屬性標(biāo)準(zhǔn)化為"款型(make)"是有意義的,然而如果查 詢是"手提包",將所有的款型屬性標(biāo)準(zhǔn)化為"牌子"是有意義的)。 其它實施例可以在數(shù)據(jù)被接收進(jìn)數(shù)據(jù)集合190時做更多的標(biāo)準(zhǔn)化。在 優(yōu)選實施例中通過以下方式完成數(shù)據(jù)標(biāo)準(zhǔn)化
1. 詞干技術(shù)(stemming )--例如,restaurant = restaurants 。
2. 縮寫——例如,sz = size。
3. 單位等同_一例如,重量=盎司、磅等等。
4. 嘗試進(jìn)行的拼寫改正。
在下述系統(tǒng)中詞干技術(shù)是特別有用的,在所述系統(tǒng)中提供者指定 其自己的屬性名稱,這使得差異以及拼寫錯誤潛入數(shù)據(jù)集合190。例如, 詞干技術(shù)允許用戶利用經(jīng)過詞干技術(shù)的屬性"Journals"的單一選擇, 來按屬性名稱"Journal" 、 "journasl" 、 "Journsl"等等進(jìn)行過濾。
在某些優(yōu)選實施例中,提供者添加的屬性是檢驗后的類型。例如, 檢驗URL、 DateTime (日期時間)、Number (數(shù)字)、String (字符 串)、Location (位置)、Boolean (布爾型)屬性以查看其是否是有效 值。 一些實施例査驗(ping)每一URL值以査看其是否是有效的,盡 管這對不同的實施方式來說是可選擇的。對于優(yōu)選實施例,將位置進(jìn) 行地理編碼以使其能夠被在線地圖服務(wù),諸如GoogleMaps(谷歌地圖)
所引用。在某些實施例中,將不能被地理編碼的"位置"屬性認(rèn)為是 無效的。
一旦普遍的屬性以及標(biāo)簽被確定并且被顯示322 (圖3 (b)), 就允許用戶為査詢結(jié)果指定324 —個或多個所顯示的標(biāo)簽以及屬性值 (見圖3 (d))。
圖4 (c)示出了實例,在其中用戶己經(jīng)從圖4 (b)選擇屬性"期 刊"并且正準(zhǔn)備在欄408中輸入期刊名稱,其中該用戶想要將其搜索 限制在該期刊名稱上。注意到查詢詞402現(xiàn)在是"癌受體過濾期刊"。 屬性"期刊"已經(jīng)從所列出的核心屬性404消失。
類似地,在圖4 (d)中,用戶選擇第二屬性"年份"410并且輸 入年份或年份范圍,其中該用戶想要在該年份或年份范圍內(nèi)在所指定 的期刊中搜索查詢詞。注意到査詢詞402現(xiàn)在是"癌受體過濾期刊 過濾年份"。屬性"年份"已經(jīng)從所列出的屬性404消失。如果用 戶選擇GO (執(zhí)行)按鈕411,就會使用所選擇的屬性作為過濾器再次 執(zhí)行搜索,并且顯示諸如圖4 (e)的顯示。從而,用戶能夠為所顯示 的査詢結(jié)果選擇一個或多個普遍的屬性,并且能夠根據(jù)所顯示的屬性 (或標(biāo)簽)過濾最初的搜索。如果用戶讓屬性值為空,則所有的屬性 值都匹配。例如,如果用戶選擇屬性期刊但是沒有輸入期刊名稱,所 有具有期刊屬性(以及同樣命名的屬性)的數(shù)據(jù)項都被選擇來作為對 査詢結(jié)果的可能候選者。不具有期刊屬性的數(shù)據(jù)項不會被選擇為査詢 結(jié)果。
圖4 (d)示出了實例,其中用戶已經(jīng)選擇了多于一個的屬性或標(biāo) 簽來縮小搜索范圍。在所描述的實施例中,通過點(diǎn)擊屬性和標(biāo)簽404 的多個標(biāo)簽以及屬性,來選擇多個標(biāo)簽以及屬性。其它優(yōu)選實施例允 許將標(biāo)簽以及屬性輸入進(jìn)搜索窗口 402。例如,如果存在屬性價格,用 戶可以鍵入以下內(nèi)容作為查詢詞
屬性(價格$150)
該查詢將在當(dāng)前査詢結(jié)果中定位具有價格屬性以及屬性值為$150 的數(shù)據(jù)項。
作為另外的實例,用戶可以鍵入
屬性(價格$150) AND標(biāo)簽(小于面包盒)
該査詢將在當(dāng)前查詢結(jié)果中定位具有價格屬性,以及屬性值為
$150,以及小于面包盒標(biāo)簽的數(shù)據(jù)項。其它優(yōu)選實施例將使用其它適
當(dāng)?shù)挠脩艚缑嬖貋碓试S用戶有邏輯地組合屬性以及標(biāo)簽。
圖4 (e)示出了局限于如圖4 (d)中所指定的特定年份或年份范 圍的特定期刊的査詢結(jié)果。允許用戶決定其是否想要在期刊412內(nèi)繼 續(xù)搜索或者是否搜索全部的數(shù)據(jù)項集合(例如"搜索所有的 Googlebase" ) 413。在實例中,在區(qū)域414向用戶提供多個標(biāo)簽的選 擇("生物技術(shù)"、"醫(yī)學(xué)"、以及"攝影",其分別與在査詢結(jié)果 406'中的30、 15、以及6個項相關(guān)聯(lián))。在實例中,進(jìn)一步向用戶提 供選擇來為區(qū)域416中的屬性指定值日期、作者、pubmed、引文。 也向用戶提供了通過相關(guān)性、數(shù)據(jù)屬性、或任何用戶已經(jīng)定義的屬性 (例如價格、位置等等)來對查詢結(jié)果406'進(jìn)行分類416的選項。
在圖4 (f)中,用戶已經(jīng)從圖4 (e)的區(qū)域414選擇了屬性"日 期",并且給予用戶機(jī)會來輸入數(shù)據(jù)420。當(dāng)用戶選擇下拉操作件"兩 者之間(between)"時其被給予機(jī)會來選擇日期范圍(如所示出的)。 屬性"日期"已經(jīng)從所列出的屬性418中消失。在此實例中,"作者" 屬性己經(jīng)從屬性414中消失。如果屬性不再與査詢以及査詢結(jié)果有關(guān), 則其即消失。用戶沒有通過期刊進(jìn)行過濾的事實現(xiàn)在是假設(shè)用戶僅在 考慮受限制的項目集。用戶選擇執(zhí)行按鈕來執(zhí)行搜索,并且作者詞再 次出現(xiàn)。
圖4 (g)示出了用戶指定作者名字422。當(dāng)査詢正被改善時新的
屬性以及標(biāo)簽就會顯現(xiàn),這是因為屬性以及標(biāo)簽是基于査詢結(jié)果的,
并且査詢結(jié)果在不斷地改變。當(dāng)用戶按下執(zhí)行按鈕423時,另外的搜
索被執(zhí)行,進(jìn)一步過濾査詢結(jié)果來反映用戶指定的屬性以及屬性值。 以下段落論述在搜索的時候或在使用屬性以及標(biāo)簽縮小搜索范圍
的時候?qū)傩詢Υ鎺?95的訪問。
對引用儲存庫195的査詢以及索引優(yōu)選地支持以下運(yùn)算符
數(shù)字-Is (是)、Between (兩者之間)、Greater Than (大于)、 Less Than (小于)、Number Range (數(shù)字范圍)
建議
字符串-Is (是)、Has (具有)
日期-Range (范圍)、Before (在之前)、After (在之后)、Is (是)
位置-Within (在之內(nèi))
可以至少以以下方式查詢儲存庫195:
-給出與特定的屬性名稱-類型對相匹配的所有項
-基于屬性-值的值對這些項進(jìn)行分類
-支持對以下屬性類型的分類 -DateTime (日期時間)
-Number (數(shù)字)-Int (整型)、Float (浮點(diǎn)型) -String (字符串)
-Location (位置)-距用戶所輸入的位置的距離
該査詢能力允許用戶輸入以下類型的屬性査詢 -給出具有特定名稱-類型對的所有項 -將所給出的這些項按照屬性值分類(例如給出具有事 件_日期的所有項,并且將其按升序排序給出)
-為特定名稱-類型屬性給出介于值1與值2中間的所有

實例-給出具有以烹飪—類型作為屬性并且具有在15與30之間的值的 所有項,所述值的單位為分鐘
-給出具有以大小作為屬性并且具有不帶單位的值1和15的所有

-給出具有事件—日期并且值為小于今日的所有項 -給出具有發(fā)行—日期并且值為在1925年的所有項 支持以下運(yùn)算符
-對數(shù)字-int (整型)、float (浮點(diǎn)型) -Less than (小于) -Greater than (大于) -Between (兩者之間) 對日期時間-
國Is (是) -Before (在之前) -After (在之后) -Between (兩者之間) -Scoring of Items (項的評分)
當(dāng)前存在2個主要的信號,通過其對項進(jìn)行評分 -依賴于查詢的排名-主要為IR分值 -獨(dú)立于查詢的排名-頁面排名以及項排名的混合 頁面排名是提供者的網(wǎng)站頁面排名。在項被裝載在數(shù)據(jù)集合 190中和/或項沒有被鏈接或被連接到其它項的情況中,頁面排名不存 在。
項排名能夠由多個因素所確定。兩個主要的信號是 -特定于提供者的信號(例如評級)。 -特定于要約的信號(例如描述的長度、屬性的數(shù)量、 標(biāo)簽、圖片等等)。
-項排名能夠由以下信號定義 -描述的長度 -標(biāo)題的長度
-標(biāo)簽的數(shù)量 -屬性的數(shù)量 -圖片
-要約已經(jīng)被報告為垃圾的次數(shù)
-提供者的評級
-要約的新近性
將項評分為-依賴于査詢的排名*獨(dú)立于査詢的排名 對默認(rèn)排序來說排名即為默認(rèn)排序。
在優(yōu)選實施例中,在系統(tǒng)中能夠設(shè)置某些參數(shù)。這些參數(shù)包括每 個提供者最多的項數(shù)。其防止了由特定提供者造成的頁面擁擠。
當(dāng)用戶選擇屬性和/或標(biāo)簽來縮小搜索范圍時,系統(tǒng)搜索標(biāo)簽、標(biāo) 題、描述以及屬性值。屬性名稱作為完整名稱也應(yīng)該是可搜索的。與 相距較遠(yuǎn)出現(xiàn)的詞語相比,短語被賦予更大的權(quán)重。與描述相比較標(biāo) 題被賦予更大的權(quán)重,與標(biāo)題相比較標(biāo)簽被賦予更大的權(quán)重。屬性值 被賦予與標(biāo)簽同樣的權(quán)重。用戶可以開啟或關(guān)閉提供者造成的商業(yè)擁 擠來管控來自個體提供商的一個頁面數(shù)的項是否會或不會被作為搜索 結(jié)果顯示。取決于所執(zhí)行的搜索,商人擁擠(merchant crowding)可以 是被需要的或不被需要的。
在優(yōu)選實施例中,基于與同樣或相似類型的其它項相關(guān)聯(lián)的屬性, 系統(tǒng)定義了特定類型的新項的結(jié)構(gòu)(例如,如果信息類型"工作"的 多數(shù)項具有工作職責(zé)、工作類型以及雇主的屬性,那么信息類型"工 作"的數(shù)據(jù)項的共同屬性結(jié)構(gòu)將默認(rèn)為是工作類型、雇主以及工作職 責(zé))。搜索者以及其它程序能夠用諸如"給出其雇主是ABC公司并且 其工作-類型是產(chǎn)品管理的所有工作"的查詢査詢數(shù)據(jù)集。
應(yīng)當(dāng)理解,盡管在此所描述的實例涉及人類用戶,本發(fā)明的其它 實施例可以被設(shè)計為與諸如人工智能軟件程序的非人類用戶一起或與
在網(wǎng)絡(luò)上通信的實體一起運(yùn)行,該實體可能是人類或非人類。如果非 人類用戶是軟件程序,顯示如在此所描述的結(jié)果以及屬性就可以是不 必要的了。替代地,此種實施方式可以僅傳達(dá)能夠被用來縮小査詢結(jié) 果范圍的可能的屬性。在此種實施例中,由于非人類的人工智能能夠 處理需從其中選擇的大量屬性,因此能夠顯示大量的屬性選項。在此 種實施例中,可以不需要諸如確定柱狀圖的方法的元素或者該元素可 以被用來僅對屬性選擇進(jìn)行排名并且不限制多個可用的屬性選擇。
應(yīng)當(dāng)理解,在結(jié)構(gòu)化數(shù)據(jù)190中各種信息類型的核心屬性可能需 要被周期性地更新。當(dāng)將數(shù)據(jù)添加到結(jié)構(gòu)化數(shù)據(jù)集合時,某些最初不 普遍的屬性可以變得普遍。例如,具有整型屬性類型的"季"屬性可 以指定作為演員圖片的來源的哪一季電視節(jié)目可能并沒有在最初被 信息類型"電視節(jié)目"的初始核心屬性所考慮,但是當(dāng)越來越多的演 員圖片被添加到數(shù)據(jù)集合中時其可以變得普遍。在一些實施例中,基
于普遍性(popularity)以及季節(jié)性(seasonality),并且在通過垃圾過 濾器以后,核心屬性也會被自動更新。
圖3 (e)示出了周期性執(zhí)行的方法350,該方法確定任何新的、 提供者所提供的屬性是否應(yīng)該被提升為信息類型的核心屬性。項信息 類型的屬性核心組是如下屬性即只要提供者添加該信息類型的新項 就自動提供該屬性。在優(yōu)選實施例中,僅提供核心屬性以減少提供者 濫發(fā)(spam)屬性從而使其擠進(jìn)所顯示的屬性的可能性。對于每種信 息類型,所述方法考慮該信息類型322的最普遍的用戶所添加的屬性, 并且將最普遍的屬性提升為該信息類型的核心屬性。
作為被用于決定將哪個屬性提升為核心屬性的,"最普遍的"對 不同的實施例來說定義不同。例如,最普遍的可以是不在核心屬性中 的屬性,而在諸如周或月的預(yù)先確定的時段里用戶最為頻繁地選擇352 該屬性。作為另一個實例,最普遍的可以是不在核心屬性中的屬性, 且該屬性具有在預(yù)先確定的時段里最為頻繁地出現(xiàn)在査詢結(jié)果中的數(shù)
據(jù)項。作為另一個實例,最普遍的可以是不在核心屬性中的屬性,且 該屬性在預(yù)先確定的時段里出現(xiàn)在數(shù)量最多的提供者的數(shù)據(jù)中??梢?以任何適當(dāng)?shù)姆绞絹泶_定最普遍的,只要其產(chǎn)生的屬性對縮小搜索范 圍有用,就將其添加到核心屬性。
例如,提供者可以為文章的項信息類型著手添加"博客"屬性來 指示已經(jīng)在博客中提及該文章。此種屬性將具有URL屬性類型,指示
提及項的博客的URL。如果閾值數(shù)量354的唯一提供者或用戶使用了 信息類型的特定的新屬性,則該屬性被添加356到該信息類型的屬性 核心組。在優(yōu)選實施例中,閾值將是基于使用系統(tǒng)的提供者的總數(shù)的。 其將以如2-3開始并且增加到較大數(shù)量。對標(biāo)簽執(zhí)行類似的方法來將普 遍的標(biāo)簽添加到標(biāo)簽核心集。在某些優(yōu)選實施例中,所提升的屬性將 由人類或?qū)崿F(xiàn)方法的適當(dāng)?shù)能浖蛴布M(jìn)行常識性檢驗(sanity check) o
前述段落已經(jīng)大體上論述了搜索以及更新輸入到結(jié)構(gòu)化數(shù)據(jù)集合 190的數(shù)據(jù)的方法。以下段落論述提供者能夠?qū)?shù)據(jù)輸入到或?qū)?shù)據(jù)添 加到結(jié)構(gòu)化數(shù)據(jù)集合190的方法。在某些優(yōu)選實施例中,提供者也能 夠為其數(shù)據(jù)指定新的屬性。
圖6 (a) -6 (e)是示出了提供者能夠如何編輯數(shù)據(jù)集合中的項的 實例截屏。提供者是將內(nèi)容添加到或能夠?qū)?nèi)容添加到數(shù)據(jù)集合190 的任何人。在所描述的實施例中,數(shù)據(jù)集合190是由一個或多個提供 者所擁有的數(shù)據(jù),提供者諸如個人、非營利的組織、或公司。實施例 允許此種提供者通過網(wǎng)絡(luò)來設(shè)置并且增加其自己的結(jié)構(gòu)化數(shù)據(jù)集合
(例如數(shù)據(jù)庫),并且通過網(wǎng)絡(luò)或類似網(wǎng)絡(luò)來使其集合是可搜索的。 預(yù)期的是,為了報酬或交換其許可(permission)以允許數(shù)據(jù)被其他人 搜索,提供者將樂于把數(shù)據(jù)存儲到中央儲存庫中。在此種情況中,通 過網(wǎng)絡(luò)或基于網(wǎng)絡(luò)的瀏覽器可以搜索數(shù)據(jù)集合,所述瀏覽器諸如谷歌 瀏覽器或谷歌桌面搜索引擎,其版本為包含在此所描述的一些或所有
的功能的版本。
圖6 (a) -6 (e)是示出了允許提供者編輯以及向系統(tǒng)內(nèi)輸入數(shù)據(jù) 的用戶界面的實例截屏。
圖6 (a)示出了用戶界面600,該界面允許提供者査看并且編輯 數(shù)據(jù)集合190中的數(shù)據(jù)項。也可以使用用戶界面來將項添加到數(shù)據(jù)集 合190中。區(qū)域602包含數(shù)據(jù)集合190中的項的部分列表。在本實例 中,該列表包括項標(biāo)題601、項類型(也被稱為信息類型)605、狀態(tài) 603、到期日、閃現(xiàn)次數(shù)(項已經(jīng)顯示的次數(shù))、在對象上的點(diǎn)擊數(shù)、 以及點(diǎn)進(jìn)率、在搜索結(jié)果中項被點(diǎn)擊的次數(shù)。在實例中,在區(qū)域602 示出數(shù)據(jù)集合中所有項的一個子集,但是提供者也可以搜索其個人的 數(shù)據(jù)集合620或搜索整個數(shù)據(jù)集合622。提供者也可以查看非活動項 616或上載批量文件618。每個數(shù)據(jù)項具有相關(guān)聯(lián)的"編輯"鏈接619。 在優(yōu)選實施例中,提供者能夠只編輯其自己的數(shù)據(jù)項。區(qū)域604允許 提供者顯示諸如下拉菜單的選擇裝置,該裝置示出現(xiàn)有信息類型(事 件以及活動、住房等等)。如果提供者選擇信息類型,其能夠在區(qū)域 606為其數(shù)據(jù)添加信息類型的描述。
圖6 (b)示出了用戶界面,該界面允許提供者査看并且編輯610 數(shù)據(jù)集合190中的數(shù)據(jù)項。所述項具有"資訊和文章"的信息類型。 如果提供者在圖6 (a)的區(qū)域602中已經(jīng)選擇了數(shù)據(jù)項,則該項的信 息將被顯示在區(qū)域611的欄中。然而,在實例中,提供者沒有選擇項, 因此提供者可以自由地輸入新的數(shù)據(jù)項。在實例中,"資訊和文章" 610信息類型包含以下字段標(biāo)題、圖片、描述以及在査詢結(jié)果中所顯 示的鏈接614 (例如URL)。
圖6 (b)的用戶界面也允許提供者編輯項的屬性以及標(biāo)簽。需注 意到,盡管每種信息類型具有相關(guān)聯(lián)的屬性,但是不是特定類型的所 有數(shù)據(jù)項都具有用于該信息類型的所有可能屬性的值。在實例中,如
參考數(shù)字612所示出,提供者已經(jīng)指出有數(shù)量為"1"個的項是可用的
或存在的。對該項來說,沒有為作者或資訊來源屬性指定值。每個屬 性具有"文本"屬性類型。提供者可以自由地為個人數(shù)據(jù)項的屬性添
加值。提供者也能夠使用區(qū)域613來添加屬性。在此,提供者能夠添 加屬性名稱以及屬性值。
提供者能夠在區(qū)域618中提供與聯(lián)系方式信息(contact information)有關(guān)的屬性值。提供者能夠在區(qū)域619中提供與位置信息 有關(guān)的屬性值。
提供者能夠在區(qū)域619中將標(biāo)簽添加到項。在某些實施例中,信 息類型是默認(rèn)屬性名稱。在此,信息類型是"資訊和文章"并且其也 是標(biāo)簽。
圖6 (c)示出了圖6 (b)的用戶界面,該界面允許提供者查看并 且編輯610數(shù)據(jù)集合190中的數(shù)據(jù)項。在實例中,提供者能夠為新的 提供者所定義的屬性613添加名稱以及值。盡管默認(rèn)屬性類型是"文 本",提供者可以選擇另一個屬性類型,諸如數(shù)字單位、數(shù)字、數(shù)據(jù) 范圍、大文本、URL、布爾型、以及位置。
圖6 (d)示出了用戶界面,該界面允許提供者査看并且編輯610 數(shù)據(jù)集合190中的數(shù)據(jù)項。該項具有"產(chǎn)品"630信息類型。如果提供 者在圖6 (a)的區(qū)域602中已經(jīng)選擇了數(shù)據(jù)項,則該項的信息將被顯 示在區(qū)域611的欄中。然而,在實例中,提供者沒有選擇項,因此提 供者可以自由地使用用戶界面630輸入新的項。在實例中,"產(chǎn)品" 信息類型包含以下字段標(biāo)題、圖片、描述以及在查詢結(jié)果中所顯示 的鏈接634 (例如URL)。
圖6 (d)的用戶界面也允許提供者編輯項的屬性以及標(biāo)簽。需注 意到,盡管每種信息類型具有相關(guān)聯(lián)的屬性,但是不是特定信息類型
的所有數(shù)據(jù)項都具有用于該信息類型的所有可能屬性的值。在實例中,
如參考數(shù)字632所示出,提供者已經(jīng)指出每項價格150美元(例如與
每磅或每打相對)。數(shù)量"1"被指定。價格類型是提供者設(shè)置的價格
的類型(例如比價競賣(bestoffer)、可商議的、固定的等等)。對該 項來說,沒有為價格選項、品牌、條件、以及產(chǎn)品類型指定值。每個 屬性具有"文本"屬性類型。提供者可以自由地為個人數(shù)據(jù)項的屬性 添加值。提供者也能夠使用區(qū)域613來添加屬性。在該實施例中,提 供者能夠為其指定的屬性改變屬性類型。用戶可以自由地為個人數(shù)據(jù) 項的屬性添加值。用戶也能夠使用區(qū)域613來添加屬性。在此,提供 者能夠添加屬性名稱以及屬性值。
在該實施例中,提供者添加的屬性被添加到其當(dāng)前信息類型的所 有項。在此,例如, 一旦屬性被定義,提供者的類型為"產(chǎn)品"的所 有項都被賦予最近所添加的屬性613。通常單獨(dú)地添加每個項的值。某 些實施例也允許提供者為其指定的信息類型的所有項指定值。如上所 述,新的屬性逐漸變?yōu)閷傩院诵募强赡艿?。在其它實施例中,新?屬性不一定被添加到該信息類型的所有項。在其它實施例中,提供者 可以同意限定的一組提供者都將具有相同的屬性,以使得當(dāng)一個提供 者添加屬性時,在組中的其它提供者也將具有相同的屬性。
提供者能夠在區(qū)域618中提供與聯(lián)系方式信息有關(guān)的屬性值。提 供者能夠在區(qū)域619中提供與位置信息有關(guān)的屬性值。提供者能夠在 區(qū)域638中提供與支付方式有關(guān)的屬性值。
提供者能夠?qū)?biāo)簽添加到區(qū)域616中的項。在某些實施例中,信 息類型是默認(rèn)屬性名稱。在此,信息類型是"產(chǎn)品"并且其也是標(biāo)簽。 在該實施例中,提供者添加的標(biāo)簽不被添加到其當(dāng)前類型的所有項(除 了是該信息類型的標(biāo)簽以外)。如上所述,新的標(biāo)簽逐漸變?yōu)楹诵臉?biāo) 簽集是可能的。在其它實施例中,新的標(biāo)簽總是被添加到該信息類型 的所有項。圖6 (e)示出了圖6 (d)的用戶界面,該界面允許提供者査看并 且編輯630數(shù)據(jù)集合190中的數(shù)據(jù)項。在該實例中,聯(lián)系方式、支付 方式、以及位置都是產(chǎn)品信息類型的屬性。其是具有復(fù)合類型的屬性 (不只是整型或簡單字符串)。在該實例中,提供者能夠為信息類型 "產(chǎn)品"的項添加與聯(lián)系方式618有關(guān)的值。在此,提供者指定昵稱、 電話號碼、電子郵件地址(從提供者信息數(shù)據(jù)庫獲得的可能值,未示 出)中的一些或全部。在該實例中,提供者能夠為信息類型"產(chǎn)品" 的項添加與支付方式638有關(guān)的值。在此,提供者指定支付方式以及 注釋中的一些或全部。在該實例中,提供者能夠為信息類型"產(chǎn)品" 的項添加與位置619有關(guān)的值。在此,提供者指定文本注釋中的一些 或全部(例如"加州弗里蒙特")。在該實施例中,也存在復(fù)選框來 指示消費(fèi)者是否能夠從該位置獲得產(chǎn)品以及遞送半徑。
在該實例中,為每個項分別地輸入聯(lián)系方式、支付方式、以及位 置值。提供者添加的值不被添加到其當(dāng)前信息類型的所有項。在此, 例如,不是所有的提供者的信息類型為"產(chǎn)品"的項都被賦予在圖6 (e)中示出的聯(lián)系方式、支付方式、以及位置值。通常單獨(dú)地添加每 個項的值。某些實施例也允許提供者為其指定的信息類型的所有項指 定值。例如,對提供者的所有"產(chǎn)品"來說支付方式信息可以是相同 的。
促銷者可以通過圖6的用戶界面或經(jīng)由圖7以及8所示出的批量 上載方法來輸入項。
圖7是示出了用于注冊批量上載文件的用戶界面的實例截屏700。 批量上載文件被用來創(chuàng)建或添加到數(shù)據(jù)集合190。在該實例中,添加具 相同信息類型的項的平面文件(flatfile)。在該實例中,文件名稱712 是"本地商品目錄(local inventory)"。提供者選擇數(shù)據(jù)類型714,其 是預(yù)先定義的信息類型或自定義的信息類型。提供者為數(shù)據(jù)中的文本 字符串選擇語言716。當(dāng)提供者選擇按鈕"注冊批量上載文件"718時, 具有文件名稱712的文件被注冊,然后將允許提供者上載文件。提供 者能夠使用基于網(wǎng)頁的上載界面或使用另外的諸如FTP (文件傳送協(xié) 議)或RSS的機(jī)制來上載文件。
圖8 (a)示出了將被批量上載的制表符分隔的(tab-delimited)文 件的格式801。以下是批量上載文件的格式要求 -制表符分隔的純文本。
-文件首行是標(biāo)題-必須包含屬性名稱(在以下描述),由制表符分隔。
-每行一個項;每一屬性應(yīng)該由制表符分隔。
-在行末端沒有結(jié)尾制表符(trailing tab)。
-文件必須被保存為LATIN1或UTF-8編碼。ASCII也是可接受的, 因為其是LATINl的子集。
-鏈接以及圖像URL應(yīng)該被完全限定。即,其必須包括http:〃部 分,例如 http:〃www.example .com/image. gif
-制表符、回車、或換行符-如果這些中的任何一個在屬性中出現(xiàn), 將不能顯示該項。
-HTML標(biāo)記、注釋、以及換碼順序(escape sequence)-不會從批 量上載移除html,但是為了最佳表現(xiàn)(appearance),不應(yīng)該包括HTML。
在優(yōu)選實施例中,數(shù)據(jù)項是所上載的文件的一部分,該文件也包 含屬性。在另外的優(yōu)選實施例中,數(shù)據(jù)項以及屬性在單獨(dú)的文件中被 上載,構(gòu)建所述單獨(dú)文件以使得哪個屬性值屬于哪個數(shù)據(jù)項是清楚的。
圖8 (b)是提供者用來創(chuàng)建批量上載文件的實例方法的流程圖 800。提供者可以是人類,或是硬件或軟件。
要素802:在電子表格程序(spreadsheet program)中打開新的文

所描述的方法使用諸如微軟Excel的電子表格程序來創(chuàng)建批量上 載文件。使用類似微軟Excel的電子表格程序使創(chuàng)建批量上載并將其轉(zhuǎn) 換成適當(dāng)格式變得容易。能夠使用其它方法來產(chǎn)生適當(dāng)格式化的文件。
要素804:創(chuàng)建標(biāo)題行
作為一個實例,產(chǎn)品批量上載的標(biāo)題行可能看起來像圖8 (c)中 的行832。依照提供者想要提交的項的信息類型指定批量上載中的每一 列(參見圖7的714)。在電子表格832的首行輸入每一屬性的名稱, 提供者想要包括該名稱來描述其的項。這就是標(biāo)題行。標(biāo)題行的內(nèi)容 將依賴于所提交信息的信息類型、以及提供者是否發(fā)送了所定義的信 息類型、或其自己創(chuàng)建的信息類型。
自定義信息類型
批量上載能夠被用來提交任何信息類型。如果提供者發(fā)送其自己 的信息類型,其可以使用預(yù)先定義的屬性的任何組合。在優(yōu)選實施例 中,強(qiáng)烈地推薦提供者使用預(yù)先定義的屬性。提供者也能夠包括無限
多的自定義屬性提供者應(yīng)該挑選最能描述其的項的屬性集。 限定信息類型
提供者能夠發(fā)送用于限定信息類型之一的批量上載。強(qiáng)烈地推薦 提供者在其批量上載中包括信息類型。其允許將項更精確地匹配到搜 索査詢。提供者給出越多的信息,用戶就越容易找到項。在優(yōu)選實施 例中,提供者必須包括所推薦的屬性以使提供者的項能夠出現(xiàn)在已完 成的搜索的顯著部分中。
要素806:輸入項信息
在每行834上,提供者為其數(shù)據(jù)集合中的項輸入信息。每個信息 應(yīng)該反映其所在的列的標(biāo)題。(例如產(chǎn)品的價格應(yīng)該輸在"價格"標(biāo) 題下)。每一行僅包括一個項。參見圖8 (c)。
要素808:將批量上載轉(zhuǎn)換為制表符分隔的純文本 使用先前注冊的文件名(參見圖7)將電子表格轉(zhuǎn)換為制表符分 隔的文本(.txt)。在提供者已經(jīng)將所有項輸入進(jìn)電子表格后,其將電 子表格保存為制表符分隔的文本(.txt)格式。注冊的文件名能夠被再 次用于后續(xù)的上載。如果所上載的文件具有未注冊的名稱,則該文件
中的項將不會被添加到數(shù)據(jù)集合190。在優(yōu)選實施例中,最新的批量上 載必須至少每30天發(fā)送一次以確保項保留在數(shù)據(jù)集合190中。
要素810:上載文件
圖8 (d)示出了上載文件的用戶界面840。 要素812:檢査批量上載的錯誤
在提供者已經(jīng)發(fā)送批量上載后,其能夠通過登錄到中央網(wǎng)站査看 批量上載的狀態(tài)。如果列出結(jié)果為"成功",則不需要改變批量上載。 否則,提供者可以點(diǎn)擊批量上載的文件名來査看關(guān)于如何改正錯誤的
"f曰息。
在批量上載被上載后,文件將被處理以將項、屬性、以及標(biāo)簽添 加到數(shù)據(jù)集合190以及圖5的數(shù)據(jù)結(jié)構(gòu)。 一旦上載已經(jīng)被批準(zhǔn),具有 相同文件名的任何未來的更新都將被自動地處理。
盡管本發(fā)明已經(jīng)就幾個實施例在以上進(jìn)行了描述,但能夠在本發(fā) 明的范圍內(nèi)進(jìn)行各種修改。例如,某些優(yōu)選實施例包括檢測無效的或 "垃圾的"屬性和標(biāo)簽的方法和系統(tǒng)。不希望的是,提供者把屬性添 加到其數(shù)據(jù)中,而該屬性將允許數(shù)據(jù)項出現(xiàn)在搜索的頂端。 一些用來 避免此種屬性的方法包括黑名單、特定的柱狀圖分布等等。
在其它優(yōu)選實施例中,對顯示的頂端的屬性以及標(biāo)簽的確定不僅 是基于屬性關(guān)鍵類型元組(attribute key-type tuple)以及標(biāo)簽的普遍性, 還是基于值的分布(分布越離散越好,并且越傾斜越好。例如,對一個
屬性5個普遍的值比50個均勻分布的值更好。實例如果顏色是屬性并 且將紅色、藍(lán)色、以及綠色看作頂端的顏色,那么其將是憑以改善的
良好屬性。另一方面顏色具有100個值每個值出現(xiàn)三次不是那么有用的。
另一個優(yōu)選實施例基于使用屬性、項排名/每個要約的要約排名的 提供者的數(shù)量來執(zhí)行復(fù)雜的置信度分值。
另一個優(yōu)選實施例使用來自用戶的點(diǎn)擊信號來確定向用戶顯示哪
個屬性。通過被定義為普遍性排名的事物來對屬性以及標(biāo)簽評分
PR=在査詢結(jié)果中的普遍性*用于該特定査詢的0111 在另一個優(yōu)選實施例中,如果用戶總是將2個屬性約束用于特定 的査詢(例如90。/。的情況下Ipod總是受約束于價格以及位置,當(dāng)用戶 鍵入ipod時依據(jù)價格以及位置的系統(tǒng)約束將發(fā)生)示出已經(jīng)應(yīng)用于所 述查詢結(jié)果的約束。
因此,本發(fā)明的公開意在是說明性的,而不是限制在權(quán)利要求中 闡述的本發(fā)明的范圍。
權(quán)利要求
1.一種允許用戶在結(jié)構(gòu)化數(shù)據(jù)上執(zhí)行基于網(wǎng)絡(luò)的搜索的方法,包括允許所述用戶在搜索引擎中輸入查詢詞;根據(jù)所述查詢詞確定查詢結(jié)果;允許所述用戶指定與所述查詢結(jié)果中的至少一個數(shù)據(jù)項相關(guān)聯(lián)的一個或多個屬性,其中屬性是屬性名稱/屬性值對,所述屬性值具有屬性類型;以及根據(jù)所述所指定的屬性重新確定第二查詢結(jié)果。
2. 如權(quán)利要求l所述的方法,其中允許所述用戶輸入查詢詞包括 允許所述用戶在確定所述查詢結(jié)果之前指定屬性以及屬性值作為查詢 詞。
3. 如權(quán)利要求l所述的方法,進(jìn)一步包括在允許所述用戶指定所 述一個或多個屬性之前顯示所述査詢結(jié)果。
4. 如權(quán)利要求l所述的方法,進(jìn)一步包括在允許所述用戶指定所 述一個或多個屬性之前顯示多個屬性名稱。
5. 如權(quán)利要求l所述的方法,進(jìn)一步包括將對預(yù)定時段最普遍的 屬性添加到多個核心屬性。
6. 如權(quán)利要求5所述的方法,其中所述最普遍的屬性是對所述預(yù) 定時段對用戶執(zhí)行搜索最普遍的。
7. 如權(quán)利要求5所述的方法,其中所述最普遍的屬性是對所述預(yù) 定時段在所述査詢結(jié)果中具有最多數(shù)據(jù)項的屬性。
8. 如權(quán)利要求5所述的方法,其中所述最普遍的屬性是用戶在預(yù)定時段里最頻繁選擇的屬性。
9. 如權(quán)利要求l所述的方法,其中允許所述用戶指定與所述査詢結(jié)果中的至少一個數(shù)據(jù)項相關(guān)聯(lián)的一個或多個屬性包括確定與所述查詢結(jié)果中的數(shù)據(jù)項相關(guān)聯(lián)的最普遍的核心屬性名稱 集;以及僅顯示與所述查詢結(jié)果中的數(shù)據(jù)項相關(guān)聯(lián)的所述核心屬性值的名稱。
10. 如權(quán)利要求9所述的方法,其中確定最普遍的核心屬性集包括確定所述査詢結(jié)果中的q個最相關(guān)的結(jié)果;對于所述q個最相關(guān)的結(jié)果,確定與那些結(jié)果相關(guān)聯(lián)的m個最普 遍的屬性;以及對于n個最普遍的屬性,確定頂部的m個屬性/值對。
11. 如權(quán)利要求1所述的方法,其中所述搜索在基于網(wǎng)絡(luò)的搜索 引擎中執(zhí)行,在網(wǎng)絡(luò)上接收所述査詢。
12. —種允許用戶在結(jié)構(gòu)化數(shù)據(jù)上執(zhí)行基于網(wǎng)絡(luò)的搜索的方法,包括允許所述用戶在搜索引擎中輸入査詢詞; 根據(jù)所述査詢詞確定査詢結(jié)果;允許所述用戶指定與所述査詢結(jié)果中的至少一個數(shù)據(jù)項相關(guān)聯(lián)的 多個標(biāo)簽中的一個或多個,其中標(biāo)簽是無值標(biāo)記;以及根據(jù)所選擇的一個或多個標(biāo)簽重新確定第二査詢結(jié)果。
13. 如權(quán)利要求12所述的方法,進(jìn)一步包括在允許所述用戶指定 一個或多個標(biāo)簽之前顯示所述査詢結(jié)果以及所述多個標(biāo)簽。
14. 如權(quán)利要求12所述的方法,進(jìn)一步包括在允許所述用戶指定 一個或多個標(biāo)簽之前顯示所述多個標(biāo)簽。
15. 如權(quán)利要求12所述的方法,其中允許所述用戶指定一個或多 個標(biāo)簽包括允許所述用戶邏輯地組合標(biāo)簽。
16. 如權(quán)利要求12所述的方法,進(jìn)一步包括將對預(yù)定時段最普遍 的標(biāo)簽添加到多個核心標(biāo)簽。
17. 如權(quán)利要求12所述的方法,其中所述搜索在基于網(wǎng)絡(luò)的搜索 引擎中執(zhí)行,在網(wǎng)絡(luò)上接收所述査詢。
18. —種允許用戶在結(jié)構(gòu)化數(shù)據(jù)上執(zhí)行基于網(wǎng)絡(luò)的搜索的設(shè)備,包括允許所述用戶在搜索引擎中輸入査詢詞的裝置; 根據(jù)所述査詢詞確定査詢結(jié)果的裝置;允許所述用戶指定與所述查詢結(jié)果中的至少一個數(shù)據(jù)項相關(guān)聯(lián)的 一個或多個屬性的裝置,其中屬性是屬性名稱/屬性值對,所述屬性值 具有屬性類型;以及根據(jù)所指定的屬性重新確定第二査詢結(jié)果的裝置。
19. 一種允許用戶在結(jié)構(gòu)化數(shù)據(jù)上執(zhí)行基于網(wǎng)絡(luò)的搜索的設(shè)備,包括搜索引擎,所述搜索引擎允許所述用戶在搜索引擎中輸入查詢詞; 用戶界面,所述用戶界面允許所述用戶根據(jù)所述査詢詞指定與第 一査詢結(jié)果中的至少一個數(shù)據(jù)項相關(guān)聯(lián)的一個或多個屬性,其中屬性 是屬性名稱/屬性值對,所述屬性值具有屬性類型;以及査詢引擎,所述查詢引擎根據(jù)所述査詢詞確定所述第一查詢結(jié)果, 并且隨后根據(jù)所指定的屬性重新確定第二査詢結(jié)果。
20. —種具有在計算機(jī)可讀介質(zhì)上的指令的計算機(jī)程序產(chǎn)品,所述指令可以促使數(shù)據(jù)處理系統(tǒng)執(zhí)行方法,該方法包括 允許所述用戶在搜索引擎中輸入査詢詞; 根據(jù)所述查詢詞確定查詢結(jié)果;允許所述用戶指定與所述査詢結(jié)果中的至少一個數(shù)據(jù)項相關(guān)聯(lián)的 一個或多個屬性,其中屬性是屬性名稱/屬性值對,所述屬性值具有屬 性類型;以及根據(jù)所指定的屬性重新確定第二查詢結(jié)果。
全文摘要
通過指定用來進(jìn)一步過濾查詢結(jié)果的標(biāo)簽或?qū)傩灾担脩裟軌蚋纳茖Y(jié)構(gòu)化數(shù)據(jù)的搜索。
文檔編號G06F7/00GK101341464SQ200580052380
公開日2009年1月7日 申請日期2005年12月13日 優(yōu)先權(quán)日2005年10月23日
發(fā)明者喬納森·布倫斯曼, 大衛(wèi)·卡萊, 寧·莫斯貝格爾, 賓杜·雷迪, 戈拉夫·拉溫德拉·布哈亞, 普涅特·阿加瓦爾, 珍妮弗·L·克森斯基, 薩拉·西拉杰丁, 阿爾文德·孫達(dá)瑞拉簡 申請人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
庆安县| 雷波县| 通河县| 明水县| 德阳市| 成都市| 全州县| 磴口县| 翁牛特旗| 秦皇岛市| 烟台市| 紫云| 得荣县| 广南县| 会东县| 龙山县| 淳安县| 房山区| 嘉禾县| 固始县| 德格县| 如皋市| 云浮市| 朝阳市| 房产| 韶关市| 大竹县| 宁阳县| 澄江县| 东源县| 突泉县| 大兴区| 尤溪县| 大石桥市| 辽中县| 葫芦岛市| 张北县| 罗城| 通道| 临泉县| 甘孜县|