專利名稱:一種數(shù)據(jù)源的選擇方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)源的選擇方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展和壯大,網(wǎng)絡(luò)上可利用的信息資源的數(shù)量越來越大,類型 也越來越豐富,面對(duì)數(shù)量龐大且無組織的信息資源,如何更好的幫助用戶快速準(zhǔn)確的查詢 到所需要的信息就成為信息檢索領(lǐng)域一個(gè)非常重要的研究課題。搜索引擎的出現(xiàn)極大地提 高了人們定位和收集信息的能力,搜索引擎通過收集眾多網(wǎng)絡(luò)站點(diǎn)的頁面來提供全局性網(wǎng) 絡(luò)資源控制與檢索機(jī)制,以幫助用戶方便快捷地找到所需的信息資源。隨著信息資源的急劇膨脹,傳統(tǒng)的信息資源無法提供某一關(guān)鍵詞對(duì)應(yīng)的更深入更 專業(yè)的信息。包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源的出現(xiàn)緩解了上述問題,它可以針對(duì)某一領(lǐng)域或某 一主題等提供更專業(yè)、更深入更全面的信息數(shù)據(jù),例如餐飲信息“湘江老廚,**大街*號(hào),電 話***,剁椒魚頭......”等。然而,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),在一個(gè)整合的搜索平臺(tái)接入多個(gè)數(shù)據(jù) 源,當(dāng)搜索平臺(tái)接收到用戶輸入的查詢信息時(shí),由于接入的數(shù)據(jù)源眾多,而無法判斷哪個(gè)數(shù) 據(jù)源能向用戶提供更匹配的信息資源。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種數(shù)據(jù)源的選擇方法及系統(tǒng),能夠?yàn)橛脩暨x擇可以提供更匹 配信息資源的數(shù)據(jù)源。為了解決上述技術(shù)問題,本發(fā)明實(shí)施例的技術(shù)方案如下本發(fā)明實(shí)施例提供一種數(shù)據(jù)源的選擇方法,所述方法包括接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞;確定所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性,其中,所述屬性索引項(xiàng)為數(shù)據(jù) 源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng);計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相似度;選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足所述查詢請(qǐng)求的 數(shù)據(jù)源。本發(fā)明實(shí)施例還提供一種數(shù)據(jù)源的選擇系統(tǒng),其特征在于,包括屬性創(chuàng)建單元,用于建立數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng);請(qǐng)求接收單元,用于接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞;屬性確定單元,用于確定所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性;計(jì)算單元,用于計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜 合相似度;選擇單元,用于選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足所 述查詢請(qǐng)求的數(shù)據(jù)源。
本發(fā)明實(shí)施例通過創(chuàng)建各數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng),然后根據(jù)查詢關(guān)鍵 詞和對(duì)應(yīng)屬性獲得綜合相似度,進(jìn)而實(shí)現(xiàn)了對(duì)結(jié)構(gòu)化數(shù)據(jù)源的準(zhǔn)確選擇,從而可以為用戶 提供更加匹配的信息,滿足了用戶的查詢需求。
圖1是本發(fā)明實(shí)施例一種數(shù)據(jù)源的選擇方法流程圖;圖2是本發(fā)明實(shí)施例一的方法流程圖;圖3是本發(fā)明實(shí)施例二的方法流程圖;圖4是本發(fā)明實(shí)施例三的方法流程圖;圖5是本發(fā)明實(shí)施例四的方法流程圖;圖6是本發(fā)明實(shí)施例一種數(shù)據(jù)源的選擇系統(tǒng)的結(jié)構(gòu)示意圖;圖7是本發(fā)明實(shí)施例另一種數(shù)據(jù)源的選擇系統(tǒng)的結(jié)構(gòu)示意圖;圖8是本發(fā)明實(shí)施例另一種數(shù)據(jù)源的選擇系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本領(lǐng)域技術(shù)人員能進(jìn)一步了解本發(fā)明的特征及技術(shù)內(nèi)容,請(qǐng)參閱以下有關(guān) 本發(fā)明的詳細(xì)說明與附圖,附圖僅提供參考與說明,并非用來限制本發(fā)明。下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案進(jìn)行描述。參照?qǐng)D1,為本發(fā)明實(shí)施例一種數(shù)據(jù)源的選擇方法流程圖。該選擇方法可以包括步驟101,建立數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng)。在本實(shí)施例中,對(duì)于各數(shù)據(jù)源中的結(jié)構(gòu)化數(shù)據(jù)按照屬性分別根據(jù)屬性值構(gòu)建索 引,按屬性建立屬性值的文檔頻率(df)和詞頻(tf)值,并把與各屬性對(duì)應(yīng)的各數(shù)據(jù)源中的 屬性值作為索引信息存在結(jié)構(gòu)化索引庫中。例如,建立餐館信息的結(jié)構(gòu)化數(shù)據(jù)包括餐館名稱、地址、聯(lián)系電話、菜譜、菜系等屬 性項(xiàng)。各屬性索引項(xiàng)中除了包括各數(shù)據(jù)源中對(duì)應(yīng)各屬性的屬性值之外,還包括屬性值對(duì)應(yīng)
的tf和df,如餐館名稱——“湘江老廚(tfl,dfl)、麥當(dāng)勞(tf2,df2)......”其中,“餐
館名稱”為屬性,“湘江老廚”、“麥當(dāng)勞”為該數(shù)據(jù)源中的對(duì)應(yīng)屬性值,(tfl,dfl)、(tf2,df2) 分別為屬性值“湘江老廚”、“麥當(dāng)勞”的詞頻值和文檔頻率值。本步驟首先創(chuàng)建各數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng),以便于后續(xù)可以根據(jù)查詢 關(guān)鍵詞和屬性、屬性值對(duì)數(shù)據(jù)源進(jìn)行選擇,從而可以為用戶提供更加匹配的信息。該步驟可 以預(yù)先建立完成,在每次選擇數(shù)據(jù)源時(shí)使用,而無需每次選擇時(shí)都重復(fù)該建立步驟。步驟102,接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞。該查詢請(qǐng)求中包含用戶指定的關(guān)鍵詞,該關(guān)鍵詞可能為一個(gè)也可能為至少兩個(gè), 另外該請(qǐng)求中也還可以包含其它信息例如用戶指定的該關(guān)鍵詞對(duì)應(yīng)的屬性等,也還可以包 括關(guān)鍵詞的邏輯關(guān)系。步驟103,確定所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性。該確定過程可以根據(jù)預(yù)存在選擇系統(tǒng)中的關(guān)鍵詞與對(duì)應(yīng)屬性的列表進(jìn)行確定等 方式,系統(tǒng)中可以預(yù)先存儲(chǔ)一個(gè)領(lǐng)域知識(shí)庫或分類詞庫,可以根據(jù)該知識(shí)庫確定關(guān)鍵詞對(duì)屬的屬性,當(dāng)然也可以直接根據(jù)用戶的指定信息進(jìn)行,例如,用戶在查詢請(qǐng)求中直接指定了 關(guān)鍵詞的屬性或相關(guān)屬性。其中,一個(gè)關(guān)鍵詞可能對(duì)應(yīng)多種屬性,多個(gè)關(guān)鍵詞也有可能對(duì)應(yīng) 相同的屬性,例如“剁椒魚頭”屬于招牌菜和菜單兩個(gè)屬性。步驟104,計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相 似度。該綜合相似度的確定可以根據(jù)屬性值與關(guān)鍵詞之間最相似值的相似度計(jì)算,也可 以根據(jù)屬性值中包含關(guān)鍵詞的記錄數(shù)進(jìn)行計(jì)算,或結(jié)合上述兩參數(shù)進(jìn)行計(jì)算等。具體計(jì)算 方法請(qǐng)參照后續(xù)實(shí)施例的描述。步驟105,選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足所述查 詢請(qǐng)求的數(shù)據(jù)源。在獲得綜合相似度后,可以根據(jù)該值對(duì)屬性值對(duì)應(yīng)數(shù)據(jù)源進(jìn)行排序,然后根據(jù)預(yù) 先設(shè)定的條件進(jìn)行選擇,如根據(jù)用戶的查詢精度要求進(jìn)行選擇等。該數(shù)據(jù)源可以包括垂直 搜索引擎,Deep Web和Web Database數(shù)據(jù)庫等。本發(fā)明實(shí)施例通過創(chuàng)建各數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng),然后根據(jù)查詢關(guān)鍵 詞和對(duì)應(yīng)屬性獲得綜合相似度,進(jìn)而實(shí)現(xiàn)了對(duì)結(jié)構(gòu)化數(shù)據(jù)源的準(zhǔn)確選擇,從而可以為用戶 提供更加匹配的信息,滿足了用戶的查詢需求。下面通過具體實(shí)施例對(duì)本發(fā)明方法進(jìn)行詳細(xì)說明,以下實(shí)施例仍以餐飲信息的查 詢?yōu)槔M(jìn)行說明。首先,在系統(tǒng)接收查詢請(qǐng)求之前,先就餐飲信息的結(jié)構(gòu)化數(shù)據(jù)建立屬性索 引項(xiàng),用Tl表示餐館名稱屬性、T2表示電話號(hào)碼屬性、T3表示地址屬性、T4表示菜系屬性、 T5表示人均消費(fèi)屬性、T6表示招牌菜屬性、T7表示菜單屬性、T8表示基本介紹屬性和T9表 示標(biāo)簽屬性,屬性索引項(xiàng)中,還包含各屬性值的df和tf值。參照?qǐng)D2,為本發(fā)明實(shí)施例一的方法流程圖。對(duì)于單關(guān)鍵詞單屬性情況的數(shù)據(jù)源選擇,該方法可以包括以下步驟步驟201,接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞“湘江老廚”。在本實(shí)施例中,用戶提交的關(guān)鍵詞為單關(guān)鍵詞。步驟202,確定關(guān)鍵詞“湘江老廚”在屬性索引項(xiàng)中的對(duì)應(yīng)屬性。系統(tǒng)確定關(guān)鍵詞“湘江老廚”對(duì)應(yīng)的屬性為餐館名稱屬性Tl,也即需要在餐館名稱 屬性T1的索引項(xiàng)中查詢,本實(shí)施例中可以采用向量空間查詢。步驟203,計(jì)算關(guān)鍵詞“湘江老廚”與各個(gè)數(shù)據(jù)源中餐館名稱Tl的屬性值之間的相 似度。本實(shí)施例中可以根據(jù)向量空間查詢對(duì)應(yīng)的計(jì)算方法將各數(shù)據(jù)源中關(guān)鍵詞對(duì)應(yīng)屬 性的屬性值與關(guān)鍵詞的最相似值的相似度作為綜合相似度。步驟204,選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足查詢請(qǐng) 求的數(shù)據(jù)源。本實(shí)施例中,根據(jù)相似度的結(jié)果,從多個(gè)數(shù)據(jù)源中選擇相似度最高的數(shù)據(jù)源。本發(fā)明實(shí)施例通過創(chuàng)建各數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng),然后根據(jù)單關(guān)鍵詞 和對(duì)應(yīng)單屬性的屬性值獲得相似度,進(jìn)而實(shí)現(xiàn)了對(duì)結(jié)構(gòu)化數(shù)據(jù)源的準(zhǔn)確選擇,從而可以為 用戶提供更加匹配的信息,滿足了用戶的查詢需求。參照?qǐng)D3,為本發(fā)明實(shí)施例二的方法流程圖。
對(duì)于多個(gè)關(guān)鍵詞單屬性情況的數(shù)據(jù)源選擇,該方法可以包括以下步驟步驟301,接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞“湘江老廚AND萬科”。在本實(shí)施例中,用戶提交的關(guān)鍵詞為兩個(gè)——“湘江老廚”和“萬科”。步驟302,確定關(guān)鍵詞間的邏輯關(guān)系。當(dāng)查詢關(guān)鍵詞為至少兩個(gè)時(shí),在確定關(guān)鍵詞在屬性索引項(xiàng)中的對(duì)應(yīng)屬性之前,可 以先確定關(guān)鍵詞間的邏輯關(guān)系,該邏輯關(guān)系的確定可以依據(jù)系統(tǒng)中預(yù)設(shè)或默認(rèn)的規(guī)則,例 如系統(tǒng)中默認(rèn)的關(guān)鍵詞之間的邏輯關(guān)系為AND查詢。其中,關(guān)鍵詞之間的邏輯關(guān)系還可以 有多種,例如向量空間查詢、OR查詢、NOT查詢、精確匹配、子串匹配、近似查詢等。向量空間查詢,是指結(jié)果是基于他們和查詢的相似度來評(píng)價(jià)的,返回的結(jié)果中至 少包括一個(gè)查詢關(guān)鍵詞,但是包括關(guān)鍵詞多的結(jié)果相似度高。AND查詢,是指返回的結(jié)果中同時(shí)包括所有的關(guān)鍵詞。OR查詢,指的是返回的結(jié)果中包含部分關(guān)鍵詞。NOT查詢,就是布爾NOT查詢,不包括制定的關(guān)鍵詞。精確匹配,指的是完全匹配,多個(gè)關(guān)鍵詞有序且情況,如“華為技術(shù)”做為關(guān)鍵詞的 精確匹配的結(jié)果,而不是結(jié)果中只包括“華為”或“技術(shù)”或者兩者分開的情況。子串匹配,類似于SQL查詢中的”*”,”? ”或” %”操作,通過特定的字符指定子串匹配。近似查詢,指的是查詢關(guān)鍵詞和每個(gè)文本屬性都相關(guān)。根據(jù)上步驟可知,“湘江老廚”和“萬科”之間的邏輯關(guān)系為AND查詢,也即返回的 結(jié)果中同時(shí)包括所有的關(guān)鍵詞。步驟303,確定關(guān)鍵詞“湘江老廚”和“萬科”在屬性索引項(xiàng)中的對(duì)應(yīng)屬性。系統(tǒng)確定關(guān)鍵詞“湘江老廚”和“萬科”對(duì)應(yīng)的屬性為餐館名稱屬性Tl,也即需要 在餐館名稱屬性Tl的索引項(xiàng)中進(jìn)行AND查詢。步驟304,計(jì)算對(duì)應(yīng)屬性的屬性值中包含關(guān)鍵詞“湘江老廚”和“萬科”的記錄數(shù)作 為綜合相似度。對(duì)于AND查詢的計(jì)算方法,是指對(duì)于滿足查詢條件的屬性A,使用關(guān)鍵詞T出現(xiàn)在 屬性A中概率使用df (T)/N來表示,其中N為數(shù)據(jù)源的中記錄數(shù)。對(duì)于相互獨(dú)立的查詢關(guān) 鍵詞Tl,...,Tm,同時(shí)包含在屬性值A(chǔ)的概率可以使用df (Tl)*. · · *df(Tm)/Nm估計(jì)。對(duì)于OR查詢的計(jì)算方法,是指對(duì)于關(guān)鍵詞T查詢?cè)趯傩灾礎(chǔ)中的概率P (T),使用 P(T) =df(T)/N來估計(jì)。對(duì)于相互獨(dú)立的查詢關(guān)鍵詞Tl,...,Tm,至少一個(gè)關(guān)鍵詞包含在 屬性值A(chǔ)中的概率使用
權(quán)利要求
1.一種數(shù)據(jù)源的選擇方法,其特征在于,建立數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng),所述 方法包括接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞;確定所述關(guān)鍵詞在屬性索引項(xiàng)中的對(duì)應(yīng)屬性,其中,所述屬性索引項(xiàng)為數(shù)據(jù)源中結(jié)構(gòu) 化數(shù)據(jù)的屬性索引項(xiàng);計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相似度; 選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足所述查詢請(qǐng)求的數(shù)據(jù)源。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述關(guān)鍵詞至少為兩個(gè),則在所述確定 所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性之前,還包括確定所述關(guān)鍵詞間的邏輯關(guān)系;所述計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相似度,具體為根據(jù)與所述邏輯關(guān)系對(duì)應(yīng)的計(jì)算方法計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值 與所述關(guān)鍵詞的綜合相似度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述關(guān)鍵詞間的邏輯關(guān)系包括 向量空間查詢、AND查詢、OR查詢、NOT查詢、精確匹配、子串匹配、近似查詢。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì) 應(yīng)屬性為單屬性,則所述計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜 合相似度,包括計(jì)算所述屬性值中包含所述關(guān)鍵詞的記錄數(shù),作為所述綜合相似度;或, 計(jì)算所述屬性值與所述關(guān)鍵詞的最相似值的相似度,作為所述綜合相似度。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì) 應(yīng)屬性為至少兩個(gè)屬性,則所述計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵 詞的綜合相似度,包括確定所述各屬性之間的關(guān)系;根據(jù)所述各屬性之間的關(guān)系確定組合類型;根據(jù)所述組合類型對(duì)應(yīng)的計(jì)算方法計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與 所述關(guān)鍵詞的綜合相似度。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,若所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì) 應(yīng)屬性為兩個(gè),則所述各屬性之間的關(guān)系包括兩個(gè)屬性相互獨(dú)立但屬于不同的主題;兩個(gè)屬性屬于不同的主題但是不相互獨(dú)立;兩 個(gè)屬性互不包含但是屬同一主題;其中一個(gè)屬性是另一屬性的一部分。
7.一種數(shù)據(jù)源的選擇系統(tǒng),其特征在于,包括屬性創(chuàng)建單元,用于建立數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng); 請(qǐng)求接收單元,用于接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞; 屬性確定單元,用于確定所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性; 計(jì)算單元,用于計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相 似度;選擇單元,用于選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足所述查 詢請(qǐng)求的數(shù)據(jù)源。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,關(guān)系確定單元,用于當(dāng)所述關(guān)鍵詞至少為兩個(gè)時(shí),在所述屬性確定單元確定所述關(guān)鍵 詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性之前,確定所述關(guān)鍵詞間的邏輯關(guān)系;所述計(jì)算單元,具體用于根據(jù)與所述邏輯關(guān)系對(duì)應(yīng)的計(jì)算公式計(jì)算所述屬性在各所述 數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相似度。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述計(jì)算單元,具體用于當(dāng)所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性為單屬性時(shí), 計(jì)算所述屬性值中包含所述關(guān)鍵詞的記錄數(shù),作為所述綜合相似度;或者,計(jì)算所述屬性值 與所述關(guān)鍵詞的最相似值的相似度,作為所述綜合相似度。
10.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,當(dāng)所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì) 應(yīng)屬性為至少兩個(gè)屬性時(shí),所述計(jì)算單元包括第一子單元,用于確定所述各屬性之間的關(guān)系;第二子單元,用于根據(jù)所述各屬性之間的關(guān)系確定組合類型;計(jì)算子單元,用于根據(jù)所述組合類型對(duì)應(yīng)的計(jì)算方法計(jì)算所述屬性在各所述數(shù)據(jù)源中 對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相似度。
全文摘要
本發(fā)明實(shí)施例提供一種數(shù)據(jù)源的選擇方法及系統(tǒng)。一種數(shù)據(jù)源的選擇方法,所述方法包括接收查詢請(qǐng)求并獲取請(qǐng)求中的關(guān)鍵詞;確定所述關(guān)鍵詞在所述屬性索引項(xiàng)中的對(duì)應(yīng)屬性,其中,所述屬性索引項(xiàng)為數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng);計(jì)算所述屬性在各所述數(shù)據(jù)源中對(duì)應(yīng)的屬性值與所述關(guān)鍵詞的綜合相似度;選擇綜合相似度滿足預(yù)置條件的屬性值對(duì)應(yīng)的數(shù)據(jù)源作為滿足所述查詢請(qǐng)求的數(shù)據(jù)源。本發(fā)明實(shí)施例通過創(chuàng)建各數(shù)據(jù)源中結(jié)構(gòu)化數(shù)據(jù)的屬性索引項(xiàng),然后根據(jù)查詢關(guān)鍵詞和對(duì)應(yīng)屬性獲得綜合相似度,進(jìn)而實(shí)現(xiàn)了對(duì)結(jié)構(gòu)化數(shù)據(jù)源的準(zhǔn)確選擇,從而可以為用戶提供更加匹配的信息,滿足了用戶的查詢需求。
文檔編號(hào)G06F17/30GK102135974SQ20101025212
公開日2011年7月27日 申請(qǐng)日期2010年8月6日 優(yōu)先權(quán)日2010年8月6日
發(fā)明者孟衛(wèi)一, 胡漢強(qiáng), 賈江濤, 顧翀 申請(qǐng)人:華為軟件技術(shù)有限公司