欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法

文檔序號(hào):6607505閱讀:175來(lái)源:國(guó)知局
專利名稱:用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于網(wǎng)絡(luò)的數(shù)據(jù)源選擇方法,具體涉及一種由網(wǎng)絡(luò)查詢接口連接 的深層網(wǎng)的數(shù)據(jù)源選擇方法,用于深層網(wǎng)數(shù)據(jù)源的集成服務(wù)。
背景技術(shù)
隨著網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的廣泛應(yīng)用,網(wǎng)絡(luò)正在加速的“深化”?;ヂ?lián)網(wǎng)上有大量頁(yè)面是由 后臺(tái)數(shù)據(jù)庫(kù)動(dòng)態(tài)產(chǎn)生,這部分信息不能直接通過(guò)靜態(tài)鏈接獲取,只能通過(guò)填寫表單提交查 詢來(lái)獲取,由于傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)(Crawler)不具有填寫表單的能力,爬不出這些頁(yè)面。因 此,現(xiàn)有的搜索引擎搜索不出這部分頁(yè)面信息,從而導(dǎo)致這部分信息對(duì)用戶是隱藏、不可見(jiàn) 的,被稱為深層網(wǎng)(De印Web,又稱為Invisible Web, Hidden Web)。Deep Web是一個(gè)與 Surface Web相對(duì)應(yīng)的概念,最初由Dr. Jill Ellsworth于1994年提出,指那些由普通搜索 引擎難以發(fā)現(xiàn)其信息內(nèi)容的Web頁(yè)面。De印Web信息一般存儲(chǔ)在數(shù)據(jù)庫(kù)中,需要通過(guò)查詢 接口提交查詢進(jìn)行訪問(wèn),和靜態(tài)頁(yè)面相比通常信息量更大,主題更專一,信息質(zhì)量更好,信 息結(jié)構(gòu)化更好,增長(zhǎng)速度更快。研究表明,De印Web信息是Surface Web信息的500倍,有 近450,000個(gè)De印Web站點(diǎn)。實(shí)現(xiàn)大規(guī)模DeepWeb數(shù)據(jù)集成是方便用戶使用De印Web信 息的一個(gè)有效途徑。大規(guī)模De印Web集成系統(tǒng)主要包含1)數(shù)據(jù)源發(fā)現(xiàn)(De印Web Discovery) ;2) 查詢接口抽取(Query Interface Extraction) ;3)數(shù)據(jù)源選擇(Source selection) ;4)查 詢轉(zhuǎn)換(Query Transfer) ;5)結(jié)果合成(Result Merging)這五個(gè)關(guān)鍵部分。Deep Web數(shù)據(jù)源包括多種主題的數(shù)據(jù)資源,而且在某個(gè)主題上De印Web數(shù)據(jù)源 也有許多,這些數(shù)據(jù)源屬于同一主題,但數(shù)據(jù)質(zhì)量上差別很大有些是過(guò)時(shí)的、不準(zhǔn)確或不 一致的,而有些是更新及時(shí)、準(zhǔn)確一致的。并且這些數(shù)據(jù)源包含的數(shù)據(jù)量大小不一,互相覆 蓋,有的覆蓋大,有的甚至完全包含其它的數(shù)據(jù)源。以商業(yè)和教育這兩個(gè)領(lǐng)域?yàn)槔?,根?jù) Complete Planet的統(tǒng)計(jì),存在上千個(gè)Web數(shù)據(jù)庫(kù),由于Complete Planet只是搜集了整個(gè) Deep Web數(shù)據(jù)源中大約7%的Web數(shù)據(jù)庫(kù),所以在現(xiàn)實(shí)中還要遠(yuǎn)遠(yuǎn)大于這個(gè)數(shù)字(Bergman Μ.K. The Deep Web :Surfacing Hidden Value. In Journal of Electronic Publishing, 2002,7(1) =8912-8914)。Kabra G等提出了一種選擇那些和用戶查詢請(qǐng)求內(nèi)容最為接近的 (Top-k)k個(gè)De印 Web數(shù)據(jù)源進(jìn)行查詢的方法(Kabra G,Li CK,Chang KCC. Query routing Finding Ways in the Maze of the Deep Web. In Proc. of the ICDE,2005,64—73)。上述 方法只處理查詢接口簡(jiǎn)單屬性關(guān)系,而且是通過(guò)關(guān)鍵詞進(jìn)行查詢表單,這些方法沒(méi)有考慮 到查詢接口各屬性間語(yǔ)義關(guān)系,而且進(jìn)行相應(yīng)數(shù)據(jù)源選擇過(guò)程中數(shù)據(jù)源選擇結(jié)果的準(zhǔn)確率 低,而且返回?cái)?shù)據(jù)源結(jié)果不全等。隨著Web數(shù)據(jù)庫(kù)數(shù)量的不斷增長(zhǎng),使得Deep Web數(shù)據(jù)源 的選擇成為一個(gè)亟待解決的關(guān)鍵問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供一種高效、準(zhǔn)確的深層網(wǎng)數(shù)據(jù)源選擇方法,從而提高深層網(wǎng)數(shù)據(jù)源的選擇效率和準(zhǔn)確度。數(shù)據(jù)源選擇是指在給定Deep Web數(shù)據(jù)源查詢接口集和某個(gè)用戶查詢的條件下,選 擇與用戶查詢相關(guān)度大于某一設(shè)定的閾值的查詢接口集或者選擇相關(guān)度值較大的前k個(gè) 數(shù)據(jù)源的查詢接口集的過(guò)程。數(shù)據(jù)源選擇主要是為了選擇覆蓋程度高,重疊程度小的數(shù)據(jù) 庫(kù),避免出現(xiàn)大量的冗余和無(wú)關(guān)信息;用戶希望找到相應(yīng)的高質(zhì)量的查詢結(jié)果,又希望能得 到相同結(jié)果之間的對(duì)比情況。現(xiàn)有數(shù)據(jù)源選擇方法大多是直接計(jì)算用戶查詢與查詢接口的 相關(guān)度來(lái)進(jìn)行關(guān)鍵詞匹配,由于以下三方面原因?qū)е率褂矛F(xiàn)有方法時(shí),用戶查詢通常是不 準(zhǔn)確的,并且具有較高的冗余度,同時(shí)會(huì)發(fā)現(xiàn)一些不相關(guān)的數(shù)據(jù)源首先是由于同一個(gè)領(lǐng)域中存在大量可訪問(wèn)De印Web資源,訪問(wèn)Internet上大量 的Deep Web是個(gè)費(fèi)時(shí)又費(fèi)力的過(guò)程;其次各數(shù)據(jù)庫(kù)的數(shù)據(jù)質(zhì)量相差很大,有些是過(guò)時(shí)的、 不準(zhǔn)確或不一致的,而有些是更新及時(shí)、準(zhǔn)確一致的,并不是每一個(gè)Deep Web都能夠滿足一 個(gè)特定的查詢,顯然任何一個(gè)領(lǐng)域的Deep Web不可能包含該領(lǐng)域中所有的信息,因此也不 可能滿足這個(gè)領(lǐng)域的任意查詢;最后就是一個(gè)領(lǐng)域中大部分的Deep Web數(shù)據(jù)源包含的數(shù) 據(jù)量大小不一,互相覆蓋,有的覆蓋大,甚至完全包含其它的數(shù)據(jù)源;而且它們之間還存在 著冗余的信息,而對(duì)于一個(gè)查詢而言,訪問(wèn)Deep Web次數(shù)越多,返回信息的冗余度也會(huì)越 大,極大地增加冗余信息的處理難度?;谝陨戏治隹芍贒e印Web數(shù)據(jù)源的選擇這一步要達(dá)到的目標(biāo)是如何從一個(gè) 領(lǐng)域中大量的Deep Web數(shù)據(jù)源中選擇出合適的子集,減少訪問(wèn)Deep Web的數(shù)量和使得查 詢結(jié)果中冗余度足夠小,而且查詢代價(jià)更低。為此,我們利用查詢接口語(yǔ)義特征,基于領(lǐng)域本體將用戶查詢進(jìn)行了擴(kuò)展,這樣, 所選擇的查詢接口集更能滿足用戶的查詢要求。具體的說(shuō),本發(fā)明技術(shù)方案如下一種用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法,其特征在于,包括以下步驟步驟A、對(duì)查詢接口進(jìn)行解析;步驟B、構(gòu)建本體庫(kù)并通過(guò)本體庫(kù)把相應(yīng)查詢信息轉(zhuǎn)化為本體信息;步驟C、計(jì)算本體信息與各數(shù)據(jù)源的相關(guān)度,根據(jù)相關(guān)度選擇滿足預(yù)先設(shè)定的條件 的數(shù)據(jù)源;對(duì)于給定目標(biāo)查詢接口對(duì)象DWIi和查詢本體Qi,相關(guān)度按照如下公式計(jì)算其中,R(DffIi, Qi)表示查詢本體Qi與查詢接口對(duì)象DWIi的相關(guān)度,m為查詢接口 中的對(duì)象個(gè)數(shù)。本體是一種具有更多語(yǔ)義和結(jié)構(gòu)信息的復(fù)雜模型,上述步驟B中的本體庫(kù)可以使 用現(xiàn)有的公用本體庫(kù);也可以通過(guò)采集現(xiàn)有的公用本體庫(kù),并對(duì)這些本體庫(kù)進(jìn)行擴(kuò)充,得到 新的本體庫(kù);而本發(fā)明采用后者。這類本體學(xué)習(xí)的主要任務(wù)就是分析關(guān)系模型中蘊(yùn)涵的語(yǔ)義信息,并將其映射到本 體中的相應(yīng)部分。其次,查詢接口和數(shù)據(jù)源結(jié)果頁(yè)面通常包含豐富的信息如概念、實(shí)例以及 領(lǐng)域有關(guān)的概念之間的關(guān)系,查詢接口以HTML表單格式出現(xiàn),在無(wú)法獲得數(shù)據(jù)庫(kù)模式的情 況下,可以通過(guò)分析HTML表單的結(jié)構(gòu)和數(shù)據(jù)來(lái)獲取Web數(shù)據(jù)庫(kù)中的語(yǔ)義,從而構(gòu)建本體。根
據(jù)以上分析,可以通過(guò)以下各步驟構(gòu)建本發(fā)明的本體庫(kù)步驟Bi、通過(guò)現(xiàn)有本體庫(kù)分析HTML表單模式結(jié)構(gòu)來(lái)獲取查詢接口的語(yǔ)義,構(gòu)建相 應(yīng)本體庫(kù)中的類;步驟B2、從查詢接口和結(jié)果頁(yè)面抽取概念和實(shí)例,提取現(xiàn)有本體庫(kù)中類的層次關(guān) 系和函數(shù)關(guān)系;步驟B3、從某個(gè)主題的多個(gè)數(shù)據(jù)源中提取上述步驟B2中得到的本體類之間關(guān)系, 然后推理映射不同的關(guān)系,最后合并成一個(gè)更高層的領(lǐng)域本體;針對(duì)每個(gè)本體庫(kù)中的每個(gè) 類,構(gòu)建與該類對(duì)應(yīng)的關(guān)鍵詞集合,組成本體庫(kù)的詞匯層。為了進(jìn)一步提高數(shù)據(jù)源選擇的準(zhǔn)確性,減少信息冗余,降低查詢代價(jià);本發(fā)明又在 上述技術(shù)方案的基礎(chǔ)上引入了數(shù)據(jù)源質(zhì)量得分的概念,通過(guò)數(shù)據(jù)源的質(zhì)量得分來(lái)度量數(shù)據(jù) 源的質(zhì)量,選擇質(zhì)量得分較高的若干數(shù)據(jù)源而放棄其他質(zhì)量較低的數(shù)據(jù)源,從而大大降低 信息冗余,提高了查詢的準(zhǔn)確性。具體而言,就是在上述步驟C之后繼續(xù)執(zhí)行以下各步驟步驟D、建立數(shù)據(jù)源質(zhì)量評(píng)估模型并利用該數(shù)據(jù)源質(zhì)量評(píng)估模型計(jì)算步驟C中得 到的各數(shù)據(jù)源的質(zhì)量得分;步驟E、根據(jù)質(zhì)量得分并按照一定的方法選擇若干高質(zhì)量數(shù)據(jù)源,得到最終的數(shù)據(jù) 源集。上述步驟E中所述根據(jù)質(zhì)量得分并按照一定的方法選擇若干高質(zhì)量數(shù)據(jù)源可以 是選擇質(zhì)量得分大于一個(gè)預(yù)先設(shè)定的閾值的數(shù)據(jù)源;也可以采用Top-k數(shù)據(jù)選擇方法,即 按照質(zhì)量得分將數(shù)據(jù)源從大到小排序,選擇前k個(gè)數(shù)據(jù)源,k為預(yù)先設(shè)定的最終選擇的數(shù)據(jù) 源的個(gè)數(shù)。本發(fā)明方法首先基于查詢接口語(yǔ)義特征并結(jié)合本體庫(kù),選擇與用戶查詢相關(guān)度較 大的深層網(wǎng)數(shù)據(jù)源;接著通過(guò)數(shù)據(jù)源的質(zhì)量得分來(lái)度量數(shù)據(jù)源的質(zhì)量,選擇質(zhì)量得分較高 的若干數(shù)據(jù)源而放棄其他質(zhì)量較低的數(shù)據(jù)源,最終得到與客戶查詢相關(guān)度大且質(zhì)量較高的 數(shù)據(jù)源。相比現(xiàn)有技術(shù),本發(fā)明方法能夠提高深層網(wǎng)頁(yè)查詢的準(zhǔn)確度,同時(shí)降低信息冗余, 提高查詢效率。


圖1是本發(fā)明具體實(shí)施方式
的深層網(wǎng)頁(yè)查詢接口示例圖;圖2是本發(fā)明方法的流程圖;圖3是本體庫(kù)結(jié)構(gòu)示例具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明如附圖2所示,本發(fā)明按照以下各步驟進(jìn)行深層網(wǎng)數(shù)據(jù)源的選擇步驟A、對(duì)查詢接口進(jìn)行解析;如附圖1所示,一個(gè)查詢接口包含一些表單控件讓用戶輸入查詢信息,如文本框 (Textbox),單選按鈕(Radio Button),復(fù)選框(Check box)和下拉列表(Selection List) 等控件。每個(gè)控件通常都關(guān)聯(lián)一個(gè)標(biāo)簽——一個(gè)描述文本,每個(gè)控件可以有一個(gè)或多個(gè)值 (value),例如一個(gè)下拉列表有一列值供用戶選擇,單選按鈕和復(fù)選框通常有一個(gè)值。邏輯上講,一個(gè)控件和它關(guān)聯(lián)的標(biāo)簽構(gòu)成了一個(gè)屬性(attribute),對(duì)應(yīng)了深層網(wǎng)頁(yè)(De印Web) 后臺(tái)數(shù)據(jù)庫(kù)中的一個(gè)字段。通常,一個(gè)屬性包含一個(gè)標(biāo)簽,一個(gè)或多個(gè)表單控件。通過(guò)對(duì)當(dāng) 前Deep Web查詢接口頁(yè)面進(jìn)行解析,得到相應(yīng)各屬性內(nèi)容的標(biāo)簽、表單控制,再把它們按照 語(yǔ)義關(guān)系組成一個(gè)個(gè)屬性(查詢條件的一個(gè)邏輯單位)。我們可以抽象地將查詢接口本體 實(shí)例DWI表示為DWI = (S,P,Μ)。其中S反映了接口實(shí)例功能等的特定信息,它包含接 口實(shí)例的名字(表單標(biāo)簽名)和該接口站點(diǎn)的URL等基本信息。P= {ρι,ρ2,…,ρη}為接 口實(shí)例所對(duì)應(yīng)的本體實(shí)例模板,M為接口實(shí)例所提供的方法。建立了 DWI實(shí)例后,用戶就可 以提供一個(gè)面向本體實(shí)例的查詢來(lái)檢索其所需要的信息。Deep Web數(shù)據(jù)源接口集可以抽象為假定某領(lǐng)域內(nèi)De印Web數(shù)據(jù)源接口集為DWS ={Sn,Si2,…,SJ,每個(gè)數(shù)據(jù)源接口 Sii都對(duì)應(yīng)一個(gè)出現(xiàn)在查詢接口上的實(shí)例Ri組成的數(shù) 據(jù)源本體模板,本體模板中的所有實(shí)例的聯(lián)合為數(shù)據(jù)源接口集DWS。所謂實(shí)例就是指定查詢 接口上一個(gè)元素對(duì)應(yīng)的標(biāo)簽名、內(nèi)部屬性名、一個(gè)或多個(gè)修飾語(yǔ)及其值域,它是查詢接口上 最小的語(yǔ)義單位。步驟B、構(gòu)建本體庫(kù)并通過(guò)本體庫(kù)把相應(yīng)查詢信息轉(zhuǎn)化為本體信息;其中構(gòu)建本 體庫(kù)按照以下各步驟執(zhí)行步驟Bi、通過(guò)現(xiàn)有本體庫(kù)分析HTML表單模式結(jié)構(gòu)來(lái)獲取查詢接口的語(yǔ)義,構(gòu)建相 應(yīng)本體庫(kù)中的類;步驟B2、從查詢接口和結(jié)果頁(yè)面抽取概念和實(shí)例,提取現(xiàn)有本體庫(kù)中類的層次關(guān) 系和函數(shù)關(guān)系;步驟B3、從某個(gè)主題的多個(gè)數(shù)據(jù)源中提取上述步驟B2中得到的本體類之間關(guān)系, 然后推理映射不同的關(guān)系,最后合并成一個(gè)更高層的領(lǐng)域本體;針對(duì)每個(gè)本體庫(kù)中的每個(gè) 類,構(gòu)建與該類對(duì)應(yīng)的關(guān)鍵詞集合,組成本體庫(kù)的詞匯層;本發(fā)明方法將相應(yīng)查詢信息抽象表示為一種查詢模型De印Web表示由一系列查 詢接口屬性組成的關(guān)系表DB =Aq= Iaq1, aq2,…,aqj (接口模式)和一系列查詢結(jié)果屬性 組成Ar= Iaivar2,,arm}(結(jié)果模式)。其中,每個(gè)屬性e A表示通過(guò)查詢接口得到 的查詢屬性,而結(jié)果屬性arj e A表示查詢結(jié)果中的屬性。每個(gè)查詢操作可以用類似SQL語(yǔ) 句來(lái)表不“Select ar1 ar2,,arm from DB WHERE aql = val q1 aq2 = valq2,·..,aqn = valqn”,這里val Qi表示查詢表單中填充的屬性值。對(duì)于查詢信息通過(guò)本體庫(kù)進(jìn)行查詢擴(kuò)展得到一系列的查詢接口集。本體結(jié)構(gòu)如附 圖3所示,圖中所示為以一個(gè)交通工具(Vehicle)為核心概念的本體庫(kù)結(jié)構(gòu)圖的一部分。該 本體庫(kù)結(jié)構(gòu)包括一系列對(duì)現(xiàn)實(shí)事物的抽象。例如,“VehiCle”、“Car”“TruCk”等這些概念構(gòu) 成本體庫(kù)中的類(class),圖中還包括了類與類之間關(guān)系如“driver”和“price”等,該本體 庫(kù)還包含各類相應(yīng)的實(shí)體,如BWM,F(xiàn)512M等。通過(guò)本體庫(kù)的擴(kuò)展,可以將一個(gè)概念擴(kuò)展成一 系列本體層中的概念集。如對(duì)于概念“Vehicle”,它所對(duì)應(yīng)的概念還包含“Car”和“Truck” 等概念。步驟C、計(jì)算本體信息與各數(shù)據(jù)源的相關(guān)度,根據(jù)相關(guān)度選擇滿足預(yù)先設(shè)定的條件 的數(shù)據(jù)源;對(duì)于給定目標(biāo)查詢接口對(duì)象DWIi和查詢本體Qi,相關(guān)度按照如下公式計(jì)算Yj(DWIiXQi) R(DWIliQi) =其中,R(DffIi, Qi)表示查詢本體Qi與查詢接口對(duì)象DWIi的相關(guān)度,m為查詢接口 中的對(duì)象個(gè)數(shù)。步驟D、建立數(shù)據(jù)源質(zhì)量評(píng)估模型并利用該數(shù)據(jù)源質(zhì)量評(píng)估模型計(jì)算步驟C中得 到的各數(shù)據(jù)源的質(zhì)量得分;通過(guò)分析可知,影響評(píng)估De印Web數(shù)據(jù)源質(zhì)量的主要因素有瀏覽器、Web數(shù)據(jù) 庫(kù)、用戶以及網(wǎng)絡(luò)性能,本具體實(shí)施方式
把這四類因素作為一級(jí)質(zhì)量因子;每個(gè)一級(jí)質(zhì)量因 子又包含若干二級(jí)質(zhì)量因子,例如,作為一級(jí)質(zhì)量因子,Web數(shù)據(jù)庫(kù)包括域完整性、一致性、 冗余性、數(shù)據(jù)源大小等若干二級(jí)質(zhì)量因子,這樣,就可以得到一個(gè)包括兩級(jí)質(zhì)量因子的質(zhì)量 因子集,并據(jù)此得到數(shù)據(jù)源質(zhì)量評(píng)估模型如下 其中,Qs e W,100],表示第s個(gè)數(shù)據(jù)源的質(zhì)量得分;Wn表示質(zhì)量因子集中第η個(gè)
一級(jí)質(zhì)量因子的權(quán)重,η = 1,2…K,K為質(zhì)量因子集中一級(jí)質(zhì)量因子的個(gè)數(shù),Σ#"=1; %
為第η個(gè)一級(jí)質(zhì)量因子中第j個(gè)二級(jí)質(zhì)量因子的權(quán)重,Qnj為使用第η個(gè)一級(jí)質(zhì)量因子中第 j個(gè)二級(jí)質(zhì)量因子評(píng)估第s個(gè)數(shù)據(jù)源的質(zhì)量得分,j = 1,2…L,L為質(zhì)量因子集中第η個(gè)一上述數(shù)據(jù)源質(zhì)量評(píng)估模型為現(xiàn)有技術(shù),更詳細(xì)內(nèi)容可參考文獻(xiàn)(鮮學(xué)豐,方巍 等.一種De印Web數(shù)據(jù)源質(zhì)量評(píng)估模型.微電子學(xué)與計(jì)算機(jī),2008,Vol 25(10) =47-50.) 0步驟Ε、根據(jù)質(zhì)量得分并按照一定的方法選擇若干高質(zhì)量數(shù)據(jù)源,得到最終的數(shù)據(jù) 源集。本具體實(shí)施方式
在本步驟中采用Top-k的數(shù)據(jù)選擇方法,即按照質(zhì)量得分將數(shù)據(jù) 源從大到小排序,選擇前k個(gè)數(shù)據(jù)源,k為預(yù)先設(shè)定的最終選擇的數(shù)據(jù)源的個(gè)數(shù)。
級(jí)質(zhì)量因子中所包含二級(jí)質(zhì)量因子的個(gè)數(shù),二1;
權(quán)利要求
一種用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法,其特征在于,包括以下步驟步驟A、對(duì)查詢接口進(jìn)行解析;步驟B、構(gòu)建本體庫(kù)并通過(guò)本體庫(kù)把相應(yīng)查詢信息轉(zhuǎn)化為本體信息;步驟C、計(jì)算本體信息與各數(shù)據(jù)源的相關(guān)度,根據(jù)相關(guān)度選擇滿足預(yù)先設(shè)定的條件的數(shù)據(jù)源;對(duì)于給定目標(biāo)查詢接口對(duì)象DWIi和查詢本體Qi,相關(guān)度按照如下公式計(jì)算 <mrow><mi>R</mi><mrow> <mo>(</mo> <msub><mi>DWI</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>Q</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munderover> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><mrow> <mo>(</mo> <msub><mi>DWI</mi><mi>i</mi> </msub> <mo>&times;</mo> <msub><mi>Q</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><msqrt> <munderover><mi>&Sigma;</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow><mi>m</mi> </munderover> <msup><mrow> <mo>(</mo> <msub><mi>DWI</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mn>2</mn> </msup></msqrt><mo>&times;</mo><msqrt> <munderover><mi>&Sigma;</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow><mi>m</mi> </munderover> <msup><msub> <mi>Q</mi> <mi>i</mi></msub><mn>2</mn> </msup></msqrt> </mrow></mfrac><mo>,</mo> </mrow>其中,R(DWIi,Qi)表示查詢本體Qi與查詢接口對(duì)象DWIi的相關(guān)度,m為查詢接口中的對(duì)象個(gè)數(shù)。
2.如權(quán)利要求1所述用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法,其特征在于,所述構(gòu)建 本體庫(kù)具體按照以下步驟步驟Bi、通過(guò)現(xiàn)有本體庫(kù)分析HTML表單模式結(jié)構(gòu)來(lái)獲取查詢接口的語(yǔ)義,構(gòu)建相應(yīng)本 體庫(kù)中的類;步驟B2、從查詢接口和結(jié)果頁(yè)面抽取概念和實(shí)例,提取現(xiàn)有本體庫(kù)中類的層次關(guān)系和 函數(shù)關(guān)系;步驟B3、從某個(gè)主題的多個(gè)數(shù)據(jù)源中提取上述步驟B2中得到的本體類之間關(guān)系,然后 推理映射不同的關(guān)系,最后合并成一個(gè)更高層的領(lǐng)域本體;針對(duì)每個(gè)本體庫(kù)中的每個(gè)類,構(gòu) 建與該類對(duì)應(yīng)的關(guān)鍵詞集合,組成本體庫(kù)的詞匯層。
3.如權(quán)利要求1所述用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法,其特征在于,步驟C之后 還包括步驟D、建立數(shù)據(jù)源質(zhì)量評(píng)估模型并利用該數(shù)據(jù)源質(zhì)量評(píng)估模型計(jì)算步驟C中得到的 各數(shù)據(jù)源的質(zhì)量得分;步驟E、根據(jù)質(zhì)量得分并按照一定的方法選擇若干高質(zhì)量數(shù)據(jù)源,得到最終的數(shù)據(jù)源集。
4.如權(quán)利要求3所述用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法,其特征在于,步驟E中所 述根據(jù)質(zhì)量得分并按照一定的方法選擇若干高質(zhì)量數(shù)據(jù)源是指按照質(zhì)量得分將數(shù)據(jù)源從 大到小排序,選擇前k個(gè)數(shù)據(jù)源;k為預(yù)先設(shè)定的最終選擇的數(shù)據(jù)源的個(gè)數(shù)。Yj(DWIiXQi)
全文摘要
本發(fā)明公開(kāi)了一種用于深層網(wǎng)數(shù)據(jù)集成的數(shù)據(jù)源選擇方法。本發(fā)明方法首先基于查詢接口語(yǔ)義特征并結(jié)合本體庫(kù),選擇與用戶查詢相關(guān)度較大的深層網(wǎng)數(shù)據(jù)源;接著通過(guò)數(shù)據(jù)源的質(zhì)量評(píng)估模型對(duì)數(shù)據(jù)源的質(zhì)量進(jìn)行評(píng)估,最后根據(jù)質(zhì)量評(píng)估情況質(zhì)量較高的數(shù)據(jù)源,最終得到與客戶查詢相關(guān)度大且質(zhì)量較高的數(shù)據(jù)源集。相比現(xiàn)有技術(shù),本發(fā)明方法能夠提高深層網(wǎng)頁(yè)查詢的準(zhǔn)確度,同時(shí)降低信息冗余,提高查詢效率。
文檔編號(hào)G06F17/30GK101916272SQ20101025012
公開(kāi)日2010年12月15日 申請(qǐng)日期2010年8月10日 優(yōu)先權(quán)日2010年8月10日
發(fā)明者文學(xué)志, 方巍, 畢碩本 申請(qǐng)人:南京信息工程大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙州县| 江西省| 凉山| 恭城| 碌曲县| 海林市| 永宁县| 和静县| 康保县| 英山县| 安泽县| 大丰市| 广南县| 光泽县| 开阳县| 宽甸| 南通市| 竹溪县| 余江县| 青浦区| 肥乡县| 高台县| 北碚区| 大田县| 静海县| 淄博市| 威宁| 石台县| 宝鸡市| 浦江县| 芜湖市| 佛冈县| 若羌县| 墨玉县| 龙泉市| 高碑店市| 琼中| 锡林郭勒盟| 蓝山县| 唐山市| 郯城县|