欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

表格重構(gòu)裝置和方法

文檔序號:9810499閱讀:967來源:國知局
表格重構(gòu)裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理領(lǐng)域,更具體地涉及一種表格重構(gòu)裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)中出現(xiàn)了大量的表格數(shù)據(jù),表格數(shù)據(jù)中含有豐富的結(jié)構(gòu)化信息。挖掘表格數(shù)據(jù)可以獲取大量的人類知識。但是表格數(shù)據(jù)往往結(jié)構(gòu)復(fù)雜,字段重疊,一張表格中包括多個(gè)描述對象及其屬性。有些屬性可以描述多個(gè)描述對象,因此要從表格中抽取知識,首先應(yīng)該將表格重構(gòu)成結(jié)構(gòu)簡單,描述對象單一的形式,然后才能進(jìn)行有效的知識獲取。例如,圖1A中的表格包括兩個(gè)描述對象“人”和“公司”,其中描述人的屬性有“姓名、國籍、學(xué)位、畢業(yè)院校、創(chuàng)辦企業(yè)、聯(lián)系方式、e-mail ”,描述公司的屬性有“成立日期、地址、服務(wù)、領(lǐng)域、聯(lián)系方式”,其中“聯(lián)系方式”列既可以是描述人的屬性,又可以是描述公司的屬性。
[0003]因此,需要一種將表格重構(gòu)成結(jié)構(gòu)簡單、描述對象單一的形式的單一描述對象表格的裝置和方法。

【發(fā)明內(nèi)容】

[0004]在下文中給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0005]本發(fā)明的一個(gè)主要目的在于,提供一種表格重構(gòu)裝置,包括:列屬性確定單元,被配置成確定表格中每一列的屬性;描述對象確定單兀,被配置成通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格中的描述對象;描述對象相關(guān)屬性確定單元,被配置成在語義知識庫中確定每個(gè)描述對象的屬性集合,計(jì)算表格中每一列的屬性與屬性集合中的每個(gè)屬性的第一相似度來確定表格中與描述對象相關(guān)的屬性;以及表格重構(gòu)單元,被配置成使用描述對象和與描述對象相關(guān)的屬性對表格進(jìn)行重構(gòu)。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種表格重構(gòu)方法,包括:確定表格中每一列的屬性;通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格的描述對象;在語義知識庫中確定每個(gè)描述對象的屬性集合,計(jì)算表格中每一列的屬性與屬性集合中的每個(gè)屬性的第一相似度來確定表格中與描述對象相關(guān)的屬性;以及使用描述對象和與描述對象相關(guān)的屬性重構(gòu)表格。
[0007]另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
[0008]此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0009]通過以下結(jié)合附圖對本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。
【附圖說明】
[0010]參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0011]圖1A示出了包含多個(gè)描述對象的示例性表格;
[0012]圖1B和圖1C是由圖1A中的表格重構(gòu)的兩個(gè)單一描述對象的表格的圖;
[0013]圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的對表格進(jìn)行重構(gòu)的裝置200的示例性配置的框圖;
[0014]圖3是示出圖2中的描述對象確定單元204的一種示例性配置的框圖;
[0015]圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的對表格進(jìn)行重構(gòu)的方法400的流程圖;
[0016]圖5是示出圖4中的步驟S404的一種示例性過程的流程圖;
[0017]圖6是示出可以用于實(shí)施本發(fā)明的表格重構(gòu)裝置和方法的計(jì)算設(shè)備的示例性結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0018]下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。
[0019]本發(fā)明提出一種表格重構(gòu)裝置和方法,可以將包含多個(gè)描述對象的表格(如圖1A所示)拆分成多個(gè)單一描述對象表格(例如圖1B和圖1C)。從圖1A-1C可以看到,圖1A中的表格包括兩個(gè)描述對象“人”和“公司”,其中描述人的屬性有“姓名、國籍、學(xué)位、畢業(yè)院校、創(chuàng)辦企業(yè)、聯(lián)系方式、e-mail”,描述公司的屬性有“成立日期、地址、服務(wù)、領(lǐng)域、聯(lián)系方式”,其中“聯(lián)系方式”列既可以是描述人的屬性,又可以是描述公司的屬性。如圖1B和IC所示,分別是根據(jù)圖1A中的兩個(gè)描述對象“人”和“公司”及其對應(yīng)的屬性重構(gòu)的兩個(gè)單一描述對象表格。
[0020]根據(jù)本發(fā)明的裝置和方法,首先根據(jù)表格列標(biāo)題和/或表格列中的實(shí)例信息確定該列對應(yīng)的屬性,然后根據(jù)每列的對應(yīng)的屬性確定描述對象及其屬性列,最后根據(jù)描述對象和屬性列的對應(yīng)關(guān)系將原始表格重構(gòu)成單一描述對象表格。
[0021]下面結(jié)合附圖詳細(xì)說明根據(jù)本發(fā)明的一個(gè)實(shí)施例的對表格進(jìn)行重構(gòu)的裝置。
[0022]圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的對表格進(jìn)行重構(gòu)的裝置200的示例性配置的框圖。
[0023]如圖2所示,表格重構(gòu)裝置200包括列屬性確定單元202、描述對象確定單元204、描述對象相關(guān)屬性確定單元206和表格重構(gòu)單元208。
[0024]列屬性確定單元202可以確定表格中每一列的屬性。
[0025]描述對象確定單元204可以通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格中的描述對象。
[0026]描述對象相關(guān)屬性確定單元206可以在語義知識庫中確定每個(gè)描述對象的屬性集合,計(jì)算表格中每一列的屬性與屬性集合中的每個(gè)屬性的第一相似度來確定表格中與描述對象相關(guān)的屬性。
[0027]表格重構(gòu)單元208可以使用描述對象和與描述對象相關(guān)的屬性對表格進(jìn)行重構(gòu)。
[0028]下面分別詳細(xì)說明表格重構(gòu)裝置200所包括的各個(gè)單元。
[0029]表格的每一列都表TJK描述對象的某個(gè)屬性。確定表格的列對應(yīng)的屬性可以是確認(rèn)表格的列與語義知識庫中哪個(gè)屬性對應(yīng)。在一個(gè)示例中,語義知識庫可以是L0D(linkedopen data, 一種全球知識庫)知識庫,下文中就以LOD知識庫作為語義知識庫的示例進(jìn)行說明。
[0030]在本發(fā)明的一個(gè)示例性實(shí)施例中,確定表格的列對應(yīng)的屬性可以考慮以下兩方面的信息:列標(biāo)題和列實(shí)例信息。當(dāng)表格存在列標(biāo)題時(shí),表格的列標(biāo)題通常是表格的第一行,將表格列標(biāo)題與LOD知識庫中的屬性進(jìn)行鏈接,可以得到LOD知識庫中的對應(yīng)的屬性。如果沒有找到對應(yīng)的LOD屬性,再通過基于列實(shí)例的識別方法進(jìn)行識別。如果表格沒有列標(biāo)題,那么直接使用基于列實(shí)例的識別方法進(jìn)行識別。
[0031]下面介紹基于列實(shí)例信息來確定表格中每一列的屬性的一個(gè)TJK例性方法。
[0032]首先,對于有特定模式的列實(shí)例使用正則表達(dá)式識別。例如,郵政編碼、電話號碼(手機(jī)號碼,座機(jī)號碼)、網(wǎng)址URL、IP地址、E-mai 1、時(shí)間、日期等。可以確定圖1A中的表格的第6、7、8列的屬性為成立日期、聯(lián)系方式和e-mail。
[0033]其次,識別人名,地址等內(nèi)容。人名識別可以利用姓氏詞典識別;地址使用具有層級關(guān)系的地址知識庫匹配,地址知識庫層級關(guān)系由上到下為國家,省市/自治區(qū),區(qū)縣,鄉(xiāng)鎮(zhèn),街道等,地址也可以使用搜索引擎判斷,即使用地圖搜索引擎檢索該列實(shí)例,如果地圖搜索引擎返回檢索結(jié)果,那么該列實(shí)例對應(yīng)的屬性為地址??梢源_定圖1A中,第I列和第9列對應(yīng)的屬性分別為姓名和地址。
[0034]最后,將未知屬性的列對應(yīng)的列實(shí)例與LOD知識庫中的實(shí)體進(jìn)行鏈接,使用LOD知識庫中的知識判斷表格列對應(yīng)的屬性。例如將圖1A中的第4列與LOD知識庫進(jìn)行鏈接,根據(jù)LOD知識庫,可以知道“清華大學(xué)”和“斯坦福大學(xué)”的對應(yīng)屬性都是“大學(xué)”。通過這種方式,可以確定第2、3、4、5、10、11的對應(yīng)屬性分別是國籍、學(xué)位、畢業(yè)院校、創(chuàng)辦企業(yè)、月艮務(wù)、領(lǐng)域。
[0035]在一個(gè)示例中,對表格列的對應(yīng)屬性的識別采用全局協(xié)同識別,即識別結(jié)果不依賴于某個(gè)列實(shí)例,而是該列中多個(gè)列實(shí)例協(xié)同識別的結(jié)果。例如,某列有η個(gè)實(shí)例,其中有m個(gè)對應(yīng)屬性Pa,n-m個(gè)對應(yīng)屬性pb,那么最終該列的類別可以由預(yù)設(shè)條件決定,如果m> (n-m)且m/n大于預(yù)設(shè)值,則該列對應(yīng)的屬性為pa。如果不滿足預(yù)設(shè)條件則無法識別,可以忽略該列。
[0036]通過上述過程,列屬性確定單元202可以確定
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
常德市| 洪泽县| 疏附县| 佛山市| 平原县| 乌海市| 德格县| 含山县| 界首市| 高青县| 湖南省| 深州市| 卓资县| 青冈县| 聂拉木县| 炉霍县| 仁化县| 鄱阳县| 锦州市| 定边县| 郁南县| 托克托县| 饶平县| 榆林市| 武城县| 茂名市| 云梦县| 清远市| 宜州市| 横峰县| 探索| 承德县| 墨玉县| 尼木县| 龙里县| 珲春市| 新建县| 隆回县| 云霄县| 茶陵县| 太湖县|