欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息提取支持設(shè)備和方法

文檔序號:9844090閱讀:441來源:國知局
信息提取支持設(shè)備和方法
【專利說明】
[0001] 相關(guān)申請的交叉引用
[0002] 本申請基于2014年11月19日遞交的日本專利申請2014-234963號并要求其優(yōu) 先權(quán)的權(quán)益,這里通過引用并入該日本專利申請的全部內(nèi)容。
技術(shù)領(lǐng)域
[0003] 本文描述的實施例一般地涉及信息提取支持設(shè)備和方法。
【背景技術(shù)】
[0004] 從網(wǎng)頁或文檔提取諸如詞的屬性(例如,產(chǎn)品名稱和產(chǎn)品的價格)之類的信息的 技術(shù)是已知的。利用這種技術(shù),可以容易地組織文檔內(nèi)的特定信息(例如,從文檔提取產(chǎn)品 的規(guī)格的列表并且制作表格)。
[0005] 然而,如果要提取的信息對于每個文檔是不同的,則選擇屬性是麻煩的??梢允褂?傳統(tǒng)的技術(shù),即,將多個文檔分類到指定的類別中并且根據(jù)該分類來判定要提取哪種信息。
【附圖說明】
[0006] 圖1是示出根據(jù)第一實施例的信息提取支持設(shè)備的框圖。
[0007] 圖2是示出信息提取設(shè)備的信息提取處理的流程圖。
[0008] 圖3A圖示了從目標文檔提取的屬性表述的示例。
[0009] 圖3B圖示了示出目標文檔的分析結(jié)構(gòu)的表格的示例。
[0010] 圖4圖示了存儲在特征存儲庫中的邏輯規(guī)則的示例。
[0011] 圖5圖示了在候選屬性呈現(xiàn)器和生成器處生成的分析結(jié)果的呈現(xiàn)的示例。
[0012] 圖6是示出根據(jù)第二實施例的信息提取支持設(shè)備的框圖。
[0013] 圖7圖示了用戶界面的示例。
[0014] 圖8圖示了邏輯規(guī)則的更新的示例。
【具體實施方式】
[0015] 如果提取信息的人(分析者)不是訓練有素的或者不是專家,則可能有這樣的問 題,即,該人不能認識到根據(jù)目的應(yīng)當提取哪種屬性。尤其,如果要提取的屬性取決于特征 的組合而變化,則不是專家的人難以考慮文檔與特征之間的關(guān)系。此外,如果文檔的數(shù)目增 加,則必須提取的信息的量增加,并且分析者核對的份額也增加。
[0016] -般地,根據(jù)一個實施例,信息提取支持設(shè)備包括第一獲取器、判定器、選擇器和 提取器。第一獲取器獲取從中提取指示某種類型的期望信息的至少一個屬性的文檔作為分 析目標。判定器判定該至少一個屬性是否有效,并且獲得有效屬性中的至少一個作為一個 或多個候選屬性。選擇器從一個或多個候選屬性中選擇要用于分析的屬性作為選中屬性。 提取器從文檔中提取屬于選中屬性的表述作為屬性表述。
[0017] 以下,將參考附圖詳細描述根據(jù)當前實施例的信息提取支持設(shè)備、方法和程序。在 以下實施例中,執(zhí)行相同操作的元素將被賦予相同的附圖標記,并且對其的冗余說明將被 酌情省略。
[0018] (第一實施例)
[0019] 將參考圖1的框圖描述根據(jù)第一實施例的信息提取支持設(shè)備。
[0020] 根據(jù)第一實施例的信息提取支持設(shè)備100包括文檔獲取器101、特征存儲庫102、 有效性判定器103、候選屬性呈現(xiàn)器104、選擇器105、屬性表述提取器106和生成器107。
[0021] 文檔獲取器101獲取要分析的一個或多個目標文檔。目標文檔可通過用戶輸入獲 取,或者可由外部服務(wù)器自動收集。在本實施例中,假定目標文檔是由自然書寫表述的文本 數(shù)據(jù),例如上傳在互聯(lián)網(wǎng)上的網(wǎng)頁和新聞文章。然而,目標文檔不限于此,而可以是可從數(shù) 據(jù)提取屬性的任何事物。屬性指示用戶希望提取的某種類型的期望信息,例如產(chǎn)品名稱、價 格和公司名稱。文檔獲取器101可從用戶獲取分析的目的(以下也稱為"分析目的")。分 析目的可例如是技術(shù)地圖、供應(yīng)鏈或者家系圖,但不限于此。
[0022] 特征存儲庫102存儲表格、特征提取器和一個或多個邏輯規(guī)則,在該表格中包括 詞和短語的用語(wording)和用語的屬性彼此關(guān)聯(lián)。特征提取器提取用于提取屬性的文檔 的元數(shù)據(jù)以提取后面說明的屬性表述(例如,創(chuàng)建的時間和日期、文檔的文件格式、語言等 等)、文檔中包括的用語的特征(例如,諸如名詞和動詞之類的詞性、諸如人名和地名之類 的專有名詞的分類、出現(xiàn)在詞之前或之后的用語、N元語法等等)以及文檔中包括的附圖的 特征(圖畫、照片、圖表和插圖的分類、表格中的列或行的數(shù)目等等)。邏輯規(guī)則是與在用于 提取后面說明的屬性表述的屬性之間的關(guān)系有關(guān)的規(guī)則。特征提取器和要作為提取候選的 屬性具有多對一關(guān)系或一對多關(guān)系。換言之,一個或多個特征提取器對應(yīng)于一個屬性,或者 特征提取器對應(yīng)于一個或多個屬性。特征提取器與屬性之間的關(guān)系可被預存儲或者基于提 取結(jié)果來選擇。稍后將參考圖4描述邏輯規(guī)則。特征存儲庫102存儲分析目的和對于該分 析目的預期的相應(yīng)屬性。分析目的和屬性彼此相關(guān)聯(lián)。
[0023] 有效性判定器103從文檔獲取器101接收一個或多個目標文檔,并且通過參考特 征存儲庫102來判定可從該一個或多個目標文檔提取的屬性對于分析目的是否有效。有效 性判定器103獲得被判定為有效的一個或多個屬性作為候選屬性。
[0024] 如果文檔獲取器101不獲取分析目的,則有效性判定器103可通過參考目標文檔 和候選屬性中的至少一個來估計分析目的。在此情況下,有效性判定器103可估計一個或 多個目標文檔的類別和文檔格式。
[0025] 候選屬性呈現(xiàn)器104從有效性判定器103獲取一個或多個候選屬性和一個或多個 目標文檔,并且例如在顯示器上呈現(xiàn)一個或多個候選屬性。
[0026] 選擇器105從用戶接收指令(以下稱為"用戶指令"),并且從候選屬性呈現(xiàn)器104 接收一個或多個候選屬性和一個或多個目標文檔。選擇器105從由候選屬性呈現(xiàn)器104呈 現(xiàn)的候選屬性之中選擇由用戶指令選擇的要用于分析的屬性作為選中屬性。
[0027] 屬性表述提取器106從選擇器105接收選中屬性和一個或多個目標文檔,并且對 于每個選中屬性從一個或多個目標文檔中提取屬于該選中屬性的表述作為屬性表述。
[0028] 生成器107從屬性表述提取器106接收選中屬性、相應(yīng)的屬性表述和一個或多個 目標文檔。生成器107根據(jù)分析目的執(zhí)行包括對選中屬性和屬性表述設(shè)定用戶希望的輸出 格式在內(nèi)的分析處理,并且生成分析結(jié)果。分析結(jié)果例如被輸出到顯示器。生成器107可 通過接收包括指示輸出格式的信息的用戶指令來設(shè)定輸出格式。否則,特定的輸出格式可 被預設(shè)為默認設(shè)定。
[0029] 接下來,將參考圖2的流程圖說明信息提取支持設(shè)備100處的信息提取處理。
[0030] 在步驟S201中,文檔獲取器101獲取一個或多個目標文檔。
[0031] 在步驟S202中,有效性判定器103判定可從一個或多個目標文檔提取的屬性是否 有效。
[0032] 例如,如果一個或多個目標文檔中包括的屬于特定屬性的用語出現(xiàn)的次數(shù)不小于 閾值,則該屬性可被判定為有效。具體而言,如果由恰當表述提取方法判定詞語"A公司"在 目標文檔中出現(xiàn)的次數(shù)不小于閾值,則詞語"A公司"所屬的屬性"公司名稱"被判定為有效 屬性。
[0033] 用語和用語的屬性可通過參考存儲在特征存儲庫102中的指示用語與屬性之間 的對應(yīng)關(guān)系的查找表或者通過參考關(guān)于用語與屬性之間的對應(yīng)關(guān)系的外部信息來判定。否 貝1J,用語與屬性之間的對應(yīng)關(guān)系可基于在特征存儲庫102中對于相應(yīng)屬性存儲的該用語被 特征提取
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
吴旗县| 丹阳市| 囊谦县| 澄城县| 盐源县| 梅州市| 田林县| 武宣县| 浦江县| 黔西| 仁寿县| 武胜县| 汉中市| 海城市| 怀来县| 临武县| 龙陵县| 体育| 尉氏县| 宝丰县| 黑龙江省| 晴隆县| 咸丰县| 新昌县| 重庆市| 斗六市| 依安县| 平湖市| 大庆市| 马尔康县| 许昌市| 嘉峪关市| 乃东县| 成武县| 平塘县| 沙洋县| 泰安市| 台前县| 岢岚县| 武功县| 安阳市|