欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng)的制作方法

文檔序號(hào):10489022閱讀:350來(lái)源:國(guó)知局
一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng)的制作方法
【專利摘要】一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng),包括提問(wèn)模塊(1)、預(yù)處理模塊(2)、分詞和詞匯標(biāo)準(zhǔn)化模塊(3)、凈化詞模塊(4)、同義詞擴(kuò)展模塊(5)、詞匯擴(kuò)展或刪除模塊(6)、句子相似度計(jì)算模塊(7)和答復(fù)輸出模塊(8)。本發(fā)明通過(guò)構(gòu)建領(lǐng)域本體計(jì)算用戶問(wèn)句的相似度,依賴于分詞技術(shù)、領(lǐng)域本體的構(gòu)建、本體相似度計(jì)算。本發(fā)明的優(yōu)點(diǎn)是:通過(guò)該句子相似度算法,應(yīng)用領(lǐng)域本體技術(shù)更加準(zhǔn)確的理解用戶提問(wèn)意圖,計(jì)算句子相似度,提高問(wèn)答系統(tǒng)的準(zhǔn)確率。
【專利說(shuō)明】
一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng),對(duì)垂直領(lǐng)域的語(yǔ)義分析準(zhǔn)確率具 有重要意義和作用。
【背景技術(shù)】
[0002] 按照問(wèn)答系統(tǒng)的實(shí)現(xiàn)技術(shù)劃分,包括:基于常見(jiàn)問(wèn)題集(FAQ)的問(wèn)答系統(tǒng)、基于信 息檢索的問(wèn)答系統(tǒng)、基于問(wèn)題分類的問(wèn)答系統(tǒng)和基于資源描述框架(Re sour ce Description Framework)RDF查詢的問(wèn)答系統(tǒng)。
[0003] 基于常見(jiàn)問(wèn)題集的問(wèn)答系統(tǒng),構(gòu)建常見(jiàn)問(wèn)題(FAQ)問(wèn)答對(duì),實(shí)現(xiàn)上依賴于用戶問(wèn)句 與FAQ中問(wèn)句的相似度計(jì)算。在FAQ問(wèn)答系統(tǒng)的開(kāi)發(fā)過(guò)程中,需要識(shí)別用戶問(wèn)句的意圖,對(duì)兩 個(gè)句子進(jìn)行相似度計(jì)算,以返回查詢結(jié)果?,F(xiàn)有的FAQ問(wèn)答系統(tǒng)的相關(guān)技術(shù)流程為:對(duì)句子 進(jìn)行分詞、去停用詞、詞語(yǔ)標(biāo)準(zhǔn)化等預(yù)處理工作后,建立倒排索引表,用VSM或者TF-IDF算法 計(jì)算兩個(gè)句子的詞語(yǔ)數(shù)組的相似度。
[0004] 基于信息檢索的問(wèn)答系統(tǒng),這種系統(tǒng)的信息來(lái)源通常是網(wǎng)絡(luò)上的文檔,所返回的 答案直接從文檔中抽取。
[0005] 基于用戶問(wèn)題分類的問(wèn)答系統(tǒng),通常對(duì)每一類問(wèn)題構(gòu)建相應(yīng)的模板進(jìn)行處理,增 強(qiáng)對(duì)問(wèn)題的理解,提高系統(tǒng)的準(zhǔn)確率。
[0006] 基于RDF(Resource Description Framework資源描述框架,一種用于描述Web資 源的標(biāo)記語(yǔ)言)查詢的問(wèn)答系統(tǒng)的核心是把自然語(yǔ)言問(wèn)句轉(zhuǎn)化為RDF的標(biāo)準(zhǔn)查詢語(yǔ)言,通常 是W3C指定查詢語(yǔ)言SPARQL,將自然語(yǔ)言問(wèn)句中的詞映射為本體中的類、實(shí)例或?qū)傩浴?br>[0007] 然而現(xiàn)有技術(shù)在計(jì)算詞語(yǔ)相似度時(shí),有采用基于《知網(wǎng)》的相似度計(jì)算方法,但是 對(duì)于專業(yè)的垂直領(lǐng)域缺乏足夠的語(yǔ)義分析。且現(xiàn)有技術(shù)在計(jì)算句子相似度時(shí),未考慮領(lǐng)域 詞匯的權(quán)重,對(duì)于專業(yè)的垂直領(lǐng)域的詞匯缺乏足夠的語(yǔ)義分析。
[0008] 本發(fā)明涉及的技術(shù)術(shù)語(yǔ)說(shuō)明: 領(lǐng)域本體:領(lǐng)域本體給出了構(gòu)成相關(guān)領(lǐng)域詞匯表的基本術(shù)語(yǔ)和關(guān)系,以及結(jié)合這些術(shù) 語(yǔ)和關(guān)系來(lái)定義這些詞匯表外延的規(guī)則。
[0009] 分詞技術(shù):分詞就是將句子的詞語(yǔ)識(shí)別出并進(jìn)行詞性標(biāo)注。
[0010] 知網(wǎng):《知網(wǎng)》(HowNet)是一部比較詳盡的語(yǔ)義知識(shí)詞典。以漢語(yǔ)和英語(yǔ)詞語(yǔ)所代 表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi) 容的常識(shí)知識(shí)庫(kù)。
[0011] 倒排索引表:對(duì)詞語(yǔ)建立一張表,并記錄詞語(yǔ)對(duì)應(yīng)的問(wèn)題的位置。由于不是由記錄 來(lái)確定屬性值,而是由屬性值來(lái)確定記錄的位置,因而稱為倒排索引(inverted index)。
[0012] VSM:向量空間模型(Vector Space Model)把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間 中的向量運(yùn)算,兩個(gè)向量運(yùn)算的相似度作為兩個(gè)句子的語(yǔ)義相似度。
[0013] TF-IDF:詞頻-逆文檔頻率法(term frequency-inverse document frequency), 在VSM算法的基礎(chǔ)上,根據(jù)詞的頻率確定詞的權(quán)重,計(jì)算兩個(gè)句子的相似度。

【發(fā)明內(nèi)容】

[0014] 本發(fā)明基于FAQ和基于RDF查詢技術(shù)有機(jī)結(jié)合實(shí)現(xiàn),提出一種新的問(wèn)答系統(tǒng)及處理 流程,以增強(qiáng)智能問(wèn)答系統(tǒng)語(yǔ)義分析能力,提高智能自動(dòng)問(wèn)答系統(tǒng)的準(zhǔn)確率。
[0015] 本發(fā)明的技術(shù)方案是:本發(fā)明通過(guò)構(gòu)建領(lǐng)域本體計(jì)算用戶問(wèn)句的相似度,依賴于 分詞技術(shù)、領(lǐng)域本體的構(gòu)建、本體相似度計(jì)算。
[0016] 本發(fā)明的優(yōu)點(diǎn)是:通過(guò)該句子相似度算法,應(yīng)用領(lǐng)域本體技術(shù)更加準(zhǔn)確的理解用 戶提問(wèn)意圖,計(jì)算句子相似度,提高問(wèn)答系統(tǒng)的準(zhǔn)確率。
【附圖說(shuō)明】
[0017]圖1是本發(fā)明系統(tǒng)構(gòu)成框圖; 圖2是本發(fā)明基本工作程序流程圖; 圖3是本發(fā)明本體的分類結(jié)構(gòu)實(shí)施例的示意圖; 圖4是本發(fā)明一個(gè)具體本體屬性的結(jié)構(gòu)示意圖; 圖5是本發(fā)明工作程序一個(gè)實(shí)施例的流程圖; 圖6是本發(fā)明的本體寶寶年齡分類結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018] 參見(jiàn)圖1,本發(fā)明一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng),主要基于計(jì)算機(jī)系統(tǒng),包括 以下組成部分: (1)提問(wèn)模塊1:用于向系統(tǒng)輸入(提出)問(wèn)題??梢圆捎面I盤(pán)輸入,語(yǔ)音輸入,手寫(xiě)(板) 輸入,采用圖像采集裝置輸入。
[0019] (2)預(yù)處理模塊2:包括垂直領(lǐng)域本體(數(shù)據(jù)庫(kù)),用于將本體中的類、屬性、實(shí)例名 稱添加到分詞詞典中,并標(biāo)注相應(yīng)詞性。
[0020] (3)分詞和詞匯標(biāo)準(zhǔn)化模塊3:用于對(duì)問(wèn)句進(jìn)行分詞,并進(jìn)行詞語(yǔ)標(biāo)準(zhǔn)化,標(biāo)注每個(gè) 詞的詞性和本體中的分類標(biāo)記。
[0021] (4)凈化詞模塊4:用于對(duì)分詞后的集合進(jìn)行去停用詞,去掉無(wú)實(shí)際意義的語(yǔ)氣詞、 寒喧詞。
[0022] (5)同義詞擴(kuò)展模塊5:用于整理垂直領(lǐng)域的相關(guān)同義詞詞林,對(duì)詞義進(jìn)行擴(kuò)展。
[0023] (6)本體擴(kuò)展模塊6:用于對(duì)分詞后的詞匯集合進(jìn)行判斷,若是本體中的詞匯,對(duì)詞 匯間的關(guān)系進(jìn)行分析,進(jìn)行擴(kuò)展或刪除,并設(shè)置該詞匯在句子中的權(quán)重;若不是本體中的詞 匯,按照普通詞語(yǔ)的相似度進(jìn)行計(jì)算。
[0024] (7)句子相似度計(jì)算模塊:結(jié)合所述的詞匯在句子中的權(quán)重,計(jì)算FAQ庫(kù)中候選問(wèn) 題與問(wèn)句的句子相似度。
[0025] (8)答復(fù)輸出模塊:用于輸出問(wèn)題的答案。
[0026] 參見(jiàn)圖2,本發(fā)明的基本工作流程包括: (1)預(yù)處理:構(gòu)建垂直領(lǐng)域本體,將本體中的類、屬性、實(shí)例名稱添加到分詞詞典中,并 標(biāo)注相應(yīng)詞性。
[0027] (2)對(duì)問(wèn)句進(jìn)行分詞并進(jìn)行詞語(yǔ)標(biāo)準(zhǔn)化,標(biāo)注每個(gè)詞的詞性,和本體中的分類標(biāo) 記。
[0028] (3)對(duì)分詞后的集合進(jìn)行去停用詞,去掉無(wú)實(shí)際意義的語(yǔ)氣詞、寒暄詞。
[0029] (4)整理垂直領(lǐng)域的相關(guān)同義詞詞林,對(duì)詞義進(jìn)行擴(kuò)展。
[0030] (5)對(duì)分詞后的詞匯集合進(jìn)行判斷,若是本體中的詞匯,對(duì)詞匯間的關(guān)系進(jìn)行分 析,進(jìn)行擴(kuò)展或刪除,并設(shè)置該詞匯在句子中的權(quán)重;若不是本體中的詞匯,按照普通詞語(yǔ) 的相似度進(jìn)行計(jì)算。
[0031] (6)結(jié)合詞匯在句子中的權(quán)重,計(jì)算FAQ庫(kù)中候選問(wèn)題與問(wèn)句的句子相似度。
[0032] (7)輸出問(wèn)題答案:按照相似度由高到低排序,最后選取相似度最高的問(wèn)題作為答 案。
[0033]下面結(jié)合圖3-圖6對(duì)本發(fā)明的系統(tǒng)和工作流程作進(jìn)一步說(shuō)明。
[0034] 1.關(guān)于垂直領(lǐng)域本體知識(shí)庫(kù)構(gòu)建: 對(duì)垂直領(lǐng)域的知識(shí)進(jìn)行分類,分析概念及其屬性之間的關(guān)系,實(shí)現(xiàn)領(lǐng)域知識(shí)的表達(dá)。
[0035] 領(lǐng)域本體中的類、實(shí)例、屬性:類和實(shí)例與面向?qū)ο笾蓄惡蛯?duì)象是相似的,屬性描 述類或?qū)嵗g的關(guān)系。
[0036] 如圖4中,"地點(diǎn)"作為一個(gè)類,有"蘇州"作為它的實(shí)例,有一個(gè)惠氏金裝系列的實(shí) 例"Wyeth惠氏_金裝健兒樂(lè)奶粉2段400g",它的產(chǎn)地是蘇州。"產(chǎn)地"作為屬性連接兩個(gè)實(shí) 例。
[0037] 2.本體中詞語(yǔ)相似度的計(jì)算: 詞匯對(duì)應(yīng)于本體中的類、實(shí)例或?qū)傩?。所有概念形成有向圖,定義父類與直接子類的距 離為1,類與其實(shí)例的距離為1,屬性與其定義域和值域的距離分別為1,詞匯Wl、W2的距離依 照上述定義累加。WO為Wl和W2的最近公共父節(jié)點(diǎn)。則兩個(gè)詞匯的語(yǔ)義相似度采用公式:
如圖3:以"Thing"為根節(jié)點(diǎn),深度為0,"Wyeth惠氏_金裝健兒樂(lè)奶粉2段400g"的深度 為5,和"Wyeth惠氏_金裝幼兒樂(lè)奶粉3段400g"的深度為5,它們的最近公共父節(jié)點(diǎn)"金裝系 列"的深度為4,則他們的相似度為霉_ : a||+j_ =0.80。
[0038] 或:
α是一個(gè)可調(diào)節(jié)的參數(shù),表示兩個(gè)詞匯相似度為0.5時(shí)的距離其公共父節(jié)點(diǎn)的值。
[0039] 如圖3:設(shè)α=1.6,以"Thing"為根節(jié)點(diǎn),深度為0,"Wyeth惠氏_金裝健兒樂(lè)奶粉2段 400g"和"Wyeth惠氏_金裝幼兒樂(lè)奶粉3段400g",它們距最近公共父節(jié)點(diǎn)"金裝系列"的距 離都為1,則他們的相似度為:
[0040」最后,按照相似度由高到低排序,最后選取第一個(gè)(相似度最高的)問(wèn)題所對(duì)應(yīng)的 答案作為所提問(wèn)題的最終答案,并由答復(fù)輸出模塊輸出。
[0041 ] 3.問(wèn)句中詞語(yǔ)權(quán)重的確定: 用戶問(wèn)句中不同的詞所占的權(quán)重是不同的,比如問(wèn)句"請(qǐng)問(wèn)花王紙尿褲有沒(méi)有日本原 裝的?","花王紙尿褲"和"日本原裝"的詞語(yǔ)權(quán)重高于"請(qǐng)問(wèn)"、"有"、"沒(méi)有"、"的"。具體的確 定方法是: 1)維護(hù)停用詞表,將"的""呢""啊"等無(wú)語(yǔ)義的詞排除,不計(jì)入句子相似度計(jì)算。
[0042] 2)問(wèn)句中出現(xiàn)子類與其父類相鄰的情況刪除父類。中文會(huì)出現(xiàn)語(yǔ)義重復(fù)的情況, 如圖3中"惠氏奶粉",惠氏是奶粉的子類,子類的信息覆蓋父類的信息,且子類攜帶的信息 更加詳細(xì)具體,在這種情況下,我們只需考慮子類所攜帶的信息。
[0043] 3)分析詞語(yǔ)之間的依賴關(guān)系,若W1、W2為修飾關(guān)系,且在本體中為主語(yǔ)謂語(yǔ)的關(guān)系 則將其賓語(yǔ)添加到詞匯表中。
[0044] 如圖4:所示本體中的主謂賓三元組,"Wyeth惠氏_金裝健兒樂(lè)奶粉2段400g -產(chǎn) 地-蘇州","Wyeth惠氏_金裝健兒樂(lè)奶粉2段400g"是主語(yǔ),"產(chǎn)地"是謂語(yǔ),"蘇州"擔(dān)任賓語(yǔ) 的角色。
[0045]示例1:問(wèn)句:"Wyeth惠氏_金裝健兒樂(lè)奶粉2段400g的產(chǎn)地是哪兒?",在中文"A的 B",在A修飾B的情況下,將"蘇州"添加到詞匯表中。
[0046] 4 )領(lǐng)域本體中的概念是與系統(tǒng)相關(guān)度較高的詞匯,且隨著概念深度的增加,概念 攜帶的信息越詳細(xì),因此領(lǐng)域知識(shí)中的詞匯權(quán)重高于一般詞匯,且詞匯的權(quán)重隨詞匯的深 度而增加。
[0047]
其中α是一個(gè)可調(diào)節(jié)的參數(shù),調(diào)節(jié)概念的權(quán)重,本文設(shè)置α的值為1,表示領(lǐng)域本體中概 念的權(quán)重在1-2之間。
[0048] 如圖3中,以"Thing"為根節(jié)點(diǎn),深度為0,"惠氏"的深度為3,即:__%_= 3, 5,詞語(yǔ)"惠氏"的權(quán)重為Weighty = 1 +亡=1.6。
[0049] 5)按照詞匯的字?jǐn)?shù)長(zhǎng)度來(lái)計(jì)算: 示例2:針對(duì)奶粉與寶寶年齡的關(guān)系,構(gòu)建的本體信息對(duì)語(yǔ)義分析的作用。
[0050] 如圖6,依據(jù)奶粉的段數(shù)與適合寶寶的年齡,構(gòu)建相應(yīng)領(lǐng)域本體,系統(tǒng)會(huì)識(shí)別"四個(gè) 月"為"0-6個(gè)月"范圍內(nèi),從而尋找標(biāo)準(zhǔn)答案中含"0-6個(gè)月"的問(wèn)題,在答復(fù)輸出模塊上的顯 示內(nèi)容如下:
如圖5,用戶輸入問(wèn)句"為什么米粉有哈喇味兒啊?",系統(tǒng)在分詞的同時(shí)對(duì)詞語(yǔ)進(jìn)行標(biāo) 準(zhǔn)化,將"哈喇味兒"標(biāo)準(zhǔn)化為"異味";去停用詞,將"有""啊"去掉;查數(shù)據(jù)庫(kù)倒排索引表 中含有[原因,米粉,異味]的問(wèn)句,并將問(wèn)題按照含關(guān)鍵詞的數(shù)量排序,取前15個(gè)問(wèn)句作 為候選問(wèn)題;使用VSM算法,依次計(jì)算這15個(gè)候選問(wèn)題的分詞去停用詞結(jié)果與[原因,米粉, 異味]的相似度,排序;相似度選取最高的問(wèn)題的答案返回。
【主權(quán)項(xiàng)】
1. 一種面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng),其特征在于,包括以下組成部分: (1) 提問(wèn)模塊:用于向系統(tǒng)輸入問(wèn)題; (2) 預(yù)處理模塊:包括垂直領(lǐng)域本體,用于將本體中的類、屬性、實(shí)例名稱添加到分詞詞 典中,并標(biāo)注相應(yīng)詞性; (3) 分詞和詞匯標(biāo)準(zhǔn)化模塊:用于對(duì)問(wèn)句進(jìn)行分詞,標(biāo)注每個(gè)詞的詞性,和本體中的分 類標(biāo)記; (4) 凈化詞模塊:用于對(duì)分詞后的集合進(jìn)行去停用詞,去掉無(wú)實(shí)際意義的語(yǔ)氣詞、寒暄 詞; (5) 同義詞擴(kuò)展模塊:用于整理垂直領(lǐng)域的相關(guān)同義詞詞林,對(duì)詞義進(jìn)行擴(kuò)展; (6) 本體擴(kuò)展模塊:用于對(duì)分詞后的詞匯集合進(jìn)行判斷,若是本體中的詞匯,對(duì)詞匯間 的關(guān)系進(jìn)行分析,進(jìn)行擴(kuò)展或刪除,并設(shè)置該詞匯在句子中的權(quán)重;若不是本體中的詞匯, 按照普通詞語(yǔ)的相似度進(jìn)行計(jì)算; (7) 句子相似度計(jì)算模塊:結(jié)合所述的詞匯在句子中的權(quán)重,計(jì)算FAQ庫(kù)中候選問(wèn)題與 問(wèn)句的句子相似度; (8) 答復(fù)輸出模塊:用于輸出問(wèn)題的答案。2. 根據(jù)權(quán)利要求1所述的面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng),其特征在于,所述的提問(wèn)模塊 采用鍵盤(pán)、語(yǔ)音、手寫(xiě)或圖像采集裝置輸入;所述的答復(fù)輸出模塊采用顯示器、揚(yáng)聲器或打 印機(jī)。3. 根據(jù)權(quán)利要求1所述的面向垂直領(lǐng)域的智能問(wèn)答系統(tǒng),其特征在于,該系統(tǒng)的工作流 程包括: (1) 預(yù)處理:構(gòu)建垂直領(lǐng)域本體,將本體中的類、屬性、實(shí)例名稱添加到分詞詞典中,并 標(biāo)注相應(yīng)詞性; (2) 對(duì)問(wèn)句進(jìn)行分詞并進(jìn)行詞語(yǔ)標(biāo)準(zhǔn)化,標(biāo)注每個(gè)詞的詞性,和本體中的分類標(biāo)記; (3) 對(duì)分詞后的集合進(jìn)行去停用詞,去掉無(wú)實(shí)際意義的語(yǔ)氣詞、寒暄詞; (4) 整理垂直領(lǐng)域的相關(guān)同義詞詞林,對(duì)詞義進(jìn)行擴(kuò)展; (5) 對(duì)分詞后的詞匯集合進(jìn)行判斷,若是本體中的詞匯,對(duì)詞匯間的關(guān)系進(jìn)行分析,進(jìn) 行擴(kuò)展或刪除,并設(shè)置該詞匯在句子中的權(quán)重;若不是本體中的詞匯,按照普通詞語(yǔ)的相似 度進(jìn)行計(jì)算; (6) 結(jié)合詞匯在句子中的權(quán)重,計(jì)算FAQ庫(kù)中候選問(wèn)題與問(wèn)句的句子相似度; (7) 輸出問(wèn)題答案:按照相似度由高到低排序,最后選取相似度最高的問(wèn)題所對(duì)應(yīng)的答 案作為問(wèn)題的答案。
【文檔編號(hào)】G06F17/27GK105843897SQ201610167602
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】張振峰, 于忠清, 劉曉強(qiáng)
【申請(qǐng)人】青島海爾軟件有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
贵溪市| 河东区| 平顶山市| 肃南| 龙井市| 威宁| 阿拉尔市| 岱山县| 鄂伦春自治旗| 呼玛县| 清苑县| 锡林郭勒盟| 栾城县| 句容市| 西吉县| 襄垣县| 尼木县| 丽水市| 赞皇县| 云霄县| 邹平县| 达拉特旗| 锦屏县| 孟州市| 双柏县| 高平市| 兴城市| 饶河县| 蒙城县| 张家界市| 盘锦市| 都昌县| 留坝县| 田东县| 阿城市| 定州市| 长阳| 开江县| 巴马| 海南省| 林口县|