中文問答系統(tǒng)知識(shí)標(biāo)記語(yǔ)言的表示方法及中文問答系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,尤其是一種中文問答系統(tǒng)知識(shí)標(biāo)記語(yǔ)言的表示方法及中文問答系統(tǒng)。
【背景技術(shù)】
[0002]近年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展和人工智能技術(shù)的持續(xù)創(chuàng)新,國(guó)內(nèi)外IT公司紛紛推出各種智能機(jī)器人產(chǎn)品,如以蘋果Siri,GOOGLE Now,微軟小冰,百度語(yǔ)音助手為代表的聊天機(jī)器人,可以滿足人們?nèi)粘I詈土奶烨楦蟹矫娴男枰?;以中科匯聯(lián)微喂和愛客服為代表的客服機(jī)器人,可以滿足政府、企業(yè)為用戶提供準(zhǔn)確、便捷、低成本的專業(yè)服務(wù)的需要。智能機(jī)器人的紛紛涌現(xiàn)和廣泛應(yīng)用,使得智能機(jī)器人技術(shù),與基因工程,納米科學(xué)一起被并稱為21世紀(jì)三大尖端技術(shù),成為基礎(chǔ)性、戰(zhàn)略性的技術(shù),能夠?qū)ιa(chǎn)生活方式產(chǎn)生革命性的影響。智能機(jī)器人技術(shù)的基礎(chǔ)核心為自然語(yǔ)言處理領(lǐng)域中的問答系統(tǒng)相關(guān)技術(shù)。通用的問答系統(tǒng)有四個(gè)主要組成部分:知識(shí)庫(kù),問題理解,知識(shí)檢索和答案生成。知識(shí)庫(kù)存放了問答系統(tǒng)的所有知識(shí),是問答系統(tǒng)的中樞;問題理解實(shí)現(xiàn)對(duì)用戶提問的語(yǔ)義層次的解析和表示;知識(shí)檢索實(shí)現(xiàn)從知識(shí)庫(kù)中檢索與用戶提問語(yǔ)義相關(guān)的候選知識(shí);答案生成基于候選知識(shí),經(jīng)過分析、推理生成最終的答案。這四個(gè)部分都與問答系統(tǒng)的知識(shí)表示息息相關(guān)。然而,科研界和企業(yè)界尚未提出一種針對(duì)中文領(lǐng)域問答系統(tǒng)的知識(shí)表示方法。這種現(xiàn)狀,制約了中文問答系統(tǒng)技術(shù)的深入研究與廣泛應(yīng)用。
[0003]因此,有必要提出一種新的技術(shù)方案。
【發(fā)明內(nèi)容】
[0004]針對(duì)上述問題,本發(fā)明提出一種中文問答系統(tǒng)知識(shí)標(biāo)記語(yǔ)言的表示方法,用于中文問答系統(tǒng)的知識(shí)表示,以推動(dòng)中文問答系統(tǒng)在科研界和企業(yè)界的進(jìn)一步研究和應(yīng)用。
[0005]本發(fā)明提供一種中文問答系統(tǒng)知識(shí)標(biāo)記語(yǔ)言的表示方法,所述中文問答系統(tǒng)知識(shí)標(biāo)記語(yǔ)言的表示方法包括:知識(shí)的基本表示方法,知識(shí)的語(yǔ)義表示方法,知識(shí)模板的表示和實(shí)例化方法,知識(shí)的引用與關(guān)聯(lián)方法,知識(shí)中命名實(shí)體的表示和消歧方法,知識(shí)中表情、數(shù)學(xué)、超文本符號(hào)和時(shí)間的表不方法。
[0006]進(jìn)一步的,所述知識(shí)的基本表示方法包括:知識(shí)主要由ID、參數(shù)和知識(shí)體構(gòu)成,知識(shí)的ID使用實(shí)例名_屬性名〉”表示,ID后面的“{}”內(nèi)部為知識(shí)體定義,所述知識(shí)體包括問題域和答案域,問題域在先,以“<#q>”開頭,答案域在后,以“<#a>”開頭,所述知識(shí)中的注釋以“//”開頭到本行行尾,如果是多行注釋,每行都要以“//”開頭。
[0007]進(jìn)一步的,所述知識(shí)的語(yǔ)義表示方法包括:是將知識(shí)組織成一排有序的語(yǔ)義表達(dá)式詞塊,詞塊之間以單個(gè)空格分隔;簡(jiǎn)單詞塊是句子的分詞,復(fù)雜詞塊是通過在分詞上添加語(yǔ)義表達(dá)式標(biāo)記構(gòu)成,所述復(fù)雜詞塊包括關(guān)鍵詞、同義詞和語(yǔ)序相關(guān);
[0008]關(guān)鍵詞使用“[]”表示;
[0009]如果關(guān)鍵詞語(yǔ)序與語(yǔ)句的語(yǔ)義強(qiáng)相關(guān),則使用“{}”將這些語(yǔ)序相關(guān)的關(guān)鍵詞包括起來(lái);
[0010]在答案內(nèi)部,使用答案變量來(lái)表示變化的內(nèi)容,答案變量的表示方法是“${變量名},,;
[0011 ]在問題域和答案域中,多個(gè)問題或答案之間用“〈I >”隔開;
[0012]如果問題域中有多個(gè)問題,則第一個(gè)問題為標(biāo)準(zhǔn)問題,后續(xù)問題為擴(kuò)展問題,所述擴(kuò)展問題即標(biāo)準(zhǔn)問題的其它問法;
[0013]如果答案域中多個(gè)答案,則第一個(gè)答案為標(biāo)準(zhǔn)答案,后續(xù)答案為擴(kuò)展答案,每個(gè)答案都正確,在無(wú)特定條件限制時(shí)問答系統(tǒng)隨機(jī)給出答案;
[0014]同一個(gè)問題,在特定條件限制下,有特定的答案,對(duì)于這類答案,通過“□”表示特定條件,通過表示條件及其答案之間的分隔符;當(dāng)無(wú)法確定提問滿足的條件時(shí),問答系統(tǒng)支持反問或者枚舉。
[0015]進(jìn)一步的,所述知識(shí)模板的表不和實(shí)例化方法包括:知識(shí)模板的表不方法是在知識(shí)的表示方法的基礎(chǔ)上增加了對(duì)模板參數(shù)的表示,知識(shí)模板的ID使用“〈O實(shí)例名_屬性名模板參數(shù)I,模板參數(shù)2,...>”表示,多個(gè)模板參數(shù)之間使用英文半角“,”隔開,在實(shí)例名、屬性名和知識(shí)體中,使用模板參數(shù)名表示對(duì)模板參數(shù)的引用;
[0016]實(shí)例化方法包括:在ID和知識(shí)體之間,用“()”括起來(lái)的部分表示對(duì)模板的繼承和對(duì)模板參數(shù)的實(shí)例化,如果新的知識(shí)沒有將模板中所有的參數(shù)都實(shí)例化,或者又引入了新的模板參數(shù),則新的知識(shí)依然為模板,并在ID中列出需要實(shí)例化的模板參數(shù),從模板派生的知識(shí),繼承了原模板的問答域和答案域,并能進(jìn)行改寫,在改寫時(shí),能通過“${super.q}”和“$ {super.a}”分別引用原問題和答案。
[0017]進(jìn)一步的,知識(shí)的引用與關(guān)聯(lián)方法包括:在答案域中,通過“%{知識(shí)ID}”能引用其它的知識(shí)的答案,如果用戶提問的知識(shí)中引用了其它知識(shí),則在生成答案時(shí),結(jié)合上下文嵌入所引知識(shí)的答案;
[0018]在答案域中,通過標(biāo)簽:知識(shí)ID}”能鏈接其它知識(shí)的問題;問答系統(tǒng)在顯示答案時(shí),如果答案中包含鏈接,則將鏈接的標(biāo)簽展示給用戶,用戶點(diǎn)擊鏈接,問答系統(tǒng)給所鏈接知識(shí)的答案。
[0019]進(jìn)一步的,知識(shí)中命名實(shí)體的表示和消歧方法包括:對(duì)于存在歧義的命名實(shí)體,通過“#命名實(shí)體@本體類#”的方式進(jìn)行消歧,“##”中間表示命名實(shí)體,所述命名實(shí)體包括人名,地名,機(jī)構(gòu)名,品牌名,產(chǎn)品型號(hào),上下位詞;
[0020]在本體資源描述文件和實(shí)例資源描述文件中對(duì)表示的命名實(shí)體進(jìn)行進(jìn)一步的描述,所述命名實(shí)體包括實(shí)體的具體類別、本體的屬性、實(shí)例的屬性值。
[0021]進(jìn)一步的,知識(shí)中表情、數(shù)學(xué)、超文本符號(hào)和時(shí)間的表示方法包括:
[0022]使用表情的拼音首字母縮寫)”表示表情;
[0023]對(duì)時(shí)間的表示方法如下:
[0024]年月日:YYYY年MM月DD日;
[0025]時(shí)分秒:HH時(shí)MM分SS秒;
[0026]星期:周一,周二,周三,周四,周五,周六,周日;
[0027]其它:今日,明日,昨日。
[0028]本發(fā)明還提供一種中文問答系統(tǒng),所述系統(tǒng)使用上述的知識(shí)標(biāo)記語(yǔ)言的表示方法,
[0029]所述系統(tǒng)包括:
[0030]問題輸入模塊,用于輸入用戶提出的問題;
[0031 ]問題提交模塊,用于提交用戶輸入的問題;
[0032]問題歸一化處理模塊,用于對(duì)提交的問題進(jìn)行問題歸一化處理;
[0033]搜索模塊,用于搜索知識(shí)并進(jìn)行問題匹配,獲得與問題相匹配的答案;
[0034]處理答案模塊,用于處理答案中的語(yǔ)義表達(dá)式,生成答案,并將結(jié)果返回至問答系統(tǒng)界面,若不存在與問題相匹配的答案,則直接將結(jié)果返回至問答系統(tǒng)界面;
[0035]查找鏈接模塊,用于在問答系統(tǒng)界面顯示的結(jié)果中查找鏈接,若返回的結(jié)果中不存在鏈接,則將結(jié)果顯示在問答系統(tǒng)界面;
[0036]答案轉(zhuǎn)換模塊,用于將結(jié)果中的鏈接轉(zhuǎn)換為HTML組件。
[0037]進(jìn)一步的,采用問題歸一化處理模塊對(duì)問題歸一化處理的步驟如下:
[0038]SI 1、刪除問句中的HTML標(biāo)簽;
[0039]S12、將emoli表情符號(hào)轉(zhuǎn)換為所述標(biāo)記語(yǔ)言的表情;