欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

旅游領域faq中文問答系統(tǒng)實現(xiàn)方法

文檔序號:6460339閱讀:385來源:國知局

專利名稱::旅游領域faq中文問答系統(tǒng)實現(xiàn)方法
技術領域
:本發(fā)明涉及一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,尤其是一種基于旅游領域常問問題庫(FAQ)的問答系統(tǒng)實現(xiàn)方法,屬于人工智能領域。
背景技術
:常問問題FAQ(Frequently-askedQuestion)是當前網(wǎng)絡上提供在線幫助的主要手段,通過事先組織好一些可能的常問問答對,發(fā)布在網(wǎng)頁上為用戶提供咨詢服務。FAQ知識組織簡單、維護方便,但是,隨著常問問題集的逐漸積累,問題數(shù)量日益增多,逐頁瀏覽式的知識獲取途徑將越來越難于滿足用戶的實際需求,將會浪費用戶大量的寶貴時間,甚至當用戶訪問了所有鏈接時才發(fā)現(xiàn)根本沒有自己真正需要的信息,耗時費力。
發(fā)明內(nèi)容本發(fā)明的目的正是為解決上述問題而提供一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,以高效,快速、準確地為用戶提供咨詢服務。本發(fā)明通過下列技術方案完成一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于包括(1)FAQ收集與組織結合人工或半自動方式從互聯(lián)網(wǎng)上提取旅游問答對,并整理進入旅游問答庫,形成旅游FAQ庫;(2)旅游領域知識庫構建構建并維護旅游領域知識結構及關系,形成旅游領域知識庫;(3)用戶査詢在互聯(lián)網(wǎng)上,用戶通過自然語言問題進行旅游信息査詢;(4)問題分析對用戶輸入的問題進行分析,提取表征問題的關鍵詞、擴展詞、句法依存對、問題類型等信息;(5)答案提取根據(jù)問題分析結果,從常問問題庫(FAQ)中提檢索侯選問題,采用領域問題相似度計算方法,計算用戶問題與侯選問題相似度,提取相似度最大的問題答案作為侯選答案,并提供給用戶,返回最終用戶查詢答案;用戶可以提供面向文本的自然語言問題,系統(tǒng)直接返回答案,而不是和問題相關的大量網(wǎng)頁。所述步驟(1)FAQ收集與組織方法具體為第一種通過網(wǎng)絡爬蟲從互聯(lián)網(wǎng)上自動爬取,并通過人工篩選進入FAQ庫;第二種是通過人工收集與整理獲得,針對旅游領域,專門收集地方、景點、風土人情、酒店等相關介紹、門票、交通等相關問題,分類整理和組織FAQ問答對并進入FAQ庫;第三種則是由系統(tǒng)自動記錄用戶輸入但在問句庫中不存在的新問句,并把這類問句統(tǒng)一保存到問答歷史庫中,定期由人工審核整理,把對應的答案和問句一起入FAQ庫。所述FAQ的問答對的存儲通過建立問題(question)和答案(answer)兩個關系表,分別通過主鍵(Questionid,Answerid)進行答案索引;問題表的存儲,為了便于快速檢索,采用倒排索引方式進行存儲,建立詞與問句之間的倒排索引文檔,候選問題集的選擇從索引文檔中提取,而最終答案則根據(jù)問題表中存放的答案answerid從數(shù)據(jù)庫中直接輸出。所述步驟(2)主要利用了本體論的思想,借助現(xiàn)有的中科院院語言信息中心董振東先生的"知網(wǎng)"進行領域術語的擴展。所述步驟(2)具體為借助本體論的思想對云南旅游領域資源的概念進行精確描述,以"知網(wǎng)"為基礎,采用"知網(wǎng)"的概念描述語言KDML規(guī)則,建立了專門的云南旅游領域本體,形成云南旅游領域資源本體庫領域知網(wǎng)體系,并實現(xiàn)了云南旅游知識庫"領域知網(wǎng)"與常識知識庫"知網(wǎng)"的融合。目前共對云南旅游景點介紹、風土民情、旅游交通等旅游相關2012個概念進行了定義和描述,形成了云南旅游領域"知網(wǎng)"。因為相對于開放域來說,受限域具有一定的領域知識特點,借助于領域知識關系能夠降低自然語言處理的難度。本體論(Ontology)是一種對概念的精確描述,特別是對領域概念的描述,是一種很好的領域知識表示方式。本體通過對概念、術語及其相互關系的規(guī)范化描述,勾畫出某一特定領域的基本知識體系結構。"知網(wǎng)"HowNet是一部通用常識資源,其描述了漢語和英語的詞語所代表的概念,揭示概念與概念之間以及概念所具有的屬性和屬性之間的關系。借助本體論的思想對旅游領域資源的概念進行精確描述,以"知網(wǎng)"為基礎,采用"知網(wǎng)"的概念描述語言KDML規(guī)則,建立了專門的旅游領域本體,形成旅游領域資源本體庫領域知網(wǎng)體系,并實現(xiàn)了旅游知識庫"領域知網(wǎng)"與常識知識庫"知網(wǎng)"的融合。目前共對云南旅游景點介紹、風土民情、賓館酒店、旅游交通等旅游相關2012個概念進行了定義和描述,形成旅游領域知識庫。所述步驟(3)具體為用戶可以通過互聯(lián)網(wǎng)進行相關旅游領域問題査詢,采用自然語言方式進行査詢,并直接得到問題的答案。所述步驟(4)具體為通過問句分析模塊對用戶輸入的問題進行分析,主要包括詞法分析、句法分析及語義分析,詞法分析主要對問題進行分詞,過濾停用詞,提取査詢核心詞及借助"知網(wǎng)"進行關鍵詞擴展;句法分析主要對提取問句的核心詞干,借助哈工大句法分析器,提取問句句法依存對;語義分析主要分析問句語義信息,根據(jù)旅游領域特點,定義并提取旅游領域問題類型特征句模規(guī)則,并通過規(guī)則匹配方式實現(xiàn)問句類型的識別,具體是A、問題關鍵詞、擴展詞提取問題關鍵詞和擴展詞是表征問題的基本要素,也是候選問題集檢索和答案提取的基礎。通過加載領域知識庫,在對問句分詞后再進行一次領域術語切分,實現(xiàn)領域術語切分與詞性標注,并利用"知網(wǎng)",對關鍵詞進行同義擴展,形成關鍵詞擴展詞。B、問句句法依存對提取由于一個完整的漢語句子是由句子的主干成分和修飾成分所構成,而人們往往從主干成分就可以了解一個句子的大概意思,由于目前完全句法分析存在很多困難,所以在進行句子相似度計算時,可以通過句子之間有效搭配對的相似度來體現(xiàn)句子之間相似度。所謂有效搭配對是指全句核心詞和直接依存于它的有效詞組成的搭配對,這里有效詞定義為動詞、名詞以及形容詞,它是由分詞后的詞性標注決定的。并通過哈工大的共享語言技術平臺LTP接口獲取句子有效搭配對。C、旅游領域問句分類問題類型是定位答案及制定析取答案策略的關鍵因素,在問句分析時,判斷兩個問題是否相似,首先得判斷兩個問題的問題類型是否一致,如果一致,才能進行進一步的相似度計算判斷,否則兩個問題不可能相似。在特定領域內(nèi),由于業(yè)務相對固定,因此問句詢問內(nèi)容形式相對受限,因此可以針對問答業(yè)務對問題進行分類,以此來提高相似問句檢索及答案抽取的準確率,在旅游領域,提取構建了各種問題類型的構成規(guī)則,并通過這些特征識別問題類型。所述步驟(5)答案提取方法具體為根據(jù)問題分獲取的問題類型、問題關鍵詞、問題擴展詞等問句關系信息,采用lucene從常問問題庫(FAQ)中檢索侯選問題集,借助領域問題相似度計算方法,提取相似度最大的侯選問題答案作為答案,并返回給用戶,具體是A、候選問題集的選擇與問句索引建立候選問題集的目的是縮小査找范圍,使后續(xù)的相似度計算等較為復雜的過程都在候選問題集這個相對較小的范圍內(nèi)進行,從而提高系統(tǒng)的檢索效率。在旅游(FAQ)問答系統(tǒng)中采用Lucene檢索系統(tǒng)實現(xiàn)候選問題檢索和問句索引。B、旅游領域問句相似度計算問句相似度計算是FAQ中相似問句查找的基礎,同時也是答案提取的關鍵,其直接影響答案提取的準確程度,當前已有多種中文句子相似度計算方法,通常分為三個等級語法相似度、語義相似度和語用相似度。但這些相似度計算方法在領域(FAQ)問答系統(tǒng)中都有不同的缺陷。在此結合旅游領域問句特點,綜合考慮詞的語義距離、句法依存關系及領域概念語義關系因素,提出了一種問句相似度計算方法,該方法首先利用領域問題特點,根據(jù)問題類別進行相似問題過濾,然后以"知網(wǎng)"及"領域知網(wǎng)"知識庫為基礎,采用句法分析提取問句有效依存對,并利用依存對和概念語義關系,實現(xiàn)旅游領域問句之間相似度計算。計算關鍵步驟如下(1)詞的語義相似度計算詞是組成句子的基礎,句子相似度必須通過句子包含詞之間的相似度來表現(xiàn),計算方法參照劉群基于"知網(wǎng)"的詞語語義相似度計算方法,計算過程如下&m(C',C2)=XAitS(c,,C2)(1)其中,&'((^^2)為概念的第一個獨立義原相似度、S/^(q,C2)為其他獨立義原的相似度、s^3(G,e2)為關系義原相似度、和s—(q,c:2)為符號義原相似度,ei(i《i《4)為可調(diào)節(jié)的參數(shù),且A+A+A+A=l,A2A^A^A,A^0.5。(2)問句句法依存對相似度計算根據(jù)問題句法分析可提取問句的句法依存對,在提取獲得了兩個問句的有效搭配對后,必須比較兩個問句有效搭配對之間的相似度,為了計算問句間有效搭配對相似度,首先必須計算兩個有效搭配對之間對應詞之間的相似關系,根據(jù)知網(wǎng)消歧標注結果,采用基于"知網(wǎng)"詞語相似度計算方法(A步驟),分別計算依存對上兩個對應詞語的相似度,然后取兩個相似平均值得到兩個有效依存對的相似度。然后根據(jù)依存對的相似度計算問句之間相似度,對于任意兩個問句A和B,A包含的問句句子依存對為Ai,A2,...,Am,B包含的問句句子依存對為Bi,B2,…,Bn,首先以問句A中的依存對為基準,計算依存對Ai(l^i^n)和Bj(l^^n)之間的相似度S(Ai,Bj),根據(jù)式(2)依次挑選S(Ai,Bj)最大的依存對,直到A句子中的依存對為空,挑選出一個句子有效依存對集合{"'},同樣以B有效句子依存對為基準,計算句子依存對Bj(l3'^i)與Ai(兇^n)之間的相似度表示為S(Bj,Ai),根據(jù)式(3)依次挑選S(Bj,Aj)最大的依存對,直到B句子中的依存對為空,挑選出一個句子有效依存對集合{~}。a,=max(S(4,A),S(4,£2),A,S(4,B))②~=ma,,4賜,4),A,S(5"4J)(3)(3)旅游領域問句相似度計算在進行問句類型判斷和問句依存對提取后,就可以根據(jù)依存對相似度計算獲得的兩個依存對集合{a,},{~}進行問句相似度計算,計算公式如下<formula>formulaseeoriginaldocumentpage8</formula>采用有效句法依存對進行問句相似度計算,大大降低算法的復雜度,準確率會得到一定程度的提高。這種方法從淺層句法進行考慮,考慮到了詞與詞之間的依存關系,對句子的理解更加充分,從而能夠更準確的得到句子相似度的值。C、相似問題的檢索與答案提取確定候選問題集后,進一步就是從候選集中挑選出與目標問句最為相似的問句。相似問句檢索的思想是計算候選問題集中每個問句與目標問句之間的相似度,取相似度大于系統(tǒng)指定閾值X的問句作為相似問句,并根據(jù)該問句對應的答案編號(Answerld),從數(shù)據(jù)庫中自動抽取出有關答案作為輸出結果返回給用戶。根據(jù)旅游領域問句特點,結合詞語義信息、問句句法依存關系及領域概念關系進行相似度計算,具體方法見前述旅游領域問句相似度計算方法內(nèi)容,最終實現(xiàn)中文問句的相似度計算。所述答案提取方法依據(jù)領域問句相似度計算方法提取用戶最相關問題,領域問句相似度計算方法融合了領域知識概念及關系(旅游領域術語及關系)、句法結構(句法依存對及關系)及語義(問題類型)等多特征進行句子相似度計算。本發(fā)明具有下列優(yōu)點和效果本發(fā)明借助于本體論的思想,以"知網(wǎng)"常識庫為基礎,采用KDML描述語言,定義和描述了旅游領域術語與關系,擴展旅游領域術語描述,構建旅游領域知識庫-領域知網(wǎng),實現(xiàn)了"旅游領域知網(wǎng)"與常識庫"知網(wǎng)"的融合。通過詞法、句法和語義分析用戶自然語言問題,提取識別問題關鍵詞、擴展詞、問題類別、問句主干、句法依存對等問句表征,并結合領域知識、句法依存關系、語義關系,實現(xiàn)問句相似度計算,并以相似度計算為基礎,從侯選問題集中檢索相關問句,提取問題答案,使旅游領域常問問題(FAQ)中文問答系統(tǒng)能夠實現(xiàn),且具有高效,快速、準確。云南旅游FAQ問答系統(tǒng)測試結果表明該方法可行,有較好的效果。圖1是旅游FAQ問答系統(tǒng)結構圖。具體實施例方式實施例如圖l,本發(fā)明提供的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,具體步驟如下步驟一,F(xiàn)AQ收集與組織FAQ庫是問答的核心資源,主要通過三種途徑獲得第一種通過網(wǎng)絡爬蟲從互聯(lián)網(wǎng)上自動爬取,并通過人工篩選進入FAQ庫;第二種是通過人工收集與整理獲得,針對旅游領域,專門收集地方、景點、風土人情、酒店等相關介紹、門票、交通等相關問題,分類整理和組織FAQ問答對;第三種則是由系統(tǒng)自動記錄用戶輸入但在問句庫中不存在的新問句,并把這類問句統(tǒng)一保存到問答歷史庫中,定期由人工審核整理,把對應的答案和問句一起入庫。FAQ通過數(shù)據(jù)庫方式存儲,為提高存取速度,定義了問題(Question)和答案(Answer)兩個關系表,其中問題表(Question)主要存儲問題及答案索引信息,包括問題編號(Questionld)、問題(Question)、問題類型(QuestionType)及答案編號(Answerld),答案表(Answerld)存儲答案信息,包括答案編號(Answerld)及答案(Answer)。由于關系表僅僅用于FAQ的數(shù)據(jù)存儲和答案的定位提取,為便于候選問題快速檢索,對所有的問句都以分詞后的詞為索引、建立詞-問句倒排索引文擋,候選問題集的選擇從索引文檔中提取,而最終答案則根據(jù)問題表中存放的答案編號(Answerld)從答案表中直接定位輸出。由于人們經(jīng)常有新的問題加入,因此,需要經(jīng)常擴展新的問題到FAQ中,擴展和更新問題首先必須判斷新輸入的問題是否在FAQ中有相同或相似問題,判斷依據(jù)是計算用戶輸入的目標問句與候選問題集中每個問句的相似度,設定一個閾值,如果兩個問句之間相似度不小于指定的閾值,則認為FAQ中該問句與輸入問句在語義上等同,是同一個問題的兩種說法,不需要擴展相關問題。如果兩個問句相似度小于指定閾值,就表示現(xiàn)有的FAQ庫中沒有用戶所問的問題。對于這類情況,系統(tǒng)首先把該問句記錄到問答歷史庫中,并定期由計算機輔助人工整理,把歷史庫中的新問題和對應的答案加入FAQ庫中并建立增量索引,從而實現(xiàn)FAQ數(shù)據(jù)的更新。步驟二,領域知識庫構建借助本體論的思想對旅游領域資源的概念進行精確描述,以"知網(wǎng)"為基礎,采用"知網(wǎng)"的概念描述語言KDML規(guī)則,建立了專門的旅游領域本體,形成旅游領域資源本體庫領域知網(wǎng)體系,并實現(xiàn)了旅游知識庫"領域知網(wǎng)"與常識知識庫"知網(wǎng)"的融合。目前共對云南旅游景點介紹、風土民情、賓館酒店、旅游交通等旅游相關2012個概念進行了定義和描述,如概念"香格里拉"和"麗江古城"的精確描述如下N0.=130001w一c-香格里拉GONE—C=是個美麗的地方W—E=xigelilaG_E=NE—E=~isabeautiftilplaceDEF=placel地方,cityl市,ProperNamel專,(Diqingl迪慶州),(Yunnanl云南省),(Chinal中國)NO.=130002W一CHl江古城G_C=NE—C-很特別W—E=01dTownofLijiangG—E=NE—E=~isveryspecialDEF二placel地方,ProperNamel專,cityl市,pastl昔,(scenel景區(qū)),(lijiangl麗江),(Yunnanl云南)步驟三,用戶查詢在互聯(lián)網(wǎng)上,實現(xiàn)基于Web方式的問答查詢接口,用戶可以通過自然語言問題方式進行旅游相關信息查詢;步驟四,問題分析問題分析是對用戶輸入的自然語言問題進行分析,提取表征問題的關鍵詞、擴展詞、句法依存對、問題類型等信息,具體是1)問題關鍵詞、擴展詞提取問題關鍵詞和擴展詞是表征問題的基本要素,也是候選問題集檢索和答案提取的基礎。因此,對問題進行分詞和詞性標記,但對于特定領域,由于領域詞匯可能在通用詞庫中未能現(xiàn)過,因此分詞系統(tǒng)不能很好的識別領域詞匯,導致一個領域詞匯可能會被切分成多個通用詞匯,為此,通過加載領域知識庫,在對問句初切分后再進行一次領域術語切分,從而很好的實現(xiàn)了領域術語切分與詞性標注,在進行詞語切分后,去除停用詞,提取名詞、動詞、形容詞、限定性副詞構成問題關鍵詞,并利用"知網(wǎng)",對關鍵詞進行同義擴展,形成關鍵詞擴展詞。2)問句句法依存對提取由于一個完整的漢語句子是由句子的主干成分和修飾成分所構成,而人們往往從主干成分就可以了解一個句子的大概意思,由于目前完全句法分析存在很多困難,所以在進行句子相似度計算時,可以通過句子之間有效搭配對的相似度來體現(xiàn)句子之間相似度。所謂有效搭配對是指全句核心詞和直接依存于它的有效詞組成的搭配對,這里有效詞定義為動詞、名詞以及形容詞,它是由分詞后的詞性標注決定的。全句核心詞即為依存樹的根結點。例如問題Q1:傣族有哪些特色節(jié)日?和問題Q2:云南的少數(shù)民族有些什么節(jié)日?,其中問句1的有效搭配對為有-節(jié)日、有-傣族;問句2的有效搭配對為有-節(jié)日、有-少數(shù)民族。只要比較這些搭配對之間的相似程度即可,句子依存對采用哈工大的共享語言技術平臺LTP接口獲取。3)旅游領域問句分類問題類型是定位答案及制定析取答案策略的關鍵因素,比如問"景點介紹"類型的問題,就不能用"風味特色"問題類型的內(nèi)容進行回答,問題類型在相似問句檢索和答案提取方面有著非常重要的地位,在問句分析時,判斷兩個問題是否相似,首先得判斷兩個問題的問題類型是否一致,如果一致,才能進行進一步的相似度計算判斷,否則兩個問題不可能相似。在特定領域內(nèi),由于業(yè)務相對固定,因此問句詢問內(nèi)容形式相對受限,因此可以針對問答業(yè)務對問題進行分類,以此來提高相似問句檢索及答案抽取的準確率,在旅游領域,將常問問題分為景點介紹、景點位置,景點門票價格,風味小吃、特產(chǎn)介紹,風俗節(jié)曰等23細類型,并根據(jù)這些問題類型的特點提取各種點問題類型的特征規(guī)則,比如景點位置類型,其相關問題形式為****景點在哪里?,****景點位于什么地方?,***景點地處何處等,其類型構成規(guī)則為***(景點)+地處/位于/在+疑問詞(哪里)。提取構建了各種問題類型的構成規(guī)則,并通過這些特征識別問題類型。步驟五,答案提取答案提取方法主要包括以下幾個步驟1)候選問題集的選擇與問句索引建立候選問題集的目的是縮小査找范圍,使后續(xù)的相似度計算等較為復雜的過程都在候選問題集這個相對較小的范圍內(nèi)進行,從而提高系統(tǒng)的檢索效率。由于候選問題集的作用是從大規(guī)模問句集中快速取出一個模糊相關、但相對較小的子集合,因此,可以選擇成熟穩(wěn)定的檢索系統(tǒng)來實現(xiàn)候選問題檢索,Lucene作為一個功能強大、跨平臺的檢索系統(tǒng),已經(jīng)得到了廣泛應用,如Sogou新聞部分的檢索,JiveWEB論壇、Cocoon、Eclipse的幫助部分等。選擇開源Lucene用于候選問題集檢索,該模塊檢索的效率和準確率能得到有效保證。Lucene在為文件建立索引時,首先需要將其轉換為能夠識別的文檔(Document)對象,每個文檔則由一個或者多個的字段(Field)對象組成,字段又包含有一個名稱和對應的值,如同散列表中的一個項目。在實際應用中,字段一般都對應于與査詢或者檢索結果相關的一段信息,例如,網(wǎng)頁標題需要出現(xiàn)在搜索結果里,所以可以把它作為一個字段添加到文檔對象中。字段既可以被索引,也可以不被索引而直接保存到文檔中,如對于唯一的ID,就無需索引,只要保存即可。由于漢語與英文不同,詞語之間缺少分割標記,以詞為處理單位的Lucene無法解析中文文本,因此,增加了以下3個關鍵處理過程,用于實現(xiàn)對中文文本的索引:首先,對輸入句子進行分詞處理,從而獲取問句中的每一個詞語。其次過濾問句中的無用信息,主要指停用詞的過濾,如過濾句子中的"的"、"兒"、"啊"等、標點符號等。最后根據(jù)獲得的詞建立索引。在構建索引時,首先創(chuàng)建一個索引構建模塊,其中索引文件的存儲位置和索引內(nèi)容的分析器在其構造函數(shù)中指定,然后順序讀取FAQ庫中問句表的每一條記錄,并以問句為索引內(nèi)容,問句ID、問句對應的答案ID為索引關鍵字建立一個Lucene文檔對象,并把生成的文檔對象加入到索構建模塊中,如此循環(huán)直到把所有問句都加入到索引文檔。對通過檢索獲得的問題,再根據(jù)目標問題問題類型進行過濾,從檢索召回的問題集合中去除與目標問題問題類型不相符的問題形成答案提取的候選問題集。2)旅游領域問句相似度計算問句相似度計算是FAQ中相似問句査找的基礎,同時也是答案提取的關鍵,其直接影響答案提取的準確程度,當前已有多種中文句子相似度計算方法,通常分為三個等級語法相似度、語義相似度和語用相似度。語用相似度具有相當?shù)碾y度,目前效果不理想。而在一般的應用中,計算句子的語義相似度就基本能夠滿足需求。目前對句子語義相似度計算的研究方法主要有基于相同詞匯的方法、基于語義詞典的方法、基于依存樹的方法,以及基于編輯距離的方法等。其中,基于相同詞匯的方法有很明顯的局限性,對于同義詞之間的替換則無能為力。而使用語義詞典的方法,可以很好的解決這一問題,但是單純的使用語義詞典的方法,并沒有考慮到句子內(nèi)部的結構和詞語之間的相互作用關系,準確率不高?;谝来鏄涞姆椒ɡ镁渥又g句法依存關系進行相似度計算,考慮了句子的句法結構關系,但面臨完全句法分析的精度問題,且沒有考慮句法結構中詞匯的同義近義替換。編輯距離方法通常被用于句子的快速模糊匹配領域,但是其規(guī)定的編輯操作不夠靈活,也沒有考慮詞語的同義替換。在分析句子相似度計算存在問題基礎上,結合旅游領域問句特點,綜合考慮詞的語義距離、句法依存關系及領域概念語義關系因素,提出了一種問句相似度計算方法,該方法首先利用領域問題特點,根據(jù)問題類別進行相似問題過濾,然后以"知網(wǎng)"及"領域知網(wǎng)"知識庫為基礎,采用句法分析提取問句有效依存對,并利用依存對和概念語義關系,實現(xiàn)旅游領域問句之間相似度計算。計算關鍵步驟如下A.詞的語義相似度計算詞是組成句子的基礎,句子相似度必須通過句子包含詞之間的相似度來表現(xiàn),在實際應用中,往往會出現(xiàn)兩個問句意思完全一樣,但其表達形式卻不一樣,比如,問題Q3:香格里拉有啥景點?與問題Q4:中甸有那些好玩的地方?,其主要原因是由于詞的同義和相關關系導致的,在一個問句中出現(xiàn)的詞存在一定的同義詞和相關詞,因此,在計算詞語相似度時必須考慮詞的同義和相關關系,而不能只根據(jù)詞本身表層特征進行判斷,利用"知網(wǎng)"及在領域內(nèi)擴展的"領域知網(wǎng)"進行問句的詞語級的相似度的計算,通過對問句進行知網(wǎng)消歧,并利用問句中出現(xiàn)的概念計算問句之間的相似度,概念之間的語義距離定義為兩個概念對應的義原在義原樹中的最短距離,計算方法參照劉群基于"知網(wǎng)"的詞語語義相似度計算方法,計算過程如下5V/n(C"CJ=2AllS(C',C2)(1)其中,S^,(C"C2)為概念的第一個獨立義原相似度、^V"2(C"C2)為其他獨立義原的相似度、S^3(e',q)為關系義原相似度、和^^G,C》為符號義原相似度,Pi(l《i《4)為可調(diào)節(jié)的參數(shù),且A+A+A+A=l,A^A2A^A,A》0.5。B.問句句法依存對相似度計算根據(jù)問題句法分析可提取問句的句法依存對,在提取獲得了兩個問句的有效搭配對后,必須比較兩個問句有效搭配對之間的相似度,為了計算問句間有效搭配對相似度,首先必須計算兩個有效搭配對之間對應詞之間的相似關系,根據(jù)知網(wǎng)消歧標注結果,采用基于"知網(wǎng)"詞語相似度計算方法(A步驟),分別計算依存對上兩個對應詞語的相似度,比如依存對"有-傣族"與"有-少數(shù)民族"的相似度分別計算動詞"有"與"有"的相似度,"傣族"與"少數(shù)民族"之間的相似度,然后取兩個相似平均值得到兩個有效依存對的相似度。然后根據(jù)依存對的相似度計算問句之間相似度,對于任意兩個問句A和B,A包含的問句句子依存對為AuA2,...,Am,8包含的問句句子依存對為81,82,...,811,首先以問句A中的依存對為基準,計算依存對Ai(l^^n)和Bj(l^^n)之間的相似度S(Ai,Bj),根據(jù)式(2)依次挑選S(Ai,Bj)最大的依存對,直到A句子中的依存對為空,挑選出一個句子有效依存對集合{"'},同樣以B有效句子依存對為基準,計算句子依存對Bj(l5j^n)與Ai(lSi5m)之間的相似度表示為S(Bj,Ai),根據(jù)式(3)依次挑選S(Bj,Ai)最大的依存對,直到B句子中的依存對為空,挑選出一個句子有效依存對集合{~}。a,=max),s(4,52),A,S04,,5"))("~=maX(S(57,4),S(A,4),A,,乂,4J)(3)C.旅游領域問句相似度計算在進行問句類型判斷和問句依存對提取后,就可以根據(jù)依存對相似度計算獲得的兩個依存對集合{^},{~}進行問句相似度計算,計算公式如下(藝",)/斜(狄)/".'=1戶l,/2(4)采用有效句法依存對進行問句相似度計算,大大降低算法的復雜度,準確率會得到一定程度的提高。這種方法從淺層句法進行考慮,考慮到了詞與詞之間的依存關系,對句子的理解更加充分,從而能夠更準確的得到句子相似度的值。但是,現(xiàn)有的句法分析技術還不夠成熟,還無法將所有的句法信息特征全部考慮進來,因此計算會產(chǎn)生了一定的誤差。3)相似問題的檢索與答案提取確定候選問題集后,進一步就是從候選集中挑選出與目標問句最為相似的問句。相似問句檢索的思想是計算候選問題集中每個問句與目標問句之間的相似度,取相似度大于系統(tǒng)指定閾值A的問句作為相似問句,并根據(jù)該問句對應的答案編號(Answerfd),從數(shù)據(jù)庫中自動抽取出有關答案作為輸出結果返回給用戶。根據(jù)旅游領域問句特點,結合詞語義信息、問句句法依存關系及領域概念關系進行相似度計算,具體方法見前述旅游領域問句相似度計算方法內(nèi)容,最終實現(xiàn)中文問句的相似度計算??紤]到相似度的計算誤差,系統(tǒng)在給出最優(yōu)答案的同時,還可以給出了前4條次優(yōu)記錄,供用戶選擇,如果最優(yōu)答案并不真正相關,用戶還可以進一步從這些候選答案中查找。從用戶的角度來說,通過把相關問題快速確定到一個較小的集合之中,系統(tǒng)的實用價值就體現(xiàn)出來了。云南旅游FAQ問答系統(tǒng)實驗針對云南旅游領域,構建了旅游領域知識庫,通過"知網(wǎng)"擴展了2012個領域概念得到"領域知網(wǎng)",釆用檢索方式與人工和自動抽取方式收集和組織了23335個問答對,提取了188個不同問句類型特征規(guī)則,采用Web方式實現(xiàn)了云南旅游FAQ問答系統(tǒng)。目前,對該系統(tǒng)進行了兩個方面的測試一方面是面向問句語料庫的問答測試,其中問句語料庫中共收集了關于云南旅游的23335個問答對,在FAQ中存儲,從問句語料庫中任意選取600個問句進行測試;另一方面是面向實際用戶現(xiàn)場測試,組織了10位游客隨機詢問問題。實驗結果如表l所示。表1:云南旅游FAQ問答原型系統(tǒng)測試結果<table>tableseeoriginaldocumentpage15</column></row><table>從實際實驗結果看,通過這種從實際實驗結果看,通過這種方法設計的云南旅游FAQ問答系統(tǒng)是可實用的。權利要求1.一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于包括(1)FAQ收集與組織結合人工或半自動方式從互聯(lián)網(wǎng)上提取旅游問答對,并整理進入旅游問答庫,形成旅游FAQ庫;(2)旅游領域知識庫構建構建并維護旅游領域知識結構及關系,形成旅游領域知識庫;(3)用戶查詢在互聯(lián)網(wǎng)上,用戶通過自然語言問題進行旅游信息查詢;(4)問題分析對用戶輸入的問題進行分析,提取表征問題的關鍵詞、擴展詞、句法依存對、問題類型等信息;(5)答案提取根據(jù)問題分析結果,從常問問題庫FAQ中提檢索侯選問題,采用領域問題相似度計算方法,計算用戶問題與侯選問題相似度,提取相似度最大的問題答案作為侯選答案,并提供給用戶,返回最終用戶查詢答案。2.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,用戶可以提供面向文本的自然語言問題,系統(tǒng)直接返回答案,而不是和問題相關的大量網(wǎng)頁。3.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,所述步驟(1)FAQ收集與組織方法具體為第一種通過網(wǎng)絡爬蟲從互聯(lián)網(wǎng)上自動爬取,并通過人工篩選進入FAQ庫;第二種是通過人工收集與整理獲得,針對旅游領域,專門收集地方、景點、風土人情、酒店等相關介紹、門票、交通等相關問題,分類整理和組織FAQ問答對并進入FAQ庫;第三種則是由系統(tǒng)自動記錄用戶輸入但在問句庫中不存在的新問句,并把這類問句統(tǒng)一保存到問答歷史庫中,定期由人工審核整理,把對應的答案和問句一起入FAQ庫。4.根據(jù)權利要求3所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,F(xiàn)AQ的問答對的存儲通過建立問題question和答案answer兩個關系表,分別通過主鍵Questionid,Answerid進行答案索引;問題表的存儲,為了便于快速檢索,采用倒排索引方式進行存儲,建立詞與問句之間的倒排索引文檔,候選問題集的選擇從索引文檔中提取,而最終答案則根據(jù)問題表中存放的答案answerid從數(shù)據(jù)庫中直接輸出。5.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,所述步驟(2)主要利用了本體論的思想,借助現(xiàn)有的中科院院語言信息中心董振東先生的"知網(wǎng)"進行領域術語的擴展。6.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,所述步驟(2)具體為借助本體論的思想對云南旅游領域資源的概念進行精確描述,以"知網(wǎng)"為基礎,采用"知網(wǎng)"的概念描述語言KDML規(guī)則,建立了專門的云南旅游領域本體,形成云南旅游領域資源本體庫領域知網(wǎng)體系,并實現(xiàn)了云南旅游知識庫"領域知網(wǎng)"與常識知識庫"知網(wǎng)"的融合。目前共對云南旅游景點介紹、風土民情、旅游交通等旅游相關2012個概念進行了定義和描述,形成了云南旅游領域"知網(wǎng)"。7.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,所述步驟(3)具體為用戶查詢提供用戶與自然語言方式進行提問,用戶可以通過互聯(lián)網(wǎng)進行相關旅游領域問題査詢。8.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,所述步驟(4)具體為通過問句分析模塊對用戶輸入的問題進行分析,主要包括詞法分析、句法分析及語義分析,詞法分析主要對問題進行分詞,過濾停用詞,提取查詢核心詞及借助"知網(wǎng)"進行關鍵詞擴展;句法分析主要對提取問句的核心詞干,借助哈工大句法分析器,提取問句句法依存對;語義分析主要分析問句語義信息,根據(jù)旅游領域特點,定義并提取旅游領域問題類型特征句模規(guī)則,并通過規(guī)則匹配方式實現(xiàn)問句類型的識別。9.根據(jù)權利要求1所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于,所述步驟(5)答案提取方法具體為根據(jù)問題分獲取的問題類型、問題關鍵詞、問題擴展詞等問句關系信息,采用lucene從常問問題庫FAQ中檢索侯選問題集,借助領域問題相似度計算方法,提取相似度最大的侯選問題答案作為答案,并返回給用戶。10.根據(jù)權利要求9所述的旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于答案提取方法依據(jù)領域問句相似度計算方法提取用戶最相關問題,領域問句相似度計算方法融合了領域知識概念及關系即旅游領域術語及關系、句法結構即句法依存對及關系及語義即問題類型等多特征進行句子相似度計算。全文摘要本發(fā)明提供一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,包括FAQ收集與組織、旅游領域知識庫構建、用戶查詢、問題分析、答案提取等步驟,使旅游領域常問問題FAQ中文問答系統(tǒng)能夠實現(xiàn)。本發(fā)明借助于本體論的思想,構建了旅游領域知識庫-領域知網(wǎng),利用KDML語言定義和描述了旅游領域術語與關系,并實現(xiàn)了“旅游領域知網(wǎng)”與常識庫“知網(wǎng)”的融合。在此基礎上,提出了一種旅游問句相似度的計算方法,該方法借助旅游領域問句所具有的特點,結合問句中的詞法關系、句法依存關系及領域概念語義關系,實現(xiàn)問句相似度計算,并以相似度計算為基礎,從候選問題集中檢索相關問句,提取問題答案。云南旅游FAQ問答系統(tǒng)測試結果表明該方法可行,有較好的效果。文檔編號G06F17/30GK101373532SQ200810058660公開日2009年2月25日申請日期2008年7月10日優(yōu)先權日2008年7月10日發(fā)明者余正濤,孟祥燕,張志坤,毛存禮,車文剛,郭劍毅,露韓申請人:昆明理工大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
积石山| 长宁区| 竹山县| 石狮市| 乳源| 望城县| 额尔古纳市| 乃东县| 镇宁| 丰台区| 宕昌县| 盈江县| 长汀县| 灵石县| 囊谦县| 封丘县| 平乡县| 烟台市| 曲松县| 江口县| 保亭| 邻水| 冕宁县| 潞西市| 和顺县| 金乡县| 尖扎县| 南汇区| 土默特右旗| 淳化县| 广安市| 教育| 江西省| 临朐县| 平原县| 新昌县| 离岛区| 宝兴县| 措勤县| 神木县| 东平县|