專利名稱::一種用于信息檢索的查詢語句分析方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息檢索
技術(shù)領(lǐng)域:
,具體涉及一種基于自然語言理解的查詢語句分析方法與系統(tǒng)。
背景技術(shù):
:隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展與成熟,網(wǎng)絡(luò)上的信息資源不斷豐富,信息數(shù)據(jù)量也在飛速膨脹。在當(dāng)今社會中,通過搜索引擎上網(wǎng)査信息己成為現(xiàn)代人的主要信息獲取方式。于是,為用戶提供更加便捷而有效的査詢服務(wù),便成為搜索引擎技術(shù)在當(dāng)今和未來的發(fā)展方向。目前大多數(shù)搜索引擎所接受的査詢方式仍是關(guān)鍵詞查詢。這種査詢方式要求用戶將個人的查詢意圖概括為幾個最有效的詞匯,這不僅增加了用戶的負(fù)擔(dān),而且會帶來一定的査詢歧義。例如,現(xiàn)如今當(dāng)用戶在某一搜索引擎中輸入關(guān)鍵詞"蘋果",返回的檢索結(jié)果中排在前幾位的條目很可能都是關(guān)于蘋果電腦的信息。如果用戶想購買蘋果筆記本,那么檢索結(jié)果會符合他的期望。然而,如果用戶想了解"蘋果的營養(yǎng)價值",那么這些結(jié)果則明顯地"答非所問"了。未來更具智能化的搜索引擎應(yīng)支持用戶以自然語言方式進(jìn)行語句査詢。這種像日常對話一樣的查詢方式不僅能使用戶感到方便自然,而且還能夠根據(jù)上下文語境判斷用戶的査詢意圖,克服査詢歧義問題?;诋?dāng)前的自然語言處理技術(shù),可以通過對用戶輸入的査詢語句進(jìn)行自動分析,在理解用戶信息需求的基礎(chǔ)上,確定出合適的無歧義的關(guān)鍵詞檢索項。近年來,自然語言處理的研究取得了很多突破性的進(jìn)展。詞法、句法和語義分析技術(shù)的進(jìn)步使得自然語言處理技術(shù)在機(jī)器翻譯、信息檢索等領(lǐng)域得到了廣泛的應(yīng)用。目前已經(jīng)有一些基于自然語言理解的查詢分析系統(tǒng)(參考申請?zhí)?00810046936、申請日2008-02-26、申請人華中科技大學(xué)、發(fā)明名稱基于自然語言的全文檢索系統(tǒng),的中國專利申請),這些系統(tǒng)通過對査詢語句的分析,得到語句中的詞義,再利用外部詞典或本體庫進(jìn)行關(guān)鍵詞的擴(kuò)展。然而,這些系統(tǒng)僅僅在詞匯的層次上進(jìn)行詞義分析,這還不足以明確用戶的查詢需求,還應(yīng)進(jìn)一步從句子的層次上進(jìn)行句法和語義的分析。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種用于信息檢索的査詢語句分析方法與系統(tǒng)。本發(fā)明用于中文信息檢索系統(tǒng)的用戶查詢分析中。發(fā)明中所闡述的方法通過對用戶輸入的查詢語句進(jìn)行分析,在理解用戶査詢意圖的基礎(chǔ)上,提取有效且無歧義的檢索關(guān)鍵詞。與當(dāng)前主流的關(guān)鍵詞査詢方式相比,本發(fā)明能夠為信息搜索用戶提供更加便捷自然的査詢方式,而且能夠克服關(guān)鍵詞檢索的査詢歧義問題。對自然語言描述的查詢進(jìn)行分析理解,存在著很多技術(shù)難點,而這些技術(shù)難點正是本發(fā)明要重點解決的問題,同時,將這些技術(shù)結(jié)合在一起,進(jìn)一步的引入語義角色標(biāo)注技術(shù),來理解用戶的檢索査詢需求,最終找到合適的檢索關(guān)鍵詞是本發(fā)明的創(chuàng)新和貢獻(xiàn)之所在。本發(fā)明基于自然語言處理技術(shù),設(shè)計了面向自然語言式信息査詢語句的分析系統(tǒng)。系統(tǒng)的整體框架見附圖1。系統(tǒng)主要包括詞法分析、句法分析、語義分析和關(guān)鍵詞提取四個模塊,下面將分別予以介紹1、詞法分析該模塊對輸入的中文査詢語句進(jìn)行自動分詞、命名實體識別和詞性標(biāo)注。分詞是對查詢語句進(jìn)行自動分析和理解的基礎(chǔ)。分詞的同時還要識別人名、地名、機(jī)構(gòu)名這些命名實體,它們不僅含有事件的關(guān)鍵信息,同時還和漢語分詞有著緊密的聯(lián)系。很多命名實體恰為分詞中很難處理的未登錄詞,而分詞的結(jié)果也很大程度地影響著命名實體識別的性能。目前大多采取將分詞和命名體識別視為一個序列標(biāo)注任務(wù)同時實現(xiàn),因而可以采用統(tǒng)計機(jī)器學(xué)習(xí)中的最大熵(MaximumEntropy,ME)、最大熵馬爾科夫(MaximumEntropyMarkovModels,MEMM)或條件隨機(jī)場(ConditionalRandomFields,CRF)等序列標(biāo)注模型,給句子中的每個字標(biāo)記字在詞中的位置和實體類別,進(jìn)而轉(zhuǎn)化成分詞結(jié)果并識別出命名實體。詞性標(biāo)注,即將詞語進(jìn)行分類,可以將句子中具體詞的組合關(guān)系抽象成詞類之間的組合關(guān)系,進(jìn)而可能更容易得到句法結(jié)構(gòu)的規(guī)律。一個詞的不同詞性往往對應(yīng)不同的含義,所以確定詞的詞性對于分析詞和句子的語義也是很重要的。詞性標(biāo)注也可視為序列標(biāo)注問題,故可以采用上述的分類器或序列標(biāo)注模型。模型通過帶詞性標(biāo)注的語料訓(xùn)練參數(shù),再對輸入的詞序列識別詞性。2、句法分析該模塊以分詞后的句子作為輸入,對句子的句法結(jié)構(gòu)進(jìn)行分析。句法分析是保證各種應(yīng)用系統(tǒng)能夠在內(nèi)容層面處理自然語言的核心技術(shù)。所謂句法分析,就是指根據(jù)給定的語法,自動地識別出句子所包含的句法單位和這些句法單位之間的關(guān)系。句法分析對于理解整句的含義有著非常重要的作用。本發(fā)明實現(xiàn)了基于概率上下文無關(guān)文法(ProbabilisticContextFreeGrammar,PCFG)的句法分析系統(tǒng)(參考文獻(xiàn)SlavPetrovandDanKlein.ImprovedInferenceforUnlexicalizedParsing.InProceedingsofHLT/NAACL,2007.),它通過統(tǒng)計得到一套描述句法結(jié)構(gòu)的文法模型,其中包括文法規(guī)則和規(guī)則的概率分布,從而利用得到的文法模型對于輸入的句子進(jìn)行分析,得到句法結(jié)構(gòu)樹。模型需要利用人工標(biāo)注的標(biāo)準(zhǔn)樹庫資源進(jìn)行訓(xùn)練。目前,用于中文句法分析的標(biāo)準(zhǔn)樹庫有美國賓州大學(xué)的中文樹庫和中國清華大學(xué)的中文樹庫。3、語義分析該模塊包括詞義消歧和語義角色標(biāo)注兩個子模塊。由于自然語言中一詞多義現(xiàn)象普遍存在,因此,要讓計算機(jī)正確地分析和理解自然語言,一個重要的前提條件就是能夠在某個特定上下文中,自動排除歧義,確定多義詞的意義,即所謂的詞義消歧。詞義消歧子模塊以詞性標(biāo)注后的句子作為輸入,采用知網(wǎng)(HowNet)的義原表示體系(參考DongZ,DongQ.HowNet,http:〃www.keenage.com/zhiwang/e—zhiwang.html),>|每每個詞的詞義用義原,以及義原和義原之間的關(guān)系來進(jìn)行描述。一個句子的每個詞有一個或多個含義,這樣就存在多個可能的語義的組合,從而形成了一個類似于詞網(wǎng)的結(jié)構(gòu)。我們把網(wǎng)中節(jié)點之間的距離定義為相應(yīng)的義原之間的距離,距離越短,說明這兩個義原之間的相關(guān)性越大。這樣,我們通過動態(tài)規(guī)劃算法,搜索到一條距離最短的路徑。這樣一種搜索策略反映的是基于整句的詞與詞之間的語義關(guān)系,來確定每個詞的意義。詞義消歧僅僅是在詞匯層上進(jìn)行語義分析,對于査詢理解而言,還需要在句子層面上進(jìn)行正確的語義分析,才能更準(zhǔn)確的理解査詢意圖。為此,本發(fā)明對句法分析后的句子進(jìn)行語義角色標(biāo)注。語義角色標(biāo)注,指的是根據(jù)句子的句法結(jié)構(gòu)和句中每個實詞的詞義,標(biāo)注句子中的一些成分作為目標(biāo)動詞(謂詞)的語義角色,這些成分作為謂詞的參數(shù)被賦予一定的語義含義。在此基礎(chǔ)之上可以推導(dǎo)出能夠反映句子意義的形式化表示,從而實現(xiàn)句子層的分析和理解。例如,對于句子"張三吃了蘋果"和"蘋果被張三吃了",雖然它們的表述形式不同,但表示成語義的形式就統(tǒng)一為"吃(張三,蘋果)"。本發(fā)明采用基于分類器的語義角色標(biāo)注方法。該子模塊建立在完全句法分析基礎(chǔ)之上,以句子中的動詞作為目標(biāo)謂詞,把句法成分作為語義標(biāo)注的基本單元,用最大熵、支持向量機(jī)等分類器對句子中謂詞的語義角色同時進(jìn)行識別和分類。4、關(guān)鍵詞提取根據(jù)對査詢句子的在詞法、句法和語義層上的分析,提取能反映用戶信息檢索需求的關(guān)鍵詞。命名實體識別模塊識別出的人名,地名,機(jī)構(gòu)名含有時間描述的關(guān)鍵信息,需要進(jìn)行檢索,而且賦予較高的權(quán)重。利用句法分析模塊,提取主要短語的中心詞作為關(guān)鍵詞。根據(jù)語義角色標(biāo)注的結(jié)果,提取出査詢句子中和目標(biāo)動詞相關(guān)的各種角色,根據(jù)對目標(biāo)動詞的預(yù)劃分的類別和與其相關(guān)的語義角色,抽取選出不同的語義角色對應(yīng)的詞組,并賦予不同的權(quán)重。僅僅利用句子中抽取出來的關(guān)鍵詞是不夠的,還需要結(jié)合詞義消歧的結(jié)果從知網(wǎng)等資源中抽取和這些詞語義近似或相關(guān)的詞,進(jìn)行查詢擴(kuò)展,這一方面進(jìn)一步明確了詞的語義,還避免了同一個概念可以用不同的詞來描述的問題。提取出的關(guān)鍵詞可以直接用在現(xiàn)有的信息檢索系統(tǒng)中,通過構(gòu)建能明確反映用戶需求的查詢,得到用戶期望的檢索結(jié)果。分配出的權(quán)重可以用在進(jìn)一步的分析處理或其他的系統(tǒng)中。如果查詢面對的不是倒排索引這樣的非結(jié)構(gòu)化數(shù)據(jù),而是結(jié)構(gòu)化數(shù)據(jù),則利用語義角色標(biāo)注分析出的句子語義的形式化描述,檢索數(shù)據(jù)項,從而得到更準(zhǔn)確的檢索結(jié)果。本發(fā)明的積極效果為本發(fā)明所提出的解決方案不僅利用了自然語言處理的詞法分析、句法分析、詞義消歧技術(shù),而且還引入語義角色標(biāo)注技術(shù),對用戶用于描述檢索需求的査詢語句進(jìn)行分析和理解。在目前的通用搜索引擎中,査詢面向的數(shù)據(jù)是無結(jié)構(gòu)的索引文件,那么通過分析查詢語句中詞與詞之間的語義關(guān)系,抽取出合適的關(guān)鍵詞并賦予相應(yīng)的權(quán)重,再利用這些關(guān)鍵詞和搜索引擎提供的高級搜索語法進(jìn)行檢索,從而得到用戶期望的檢索結(jié)果。如果面對的是結(jié)構(gòu)化數(shù)據(jù),那么就可以利用分析后的語義表示進(jìn)行精確的數(shù)據(jù)項匹配,從而得到更準(zhǔn)確的結(jié)果。圖l.自然語言査詢分析系統(tǒng)框架圖;圖2.句法分析樹。具體實施例方式下面通過一個具體實例,即用戶輸入査詢語句"最新款的蘋果電腦是否有支持手寫輸入的功能",來詳細(xì)描述系統(tǒng)的具體實現(xiàn)方式和各個模塊的工作過程。1、詞法分析自動分詞和命名實體識別分詞是其它模塊對査詢語句作進(jìn)一步分析的基礎(chǔ)。本發(fā)明采用條件隨機(jī)場模型,對分詞和命名實體識別兩個任務(wù)進(jìn)行聯(lián)合標(biāo)記,即對句子中的每個字標(biāo)記字在詞中的位置和實體類別,進(jìn)而轉(zhuǎn)化成分詞結(jié)果并識別出命名實體。條件隨機(jī)場模型能靈活地融合反映上下文信息的各種特征,以及構(gòu)詞法特征,適用于分詞等序列標(biāo)記任務(wù),這種聯(lián)合策略可以同時提高分詞和命名實體識別的準(zhǔn)確率。分詞采用4類標(biāo)記詞首、詞中、詞尾和單字詞。命名實體識別采用4類標(biāo)記人名、地名、組織機(jī)構(gòu)名和非命名實體。將這兩類標(biāo)記組合在一起,這樣在一體化模型中就有詞首-人名等16種標(biāo)記。采用的特征為基于3字窗長的6類特征模板,分別是前一個字、當(dāng)前字、后一個字、前一個字與當(dāng)前字、當(dāng)前字與后一個字、前一個字與后一個字。采用經(jīng)過標(biāo)注的人民日報2000年1月份、2月份和3月份語料作為訓(xùn)練語料。在識別過程中,對于輸入的自然語言査詢語句"最新款的蘋果電腦是否有支持手寫輸入的功能",首先對句子的每個字提取特征。例如,"新"字的特征見表l:表1"新"字的特征<table>tableseeoriginaldocumentpage8</column></row><table>條件隨機(jī)場模型利用提取的這些特征,預(yù)測出的每個字的類別標(biāo)記,例如,對于上述句子的"蘋果",其標(biāo)記序列為"蘋/詞首-非命名實體果/詞尾-非命名實體"。這樣的字序列和標(biāo)記序列,完全指明了一句話的切分方式,即"最新款的蘋果電腦是否有支持手寫輸入的功能",同時指出了每個詞是否是命名實體。詞性標(biāo)注詞性標(biāo)注任務(wù)采用最大熵模型,最大熵模型能融合豐富的上下文信息,同時通過將前一個詞的詞性標(biāo)記作為特征,結(jié)合動態(tài)規(guī)劃的方式進(jìn)行解碼,可以考慮前后詞性之間的相互影響。詞性標(biāo)記集采用《北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范》。使用的特征除前一個詞的詞性標(biāo)記外,包括當(dāng)前詞、前一個詞、后一個詞、當(dāng)前詞的長度、前一個詞的長度、后一個詞的長度、當(dāng)前詞的首字、當(dāng)前詞的尾字、前一個詞與當(dāng)前詞、當(dāng)前詞與后一個詞、前一個詞與后一個詞。采用經(jīng)過詞性標(biāo)注的人民日報2000年1月份和2月份語料作為訓(xùn)練語料。對分詞后的句子"最新款的蘋果電腦是否有支持手寫輸入的功能"中的每個詞提取特征,例如,對于"電腦"的特征見表2:表2"電腦"的特征<table>tableseeoriginaldocumentpage9</column></row><table>最大熵模型根據(jù)上述的特征以及對前一個詞預(yù)測的詞性,對當(dāng)前詞的各種可能詞性進(jìn)行預(yù)測,再利用動態(tài)規(guī)劃算法找出所有可能的標(biāo)記序列中概率最大的序列作為最終結(jié)果。上述的句子詞性標(biāo)注的結(jié)果為"最/副詞新/形容詞款/名詞的/助詞蘋果/名詞電腦/名詞是否/副詞有勵詞支持/動詞手寫/區(qū)別詞輸入/名動詞的/助詞功能/名詞"。2、句法分析句法分析本發(fā)明采用U.C.Berkeley提出的基于隱標(biāo)記的概率上下文無關(guān)文法,通過標(biāo)記的分裂和合并,得到比樹庫中原有文法更細(xì)致的文法,從而緩解了上下文無關(guān)文法的獨立性假設(shè)。在分裂過程中,將原來的標(biāo)記一分為二,進(jìn)而利用EM(ExpectationMaximization)算法估計出分裂后得到的文法的概率分布。然后在根據(jù)不同分裂對似然值的貢獻(xiàn),合并某些分裂。經(jīng)過這樣的多次迭代,就可以得到精細(xì)的文法及其相應(yīng)的概率分布。在上面的迭代過程中,同時可以得到一個由粗到細(xì)的文法。在對輸入的句子進(jìn)行解碼分析時,利用這些由粗到細(xì)的文法,在由可能的句法分析樹構(gòu)成的搜索空間中進(jìn)行裁剪,大大提高了解碼效率。對于句子"最新款的蘋果電腦是否有支持手寫輸入的功能",其句法分析樹見附圖2。3、語義分析詞義消歧按照上面技術(shù)方案中提到的算法,對由每個詞的可能的詞義構(gòu)成的詞義網(wǎng),通過動態(tài)規(guī)劃算法找到一條最優(yōu)路徑,這條路徑對應(yīng)著每個詞的正確含義。對如輸入的帶有詞性的句子,"最/副詞新/形容詞款/名詞的/助詞蘋果/名詞電腦/名詞是否/副詞有勵詞支持/動詞手寫/區(qū)別詞輸入/名動詞的順詞功能/名詞",經(jīng)詞義消歧后,每個詞的含義可以用知網(wǎng)中的義原進(jìn)行明確的表述。例如,"是否"的詞義是"表示疑問的功能詞"。語義角色標(biāo)注本實施方案中,采用ChinesePropBank作為標(biāo)注語料庫,訓(xùn)練用于語義角色標(biāo)注的最大熵模型,該語料庫是美國賓夕法尼亞大學(xué)基于ChinesePennTreeBank標(biāo)注的漢語淺層語義標(biāo)注資源。通過從謂詞,路徑,短語類型,位置,中心詞等線索中提取豐富的特征,得10到了一個高性能的語義角色標(biāo)注器。對于經(jīng)過句法分析后的句子"最新款的蘋果電腦是否有支持手寫輸入的功能",首先指定句子中的目標(biāo)動詞為"支持",語義角色標(biāo)注的結(jié)果為"最新款的蘋果電腦是否有[目標(biāo)動詞支持][受事手寫輸入]的功能"。這樣,可以分析出"手寫輸入"是動詞"支持"的承受者,這樣就把這些句子成分和句子主要動詞的語義關(guān)系分析出來。4、關(guān)鍵詞提取首先根據(jù)識別的結(jié)果抽取出人名、地名、機(jī)構(gòu)名,并根據(jù)知網(wǎng)等資源,利用這些詞的同義關(guān)系進(jìn)行擴(kuò)展,并賦予較高的權(quán)重,這是在詞層次上進(jìn)行的査詢分析和擴(kuò)展,也是目前很多檢索系統(tǒng)所采用的方法。根據(jù)句法分析結(jié)果,可以知道句子"最新款的蘋果電腦是否有支持手寫輸入的功能"的主要動詞是"有",其主語中心詞是"蘋果"和"電腦",賓語中心詞是"功能",進(jìn)而對這些詞進(jìn)行擴(kuò)展,得到擴(kuò)充的檢索關(guān)鍵詞。從上面抽取的關(guān)鍵詞來看,僅僅利用詞法和句法分析的結(jié)果,有時還不能完全明確用戶的檢索需求。我們利用對動詞"支持"的語義角色標(biāo)注結(jié)果,分析得出其動作承受者是"手寫"和"輸入",根據(jù)預(yù)先總結(jié)的針對不同動詞的提取規(guī)則,我們把"手寫"和"輸入"這兩個詞也添加到檢索關(guān)鍵詞列表中,同時進(jìn)行同義或相關(guān)擴(kuò)展。無論是利用命名實體信息,還是句法分析和語義角色標(biāo)注的分析結(jié)果,在進(jìn)行關(guān)鍵詞擴(kuò)展時都要根據(jù)每個詞的詞義進(jìn)行同義擴(kuò)展。對于提取出的關(guān)鍵詞的權(quán)重,本發(fā)明根據(jù)事先總結(jié)的規(guī)則進(jìn)行賦值。綜上所述,經(jīng)過本發(fā)明提出的方法的分析,對于自然語言的査詢語句,"最新款的蘋果電腦是否有支持手寫輸入的功能",所提取及擴(kuò)展的關(guān)鍵詞及其相應(yīng)權(quán)重分別為"蘋果/0.8電腦/0.8計算機(jī)/0.4微機(jī)/0.4功能/0.8作用/0.4手寫/0.6輸入/0.6"。性能評價我們對我們的解決方案中的主要模塊進(jìn)行了性能測試,測試的模塊包括詞法分析中的自動分詞、命名實體識別、詞性標(biāo)注,句法分析和語義角色標(biāo)注。1、詞法分析分詞、命名實體識別和詞性標(biāo)注都采用人名日報2000年6月份作為測試語料,評價指標(biāo)為正確率、召回率和F1值,各個模塊的性能分別見表3、表4、表5:表3分詞模塊的性能<table>tableseeoriginaldocumentpage12</column></row><table>表4命名實體識別模塊的性能<table>tableseeoriginaldocumentpage12</column></row><table>表5詞性標(biāo)注模塊的性能<table>tableseeoriginaldocumentpage12</column></row><table>2、句法分析句法分析的訓(xùn)練和測試語料采用句法分析研究中的標(biāo)準(zhǔn)分配策略,評價指標(biāo)采用正確率、召回率和F1值,句法分析性能見表6:表6句法分析模塊的性能<table>tableseeoriginaldocumentpage12</column></row><table>3、語義分析語義角色標(biāo)注的訓(xùn)練和測試語料按照4:l的比例分配,評價指標(biāo)為正確率、召回率和Fl值,語義角色標(biāo)注模塊性能見表7:表7語義角色標(biāo)注模塊的性能<table>tableseeoriginaldocumentpage12</column></row><table>權(quán)利要求1.一種用于信息檢索的查詢語句分析方法,其步驟為1)對輸入的中文查詢語句進(jìn)行自動分詞、命名實體識別和詞性標(biāo)注;2)對分詞后的句子進(jìn)行句法結(jié)構(gòu)分析,得到句法結(jié)構(gòu)樹;對詞性標(biāo)注后的句子采用知網(wǎng)的義原表示體系來確定每個詞的詞義;3)根據(jù)句子的句法結(jié)構(gòu)和每個詞的詞義,對句子中目標(biāo)動詞進(jìn)行語義角色標(biāo)注;4)根據(jù)識別的命名實體、目標(biāo)動詞的語義角色標(biāo)注結(jié)果分別進(jìn)行關(guān)鍵詞擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞。2.如權(quán)利要求1所述的方法,其特征在于所述自動分詞和命名實體識別的方法為釆用條件隨機(jī)場模型對査詢語句進(jìn)行分詞和命名實體識別,并對分詞和識別結(jié)果進(jìn)行聯(lián)合標(biāo)記。3.如權(quán)利要求1或2所述的方法,其特征在于所述命名實體包括人名、地名、機(jī)構(gòu)名。4.如權(quán)利要求l所述的方法,其特征在于采用最大熵模型進(jìn)行所述詞性標(biāo)注。5.如權(quán)利要求4所述的方法,其特征在于采用基于隱標(biāo)記的概率上下文無關(guān)文法的句法分析系統(tǒng)對句子進(jìn)行文法分析,得到句法結(jié)構(gòu)樹。6.如權(quán)利要求5所述的方法,其特征在于所述采用知網(wǎng)的義原表示體系來確定每個詞的詞義的方法為首先將每個詞的詞義用義原,以及義原和義原之間的關(guān)系來進(jìn)行描述,得到詞義的網(wǎng)絡(luò);然后通過動態(tài)規(guī)劃算法,搜索詞義網(wǎng)中一條距離最短的路徑來確定該詞的詞義。7.如權(quán)利要求1所述的方法,其特征在于以句法成分為語義標(biāo)注的基本單元,采用最大熵或支持向量機(jī)對所述目標(biāo)動詞進(jìn)行語義角色標(biāo)注。8.如權(quán)利要求1所述的方法,其特征在于利用所述知網(wǎng)對關(guān)鍵詞進(jìn)行擴(kuò)展,其方法為首先根據(jù)詞的詞義在知網(wǎng)中找出每個詞的同義詞;然后對命名實體進(jìn)行同義擴(kuò)展并賦予一權(quán)重,根據(jù)句法分析結(jié)果對句子中的動詞和動詞對應(yīng)的主語中心詞、賓語中心詞進(jìn)行擴(kuò)展,根據(jù)目標(biāo)動詞的語義標(biāo)注結(jié)果將目標(biāo)動詞承受者作為關(guān)鍵詞進(jìn)行同義或相關(guān)擴(kuò)展并賦予一權(quán)重。9.一種結(jié)合語義分析的自然語言式查詢分析系統(tǒng),包括詞法分析模塊、句法分析模塊、語義分析模塊和關(guān)鍵詞提取模塊;所述詞法分析模塊用于對輸入的中文査詢語句進(jìn)行自動分詞、命名實體識別和詞性標(biāo)注;所述句法分析模塊用于將分詞后的句子作為輸入,對句子的句法結(jié)構(gòu)進(jìn)行分析得到句法結(jié)構(gòu)樹;所述語義分析模塊包括詞義消歧模塊,用于根據(jù)詞性標(biāo)注后的句子確定每個詞的詞義;和語義角色標(biāo)注模塊,用于根據(jù)句子的句法結(jié)構(gòu)和詞的詞義對句子中目標(biāo)動詞進(jìn)行語義角色標(biāo)注;所述關(guān)鍵詞提取模塊根據(jù)對査詢句子在詞法、句法和語義層上的分析,對關(guān)鍵詞進(jìn)行擴(kuò)展。全文摘要本發(fā)明公開了一種基于自然語言理解的查詢語句分析方法與系統(tǒng),屬于信息檢索
技術(shù)領(lǐng)域:
。本發(fā)明的方法為1)對輸入的中文查詢語句進(jìn)行自動分詞、命名實體識別和詞性標(biāo)注;2)對分詞后的句子進(jìn)行句法結(jié)構(gòu)分析,得到句法結(jié)構(gòu)樹;根據(jù)詞性標(biāo)注后的句子確定每個詞的詞義;3)根據(jù)句子的句法結(jié)構(gòu)和每個詞的詞義,對句子中謂詞進(jìn)行語義角色標(biāo)注;4)根據(jù)上述對句子在詞法、句法和語義層上的分析結(jié)果擴(kuò)充關(guān)鍵詞,提取能反映用戶信息檢索需求的關(guān)鍵詞。本發(fā)明的系統(tǒng)包括詞法分析模塊、句法分析模塊、語義分析模塊和關(guān)鍵詞提取模塊。本發(fā)明可以大大提高查詢結(jié)果的準(zhǔn)確率,使用戶得到想要的查詢結(jié)果。文檔編號G06F17/30GK101510221SQ20091013182公開日2009年8月19日申請日期2009年4月8日優(yōu)先權(quán)日2009年2月17日發(fā)明者吳璽宏,猛張,林小俊,羅定生,遲惠生申請人:北京大學(xué)