本發(fā)明涉及自然語(yǔ)言處理和智能問答系統(tǒng)領(lǐng)域,具體涉及一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法。
背景技術(shù):
1、隨著大模型技術(shù)的快速發(fā)展,各種傳統(tǒng)it應(yīng)用逐漸轉(zhuǎn)型為智能應(yīng)用,如數(shù)據(jù)運(yùn)維問答、etc辦理自助問答和智能取數(shù)問答等。然而,這些智能問答應(yīng)用在大規(guī)模應(yīng)用時(shí)面臨著顯著的挑戰(zhàn),尤其是在高準(zhǔn)確率、高性能與用戶交互之間的矛盾?,F(xiàn)有技術(shù)的主要問題包括:
2、首先,高質(zhì)量知識(shí)組織的困難使得智能問答系統(tǒng)難以有效管理大量復(fù)雜的知識(shí)文檔。目前的知識(shí)組織方法大致分為兩類:一種是低成本的文檔切片與分類存儲(chǔ),但這種方法難以在知識(shí)領(lǐng)域內(nèi)進(jìn)行有效管理;另一種是基于知識(shí)圖譜的專業(yè)化組織,但其構(gòu)建成本高且需要持續(xù)維護(hù)。這導(dǎo)致知識(shí)的組織缺乏靈活性和適應(yīng)性,影響了后續(xù)用戶問題的理解與召回。
3、其次,用戶意圖理解的準(zhǔn)確性較低。傳統(tǒng)的意圖識(shí)別方法依賴于手工梳理用戶提問場(chǎng)景,容易導(dǎo)致維護(hù)成本高、無法窮舉用戶意圖,并且存在觸發(fā)方式的沖突問題。這種局限性降低了用戶體驗(yàn),并增加了系統(tǒng)的管理負(fù)擔(dān)。
4、第三,知識(shí)的高效召回同樣面臨問題?,F(xiàn)有的召回技術(shù)通常依賴于多路并行召回,但在用戶查詢中可能會(huì)產(chǎn)生大量無關(guān)信息,浪費(fèi)系統(tǒng)資源并降低召回效率。這一過程的低效直接影響了用戶獲取信息的速度和準(zhǔn)確性。
5、另外,知識(shí)排序評(píng)估的精確性不足,現(xiàn)有的排序模型往往依據(jù)預(yù)訓(xùn)練語(yǔ)料進(jìn)行評(píng)估,導(dǎo)致在面對(duì)新知識(shí)或?qū)I(yè)領(lǐng)域時(shí),排序效果不佳,可能會(huì)將不相關(guān)的信息優(yōu)先展示,影響用戶決策的有效性。
6、最后,答案生成的穩(wěn)定性和貼切性不足。不同的大模型對(duì)同一問題生成的答案格式不一,無法保證輸出的一致性和適應(yīng)性。這使得用戶在尋求準(zhǔn)確答案時(shí),常常面臨不滿足需求的結(jié)果,從而影響了整體服務(wù)的響應(yīng)速度和處理效率。
7、這些問題會(huì)導(dǎo)致智能問答系統(tǒng)在用戶實(shí)際應(yīng)用中的準(zhǔn)確性和用戶滿意度大幅降低,導(dǎo)致企業(yè)在服務(wù)響應(yīng)、信息獲取及決策支持等方面的效率受到影響,進(jìn)而制約了智能應(yīng)用的普及與發(fā)展。因此,迫切需要一種新穎的方法來有效解決上述技術(shù)問題,以提升智能問答系統(tǒng)的整體性能和用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、為克服現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法,該方法通過構(gòu)建邏輯框架并提取相關(guān)信息,實(shí)現(xiàn)了人性化的回答生成。用戶獲得的答案不僅準(zhǔn)確,還符合自然語(yǔ)言表達(dá)習(xí)慣,增強(qiáng)了互動(dòng)體驗(yàn),降低了用戶的理解難度。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提出一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法,包括以下步驟:
3、步驟1:從相關(guān)領(lǐng)域的文本數(shù)據(jù)中提取關(guān)鍵信息,構(gòu)建語(yǔ)義節(jié)點(diǎn),包括實(shí)體、屬性和關(guān)系,形成語(yǔ)義要素庫(kù),語(yǔ)義要素庫(kù)通過領(lǐng)域、分類、載體和知識(shí)四個(gè)層次進(jìn)行組織,支持多層次的知識(shí)表示;
4、步驟2:對(duì)用戶輸入的問題文本進(jìn)行分詞處理,獲取單詞序列,結(jié)合領(lǐng)域知識(shí)庫(kù)使用分詞工具;隨后,進(jìn)行句法依存解析,提取關(guān)鍵語(yǔ)義依賴,形成問題的語(yǔ)義要素表示,包括實(shí)體、屬性和查詢意圖;
5、步驟3:在知識(shí)召回階段,應(yīng)用黃金投資算法實(shí)現(xiàn)知識(shí)檢索,黃金投資算法如下:
6、將語(yǔ)義要素視為關(guān)鍵字(投資者),將知識(shí)庫(kù)中的知識(shí)內(nèi)容視為渠道(生產(chǎn)者);為每個(gè)關(guān)鍵字分配初始資金,模擬其投資行為;
7、根據(jù)渠道的數(shù)量與投資回報(bào)成反比的原則,定義關(guān)鍵字的投資優(yōu)先級(jí)和收益機(jī)制。
8、循環(huán)所有關(guān)鍵字,逐一檢索,并記錄每輪檢索的收益(檢索到的知識(shí)質(zhì)量和相關(guān)性);
9、在每輪檢索中優(yōu)先選擇回報(bào)率最高的關(guān)鍵字進(jìn)行下一步檢索,確保滿足用戶問題中的語(yǔ)義要素需求;
10、當(dāng)所有關(guān)鍵字的收益達(dá)到預(yù)期或無新收益時(shí)停止檢索,形成候選答案集。
11、步驟4:將候選答案與用戶問題的語(yǔ)義要素進(jìn)行匹配,根據(jù)關(guān)鍵詞相關(guān)性、上下文信息和語(yǔ)義覆蓋率等進(jìn)行打分和排序,通過分級(jí)排序機(jī)制選擇最相關(guān)的若干答案,并進(jìn)行精簡(jiǎn)處理;
12、步驟5:根據(jù)用戶問題的查詢意圖和排序后的候選答案,構(gòu)建大模型的提示詞,并調(diào)用大模型生成最終答案,輸出的答案按照指定的格式呈現(xiàn),確保內(nèi)容貼合用戶需求。
13、進(jìn)一步地,步驟1具體如下:
14、步驟1.1:收集領(lǐng)域內(nèi)的文本數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
15、步驟1.2:進(jìn)行文本預(yù)處理,對(duì)收集的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,移除無意義字符、特殊符號(hào)和噪聲信息;
16、步驟1.3:利用分詞工具對(duì)文本數(shù)據(jù)進(jìn)行分詞,并結(jié)合領(lǐng)域詞庫(kù)優(yōu)化分詞結(jié)果,確保分詞的準(zhǔn)確性;
17、步驟1.4:提取語(yǔ)義節(jié)點(diǎn),包括實(shí)體(如概念名稱)、屬性(如描述字段)和關(guān)系(如實(shí)體間的邏輯關(guān)聯(lián));
18、步驟1.5:根據(jù)語(yǔ)義節(jié)點(diǎn),將知識(shí)內(nèi)容按照“領(lǐng)域”、“分類”、“載體”、“知識(shí)”四個(gè)層次進(jìn)行分級(jí)組織;
19、步驟1.6:構(gòu)建語(yǔ)義要素庫(kù),將語(yǔ)義節(jié)點(diǎn)與分級(jí)結(jié)構(gòu)相結(jié)合,形成多層次的知識(shí)表示體系;
20、步驟1.7:定期更新語(yǔ)義要素庫(kù),根據(jù)新增領(lǐng)域知識(shí)重新提取節(jié)點(diǎn)和關(guān)系,確保庫(kù)內(nèi)容的時(shí)效性和準(zhǔn)確性。
21、進(jìn)一步地,步驟2具體如下:
22、步驟2.1:接收用戶輸入的原始問題文本,對(duì)其進(jìn)行清洗,移除無意義字符和格式符號(hào);
23、步驟2.2:使用分詞工具對(duì)問題文本進(jìn)行分詞處理,生成單詞序列,結(jié)合領(lǐng)域知識(shí)優(yōu)化分詞結(jié)果;
24、步驟2.3:對(duì)分詞后的文本進(jìn)行詞性標(biāo)注,識(shí)別每個(gè)單詞的語(yǔ)法角色(如名詞、動(dòng)詞);
25、步驟2.4:使用句法依存解析工具生成依存關(guān)系圖,提取單詞之間的語(yǔ)法依賴關(guān)系;
26、步驟2.5:根據(jù)解析結(jié)果提取問題的語(yǔ)義要素,包括實(shí)體(問題涉及的具體對(duì)象)、屬性(問題中的修飾成分)和查詢意圖(用戶需要的操作);
27、步驟2.6:將提取的語(yǔ)義要素與語(yǔ)義要素庫(kù)進(jìn)行匹配,標(biāo)記其語(yǔ)義類別,形成結(jié)構(gòu)化的語(yǔ)義表示。
28、進(jìn)一步地,步驟3具體如下:
29、步驟3.1:初始化檢索過程,將問題的語(yǔ)義要素分解為關(guān)鍵字集合,并映射到語(yǔ)義要素庫(kù)中的對(duì)應(yīng)關(guān)鍵字;
30、步驟3.2:定義檢索變量,將關(guān)鍵字作為“投資者”,知識(shí)庫(kù)中的內(nèi)容作為“渠道”,為每個(gè)關(guān)鍵字分配初始資金;
31、步驟3.3:定義投資與收益規(guī)則,設(shè)定關(guān)鍵字檢索的優(yōu)先級(jí),優(yōu)先處理渠道收益較高的關(guān)鍵字;
32、步驟3.4:循環(huán)檢索每個(gè)關(guān)鍵字,記錄檢索到的知識(shí)內(nèi)容和收益,包括知識(shí)的相關(guān)性和覆蓋度;
33、步驟3.5:根據(jù)每輪檢索的回報(bào)率,優(yōu)先選擇回報(bào)率最高的關(guān)鍵字進(jìn)行下一步檢索;
34、步驟3.6:在所有關(guān)鍵字檢索完成或無新收益時(shí)終止檢索,形成候選答案集;
35、步驟3.7:對(duì)候選答案集中的內(nèi)容進(jìn)行初步篩選,去除低相關(guān)性或重復(fù)的知識(shí)塊,確保召回內(nèi)容的質(zhì)量。
36、進(jìn)一步地,步驟4具體如下:
37、步驟4.1:接收知識(shí)召回的候選答案集,將答案與用戶問題的語(yǔ)義要素進(jìn)行匹配;
38、步驟4.2:計(jì)算答案與問題之間的相關(guān)性,包括關(guān)鍵詞匹配度、語(yǔ)義相似度和上下文一致性;
39、步驟4.3:根據(jù)用戶問題的意圖,對(duì)候選答案進(jìn)行分級(jí)評(píng)分,標(biāo)記每條答案的優(yōu)先級(jí);
40、步驟4.4:使用四級(jí)語(yǔ)義體系對(duì)答案進(jìn)行分級(jí)比較,依次計(jì)算實(shí)體、屬性、關(guān)系和語(yǔ)義結(jié)構(gòu)的匹配度;
41、步驟4.5:按照綜合評(píng)分對(duì)候選答案進(jìn)行排序,選擇得分最高的指定條數(shù)記錄作為最終結(jié)果;
42、步驟4.6:對(duì)排序后的答案進(jìn)行精簡(jiǎn)處理,保留必要的上下文信息,去除冗余內(nèi)容。
43、進(jìn)一步地,步驟5具體如下:
44、步驟5.1:根據(jù)用戶問題的查詢意圖和排序后的候選答案,生成提示詞用于大模型調(diào)用;
45、步驟5.2:對(duì)提示詞進(jìn)行格式化處理,確保其符合大模型的輸入要求(如json結(jié)構(gòu)或自然語(yǔ)言描述);
46、步驟5.3:調(diào)用大模型進(jìn)行答案生成,將候選答案中的關(guān)鍵信息重組為完整的自然語(yǔ)言答案;
47、步驟5.4:對(duì)生成的答案進(jìn)行語(yǔ)法檢查和一致性驗(yàn)證,確保語(yǔ)言表達(dá)流暢且內(nèi)容準(zhǔn)確;
48、步驟5.5:根據(jù)用戶問題的格式需求,對(duì)答案進(jìn)行進(jìn)一步加工(如列表格式、表格展示或段落描述);
49、步驟5.6:輸出最終答案,反饋給用戶,同時(shí)記錄答案生成過程以便后續(xù)優(yōu)化。
50、進(jìn)一步地,還包括用戶反饋,具體如下:
51、步驟6.1:在答案生成前,接收用戶的補(bǔ)充回答,重新進(jìn)行語(yǔ)義要素拆分和知識(shí)召回,確保對(duì)用戶意圖的準(zhǔn)確理解;
52、步驟6.2:在提供答案后,系統(tǒng)允許用戶對(duì)答案的滿意度和準(zhǔn)確性進(jìn)行反饋;
53、步驟6.3:收集和分析用戶反饋數(shù)據(jù),識(shí)別常見問題和系統(tǒng)薄弱環(huán)節(jié);
54、步驟6.4:根據(jù)反饋結(jié)果,調(diào)整問題分析方法、知識(shí)召回策略和答案生成機(jī)制,持續(xù)優(yōu)化系統(tǒng)性能。
55、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
56、1.本發(fā)明提供了一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法,通過構(gòu)建語(yǔ)義要素庫(kù),該方法能夠系統(tǒng)性地提取特定領(lǐng)域的語(yǔ)義維度、實(shí)體、屬性和關(guān)系,形成多層次的知識(shí)表示。這種結(jié)構(gòu)化的知識(shí)表示使得系統(tǒng)能夠全面理解領(lǐng)域內(nèi)的知識(shí),提升信息的可訪問性和利用效率。
57、2.本發(fā)明提供了一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法,在用戶問題的解析過程中,采用語(yǔ)義要素拆分技術(shù),能夠準(zhǔn)確識(shí)別問題中的關(guān)鍵信息。這種精細(xì)化的處理方式確保了系統(tǒng)能更好地理解用戶的查詢意圖,減少了歧義,提升了問題識(shí)別的準(zhǔn)確性。
58、3.本發(fā)明提供了一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法,應(yīng)用“黃金投資算法”進(jìn)行知識(shí)召回,能夠高效地從大量知識(shí)塊中提取與用戶問題相關(guān)的信息。通過不斷迭代優(yōu)化,系統(tǒng)可以自我學(xué)習(xí)并提高召回的質(zhì)量,從而保證回答的時(shí)效性和相關(guān)性。
59、4.本發(fā)明提供了一種基于語(yǔ)義要素的知識(shí)問答準(zhǔn)確率提升方法,多級(jí)權(quán)重比較機(jī)制通過綜合考慮候選答案與用戶問題之間的相似度和上下文相關(guān)性,能夠準(zhǔn)確評(píng)估候選答案的優(yōu)劣。這種方法確保了最終返回的答案不僅是與問題最匹配的,同時(shí)也符合用戶的具體需求和背景;該方法還具備靈活應(yīng)對(duì)多樣問題的能力,通過構(gòu)建問題模板,系統(tǒng)能夠快速適應(yīng)不同類型和格式的問題。這一特性使得系統(tǒng)在處理多樣化用戶查詢時(shí)更具魯棒性,滿足更廣泛的應(yīng)用場(chǎng)景。