聯(lián)想記憶的語義系統(tǒng)的制作方法
【專利摘要】本發(fā)明主要涉及人工智能領域自然語言處理,公開一種具有聯(lián)想記憶功能的語義系統(tǒng),通過語義標識ID的鏈式存儲構(gòu)建語義上下關聯(lián)的關系,實現(xiàn)對語句的上下文搜索,從而實現(xiàn)一定程度的語義會話功能。系統(tǒng)主要用于人工智能領域的語義理解,智能機器人的人機對話,自然語言的語句搜索,適合于處理大規(guī)模真實的文本信息。本發(fā)明以語句為基本單位,實現(xiàn)基于語義的聯(lián)想記憶。
【專利說明】
聯(lián)想記憶的語義系統(tǒng)
技術領域
[0001]本發(fā)明主要涉及人工智能領域自然語言處理,提出一種具有聯(lián)想記憶語義系統(tǒng),通過構(gòu)建語義標識ID的鏈式存儲,構(gòu)建語義上下關聯(lián)的關系,實現(xiàn)語句的聯(lián)想搜索功能。主要用于人工智能領域的語義理解,智能機器人的人機對話,自然語言的語句搜索,語料庫的建設等等。
【背景技術】
[0002]通常來說人工智能亦稱機器智能,是指由人工制造出來的系統(tǒng)所表現(xiàn)出來的智能。通常人工智能是指通過普通電腦實現(xiàn)的智能。該詞同時也指研究這樣的智能系統(tǒng)是否能夠?qū)崿F(xiàn),以及如何實現(xiàn)的科學領域。一般教材中的定義領域是“智能主體的研究與設計”,智能主體是指一個可以觀察周遭環(huán)境并作出行動以達到目標的系統(tǒng)。
[0003]人工智能的重要環(huán)節(jié)是自然語言的理解,自然語言的理解即常規(guī)意義的語義理解。當前自然語言處理研究的發(fā)展趨勢總的來說有如下:
[0004]第一,傳統(tǒng)的基于句法-語義規(guī)則的理性主義方法受到質(zhì)疑,隨著語料庫建設和語料庫語言學的崛起,大規(guī)模真實文本的處理成為自然語言處理的主要戰(zhàn)略目標。
[0005]第二,統(tǒng)計數(shù)學方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
[0006]第三,淺層處理與深層處理并重,統(tǒng)計與規(guī)則方法并重,形成混合式的系統(tǒng)。
[0007]第四,自然語言處理中越來越重視詞匯的作用,出現(xiàn)了強烈的“詞匯主義”的傾向。詞匯知識庫的建造成為了普遍關注的問題。
[0008]什么是聯(lián)想記憶法呢?簡單地說,聯(lián)想記憶法就是搭起一座記憶的橋梁,利用我們熟悉的事物連接新的信息,因而它是一種節(jié)省時間并強化記憶的方法和系統(tǒng)。
[0009]基于現(xiàn)在我們對于記憶形成機制的認識,廣為接受的模型將記憶過程分為三個不同階段:
[0010]1.編碼:獲得資訊并加以處理和組合。
[0011 ] 2.儲存:將組合整理過的資訊做永久紀錄
[0012]3.檢索:將被儲存的資訊取出,回應一些暗示和事件。
[0013]聯(lián)想是于某人或某種事物而想起其他相關的人或事物;由某一概念而引起其他相關的概念。
[0014]因一事物而想起與之有關事物的思想活動。聯(lián)想是暫時神經(jīng)聯(lián)系的復活,它是事物之間聯(lián)系和關系的反應??陀^事物是相互聯(lián)系的,客觀事物或現(xiàn)象之間的各種關系和聯(lián)系反映在人腦中而有各種聯(lián)想,有反映事物外部聯(lián)系的簡單的、低級的聯(lián)想,也有反映事物內(nèi)部聯(lián)系的復雜的、高級的聯(lián)想。一般來說,在空間上和時間上同時出現(xiàn)或相繼出現(xiàn),在外部特征和意義上相似或相反的事物,反映在人腦中并建立聯(lián)系,以后只要其中一個事物出現(xiàn),就會在頭腦中引起與之相聯(lián)系的另一事物的出現(xiàn),這便是聯(lián)想。
[0015]本發(fā)明公開一種具有聯(lián)想記憶功能的語義系統(tǒng),通過語義標識ID的鏈式存儲構(gòu)建語義上下關聯(lián)的關系,實現(xiàn)對語句的上下文搜索,從而實現(xiàn)一定程度的語義會話功能。系統(tǒng)主要用于人工智能領域的語義理解,智能機器人的人機對話,自然語言的語句搜索,適合于處理大規(guī)模真實的文本信息,以語句為基本單位,實現(xiàn)語句的聯(lián)想記憶。。
【發(fā)明內(nèi)容】
[0016]本發(fā)明通過對自然語言進行上下文關聯(lián)信息的存儲,實現(xiàn)一種聯(lián)想記憶系統(tǒng)。包括自然語言信息的獲取、語句聯(lián)想的存儲,以及語句的上下查詢。對自然語言以語句為單位進行編碼處理,形成語義標識ID,通過語義標識ID鏈式存儲保存語言的上下文的聯(lián)系。
[0017]語句聯(lián)想的存儲,即語義標識ID鏈式存儲的方式很簡單,對自然語句進行哈希編碼,形成語義標識ID,以三元組的形式或者二元組形式存儲即可。
[0018]語義三元組的建立。語義三元組包括:前置語義標識ID,本體語義標識ID,后置語義標識ID。
[0019]語義二元組的建立。語義二元組有兩種形式:
[0020]第一:前置語義標識ID,本體語義標識ID;
[0021 ] 第二,本體語義標識ID,后置語義標識ID。
[0022]語義本身的存儲形式包括:語義標識ID,語義本身,語義調(diào)用記載。
[0023]語義調(diào)用記載簡單的可以是該語句導入和查看的頻度,復雜一點可以根據(jù)調(diào)用者的信息進行分類,包括調(diào)用者信息、導入和查看頻度信息等。
[0024]語義學習的過程實際上是自然語言的導入過程。主要包括兩個方面:
[0025]現(xiàn)有文章的導入,以基本段落為單位實現(xiàn)。
[0026]從人的對話中學習,根據(jù)話語的順序,錄入語句,并進行相應的處理。
[0027]語義標識ID生成有兩種形式:
[0028]第一,對該語句整個進行哈希編碼;
[0029]第二,逐文字進行增量哈希編碼。通過對文字信息的增量哈希編碼,構(gòu)建語義標識ID。語義標識ID構(gòu)建形式如下:
[°03°] 語句中的文字排列如下:W1W2W3...Wn;依次表示為文字I到文字η的排列;
[0031 ] WI的特征序列定義為ti,ti =哈希(WI);
[0032]W2的特征序列定義為t2,t2 =哈希(tl+W2);
[0033]依此類推,Wn的特征序列定義為tn,tn =哈希(tn-1+Wn);
[0034]ti其中i = l,2,...η表示該語句的語義特征序列,其中i=n時就是該語句的語義標識ID。
[0035]本發(fā)明的存儲內(nèi)容:語義標識ID的鏈式存儲,主要用于語句的上下文的聯(lián)系查找;語句的存儲,主要包括語句標識ID,語句,關聯(lián)文檔ID;文檔全文存儲,主要存儲文檔ID和文檔;對話和對話者信息存儲。語句調(diào)用頻度存儲,主要存儲語句導入次數(shù),調(diào)用次數(shù),記憶調(diào)用者的相關記載。
[0036]系統(tǒng)聯(lián)想功能的實現(xiàn),基于語句的鏈式存儲實現(xiàn)。三元組可以直接查找該語句的前置語句標識ID或者后置語句標識ID,然后從語句存儲表中查找即可。二元組以前置語義標識ID,本體語義標識ID形式存儲的,查找語句的前置語句標識ID,然后從語句存儲表中查找即可;查找該語句的后置語句,即可通過查找前置語句標識ID為該語句標識ID的本體語句標識ID,然后從語句存儲表中查找即可。二元組以本體語義標識ID,后置語義標識ID形式存儲的,查找語句的后置語句標識ID,然后從語句存儲表中查找即可;查找該語句的前置語句,即可通過查找后置語句標識ID為該語句標識ID的本體語句標識ID,然后從語句存儲表中查找即可。
[0037]本發(fā)明公開了一種聯(lián)想記憶的語義系統(tǒng),具有聯(lián)想功能是系統(tǒng)的主要特征,可以查找語句的上下文,包括文章中語句的聯(lián)想查找,和對話中的上下文查找,主要用于人工智能的人機對話環(huán)節(jié),語義理解等領域。
【附圖說明】
[0038]圖1說明語句聯(lián)想的存儲的建立。
【具體實施方式】
[0039]下面結(jié)合附圖和【具體實施方式】對本發(fā)明進行詳細說明。
[0040]聯(lián)想記憶語義系統(tǒng)包括以下部分:
[0041]1、基于語句的聯(lián)想記憶的實現(xiàn)。首先對文檔進行段落分段處理,然后對段落中的語句進行編碼,形成該語句的語義標識ID,根據(jù)語句的順序依次保存為語義三元組或者語義二元組。如果語句位于段落首部,則前置語義標識ID為空;如果語句位于段落尾部,則后置語義標識ID為空。由此形成語句語義標識ID的鏈式存儲,構(gòu)建基于語義的聯(lián)想記憶的功會K。
[0042]2、基于語義的聯(lián)想查詢。當輸入一句語句需要查找該語句的上下文時,就可以結(jié)合語句聯(lián)想的存儲序列,依鏈式結(jié)構(gòu)進行相關的查詢。首先對查找的語句進行編碼,得到語義標識ID,然后在語義鏈式存儲表中,查找該語句的前置或者后置語句的語義標識ID,根據(jù)該ID在語句存儲表中查找相關的語句。基于語句的鏈式存儲表。三元組可以直接查找該語句的前置語句標識ID或者后置語句標識ID,然后從語句存儲表中查找即可。二元組以前置語義標識ID,本體語義標識ID形式存儲的,查找語句的前置語句標識ID,然后從語句存儲表中查找即可;查找該語句的后置語句,即可通過查找前置語句標識ID為該語句標識ID的本體語句標識ID,然后從語句存儲表中查找即可。二元組以本體語義標識ID形,后置語義標識ID式存儲的,查找語句的后置語句標識ID,然后從語句存儲表中查找即可;查找該語句的前置語句,即可通過查找后置語句標識ID為該語句標識ID的本體語句標識ID,然后從語句存儲表中查找即可。
[0043]本發(fā)明主要的技術環(huán)節(jié)包括:
[0044]1、段落的分解。根據(jù)語句的自然段落的劃分,或者結(jié)合自定義的分段形式,進行文檔段落的分解。段落是構(gòu)建語句聯(lián)想的存儲的基本單位。當然也可以不進行段落的分解,直接對文檔進行語句聯(lián)想的存儲。
[0045]2、語句的分解。聯(lián)想記憶的語義系統(tǒng)基本的單元是語句,按照標點符號進行語句的分解,或者結(jié)合自定義語句分解形式進行。
[0046]3、生成語義標識ID。對單一的語句進行編碼,形成該語句的語義標識ID。
[0047]語義標識ID生成有兩種形式:
[0048]第一,對該語句整個進行哈希編碼,形成語義標識ID;
[0049]第二,逐文字進行增量哈希編碼。通過對文字信息的增量哈希編碼,構(gòu)建語義標識ID。語義標識ID構(gòu)建形式如下:
[0050]語句中的文字排列如下:W1W2W3...wn;依次表示為文字I到文字η的排列;
[0051 ] wi的特征序列定義為ti,ti =哈希(wi);
[0052]W2的特征序列定義為t2,t2 =哈希(tl+W2);
[0053]依此類推,Wn的特征序列定義為tn,tn =哈希(tn-1+Wn);
[0054]ti其中i = l,2,...η表示該語句的語義特征序列,其中i=n時就是該語句的語義標識ID。
[0055]4、語句聯(lián)想的存儲,即語義標識ID鏈式存儲的方式簡單。對自然語句進行編碼,形成語義標識ID,以三元組的形式或者二元組形式存儲即可,參見附圖1。
[0056]語義三元組的建立。語義三元組包括:前置語義標識ID,本體語義標識ID,后置語義標識ID。
[0057]語義二元組的建立。語義二元組有兩種形式:
[0058]第一:前置語義標識ID,本體語義標識ID;
[0059 ] 第二,本體語義標識ID,后置語義標識ID。
[0060]5、語句聯(lián)想的存儲。每個語句至少對應一個三元組或者二元組,在數(shù)據(jù)庫中存儲語義標識ID,并且為該ID建立索引。
[0061]6、語句本身的存儲。存儲語義標識ID和該語句,并記載該語句的出處,關聯(lián)的文檔信息或者其它的來源。
[0062]7、語義調(diào)用記載的存儲。包括語句的導入頻度,查詢頻度,導入和查詢信息等。
[0063]8、關聯(lián)文檔或者對話的存儲。語句如果關聯(lián)文檔則存儲相關文檔,如果來自對話則存儲對話者的相關信息。
[0064]人的對話的導入,按說話的順序?qū)φZ句處理,形成語義的聯(lián)想存儲,語句的存儲,語句的來源信息存儲。
[0065]文檔導入的處理。首先進行文檔分段處理,以段落為單位實現(xiàn)形成語義的聯(lián)想存儲,語句的存儲。
[0066]基于聯(lián)想的語義查詢的實現(xiàn)。依托語句聯(lián)想的存儲,從語義標識ID鏈式存儲中找尋語句的上下文,實現(xiàn)語義的聯(lián)想功能。
[0067]聯(lián)想記憶的選擇算法。系統(tǒng)優(yōu)先查找完整匹配的語句,找到該語句關聯(lián)的上下文;對基于增量哈希編碼的語義標識ID,在無法找到完整的語句匹配的情況下,還可以支持最大前綴匹配語句的算法實現(xiàn)關聯(lián)語句上下文的查找。U其中i = l,2,...η表示該語句的語義特征序列,當i=n時語義標識ID無法找到的情況下,可以查找i=n-l的語義標識ID,遞歸直到找到為止。
[0068]提供查詢語句及關聯(lián)上下文語句的使用頻度信息,供其他系統(tǒng)選擇。
【主權項】
1.聯(lián)想記憶的語義系統(tǒng),主要特征包括: 構(gòu)建語義標識ID的鏈式存儲; 語句調(diào)用記載; 語義的聯(lián)想。2.按權利I構(gòu)建語義標識ID的鏈式存儲,其特征在于: 語句的三元組的存儲表或者語句的二元組存儲表。3.按權利2的描述,語句三元組的存儲表,其特征在于: 存儲單元為前置語義標識ID,本體語義標識ID,后置語義標識ID。4.按權利2的描述,語句二元組的存儲表之一,其特征在于: 存儲單元為前置語義標識ID,本體語義標識ID。5.按權利2的描述,語句二元組的存儲表之二,其特征在于: 存儲單元為本體語義標識ID,后置語義標識ID。6.按權利I語句調(diào)用記載,其主要特征在于: 主要有語句導入頻度記載,語句調(diào)用頻度記載。7.按權利I描述的語義的聯(lián)想,其特征在于: 基于語句的鏈式存儲實現(xiàn)。三元組可以直接查找該語句的前置語句標識ID或者后置語句標識ID,然后從語句存儲表中查找即可。二元組以前置語義標識ID,本體語義標識ID形式存儲的,查找語句的前置語句標識ID,然后從語句存儲表中查找即可;查找該語句的后置語句,即可通過查找前置語句標識ID為該語句標識ID的本體語句標識ID,然后從語句存儲表中查找即可。二元組以本體語義標識ID形,后置語義標識ID式存儲的,查找語句的后置語句標識ID,然后從語句存儲表中查找即可;查找該語句的前置語句,即可通過查找后置語句標識ID為該語句標識ID的本體語句標識ID,然后從語句存儲表中查找即可。
【文檔編號】G06F17/27GK106095750SQ201610396754
【公開日】2016年11月9日
【申請日】2016年6月7日 公開號201610396754.2, CN 106095750 A, CN 106095750A, CN 201610396754, CN-A-106095750, CN106095750 A, CN106095750A, CN201610396754, CN201610396754.2
【發(fā)明人】張留學, 朱小姣
【申請人】上海泥娃通信科技有限公司, 張留學, 朱小姣