欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

表意構(gòu)件電子詞典系統(tǒng)及其實現(xiàn)方法

文檔序號:6339241閱讀:286來源:國知局
專利名稱:表意構(gòu)件電子詞典系統(tǒng)及其實現(xiàn)方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種計算機電子詞典和方法;特別涉及一種以多語種表意構(gòu)件為元素 的電子詞典系統(tǒng)及其實現(xiàn)方法。
背景技術(shù)
當(dāng)今社會已經(jīng)是信息社會,計算機、網(wǎng)絡(luò)遍布全球。由于計算機的巨大容量、快速 查詢使電子詞典相當(dāng)普及,確確實實幫了不少忙,可以說電子詞典已經(jīng)進入人們的生活。例 如金山詞霸、林格斯等電子詞典,已經(jīng)成為人們不可缺或的好幫手??上В鼈兌家粯?,都和 從古到今的紙上的詞典一樣;一樣是以字、詞為單元,對字、詞進行解釋以至舉例。并且這一 切都是面向人的,給人查閱參考用的。對于計算機語言文字信息處理,不適合;計算機無法 讀懂它們。關(guān)于語言文字信息處理,涉及智能層次的,僅有各自的、類似電子詞典片段的數(shù) 據(jù)結(jié)構(gòu)。至今還沒有一種便于計算機語言文字信息處理的電子詞典。例如,當(dāng)前專業(yè)翻譯 領(lǐng)域的翻譯記憶,只是以句對為單元組建數(shù)據(jù)庫??v觀語言文字信息處理,人們都一門心思地讓“電腦”模擬“人腦”;試圖讓電腦能 夠像人腦那樣進行思維,理解并分析語義;然后對語言文字進行各種處理。其實,這是一條 死胡同。本發(fā)明人認(rèn)為,語言文字在機內(nèi)的表現(xiàn)、存在型式應(yīng)當(dāng)有所改變,使它更適合計算 機處理。顯而,語言文字信息處理是否能獲得較大進展,其關(guān)鍵在于“人腦”、“電腦”、“語言 文字”三者的最佳協(xié)調(diào)和最大互補。

發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供一種表意構(gòu)件電子詞典系統(tǒng),為計算 機語言文字信息處理提供涉足語義進行支持,大幅度提高語言文字信息處理能力,實現(xiàn)“人 腦”、“電腦”、“語言文字”三者的協(xié)調(diào)和互補。本發(fā)明的另一目的在于提供上述表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,便于從多語 種句對資料中提取出表意構(gòu)件,并保存在表意構(gòu)件電子系統(tǒng)的表意構(gòu)件庫內(nèi)。本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的一種表意構(gòu)件電子詞典系統(tǒng),其特 征在于,包括構(gòu)件提取模塊,讀入多語種句對,依次進行查詢、比對、提取操作,以提取出表意構(gòu) 件,所述表意構(gòu)件分為句型、艙模、組串、意群串和習(xí)語五種類型;把新提取出來的表意構(gòu)件 添加到相應(yīng)構(gòu)件庫的相應(yīng)語種構(gòu)件字段,構(gòu)件數(shù)據(jù)庫,存貯表意構(gòu)件,設(shè)有與各種表意構(gòu)件種類相應(yīng)的句型庫,艙模庫,組 串庫,意群串庫和習(xí)語庫,各庫都含有表意構(gòu)件碼和若干語種的表意構(gòu)件,相同語意的所有 語種表意構(gòu)件及一個表意構(gòu)件碼互相映射;構(gòu)件操作接口模塊,接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行查 詢,而后根據(jù)服務(wù)指令要求,直接給出或映射給出與查詢內(nèi)容匹配的單項或多項語種的表6意構(gòu)件;組串構(gòu)件就是某些較大的句艙中,缺乏類似句型的結(jié)構(gòu),不能提取艙模且由大于 三個意群串所組成的句艙內(nèi)容;組串庫,用于存儲組串構(gòu)件,有組串碼、英文組串、中文組串、俄文組串字段,相同 語意的組串同處一個記錄,相應(yīng)文種的組串存儲在相應(yīng)文種組串字段內(nèi),組串碼代表了同 一記錄內(nèi)各文種組串字段內(nèi)的各文種組串的語意。所述構(gòu)件提取模塊設(shè)置有配句型子模塊,用某語種樣本句對與句型庫中對應(yīng)語種的文句型字段內(nèi)容進行匹 配搜索,如有匹配則輸出匹配句型;挖空穴子模塊,對調(diào)用的句對進行挖句艙操作,輸出對應(yīng)的句型,對調(diào)用的句艙進 行挖艙眼操作,輸出對應(yīng)的艙模;串意對齊子模塊,把某語種的簡單句艙或艙眼以詞串為單元切分并依次填入?yún)⒖?表該語字段后,逐記錄取出查找意群串庫的該文串字段,找到后取出同記錄的某種或某幾 種文串字段內(nèi)容。所述構(gòu)件操作接口模塊設(shè)置有直接查詢子模塊,用于接受命令,不改變參數(shù)形式,直接查詢某個庫的某個字段, 返還查到,有相應(yīng)記錄或沒有查到,無相應(yīng)記錄,用于對意群串庫、組串庫和習(xí)語庫的查 詢;匹配查詢子模塊,用于接受命令,需事先改變查詢參數(shù)或和庫內(nèi)容形式,查詢后返 回查到,有匹配記錄,或沒有查到,無匹配記錄,用于對當(dāng)前句例查詢句型庫返回有或無匹 配句型、或?qū)Ξ?dāng)前句艙內(nèi)容查詢艙模庫返回有無匹配艙模信息;直接給出子模塊,接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng)記錄或有匹配記錄時,直 接給出當(dāng)前庫的被查字段內(nèi)容;映射給出子模塊,接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng)記錄或有匹配記錄時,給 出當(dāng)前庫與被查字段同記錄的其它字段內(nèi)容;更新優(yōu)化子模塊,當(dāng)存貯五類表意構(gòu)件的構(gòu)件庫任意其中之一有記錄已經(jīng)被更新 優(yōu)化后,接受服務(wù)指令,用新內(nèi)容覆蓋舊內(nèi)容,與之相關(guān)的表、索引也作相應(yīng)的改動。上述表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,包括預(yù)設(shè)操作和服務(wù)指令響應(yīng)操作;其中,預(yù)設(shè)操作具體為Si.構(gòu)件提取模塊,讀入多語種句對,依次進行查詢、比對、提取操作,以提取出表 意構(gòu)件,所述表意構(gòu)件分為句型、艙模、組串、意群串和習(xí)語五種類型;把新提取出來的表意 構(gòu)件添加到相應(yīng)構(gòu)件庫的相應(yīng)語種構(gòu)件字段,S2.構(gòu)件庫,存貯表意構(gòu)件,設(shè)有與各種表意構(gòu)件種類相應(yīng)的句型庫,艙模庫,組串 庫,意群串庫和習(xí)語庫,各庫都含有表意構(gòu)件碼和若干語種的表意構(gòu)件,相同語意的所有語 種表意構(gòu)件及一個表意構(gòu)件碼互相映射;服務(wù)指令響應(yīng)操作具體為S3.構(gòu)件操作接口模塊,接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行 查詢,而后根據(jù)服務(wù)指令要求,直接給出或影射給出與查詢內(nèi)容匹配的單項或多項語種的 表意構(gòu)件。
步驟Sl所述構(gòu)件提取模塊對多語種句對進行查詢、比對、提取操作,提取出句型、 艙模、組串、意群串、習(xí)語五類表意構(gòu)件,包括如下步驟S101.從多語種句對中讀入其中的一個雙語樣本句對;S102.調(diào)用配句型子樽塊捭索句型庫返回A、B語匹配句型,若沒有匹配句型,執(zhí)行 步驟S103提取新句型,若有匹配句型執(zhí)行步驟S105套入句型;S103.提取句型,以當(dāng)前雙語樣本句對為參數(shù)調(diào)用挖空穴子樽塊,分別挖去句艙, 留下句型的操作,挖空穴計數(shù)器初始值N = 0 ;S104.若當(dāng)系統(tǒng)從挖空穴子模塊返回,并且N > 1時,表示挖句艙提取句型操作完 畢,把返回的兩個新句型作為句型構(gòu)件分別存入句型庫A文句型、B文句型字段,而后執(zhí)行 步驟S105操作;若當(dāng)系統(tǒng)從挖空穴子模塊返回,且N = O時,表示當(dāng)前雙語樣本句對太小不足以分 出或出于語種和習(xí)俗難以分出句型句艙時則被判定為習(xí)語,把返回的作為習(xí)語構(gòu)件分別存 入習(xí)語庫A文習(xí)語、B文習(xí)語字段;S105.套入句型,把當(dāng)前雙語樣本句對對號入座地套入當(dāng)前匹配句型或套入當(dāng)前 新作句型,作為已經(jīng)劃分出句型、句艙的樣本句對暫存;S106.句艙處理,依次取出已經(jīng)劃分出句型、句艙的樣本句對當(dāng)中的一個句艙,開 窗口一,上部顯示A、B語樣本句對,下部顯示A、B語當(dāng)前句艙內(nèi)容;S107.判斷當(dāng)前句艙是否為簡單句艙,是則盲接執(zhí),行步驟Slll操作,若否,則進一 步判斷是否可以提取艙模,若能提取艙模,直接執(zhí)行步驟S108操作;若不能提取艙模,將當(dāng) 前句艙內(nèi)容作為組串,存入組串庫A、B語組串字段,然后直接執(zhí)行步驟Slll操作;S108.提取艙模,先以當(dāng)前句艙內(nèi)容查詢艙模庫,若查到為已有艙模則直接執(zhí)行步 驟Slll操作;若沒查到,則需要新作艙模,以當(dāng)前雙語句艙對為參數(shù)調(diào)用挖空穴子模塊,挖 去艙眼,留下艙模的操作,挖空穴計數(shù)器初始值N = O;S109.當(dāng)系統(tǒng)從挖空穴子模塊返回時,這里表示挖艙眼提取艙模的操作完畢,把返 回的兩個新艙模作為艙模構(gòu)件分別存入艙模庫A文艙模、B文艙模字段,而后執(zhí)行步驟SllO 操作;S110.套艙模,把當(dāng)前句艙內(nèi)容對號入座地套入當(dāng)前艙?;蛱兹胄戮幣撃W鳛橐?經(jīng)劃分出艙模、艙眼的有模句艙顯示;S111.當(dāng)前句艙處理完畢,如果當(dāng)前雙語樣本句對還有句艙待處理,接續(xù)S106直 至全部句艙處理完畢;S112.簡單句艙和艙眼處理,依次搜索并取出當(dāng)前句對的一個簡單句艙或一個艙 眼的內(nèi)容,以它們?yōu)閰?shù)調(diào)用串意對齊子模塊,以詞串為單元切分并依次填入?yún)⒖急鞟語 字段,逐記錄取出搜索意群串庫的A文串字段,找到后取出同記錄的B文串字段內(nèi)容,當(dāng)B 文串字段內(nèi)容是當(dāng)前簡單句艙或艙眼所含有時,將B文串字段內(nèi)容填入?yún)⒖急鞡語字段;S113.當(dāng)系統(tǒng)從串意對齊子模塊返回時,參考表內(nèi)A、B語的詞串已經(jīng)串意對齊、即 已成為意群串,然后逐記錄地用A、B語字段內(nèi)容搜索意群串庫,僅當(dāng)無搜索記錄時當(dāng)前記 錄內(nèi)容作為新的意群串構(gòu)件存入意群串庫的A文串或B文串字段;S114.如果當(dāng)前句對沒有處理完,執(zhí)行步驟Slll ;如果當(dāng)前句對已經(jīng)全部處理完,執(zhí)行步驟S101,進行下一輪句對操作。
所述調(diào)用配句型子模塊的具體操作為取句型庫中某文句型字段內(nèi)容,以句艙為 空作成句型詞串,以L空N串M艙計數(shù),最長最復(fù)雜的句型應(yīng)小于或等于10段9空16艙; 然后建庫與句型映射,進行索引;S115.把例句從左到右,拼音文字逐個單詞、表意文字逐個字取下,以它們查詢句 型首字或首單詞,把符合的句型集于臨時庫;S116.以循環(huán)語句逐個句型考測,循環(huán)中又設(shè)開關(guān)語句;S117.開關(guān)語句以句型詞串空之?dāng)?shù)N作開關(guān)條件,進入后句型詞串每段依次與例 句比對,比對后兩者都棄去,當(dāng)各段都能在例句中依次找到為之符合例句的匹配句型,列表 給出;S118.當(dāng)列表記錄大于1時,隱含選取句型詞串最長的作為當(dāng)前匹配句型,連同句 型列表一并返回調(diào)用者;所述挖空穴子模塊的具體操作為S119.當(dāng)調(diào)用參數(shù)是句對,返回的是句型當(dāng)調(diào)用調(diào)用參數(shù)是句艙對,返回的是艙 模;S120.彈出一個窗口,上橫行顯示A語句或A組串、下橫行顯示B語句或B組串,橫 行下再顯示挖空穴、保存和悔三個命令按鈕,挖空穴計數(shù)器N = 0 ;S121.系統(tǒng)以數(shù)量串、專名串、名詞串、形名串、其它串的優(yōu)先次序搜索,找出A、B 語句或A、B艙內(nèi)容中表意對等的1對串,給以變色顯示,或當(dāng)是A、B語句對時查詢組串庫, 如果查到以它們?yōu)锳、B語句表意對等的串,給以變色顯示等待操作者干預(yù)確定;從挖第二個空穴開始,系統(tǒng)還檢測已經(jīng)被挖去的空穴,在剩余部份最長段的中部 選取表意對等串變色顯示以作次一輪的比對提取操作,同時檢測兩個空穴之間至少應(yīng)有一 個詞串作為間隔,如果沒有給出提示,操作者認(rèn)同,反悔重做,如果否定,系統(tǒng)僅可容忍兩個 空穴相連;S122.當(dāng)挖空穴命令按鈕被單擊,檢查A、B語是否都被單擊兩個點以及這兩個點 是否有效,如果無效,提示重作,如果有效,使N = N+1,將A、B語句兩點之間的內(nèi)容挖去并 填入“ [N] ”,該輪挖空穴結(jié)束,下一輪重復(fù)步驟S123再挖下一個空穴;S123.當(dāng)悔命令按鈕被單擊,取消最后一次的挖空穴操作,N = N-I,回復(fù)原有顯 示;S124.當(dāng)保存命令按鈕被單擊,清除子模塊,將被挖空穴后的結(jié)果和相關(guān)參數(shù)返 回;所述串意對齊子模塊的具體操作為S125.把A語當(dāng)前句艙或艙眼以詞串為單元切分并依次填入?yún)⒖急鞟語字段,逐記 錄取出查找意群串庫的A文串字段,找到后取出同記錄的B文串字段內(nèi)容,如果該B文串內(nèi) 容在B語當(dāng)前句艙或艙眼中含有,把B文串內(nèi)容填入?yún)⒖急硗涗汢語字段,不含有的讓它 為空;如果意群串庫的A文串字段有相同的記錄,相應(yīng)參考表也多一條A語字段有重的 記錄備選,作完整個參考表,開窗口顯示參考表、對齊確定命令按鈕、組復(fù)詞命令按鈕以及 相關(guān)提示;S126.參考表接受操作者按實例延伸或增補詞義、不改變原有字、單詞的前提下加減串長度、粘帶附隨字、詞形變化增補詞義項等修改A、B文字段內(nèi)容;S127.參考表接受用戶單擊連續(xù)的記錄使組復(fù)詞標(biāo)志字段=“Y”;S128.當(dāng)組復(fù)詞命令按鈕被單擊并且參考表有連續(xù)記錄的“Y”,將它們的A語字段 內(nèi)容以“_”相連組成復(fù)詞,相應(yīng)記錄合并成一條記錄,A語字段填入該復(fù)詞,B語字段以相等 語意的詞串填寫;S129.當(dāng)對齊確定命令按鈕被單擊,表示當(dāng)前句艙或艙眼內(nèi)各詞串已經(jīng)串意對齊, 返回調(diào)用者。步驟S3所述接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行查詢,而后 根據(jù)服務(wù)指令要求,直接給出或影射給出與查詢內(nèi)容匹配的單項或多項語種的表意構(gòu)件, 包括如下步驟利用相同內(nèi)容的雙語或多語種文字版本的語料作為訓(xùn)練樣本,每輪選A、B雙語作 為一個樣本對,其中A語分配給拼音文字或已經(jīng)比對過的文種,B語可以分配給拼音文字也 可分配給表意文字以及新加入的文種,A、B語的一對句子為多語種句對;第一輪雙語對訓(xùn)練樣本的查詢、比對、提取,其中雙語對樣本的A語為英文,B語為 中文,從第二輪開始新語對中必須其一是已經(jīng)進行過查詢、比對、提取的,如當(dāng)加入俄文時, 只能取中俄或英俄語料作為雙語對訓(xùn)練樣本,第二輪剖析比對的雙語對樣本中A語應(yīng)是已 比對過的中文或英文,B語應(yīng)是新加的俄文;每一輪的訓(xùn)練語料樣本應(yīng)大到新增句型/句例比<0.5%后方可考慮增加新語 種、進行次一輪的查詢、比對、提取,另一方面,根據(jù)訓(xùn)練樣本語料的行業(yè)來源或應(yīng)用范圍來 源來標(biāo)記、劃分句型庫、艙模庫、意群串庫、習(xí)語庫來構(gòu)成相應(yīng)分庫。本發(fā)明相比現(xiàn)有技術(shù)具有以下優(yōu)點及有益效果1、構(gòu)件庫模塊含有五個庫,分別存貯句型、艙模、組串、意群串和小習(xí)語五類表意 構(gòu)件;只有相同語意的同類構(gòu)件同處一個記錄,同一記錄又設(shè)計了某某碼字段,用以編制意 通代碼。意通代碼不但唯一地代表了同記錄同類構(gòu)件的共同語意,而且可以分解為某庫某 記錄。這樣的設(shè)計得到構(gòu)件與構(gòu)件之間可以直接轉(zhuǎn)換或通過意通代碼轉(zhuǎn)換而語意不變的有 益效果。2、句型、艙模構(gòu)件為句子提供了框架,決定了所含句艙及艙眼的位次。可以利用它 們對句子進行拆分;同時又可以利用它們組裝出新句子。這就避免了現(xiàn)有技術(shù)利用人工智 能進行句法分析、語法分析之不作為。3、組串、意群串構(gòu)件是填充句艙和艙眼的內(nèi)容。組串和意群串是多語種詞組、術(shù) 語、單詞表意的對等和統(tǒng)一。有利于不同語種之間的詞串的等義與交換(置換)。4、小習(xí)語是表意構(gòu)件之一,也是一類對句型、句艙而言為之特殊的句子,將它們列 為一類,有利于表意構(gòu)件提取、應(yīng)用規(guī)律的建立,而不致于因為特殊句例而遭到破壞。5、表意構(gòu)件源于表意,表示語義,它們本身是一些形式、結(jié)構(gòu)不同的語義塊。然而, 以表意構(gòu)件為單元的電子詞典,能支持計算機語言文字信息處理同樣以表意構(gòu)件為單元運 作,直接針對語義進行操作。


圖1是本發(fā)明表意構(gòu)件電子詞典系統(tǒng)的結(jié)構(gòu)示意圖;10
圖2是構(gòu)件提取模塊示意圖;圖3是構(gòu)件數(shù)據(jù)庫示意圖;圖4是構(gòu)件操作模塊示意圖。
具體實施例方式下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細(xì)的描述,但本發(fā)明的實施方式不限 于此。本發(fā)明人認(rèn)為,語言文字的本質(zhì)是表意;不同語言文字的句子可以表達相同的語 意。不同語言文字句子的表意都是通過句型、艙模、組串、意群串以及小習(xí)語五種表意構(gòu)件 實現(xiàn)的。然而我們①使語言文字在計算機內(nèi),以更符合語言文字表意規(guī)律的形式存在和運作。首先把②語法分析、語義理解分配給人腦。組織專人和譯者根據(jù)句型句艙原理,對 多語種句子進行表意的剖析、比對整理。這些需要理解的艱難的也是一勞永逸的事由人腦 完成。同時③把經(jīng)常性的、單調(diào)、繁瑣的記憶、搜索、匹配等工作交給電腦。讓計算機提供一個簡捷的操作平臺,利用人機交互的方式,讓“人腦”、“電腦”、“語 言文字”三者最佳地協(xié)調(diào),最大地互補;把剖析、比對過程中產(chǎn)生的句型、艙模、意群串等表 意構(gòu)件建庫保存,并統(tǒng)一編制意通代碼。下文參照附圖、利用實施例將本發(fā)明的內(nèi)容進一步說明如下一、一種表意構(gòu)件電子詞典系統(tǒng)圖1是本發(fā)明表意構(gòu)件電子詞典結(jié)構(gòu)示意圖100 ;表意構(gòu)件電子詞典結(jié)構(gòu)示意圖100含有構(gòu)件提取模塊101,構(gòu)件操作接口模塊103 和構(gòu)件數(shù)據(jù)庫102。構(gòu)件提取模塊101將提取出來的表意構(gòu)件輸出到構(gòu)件數(shù)據(jù)庫102存貯; 構(gòu)件操作接口模塊103對構(gòu)件數(shù)據(jù)庫102進行操作、讀取數(shù)據(jù),將結(jié)果由接口輸出。(一 )、表意構(gòu)件提取模塊101、200,讀入多語種句對,依次進行查詢、比對、提取操 作,進行表意構(gòu)件的提取,將提取出來的表意構(gòu)件,句型、艙模、組串、意群串、小習(xí)語,分別 輸出貯存于構(gòu)件數(shù)據(jù)庫的相應(yīng)構(gòu)件庫102的相應(yīng)文種構(gòu)件字段內(nèi)。本模塊包括配句型子 模塊、挖空穴子模塊和串對齊子模塊(參附圖1、附圖2)配句型子模塊201、用某語種樣本句對與句型庫中對應(yīng)語種的文句型字段內(nèi)容進 行匹配搜索,有匹配的則輸出其匹配的句型。挖空穴子模塊202、對當(dāng)前的句對進行挖句艙操作,輸出對應(yīng)的句型;或?qū)Ξ?dāng)前的 句艙進行挖艙眼操作,輸出對應(yīng)的艙模。串意對齊子模塊203、對當(dāng)前簡單句艙或當(dāng)前艙眼進行操作,備有參考表,含有A 語字段和B語字段;該模塊操作使艙或眼內(nèi)容詞串語意對齊后填入?yún)⒖急?,返回?二)、構(gòu)件數(shù)據(jù)庫102、300,接受表意構(gòu)件提取模塊101的輸出,含有用電子數(shù)據(jù) 形式構(gòu)成的、存儲了多語種語意對等的表意構(gòu)件的二維數(shù)據(jù)庫表。它們是句型庫、艙模庫、 組串庫、意群串庫和習(xí)語庫五個表意構(gòu)件庫(參附圖3)1、句型庫301,用于存儲句型構(gòu)件,有句型碼、英文句型、中文句型、俄文句型字段。 其包含至少一個記錄,相同語意的句型同處一個記錄,相應(yīng)文種的句型存儲在相應(yīng)文種句型字段內(nèi)。這里所述文種句型是指句型的框架部分,是面向各自然語言的。2、艙模庫302,用于存儲艙模構(gòu)件,有艙模碼、英文艙模、中文艙模、俄文艙模字段。 其包含至少一個記錄,相同語意的艙模同處一個記錄,相應(yīng)文種的艙模存儲在相應(yīng)文種艙 模字段內(nèi)。艙模是復(fù)雜句艙的框架結(jié)構(gòu)部分,是面向各自然語言的。3、組串庫303,用于存儲組串構(gòu)件,有組串碼、英文組串、中文組串、俄文組串字段。 其包含至少一個記錄,相同語意的組串同處一個記錄,相應(yīng)文種的組串存儲在相應(yīng)文種組 串字段內(nèi)。組串碼代表了同一記錄內(nèi)的各組串字段內(nèi)各文種組串的語意,影射了各文種組 串;各文種組串又可以通過組串碼影射另一個文種組串。4、意群串庫304,用于存儲意群串構(gòu)件,有意群碼、英文串、中文串、俄文串字段。其 包含至少一個記錄,相同語意的意群串同處一個記錄,相應(yīng)文種的意群串存儲在相應(yīng)文種 串字段內(nèi)。5、習(xí)語庫305,用于存儲小習(xí)語構(gòu)件,有習(xí)語碼、英文習(xí)語、中文習(xí)語、俄文習(xí)語字 段。其包含至少一個記錄,相同語意的小習(xí)語同處一個記錄,相應(yīng)文種的小習(xí)語存儲在相應(yīng) 文種習(xí)語字段內(nèi)。上述五個庫的結(jié)構(gòu)強調(diào)只有相同語意的同類構(gòu)件才同處一個記錄,同一記錄又設(shè) 計了某某碼字段,用以編制意通代碼。意通代碼與同記錄的同類構(gòu)件的相互影射。這樣的 結(jié)構(gòu)保證了構(gòu)件與構(gòu)件之間可以直接轉(zhuǎn)換或通過意通代碼轉(zhuǎn)換而語意不變;也就是說,不 同語種的表意構(gòu)件之間可以借此進行相互轉(zhuǎn)換。上述五個庫之間的關(guān)系是平列的,它們互 不干預(yù)又共處表意構(gòu)件數(shù)據(jù)庫之中。(三)、構(gòu)件操作接口模塊103、400,用于接手服務(wù)指令,針對服務(wù)指令所給查詢內(nèi) 容在構(gòu)件庫進行查詢,而后根據(jù)服務(wù)指令要求,直接給出或映射給出與查詢內(nèi)容匹配的單 項或多項的表意構(gòu)件。構(gòu)件操作接口模塊由直接查詢子模塊401、匹配查詢子模塊402、直 接給出子模塊403、映射給出子模塊404、更新優(yōu)化子模塊405和接口部406構(gòu)成(參附圖 4)。其中接口部承接本模塊操作結(jié)果,然后返回給調(diào)用者;!。其它五個子模塊它們的功 能分別是1)直接查詢子模塊401、直接查詢子模塊,用于接受命令,不改變參數(shù)形式,直接 查詢某個庫的某個字段。返還查到、有相應(yīng)記錄,或沒有查到、無相應(yīng)記錄。用于對意群串 庫、組串庫和習(xí)語庫的查詢;2)匹配查詢子模塊402、匹配查詢子模塊,用于接受命令,需事先改變查詢參數(shù)或 和庫內(nèi)容的形式。查詢后返回查到、有匹配記錄;或沒有查到、無匹配記錄。用于對當(dāng)前句 例查詢句型庫返回有或無匹配句型、或?qū)Ξ?dāng)前句艙內(nèi)容查詢艙模庫返回有無匹配艙模。3)直接給出子模塊403、直接給出子模塊,接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng) 記錄或有匹配記錄時,直接給出當(dāng)前記錄的被查字段內(nèi)容。4)映射給出子模塊404、映射給出子模塊,接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng) 記錄或有匹配記錄時,給出當(dāng)前庫與被查字段同記錄的其它字段內(nèi)容;5)更新優(yōu)化子模塊405、更新優(yōu)化子模塊,當(dāng)存貯五類表意構(gòu)件的構(gòu)件庫任意其 中之一有記錄已經(jīng)被更新優(yōu)化后,接受服務(wù)指令,用新內(nèi)容覆蓋舊內(nèi)容,與之相關(guān)的表、索 引也作相應(yīng)的改動。二、一種表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法
表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法包括預(yù)設(shè)操作和服務(wù)指令響應(yīng)操作二部分;預(yù)設(shè)操作具體部分分為A.構(gòu)件提取模塊,讀入多語種句對,依次進行查詢、比對、提取操作,以提取出表意 構(gòu)件,所述表意構(gòu)件分為句型、艙模、組串、意群串和習(xí)語五種類型;把新提取出來的表意構(gòu) 件添加到相應(yīng)構(gòu)件庫的相應(yīng)語種構(gòu)件字段,B.構(gòu)件數(shù)據(jù)庫,存貯表意構(gòu)件,設(shè)有與各種表意構(gòu)件種類相應(yīng)的句型庫,艙模庫, 組串庫,意群串庫和習(xí)語庫,各庫都含有表意構(gòu)件碼和若干語種的表意構(gòu)件,相同語意的所 有語種表意構(gòu)件及一個表意構(gòu)件碼互相映射;服務(wù)指令響應(yīng)操作具體部分為C.構(gòu)件操作接口模塊,接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行 查詢,而后根據(jù)服務(wù)指令要求,直接給出或影射給出與查詢內(nèi)容匹配的單項或多項語種的 表意構(gòu)件。下文以模塊以及它們所包含的步驟、流程分述如下(一)、構(gòu)件提取模塊1)訓(xùn)練樣本構(gòu)件提取模塊,輸入的是多語種句對。首先需要明白的是多語種句對 來自相同內(nèi)容的雙語或多語種文字版本的語料,以該語料作為訓(xùn)練樣本。每一輪構(gòu)件提取 工作都采用A、B兩種語言文字。每輪選A、B雙語作為一個樣本對,其中A語分配給拼音文 字或已經(jīng)比對過的文種,B語可以分配給拼音文字也可分配給表意文字以及新加入的文種, A、B語的一對句子為多語種句對;第一輪雙語對訓(xùn)練樣本的查詢、比對、提取,其中雙語對樣本的A語為英文,B語為 中文,從第二輪開始新語對中必須其一是已經(jīng)進行過查詢、比對、提取的,如當(dāng)加入俄文時, 只能取中俄或英俄語料作為雙語對訓(xùn)練樣本,第二輪剖析比對的雙語對樣本中A語應(yīng)是已 比對過的中文或英文,B語應(yīng)是新加的俄文;從第三輪開始,每輪增加一個語種,事先應(yīng)在 上述五個庫任何之一分別增設(shè)一個某語或某文字段,用于存貯新增加語種的相應(yīng)構(gòu)件。每一輪的訓(xùn)練語料樣本應(yīng)大到新增句型/句例比<0.5%后方可考慮增加新語 種、進行次一輪的查詢、比對、提取程序。另一方面,又可以根據(jù)訓(xùn)練樣本語料的行業(yè)來源或 應(yīng)用范圍來源來標(biāo)記、劃分句型庫、艙模庫、意群串庫、習(xí)語庫來構(gòu)成相應(yīng)分庫。構(gòu)件提取模塊的步驟流程2)句對讀入從多語種句對中讀入其中的一個雙語樣本句對;稱當(dāng)前句對。然后, 調(diào)用配句型子模塊搜索句型庫,查詢當(dāng)前句對是否已經(jīng)有匹配句型。如果有匹配句型,返回 A、B語匹配句型;下續(xù)套入句型步驟。若沒有匹配句型,把當(dāng)前句對作為樣本來提取句型。3)提取句型,以當(dāng)前句對為參數(shù)調(diào)用挖空穴子樽塊,分別挖去句艙,留下句型的操 作,置挖空穴計數(shù)器初始值N = O;若當(dāng)系統(tǒng)從挖空穴子模塊返回,并且N > 1時,表示挖句艙提取句型操作完畢,把 返回的兩個新句型作為句型構(gòu)件分別存入句型庫A文句型、B文句型字段,而后執(zhí)行套入句 型步驟。若當(dāng)系統(tǒng)從挖空穴子模塊返回,且N = 0時,表示當(dāng)前雙語樣本句對太小不足以分 出或出于語種和習(xí)俗難以分出句型句艙,此時當(dāng)前句對被判定為小習(xí)語,把返回的當(dāng)前句 對作為習(xí)語構(gòu)件分別存入習(xí)語庫A文習(xí)語、B文習(xí)語字段。4)套入句型,把當(dāng)前雙語樣本句對對號入座地套入當(dāng)前匹配句型或套入當(dāng)前新作句型,套入后的句型句例結(jié)合型式作為已經(jīng)劃分出句型、句艙的樣本句對暫存。如as far as 1 {astronomers}can 2 {determine},the entire universe is3 {built}of 4 {the same matter}.1{宇宙工作者}可以2{確定}整個宇宙都是由4{_相同物質(zhì)}3{構(gòu)成}的。5)句艙處理,依次取出已經(jīng)劃分出句型、句艙的樣本句對當(dāng)中的一個句艙,開窗口 一,上部顯示A、B語樣本句對,下部顯示A、B語當(dāng)前句艙內(nèi)容;判斷當(dāng)前句艙是否為籃_艙,是則直接執(zhí)行艙結(jié)束判斷步驟;若否,則進一步判 斷是否可以提取艙模,若能提取艙模,直接執(zhí)行提取艙模步驟;若不能提取艙模,將當(dāng)前句 艙內(nèi)容作為組串,存入組串庫A、B語組串字段,然后直接執(zhí)行艙結(jié)束判斷步驟。判斷當(dāng)前句艙是否簡單句艙、是否可以提取艙模,都是考察A語。如果A語除不表 意虛詞外不超出三個意群串(含復(fù)串)判為簡單句艙。如果A語等于大于7個串判為可以 提取艙模;小于7個串判為不可以提取艙模。組串構(gòu)件的設(shè)置可以使句艙的分析處理更合理更準(zhǔn)確。如果沒有組串構(gòu)件,大于 簡單句艙的是復(fù)雜句艙。復(fù)雜句艙等于有模句艙,都應(yīng)提取艙模;不但麻煩而且實際應(yīng)用常 常因為過于簡短的艙模而招致“艙?!边^敏,影響應(yīng)用。有了組串構(gòu)件,句艙有簡單句艙、組 串句艙、有模句艙三個等級,更合理,也更準(zhǔn)確,更符合實際需要。6)提取艙模,先以當(dāng)前句艙內(nèi)容查詢艙模庫,若查到為已有艙模則直接執(zhí)行艙結(jié) 束判斷步驟;若沒查到,則需要新作艙模,以當(dāng)前雙語句艙對為參數(shù)調(diào)用挖空穴子模塊,挖 去艙眼,留下艙模的操作,挖空穴計數(shù)器初始值N = O;當(dāng)系統(tǒng)從挖空穴子模塊返回時,這里表示挖艙眼提取艙模的操作完畢,把返回的 兩個新艙模作為艙模構(gòu)件分別存入艙模庫A文艙模、B文艙模字段;7)套艙模,把當(dāng)前句艙內(nèi)容對號入座地套入當(dāng)前艙?;蛱兹胄屡撃W鳛橐呀?jīng)劃分 出艙模、艙眼的有模句艙顯示;8)艙結(jié)束判斷,當(dāng)前句艙處理完畢,如果當(dāng)前雙語樣本句對還有句艙待處理,接續(xù) 句艙處理步驟,直至全部句艙處理完畢;9)簡單句艙和艙眼處理,依次搜索并取出當(dāng)前句對的一個簡單句艙或一個艙眼的 內(nèi)容,以它們?yōu)閰?shù)調(diào)用串意對齊子模塊;當(dāng)系統(tǒng)從串意對齊子模塊返回時,參考表內(nèi)A、B 語的詞串已經(jīng)串意對齊、即已成為意群串,然后逐記錄地用A、B語字段內(nèi)容搜索意群串庫, 僅當(dāng)無搜索記錄時,把當(dāng)前記錄內(nèi)容作為新的意群串構(gòu)件存入意群串庫的A文串或B文串 字段;意群串構(gòu)件就是如此得到的多語種詞串語意的對齊和統(tǒng)一。句結(jié)束判斷,如果當(dāng)前句對沒有處理完,執(zhí)行艙結(jié)束判斷步驟;如果當(dāng)前句對已經(jīng) 全部處理完,執(zhí)行句型搜索步驟,進行下一輪句對操作。上文所述調(diào)用配句型子模塊、挖空穴字模塊、串對齊子模塊進一步說明如下配句型子模塊取句型庫中某文句型字段內(nèi)容,以句艙為空作成句型詞串,以L空N串M艙計數(shù), 最長最復(fù)雜的句型應(yīng)小于或等于10段9空16艙;然后建庫與句型映射,進行索引;如把句 型as far as[1]can[2], the entire universe is[3]of [4].
作成如下4空5串4艙的句型詞串形式as far as can, the entire universe is of.a)、把例句從左到右,拼音文字逐個單詞、表意文字逐個字取下,以它們查詢句型 首字或首單詞,把符合的句型集于臨時庫;b)、以循環(huán)語句逐個句型考測,循環(huán)中又設(shè)開關(guān)語句;C)、開關(guān)語句以句型詞串空之?dāng)?shù)N作開關(guān)條件,進入后句型詞串每段依次與例句 比對,比對后兩者都棄去,當(dāng)各段都能在例句中依次找到為之符合例句的匹配句型,列表給 出;d)、當(dāng)列表記錄大于1時,隱含選取句型詞串最長的作為當(dāng)前匹配句型,連同句型 列表一并返回調(diào)用者;挖空穴子模塊當(dāng)調(diào)用參數(shù)是句對,返回的是句型當(dāng)調(diào)用參數(shù)是句艙對,返回的是艙模;a)、彈出一個窗口,上橫行顯示A語句或A組串、下橫行顯示B語句或B組串,橫行 下再顯示“挖空穴”、“保存”和“悔”三個命令按鈕,挖空穴計數(shù)器N = 0 ;b)、系統(tǒng)以數(shù)量串、專名串、名詞串、形名串、其它串的優(yōu)先次序搜索,找出A、B語 句或A、B艙內(nèi)容中表意對等的1對串,給以變色顯示,或當(dāng)是A、B語句對時查詢組串庫,如 果查到以它們?yōu)锳、B語句表意對等的串,給以變色顯示作為參考,等待操作者干預(yù)確定;C)、操作者可以參考顯示,也可以不參考其顯示,在上述窗口單擊待挖空穴的首尾 兩個點;如下面句對當(dāng)中的“ I ”代表已經(jīng)單擊待挖空穴的首尾兩個點I the manager I was dexterous in handling his staff.I那位經(jīng)理I善於運用他屬下的職員。d)、當(dāng)挖空穴命令按鈕被單擊,檢查A、B語是否都被單擊兩個點以及這兩個點是 否有效(兩點之間A語至少包含一個串;B語則語意相當(dāng)?shù)拇?,如果無效,提示重作,如果 有效,使N = N+1,將A、B語句兩點之間的內(nèi)容挖去并填入“ [N] ”,該輪挖空穴結(jié)束,下一輪 重復(fù)步驟再挖下一個空穴;如上例成為[l]was dexterous in handling his staff.[1]善於運用他屬下的職員。從挖第二個空穴開始,系統(tǒng)還檢測已經(jīng)被挖去的空穴,在剩余部份最長段的中部 選取表意對等串變色顯示以作次一輪的比對提取操作,同時檢測兩個空穴之間至少應(yīng)有一 個詞串作為間隔,如果沒有給出提示,操作者認(rèn)同,反悔重做,如果否定,系統(tǒng)僅可容忍兩個 空穴相連;e).當(dāng)悔命令按鈕被單擊,取消最后一次的挖空穴操作,N = N-I,回復(fù)原有顯示;f).當(dāng)保存命令按鈕被單擊,清除子模塊,將被挖空穴后的結(jié)果和相關(guān)參數(shù)返回;串意對齊子模塊串對齊子模塊備有參考表,含有A語字段和B語字段;先清空參考表。a)、把簡單句艙或艙眼內(nèi)容以A語、B語分別取出作為“內(nèi)容A”、“內(nèi)容B”。b)、用“內(nèi)容A”以詞串為單元切分并依次填入?yún)⒖急鞟語字段,然后逐記錄取出查 找意群串庫與A語相應(yīng)的文串字段。C)、如果找到,取出與B語相應(yīng)的文串字段內(nèi)容,該字段內(nèi)容如果“內(nèi)容B”含有,將15它填入?yún)⒖急井?dāng)前記錄的B語字段;如果不含有,參考表當(dāng)前記錄B語字段為空。d)、顯然,逐記錄取出參考表A語字段內(nèi)容,查找意群串庫與A語相應(yīng)的文串字段 時;可能查出多條相符記錄,使得參考表也相應(yīng)有多條記錄。e)、作完整個參考表,開窗口顯示參考表、對齊確定命令按鈕、組復(fù)詞命令按鈕以 及相關(guān)提示;f)、參考表接受操作者按實例延伸或增補詞義、不改變原有字、單詞的前提下加減 串長度、粘帶附隨字、詞形變化增補詞義項等修改A、B語字段內(nèi)容;g)、參考表接受用戶單擊連續(xù)的記錄使組復(fù)詞標(biāo)志字段=“Y” ;h)、當(dāng)組復(fù)詞命令按鈕被單擊并且參考表有連續(xù)記錄的“Y”,將它們的A語字段內(nèi) 容以“_”相連組成復(fù)詞,相應(yīng)記錄合并成一條記錄,A語字段填入該復(fù)詞,B語字段以相等語 意的詞串填寫;i)、當(dāng)對齊確定命令按鈕被單擊,棄去參考表B語為空的記錄,表示當(dāng)前句艙或艙 眼內(nèi)各詞串已經(jīng)串意對齊,分別位于參考表A、B語字段內(nèi),返回調(diào)用者。如處理句艙“the same matter,,、“相同的物質(zhì)”;內(nèi)容A是“ the samematter ”,內(nèi)容B是“相同物質(zhì)”,處理后 返回的參考表是A語字段 B語字段same相同的matter 物質(zhì)其中“the”在這里不表意,故為空?!皊ame”和“matter”還有其它多種語意,如“相 同、同一的、所謂”、“問題、事件、素材”等等,因內(nèi)容B不含有而未被納入。(二)、構(gòu)件數(shù)據(jù)庫存貯表意構(gòu)件,設(shè)有與各種表意構(gòu)件種類相應(yīng)的句型庫,艙模庫,組串庫,意群串 庫和習(xí)語庫,各庫都含有表意構(gòu)件碼和若干語種的表意構(gòu)件,相同語意的所有語種表意構(gòu) 件及一個表意構(gòu)件碼互相映射。(三)、構(gòu)件操作接口模塊構(gòu)件操作接口模塊包含直接查詢子模塊、匹配查詢子模塊、直接給出子模塊、映射 給出子模塊、更新優(yōu)化子模塊。它們各自的流程步驟如下直接查詢子模塊,用于查詢意群串、阻串和小習(xí)語;a)、接受命令與參數(shù)查詢庫、語種、查詢內(nèi)容;b)、不改變參數(shù)形式,打開其指定查詢的庫;c)、對所指語種相應(yīng)的某語構(gòu)件字段進行查詢;d)、字段內(nèi)容與查詢內(nèi)容參數(shù)相同的記錄為查到的結(jié)果記錄;e)、將查到的結(jié)果記錄號返回調(diào)用者。匹配查詢子模塊,用于查詢匹配句型或匹配艙模;事先將句型庫或艙模庫某語字段內(nèi)容改變成“句型詞+空格”的形式作索引表與 原記錄一一對應(yīng),加型首或模首字段,其內(nèi)容拼音文字是首個串,中文(表意文字)是首 字;如句型“the{l}toldhis {2} that {3} on condition that {4}. ” 改變成句型詞 + 2SII"白勺? “the to ldhis that on condition that.";
句型“{1}告訴他的{2},如果能{4},就可以{3}。”改變成句型詞+空格的形式 “告訴他的,如果能,就可以?!盿)、接受查詢命令以及參數(shù)例句或句艙內(nèi)容;b)、如果所給參數(shù)是例句,打開句型庫,進入查句型流程;如果所給參數(shù)是句艙內(nèi) 容,打開艙模庫,進入查艙模流程;查句型流程C)、把例句從左到右,英逐個單詞、中逐個字取下,以它們查句索引表的型首字或 首單詞字段;d)、把符合的記錄集于臨時庫,據(jù)臨時庫取出相應(yīng)句型;e)、以循環(huán)語句再逐個句型考測;f)、循環(huán)中又設(shè)開關(guān)語句,以句型詞串空為數(shù)作為開關(guān)參數(shù);g)、進入開關(guān)語句后,以空格切分句型詞串,逐段切下與例句比對,比對后兩者都 棄去;當(dāng)句型詞串各段都分別能在例句段中找到為之匹配,即與例句匹配的句型;h)、同樣的操作搜索完臨時表;i)、如果有大于1個匹配句型的,隱含以匹配句型長度降序列表返回。查艙模流程j)、把句艙內(nèi)容從左到右,英逐個單詞、中逐個字取下,以它們查句索引表的型首 字或首單詞字段;k)、把符合的記錄集于臨時庫,據(jù)臨時庫取出相應(yīng)艙模;1)、以循環(huán)語句再逐個句型考測;m)、循環(huán)中又設(shè)開關(guān)語句,以艙模詞串空為數(shù)作為開關(guān)參數(shù);η)、進入開關(guān)語句后,以空格切分艙模詞串,逐段切下與句艙內(nèi)容比對,比對后兩 者都棄去;當(dāng)艙模詞串各段都分別能在句艙內(nèi)容中找到為之匹配,即與句艙內(nèi)容匹配的峽 模;ο)、同樣的操作搜索完臨時表;ρ)、如果有大于1個匹配艙模的,隱含以匹配艙模長度降序列表返回。直接給出子模塊接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng)記錄或有匹配記錄時,直接給出當(dāng)前記錄 的被查字段內(nèi)容。映射給出子模塊a)、接受服務(wù)指令以及參數(shù)映射給出某某文構(gòu)件;b)、當(dāng)查詢返回查到有相應(yīng)記錄或有匹配記錄時,給出當(dāng)前庫與被查字段同記錄 的其它某某為構(gòu)件字段內(nèi)容;更新優(yōu)化子模塊a)、當(dāng)存貯五類表意構(gòu)件的構(gòu)件庫任意其中之一有記錄或字段內(nèi)容已經(jīng)被更新優(yōu) 化后,b)、接受服務(wù)指令以及參數(shù)某庫,某記錄,某字段,更新內(nèi)容C)、根據(jù)參數(shù)要求找到目的點,即找到某庫,某記錄,某字段;d)、用更新內(nèi)容覆蓋目的點內(nèi)容;
e)、與之相關(guān)的表、索引也作相應(yīng)的改動。說明當(dāng)某表意構(gòu)件庫有記錄或字段內(nèi)容已經(jīng)被更新優(yōu)化后,進行上面的操作。這 是一項預(yù)留的功能,致于如何更新優(yōu)化不屬于本發(fā)明技術(shù)范圍。這里只管已經(jīng)被更新優(yōu)化 后的內(nèi)容覆蓋原有內(nèi)容。上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的 限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化, 均應(yīng)為等效的置換方式,都包含在發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種表意構(gòu)件電子詞典系統(tǒng),其特征在于,包括構(gòu)件提取模塊,讀入多語種句對, 依次進行查詢、比對、提取操作,以提取出表意構(gòu)件,所述表意構(gòu)件分為句型、艙模、組串、意 群串和習(xí)語五種類型;把新提取出來的表意構(gòu)件添加到相應(yīng)構(gòu)件庫的相應(yīng)語種構(gòu)件字段,構(gòu)件數(shù)據(jù)庫,存貯表意構(gòu)件,設(shè)有與各種表意構(gòu)件種類相應(yīng)的句型庫,艙模庫,組串庫, 意群串庫和習(xí)語庫,各庫都含有表意構(gòu)件碼和若干語種的表意構(gòu)件,相同語意的所有語種 表意構(gòu)件及一個表意構(gòu)件碼互相映射;構(gòu)件操作接口模塊,接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行查詢, 而后根據(jù)服務(wù)指令要求,直接給出或映射給出與查詢內(nèi)容匹配的單項或多項語種的表意構(gòu) 件;組串構(gòu)件就是某些較大的句艙中,缺乏類似句型的結(jié)構(gòu),不能提取艙模且由大于三個 意群串所組成的句艙內(nèi)容;組串庫,用于存儲組串構(gòu)件,有組串碼、英文組串、中文組串、俄文組串字段,相同語意 的組串同處一個記錄,相應(yīng)文種的組串存儲在相應(yīng)文種組串字段內(nèi),組串碼代表了同一記 錄內(nèi)各文種組串字段內(nèi)的各文種組串的語意。
2.根據(jù)權(quán)利要求1所述的表意構(gòu)件電子詞典系統(tǒng),其特征在于,所述構(gòu)件提取模塊設(shè) 置有配句型子模塊,用某語種樣本句對與句型庫中對應(yīng)語種的文句型字段內(nèi)容進行匹配搜 索,如有匹配則輸出匹配句型;挖空穴子模塊,對調(diào)用的句對進行挖句艙操作,輸出對應(yīng)的句型,對調(diào)用的句艙進行挖 艙眼操作,輸出對應(yīng)的艙模;串意對齊子模塊,把某語種的簡單句艙或艙眼以詞串為單元切分并依次填入?yún)⒖急碓?語字段后,逐記錄取出查找意群串庫的該文串字段,找到后取出同記錄的某種或某幾種文 串字段內(nèi)容。
3.根據(jù)權(quán)利要求1所述的表意構(gòu)件電子詞典系統(tǒng),其特征在于,所述構(gòu)件操作接口模 塊設(shè)置有直接查詢子模塊,用于接受命令,不改變參數(shù)形式,直接查詢某個庫的某個字段,返還 查到,有相應(yīng)記錄或沒有查到,無相應(yīng)記錄,用于對意群串庫、組串庫和習(xí)語庫的查詢;匹配查詢子模塊,用于接受命令,需事先改變查詢參數(shù)或和庫內(nèi)容形式,查詢后返回查 到,有匹配記錄,或沒有查到,無匹配記錄,用于對當(dāng)前句例查詢句型庫返回有或無匹配句 型、或?qū)Ξ?dāng)前句艙內(nèi)容查詢艙模庫返回有無匹配艙模信息;直接給出子模塊,接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng)記錄或有匹配記錄時,直接給 出當(dāng)前庫的被查字段內(nèi)容;映射給出子模塊,接受服務(wù)指令,當(dāng)查詢返回查到有相應(yīng)記錄或有匹配記錄時,給出當(dāng) 前庫與被查字段同記錄的其它字段內(nèi)容;更新優(yōu)化子模塊,當(dāng)存貯五類表意構(gòu)件的構(gòu)件庫任意其中之一有記錄已經(jīng)被更新優(yōu)化 后,接受服務(wù)指令,用新內(nèi)容覆蓋舊內(nèi)容,與之相關(guān)的表、索引也作相應(yīng)的改動。
4.根據(jù)權(quán)利要求1所述的表意構(gòu)件詞典系統(tǒng)的實現(xiàn)方法,其特征在于,包括預(yù)設(shè)操作 和服務(wù)指令響應(yīng)操作;其中,預(yù)設(shè)操作具體為s1.構(gòu)件提取模塊,讀入多語種句對,依次進行查詢、比對、提取操作,以提取出表意構(gòu) 件,所述表意構(gòu)件分為句型、艙模、組串、意群串和習(xí)語五種類型;把新提取出來的表意構(gòu)件 添加到相應(yīng)構(gòu)件庫的相應(yīng)語種構(gòu)件字段, s2.構(gòu)件庫,存貯表意構(gòu)件,設(shè)有與各種表意構(gòu)件種類相應(yīng)的句型庫,艙模庫,組串庫, 意群串庫和習(xí)語庫,各庫都含有表意構(gòu)件碼和若干語種的表意構(gòu)件,相同語意的所有語種 表意構(gòu)件及一個表意構(gòu)件碼互相映射;服務(wù)指令響應(yīng)操作具體為s3.構(gòu)件操作接口模塊,接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行查 詢,而后根據(jù)服務(wù)指令要求,直接給出或影射給出與查詢內(nèi)容匹配的單項或多項語種的表 意構(gòu)件。
5.根據(jù)權(quán)利要求4所述的表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,其特征是,步驟Sl所述 構(gòu)件提取模塊對多語種句對進行查詢、比對、提取操作,提取出句型、艙模、組串、意群串、習(xí) 語五類表意構(gòu)件,包括如下步驟s101.從多語種句對中讀入其中的一個雙語樣本句對;s102.調(diào)用配句型子模塊搜索句型庫返回A、B語匹配句型,若沒有匹配句型,執(zhí)行步驟 S103提取新句型,若有匹配句型執(zhí)行步驟S105套入句型;s103.提取句型,以當(dāng)前雙語樣本句對為參數(shù)調(diào)用挖空穴子模塊,分別挖去句艙,留下 句型的操作,挖空穴計數(shù)器初始值N = O;s104.若當(dāng)系統(tǒng)從挖空穴子模塊返回,并且N> 1時,表示挖句艙提取句型操作完畢, 把返回的兩個新句型作為句型構(gòu)件分別存入句型庫A文句型、B文句型字段,而后執(zhí)行步驟 S105操作;若當(dāng)系統(tǒng)從挖空穴子模塊返回,且N = O時,表示當(dāng)前雙語樣本句對太小不足以分出或 出于語種和習(xí)俗難以分出句型句艙時則被判定為習(xí)語,把返回的作為習(xí)語構(gòu)件分別存入習(xí) 語庫A文習(xí)語、B文習(xí)語字段;s105.套入句型,把當(dāng)前雙語樣本句對對號入座地套入當(dāng)前匹配句型或套入當(dāng)前新作 句型,作為已經(jīng)劃分出句型、句艙的樣本句對暫存;s106.句艙處理,依次取出已經(jīng)劃分出句型、句艙的樣本句對當(dāng)中的一個句艙,開窗口 一,上部顯示A、B語樣本句對,下部顯示A、B語當(dāng)前句艙內(nèi)容;s107.判斷當(dāng)前句艙是否為簡單句艙,是則盲接執(zhí),行步驟Slll操作,若否,則進一步判 斷是否可以提取艙模,若能提取艙模,直接執(zhí)行步驟S108操作;若不能提取艙模,將當(dāng)前句 艙內(nèi)容作為組串,存入組串庫A、B語組串字段,然后直接執(zhí)行步驟Slll操作;s108.提取艙模,先以當(dāng)前句艙內(nèi)容查詢艙模庫,若查到為已有艙模則直接執(zhí)行步驟 Slll操作;若沒查到,則需要新作艙模,以當(dāng)前雙語句艙對為參數(shù)調(diào)用挖空穴子模塊,挖去 艙眼,留下艙模的操作,挖空穴計數(shù)器初始值N = 0 ;s109.當(dāng)系統(tǒng)從挖空穴子模塊返回時,這里表示挖艙眼提取艙模的操作完畢,把返回的 兩個新艙模作為艙模構(gòu)件分別存入艙模庫A文艙模、B文艙模字段,而后執(zhí)行步驟SllO操 作;s110.套艙模,把當(dāng)前句艙內(nèi)容對號入座地套入當(dāng)前艙模或套入新編艙模作為已經(jīng)劃 分出艙模、艙眼的有模句艙顯示;· 5111.當(dāng)前句艙處理完畢,如果當(dāng)前雙語樣本句對還有句艙待處理,接續(xù)S106直至全 部句艙處理完畢;·5112.簡單句艙和艙眼處理,依次搜索并取出當(dāng)前句對的一個簡單句艙或一個艙眼的 內(nèi)容,以它們?yōu)閰?shù)調(diào)用串意對齊子模塊,以詞串為單元切分并依次填入?yún)⒖急鞟語字段, 逐記錄取出搜索意群串庫的A文串字段,找到后取出同記錄的B文串字段內(nèi)容,當(dāng)B文串字 段內(nèi)容是當(dāng)前簡單句艙或艙眼所含有時,將B文串字段內(nèi)容填入?yún)⒖急鞡語字段;·5113.當(dāng)系統(tǒng)從串意對齊子模塊返回時,參考表內(nèi)A、B語的詞串已經(jīng)串意對齊、即已成 為意群串,然后逐記錄地用A、B語字段內(nèi)容搜索意群串庫,僅當(dāng)無搜索記錄時當(dāng)前記錄內(nèi) 容作為新的意群串構(gòu)件存入意群串庫的A文串或B文串字段;·5114.如果當(dāng)前句對沒有處理完,執(zhí)行步驟Slll;如果當(dāng)前句對已經(jīng)全部處理完,執(zhí)行步驟S101,進行下一輪句對操作。
6.根據(jù)權(quán)利要求5所述的一種表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,其特征是,所述調(diào) 用配句型子模塊的具體操作為,取句型庫中某文句型字段內(nèi)容,以句艙為空作成句型詞 串,以L空N串M艙計數(shù),最長最復(fù)雜的句型應(yīng)小于或等于10段9空16艙;然后建庫與句 型映射,進行索引;·5115.把例句從左到右,拼音文字逐個單詞、表意文字逐個字取下,以它們查詢句型首 字或首單詞,把符合的句型集于臨時庫;·5116.以循環(huán)語句逐個句型考測,循環(huán)中又設(shè)開關(guān)語句;·5117.開關(guān)語句以句型詞串空之?dāng)?shù)N作開關(guān)條件,進入后句型詞串每段依次與例句比 對,比對后兩者都棄去,當(dāng)各段都能在例句中依次找到為之符合例句的匹配句型,列表給 出;·5118.當(dāng)列表記錄大于1時,隱含選取句型詞串最長的作為當(dāng)前匹配句型,連同句型列 表一并返回調(diào)用者;
7.根據(jù)權(quán)利要求6所述的一種表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,其特征是,所述挖 空穴子模塊的具體操作為·5119.挖空穴子模塊,當(dāng)調(diào)用參數(shù)是句對,返回的是句型當(dāng)調(diào)用調(diào)用參數(shù)是句艙對, 返回的是艙模;·5120.彈出一個窗口,上橫行顯示A語句或A組串、下橫行顯示B語句或B組串,橫行下 再顯示挖空穴、保存和悔三個命令按鈕,挖空穴計數(shù)器N = 0 ;·5121.系統(tǒng)以數(shù)量串、專名串、名詞串、形名串、其它串的優(yōu)先次序搜索,找出A、B語句 或A、B艙內(nèi)容中表意對等的1對串,給以變色顯示,或當(dāng)是A、B語句對時查詢組串庫,如果 查到以它們?yōu)锳、B語句表意對等的串,給以變色顯示等待操作者干預(yù)確定;從挖第二個空穴開始,系統(tǒng)還檢測已經(jīng)被挖去的空穴,在剩余部份最長段的中部選取 表意對等串變色顯示以作次一輪的比對提取操作,同時檢測兩個空穴之間至少應(yīng)有一個詞 串作為間隔,如果沒有給出提示,操作者認(rèn)同,反悔重做,如果否定,系統(tǒng)僅可容忍兩個空穴 相連;·5122.當(dāng)挖空穴命令按鈕被單擊,檢查A、B語是否都被單擊兩個點以及這兩個點是否 有效,如果無效,提示重作,如果有效,使N = N+1,將A、B語句兩點之間的內(nèi)容挖去并填入 “ [N] ”,該輪挖空穴結(jié)束,下一輪重復(fù)步驟·S123再挖下一個空穴;(5123.當(dāng)悔命令按鈕被單擊,取消最后一次的挖空穴操作,N= N-I,回復(fù)原有顯示;(5124.當(dāng)保存命令按鈕被單擊,清除子模塊,將被挖空穴后的結(jié)果和相關(guān)參數(shù)返回;
8.根據(jù)權(quán)利要求7所述的一種表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,其特征是,所述串 意對齊子模塊的具體操作為(5125.把A語當(dāng)前句艙或艙眼以詞串為單元切分并依次填入?yún)⒖急鞟語字段,逐記錄 取出查找意群串庫的A文串字段,找到后取出同記錄的B文串字段內(nèi)容,如果該B文串內(nèi)容 在B語當(dāng)前句艙或艙眼中含有,把B文串內(nèi)容填入?yún)⒖急硗涗汢語字段,不含有的讓它為 空;如果意群串庫的A文串字段有相同的記錄,相應(yīng)參考表也多一條A語字段有重的記錄 備選,作完整個參考表,開窗口顯示參考表、對齊確定命令按鈕、組復(fù)詞命令按鈕以及相關(guān) 提示;(5126.參考表接受操作者按實例延伸或增補詞義、不改變原有字、單詞的前提下加減串 長度、粘帶附隨字、詞形變化增補詞義項等修改A、B文字段內(nèi)容;(5127.參考表接受用戶單擊連續(xù)的記錄使組復(fù)詞標(biāo)志字段=“Y”;(5128.當(dāng)組復(fù)詞命令按鈕被單擊并且參考表有連續(xù)記錄的“Y”,將它們的A語字段內(nèi)容 以“_”相連組成復(fù)詞,相應(yīng)記錄合并成一條記錄,A語字段填入該復(fù)詞,B語字段以相等語意 的詞串填寫;(5129.當(dāng)對齊確定命令按鈕被單擊,表示當(dāng)前句艙或艙眼內(nèi)各詞串已經(jīng)串意對齊,返回 調(diào)用者。
9.根據(jù)權(quán)利要求4所述的表意構(gòu)件電子詞典系統(tǒng)的實現(xiàn)方法,其特征是,步驟S3所述 接受服務(wù)指令,針對服務(wù)指令所給查詢內(nèi)容在構(gòu)件庫進行查詢,而后根據(jù)服務(wù)指令要求,直 接給出或影射給出與查詢內(nèi)容匹配的單項或多項語種的表意構(gòu)件,包括如下步驟利用相同內(nèi)容的雙語或多語種文字版本的語料作為訓(xùn)練樣本,每輪選A、B雙語作為一 個樣本對,其中A語分配給拼音文字或已經(jīng)比對過的文種,B語可以分配給拼音文字也可分 配給表意文字以及新加入的文種,A、B語的一對句子為多語種句對;第一輪雙語對訓(xùn)練樣本的查詢、比對、提取,其中雙語對樣本的A語為英文,B語為中 文,從第二輪開始新語對中必須其一是已經(jīng)進行過查詢、比對、提取的,如當(dāng)加入俄文時,只 能取中俄或英俄語料作為雙語對訓(xùn)練樣本,第二輪剖析比對的雙語對樣本中A語應(yīng)是已比 對過的中文或英文,B語應(yīng)是新加的俄文;每一輪的訓(xùn)練語料樣本應(yīng)大到新增句型/句例比< 0. 5%后方可考慮增加新語種、進 行次一輪的查詢、比對、提取,另一方面,根據(jù)訓(xùn)練樣本語料的行業(yè)來源或應(yīng)用范圍來源來 標(biāo)記、劃分句型庫、艙模庫、意群串庫、習(xí)語庫來構(gòu)成相應(yīng)分庫。
全文摘要
本發(fā)明提供一種表意構(gòu)件電子詞典系統(tǒng),包括構(gòu)件提取模塊、構(gòu)件數(shù)據(jù)庫、構(gòu)件操作接口模塊。本發(fā)明為計算機語言文字信息處理提供涉足語義進行支持,大幅度提高語言文字信息處理能力,實現(xiàn)“人腦”、“電腦”、“語言文字”三者的協(xié)調(diào)和互補。
文檔編號G06F9/44GK102043849SQ20101059705
公開日2011年5月4日 申請日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者劉樹根 申請人:惠州市貝圣科特軟件有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阳城县| 义马市| 安阳市| 竹山县| 安龙县| 江津市| 休宁县| 西乌珠穆沁旗| 安仁县| 明光市| 扶绥县| 建平县| 聊城市| 伽师县| 邢台市| 忻州市| 黄龙县| 扎赉特旗| 黄浦区| 陇南市| 特克斯县| 荔波县| 镇原县| 桂东县| 绵竹市| 醴陵市| 山东| 农安县| 青河县| 昌都县| 于都县| 宁远县| 商水县| 西林县| 玉门市| 城固县| 基隆市| 如东县| 江孜县| 攀枝花市| 老河口市|