欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

電子詞典語義分析方法

文檔序號:6420299閱讀:261來源:國知局
專利名稱:電子詞典語義分析方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種分析方法,尤其涉及一種用于電子詞典的語義分析方法。
背景技術(shù)
在計算機(jī)技術(shù)和電子技術(shù)日益普及的今天,電子詞典在人們的日常生活中得到普遍應(yīng)用,為人們的工作學(xué)習(xí)帶來了方便。但是現(xiàn)有技術(shù)提供的電子詞典常采用空格斷詞方式,遇到空格即選定單詞并且只對選定的單詞進(jìn)行語義分析,而不會對詞匯的構(gòu)成做進(jìn)一步的分析。因此,上述斷詞和語義分析技術(shù)的智能度較低,從而導(dǎo)致輸出結(jié)果準(zhǔn)確性較差。例如在語句“I’m on my way home.”中,以第九個字母,即“my”中的“y”為分析的起始位置(即分析種子)時,現(xiàn)有電子詞典采用的斷詞方法選定“my”這個詞,并僅僅給出單詞的解釋,而未能給出相關(guān)詞組或短語的組合及解釋,因此輸出結(jié)果僅僅是單詞本意,而不是根據(jù)句子的完整意思給定確切的詞語解釋,這樣導(dǎo)致翻譯結(jié)果不能貼切地靠近句子的自然語義、準(zhǔn)確性較差,不利于用戶理解,智能度較低。

發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供了一種準(zhǔn)確度較高、較為智能化的電子詞典語義分析方法。
本發(fā)明提供的一種電子詞典語義分析方法,其特征在于包括1)從原始輸入中獲取字符序列、分析種子和分析策略;2)劃分字符序列的待分析區(qū)間;3)判斷字符序列的可能語言類別;4)根據(jù)分析策略對字符序列進(jìn)行語義分析;5)輸出分析結(jié)果列表。
所述步驟3)還包括
21)定義語言信息飽和度;22)查詢并記錄所屬語言類別,記錄語言字符的出現(xiàn)計數(shù);23)計算語言權(quán)值并按權(quán)值大小對語言類別排序。
所述步驟4)還包括31)提取語義單元;32)劃分語義區(qū)間;33)單元匹配建議。
所述步驟4)用于英語序列時,還包括編碼分析、短語分析和詞匯分析操作;所述編碼分析操作包括短語分析和詞匯分析操作;所述短語分析操作包括詞匯分析操作。
所述編碼分析操作還包括51)統(tǒng)一處理全角和半角字符;52)處理半角字符;53)處理全角字符;所述步驟51)、52)和53)中包括短語分析操作和詞匯分析操作。
所述短語分析操作還包括61)分析連續(xù)短語;62)分析斷續(xù)短語;63)分析含非常規(guī)間隔符的連續(xù)短語;64)分析含非常規(guī)間隔符的斷續(xù)短語;所述步驟61)、62)、63)和64)包括詞匯分析操作。
所述詞匯分析操作還包括71)處理多語言混合形式;72)處理流行拼寫形式;73)處理詞匯化短語;74)處理詞匯變換;
75)處理大小寫隱含語義。
所述步驟74)還包括81)連字拼接和縮寫展開;82)消尾還原、消前綴和后綴;83)不規(guī)則變換;84)相近語義替換。
所述分析結(jié)果列表包括語義單元、語義區(qū)間和單元匹配建議。
與現(xiàn)有技術(shù)相比,本發(fā)明提供的電子詞典語義分析方法采用了新的斷詞技術(shù)和語義提取、分析技術(shù),因此可以實(shí)現(xiàn)斷續(xù)短語分析(跳詞)、區(qū)分大小寫分析、含非常規(guī)間隔符短語的分析、多語言混合分析以及語義替換功能,并能夠輸出在提取的語義單元中較全的分析結(jié)果,并從分析結(jié)果列表中選定較為貼切的翻譯結(jié)果輸出,從而使得電子詞典翻譯的智能度較高、輸出結(jié)果更為靠近自然語義,因而準(zhǔn)確度較高。


下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)說明。
圖1是本發(fā)明所述方法的實(shí)施例流程圖;圖2是本實(shí)施例中判斷語言類別的流程圖;圖3是本實(shí)施例中提取語義單元、劃分語義區(qū)間及提供匹配建議的流程圖;圖4是以英語為例描述提取語義單元、劃分語義區(qū)間及提供匹配建議流程圖;圖5是圖4所述實(shí)施例中編碼分析的流程圖;圖6是圖4所述實(shí)施例中短語分析的流程圖;圖7是圖4所述實(shí)施例中詞匯分析的流程圖;圖8是圖4所述實(shí)施例中詞匯變換的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖來詳細(xì)說明本發(fā)明。
請參照圖1,在本實(shí)施例中,本發(fā)明提供的電子詞典語義分析方法需要完成圖1所示的各個步驟。
在步驟1中需要從原始輸入中獲取分析序列、分析種子和分析策略。在本實(shí)施例中電子詞典為安裝在計算機(jī)上的翻譯軟件,其對應(yīng)的原始輸入為屏幕所顯示的欲翻譯的文字,這些文字為統(tǒng)一碼UNICODE序列或混合字節(jié)設(shè)置MBCS序列。在獲取分析序列時,將序列中所有字符轉(zhuǎn)化為UNICODE編碼。在實(shí)際應(yīng)用中,用戶根據(jù)系統(tǒng)界面提供的選項(xiàng)(例如是否進(jìn)行短語分析等分析行為)來選擇分析策略以控制分析的模糊程度。選擇不同的分析策略或不同的策略組合將進(jìn)入不同的邏輯分析流程,并輸出不同的分析結(jié)果。當(dāng)所有分析策略選項(xiàng)均為缺省值時,系統(tǒng)默認(rèn)對得到的序列進(jìn)行全部可能性的分析。進(jìn)行語義分析時需要選定分析種子,即語義分析起始位置處的字符。在實(shí)際應(yīng)用中,由鼠標(biāo)或光標(biāo)來指定該位置,系統(tǒng)通過識別鼠標(biāo)或光標(biāo)的位置來捕捉分析種子;若鼠標(biāo)或光標(biāo)未指定任何位置,則系統(tǒng)默認(rèn)字符序列的第一個字符為分析種子。
步驟2,從字符序列中劃分出待分析序列的起始、終止字符位置。通常從分析種子開始向兩端分別并入一定數(shù)目字符,若未到達(dá)規(guī)定數(shù)目的字符就遇見語義分割字符,則起始或終止位置就為語義分割符處。所述語義分隔符為自然語言中劃分語義的標(biāo)點(diǎn)符號,如“,”、“?!?、“”等。
步驟3,判斷待分析序列字符對應(yīng)的所有可能的語言類別。
步驟4,根據(jù)分析策略從字符序列中提取語義單元、劃分語義區(qū)間、提供單元匹配建議。
步驟5,輸出分析結(jié)果列表,所述列表是語義單元、語義區(qū)間和單元匹配建議的集合。所述語義區(qū)間為得到該語義單元時在分析序列中分析過程所涵蓋的字符范圍,其表述的是分析序列中的字符范圍,而不是結(jié)果列表中語義單元的字符范圍。以分析序列“This is on his hands”為例,分析種子為“his”中的s,則分析結(jié)果列表的一個片斷的具體格式參照表1為表1為分析結(jié)果列表

請參照圖2,判斷待分析區(qū)間序列所有可能的語言類別包括下述步驟步驟21,為每一種語言定義表示該語言中單個字符攜帶的有效信息量的語言信息飽和度。所述語言信息飽和度類似于密碼學(xué)中熵的概念,用以比較不同語言表達(dá)相同語義所需要的文字?jǐn)?shù)量的多少關(guān)系。以不同語言譯本的《簡愛》為例加以說明,統(tǒng)計每種譯本包含的字符數(shù)量,定義某種語言為基準(zhǔn)語言,并定義其信息飽和度為單位“1”,其他語言的字符數(shù)量除以該基準(zhǔn)語言的字符數(shù)量,便得到這幾種語言的信息飽和度。信息飽和度只是一個相對的概念,實(shí)際應(yīng)用中只求出翻譯要求的目標(biāo)語言中各種語言的信息飽和度。步驟22,從分析種子開始,向字符序列中待分析區(qū)間的邊界逐一掃描各字符,因?yàn)槊總€UNICODE編碼字符都有它所屬的語言類別,所以可以查詢、記錄每個掃描到的字符所屬語言的類別,最后統(tǒng)計出每種語言字符的出現(xiàn)計數(shù)。步驟23,根據(jù)公式(語言權(quán)值等于該語言出現(xiàn)的字符的出現(xiàn)計數(shù)和語言信息飽和度的乘積)計算出序列中出現(xiàn)的語言權(quán)值,并按權(quán)值大小對語言類別排序。
以中英文混合字符序列“維生素C”為例來說明判斷語言類別的過程。在本例中,定義漢語信息飽和度是3.2,英語信息飽和度為0.7;在字符序列“維生素C”中選定“維”為分析種子;在待分析區(qū)間中依次掃描得到“維”“生”“素”“C”四個字符,前三個字符既可能是漢語,也可能是日語,為此,漢語、日語字符的出現(xiàn)計數(shù)都是3,而第四個字符“C”可能是英語、德語、法語、拉丁語等,所以這些語言的字符的出現(xiàn)計數(shù)均為1;在本例中,語言類別只取漢語和英語,通過語言權(quán)值的計算公式得到漢語權(quán)值=3.2*3=6.4,英語權(quán)值=0.7*1=0.7,于是,根據(jù)權(quán)值大小排序漢語為1,英語為2。完成上述各步驟之后,系統(tǒng)將先按漢語規(guī)則對該字符序列進(jìn)行語義分析,再按英語規(guī)則進(jìn)行語義分析。
需要指出的是,得到信息飽和度方法有多種,可以通過計算得出,也可從大量的實(shí)例統(tǒng)計中得到,例如本例子就是從表達(dá)相同語義的多語言的書籍中統(tǒng)計得到。
請參照圖3,步驟31中根據(jù)語言權(quán)值的排序結(jié)果對每一種可能語言類別應(yīng)用該語言的規(guī)則進(jìn)行邏輯分析。步驟32,為每個語義單元劃分語義區(qū)間,語義區(qū)間包含分析種子,由同一語義單元變化得到的語義單元與原語義單元有共同的語義區(qū)間。步驟3,提供單元匹配建議。所述單元匹配建議為由一語義單元變化得到另一語義單元過程中所應(yīng)用的規(guī)則的適用條件。以“on his hands”為例(參考前述表1)由它當(dāng)?shù)玫健皁n his hand”時應(yīng)用的規(guī)則是去掉“hands”中的“s”,可能是將復(fù)數(shù)名詞變?yōu)閱螖?shù),或者是將動詞第三人稱單數(shù)形式變?yōu)樵停砸蟆癶ands”為名詞或動詞;而由它得到“on one′s hand”時將“his”替換為“one′s”,因?yàn)椤皁ne′s”相當(dāng)于形容詞性物主代詞,所以要求“hands”只能為名詞。
請參照圖4至圖8,以英語為例詳細(xì)說明本發(fā)明電子詞典語義分析方法,其具體包括編碼分析41、短語分析42和詞匯分析43等操作,在編碼分析41中對每次編碼轉(zhuǎn)換完的結(jié)果進(jìn)行短語分析42和詞匯分析43操作,此處的詞匯分析特指對包含分析種子的詞匯的分析,在短語分析42中對短語中包含的每個詞進(jìn)行詞匯分析43操作。
如圖5所示,編碼分析過程包括二個步驟,在每一步驟中都需要進(jìn)行相應(yīng)的短語分析和詞匯分析。首先在步驟51中將全角和半角字符統(tǒng)一對待進(jìn)行處理,也就是西文字體時,在原始輸入中同時含有全角字符和半角字符,在本處理步驟中先將語義單元中的全角字符轉(zhuǎn)化為半角字符后,再同原語義單元中的原有半角字符拼接在一起統(tǒng)一進(jìn)行短語、詞匯分析,將每一個分析結(jié)果寫入分析結(jié)果列表中。然后根據(jù)分析種子是全角字符還是半角字符選擇執(zhí)行步驟52或53。步驟52只取出語義單元中的半角字符進(jìn)行短語、詞匯分析,并將每一結(jié)果寫入分析結(jié)果列表中。步驟53中僅取出語義單元中的全角字符進(jìn)行短語分析和詞匯分析,并將結(jié)果寫入分析結(jié)果列表中。比如“ about face””,其中“about”為全角字符則第一遍取出“about face”,第二遍根據(jù)分析種子所指的位置取出“face”或者“about”。
請參照圖6,在短語分析過程中包含四個分析處理過程,每一個過程中對短語中的每個詞都進(jìn)行詞匯分析。步驟61分析連續(xù)短語中,首先定義連續(xù)短語中“最多可包含的詞匯個數(shù)”,然后從待分析區(qū)間中依次取出包含分析種子的語義單元,該語義單元從長到短排序,其長度從等于“最多可包含的詞匯個數(shù)”開始,依次減1,直至等于2。對于相同長度的語義單元,分析種子越靠近序列中間權(quán)值越大,以此規(guī)則參與排序。以英文“This is a student.”為例,詳述此過程,定義連續(xù)短語“最多可包含的詞匯個數(shù)”為8,并定位分析種子為“is”中的“s”,則語義單元排序后的結(jié)果為“This is a student.”、“This is a student”、“This is a”、“is astudent”、“This is”、“is a”。
步驟62分析斷續(xù)短語,首先定義斷續(xù)短語中“最多可包含的詞匯個數(shù)”和斷續(xù)短語中“跳躍詞匯的個數(shù)”,然后從待分析區(qū)間中依次取出包含分析種子的語義單元,該語義單元的長度從等于“最多可包含的詞匯個數(shù)”開始,依次減1,直至等于“跳躍詞匯數(shù)”+2。在上述語義單元中窮舉所有包含分析種子并跳躍1~“跳躍詞匯的個數(shù)”個連續(xù)詞匯的短語,并從長到短排序。對于相同長度的語義單元,分析種子越靠近序列中間權(quán)值越大,以此規(guī)則參與排序。以英文“This is a student.”為例說明斷續(xù)短語的分析,分析種子為“is”中的“s”,結(jié)果為“This is student”、“isstudent”。
步驟63分析含非常規(guī)間隔符的連續(xù)短語,首先將非常規(guī)間隔符替換成常規(guī)間隔符,然后按照步驟61中所述的分析連續(xù)短語方法進(jìn)行分析。在本實(shí)施例中,常規(guī)間隔符包括空格、逗號、句號等標(biāo)點(diǎn)符號;非常規(guī)間隔符包括下劃線、“$”、“%”等符號。
例如在語句“This_is_a_student.”中,將下劃線替換為空格,相應(yīng)地整個句子就轉(zhuǎn)換成“This is a student.”,然后再按照分析連續(xù)短語方法對整個語句進(jìn)行分析。
步驟64分析含非常規(guī)間隔符的斷續(xù)短語,首先將非常規(guī)間隔符替換成常規(guī)間隔符,然后按照步驟62所述斷續(xù)短語分析方法進(jìn)行分析。
需要指出的是,在每次分析中用詞匯分析方法對上述分析結(jié)果中的詞匯迭代處理。
請參照圖7,詞匯分析過程中,從分析種子向兩端掃描到常規(guī)間隔符或序列端點(diǎn),產(chǎn)生語義單元,然后對各語義單元分別進(jìn)行詞匯變換,將每個產(chǎn)生的結(jié)果進(jìn)行流行拼寫形式處理,然后對上述所有的結(jié)果再次進(jìn)行詞匯變換,將最后產(chǎn)生的每個結(jié)果加入語義單元列表。其中,步驟71中需處理多語言混合表意形式。
如圖7所示,步驟72處理流行拼寫形式。目前存在將a寫作@,s寫作$等流行拼寫形式,因此在本步驟中需要將@替換為a,$替換為s等傳統(tǒng)拼寫形式,并產(chǎn)生語義單元,然后進(jìn)行詞匯變換,產(chǎn)生的每個結(jié)果為一個語義單元;然后將流行符號作為斷詞標(biāo)志,并對所有的結(jié)果再次進(jìn)行詞匯變換,產(chǎn)生的每個結(jié)果為一語義單元;例如單詞“bo$$”可以識別為“boss”。
步驟73中處理詞匯化短語。首先將含有連字符的序列作為一語義單元進(jìn)行詞匯變換,產(chǎn)生其他語義單元;然后將連字符替換成常規(guī)間隔符,再進(jìn)行短語分析。例如,“out-of-control”中,將連字符轉(zhuǎn)換為空格,在恢復(fù)其本意“out of control”后進(jìn)行分析。
步驟74所示的處理詞匯變換包括連字拼接和縮寫展開、消前/后綴、消尾還原、不規(guī)則變換以及語義替換等過程。
步驟75所示的處理大小寫隱含語義,需要從分析種子開始,依次匹配如下形式的子序列一個大寫字母加小寫序列、全大或小寫序列、一個小寫字母加大寫序列。將每次匹配結(jié)果連同其他的詞匯變換加入分析結(jié)果列表。如GetSQLStatus,分析種子為第三個字符t,則分析結(jié)果為Get,et,tSQLS,tSQL。
請參照圖8,詞匯變換處理流程圖。步驟81,將字符序列中的連字符去掉,并將連字符前后的序列拼接在一起,產(chǎn)生一語義單元,并進(jìn)行詞匯變換,產(chǎn)生其他語義單元。同時,將帶有縮寫符號的字符序列擴(kuò)展恢復(fù)為原型,并窮舉出原型中的所有排列,例如isn′t會產(chǎn)生如下語義單元[isnot]、[be not]、[is]、[be]、[not],并對所有結(jié)果進(jìn)行詞匯變換,將最后結(jié)果加入分析結(jié)果列表。步驟82,將所有可能的消尾還原、消前綴和后綴的結(jié)果加入分析結(jié)果列表,并提供如消尾匹配的建議。例如“getting”轉(zhuǎn)換為“get”。步驟83,將各種詞性的不規(guī)則變化窮舉出來,加入到分析結(jié)果列表。例如“could”轉(zhuǎn)換為“can”,“held”轉(zhuǎn)換為“hold”。步驟84,將語義相近的結(jié)果窮舉出來,加入到分析結(jié)果列表。例如在一些短語如“on the way home”中的“the”可替換為“sb.’s”、“one’s”、“this”、“that”、“these”、“those”等。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種電子詞典語義分析方法,其特征在于包括1)從原始輸入中獲取字符序列、分析種子和分析策略;2)劃分字符序列的待分析區(qū)間;3)判斷字符序列的可能語言類別;4)根據(jù)分析策略對字符序列進(jìn)行語義分析;5)輸出分析結(jié)果列表。
2.根據(jù)權(quán)利要求1所述的電子詞典語義分析方法,其特征在于,所述步驟3)還包括21)定義語言信息飽和度;22)查詢并記錄所屬語言類別,記錄語言字符的出現(xiàn)計數(shù);23)計算語言權(quán)值并按權(quán)值大小對語言類別排序。
3.根據(jù)權(quán)利要求1所述的電子詞典語義分析方法,其特征在于,所述步驟4)還包括31)提取語義單元;32)劃分語義區(qū)間;33)單元匹配建議。
4.根據(jù)權(quán)利要求1所述的電子詞典語義分析方法,其特征在于,所述步驟4)用于英語序列時,還包括編碼分析、短語分析和詞匯分析操作;所述編碼分析操作包括短語分析和詞匯分析操作;所述短語分析操作包括詞匯分析操作。
5.根據(jù)權(quán)利要求4所述的電子詞典語義分析方法,其特征在于,所述編碼分析操作還包括51)統(tǒng)一處理全角和半角字符;52)處理半角字符;53)處理全角字符;所述步驟51)、52)和53)中包括短語分析操作和詞匯分析操作。
6.根據(jù)權(quán)利要求4和5之一所述的電子詞典語義分析方法,其特征在于,所述短語分析操作還包括61)分析連續(xù)短語;62)分析斷續(xù)短語;63)分析含非常規(guī)間隔符的連續(xù)短語;64)分析含非常規(guī)間隔符的斷續(xù)短語;所述步驟61)、62)、63)和64)包括詞匯分析操作。
7.根據(jù)權(quán)利要求4、5和6之一所述的電子詞典語義分析方法,其特征在于,所述詞匯分析操作還包括71)處理多語言混合形式;72)處理流行拼寫形式;73)處理詞匯化短語;74)處理詞匯變換;75)處理大小寫隱含語義。
8.根據(jù)權(quán)利要求7所述的電子詞典語義分析方法,其特征在于,所述步驟74)還包括81)連字拼接和縮寫展開;82)消尾還原、消前綴和后綴;83)不規(guī)則變換;84)相近語義替換。
9.根據(jù)權(quán)利要求1所述的電子詞典語義分析方法,其特征在于,所述分析結(jié)果列表包括語義單元、語義區(qū)間和單元匹配建議。
全文摘要
本發(fā)明提供了一種用于電子詞典的語義分析方法。所述方法包括1)從原始輸入中獲取字符序列、分析種子和分析策略;2)劃分字符序列的待分析區(qū)間;3)判斷字符序列的可能語言類別;4)根據(jù)分析策略對字符序列進(jìn)行語義分析;5)輸出分析結(jié)果列表。其中,分析結(jié)果列表中包括語義單元、語義區(qū)間和提供的單元匹配建議。本發(fā)明提供的語義提取方法能夠?qū)崿F(xiàn)斷續(xù)短語分析(跳詞分析)、區(qū)分大小寫分析、含非常規(guī)間隔符短語的分析、多語言混合分析以及詞匯的語義替換功能,因此采用本方法的電子詞典的智能度較高、輸出的翻譯結(jié)果更為靠近自然語義,準(zhǔn)確度較高。
文檔編號G06F17/27GK1556480SQ20031011037
公開日2004年12月22日 申請日期2003年12月30日 優(yōu)先權(quán)日2003年12月30日
發(fā)明者周尚弢, 周尚 申請人:珠海金山軟件股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
佳木斯市| 青岛市| 安塞县| 盐边县| 连州市| 柞水县| 新郑市| 哈尔滨市| 商河县| 三台县| 武义县| 沭阳县| 黄冈市| 肥东县| 汝州市| 辽源市| 华亭县| 济源市| 大竹县| 当涂县| 错那县| 杭锦旗| 普洱| 敦煌市| 林芝县| 昌都县| 金阳县| 昆山市| 平阳县| 永昌县| 上栗县| 油尖旺区| 西昌市| 无为县| 定西市| 平定县| 贞丰县| 科技| 柏乡县| 绥宁县| 启东市|