數(shù)學(xué)公式的語義解析方法及裝置與流程

文檔序號(hào)：12305314閱讀：315來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及自然語言處理領(lǐng)域，具體涉及一種數(shù)學(xué)公式的語義解析方法及裝置。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的不斷普及和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展，傳統(tǒng)的教育模式也在逐漸發(fā)生改變，信息、在線化、智能化等輔助教學(xué)手段正在向傳統(tǒng)教育領(lǐng)域滲透，并逐步獲得廣大教師、家長(zhǎng)和學(xué)生的認(rèn)可。在以考試為主要評(píng)價(jià)方式的教育模式下，試題是學(xué)生鞏固所學(xué)知識(shí)和教育者評(píng)價(jià)學(xué)生水平的基礎(chǔ)數(shù)據(jù)資源，因此，試題資源的構(gòu)建顯得尤為重要。具體構(gòu)建時(shí)，需要對(duì)大量包含公式的數(shù)據(jù)進(jìn)行語義解析，如何準(zhǔn)確地對(duì)包含數(shù)學(xué)公式的數(shù)據(jù)進(jìn)行語義解析具重大意義。

現(xiàn)有的數(shù)學(xué)公式的語義解析方法一般采用正則表達(dá)式匹配的方法，這種方法需要領(lǐng)域?qū)＜翌A(yù)先給出大量正則表達(dá)式，在對(duì)數(shù)學(xué)公式進(jìn)行語義解析時(shí)，進(jìn)行正則匹配。然而，當(dāng)正則表達(dá)式的數(shù)量較多時(shí)，容易出現(xiàn)沖突，維護(hù)成本較高；此外，由于現(xiàn)有方法的解析粒度較粗，匹配結(jié)果也屬于淺層文本，無法反映公式內(nèi)部深層語義。因此，通過現(xiàn)有方法得到的解析結(jié)果準(zhǔn)確度較低。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供一種數(shù)學(xué)公式的語義解析方法及裝置，以提高數(shù)學(xué)公式語義解析的準(zhǔn)確度。

為此，本發(fā)明提供如下技術(shù)方案：

一種數(shù)學(xué)公式的語義解析方法，包括：

預(yù)先構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型；

接收包含數(shù)學(xué)公式的文本數(shù)據(jù)；

對(duì)所述文本數(shù)據(jù)中的數(shù)學(xué)公式進(jìn)行識(shí)別，得到識(shí)別后的數(shù)學(xué)公式字符；

利用所述概率上下文無關(guān)文法模型對(duì)所述識(shí)別后的數(shù)學(xué)公式字符進(jìn)行解析，得到解析結(jié)果。

優(yōu)選地，所述預(yù)先構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型包括：

確定數(shù)學(xué)公式的文法集合；

收集包含數(shù)學(xué)公式的文本數(shù)據(jù)，作為語料庫(kù)；

根據(jù)所述語料庫(kù)中各數(shù)學(xué)公式所在的上下文以及所述文法集合，構(gòu)建各數(shù)學(xué)公式的語法樹；

根據(jù)所述語法樹訓(xùn)練得到數(shù)學(xué)公式的概率上下文無關(guān)文法模型。

優(yōu)選地，所述確定數(shù)學(xué)公式的文法集合包括：

確定數(shù)學(xué)公式的表達(dá)類型；

對(duì)各類數(shù)學(xué)公式的表達(dá)內(nèi)容進(jìn)行抽象，得到對(duì)應(yīng)各表達(dá)類型的所有文法；

采用遞歸形式將所有文法組合，形成文法集合。

優(yōu)選地，所述語法樹中的葉子節(jié)點(diǎn)由對(duì)應(yīng)的文法中的終結(jié)符表示，所述語法樹中的非葉子節(jié)點(diǎn)由對(duì)應(yīng)的方法中的非終結(jié)符表示，所述終結(jié)符為根據(jù)詞法分析器得到的公式字符，所述非終結(jié)符為根據(jù)終結(jié)符組合后形成的新公式類型；所述語法樹的邊表示父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的邏輯關(guān)系。

優(yōu)選地，所述根據(jù)所述語法樹訓(xùn)練得到數(shù)學(xué)公式的概率上下文無關(guān)文法模型包括：

確定概率上下文無關(guān)文法模型的拓?fù)浣Y(jié)構(gòu)；

將各語法樹作為訓(xùn)練數(shù)據(jù)，每條文法的出現(xiàn)概率為模型參數(shù)，以訓(xùn)練數(shù)據(jù)的似然概率最大化為優(yōu)化目標(biāo)，訓(xùn)練模型參數(shù)。

優(yōu)選地，所述利用所述概率上下文無關(guān)文法模型對(duì)所述識(shí)別后的數(shù)學(xué)公式字符進(jìn)行解析，得到解析結(jié)果包括：

自左向右掃描每個(gè)公式字符，獲取公式字符之間對(duì)應(yīng)的所有文法；

對(duì)所述文法進(jìn)行規(guī)約，得到規(guī)約后的文法；

根據(jù)規(guī)約后的文法及規(guī)約路徑確定對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹。

優(yōu)選地，所述對(duì)所述文法進(jìn)行規(guī)約，得到規(guī)約后的文法包括：

通過詞法分析器將公式字符替換為對(duì)應(yīng)的終結(jié)符；

將符合所述文法集合中文法的終結(jié)符使用該文法的左部替換所述終結(jié)符，得到規(guī)約后的文法。

優(yōu)選地，如果存在多條規(guī)約路徑，則從得到的多個(gè)語法樹中選擇概率最大的語法樹作為對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，所述語法樹的概率為樹中所有文法出現(xiàn)概率之積。

優(yōu)選地，所述方法還包括：

遍歷對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，得到需要的語義信息。

一種數(shù)學(xué)公式的語義解析裝置，包括：

模型構(gòu)建模塊，用于預(yù)先構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型；

接收模塊，用于接收包含數(shù)學(xué)公式的文本數(shù)據(jù)；

識(shí)別模塊，用于對(duì)所述文本數(shù)據(jù)中的數(shù)學(xué)公式進(jìn)行識(shí)別，得到識(shí)別后的數(shù)學(xué)公式字符；

解析模塊，用于利用所述概率上下文無關(guān)文法模型對(duì)所述識(shí)別后的數(shù)學(xué)公式字符進(jìn)行解析，得到解析結(jié)果。

優(yōu)選地，所述模型構(gòu)建模塊包括：

文法集合確定單元，用于確定數(shù)學(xué)公式的文法集合；

語料庫(kù)建立單元，用于收集包含數(shù)學(xué)公式的文本數(shù)據(jù)，作為語料庫(kù)；

語法樹生成單元，用于根據(jù)所述語料庫(kù)中各數(shù)學(xué)公式所在的上下文以及所述文法集合，構(gòu)建各數(shù)學(xué)公式的語法樹；

訓(xùn)練單元，用于根據(jù)所述語法樹訓(xùn)練得到數(shù)學(xué)公式的概率上下文無關(guān)文法模型。

優(yōu)選地，所述文法集合確定單元包括：

類型確定子單元，用于確定數(shù)學(xué)公式的表達(dá)類型；

內(nèi)容抽象子單元，用于對(duì)各類數(shù)學(xué)公式的表達(dá)內(nèi)容進(jìn)行抽象，得到對(duì)應(yīng)各表達(dá)類型的所有文法；

組合子單元，用于采用遞歸形式將所有文法組合，形成文法集合。

優(yōu)選地，所述訓(xùn)練單元包括：

拓?fù)浣Y(jié)構(gòu)確定子單元，用于確定概率上下文無關(guān)文法模型的拓?fù)浣Y(jié)構(gòu)；

模型參數(shù)訓(xùn)練子單元，用于將各語法樹作為訓(xùn)練數(shù)據(jù)，每條文法的出現(xiàn)概率為模型參數(shù)，以訓(xùn)練數(shù)據(jù)的似然概率最大化為優(yōu)化目標(biāo)，訓(xùn)練模型參數(shù)。

優(yōu)選地，所述解析模塊包括：

掃描單元，用于自左向右掃描每個(gè)公式字符，獲取公式字符之間對(duì)應(yīng)的所有文法；

規(guī)約單元，用于對(duì)所述文法進(jìn)行規(guī)約，得到規(guī)約后的文法；

語法樹確定單元，用于根據(jù)規(guī)約后的文法及規(guī)約路徑確定對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹。

優(yōu)選地，所述規(guī)約單元包括：

字符替換子單元，用于通過詞法分析器將公式字符替換為對(duì)應(yīng)的終結(jié)符；

終結(jié)符替換子單元，用于將符合所述文法集合中文法的終結(jié)符使用該文法的左部替換所述終結(jié)符，得到規(guī)約后的文法。

優(yōu)選地，所述語法樹確定單元，還用于在存在多條規(guī)約路徑時(shí)，則從得到的多個(gè)語法樹中選擇概率最大的語法樹作為對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，所述語法樹的概率為樹中所有文法出現(xiàn)概率之積。

優(yōu)選地，所述裝置還包括：

語義抽取模塊，用于遍歷對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，得到需要的語義信息。

本發(fā)明實(shí)施例提供的數(shù)學(xué)公式的語義解析方法及裝置，將pcfg(probabilisticcontextfreegrammar，概率上下文無關(guān)語法)模型應(yīng)用于公式的語義解析問題中。利用數(shù)學(xué)公式的概率上下文無關(guān)文法模型對(duì)數(shù)學(xué)公式進(jìn)行解析，得到解析結(jié)果，有效解決了公式解析的二義性問題，提高了數(shù)學(xué)公式解析的準(zhǔn)確度。

進(jìn)一步地，將解析結(jié)果以數(shù)學(xué)公式字符的語法樹形式表示，每次針對(duì)不同應(yīng)用需要解析公式語義時(shí)，只需要遍歷語法樹即可得到相應(yīng)語義，而不需要預(yù)設(shè)規(guī)則進(jìn)行匹配。

附圖說明

為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實(shí)施例中構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型的流程圖；

圖2是本發(fā)明實(shí)施例中構(gòu)建的數(shù)學(xué)公式的語法樹的示意圖；

圖3是本發(fā)明實(shí)施例數(shù)學(xué)公式的語義解析方法的流程圖；

圖4是本發(fā)明實(shí)施例中對(duì)公式字符進(jìn)行解析時(shí)的文法規(guī)約過程及規(guī)約后得到的語法樹示例；

圖5是本發(fā)明實(shí)施例中根據(jù)其它規(guī)約路徑得到的語法樹示例；

圖6是本發(fā)明實(shí)施例中進(jìn)行語義解析得到的語法樹示例；

圖7是本發(fā)明實(shí)施例數(shù)學(xué)公式的語義解析裝置的結(jié)構(gòu)示意圖；

圖8是本發(fā)明實(shí)施例中模型構(gòu)建模塊的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案，下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說明。

本發(fā)明實(shí)施例提供一種數(shù)學(xué)公式的語義解析方法及裝置，預(yù)先構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型，利用該模型對(duì)數(shù)學(xué)公式進(jìn)行解析，得到解析結(jié)果，所述解析結(jié)果以數(shù)學(xué)公式字符的語法樹形式表示。具體解析時(shí)，采用動(dòng)態(tài)規(guī)劃方法找到數(shù)學(xué)公式滿足的文法集合，并且對(duì)所述文法集合中的文法進(jìn)行規(guī)約，得到規(guī)約后的文法，根據(jù)文法規(guī)約路徑得到數(shù)學(xué)公式字符的多個(gè)侯選語法樹，選擇概率最大的語法樹作為解析結(jié)果。所述語法樹的概率為語法樹中所有文法出現(xiàn)概率之積。

為了解決公式解析時(shí)存在的二義性問題，本發(fā)明實(shí)施例將概率上下文無關(guān)文法模型應(yīng)用于公式的語義解析問題中，基于數(shù)學(xué)公式的文法集合構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型，即在數(shù)學(xué)公式的文法集合上引入概率來表達(dá)文法的二義性，也就是說，對(duì)每條文法賦予一個(gè)概率。所述概率可以通過大量包含數(shù)學(xué)公式的文本數(shù)據(jù)訓(xùn)練得到。這樣，在對(duì)數(shù)學(xué)公式進(jìn)行語義解析時(shí)，即可根據(jù)概率最大的原則進(jìn)行解析。

所述概率上下文無關(guān)文法模型可以采用離線的方法預(yù)先收集大量包含數(shù)學(xué)公式的文本數(shù)據(jù)，根據(jù)各數(shù)學(xué)公式所在的上下文以及數(shù)學(xué)公式的文法集合訓(xùn)練得到。

如圖1所示，是本發(fā)明實(shí)施例中構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型的流程圖，包括以下步驟：

步驟101，確定數(shù)學(xué)公式的文法集合。

所述文法集合可以通過對(duì)各種不同類型的數(shù)學(xué)公式的表達(dá)形式進(jìn)行抽象得到。具體地，首先根據(jù)數(shù)學(xué)知識(shí)點(diǎn)，將數(shù)學(xué)公式的表達(dá)形式劃分成多種類型，如表達(dá)式、函數(shù)、區(qū)間等。然后對(duì)每類數(shù)學(xué)公式的表達(dá)內(nèi)容進(jìn)行抽象，得到對(duì)應(yīng)每個(gè)表達(dá)類型的各文法。所述抽象即將數(shù)學(xué)公式的表達(dá)內(nèi)容進(jìn)行上位后，使用固定的符號(hào)表示，如區(qū)間(0，5)，可以抽象上位為“左括號(hào)、數(shù)字表達(dá)式、逗號(hào)、數(shù)字表達(dá)式、右括號(hào)”，具體文法表示為intevel->llbexpcommaexplrb，其中，llb表示左括號(hào)，exp表示表達(dá)式，comma表示逗號(hào)，exp表示表達(dá)式，lrb表示右括號(hào)，當(dāng)然也可以采用其它的表示方法，本發(fā)明實(shí)施例不作限定。最后采用遞歸的形式，將所有文法組合起來，形成文法集合。

如表1為確定的文法集合中的部分文法。其中，第一列為數(shù)學(xué)公式類型編號(hào)，na表示第a類數(shù)學(xué)公式；第二列為每類數(shù)學(xué)公式的文法，所述文法由“->” 左右兩部分組成，“->”左邊為數(shù)學(xué)公式的類型，“->”右邊為滿足該公式類型的數(shù)學(xué)表達(dá)式的具體形式；第三列為每條文法的出現(xiàn)概率，在進(jìn)行模型訓(xùn)練時(shí)，出現(xiàn)該條文法的概率，初始值可以隨機(jī)給出。

表1

步驟102，收集包含數(shù)學(xué)公式的文本數(shù)據(jù)，作為語料庫(kù)。

比如，可以從互聯(lián)網(wǎng)的教學(xué)網(wǎng)站收集文本數(shù)據(jù)，或者從學(xué)生在線學(xué)習(xí)相關(guān)網(wǎng)站收集文本數(shù)據(jù)，并由人工標(biāo)注出所述文本數(shù)據(jù)中的各字符是否為公式字符，將標(biāo)注結(jié)果作為各字符的公式標(biāo)注特征。如“若f(”，這三個(gè)字符對(duì)應(yīng)的標(biāo)注序列為<0,1,1>，其中0表示非公式字符，1表示公式字符。

步驟103，根據(jù)所述語料庫(kù)中各數(shù)學(xué)公式所在的上下文以及所述文法集合，構(gòu)建各數(shù)學(xué)公式的語法樹。

具體構(gòu)建時(shí)，可以將文法集合中的每條文法“->”左右兩邊的類型單獨(dú)作為一個(gè)控件，根據(jù)數(shù)學(xué)公式所在的上下文及數(shù)學(xué)公式的內(nèi)容，將相應(yīng)控件組合成一個(gè)語法樹。

所述語法樹中的節(jié)點(diǎn)由相應(yīng)文法中的終結(jié)符和非終結(jié)符表示。所述終結(jié)符一般為根據(jù)詞法分析器直接得到的公式字符，如所有英文字符、公式固定字符串等，所述公式固定字符串如cos，sqrt等，終結(jié)符作為語法樹的葉子節(jié)點(diǎn)。所述非終結(jié)符一般為根據(jù)終結(jié)符組合后形成的公式類型，如function，add等，非終結(jié)符作為語法樹的非葉子節(jié)點(diǎn)，所述終結(jié)符與非終結(jié)符與每條文法的公式類型或子類型相對(duì)應(yīng)。所述語法樹的邊表示父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的邏輯關(guān)系，如對(duì)于二目運(yùn)算符而言，表示二目運(yùn)算符的父節(jié)點(diǎn)與其左子節(jié)點(diǎn)之間的邊就表示了“左子節(jié)點(diǎn)是該操作符的左操作對(duì)象”。語料庫(kù)中所有文本數(shù)據(jù)構(gòu)建的所有語法樹形成語法樹庫(kù)。

例如數(shù)學(xué)公式“g(x+1)”在①和②兩個(gè)不同上下文中時(shí)，構(gòu)建語法樹的過程如下所述：

①已知函數(shù)g(x)是偶函數(shù)，試確定g(x+1)的奇偶性；

②已知g為實(shí)數(shù)，x是方程f(x)＝1的根，試求g(x+1)；

構(gòu)建語法樹時(shí)，根據(jù)數(shù)學(xué)公式所在的上下文確定：①中的“g(x+1)”表示一個(gè)函數(shù)，其中“g”為函數(shù)名，“x+1”為函數(shù)的參數(shù)；②中的“g(x+1)”則表示實(shí)數(shù)“g”和實(shí)數(shù)“x+1”相乘，因此，根據(jù)文法集合，構(gòu)建的語法樹如圖2所示，左邊為根據(jù)①中上下文構(gòu)建的語法樹，右邊為根據(jù)②中上下文構(gòu)建的語法樹。

步驟104，根據(jù)所述語法樹訓(xùn)練得到數(shù)學(xué)公式的概率上下文無關(guān)文法模型。

具體訓(xùn)練過程如下：

首先，確定概率上下文無關(guān)文法模型的拓?fù)浣Y(jié)構(gòu)。

所述概率上下文無關(guān)文法模型可以為一個(gè)五元組，即(n，v，r，s，p)，其中：

n表示非終結(jié)符，即語法樹上的非葉子節(jié)點(diǎn)；

v表示終結(jié)符，即語法樹上的葉子節(jié)點(diǎn)；

r表示確定的文法集合；

s表示語法樹的根節(jié)點(diǎn)；

p表示語料庫(kù)中每個(gè)文法的出現(xiàn)概率。

根據(jù)語料庫(kù)中每個(gè)文法的出現(xiàn)概率，可以定義一個(gè)語法樹的出現(xiàn)概率為樹中所有文法出現(xiàn)的概率之積；當(dāng)對(duì)一個(gè)數(shù)學(xué)公式進(jìn)行解析得到多個(gè)語法樹時(shí)，可以選擇所述概率最大的那個(gè)語法樹，從而最大程度避免解析錯(cuò)誤。

其次，計(jì)算每個(gè)文法在語料庫(kù)中出現(xiàn)的概率。

所述概率可以根據(jù)語料庫(kù)中數(shù)學(xué)公式構(gòu)建的語法樹庫(kù)進(jìn)行訓(xùn)練得到，具體訓(xùn)練時(shí)，將語法樹庫(kù)中的每個(gè)語法樹作為訓(xùn)練數(shù)據(jù)，每條文法出現(xiàn)的概率為模型參數(shù)，以訓(xùn)練數(shù)據(jù)的似然概率最大化為優(yōu)化目標(biāo)，即采用最大似然方法估計(jì)模型參數(shù)，如式(1)為模型訓(xùn)練的目標(biāo)函數(shù)。訓(xùn)練結(jié)束后，得到每條文法出現(xiàn)的概率。

其中，t表示所有訓(xùn)練數(shù)據(jù)，q為訓(xùn)練數(shù)據(jù)的總數(shù)，mi為第i個(gè)訓(xùn)練數(shù)據(jù)中的子樹數(shù)，所述子樹即為語法樹的子結(jié)構(gòu)，tik為第i個(gè)訓(xùn)練數(shù)據(jù)的第k個(gè)子樹，θ為模型參數(shù)，即所有文法的出現(xiàn)概率，p(tik|θ)表示第i個(gè)訓(xùn)練數(shù)據(jù)的第k個(gè)子樹對(duì)應(yīng)的文法概率。

具體訓(xùn)練時(shí)，令wi,j表示公式中第i個(gè)字符到第j個(gè)字符之間的文本內(nèi)容，p(nk(i,j))表示從字符i開始到字符j結(jié)束的所有字符之間對(duì)應(yīng)的文法中，符合第k類文法的所有文法的概率和，nk表示第k類文法，如數(shù)學(xué)公式“f(x)＝ax^{2}+1”的概率為即從第1個(gè)字符到第13個(gè)字符之間所對(duì)應(yīng)的文法中，符合第1類文法的所有文法的概率和。分別定義內(nèi)部變量與外部變量，進(jìn)行模型訓(xùn)練，具體訓(xùn)練算法如em(expectationmaximizationalgorithm，)算法，具體訓(xùn)練過程與現(xiàn)有技術(shù)相同，在此不再詳述。

如圖3所示，是本發(fā)明實(shí)施例數(shù)學(xué)公式的語義解析方法的流程圖，包括以下步驟：

步驟301，預(yù)先構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型。

步驟302，接收包含數(shù)學(xué)公式的文本數(shù)據(jù)。

所述文本數(shù)據(jù)的內(nèi)容可以根據(jù)實(shí)際應(yīng)用需求定制，如可以為數(shù)學(xué)試題、數(shù)學(xué)課本內(nèi)容等。

需要說明的是，如果是圖片內(nèi)容，則可以通過ocr(opticalcharacterrecognition，光學(xué)字符識(shí)別)技術(shù)，將圖片數(shù)據(jù)識(shí)別為文本數(shù)據(jù)。

步驟303，對(duì)所述文本數(shù)據(jù)中的數(shù)學(xué)公式進(jìn)行識(shí)別，得到識(shí)別后的數(shù)學(xué)公式字符。

對(duì)數(shù)學(xué)公式進(jìn)行識(shí)別即將文本數(shù)據(jù)中的數(shù)學(xué)公式字符識(shí)別出來，具體識(shí)別方法可以采用提取文本數(shù)據(jù)的識(shí)別特征構(gòu)建統(tǒng)計(jì)模型，利用所述統(tǒng)計(jì)模型進(jìn)行字符預(yù)測(cè)得到，具體識(shí)別過程與現(xiàn)有技術(shù)相同。當(dāng)然也可以采用其它方法進(jìn)行識(shí)別，如基于規(guī)則的方法，對(duì)此本發(fā)明實(shí)施例不做限定。

步驟304，利用所述概率上下文無關(guān)文法模型對(duì)所述識(shí)別后的數(shù)學(xué)公式字符進(jìn)行解析，得到解析結(jié)果。

在本發(fā)明實(shí)施例中，可以將解析結(jié)果以數(shù)學(xué)公式字符的語法樹形式表示。

具體地，進(jìn)行公式解析時(shí)，自左向右掃描每個(gè)公式字符，采用動(dòng)態(tài)規(guī)劃方法尋找公式字符之間對(duì)應(yīng)的所有文法，并且對(duì)所述文法進(jìn)行規(guī)約，所述規(guī)約即首先通過詞法分析器將公式字符替換為相應(yīng)的終結(jié)符，然后根據(jù)確定的文法集合，將符合文法集合中文法的終結(jié)符使用該文法的左部替換所述終結(jié)符，得到相應(yīng)的非終結(jié)符，作為公式類型；如果規(guī)約后有相同的公式類型，直接合并成一個(gè)類型即可，從而得到規(guī)約后的文法。然后，根據(jù)規(guī)約后的文法及規(guī)約路徑得到相應(yīng)的語法樹。

需要說明的是，在文法規(guī)約時(shí)，往往存在多條規(guī)約路徑，掃描文法的規(guī)約路徑可以得到多個(gè)候選語法樹，則選擇概率最大的語法樹作為公式字符解析的語法樹，所述語法樹的概率為樹中所有文法出現(xiàn)概率之積，所述文法出現(xiàn)概率根據(jù)概率上下文無關(guān)文法模型得到。如果只有一條規(guī)約路徑，則根據(jù)該規(guī)約路徑得到的語法樹作為公式字符解析得到的語法樹。

以公式“(f(x+1),1)”為例，進(jìn)行公式解析，具體過程如下：

首先自左向右掃描每個(gè)公式字符，采用動(dòng)態(tài)規(guī)劃方法尋找公式字符之間對(duì) 應(yīng)的文法，并對(duì)所述文法進(jìn)行規(guī)約，如表2所示，其中，第一列為找到的公式字符符合的文法，第二列為對(duì)所述文法的規(guī)約，具體規(guī)約時(shí)，依次使用“->”左部替換“->”右部，如規(guī)約路徑“x＝>var＝>exp”，首先使用終結(jié)符“var”替換詞法分析器分析得到的公式字符“x”，然后，根據(jù)文法“exp->var”，使用文法的左部“exp”替換文法的右部“var”，如圖4為公式字符解析過程，左邊為文法的一種規(guī)約路徑，右邊為根據(jù)所述規(guī)約得到的語法樹。由于公式字符解析時(shí)，往往存在多條文法規(guī)約路徑，因此，可以得到多個(gè)語法樹，如圖5所示，為根據(jù)其它規(guī)約路徑得到的語法樹；第三列為概率上下文無關(guān)文法模型中的文法出現(xiàn)概率，語法樹的概率為語法樹中所述文法的概率之積，如果公式字符解析結(jié)果有多個(gè)語法樹，則選擇概率最大的語法樹，作為最終解析結(jié)果。

表2

本發(fā)明實(shí)施例提供的數(shù)學(xué)公式的語義解析方法，將概率上下文無關(guān)文法模型應(yīng)用于公式的語義解析問題中，利用該模型對(duì)數(shù)學(xué)公式進(jìn)行解析，得到解析結(jié)果，有效解決了公式解析的二義性問題，提高了數(shù)學(xué)公式解析的準(zhǔn)確度。

在公式解析存在多條文法規(guī)約路徑時(shí)，可以根據(jù)概率上下文無關(guān)文法模型中每條文法出現(xiàn)的概率，準(zhǔn)確找到公式解析的語法樹，進(jìn)一步提高了數(shù)學(xué)公式解析的準(zhǔn)確度。

進(jìn)一步地，將解析結(jié)果以數(shù)學(xué)公式字符的語法樹形式表示，從而可以根據(jù)實(shí)際應(yīng)用場(chǎng)景對(duì)解析得到的數(shù)學(xué)公式字符的語法樹進(jìn)行語義抽取即可得到相應(yīng)語義，而不需要預(yù)設(shè)規(guī)則進(jìn)行匹配。所述語法樹包含了數(shù)學(xué)公式的所有語義信息，具體抽取時(shí)，直接遍歷所述語法樹即可，如采用深度優(yōu)先搜索方法遍歷語法樹，找到需要的語義信息。在實(shí)際應(yīng)用中，可以針對(duì)具體的應(yīng)用需求在得到的語法樹上定義不同的語義接口，將得到的語義信息通過相應(yīng)接口傳送給上層應(yīng)用。

下面舉例說明語義抽取的過程。

例如：公式字符“f’(x,y)＝a*\sqrt{x}+\frac{1}{2}*x*y”解析得到的語法樹如圖6所示，在個(gè)性化推薦的應(yīng)用場(chǎng)景下，需要知道公式字符對(duì)應(yīng)的具體類型以及與該類型公式所具有一系列語義特征，根據(jù)圖6所示語法樹抽取到的語義信息如下：

(a)一個(gè)二元函數(shù)的導(dǎo)數(shù)

(b)導(dǎo)函數(shù)的基本形式為冪函數(shù)與多項(xiàng)式函數(shù)的冪相加形成的復(fù)合函數(shù)

(c)冪的次數(shù)為1/2

(d)函數(shù)帶有額外的參數(shù)

應(yīng)用上述語義信息，結(jié)合考生的答題情況，即可為推薦決策提供豐富的依據(jù)。

本發(fā)明實(shí)施例中的方法可以應(yīng)用于教育領(lǐng)域中的個(gè)性化學(xué)習(xí)、學(xué)情診斷、及自動(dòng)答題等方向，利用本發(fā)明實(shí)施例得到的語義解析結(jié)果，可以進(jìn)一步解決試題相似度計(jì)算、難度估計(jì)、智能診斷和推薦、類人答題等一系列上層應(yīng)用問題。如個(gè)性化學(xué)習(xí)中對(duì)試題難度進(jìn)行分析時(shí)，需要知道試題考查的知識(shí)點(diǎn)，從而需要對(duì)數(shù)學(xué)公式進(jìn)行解析，根據(jù)解析結(jié)果，看數(shù)學(xué)公式中包含哪些知識(shí)點(diǎn)。

相應(yīng)地，本發(fā)明實(shí)施例還提供一種數(shù)學(xué)公式的語義解析裝置，如圖7所示，是本發(fā)明實(shí)施例數(shù)學(xué)公式的語義解析裝置的一種結(jié)構(gòu)示意圖。

在該實(shí)施例中，所述裝置包括：

模型構(gòu)建模塊701，用于預(yù)先構(gòu)建數(shù)學(xué)公式的概率上下文無關(guān)文法模型；

接收模塊702，用于接收包含數(shù)學(xué)公式的文本數(shù)據(jù)；

識(shí)別模塊703，用于對(duì)所述文本數(shù)據(jù)中的數(shù)學(xué)公式進(jìn)行識(shí)別，得到識(shí)別后的數(shù)學(xué)公式字符；

解析模塊704，用于利用所述概率上下文無關(guān)文法模型對(duì)所述識(shí)別后的數(shù)學(xué)公式字符進(jìn)行解析，得到解析結(jié)果。

如圖8所示，是本發(fā)明實(shí)施例中模型構(gòu)建模塊的一種結(jié)構(gòu)示意圖。

所述模型構(gòu)建模塊包括以下各單元：

文法集合確定單元801，用于確定數(shù)學(xué)公式的文法集合；

語料庫(kù)建立單元802，用于收集包含數(shù)學(xué)公式的文本數(shù)據(jù)，作為語料庫(kù)；

語法樹生成單元803，用于根據(jù)所述語料庫(kù)中各數(shù)學(xué)公式所在的上下文以及所述文法集合，構(gòu)建各數(shù)學(xué)公式的語法樹，所述語法樹的具體構(gòu)建過程可參照前面本發(fā)明方法實(shí)施例中的描述；

訓(xùn)練單元804，用于根據(jù)所述語法樹訓(xùn)練得到數(shù)學(xué)公式的概率上下文無關(guān)文法模型。

所述文法集合可以通過對(duì)各種不同類型的數(shù)學(xué)公式的表達(dá)形式進(jìn)行抽象得到。比如，文法集合確定單元801的一種具體結(jié)構(gòu)可以包括以下各子單元：類型確定子單元、內(nèi)容抽象子單元、以及組合子單元。其中：

所述類型確定子單元用于確定數(shù)學(xué)公式的表達(dá)類型，如表達(dá)式、函數(shù)、區(qū)間等；

所述內(nèi)容抽象子單元用于對(duì)各類數(shù)學(xué)公式的表達(dá)內(nèi)容進(jìn)行抽象，得到對(duì)應(yīng)各表達(dá)類型的所有文法，所述抽象即將數(shù)學(xué)公式的表達(dá)內(nèi)容進(jìn)行上位后，使用固定的符號(hào)表示；在本發(fā)明實(shí)施例中，并不限定符號(hào)的具體形式；

所述組合子單元用于采用遞歸形式將所有文法組合，形成文法集合。

所述訓(xùn)練單元804的一種具體結(jié)構(gòu)可以包括：拓?fù)浣Y(jié)構(gòu)確定子單元和模型參數(shù)訓(xùn)練子單元。其中：

所述拓?fù)浣Y(jié)構(gòu)確定子單元用于確定概率上下文無關(guān)文法模型的拓?fù)浣Y(jié)構(gòu)，概率上下文無關(guān)文法模型可以為一個(gè)五元組，五元組中各元素已在前面詳細(xì)說明，在此不再贅述。

所述模型參數(shù)訓(xùn)練子單元用于將各語法樹作為訓(xùn)練數(shù)據(jù)，每條文法的出現(xiàn)概率為模型參數(shù)，以訓(xùn)練數(shù)據(jù)的似然概率最大化為優(yōu)化目標(biāo)，訓(xùn)練模型參數(shù)，具體訓(xùn)練過程可參照前面本發(fā)明方法實(shí)施例中的描述。

上述識(shí)別模塊703具體可以采用提取文本數(shù)據(jù)的識(shí)別特征構(gòu)建統(tǒng)計(jì)模型，利用所述統(tǒng)計(jì)模型進(jìn)行字符預(yù)測(cè)得到，具體識(shí)別過程與現(xiàn)有技術(shù)相同。當(dāng)然也可以采用其它方式進(jìn)行識(shí)別，如基于規(guī)則的方法，對(duì)此本發(fā)明實(shí)施例不做限定。

在本發(fā)明實(shí)施例中，解析模塊704具體可以采用自左向右的掃描方式掃描每個(gè)公式字符，采用動(dòng)態(tài)規(guī)劃方法尋找公式字符之間對(duì)應(yīng)的所有文法，并且對(duì)所述文法進(jìn)行規(guī)約，得到規(guī)約后的文法，然后根據(jù)規(guī)約后的文法及規(guī)約路徑確定對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，該語法樹包含了所述數(shù)學(xué)公式的所有語義信息。

相應(yīng)地，解析模塊704的一種具體結(jié)構(gòu)可以包括以下各單元：

掃描單元，用于自左向右掃描每個(gè)公式字符，獲取公式字符之間對(duì)應(yīng) 的所有文法；

規(guī)約單元，用于對(duì)所述文法進(jìn)行規(guī)約，得到規(guī)約后的文法；

語法樹確定單元，用于根據(jù)規(guī)約后的文法及規(guī)約路徑確定對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹。

所述規(guī)約即首先通過詞法分析器將公式字符替換為相應(yīng)的終結(jié)符，然后根據(jù)確定的文法集合，將符合文法集合中文法的終結(jié)符使用該文法的左部替換所述終結(jié)符，得到相應(yīng)的非終結(jié)符，作為新的公式類型，即規(guī)約后的文法。相應(yīng)地，所述規(guī)約單元可以包括：字符替換子單元和終結(jié)符替換子單元。其中，字符替換子單元用于通過詞法分析器將公式字符替換為對(duì)應(yīng)的終結(jié)符；終結(jié)符替換子單元用于將符合所述文法集合中文法的終結(jié)符使用該文法的左部替換所述終結(jié)符，得到規(guī)約后的文法。

需要說明的是，在文法規(guī)約時(shí)，往往存在多條規(guī)約路徑，掃描文法的規(guī)約路徑可以得到多個(gè)候選語法樹，因此，在本發(fā)明實(shí)施例中，所述語法樹確定單元還進(jìn)一步用于在存在多條規(guī)約路徑時(shí)，選擇概率最大的語法樹作為對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，所述語法樹的概率為樹中所有文法出現(xiàn)概率之積。當(dāng)然，如果只有一條規(guī)約路徑，則根據(jù)該規(guī)約路徑得到的語法樹作為公式字符解析得到的語法樹。

本發(fā)明實(shí)施例提供的數(shù)學(xué)公式的語義解析裝置，將概率上下文無關(guān)文法模型應(yīng)用于公式的語義解析問題中，利用該模型對(duì)數(shù)學(xué)公式進(jìn)行解析，得到解析結(jié)果，有效解決了公式解析的二義性問題，提高了數(shù)學(xué)公式解析的準(zhǔn)確度。

進(jìn)一步地，本發(fā)明裝置還可以包括：語義抽取模塊(圖中未示)，用于遍歷對(duì)應(yīng)所述數(shù)學(xué)公式的語法樹，得到需要的語義信息。語法樹包含了數(shù)學(xué)公式的所有語義信息，因此在具體抽取時(shí)，直接遍歷所述語法樹即可，如采用深度優(yōu)先搜索方法遍歷語法樹，找到需要的語義信息。比如，在實(shí) 際應(yīng)用中，可以針對(duì)具體的應(yīng)用需求在得到的語法樹上定義不同的語義接口，將得到的語義信息通過相應(yīng)接口傳送給上層應(yīng)用。

本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見即可，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其，對(duì)于裝置實(shí)施例而言，由于其基本相似于方法實(shí)施例，所以描述得比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置實(shí)施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上?？梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下，即可以理解并實(shí)施。

以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體實(shí)施方式對(duì)本發(fā)明進(jìn)行了闡述，以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及裝置；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉青文;張丹;鄧曉棟;胡國(guó)平;胡郁;劉慶峰
技術(shù)所有人：科大訊飛股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語義解析相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)學(xué)公式的語義解析方法及裝置與流程