信息處理方法和信息處理設(shè)備的制作方法
【專利摘要】公開(kāi)了信息處理方法和信息處理設(shè)備,該方法包括:候選語(yǔ)義關(guān)鍵詞提取步驟,用于對(duì)輸入文本進(jìn)行分詞以從文本提取候選語(yǔ)義關(guān)鍵詞;權(quán)重計(jì)算步驟,用于計(jì)算提取的候選語(yǔ)義關(guān)鍵詞的權(quán)重;語(yǔ)義關(guān)鍵詞選擇步驟,用于基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從提取的候選語(yǔ)義關(guān)鍵詞中選擇語(yǔ)義關(guān)鍵詞;鏈接關(guān)系確定步驟,用于確定選擇的語(yǔ)義關(guān)鍵詞與預(yù)定語(yǔ)義知識(shí)庫(kù)中的概念間的鏈接關(guān)系;及文本語(yǔ)義圖構(gòu)建步驟,用于基于確定的鏈接關(guān)系、語(yǔ)義知識(shí)庫(kù)中的概念間的語(yǔ)義關(guān)系及根據(jù)預(yù)定推理規(guī)則確定的語(yǔ)義關(guān)鍵詞與語(yǔ)義知識(shí)庫(kù)中其他概念間的關(guān)系,構(gòu)建表示文本中的語(yǔ)義關(guān)鍵詞與語(yǔ)義知識(shí)庫(kù)中的概念間的關(guān)系的文本語(yǔ)義圖。根據(jù)本發(fā)明,能夠高效地進(jìn)行信息集成、檢索和共享。
【專利說(shuō)明】信息處理方法和信息處理設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體地,涉及一種信息處理方法和信息處理設(shè)備,其能夠從海量的非結(jié)構(gòu)化文本信息中提取表示文本的語(yǔ)義信息的關(guān)鍵詞,并且將語(yǔ)義關(guān)鍵詞鏈接到語(yǔ)義知識(shí)庫(kù)中,從而更高效地進(jìn)行信息集成、共享和檢索,同時(shí)支持多種應(yīng)用,諸如文本分類、聚類、主題提取以及機(jī)器翻譯等等。
【背景技術(shù)】
[0002]隨著信息技術(shù)的發(fā)展,文本信息的種類和數(shù)量(諸如新聞、博客、微博、專利文獻(xiàn)和科技論文等等)得到了快速增長(zhǎng)。如何對(duì)海量的非結(jié)構(gòu)化文本信息加以利用,以更高效地進(jìn)行信息集成、檢索和共享等一系列應(yīng)用,已對(duì)本領(lǐng)域技術(shù)人員提出了新的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0003]在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來(lái)確定本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來(lái)限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
[0004]因此,鑒于上述情形,本發(fā)明的目的是提供一種信息處理方法和信息處理設(shè)備,其能夠從文本信息中提取語(yǔ)義關(guān)鍵詞,根據(jù)語(yǔ)義相似度將語(yǔ)義關(guān)鍵詞鏈接到預(yù)設(shè)的語(yǔ)義知識(shí)庫(kù)中,并結(jié)合語(yǔ)義知識(shí)庫(kù)中概念間的語(yǔ)義關(guān)系和推理規(guī)則來(lái)產(chǎn)生語(yǔ)義關(guān)鍵詞與其它概念間的新鏈接,從而構(gòu)建文 本的語(yǔ)義圖。根據(jù)本發(fā)明的信息處理方法和設(shè)備可以用于多種應(yīng)用,例如,通過(guò)計(jì)算兩個(gè)文本的語(yǔ)義圖之間的語(yǔ)義相似度來(lái)計(jì)算這兩個(gè)文本之間的語(yǔ)義相似度,從而可以對(duì)文本進(jìn)行分類和聚類處理;以及通過(guò)將文本鏈接到跨語(yǔ)言的語(yǔ)義知識(shí)庫(kù)中,可以將原語(yǔ)言文本轉(zhuǎn)換為由目標(biāo)語(yǔ)言表示的語(yǔ)義圖,進(jìn)而輔助目標(biāo)語(yǔ)言的用戶對(duì)該文本的理解,這可以應(yīng)用于機(jī)器翻譯等領(lǐng)域。
[0005]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一方面,提供了一種信息處理方法,該方法包括:候選語(yǔ)義關(guān)鍵詞提取步驟,用于對(duì)輸入的文本進(jìn)行分詞,以從文本提取候選語(yǔ)義關(guān)鍵詞;權(quán)重計(jì)算步驟,用于計(jì)算所提取的候選語(yǔ)義關(guān)鍵詞的權(quán)重;語(yǔ)義關(guān)鍵詞選擇步驟,用于基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語(yǔ)義關(guān)鍵詞中選擇語(yǔ)義關(guān)鍵詞;鏈接關(guān)系確定步驟,用于確定所選擇的語(yǔ)義關(guān)鍵詞與預(yù)定的語(yǔ)義知識(shí)庫(kù)中的概念之間的鏈接關(guān)系;以及文本語(yǔ)義圖構(gòu)建步驟,用于基于所確定的鏈接關(guān)系、語(yǔ)義知識(shí)庫(kù)中的概念之間的語(yǔ)義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語(yǔ)義關(guān)鍵詞與語(yǔ)義知識(shí)庫(kù)中其他概念之間的關(guān)系,構(gòu)建表示文本中的語(yǔ)義關(guān)鍵詞與語(yǔ)義知識(shí)庫(kù)中的概念之間的關(guān)系的文本語(yǔ)義圖。
[0006]根據(jù)本發(fā)明的實(shí)施例,在權(quán)重計(jì)算步驟中,基于下述因素中的一個(gè)或多個(gè)來(lái)計(jì)算候選語(yǔ)義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率(TF-1DF)、詞頻-比例文檔頻率(TF-PDF)J^增益、在預(yù)定的語(yǔ)料庫(kù)中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在語(yǔ)義知識(shí)庫(kù)中。
[0007]根據(jù)本發(fā)明的另一實(shí)施例,在語(yǔ)義關(guān)鍵詞選擇步驟中,將候選語(yǔ)義關(guān)鍵詞按其權(quán)重的降序進(jìn)行排序,并且選擇排序靠前的特定數(shù)量的候選語(yǔ)義關(guān)鍵詞作為語(yǔ)義關(guān)鍵詞。
[0008]根據(jù)本發(fā)明的另一實(shí)施例,如果文本不包含語(yǔ)義知識(shí)庫(kù)中的概念,則特定數(shù)量為零;如果文本僅包含語(yǔ)義知識(shí)庫(kù)中的一個(gè)概念,則特定數(shù)量為I;以及如果文本中包含語(yǔ)義知識(shí)庫(kù)中的概念的數(shù)量大于1,則基于文本的長(zhǎng)度和預(yù)定均值來(lái)確定特定數(shù)量,其中該預(yù)定均值是基于預(yù)定的語(yǔ)料庫(kù)而統(tǒng)計(jì)的各個(gè)文本中的語(yǔ)義關(guān)鍵詞的數(shù)量與該文本的長(zhǎng)度的比值的平均值。
[0009]根據(jù)本發(fā)明的另一實(shí)施例,在鏈接關(guān)系確定步驟中,利用所選擇的語(yǔ)義關(guān)鍵詞在語(yǔ)義知識(shí)庫(kù)中進(jìn)行檢索,如果檢索到的概念的數(shù)量為一個(gè),則將該概念確定為要與語(yǔ)義關(guān)鍵詞鏈接的概念;否則,基于下述因素中的一個(gè)或多個(gè)來(lái)確定各個(gè)語(yǔ)義關(guān)鍵詞與檢索到的兩個(gè)或更多個(gè)概念之間的相似度,并且將相似度最大的概念確定為要與該語(yǔ)義關(guān)鍵詞鏈接的概念:語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)中互指的概率;語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)中共現(xiàn)的概率;語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)的分類結(jié)構(gòu)樹(shù)中的距離;以及語(yǔ)義關(guān)鍵詞所在的文本與概念所在的文本之間的余弦距離。
[0010]根據(jù)本發(fā)明的另一方面,還提供了一種信息處理設(shè)備,該設(shè)備包括:候選語(yǔ)義關(guān)鍵詞提取單元,被配置成對(duì)輸入的文本進(jìn)行分詞,以從文本提取候選語(yǔ)義關(guān)鍵詞;權(quán)重計(jì)算單元,被配置成計(jì)算所提取的候選語(yǔ)義關(guān)鍵詞的權(quán)重;語(yǔ)義關(guān)鍵詞選擇單元,被配置成基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語(yǔ)義關(guān)鍵詞中選擇語(yǔ)義關(guān)鍵詞;鏈接關(guān)系確定單元,被配置成確定所選擇的語(yǔ)義關(guān)鍵詞與預(yù)定的語(yǔ)義知識(shí)庫(kù)中的概念之間的鏈接關(guān)系;以及文本語(yǔ)義圖構(gòu)建單元,被配置成基于所確定的鏈接關(guān)系、語(yǔ)義知識(shí)庫(kù)中的概念之間的語(yǔ)義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語(yǔ)義關(guān)鍵詞與語(yǔ)義知識(shí)庫(kù)中其他概念之間的關(guān)系,構(gòu)建表示文本中的語(yǔ)義關(guān)鍵詞與語(yǔ)義知識(shí)庫(kù)中的概念之間的關(guān)系的文本語(yǔ)義圖。
[0011]另外,根據(jù)本發(fā)明的又一方面,還提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行程序代碼時(shí),該程序代碼使得數(shù)據(jù)處理設(shè)備執(zhí)行根據(jù)本發(fā)明的信息處理方法。
[0012]此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行指令時(shí),該指令使得數(shù)據(jù)處理設(shè)備執(zhí)行根據(jù)本發(fā)明的/[目息處理方法。
[0013]因此,根據(jù)本發(fā)明的實(shí)施例,能夠高效、準(zhǔn)確地對(duì)非結(jié)構(gòu)化文本信息進(jìn)行處理,不僅將表示該文本信息的語(yǔ)義關(guān)鍵詞鏈接到語(yǔ)義知識(shí)庫(kù)中的相同實(shí)體,而且還利用語(yǔ)義知識(shí)庫(kù)中的概念之間的語(yǔ)義鏈接關(guān)系以及推理規(guī)則來(lái)確定語(yǔ)義關(guān)鍵詞與知識(shí)庫(kù)中其他概念之間的鏈接關(guān)系,從而獲得關(guān)于語(yǔ)義關(guān)鍵詞的更多語(yǔ)義信息。
[0014]在下面的說(shuō)明書部分中給出本發(fā)明實(shí)施例的其他方面,其中,詳細(xì)說(shuō)明用于充分地公開(kāi)本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,而不對(duì)其施加限定。
【專利附圖】
【附圖說(shuō)明】
[0015]本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書中并形成說(shuō)明書的一部分,用來(lái)進(jìn)一步舉例說(shuō)明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。其中:[0016]圖1是示出根據(jù)本發(fā)明的實(shí)施例的信息處理方法的示例的流程圖;
[0017]圖2示出通過(guò)根據(jù)本發(fā)明的實(shí)施例的信息處理方法構(gòu)建的文本語(yǔ)義圖的示例的示意圖;
[0018]圖3是示出通過(guò)根據(jù)本發(fā)明的實(shí)施例的信息處理方法構(gòu)建的文本語(yǔ)義圖的另一示例的示意圖;
[0019]圖4是示出根據(jù)本發(fā)明的實(shí)施例的信息處理設(shè)備的功能配置的結(jié)構(gòu)框圖;以及
[0020]圖5是示出作為本發(fā)明的實(shí)施例中所采用的信息處理裝置的個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0021]在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi)內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。
[0022]在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。
[0023]以下將參照?qǐng)D1至圖5來(lái)詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例的信息處理方法和信息處
理設(shè)備。
[0024]首先,將參照?qǐng)D1來(lái)描述根據(jù)本發(fā)明的實(shí)施例的信息處理方法。如圖1所示,該信息處理方法可以包括候選語(yǔ)義關(guān)鍵詞提取步驟S101、權(quán)重計(jì)算步驟S102、語(yǔ)義關(guān)鍵詞選擇步驟S103、鏈接關(guān)系確定步驟S104以及文本語(yǔ)義圖構(gòu)建步驟S105。
[0025]具體地,在候選語(yǔ)義關(guān)鍵詞提取步驟SlOl中,對(duì)輸入的文本進(jìn)行分詞,以從該文本提取候選語(yǔ)義關(guān)鍵詞。優(yōu)選地,輸入的文本的類型可以包括但不限于新聞文本、博客、微博、專利文獻(xiàn)以及科技論文等等。
[0026]優(yōu)選地,在候選語(yǔ)義關(guān)鍵詞提取步驟SlOl中,如果所輸入的文本中的特定詞與語(yǔ)義知識(shí)庫(kù)中的概念最長(zhǎng)匹配,則提取該詞作為候選語(yǔ)義關(guān)鍵詞。具體地,利用最長(zhǎng)匹配策略,將知識(shí)庫(kù)中的概念作為一個(gè)分詞單元,如果文本中的某個(gè)詞與知識(shí)庫(kù)中的概念最長(zhǎng)匹配,則將該詞作為一個(gè)獨(dú)立的詞,然后去掉停止詞,將剩余的詞作為候選語(yǔ)義關(guān)鍵詞。例如,對(duì)于輸入文本中的一段信息“中華人民共和國(guó)成立于1949年10月I日”,其中的詞“中華人民共和國(guó)”與語(yǔ)義知識(shí)庫(kù)中的概念“中華人民共和國(guó)”實(shí)現(xiàn)了最長(zhǎng)匹配,則提取詞“中華人民共和國(guó)”作為該文本的候選語(yǔ)義關(guān)鍵詞。優(yōu)選地,該語(yǔ)義知識(shí)庫(kù)可以是公知的知識(shí)庫(kù)如DBPedia等,或者也可以是用戶預(yù)設(shè)的語(yǔ)義知識(shí)庫(kù)。
[0027]在權(quán)重計(jì)算步驟S102中,計(jì)算在步驟SlOl中所提取的候選語(yǔ)義關(guān)鍵詞的權(quán)重。
[0028]優(yōu)選地,在權(quán)重計(jì)算步驟S102中,基于下述因素中的一個(gè)或多個(gè)來(lái)計(jì)算各個(gè)候選語(yǔ)義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率(TF-1DF)、詞頻-比例文檔頻率(TF-PDF)JtIJI益、在預(yù)定的語(yǔ)料庫(kù)中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在語(yǔ)義知識(shí)庫(kù)中。[0029]在上述權(quán)重計(jì)算步驟S102中,由于同時(shí)考慮到該候選語(yǔ)義關(guān)鍵詞的統(tǒng)計(jì)信息和語(yǔ)義知識(shí)庫(kù)的信息,從而使得計(jì)算結(jié)果更加準(zhǔn)確。優(yōu)選地,可以通過(guò)將關(guān)于語(yǔ)義關(guān)鍵詞的統(tǒng)計(jì)信息和關(guān)于知識(shí)庫(kù)的信息進(jìn)行線性加權(quán)來(lái)得到總權(quán)重,該計(jì)算過(guò)程可以以下述公式(I)來(lái)表示:
[0030]Score (word) = a ^statistics (word) + (1- a ) φ (I)
[0031]其中,Score (word)表示候選語(yǔ)義關(guān)鍵詞word的權(quán)重,statistics (word)表示基于以下因素中的至少一個(gè)而統(tǒng)計(jì)的候選語(yǔ)義關(guān)鍵詞word的信息重要度:詞頻-反文檔頻率(TF-1DF);詞頻-比例文檔頻率(TF-PDF);信息增益;以及候選語(yǔ)義關(guān)鍵詞word在預(yù)定的語(yǔ)料庫(kù)中被選作關(guān)鍵詞的概率,Φ為二值函數(shù),當(dāng)候選語(yǔ)義關(guān)鍵詞word出現(xiàn)在語(yǔ)義知識(shí)庫(kù)中時(shí),Φ為1,否則為O,并且α為基于輸入文本的類型而預(yù)先確定的加權(quán)系數(shù),其為經(jīng)驗(yàn)值或者通過(guò)有限次的實(shí)驗(yàn)來(lái)確定。加權(quán)系數(shù)α表示統(tǒng)計(jì)信息重要度在總權(quán)重中所占的比例,通過(guò)根據(jù)不同的文本類型調(diào)整α,可以調(diào)整統(tǒng)計(jì)信息重要度和知識(shí)庫(kù)權(quán)重的比例。
[0032]在上述權(quán)重計(jì)算步驟中,詞的TF-1DF、TF-PDF以及信息增益的計(jì)算均為本領(lǐng)域公知的技術(shù),在此不再贅述。預(yù)定的語(yǔ)料庫(kù)可以是包括用戶預(yù)先標(biāo)注好的文本的集合或者公知的語(yǔ)料庫(kù)(如維基百科等)。
[0033]接下來(lái),在語(yǔ)義關(guān)鍵詞選擇步驟S103中,可以基于在步驟S102中算出的權(quán)重,根據(jù)預(yù)定規(guī)則從在步驟SlOl中提取的候選語(yǔ)義關(guān)鍵詞中選擇語(yǔ)義關(guān)鍵詞。
[0034]優(yōu)選地,在語(yǔ)義關(guān)鍵詞選擇步驟S103中,可以將所提取的候選語(yǔ)義關(guān)鍵詞按其權(quán)重的降序進(jìn)行排序,并且選擇排序靠前的特定數(shù)量的候選語(yǔ)義關(guān)鍵詞作為語(yǔ)義關(guān)鍵詞。該特定數(shù)量可以以下述方式來(lái)確定:如果文本不包含語(yǔ)義知識(shí)庫(kù)中的概念,則特定數(shù)量為O ;如果文本僅包含語(yǔ)義知 識(shí)庫(kù)中的一個(gè)概念,則特定數(shù)量為I;以及如果文本中包含語(yǔ)義知識(shí)庫(kù)中的概念的數(shù)量大于I,則基于該文本的長(zhǎng)度和預(yù)定均值來(lái)確定該特定數(shù)量,該預(yù)定均值是基于預(yù)定的語(yǔ)料庫(kù)而統(tǒng)計(jì)的各個(gè)文本中的語(yǔ)義關(guān)鍵詞的數(shù)量與該文本的長(zhǎng)度的比值的平均值。該預(yù)定的語(yǔ)料庫(kù)可以為在例如維基百科中隨機(jī)選擇的一些文本或者是用戶預(yù)先標(biāo)注好的一些文本。優(yōu)選地,該特定數(shù)量的確定過(guò)程可以以下述公式(2)來(lái)表示:
[0035]
【權(quán)利要求】
1.一種信息處理方法,包括: 候選語(yǔ)義關(guān)鍵詞提取步驟,用于對(duì)輸入的文本進(jìn)行分詞,以從所述文本提取候選語(yǔ)義關(guān)鍵詞; 權(quán)重計(jì)算步驟,用于計(jì)算所提取的候選語(yǔ)義關(guān)鍵詞的權(quán)重; 語(yǔ)義關(guān)鍵詞選擇步驟,用于基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語(yǔ)義關(guān)鍵詞中選擇語(yǔ)義關(guān)鍵詞; 鏈接關(guān)系確定步驟,用于確定所選擇的語(yǔ)義關(guān)鍵詞與預(yù)定的語(yǔ)義知識(shí)庫(kù)中的概念之間的鏈接關(guān)系;以及 文本語(yǔ)義圖構(gòu)建步驟,用于基于所確定的鏈接關(guān)系、所述語(yǔ)義知識(shí)庫(kù)中的概念之間的語(yǔ)義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語(yǔ)義關(guān)鍵詞與所述語(yǔ)義知識(shí)庫(kù)中其他概念之間的關(guān)系,構(gòu)建表示所述文本中的語(yǔ)義關(guān)鍵詞與所述語(yǔ)義知識(shí)庫(kù)中的概念之間的關(guān)系的文本語(yǔ)義圖。
2.根據(jù)權(quán)利要求1所述的信息處理方法,其中,在所述權(quán)重計(jì)算步驟中,基于下述因素中的一個(gè)或多個(gè)來(lái)計(jì)算所述候選語(yǔ)義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率TF-1DF、詞頻-比例文檔頻率TF-PDF、信息增益、在預(yù)定的語(yǔ)料庫(kù)中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在所述語(yǔ)義知識(shí)庫(kù)中。
3.根據(jù)權(quán)利要求1所述的信息處理方法,其中,在所述語(yǔ)義關(guān)鍵詞選擇步驟中,將所述候選語(yǔ)義關(guān)鍵詞按其權(quán)重的降序進(jìn)行排序,并且選擇排序靠前的特定數(shù)量的候選語(yǔ)義關(guān)鍵詞作為所述語(yǔ)義關(guān)鍵詞。
4.根據(jù)權(quán)利要求3`所述的信息處理方法,其中,如果所述文本不包含所述語(yǔ)義知識(shí)庫(kù)中的概念,則所述特定數(shù)量為零;如果所述文本僅包含所述語(yǔ)義知識(shí)庫(kù)中的一個(gè)概念,則所述特定數(shù)量為I ;以及如果所述文本中包含所述語(yǔ)義知識(shí)庫(kù)中的概念的數(shù)量大于1,則基于所述文本的長(zhǎng)度和預(yù)定均值來(lái)確定所述特定數(shù)量,其中所述預(yù)定均值是基于預(yù)定的語(yǔ)料庫(kù)而統(tǒng)計(jì)的各個(gè)文本中的語(yǔ)義關(guān)鍵詞的數(shù)量與該文本的長(zhǎng)度的比值的平均值。
5.根據(jù)權(quán)利要求1所述的信息處理方法,其中,在所述鏈接關(guān)系確定步驟中,利用所選擇的語(yǔ)義關(guān)鍵詞在所述語(yǔ)義知識(shí)庫(kù)中進(jìn)行檢索,如果檢索到的概念的數(shù)量為一個(gè),則將該概念確定為要與所述語(yǔ)義關(guān)鍵詞鏈接的概念;否則,基于下述因素中的一個(gè)或多個(gè)來(lái)確定各個(gè)語(yǔ)義關(guān)鍵詞與檢索到的兩個(gè)或更多個(gè)概念之間的相似度,并且將相似度最大的概念確定為要與該語(yǔ)義關(guān)鍵詞鏈接的概念:語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)中互指的概率;語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)中共現(xiàn)的概率;語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)的分類結(jié)構(gòu)樹(shù)中的距離;以及語(yǔ)義關(guān)鍵詞所在的文本與概念所在的文本之間的余弦距離。
6.—種信息處理設(shè)備,包括: 候選語(yǔ)義關(guān)鍵詞提取單元,被配置成對(duì)輸入的文本進(jìn)行分詞,以從所述文本提取候選語(yǔ)義關(guān)鍵詞; 權(quán)重計(jì)算單元,被配置成計(jì)算所提取的候選語(yǔ)義關(guān)鍵詞的權(quán)重; 語(yǔ)義關(guān)鍵詞選擇單元,被配置成基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語(yǔ)義關(guān)鍵詞中選擇語(yǔ)義關(guān)鍵詞; 鏈接關(guān)系確定單元,被配置成確定所選擇的語(yǔ)義關(guān)鍵詞與預(yù)定的語(yǔ)義知識(shí)庫(kù)中的概念之間的鏈接關(guān)系;以及文本語(yǔ)義圖構(gòu)建單元,被配置成基于所確定的鏈接關(guān)系、所述語(yǔ)義知識(shí)庫(kù)中的概念之間的語(yǔ)義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語(yǔ)義關(guān)鍵詞與所述語(yǔ)義知識(shí)庫(kù)中其他概念之間的關(guān)系,構(gòu)建表示所述文本中的語(yǔ)義關(guān)鍵詞與所述語(yǔ)義知識(shí)庫(kù)中的概念之間的關(guān)系的文本語(yǔ)義圖。
7.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中,所述權(quán)重計(jì)算單元被配置成基于下述因素中的一個(gè)或多個(gè)來(lái)計(jì)算所述候選語(yǔ)義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率TF-1DF、詞頻-比例文檔頻率TF-PDF、信息增益、在預(yù)定的語(yǔ)料庫(kù)中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在所述語(yǔ)義知識(shí)庫(kù)中。
8.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中,所述語(yǔ)義關(guān)鍵詞選擇單元被配置成將所述候選語(yǔ)義關(guān)鍵詞按其權(quán)重的降序進(jìn)行排序,并且選擇排序靠前的特定數(shù)量的候選語(yǔ)義關(guān)鍵詞作為所述語(yǔ)義關(guān)鍵詞。
9.根據(jù)權(quán)利要求8所述的信息處理設(shè)備,其中,如果所述文本不包含所述語(yǔ)義知識(shí)庫(kù)中的概念,則所述特定數(shù)量為零;如果所述文本僅包含所述語(yǔ)義知識(shí)庫(kù)中的一個(gè)概念,則所述特定數(shù)量為I ;以及如果所述文本中包含所述語(yǔ)義知識(shí)庫(kù)中的概念的數(shù)量大于1,則基于所述文本的長(zhǎng)度和預(yù)定均值來(lái)確定所述特定數(shù)量,其中所述預(yù)定均值是基于預(yù)定的語(yǔ)料庫(kù)而統(tǒng)計(jì)的各個(gè)文本中的語(yǔ)義關(guān)鍵詞的數(shù)量與該文本的長(zhǎng)度的比值的平均值。
10.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中,所述鏈接關(guān)系確定單元被配置成利用所選擇的語(yǔ)義關(guān)鍵詞在所述語(yǔ)義知識(shí)庫(kù)中進(jìn)行檢索,如果檢索到的概念的數(shù)量為一個(gè),則將該概念確定為要與所述語(yǔ)義關(guān)鍵詞鏈接的概念;否則,基于下述因素中的一個(gè)或多個(gè)來(lái)確定各個(gè)語(yǔ)義關(guān)鍵詞與檢索到的兩個(gè)或更多個(gè)概念之間的相似度,并且將相似度最大的概念確定為要與該語(yǔ)義關(guān)鍵詞鏈接的概念:語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)中互指的概率;語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)中共現(xiàn)的概率;語(yǔ)義關(guān)鍵詞與概念在預(yù)定語(yǔ)料庫(kù)的分類結(jié)構(gòu)樹(shù)中的距離;以及語(yǔ)義關(guān)鍵詞所在的文本與概念所在的文本之間的余弦距離。
【文檔編號(hào)】G06F17/27GK103678418SQ201210362152
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2012年9月25日 優(yōu)先權(quán)日:2012年9月25日
【發(fā)明者】繆慶亮, 孟遙, 于浩 申請(qǐng)人:富士通株式會(huì)社