欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種開放式知識(shí)共享平臺(tái)及其詞條處理方法

文檔序號(hào):6341065閱讀:221來源:國知局
專利名稱:一種開放式知識(shí)共享平臺(tái)及其詞條處理方法
一種開放式知識(shí)共享平臺(tái)及其詞條處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別涉及一種開放式知識(shí)共享平臺(tái)及其詞條處理方法。背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,開放式知識(shí)共享平臺(tái)服務(wù)于互聯(lián)網(wǎng)絡(luò)中業(yè)已廣泛應(yīng)用。 知識(shí)共享平臺(tái)由大量用戶對各種詞條進(jìn)行編輯,用以幫助有需要的人進(jìn)行了解。但開放式 知識(shí)共享平臺(tái)經(jīng)常存在涉及不同主題的多義詞,例如詞條“孫悅”可能涉及到“歌手孫悅”, 也可能涉及到“球員孫悅”。再例如詞條“蘋果”可能涉及到植物、公司、國內(nèi)電影以及國外 電影等等。目前,現(xiàn)有的開放式知識(shí)共享平臺(tái)是將涉及不同主題的多義詞的詞條內(nèi)容統(tǒng)一 呈現(xiàn)給用戶,用戶需要在眾多詞條內(nèi)容中尋找自己想要的解釋,導(dǎo)致用戶的瀏覽體驗(yàn)不佳。

發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種開放式知識(shí)共享平臺(tái)及其詞條處理方法,將涉及不 同主題的詞條內(nèi)容劃分到不同詞義選項(xiàng)下,使得開放式知識(shí)共享平臺(tái)內(nèi)容的粒度更細(xì),更 便于對同名不同主題的內(nèi)容進(jìn)行編輯完善和有針對性的引入擴(kuò)展內(nèi)容,從而提升用戶的瀏 覽體驗(yàn)。本發(fā)明提供了一種開放式知識(shí)共享平臺(tái)的詞條處理方法,其特征在于,詞條處理 方法包括a.獲取詞條及詞條內(nèi)容;b.判斷詞條是否為涉及不同主題的多義詞;c.若詞條 為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi)容分別劃分到對應(yīng)的詞義選項(xiàng)下。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞條內(nèi)容包括多個(gè)目錄,在步驟b中,根據(jù)目錄中 的目錄信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟a中,進(jìn)一步獲取詞條的分類信息,在步驟 b中,根據(jù)分類信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟b包括bl.對詞條內(nèi)容進(jìn)行特征提取,以獲 取多個(gè)詞條特征;b2.獲取標(biāo)注特征集合,標(biāo)注特征集合包括多個(gè)帶有權(quán)重值的標(biāo)注特征; b3.根據(jù)標(biāo)注特征分別為每一詞條特征分配對應(yīng)的權(quán)重值;以及b4.對多個(gè)詞條特征的權(quán) 重值進(jìn)行求和,并將權(quán)重值求和高于閾值的詞條作為多義詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟1^2進(jìn)一步包括士21.獲取包括多個(gè)多義詞樣 本和非多義詞樣本的標(biāo)注語料出22.從標(biāo)注語料中提取多個(gè)標(biāo)注特征;1^23.根據(jù)標(biāo)注特征 在多義詞樣本和非多義詞樣本的出現(xiàn)情況為標(biāo)注特征分別分配對應(yīng)的權(quán)重值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟1^23中,計(jì)算標(biāo)注特征在多義詞樣本中出 現(xiàn)的次數(shù)M,計(jì)算標(biāo)注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計(jì)算權(quán)重值等于M/ (M+N)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c中,以詞條的一級目錄以及一級目錄下 的目錄內(nèi)容作為基本預(yù)測單元,預(yù)測基本預(yù)測單元是否屬于不同主題,并根據(jù)預(yù)測結(jié)果將 屬于不同主題的基本預(yù)測單元分別劃分到對應(yīng)的詞義選項(xiàng)。 根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟C中,根據(jù)一級目錄中的目錄信息進(jìn)行預(yù)測。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟c進(jìn)一步包括cl.從基本預(yù)測單元中提取多 個(gè)目錄特征;c2.根據(jù)目錄特征判斷基本預(yù)測單元之間的關(guān)聯(lián)度,并根據(jù)關(guān)聯(lián)度產(chǎn)生預(yù)測結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟c進(jìn)一步包括Cl.獲取詞條的目錄信息; c2.根據(jù)目錄信息提取目錄特征;c3.獲取含目錄特征關(guān)聯(lián)度關(guān)系的機(jī)器模型;c4.根據(jù) 所提取的目錄特征,應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目錄特征進(jìn)行關(guān)聯(lián)度計(jì)算; c5.根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果對目錄信息進(jìn)行標(biāo)記。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟c2進(jìn)一步包括在提取目錄特征時(shí),先進(jìn)行 分詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,分詞的方法包括正向匹配分詞、反向匹配分詞、 正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科夫模型分詞、最大熵分詞或條件 隨機(jī)場分詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟c3進(jìn)一步包括c31.獲取已分類為不同主題 的詞義選項(xiàng)的多義詞條樣本庫;c32.獲取詞義選項(xiàng)的目錄信息;c33.根據(jù)詞義選項(xiàng)的目錄 信息提取詞義選項(xiàng)的目錄特征;c34.根據(jù)詞義選項(xiàng)的目錄特征進(jìn)行機(jī)器建模,生成包括詞 義選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞義選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度 關(guān)系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬性、相同詞匯所占目錄信息的比例、關(guān)聯(lián)詞匯 的數(shù)量、關(guān)聯(lián)詞匯的詞匯屬性、關(guān)聯(lián)詞匯所占目錄信息的比例之一或其組合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c4中,進(jìn)行關(guān)聯(lián)度計(jì)算的方法包括計(jì)算相 鄰的目錄信息的目錄特征中相同詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c4中,進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括判斷 相同詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c4中,進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括計(jì)算 相同詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c4中,進(jìn)行關(guān)聯(lián)度計(jì)算的方法包括計(jì)算相 鄰的目錄信息的目錄特征中關(guān)聯(lián)詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c4中,進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括判斷 關(guān)聯(lián)詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,在步驟c4中,進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括計(jì)算 關(guān)聯(lián)詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,步驟c5進(jìn)一步包括c51.根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將 前后相鄰的目錄信息劃分為相關(guān)和無關(guān);c52.將起始目錄以及與在前目錄信息相關(guān)的目 錄信息標(biāo)記為第一標(biāo)記;c53.將與在前目錄信息無關(guān)的目錄信息標(biāo)記為第二標(biāo)記。本發(fā)明還提供一種開放式知識(shí)共享平臺(tái),開放式知識(shí)共享平臺(tái)包括詞條獲取模 塊,獲取詞條及詞條內(nèi)容;多義詞判斷模塊,判斷詞條是否為涉及不同主題的多義詞;詞義 選項(xiàng)劃分模塊,若詞條為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi)容分別劃分 到對應(yīng)的詞義選項(xiàng)下。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞條內(nèi)容包括多個(gè)目錄,多義詞判斷模塊根據(jù)目 錄中的目錄信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞條獲取模塊進(jìn)一步獲取詞條的分類信息,多義 詞判斷模塊根據(jù)分類信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,多義詞判斷模塊包括詞條特征提取模塊,對詞條 內(nèi)容進(jìn)行特征提取,以獲取多個(gè)詞條特征;標(biāo)注特征集合獲取模塊,獲取標(biāo)注特征集合,標(biāo) 注特征集合包括多個(gè)帶有權(quán)重值的標(biāo)注特征;詞條特征權(quán)重計(jì)算模塊,根據(jù)標(biāo)注特征分別 為每一詞條特征分配對應(yīng)的權(quán)重值;以及閾值判斷模塊,對多個(gè)詞條特征的權(quán)重值進(jìn)行求 和,并將權(quán)重值求和高于閾值的詞條作為多義詞。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,標(biāo)注特征集合獲取模塊進(jìn)一步包括標(biāo)注語料獲 取模塊,獲取包括多個(gè)多義詞樣本和非多義詞樣本的標(biāo)注語料;標(biāo)注特征提取模塊,從標(biāo)注 語料中提取多個(gè)標(biāo)注特征;標(biāo)注特征權(quán)重計(jì)算模塊,根據(jù)標(biāo)注特征在多義詞樣本和非多義 詞樣本的出現(xiàn)情況為標(biāo)注特征分別分配對應(yīng)的權(quán)重值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,標(biāo)注特征權(quán)重計(jì)算模塊計(jì)算標(biāo)注特征在多義詞樣 本中出現(xiàn)的次數(shù)M,計(jì)算標(biāo)注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計(jì)算權(quán)重值等于M/ (M+N)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞義選項(xiàng)劃分模塊以詞條的一級目錄以及一級目 錄下的目錄內(nèi)容作為基本預(yù)測單元,預(yù)測基本預(yù)測單元是否屬于不同主題,并根據(jù)預(yù)測結(jié) 果將屬于不同主題的基本預(yù)測單元分別劃分到對應(yīng)的詞義選項(xiàng)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞義選項(xiàng)劃分模塊根據(jù)一級目錄中的目錄信息進(jìn) 行預(yù)測。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞義選項(xiàng)劃分模塊進(jìn)一步包括目錄信息獲取模 塊,獲取詞條的目錄信息;目錄特征提取模塊,根據(jù)目錄信息提取目錄特征;機(jī)器模型獲取 模塊,獲取含目錄特征關(guān)聯(lián)度關(guān)系的機(jī)器模型;關(guān)聯(lián)度計(jì)算模塊,根據(jù)所提取的目錄特征, 應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目錄特征進(jìn)行關(guān)聯(lián)度計(jì)算,以及標(biāo)記模塊,根據(jù)關(guān) 聯(lián)度計(jì)算結(jié)果對目錄信息進(jìn)行標(biāo)記。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,機(jī)器模型獲取模塊進(jìn)一步包括詞義選項(xiàng)樣本獲 取模塊,獲取已分類為不同主題的詞義選項(xiàng)的多義詞條樣本庫;詞義選項(xiàng)目錄信息獲取模 塊,獲取詞義選項(xiàng)的目錄信息;詞義選項(xiàng)目錄特征提取模塊,根據(jù)詞義選項(xiàng)的目錄信息提取 詞義選項(xiàng)的目錄特征;機(jī)器建模模塊,根據(jù)詞義選項(xiàng)的目錄特征進(jìn)行機(jī)器建模,生成包括詞 義選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,詞義選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度 關(guān)系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬性、相同詞匯所占目錄信息的比例、關(guān)聯(lián)詞匯 的數(shù)量、關(guān)聯(lián)詞匯的詞匯屬性、關(guān)聯(lián)詞匯所占目錄信息的比例之一或其組合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,關(guān)聯(lián)度計(jì)算模塊進(jìn)行關(guān)聯(lián)度計(jì)算的方法包括計(jì)算 相鄰的目錄信息的目錄特征中相同詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,關(guān)聯(lián)度計(jì)算模塊進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括判 斷相同詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,關(guān)聯(lián)度計(jì)算模塊進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括計(jì)算相同詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,關(guān)聯(lián)度計(jì)算模塊進(jìn)行關(guān)聯(lián)度計(jì)算的方法包括計(jì)算 相鄰的目錄信息的目錄特征中關(guān)聯(lián)詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,關(guān)聯(lián)度計(jì)算模塊進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括判 斷關(guān)聯(lián)詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,關(guān)聯(lián)度計(jì)算模塊進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括計(jì) 算關(guān)聯(lián)詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實(shí)施方式,標(biāo)記模塊進(jìn)一步包括關(guān)聯(lián)度分類模塊,根據(jù)關(guān)聯(lián) 度計(jì)算結(jié)果將前后相鄰的目錄信息劃分為相關(guān)和無關(guān);第一標(biāo)記模塊,將起始目錄以及與 在前目錄信息相關(guān)的目錄信息標(biāo)記為第一標(biāo)記;第二標(biāo)記模塊,將與在前目錄信息無關(guān)的 目錄信息標(biāo)記為第二標(biāo)記。通過上述所提供的技術(shù)方案,本發(fā)明提供了一種開放式知識(shí)共享平臺(tái)及其詞條 處理方法,可將涉及不同主題的詞條內(nèi)容劃分到不同詞義選項(xiàng)下,使得開放式知識(shí)共享平 臺(tái)內(nèi)容的粒度更細(xì),更便于對同名不同主題的內(nèi)容進(jìn)行編輯完善和有針對性的引入擴(kuò)展內(nèi) 容,從而提升用戶的瀏覽體驗(yàn)。

圖1是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞展現(xiàn)方法的流程示意圖;圖2是本發(fā)明的開放式知識(shí)共享平臺(tái)的示意框圖;圖3是本發(fā)明的開放式知識(shí)共享平臺(tái)的詞條處理方法的流程示意圖;圖4是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞判定方法的流程示意5是本發(fā)明的開放式知識(shí)共享平臺(tái)的標(biāo)注特征集合獲取方法的流程示意圖。圖6是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞條的詞義選項(xiàng)劃分方法的流程示 意圖;圖7是本發(fā)明的開放式知識(shí)共享平臺(tái)的詞條處理裝置的示意框圖;圖8是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞判定裝置的示意框9是本發(fā)明的開放式知識(shí)共享平臺(tái)的標(biāo)注特征集合獲取裝置的示意框圖。圖10是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞條的詞義選項(xiàng)劃分裝置的示意框 圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明進(jìn)行詳細(xì)描述。首先請參見圖1,圖1是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞展現(xiàn)方法的流程 示意圖。在步驟10中,將同一詞條的涉及不同主題的詞條內(nèi)容分別與對應(yīng)的詞義選項(xiàng)進(jìn) 行關(guān)聯(lián)。例如,在本步驟中,將詞條“孫悅”的涉及到“歌手孫悅”的詞條內(nèi)容劃分并關(guān)聯(lián)到 詞義選項(xiàng)“歌手孫悅”下,并將涉及到“球員孫悅”的詞條內(nèi)容劃分并關(guān)聯(lián)到詞義選項(xiàng)“球員 孫悅”下。多義詞的具體判斷過程以及詞條內(nèi)容的具體劃分過程將在下文中進(jìn)行描述。
在步驟11中,接收用戶的查詢請求。具體來說,用戶通過瀏覽器發(fā)送查詢請求,該 查詢請求經(jīng)互聯(lián)網(wǎng)傳送到開放式知識(shí)共享平臺(tái)。在步驟12中,查詢與查詢請求相匹配的詞條。在步驟13中,輸出并在瀏覽器上呈現(xiàn)出與相匹配的詞條對應(yīng)的多個(gè)詞義選項(xiàng)。具 體來說,開放式知識(shí)共享平臺(tái)在接收到查詢請求后,在數(shù)據(jù)庫內(nèi)查詢與該查詢請求相匹配 的詞條。若該詞條為涉及不同主題的多義詞,則輸出并在瀏覽器中呈現(xiàn)與相匹配詞條對應(yīng) 的多個(gè)詞義選項(xiàng)。例如,當(dāng)用戶輸入的查詢請求為“孫悅”時(shí),開放式知識(shí)共享平臺(tái)輸出并 在瀏覽器上呈現(xiàn)出“歌手孫悅”以及“球員孫悅”兩個(gè)詞義選項(xiàng)。在步驟14中,根據(jù)用戶針對詞義選項(xiàng)的請求展現(xiàn)相關(guān)聯(lián)的詞條內(nèi)容。具體來說, 用戶通過詞義選項(xiàng)確定自己所感興趣的主題,進(jìn)而點(diǎn)擊對應(yīng)的詞義選項(xiàng)。開放式知識(shí)共享 平臺(tái)則將與該詞義選項(xiàng)相關(guān)聯(lián)的詞條內(nèi)容輸出到瀏覽器上,進(jìn)而展現(xiàn)給用戶。例如,用戶感 興趣的是“歌手孫悅”,用戶點(diǎn)擊詞義選項(xiàng)“歌手孫悅”,則開放式知識(shí)共享平臺(tái)將與“歌手孫 悅”相關(guān)的詞條內(nèi)容輸出到瀏覽器上,進(jìn)而展現(xiàn)給用戶。在步驟13中,優(yōu)選根據(jù)用戶行為對瀏覽器上呈現(xiàn)的多個(gè)詞義選項(xiàng)進(jìn)行排序,使得 關(guān)注度高的詞義選項(xiàng)排在該多個(gè)詞義選項(xiàng)的前列,由此進(jìn)一步提高用戶的瀏覽體驗(yàn)。例如,可根據(jù)詞條內(nèi)容的展現(xiàn)量、用戶對詞條內(nèi)容的瀏覽時(shí)間或詞條內(nèi)容的點(diǎn)擊 量與展現(xiàn)量之比對多個(gè)詞義選項(xiàng)進(jìn)行排序。其中,詞條內(nèi)容的展現(xiàn)量是指根據(jù)用戶針對詞 義選項(xiàng)的請求展現(xiàn)相關(guān)聯(lián)的詞條內(nèi)容的次數(shù)。一般來說,詞條內(nèi)容的展現(xiàn)量越多證明該詞 條內(nèi)容受到的關(guān)注度越高,其所對應(yīng)的詞義選項(xiàng)排名應(yīng)該越靠前。用戶在詞條內(nèi)容的瀏覽 時(shí)間是指用戶在該詞條內(nèi)容展現(xiàn)后到該詞條內(nèi)容關(guān)閉之前所花費(fèi)的時(shí)間,用戶對詞條內(nèi)容 的瀏覽時(shí)間越長,也證明用戶對該詞條的關(guān)注度越高,其所對應(yīng)的詞義選項(xiàng)排名應(yīng)該越靠 前。詞條內(nèi)容的點(diǎn)擊量是指用戶對所展現(xiàn)的詞條內(nèi)容中的標(biāo)題、圖片或鏈接等內(nèi)容的點(diǎn)擊 次數(shù)。詞條內(nèi)容的點(diǎn)擊量與展現(xiàn)量之比越高,則也證明用戶對該詞條的關(guān)注度越高,其所對 應(yīng)的詞義選項(xiàng)排名應(yīng)該越靠前。在優(yōu)選實(shí)施方式中,綜合考慮上述三個(gè)衡量標(biāo)準(zhǔn),來對詞義選項(xiàng)進(jìn)行排序。也就 是,根據(jù)詞義內(nèi)容的展現(xiàn)量、用戶對詞義內(nèi)容的瀏覽時(shí)間以及詞義內(nèi)容的點(diǎn)擊量與展現(xiàn)量 之比的加權(quán)統(tǒng)計(jì)結(jié)果對多個(gè)詞義選項(xiàng)進(jìn)行排序。具體加權(quán)統(tǒng)計(jì)算法可根據(jù)實(shí)際需要進(jìn)行設(shè) 計(jì)。例如,在統(tǒng)計(jì)詞義內(nèi)容的展現(xiàn)量時(shí),將瀏覽時(shí)間較短的展現(xiàn)行為賦予較低的權(quán)重,再參 與到展現(xiàn)量統(tǒng)計(jì)中,由此可降低由于用戶誤操作所產(chǎn)生的展現(xiàn)量對詞義選項(xiàng)排序的影響。如圖2所示,圖2是本發(fā)明的開放式知識(shí)共享平臺(tái)的示意框圖。本發(fā)明的開放式 知識(shí)共享平臺(tái)包括關(guān)聯(lián)模塊20、輸入模塊21、匹配模塊22以及輸出模塊23。關(guān)聯(lián)模塊20將同一詞條的涉及不同主題的詞條內(nèi)容分別與對應(yīng)的詞義選項(xiàng)進(jìn)行 關(guān)聯(lián)。例如,關(guān)聯(lián)模塊20將詞條“孫悅”的涉及到“歌手孫悅”的詞條內(nèi)容劃分并關(guān)聯(lián)到詞 義選項(xiàng)“歌手孫悅”下,并將涉及到“球員孫悅”的詞條內(nèi)容劃分并關(guān)聯(lián)到詞義選項(xiàng)“球員孫 悅”下。輸入模塊21接收用戶通過瀏覽器發(fā)送的查詢請求。匹配模塊22根據(jù)輸入模塊21 接收到查詢請求在數(shù)據(jù)庫內(nèi)查詢與該查詢請求相匹配的詞條。若該詞條為涉及不同主題的 多義詞,則輸出模塊23輸入該詞條對應(yīng)的多個(gè)詞義選項(xiàng),進(jìn)而在瀏覽器中呈現(xiàn)該多個(gè)詞義 選項(xiàng)。例如,當(dāng)用戶輸入的查詢請求為“孫悅”時(shí),輸出模塊23輸出并在瀏覽器上呈現(xiàn)出“歌手孫悅”以及“球員孫悅”兩個(gè)詞義選項(xiàng)。輸入模塊21進(jìn)一步接收用戶針對某個(gè)詞義選項(xiàng)的請求,輸出模塊23進(jìn)一步根據(jù) 用戶針對詞義選項(xiàng)的請求輸出并進(jìn)而展現(xiàn)相關(guān)聯(lián)的詞條內(nèi)容。具體來說,用戶通過詞義選 項(xiàng)確定自己所感興趣的主題,進(jìn)而點(diǎn)擊對應(yīng)的詞義選項(xiàng)。輸出模塊23則將與該詞義選項(xiàng)相 關(guān)聯(lián)的詞條內(nèi)容輸出到瀏覽器上,進(jìn)而展現(xiàn)給用戶。例如,用戶感興趣的是“歌手孫悅”,用 戶點(diǎn)擊詞義選項(xiàng)“歌手孫悅”,則輸出模塊23則將與“歌手孫悅”相關(guān)的詞條內(nèi)容輸出到瀏 覽器上,進(jìn)而展現(xiàn)給用戶。輸出模塊23優(yōu)選根據(jù)用戶行為對瀏覽器上呈現(xiàn)的多個(gè)詞義選項(xiàng)進(jìn)行排序,使得 關(guān)注度高的詞義選項(xiàng)排在該多個(gè)詞義選項(xiàng)的前列,由此進(jìn)一步提高用戶的瀏覽體驗(yàn)。例如,可根據(jù)詞條內(nèi)容的展現(xiàn)量、用戶對詞條內(nèi)容的瀏覽時(shí)間或詞條內(nèi)容的點(diǎn)擊 量與展現(xiàn)量之比對多個(gè)詞義選項(xiàng)進(jìn)行排序。其中,詞條內(nèi)容的展現(xiàn)量是指根據(jù)用戶針對詞 義選項(xiàng)的請求展現(xiàn)相關(guān)聯(lián)的詞條內(nèi)容的次數(shù)。一般來說,詞條內(nèi)容的展現(xiàn)量越多證明該詞 條內(nèi)容受到的關(guān)注度越高,其所對應(yīng)的詞義選項(xiàng)排名應(yīng)該越靠前。用戶在詞條內(nèi)容的瀏覽 時(shí)間是指用戶在該詞條內(nèi)容展現(xiàn)后到該詞條內(nèi)容關(guān)閉之前所花費(fèi)的時(shí)間,用戶對詞條內(nèi)容 的瀏覽時(shí)間越長,也證明用戶對該詞條的關(guān)注度越高,其所對應(yīng)的詞義選項(xiàng)排名應(yīng)該越靠 前。詞條內(nèi)容的點(diǎn)擊量是指用戶對所展現(xiàn)的詞條內(nèi)容中的標(biāo)題、圖片或鏈接等內(nèi)容的點(diǎn)擊 次數(shù)。詞條內(nèi)容的點(diǎn)擊量與展現(xiàn)量之比越高,則也證明用戶對該詞條的關(guān)注度越高,其所對 應(yīng)的詞義選項(xiàng)排名應(yīng)該越靠前。在優(yōu)選實(shí)施方式中,綜合考慮上述三個(gè)衡量標(biāo)準(zhǔn),來對詞義選項(xiàng)進(jìn)行排序。也就 是,根據(jù)詞義內(nèi)容的展現(xiàn)量、用戶對詞義內(nèi)容的瀏覽時(shí)間以及詞義內(nèi)容的點(diǎn)擊量與展現(xiàn)量 之比的加權(quán)統(tǒng)計(jì)結(jié)果對多個(gè)詞義選項(xiàng)進(jìn)行排序。具體加權(quán)統(tǒng)計(jì)算法可根據(jù)實(shí)際需要進(jìn)行設(shè) 計(jì)。例如,在統(tǒng)計(jì)詞義內(nèi)容的展現(xiàn)量時(shí),將瀏覽時(shí)間較短的展現(xiàn)行為賦予較低的權(quán)重,再參 與到展現(xiàn)量統(tǒng)計(jì)中,由此可降低由于用戶誤操作所產(chǎn)生的展現(xiàn)量對詞義選項(xiàng)排序的影響。如圖3所示,圖3是本發(fā)明的開放式知識(shí)共享平臺(tái)的詞條處理方法的流程示意圖。在步驟30中,獲取詞條以及詞條內(nèi)容。在優(yōu)選實(shí)施方式中,該詞條及詞條內(nèi)容可 以是現(xiàn)有開放式知識(shí)共享平臺(tái)中的以目錄形式呈現(xiàn)的詞條及詞條內(nèi)容。也就是說,該詞條 內(nèi)容包括多個(gè)目錄以及分別位于各目錄下的目錄內(nèi)容。其中,目錄可以包括多個(gè)一級目錄, 每個(gè)一級目錄下還可以進(jìn)一步包括多個(gè)二級目錄、三級目錄等子目錄。在步驟31中,判斷詞條是否為涉及不同主題的多義詞。判斷詞條是否為多義詞的 方法有多種,下面將以幾個(gè)具體實(shí)施方式
進(jìn)行描述。在一實(shí)施方式中,根據(jù)目錄中的目錄信息判斷詞條是否為涉及不同主題的多義 詞。具體來說,判斷不同的目錄信息中是否存在涉及不同主題的關(guān)鍵詞。例如,如果詞條 “孫悅”的兩個(gè)目錄信息中分別出現(xiàn)了 “歌手孫悅”和“球員孫悅”,由于“歌手”和“球員,,涉 及到不同的主題,則認(rèn)為該詞條“孫悅”為多義詞。再例如,在詞條“射雕英雄傳”的兩個(gè)目 錄信息中分別出現(xiàn)了 “1983版”和“2008版”,則同樣認(rèn)為詞條“射雕英雄傳”為多義詞。在一實(shí)施方式中,在步驟30中,進(jìn)一步獲取詞條的分類信息,在步驟31中,根據(jù)詞 條的分類信息判斷該詞條是否為不同主題的多義詞。例如,詞條“蘋果”的分類信息中包括 “植物”、“電影”以及“公司”三個(gè)不同的分類,則認(rèn)為詞條“蘋果”為多義詞。在另一實(shí)施方式中,可根據(jù)詞條內(nèi)容通過機(jī)器挖掘方法來自動(dòng)識(shí)別詞條是否是多義詞。如圖4所示,圖4是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞判定方法的流程示意圖。在步驟40中,對待判定詞條的詞條內(nèi)容進(jìn)行特征提取,以獲取多個(gè)詞條特征。具 體來說,對詞條內(nèi)容進(jìn)行分詞及過濾,并將分詞及過濾后獲得的字詞作為詞條特征。其中, 分詞的作用是將詞條內(nèi)容中的漢字序列切分成有意義的字詞,以便后續(xù)處理。具體分詞的 方法包括正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞,最大 熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī)場分詞等,上述分詞方法均為本領(lǐng)域公知技 術(shù),在此不再贅述。過濾的作用是去除標(biāo)點(diǎn)符號(hào)、助詞等無用信息。在步驟41中,獲取標(biāo)注特征集合。標(biāo)注特征集合包括多個(gè)帶有權(quán)重值的標(biāo)注特 征。如圖5所示,圖5是本發(fā)明的開放式知識(shí)共享平臺(tái)的標(biāo)注特征集合獲取方法的流程示 意圖。在步驟50中,獲取包括多個(gè)多義詞樣本和非多義詞樣本的標(biāo)注語料。在標(biāo)注語料 中,多義詞樣本是指已經(jīng)判定為多義詞的詞條及詞條內(nèi)容,非多義詞樣本是指已經(jīng)判定為 非多義詞的詞條及詞條內(nèi)容。在步驟51中,從標(biāo)注語料中提取多個(gè)標(biāo)注特征。具體來說,分別對每個(gè)多義詞樣 本以及每個(gè)非多義詞樣本進(jìn)行分詞及過濾,并將分詞及過濾后獲得的字詞作為標(biāo)注特征。在步驟52中,根據(jù)標(biāo)注特征在多義詞樣本和非多義詞樣本的出現(xiàn)情況為標(biāo)注特 征分別分配對應(yīng)的權(quán)重值。具體來說,計(jì)算標(biāo)注特征在多義詞樣本中出現(xiàn)的次數(shù)M,計(jì)算標(biāo) 注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計(jì)算該標(biāo)注特征的權(quán)重值等于M/(M+N)。通過上 述方法可知,如果某個(gè)標(biāo)注特征在多義詞樣本中出現(xiàn)的次數(shù)較多,同時(shí)在非多義詞樣本中 出現(xiàn)的次數(shù)較少時(shí),該標(biāo)注特征的權(quán)重值就相對較高。如果某個(gè)標(biāo)注特征在多義詞樣本和 非多義詞中出現(xiàn)的次數(shù)相仿或者在多義詞樣本中出現(xiàn)的次數(shù)較少,同時(shí)在非多義詞樣本中 出現(xiàn)的次數(shù)較多時(shí),該標(biāo)注特征的權(quán)重值就相對較低。在步驟42中,根據(jù)標(biāo)注特征分別為從待判定詞條的詞條內(nèi)容提取的每一詞條特 征分配對應(yīng)的權(quán)重值。具體來說,在標(biāo)注特征集合中判斷是否存在與每一詞條特征相同的 標(biāo)注特征,若存在,則將該標(biāo)注特征的權(quán)重值分配給該詞條特征。在步驟43中,對從待判定詞條的詞條內(nèi)容提取的多個(gè)詞條特征的權(quán)重值進(jìn)行求 和,并將權(quán)重值求和高于閾值的詞條作為多義詞。具體來說,如果待判定詞條的多個(gè)詞條特 征的權(quán)重值越高,則代表該詞條特征在多義詞樣本中出現(xiàn)的次數(shù)越高,該待判定詞條是多 義詞的概率就越高。在本實(shí)施方式中,具體閾值可根據(jù)實(shí)際情況進(jìn)行設(shè)置。在步驟32中,若判定詞條為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi) 容分別劃分到對應(yīng)詞義選項(xiàng)下。在一優(yōu)選實(shí)施方式中,以詞條的一級目錄以及一級目錄下 的目錄內(nèi)容作為一個(gè)基本預(yù)測單元,預(yù)測基本預(yù)測單元是否屬于不同主題,并根據(jù)預(yù)測結(jié) 果將屬于同一主題的基本預(yù)測單元?jiǎng)澐值酵辉~義選項(xiàng)。預(yù)測基本預(yù)測單元是否屬于不同 主題有多種,下面將以幾個(gè)具體實(shí)施方式
進(jìn)行描述。在一實(shí)施方式中,根據(jù)一級目錄中的目錄信息進(jìn)行預(yù)測。例如,如果詞條“孫悅”的 兩個(gè)一級目錄的目錄信息中分別出現(xiàn)了 “歌手孫悅”和“球員孫悅”,由于“歌手”和“球員,, 涉及到不同的主題,則將目錄信息中包含“歌手孫悅”的一級目錄及其目錄內(nèi)容劃分并關(guān)聯(lián) 到詞義選項(xiàng)“歌手孫悅”下,并將目錄信息中包含“球員孫悅”的一級目錄及其目錄內(nèi)容劃 分并關(guān)聯(lián)到詞義選項(xiàng)“球員孫悅”下。此外,還可以根據(jù)目錄信息所體現(xiàn)的用戶編輯行為來進(jìn)行預(yù)測。例如,如果不同的一級目錄的目錄信息中的第一個(gè)字為數(shù)字,并連續(xù)排列,則將 帶有數(shù)字的一級目錄及其目錄內(nèi)容以及下方不帶有數(shù)字的第一目錄及其目錄內(nèi)容分別劃 分到不同的詞義選項(xiàng)下。在一實(shí)施方式中,當(dāng)判定詞條為涉及不同主題的多義詞時(shí),可以通過機(jī)器挖掘的 方式將涉及不同主題的詞條內(nèi)容分別劃分到對應(yīng)的詞義選項(xiàng)下。如圖6所示,圖6是本發(fā) 明的開放式知識(shí)共享平臺(tái)的多義詞條的詞義選項(xiàng)劃分方法的流程示意圖。由于詞條中目錄通常是按照前后順序排列的,也就是在通常情況下,多義詞條中 的相同主題的目錄是按照前后順序排列的,較少出現(xiàn)亂序排列的情況,因此在這種情況下, 只需要判斷前后目錄之間是否是相關(guān)的,即可以得知不同主題的目錄的分割位置。在步驟61中,獲取未進(jìn)行詞義選項(xiàng)分類的多義詞詞條數(shù)據(jù)。該進(jìn)行詞義選項(xiàng)分類 的多義詞詞條數(shù)據(jù)可以通過上述圖3所示的步驟31或者圖4所示多義詞判定方法來獲得。在步驟62中,根據(jù)詞條中目錄的位置獲取詞條的目錄信息。在優(yōu)選的實(shí)施方式 中,本發(fā)明根據(jù)多義詞詞條中一級目錄的位置對詞條進(jìn)行分割,獲取每個(gè)一級目錄的目錄 信息,目錄信息包括一級目錄名稱以及一級目錄下的目錄內(nèi)容等。在步驟63中,根據(jù)獲取的目錄信息,從中提取出多個(gè)特征。在對目錄信息進(jìn)行特 征提取的時(shí)候,需要先對詞條內(nèi)容進(jìn)行分詞及過濾,并將分詞及過濾后獲得的字詞作為詞 條特征。其中,分詞的作用是將詞條內(nèi)容中的漢字序列切分成有意義的字詞,以便后續(xù)處 理。具體分詞的方法包括正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞 圖的分詞,最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī)場分詞等,上述分詞方法均為 本領(lǐng)域公知技術(shù),在此不再贅述。過濾的作用是去除標(biāo)點(diǎn)符號(hào)、助詞等無用信息。在優(yōu)選的 實(shí)施方式中,本發(fā)明采用正向最大匹配分詞和反向最大匹配分詞相結(jié)合的方式對分詞結(jié)果 進(jìn)行校正,以獲取正確率較高的分詞結(jié)果。 在步驟64中,獲取含目錄特征關(guān)聯(lián)度關(guān)系的機(jī)器模型。如圖6所示,步驟64進(jìn)一 步包括步驟641,獲取已分類為不同主題的詞義選項(xiàng)的多義詞條樣本庫。由于樣本是已經(jīng) 分類為不同主題的詞義選項(xiàng)的多義詞條,因此每一個(gè)詞義選項(xiàng)下面的目錄所對應(yīng)的主題是 相同的。步驟642,獲取詞義選項(xiàng)的目錄信息。即獲取詞義選項(xiàng)下面具有相同主題特性的目 錄信息。優(yōu)選的實(shí)施方式中,獲取詞義選項(xiàng)的一級目錄信息。步驟643,根據(jù)詞義選項(xiàng)的目錄信息提取詞義選項(xiàng)的目錄特征。對具有相同主題特 性的目錄信息提取對應(yīng)的目錄特征。步驟644,根據(jù)詞義選項(xiàng)的目錄特征進(jìn)行機(jī)器建模,生成包括詞義選項(xiàng)的相鄰的目 錄信息的目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。由于多義詞條樣本庫的每一個(gè)詞條都包括 了多個(gè)詞義選項(xiàng),通過對同一詞義選項(xiàng)下的具有相同主題特性的目錄特征進(jìn)行學(xué)習(xí)訓(xùn)練, 以及對不同詞義選項(xiàng)下的具有不同主題特性的目錄特征進(jìn)行學(xué)習(xí)訓(xùn)練,可以建立包括詞義 選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。在優(yōu)選的實(shí)施方式中,詞義 選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度關(guān)系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬 性、相同詞匯所占目錄信息的比例、關(guān)聯(lián)詞匯的數(shù)量、關(guān)聯(lián)詞匯的詞匯屬性、關(guān)聯(lián)詞匯所占 目錄信息的比例之一或其組合。
在步驟65中,根據(jù)所提取的目錄特征,應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目 錄特征進(jìn)行關(guān)聯(lián)度計(jì)算。其中,關(guān)聯(lián)度計(jì)算可以采用多種方法,并且各種方法之間也可以單 獨(dú)實(shí)施或相互結(jié)合實(shí)施,本發(fā)明現(xiàn)舉例兩種可以單獨(dú)實(shí)施或相互結(jié)合實(shí)施的方法,但并非 用于限制本發(fā)明的實(shí)施方式。在本發(fā)明的一種實(shí)施方式中,應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目錄特征中 的相同詞匯的參數(shù)進(jìn)行計(jì)算,通過計(jì)算相同詞匯的數(shù)量、相同詞匯所占目錄信息的比例,或 者對相同詞匯的詞匯屬性進(jìn)行判斷,實(shí)現(xiàn)對前后相鄰的目錄信息的關(guān)聯(lián)度計(jì)算。例如,對 于文藝作品,特別是影視連續(xù)劇、連載小說等,其目錄名稱相同而內(nèi)容不同,目錄內(nèi)容中相 同詞匯出現(xiàn)數(shù)量很多,而且詞匯屬性為名詞、動(dòng)名詞等,因此可以據(jù)此計(jì)算前后目錄的關(guān)聯(lián) 度。在本發(fā)明的另一種實(shí)施方式中,應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目錄特征 中的關(guān)聯(lián)詞匯的參數(shù)進(jìn)行計(jì)算,通過計(jì)算關(guān)聯(lián)詞匯的數(shù)量、關(guān)聯(lián)詞匯所占目錄信息的比例, 或者對關(guān)聯(lián)詞匯的詞匯屬性進(jìn)行判斷,實(shí)現(xiàn)對前后相鄰的目錄信息的關(guān)聯(lián)度計(jì)算。例如“劉 德華”和“朱麗倩”的相關(guān)度很高,“劉德華”和“老人”的相關(guān)度就低,“歌星”與“專輯”的 相關(guān)度很高,“歌星”與“戰(zhàn)爭”的相關(guān)度就低。這種詞匯相關(guān)度可以通過相關(guān)詞詞典或者機(jī) 器樣本學(xué)習(xí)的方式進(jìn)行判斷。在步驟66中,根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果對目錄信息進(jìn)行標(biāo)記。標(biāo)記方法包括多種實(shí)施 方式。在本發(fā)明的一種實(shí)施方式中,可以根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將目錄信息根據(jù)主題進(jìn)行分 類。在本發(fā)明的另一種實(shí)施方式中,根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將前后相鄰的目錄信息劃分為相 關(guān)和無關(guān),將起始目錄以及與在前目錄信息相關(guān)的目錄信息標(biāo)記為第一標(biāo)記,將與在前目 錄信息無關(guān)的目錄信息標(biāo)記為第二標(biāo)記。舉例來說,一個(gè)多義詞條包括6個(gè)目錄。通過各 個(gè)目錄和對應(yīng)的目錄內(nèi)容識(shí)別出該目錄是不是一個(gè)相同主題的詞義選項(xiàng)的開始部分,如果 是,標(biāo)記成“B”,如果不是,標(biāo)記成“I”。這樣,6個(gè)目錄可能被標(biāo)記成如“BIBIIB”這樣的結(jié) 果,那么目錄1-2就是一個(gè)詞義選項(xiàng),目錄3-5是一個(gè)詞義選項(xiàng),目錄6是一個(gè)詞義選項(xiàng)。這 樣就實(shí)現(xiàn)了對多義詞條內(nèi)具有相同主題的目錄的分類。如圖7所示,圖7是本發(fā)明的開放式知識(shí)共享平臺(tái)的詞條處理裝置的示意框圖。在 本實(shí)施方式中,詞條處理裝置包括詞條獲取模塊70、多義詞判斷模塊71以及詞義選項(xiàng)劃分 模塊72詞條獲取模塊70用于獲取詞條以及詞條內(nèi)容。在優(yōu)選實(shí)施方式中,該詞條及詞條 內(nèi)容可以是現(xiàn)有開放式知識(shí)共享平臺(tái)中的以目錄形式呈現(xiàn)的詞條及詞條內(nèi)容。也就是說, 該詞條內(nèi)容包括多個(gè)目錄以及分別位于各目錄下的目錄內(nèi)容。其中,目錄可以包括多個(gè)一 級目錄,每個(gè)一級目錄下還可以進(jìn)一步包括多個(gè)二級目錄、三級目錄等子目錄。多義詞判斷模塊71用于判斷詞條是否為涉及不同主題的多義詞。判斷詞條是否 為多義詞的方法有多種,下面將以幾個(gè)具體實(shí)施方式
進(jìn)行描述。在一實(shí)施方式中,多義詞判斷模塊71根據(jù)目錄中的目錄信息判斷詞條是否為涉 及不同主題的多義詞。具體來說,多義詞判斷模塊71判斷不同的目錄信息中是否存在涉及 不同主題的關(guān)鍵詞。例如,如果詞條“孫悅”的兩個(gè)目錄信息中分別出現(xiàn)了 “歌手孫悅”和 “球員孫悅”,由于“歌手”和“球員”涉及到不同的主題,則認(rèn)為該詞條“孫悅”為多義詞。再 例如,在詞條“射雕英雄傳”的兩個(gè)目錄信息中分別出現(xiàn)了 “1983版”和“2008版”,則同樣認(rèn)為詞條“射雕英雄傳”為多義詞。在一實(shí)施方式中,詞條獲取模塊70進(jìn)一步獲取詞條的分類信息,多義詞判斷模塊 71根據(jù)詞條的分類信息判斷該詞條是否為不同主題的多義詞。例如,詞條“蘋果”的分類信 息中包括“植物”、“電影”以及“公司”三個(gè)不同的分類,則認(rèn)為詞條“蘋果”為多義詞。在另一實(shí)施方式中,可根據(jù)詞條內(nèi)容通過機(jī)器挖掘方法來自動(dòng)識(shí)別詞條是否是多 義詞。如圖8所示,圖8是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞判斷模塊的示意框圖。在 本實(shí)施方式中,多義詞判斷模塊包括詞條特征提取模塊80、標(biāo)注特征集合獲取模塊81、詞 條特征權(quán)重計(jì)算模塊82以及閾值判斷模塊83詞條特征提取模塊80用于對待判定詞條的詞條內(nèi)容進(jìn)行特征提取,以獲取多個(gè) 詞條特征。具體來說,詞條特征提取模塊80對詞條內(nèi)容進(jìn)行分詞及過濾,并將分詞及過濾 后獲得的字詞作為詞條特征。其中,分詞的作用是將詞條內(nèi)容中的漢字序列切分成有意義 的字詞,以便后續(xù)處理。具體分詞的方法包括正向匹配分詞、反向匹配分詞、正向反向匹 配分詞、基于全切分詞圖的分詞,最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī)場分詞 等,上述分詞方法均為本領(lǐng)域公知技術(shù),在此不再贅述。過濾的作用是去除標(biāo)點(diǎn)符號(hào)、助詞 等無用fn息ο標(biāo)注特征集合獲取模塊81用于獲取標(biāo)注特征集合。標(biāo)注特征集合包括多個(gè)帶有 權(quán)重值的標(biāo)注特征。如圖9所示,圖8是本發(fā)明的開放式知識(shí)共享平臺(tái)的標(biāo)注特征集合獲 取模塊的示意框圖。在本實(shí)施方式中,標(biāo)注特征集合獲取模塊包括標(biāo)注語料獲取模塊90、標(biāo) 注特征提取模塊91以及標(biāo)注特征權(quán)重計(jì)算模塊92。標(biāo)注語料獲取模塊90用于獲取包括多個(gè)多義詞樣本和非多義詞樣本的標(biāo)注語 料。在標(biāo)注語料中,多義詞樣本是指已經(jīng)判定為多義詞的詞條及詞條內(nèi)容,非多義詞樣本是 指已經(jīng)判定為非多義詞的詞條及詞條內(nèi)容。標(biāo)注特征提取模塊91用于從標(biāo)注語料中提取多個(gè)標(biāo)注特征。具體來說,標(biāo)注特征 提取模塊91分別對每個(gè)多義詞樣本以及每個(gè)非多義詞樣本進(jìn)行分詞及過濾,并將分詞及 過濾后獲得的字詞作為標(biāo)注特征。標(biāo)注特征權(quán)重計(jì)算模塊92用于根據(jù)標(biāo)注特征在多義詞樣本和非多義詞樣本的出 現(xiàn)情況為標(biāo)注特征分別分配對應(yīng)的權(quán)重值。具體來說,標(biāo)注特征權(quán)重計(jì)算模塊92計(jì)算標(biāo)注 特征在多義詞樣本中出現(xiàn)的次數(shù)M,計(jì)算標(biāo)注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計(jì)算 該標(biāo)注特征的權(quán)重值等于M/ (M+N)。通過上述方法可知,如果某個(gè)標(biāo)注特征在多義詞樣本中 出現(xiàn)的次數(shù)較多,同時(shí)在非多義詞樣本中出現(xiàn)的次數(shù)較少時(shí),該標(biāo)注特征的權(quán)重值就相對 較高。如果某個(gè)標(biāo)注特征在多義詞樣本和非多義詞中出現(xiàn)的次數(shù)相仿或者在多義詞樣本中 出現(xiàn)的次數(shù)較少,同時(shí)在非多義詞樣本中出現(xiàn)的次數(shù)較多時(shí),該標(biāo)注特征的權(quán)重值就相對 較低。詞條特征權(quán)重計(jì)算模塊82用于根據(jù)標(biāo)注特征分別為從待判定詞條的詞條內(nèi)容提 取的每一詞條特征分配對應(yīng)的權(quán)重值。具體來說,詞條特征權(quán)重計(jì)算模塊82在標(biāo)注特征集 合中判斷是否存在與每一詞條特征相同的標(biāo)注特征,若存在,則將該標(biāo)注特征的權(quán)重值分 配給該詞條特征。閾值判斷模塊83用于對從待判定詞條的詞條內(nèi)容提取的多個(gè)詞條特征的權(quán)重值 進(jìn)行求和,并將權(quán)重值求和高于閾值的詞條作為多義詞。具體來說,如果待判定詞條的多個(gè)詞條特征的權(quán)重值越高,則代表該詞條特征在多義詞樣本中出現(xiàn)的次數(shù)越高,該待判定詞 條是多義詞的概率就越高。在本實(shí)施方式中,具體閾值可根據(jù)實(shí)際情況進(jìn)行設(shè)置。若多義詞判斷模塊71判定詞條為涉及不同主題的多義詞,則詞義選項(xiàng)劃分模塊 72將涉及不同主題的詞條內(nèi)容分別劃分到對應(yīng)詞義選項(xiàng)下。在一優(yōu)選實(shí)施方式中,詞義選 項(xiàng)劃分模塊72以詞條的一級目錄以及一級目錄下的目錄內(nèi)容作為一個(gè)基本預(yù)測單元,預(yù) 測基本預(yù)測單元是否屬于不同主題,并根據(jù)預(yù)測結(jié)果將屬于同一主題的基本預(yù)測單元?jiǎng)澐?到同一詞義選項(xiàng)。預(yù)測基本預(yù)測單元是否屬于不同主題有多種,下面將以幾個(gè)具體實(shí)施方 式進(jìn)行描述。如圖10所示,圖10是本發(fā)明的開放式知識(shí)共享平臺(tái)的多義詞條的詞義選項(xiàng)劃分 裝置的示意框圖。詞義選項(xiàng)劃分模塊進(jìn)一步包括詞條數(shù)據(jù)獲取模塊101、目錄信息獲取模 塊102、目錄特征提取模塊103、機(jī)器模型獲取模塊104、目錄相關(guān)度計(jì)算模塊105以及標(biāo)記 模塊106。詞條數(shù)據(jù)獲取模塊101用于獲取未進(jìn)行詞義選項(xiàng)分類的多義詞詞條數(shù)據(jù)。該進(jìn)行 詞義選項(xiàng)分類的多義詞詞條數(shù)據(jù)可以通過上述圖3所示的步驟31或者圖4所示多義詞判 定方法來獲得。目錄信息獲取模塊102用于根據(jù)詞條中目錄的位置獲取詞條的目錄信息。在優(yōu)選 的實(shí)施方式中,本發(fā)明根據(jù)多義詞詞條中一級目錄的位置對詞條進(jìn)行分割,獲取每個(gè)一級 目錄的目錄信息,目錄信息包括一級目錄名稱以及一級目錄下的目錄內(nèi)容等。目錄特征提取模塊103用于根據(jù)獲取的目錄信息,從中提取出多個(gè)特征。在對目 錄信息進(jìn)行特征提取的時(shí)候,需要先對詞條內(nèi)容進(jìn)行分詞及過濾,并將分詞及過濾后獲得 的字詞作為詞條特征。在優(yōu)選的實(shí)施方式中,本發(fā)明采用正向最大匹配分詞和反向最大匹 配分詞相結(jié)合的方式對分詞結(jié)果進(jìn)行校正,以獲取正確率較高的分詞結(jié)果。機(jī)器模型獲取模塊104用于獲取含目錄特征關(guān)聯(lián)度關(guān)系的機(jī)器模型。如圖10所 示,機(jī)器模型獲取模塊104進(jìn)一步包括樣本獲取模塊1041、詞義選項(xiàng)目錄信息獲取模塊 1042、目錄特征提取模塊1043以及機(jī)器建模模塊1044。樣本獲取模塊1041用于獲取已分 類為不同主題的詞義選項(xiàng)的多義詞條樣本庫。由于樣本是已經(jīng)分類為不同主題的詞義選項(xiàng) 的多義詞條,因此每一個(gè)詞義選項(xiàng)下面的目錄所對應(yīng)的主題是相同的。詞義選項(xiàng)目錄信息 獲取模塊1042用于獲取詞義選項(xiàng)的目錄信息。即獲取詞義選項(xiàng)下面具有相同主題特性的 目錄信息。優(yōu)選的實(shí)施方式中,獲取詞義選項(xiàng)的一級目錄信息。目錄特征提取模塊1043用 于根據(jù)詞義選項(xiàng)的目錄信息提取詞義選項(xiàng)的目錄特征。對具有相同主題特性的目錄信息提 取對應(yīng)的目錄特征。機(jī)器建模模塊1044用于根據(jù)詞義選項(xiàng)的目錄特征進(jìn)行機(jī)器建模,生成 包括詞義選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。在優(yōu)選的實(shí)施方式 中,詞義選項(xiàng)的相鄰的目錄信息的目錄特征的關(guān)聯(lián)度關(guān)系包括相同詞匯的數(shù)量、相同詞匯 的詞匯屬性、相同詞匯所占目錄信息的比例、關(guān)聯(lián)詞匯的數(shù)量、關(guān)聯(lián)詞匯的詞匯屬性、關(guān)聯(lián) 詞匯所占目錄信息的比例之一或其組合。目錄相關(guān)度計(jì)算模塊105用于根據(jù)所提取的目錄特征,應(yīng)用機(jī)器模型對前后相鄰 的目錄信息的目錄特征進(jìn)行關(guān)聯(lián)度計(jì)算。其中,目錄相關(guān)度計(jì)算模塊105可以采用多種計(jì) 算結(jié)構(gòu)實(shí)現(xiàn),并且各種計(jì)算結(jié)構(gòu)之間也可以單獨(dú)實(shí)施或相互結(jié)合實(shí)施。在本發(fā)明的一種實(shí) 施方式中,目錄相關(guān)度計(jì)算模塊105應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目錄特征中的相同詞匯的參數(shù)進(jìn)行計(jì)算,通過計(jì)算相同詞匯的數(shù)量、相同詞匯所占目錄信息的比例,或者 對相同詞匯的詞匯屬性進(jìn)行判斷,實(shí)現(xiàn)對前后相鄰的目錄信息的關(guān)聯(lián)度計(jì)算。在本發(fā)明的 另一種實(shí)施方式中,目錄相關(guān)度計(jì)算模塊105應(yīng)用機(jī)器模型對前后相鄰的目錄信息的目錄 特征中的關(guān)聯(lián)詞匯的參數(shù)進(jìn)行計(jì)算,通過計(jì)算關(guān)聯(lián)詞匯的數(shù)量、關(guān)聯(lián)詞匯所占目錄信息的 比例,或者對關(guān)聯(lián)詞匯的詞匯屬性進(jìn)行判斷,實(shí)現(xiàn)對前后相鄰的目錄信息的關(guān)聯(lián)度計(jì)算。標(biāo)記模塊106用于根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果對目錄信息進(jìn)行標(biāo)記。標(biāo)記方法包括多種 實(shí)施方式。在本發(fā)明的一種實(shí)施方式中,可以根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將目錄信息根據(jù)主題進(jìn) 行分類。在本發(fā)明的另一種實(shí)施方式中,根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將前后相鄰的目錄信息劃分 為相關(guān)和無關(guān),將起始目錄以及與在前目錄信息相關(guān)的目錄信息標(biāo)記為第一標(biāo)記,將與在 前目錄信息無關(guān)的目錄信息標(biāo)記為第二標(biāo)記。標(biāo)記模塊106標(biāo)記模塊進(jìn)一步包括關(guān)聯(lián)度 分類模塊、第一標(biāo)記模塊以及第二標(biāo)記模塊。關(guān)聯(lián)度分類模塊根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將前后 相鄰的目錄信息劃分為相關(guān)和無關(guān)。第一標(biāo)記模塊將起始目錄以及與在前目錄信息相關(guān)的 目錄信息標(biāo)記為第一標(biāo)記。第二標(biāo)記模塊將與在前目錄信息無關(guān)的目錄信息標(biāo)記為第二標(biāo) 記。通過上述所提供的技術(shù)方案,本發(fā)明提供了一種開放式知識(shí)共享平臺(tái)及其多義詞 展現(xiàn)方法,可將多義詞中不同主題的詞義選項(xiàng)顯示出來,由用戶進(jìn)行選擇,提高用戶體驗(yàn)。以上所述僅為本發(fā)明的較佳實(shí)施方式而已,并不用以限制本發(fā)明,凡在本發(fā)明的 精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種開放式知識(shí)共享平臺(tái)的詞條處理方法,其特征在于,所述詞條處理方法包括a.獲取詞條及詞條內(nèi)容;b.判斷所述詞條是否為涉及不同主題的多義詞;c.若所述詞條為涉及不同主題的多義詞,則將涉及不同主題的所述詞條內(nèi)容分別劃分 到對應(yīng)的詞義選項(xiàng)下。
2.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,所述詞條內(nèi)容包括多個(gè)目錄,在 所述步驟b中,根據(jù)所述目錄中的目錄信息判斷所述詞條是否為涉及不同主題的多義詞。
3.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,在所述步驟a中,進(jìn)一步獲取所 述詞條的分類信息,在所述步驟b中,根據(jù)所述分類信息判斷所述詞條是否為涉及不同主 題的多義詞。
4.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,所述步驟b包括 bl.對所述詞條內(nèi)容進(jìn)行特征提取,以獲取多個(gè)詞條特征;b2.獲取標(biāo)注特征集合,所述標(biāo)注特征集合包括多個(gè)帶有權(quán)重值的標(biāo)注特征; b3.根據(jù)所述標(biāo)注特征分別為每一所述詞條特征分配對應(yīng)的權(quán)重值;以及 b4.對所述多個(gè)詞條特征的權(quán)重值進(jìn)行求和,并將權(quán)重值求和高于閾值的詞條作為多 義詞。
5.根據(jù)權(quán)利要求4所述的詞條處理方法,其特征在于,所述步驟1^2進(jìn)一步包括 b21.獲取包括多個(gè)多義詞樣本和非多義詞樣本的標(biāo)注語料;b22.從所述標(biāo)注語料中提取多個(gè)所述標(biāo)注特征;b23.根據(jù)所述標(biāo)注特征在所述多義詞樣本和所述非多義詞樣本的出現(xiàn)情況為所述標(biāo) 注特征分別分配對應(yīng)的權(quán)重值。
6.根據(jù)權(quán)利要求5所述的詞條處理方法,其特征在于,在所述步驟1^23中,計(jì)算所述標(biāo) 注特征在所述多義詞樣本中出現(xiàn)的次數(shù)M,計(jì)算所述標(biāo)注特征在所述非多義詞樣本中出現(xiàn) 的次數(shù)N,并計(jì)算所述權(quán)重值等于M/ (M+N)。
7.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,在所述步驟c中,以所述詞條的 一級目錄以及所述一級目錄下的目錄內(nèi)容作為基本預(yù)測單元,預(yù)測所述基本預(yù)測單元是否 屬于不同主題,并根據(jù)預(yù)測結(jié)果將屬于不同主題的所述基本預(yù)測單元分別劃分到對應(yīng)的詞 義選項(xiàng)。
8.根據(jù)權(quán)利要求7所述的詞條處理方法,其特征在于,在所述步驟c中,根據(jù)所述一級 目錄中的目錄信息進(jìn)行預(yù)測。
9.根據(jù)權(quán)利要求7所述的詞條處理方法,其特征在于,所述步驟c進(jìn)一步包括 cl.從所述基本預(yù)測單元中提取多個(gè)目錄特征;c2.根據(jù)所述目錄特征判斷所述基本預(yù)測單元之間的關(guān)聯(lián)度,并根據(jù)所述關(guān)聯(lián)度產(chǎn)生 所述預(yù)測結(jié)果。
10.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,所述步驟C進(jìn)一步包括 cl.獲取所述詞條的目錄信息;c2.根據(jù)所述目錄信息提取目錄特征; c3.獲取含目錄特征關(guān)聯(lián)度關(guān)系的機(jī)器模型;c4.根據(jù)所提取的所述目錄特征,應(yīng)用所述機(jī)器模型對前后相鄰的所述目錄信息的所述目錄特征進(jìn)行關(guān)聯(lián)度計(jì)算;c5.根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果對所述目錄信息進(jìn)行標(biāo)記。
11.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,所述步驟c2進(jìn)一步包括在 提取所述目錄特征時(shí),先進(jìn)行分詞。
12.根據(jù)權(quán)利要求11所述的標(biāo)的詞分類分級方法,其特征在于,所述分詞的方法包括 正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科 夫模型分詞、最大熵分詞或條件隨機(jī)場分詞。
13.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,所述步驟c3進(jìn)一步包括 c31.獲取已分類為不同主題的詞義選項(xiàng)的多義詞條樣本庫;c32.獲取所述詞義選項(xiàng)的目錄信息;c33.根據(jù)所述詞義選項(xiàng)的目錄信息提取所述詞義選項(xiàng)的目錄特征; c34.根據(jù)所述詞義選項(xiàng)的目錄特征進(jìn)行機(jī)器建模,生成包括所述詞義選項(xiàng)的相鄰的所 述目錄信息的所述目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。
14.根據(jù)權(quán)利要求13所述的詞條處理方法,其特征在于,所述詞義選項(xiàng)的相鄰的所述 目錄信息的所述目錄特征的關(guān)聯(lián)度關(guān)系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬性、相同 詞匯所占目錄信息的比例、關(guān)聯(lián)詞匯的數(shù)量、關(guān)聯(lián)詞匯的詞匯屬性、關(guān)聯(lián)詞匯所占目錄信息 的比例之一或其組合。
15.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,在所述步驟c4中,進(jìn)行關(guān)聯(lián)度 計(jì)算的方法包括計(jì)算相鄰的所述目錄信息的所述目錄特征中相同詞匯的數(shù)量。
16.根據(jù)權(quán)利要求15所述的詞條處理方法,其特征在于,在所述步驟c4中,進(jìn)行關(guān)聯(lián)度 計(jì)算的方法還包括判斷所述相同詞匯的詞匯屬性。
17.根據(jù)權(quán)利要求15所述的詞條處理方法,其特征在于,在所述步驟c4中,進(jìn)行關(guān)聯(lián)度 計(jì)算的方法還包括計(jì)算所述相同詞匯所占目錄信息的比例。
18.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,在所述步驟c4中,進(jìn)行關(guān)聯(lián)度 計(jì)算的方法包括計(jì)算相鄰的所述目錄信息的所述目錄特征中關(guān)聯(lián)詞匯的數(shù)量。
19.根據(jù)權(quán)利要求18所述的詞條處理方法,其特征在于,在所述步驟c4中,進(jìn)行關(guān)聯(lián)度 計(jì)算的方法還包括判斷所述關(guān)聯(lián)詞匯的詞匯屬性。
20.根據(jù)權(quán)利要求18所述的詞條處理方法,其特征在于,在所述步驟c4中,進(jìn)行關(guān)聯(lián)度 計(jì)算的方法還包括計(jì)算所述關(guān)聯(lián)詞匯所占目錄信息的比例。
21.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,所述步驟c5進(jìn)一步包括 c51.根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將前后相鄰的所述目錄信息劃分為相關(guān)和無關(guān);c52.將起始目錄以及與在前目錄信息相關(guān)的所述目錄信息標(biāo)記為第一標(biāo)記; c53.將與在前目錄信息無關(guān)的所述目錄信息標(biāo)記為第二標(biāo)記。
22.—種開放式知識(shí)共享平臺(tái),其特征在于,所述開放式知識(shí)共享平臺(tái)包括 詞條獲取模塊,獲取詞條及詞條內(nèi)容;多義詞判斷模塊,判斷所述詞條是否為涉及不同主題的多義詞; 詞義選項(xiàng)劃分模塊,若所述詞條為涉及不同主題的多義詞,則將涉及不同主題的所述 詞條內(nèi)容分別劃分到對應(yīng)的詞義選項(xiàng)下。
23.根據(jù)權(quán)利要求22所述的開放式知識(shí)共享平臺(tái),其特征在于,所述詞條內(nèi)容包括多個(gè)目錄,所述多義詞判斷模塊根據(jù)所述目錄中的目錄信息判斷所述詞條是否為涉及不同主 題的多義詞。
24.根據(jù)權(quán)利要求22所述的開放式知識(shí)共享平臺(tái),其特征在于,所述詞條獲取模塊進(jìn) 一步獲取所述詞條的分類信息,所述多義詞判斷模塊根據(jù)所述分類信息判斷所述詞條是否 為涉及不同主題的多義詞。
25.根據(jù)權(quán)利要求22所述的開放式知識(shí)共享平臺(tái),其特征在于,所述多義詞判斷模塊 包括詞條特征提取模塊,對所述詞條內(nèi)容進(jìn)行特征提取,以獲取多個(gè)詞條特征; 標(biāo)注特征集合獲取模塊,獲取標(biāo)注特征集合,所述標(biāo)注特征集合包括多個(gè)帶有權(quán)重值 的標(biāo)注特征;詞條特征權(quán)重計(jì)算模塊,根據(jù)所述標(biāo)注特征分別為每一所述詞條特征分配對應(yīng)的權(quán)重 值;以及閾值判斷模塊,對所述多個(gè)詞條特征的權(quán)重值進(jìn)行求和,并將權(quán)重值求和高于閾值的 詞條作為多義詞。
26.根據(jù)權(quán)利要求25所述的開放式知識(shí)共享平臺(tái),其特征在于,所述標(biāo)注特征集合獲 取模塊進(jìn)一步包括標(biāo)注語料獲取模塊,獲取包括多個(gè)多義詞樣本和非多義詞樣本的標(biāo)注語料; 標(biāo)注特征提取模塊,從所述標(biāo)注語料中提取多個(gè)所述標(biāo)注特征; 標(biāo)注特征權(quán)重計(jì)算模塊,根據(jù)所述標(biāo)注特征在所述多義詞樣本和所述非多義詞樣本的 出現(xiàn)情況為所述標(biāo)注特征分別分配對應(yīng)的權(quán)重值。
27.根據(jù)權(quán)利要求沈所述的開放式知識(shí)共享平臺(tái),其特征在于,所述標(biāo)注特征權(quán)重計(jì) 算模塊計(jì)算所述標(biāo)注特征在所述多義詞樣本中出現(xiàn)的次數(shù)M,計(jì)算所述標(biāo)注特征在所述非 多義詞樣本中出現(xiàn)的次數(shù)N,并計(jì)算所述權(quán)重值等于M/ (M+N)。
28.根據(jù)權(quán)利要求22所述的開放式知識(shí)共享平臺(tái),其特征在于,所述詞義選項(xiàng)劃分模 塊以所述詞條的一級目錄以及所述一級目錄下的目錄內(nèi)容作為基本預(yù)測單元,預(yù)測所述基 本預(yù)測單元是否屬于不同主題,并根據(jù)預(yù)測結(jié)果將屬于不同主題的所述基本預(yù)測單元分別 劃分到對應(yīng)的詞義選項(xiàng)。
29.根據(jù)權(quán)利要求觀所述的開放式知識(shí)共享平臺(tái),其特征在于,所述詞義選項(xiàng)劃分模 塊根據(jù)所述一級目錄中的目錄信息進(jìn)行預(yù)測。
30.根據(jù)權(quán)利要求22所述的開放式知識(shí)共享平臺(tái),其特征在于,所述詞義選項(xiàng)劃分模 塊進(jìn)一步包括目錄信息獲取模塊,獲取所述詞條的目錄信息; 目錄特征提取模塊,根據(jù)所述目錄信息提取目錄特征; 機(jī)器模型獲取模塊,獲取含目錄特征關(guān)聯(lián)度關(guān)系的機(jī)器模型; 關(guān)聯(lián)度計(jì)算模塊,根據(jù)所提取的所述目錄特征,應(yīng)用所述機(jī)器模型對前后相鄰的所述 目錄信息的所述目錄特征進(jìn)行關(guān)聯(lián)度計(jì)算,以及標(biāo)記模塊,根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果對所述目錄信息進(jìn)行標(biāo)記。
31.根據(jù)權(quán)利要求30所述的開放式知識(shí)共享平臺(tái),其特征在于,所述機(jī)器模型獲取模 塊進(jìn)一步包括詞義選項(xiàng)樣本獲取模塊,獲取已分類為不同主題的詞義選項(xiàng)的多義詞條樣本庫; 詞義選項(xiàng)目錄信息獲取模塊,獲取所述詞義選項(xiàng)的目錄信息; 詞義選項(xiàng)目錄特征提取模塊,根據(jù)所述詞義選項(xiàng)的目錄信息提取所述詞義選項(xiàng)的目錄 特征;機(jī)器建模模塊,根據(jù)所述詞義選項(xiàng)的目錄特征進(jìn)行機(jī)器建模,生成包括所述詞義選項(xiàng) 的相鄰的所述目錄信息的所述目錄特征的關(guān)聯(lián)度關(guān)系的機(jī)器模型。
32.根據(jù)權(quán)利要求31所述的開放式知識(shí)共享平臺(tái),其特征在于,所述詞義選項(xiàng)的相鄰 的所述目錄信息的所述目錄特征的關(guān)聯(lián)度關(guān)系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬 性、相同詞匯所占目錄信息的比例、關(guān)聯(lián)詞匯的數(shù)量、關(guān)聯(lián)詞匯的詞匯屬性、關(guān)聯(lián)詞匯所占 目錄信息的比例之一或其組合。
33.根據(jù)權(quán)利要求30所述的開放式知識(shí)共享平臺(tái),其特征在于,所述關(guān)聯(lián)度計(jì)算模塊 進(jìn)行關(guān)聯(lián)度計(jì)算的方法包括計(jì)算相鄰的所述目錄信息的所述目錄特征中相同詞匯的數(shù)量。
34.根據(jù)權(quán)利要求33所述的開放式知識(shí)共享平臺(tái),其特征在于,所述關(guān)聯(lián)度計(jì)算模塊 進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括判斷所述相同詞匯的詞匯屬性。
35.根據(jù)權(quán)利要求33所述的開放式知識(shí)共享平臺(tái),其特征在于,所述關(guān)聯(lián)度計(jì)算模塊 進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括計(jì)算所述相同詞匯所占目錄信息的比例。
36.根據(jù)權(quán)利要求30所述的開放式知識(shí)共享平臺(tái),其特征在于,所述關(guān)聯(lián)度計(jì)算模塊 進(jìn)行關(guān)聯(lián)度計(jì)算的方法包括計(jì)算相鄰的所述目錄信息的所述目錄特征中關(guān)聯(lián)詞匯的數(shù)量。
37.根據(jù)權(quán)利要求36所述的開放式知識(shí)共享平臺(tái),其特征在于,所述關(guān)聯(lián)度計(jì)算模塊 進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括判斷所述關(guān)聯(lián)詞匯的詞匯屬性。
38.根據(jù)權(quán)利要求36所述的開放式知識(shí)共享平臺(tái),其特征在于,所述關(guān)聯(lián)度計(jì)算模塊 進(jìn)行關(guān)聯(lián)度計(jì)算的方法還包括計(jì)算所述關(guān)聯(lián)詞匯所占目錄信息的比例。
39.根據(jù)權(quán)利要求30所述的開放式知識(shí)共享平臺(tái),其特征在于,所述標(biāo)記模塊進(jìn)一步 包括關(guān)聯(lián)度分類模塊,根據(jù)關(guān)聯(lián)度計(jì)算結(jié)果將前后相鄰的所述目錄信息劃分為相關(guān)和無關(guān);第一標(biāo)記模塊,將起始目錄以及與在前目錄信息相關(guān)的所述目錄信息標(biāo)記為第一標(biāo)記;第二標(biāo)記模塊,將與在前目錄信息無關(guān)的所述目錄信息標(biāo)記為第二標(biāo)記。
全文摘要
本發(fā)明提供了一種開放式知識(shí)共享平臺(tái)及其詞條處理方法。該詞條處理方法包括獲取詞條及詞條內(nèi)容;判斷詞條是否為涉及不同主題的多義詞;若詞條為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi)容分別劃分到對應(yīng)的詞義選項(xiàng)下。通過上述所提供的技術(shù)方案,本發(fā)明提供了一種開放式知識(shí)共享平臺(tái)及其詞條處理方法,可將涉及不同主題的詞條內(nèi)容劃分到不同詞義選項(xiàng)下,使得開放式知識(shí)共享平臺(tái)內(nèi)容的粒度更細(xì),更便于對同名不同主題的內(nèi)容進(jìn)行編輯完善和有針對性的引入擴(kuò)展內(nèi)容,從而提升用戶的瀏覽體驗(yàn)。
文檔編號(hào)G06F17/30GK102063497SQ20101061967
公開日2011年5月18日 申請日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者嚴(yán)冰, 喬嶠, 唐益龍, 李永強(qiáng), 來瑾穎, 梁東杰, 耿磊, 鄧亮, 陳浩然, 韋晨曦 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
济源市| 江山市| 哈巴河县| 博客| 安达市| 从化市| 大同市| 巴楚县| 新野县| 南开区| 黎平县| 兖州市| 江阴市| 高碑店市| 志丹县| 峨眉山市| 汝南县| 新河县| 鹤山市| 本溪市| 红安县| 仙游县| 贵溪市| 昌吉市| 洛南县| 秦安县| 瓦房店市| 芜湖市| 黔东| 武定县| 襄城县| 隆林| 宣城市| 来宾市| 青海省| 越西县| 商都县| 旺苍县| 项城市| 荆门市| 霞浦县|