一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法和一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理裝置。
【背景技術(shù)】
[0002]問(wèn)答平臺(tái)為用戶(hù)提供的一個(gè)交流平臺(tái),用戶(hù)可以在問(wèn)答平臺(tái)接受專(zhuān)家和其他網(wǎng)民等用戶(hù)的幫助,同時(shí)也盡力給其他用戶(hù)提供有效的幫助。問(wèn)答平臺(tái)的內(nèi)容都是由用戶(hù)產(chǎn)生,經(jīng)過(guò)統(tǒng)計(jì)和挖掘,可以獲得各方面有價(jià)值的信息。
[0003]基于問(wèn)答平臺(tái)挖掘相關(guān)實(shí)體時(shí),通常是抽取問(wèn)答平臺(tái)中對(duì)同一個(gè)話(huà)題的相關(guān)問(wèn)題,然后根據(jù)不同用戶(hù)針對(duì)同一問(wèn)題的回答來(lái)挖掘出相關(guān)的實(shí)體信息。例如,有關(guān)電動(dòng)車(chē)的話(huà)題,對(duì)于問(wèn)答平臺(tái)中的問(wèn)題1“買(mǎi)什么牌子的電動(dòng)車(chē)最劃算? ”,用戶(hù)A回答:“愛(ài)瑪最近降價(jià)很多”;用戶(hù)B回答:“我的是雅迪,挺不錯(cuò)”。對(duì)于問(wèn)題2 “什么牌的電動(dòng)車(chē)最省電?”,用戶(hù)A回答:“愛(ài)瑪?shù)暮苜M(fèi)電”;用戶(hù)B回答:“綠源的騎一周基本沒(méi)問(wèn)題?!庇纱丝梢缘弥皭?ài)瑪” “雅迪”和“綠源”都是相關(guān)實(shí)體的關(guān)鍵詞。
[0004]但是,對(duì)于同一個(gè)問(wèn)題,各用戶(hù)的回答可能包含有很多不相關(guān)數(shù)據(jù)或者噪聲,會(huì)導(dǎo)致數(shù)據(jù)挖掘的效率和精度較低。其中一種是由于答案數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)量往往過(guò)大,且不易量化答案的相關(guān)性,而導(dǎo)致產(chǎn)生很多不相關(guān)數(shù)據(jù)的計(jì)算,該計(jì)算并過(guò)程沒(méi)有實(shí)際價(jià)值,進(jìn)而導(dǎo)致數(shù)據(jù)挖掘的效率較低。例如,對(duì)于上述問(wèn)題1,用戶(hù)可能產(chǎn)生的不相關(guān)回答有“電動(dòng)車(chē)?yán)系贸潆姴粚?shí)用”、“騎自行車(chē)的飄過(guò)”等。還有一種是由于問(wèn)題的不準(zhǔn)確而導(dǎo)致回答中包含較多噪聲答案,進(jìn)而導(dǎo)致挖掘的精度下降。例如,對(duì)于上述問(wèn)題2 “買(mǎi)什么牌子的車(chē)最劃算? ”,由于問(wèn)題本身不明確,用戶(hù)可能回答“愛(ài)瑪”、“寶馬”、“雅馬哈”等不同種類(lèi)的車(chē)的品牌,而實(shí)際上,它們分別是電動(dòng)車(chē)、汽車(chē)和摩托車(chē)的品牌,在數(shù)據(jù)挖掘中通過(guò)統(tǒng)計(jì)詞頻等操作后“愛(ài)瑪”、“寶馬”、“雅馬哈”等都會(huì)被算作是相關(guān)實(shí)體,產(chǎn)生混淆的概念,使得數(shù)據(jù)挖掘結(jié)果不準(zhǔn)確,數(shù)據(jù)分析效率往往偏低。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例所要解決的技術(shù)問(wèn)題是提供一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法,以解決數(shù)據(jù)挖掘的效率和精度較低的問(wèn)題。
[0006]相應(yīng)的,本發(fā)明實(shí)施例還提供了一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理裝置,用以保證上述方法的實(shí)現(xiàn)及應(yīng)用。
[0007]為了解決上述問(wèn)題,本發(fā)明公開(kāi)了一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法,包括:對(duì)從問(wèn)答平臺(tái)獲取的各答案數(shù)據(jù)分別進(jìn)行文本分析,確定各答案數(shù)據(jù)的相似度;根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,按照所述相似度分別對(duì)各答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題進(jìn)行聚類(lèi),得到各問(wèn)題簇;分別對(duì)每個(gè)問(wèn)題簇中的各項(xiàng)問(wèn)題進(jìn)行文本分析,提取所述問(wèn)題簇中由各問(wèn)題的關(guān)鍵詞所構(gòu)成的相關(guān)詞對(duì),其中,同一問(wèn)題簇內(nèi)的各關(guān)鍵詞具有相關(guān)性。
[0008]可選的,所述對(duì)從問(wèn)答平臺(tái)獲取的各答案數(shù)據(jù)分別進(jìn)行文本分析,確定各答案數(shù)據(jù)的相似度,包括:對(duì)從問(wèn)答平臺(tái)獲取的屬于同一預(yù)設(shè)類(lèi)別的各答案數(shù)據(jù)進(jìn)行文本特征提取,獲取答案數(shù)據(jù)的特征詞匯;根據(jù)所述特征詞匯計(jì)算各答案數(shù)據(jù)之間的相似度。
[0009]可選的,所述根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,按照所述相似度分別對(duì)各答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題進(jìn)行聚類(lèi),包括:根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,分別查找每個(gè)答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題;按照所述各答案數(shù)據(jù)之間的相似度,對(duì)預(yù)設(shè)類(lèi)別內(nèi)的各項(xiàng)問(wèn)題進(jìn)行聚類(lèi),獲取所述預(yù)設(shè)類(lèi)別下聚類(lèi)得到的各問(wèn)題簇。
[0010]可選的,所述分別對(duì)每個(gè)問(wèn)題簇中的各項(xiàng)問(wèn)題進(jìn)行文本分析,提取所述問(wèn)題簇中由各問(wèn)題的關(guān)鍵詞所構(gòu)成相關(guān)詞對(duì),包括:按照預(yù)設(shè)的實(shí)體詞列表對(duì)同一問(wèn)題簇的各項(xiàng)問(wèn)題進(jìn)行文本匹配,提取與所述實(shí)體詞列表匹配的各關(guān)鍵詞構(gòu)成相關(guān)詞對(duì)。
[0011]可選的,所述提取所述問(wèn)題簇中由各問(wèn)題的關(guān)鍵詞所構(gòu)成的相關(guān)詞對(duì),還包括:統(tǒng)計(jì)問(wèn)題簇中每個(gè)關(guān)鍵詞在問(wèn)題和/或答案數(shù)據(jù)中出現(xiàn)的頻次;采用出現(xiàn)的頻次達(dá)到第一閾值的關(guān)鍵詞構(gòu)成相關(guān)詞集合;記錄各相關(guān)詞集合,以及所述相關(guān)實(shí)體集合內(nèi)每個(gè)關(guān)鍵詞出現(xiàn)的頻次。
[0012]可選的,還包括:從所述相關(guān)詞對(duì)中查找與當(dāng)前瀏覽頁(yè)面中提取的關(guān)鍵詞具有相關(guān)性的相關(guān)詞,并在所述當(dāng)前瀏覽頁(yè)面中推薦所述相關(guān)詞。
[0013]可選的,還包括:提取當(dāng)前瀏覽頁(yè)面中的關(guān)鍵詞,以及所述關(guān)鍵詞在頁(yè)面中的位置權(quán)重;在相關(guān)詞對(duì)中查找所述當(dāng)前瀏覽頁(yè)面中每個(gè)關(guān)鍵詞所在的相關(guān)詞集合;將所述相關(guān)詞集合內(nèi)出現(xiàn)的頻次達(dá)到第二閾值的關(guān)鍵詞作為所述關(guān)鍵詞的相關(guān)詞;按照所述關(guān)鍵詞在頁(yè)面中的位置權(quán)重和所述相關(guān)詞出現(xiàn)的頻次對(duì)所述相關(guān)詞進(jìn)行排序,按照排序結(jié)果在所述當(dāng)前瀏覽頁(yè)面中推薦所述相關(guān)詞。
[0014]可選的,所述對(duì)從問(wèn)答平臺(tái)獲取的各答案數(shù)據(jù)分別進(jìn)行文本分析之前,還包括:從問(wèn)答平臺(tái)中獲取問(wèn)題以及問(wèn)題對(duì)應(yīng)的答案數(shù)據(jù);對(duì)每個(gè)問(wèn)題和對(duì)應(yīng)的答案數(shù)據(jù)的文本進(jìn)行特征提取;依據(jù)提取得到的特征對(duì)所述問(wèn)題和答案數(shù)據(jù)進(jìn)行分類(lèi),將所述問(wèn)題和答案數(shù)據(jù)分別劃分到既定的預(yù)設(shè)類(lèi)別中。
[0015]本發(fā)明實(shí)施例還公開(kāi)了一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理裝置,包括:分析模塊,用于對(duì)從問(wèn)答平臺(tái)獲取的各答案數(shù)據(jù)分別進(jìn)行文本分析,確定各答案數(shù)據(jù)的相似度;聚類(lèi)模塊,用于根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,按照所述相似度分別對(duì)各答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題進(jìn)行聚類(lèi),得到各問(wèn)題簇;生成模塊,用于分別對(duì)每個(gè)問(wèn)題簇中的各項(xiàng)問(wèn)題進(jìn)行文本分析,提取所述問(wèn)題簇中由各問(wèn)題的關(guān)鍵詞所構(gòu)成的相關(guān)詞對(duì),其中同一問(wèn)題族內(nèi)的各關(guān)鍵詞具有相關(guān)性。
[0016]可選的,所述分析模塊,包括:特征提取子模塊,用于對(duì)從問(wèn)答平臺(tái)獲取的屬于同一預(yù)設(shè)類(lèi)別的各答案數(shù)據(jù)進(jìn)行文本特征提取,獲取答案數(shù)據(jù)的特征詞匯;相似度計(jì)算子模塊,用于根據(jù)所述特征詞匯計(jì)算各答案數(shù)據(jù)之間的相似度。
[0017]可選的,所述聚類(lèi)模塊,包括:查找子模塊,用于根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,分別查找每個(gè)答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題;聚類(lèi)子模塊,用于按照所述各答案數(shù)據(jù)之間的相似度,對(duì)預(yù)設(shè)類(lèi)別內(nèi)的各項(xiàng)問(wèn)題進(jìn)行聚類(lèi),獲取所述預(yù)設(shè)類(lèi)別下聚類(lèi)得到的各問(wèn)題簇。
[0018]可選的,所述生成模塊,用于按照預(yù)設(shè)的實(shí)體詞列表對(duì)同一問(wèn)題簇的各項(xiàng)問(wèn)題的文本進(jìn)行匹配,提取與所述實(shí)體詞列表匹配的各關(guān)鍵詞構(gòu)成相關(guān)詞對(duì)。
[0019]可選的,所述生成模塊,還用于統(tǒng)計(jì)問(wèn)題簇中每個(gè)關(guān)鍵詞在問(wèn)題和/或答案數(shù)據(jù)中出現(xiàn)的頻次;采用出現(xiàn)的頻次達(dá)到第一閾值的關(guān)鍵詞構(gòu)成相關(guān)詞集合;記錄各相關(guān)詞集合,以及所述相關(guān)詞集合內(nèi)每個(gè)關(guān)鍵詞出現(xiàn)的頻次。
[0020]可選的,還包括:推薦模塊,用于從所述相關(guān)詞對(duì)中查找與當(dāng)前瀏覽頁(yè)面中提取的關(guān)鍵詞具有相關(guān)性的相關(guān)詞,并在所述當(dāng)前瀏覽頁(yè)面中推薦所述相關(guān)詞。
[0021]可選的,還包括:提取模塊,用于提取當(dāng)前瀏覽頁(yè)面中的實(shí)體詞,以及所述實(shí)體詞在頁(yè)面中的位置權(quán)重;所述推薦模塊,用于在相關(guān)詞對(duì)中查找所述當(dāng)前瀏覽頁(yè)面中每個(gè)關(guān)鍵詞所在的相關(guān)詞集合;將所述相關(guān)詞集合內(nèi)出現(xiàn)的頻次達(dá)到第二閾值的關(guān)鍵詞作為所述關(guān)鍵詞的相關(guān)詞;按照所述關(guān)鍵詞在頁(yè)面中的位置權(quán)重和所述相關(guān)詞出現(xiàn)的頻次對(duì)所述相關(guān)詞進(jìn)行排序,按照排序結(jié)果在所述當(dāng)前瀏覽頁(yè)面中推薦所述相關(guān)詞。
[0022]可選的,還包括:預(yù)處理模塊,用于從問(wèn)答平臺(tái)中獲取問(wèn)題以及問(wèn)題對(duì)應(yīng)的答案數(shù)據(jù);對(duì)每個(gè)問(wèn)題和對(duì)應(yīng)的答案數(shù)據(jù)的文本進(jìn)行特征提??;依據(jù)提取得到的特征對(duì)所述問(wèn)題和答案數(shù)據(jù)進(jìn)行分類(lèi),將所述問(wèn)題和答案數(shù)據(jù)分別劃分到既定的預(yù)設(shè)類(lèi)別中。
[0023]與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
[0024]通過(guò)對(duì)問(wèn)答平臺(tái)的答案數(shù)據(jù)進(jìn)行文本分析確定各答案數(shù)據(jù)的相似度,然后根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,按照相似度分別對(duì)各答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題進(jìn)行聚類(lèi),得到各問(wèn)題簇,再分別從每個(gè)問(wèn)題簇中提取具有相關(guān)性的相關(guān)詞構(gòu)成相關(guān)詞對(duì)。對(duì)由于問(wèn)題不精確而導(dǎo)致答案數(shù)據(jù)中噪聲較大的情況,通過(guò)答案數(shù)據(jù)的相似度分析可以消除答案數(shù)據(jù)中的噪聲,同時(shí)減少了對(duì)答案數(shù)據(jù)中不相關(guān)數(shù)據(jù)的處理,有效地量化了問(wèn)題的相似性,既提高了數(shù)據(jù)的處理效率,又提高了數(shù)據(jù)處理的精度。
【附圖說(shuō)明】
[0025]圖1是本發(fā)明的一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法實(shí)施例的步驟流程圖;
[0026]圖2是本發(fā)明的一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法可選實(shí)施例的步驟流程圖;
[0027]圖3是本發(fā)明實(shí)施例提供的基于該相關(guān)詞進(jìn)行推薦的方法流程圖;
[0028]圖4是本發(fā)明一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理裝置實(shí)施例的結(jié)構(gòu)框圖;
[0029]圖5是本發(fā)明一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理裝置可選實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0030]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
[0031]本發(fā)明實(shí)施例的核心構(gòu)思之一在于,提出一種基于問(wèn)答平臺(tái)的數(shù)據(jù)處理方法,以解決數(shù)據(jù)挖掘的效率和精度較低的問(wèn)題。通過(guò)對(duì)問(wèn)答平臺(tái)的答案數(shù)據(jù)分別進(jìn)行文本分析確定各答案數(shù)據(jù)的相似度,然后根據(jù)所述問(wèn)答平臺(tái)記錄的各項(xiàng)問(wèn)題與答案數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,按照相似度分別對(duì)各答案數(shù)據(jù)對(duì)應(yīng)的問(wèn)題進(jìn)行聚類(lèi),得到各問(wèn)題簇,再分別從每個(gè)問(wèn)題簇中提取具有相關(guān)性的相關(guān)詞構(gòu)成相關(guān)詞對(duì)。對(duì)由于問(wèn)題不精確而導(dǎo)致答案數(shù)據(jù)中噪聲較大的情況,通過(guò)答案數(shù)據(jù)的相似度分析可以消除答案數(shù)據(jù)中的噪聲,同時(shí)減少了對(duì)答案數(shù)據(jù)中不相關(guān)數(shù)據(jù)的處理,有效地量化了問(wèn)題的相似性,既提高了數(shù)