欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法與流程

文檔序號:11199187閱讀:727來源:國知局
一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法與流程
本發(fā)明屬于知識服務(wù)領(lǐng)域,尤其涉及一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法。
背景技術(shù)
:隨著近幾年計(jì)算機(jī)運(yùn)算能力的大幅提升和網(wǎng)絡(luò)急速擴(kuò)張,無論是在開放的互聯(lián)網(wǎng)還是以企業(yè)為范圍的局域網(wǎng)內(nèi),知識資源已十分豐富。隨著知識的不斷增加,設(shè)計(jì)人員花費(fèi)在知識管理系統(tǒng)中的知識查找時(shí)間越來越長,甚至很難查到符合要求的知識,這不利于設(shè)計(jì)知識的共享和重用,也阻礙了設(shè)計(jì)人員設(shè)計(jì)效率和設(shè)計(jì)水平的提高。知識主動推送的方式符合大多數(shù)設(shè)計(jì)企業(yè)的現(xiàn)狀,可以有效針對人員需求,實(shí)現(xiàn)知識的傳遞和推送服務(wù),有效解決知識使用中的知識泛濫、知識迷航等問題,在企業(yè)內(nèi)部和外部達(dá)到知識的共享和再創(chuàng)造。另一方面,主動推送的方式通過加快知識獲取速度、提高知識獲取準(zhǔn)確率,加快企業(yè)內(nèi)知識的有效傳播,為效率和質(zhì)量的提高乃至企業(yè)市場競爭力的提升打下良好基礎(chǔ)。目前,知識推送系統(tǒng)在電子商務(wù)領(lǐng)域已經(jīng)得到了廣泛的應(yīng)用,但其在產(chǎn)品設(shè)計(jì)領(lǐng)域的發(fā)展仍未成熟。描述用戶的知識需求模型是發(fā)展面向知識推送系統(tǒng)的關(guān)鍵技術(shù)。然而,現(xiàn)有的模型構(gòu)建技術(shù)主要利用關(guān)鍵詞及其權(quán)重構(gòu)建用戶的知識需求模型,不能體現(xiàn)出知識內(nèi)容的語義信息,本文提出一種基于功能詞匯語義的高斯混合模型用戶知識需求模型構(gòu)建方法,以提高對用戶知識需求興趣擬合的準(zhǔn)確度。技術(shù)實(shí)現(xiàn)要素:為解決上述問題,本發(fā)明提供一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法,本發(fā)明基于功能詞匯的語義信息,能夠快速準(zhǔn)確的獲取用戶知識需求分布,并為面向的知識推送系統(tǒng)的發(fā)展奠定基礎(chǔ)。一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法,包括以下步驟:步驟1:在已有知識庫中提取功能詞匯,并生成功能詞匯集;步驟2:將功能詞匯集中的各個(gè)功能詞匯轉(zhuǎn)化為向量,具體方法為:基于知識庫訓(xùn)練word2vec的skip-gram模型,并根據(jù)該模型生成功能詞匯的向量,其中一個(gè)功能詞匯對應(yīng)一個(gè)向量,且向量間接體現(xiàn)功能詞匯的語義信息,功能詞匯對應(yīng)的向量的相似度隨著功能詞匯語義信息的相似度增加而增大;步驟3:針對用戶瀏覽過的知識條目,統(tǒng)計(jì)所有知識條目中的功能詞匯的詞頻,然后根據(jù)詞頻計(jì)算各個(gè)功能詞匯對應(yīng)的tf-idf權(quán)重;根據(jù)功能詞匯的tf-idf權(quán)重對功能詞匯進(jìn)行排序,選取m個(gè)tf-idf權(quán)重最大的功能詞匯,其中功能詞匯為向量的表示形式,m為設(shè)定的數(shù)目;步驟4:基于步驟3選取出的m個(gè)功能詞匯,利用em算法求解高斯混合模型參數(shù),得到描述功能詞匯分布的高斯混合模型;步驟5:向步驟4獲得的高斯混合模型輸入知識庫中除步驟3中m個(gè)以外的功能詞匯的向量,得到用戶選擇功能詞匯的概率,然后根據(jù)該概率計(jì)算用戶對知識庫中所有知識條目的需求概率,最終得到用戶對于知識條目的知識需求模型;步驟6:將步驟5中需求概率最高的設(shè)定數(shù)目的h個(gè)知識條目推送給用戶并生成知識條目集,其中h為設(shè)定的數(shù)目;基于用戶瀏覽的知識條目,實(shí)時(shí)更新用戶瀏覽過的知識條目集并更新步驟3中m個(gè)tf-idf權(quán)重最大的功能詞匯,然后基于更新過的m個(gè)tf-idf權(quán)重最大的功能詞匯,通過步驟4和步驟5重新計(jì)算用戶對于知識條目的知識需求模型。一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法,步驟1所述功能詞匯集的生成方法具體包括以下步驟:步驟11:采用中文分詞系統(tǒng),結(jié)合領(lǐng)域詞典對知識庫進(jìn)行分詞;步驟12:根據(jù)停用詞表,對分詞過后的知識庫中的無用的停用詞進(jìn)行過濾;步驟13:詞性標(biāo)注,保留過濾掉無用的停用詞后的知識庫中的功能詞匯,舍棄非功能詞匯,得到語料集;步驟14:詞頻統(tǒng)計(jì),統(tǒng)計(jì)語料集中所有功能詞匯出現(xiàn)的頻率;步驟15:去除高頻率低區(qū)分度的功能詞匯;步驟16:整理功能詞匯,形成功能詞匯集。一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法,步驟1所述功能詞匯集的生成方法為:直接選取專家已經(jīng)整理完成的功能詞匯。一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法,步驟4所述的利用em算法求解高斯混合模型參數(shù)具體步驟為:步驟41:初始化高斯混合模型參數(shù),其中高斯混合模型具體為:其中,xt表示功能詞匯對應(yīng)的向量,t=1,2,...,m,g(xt)是用戶選擇功能詞匯對應(yīng)的向量xt的概率,αk是第k個(gè)高斯分布的權(quán)重,μk,σk分別是第k個(gè)高斯分布的均值和方差,n(xt|μk,σk)為向量xt符合均值μk和方差σk的正態(tài)分布,k至少為3,高斯分布的3個(gè)參數(shù)初始值分別設(shè)定為步驟42:采用em算法優(yōu)化高斯混合模型的參數(shù),具體的:e步:將高斯分布的3個(gè)初始參數(shù)以及代入公式(2),分別作為αk、μk以及σk的初始值,計(jì)算向量xt由第k個(gè)高斯分布生成的概率其中,αj是第j個(gè)高斯分布的權(quán)重,μj,σj分別是第j個(gè)高斯分布的均值和方差;m步:基于e步計(jì)算出的概率運(yùn)用最大似然法估計(jì)高斯混合模型的參數(shù)αk、μk以及σk:步驟43:將m步計(jì)算的結(jié)果αk、μk以及σk代入公式(1),計(jì)算向量的概率g(xt),并判斷概率g(xt)與前一迭代結(jié)果的差值是否大于設(shè)定值ε,其中:如果用戶選擇任意向量的概率g(xt)與前一迭代結(jié)果的差值不大于設(shè)定值ε,則停止迭代,且αk、μk以及σk為最終的高斯混合模型參數(shù);如果用戶選擇任意向量的概率g(xt)與前一迭代結(jié)果的差值大于設(shè)定值ε,則將m步的計(jì)算結(jié)果αk、μk以及σk取代初始參數(shù)以及再次代入公式(2),重新計(jì)算向量xt由第k個(gè)高斯分布生成的概率再根據(jù)新計(jì)算的概率代入m步的公式(3)、公式(4)以及公式(5),將得到的新的高斯分布的參數(shù)以及代入公式(1),計(jì)算向量的概率g(xt)*,并判斷概率g(xt)與前一迭代結(jié)果的差值是否大于設(shè)定值ε;以此類推,直到用戶選擇任意向量的概率與前一迭代結(jié)果的差值不大于設(shè)定值ε,則停止迭代,得到最終的高斯混合模型參數(shù)。一種基于高斯混合模型的用戶知識需求模型構(gòu)建方法,步驟5所述的計(jì)算用戶選擇知識條目的概率具體步驟如下:知識條目di包含的功能詞匯對應(yīng)的向量為xm,其中i=1,2,...,q,m=1,2,...,p,每個(gè)功能詞匯在知識條目di中出現(xiàn)的詞頻為tfi1,tfi2,...tfim...,tfip,對詞頻進(jìn)行歸一化處理之后,得到每個(gè)功能詞匯在知識條目di中出現(xiàn)的的頻率為wi1,wi2,...wim...,wip,其中歸一化計(jì)算公式為:則用戶選擇知識條目di的概率g(di)為:其中公式(7)為用戶對于知識條目的知識需求模型。有益效果:本發(fā)明首次利用高斯混合模型來構(gòu)建用戶知識需求的模型,本發(fā)明首先基于知識庫訓(xùn)練word2vec的skip-gram模型,考慮功能詞匯的語義信息,生成功能詞匯的高維向量,然后利用選取的知識語料集訓(xùn)練高斯混合模型,運(yùn)用多個(gè)高斯分布描述用戶對于功能詞匯的知識需求概率分布,運(yùn)用em方法優(yōu)化高斯混合模型的參數(shù);最后建立詞匯與條目之間的映射關(guān)系,獲取用戶對于知識條目的需求模型,以此為基礎(chǔ)計(jì)算知識庫中用戶最有可能感興趣的知識條目并將其推送給用戶;現(xiàn)有技術(shù)主要以知識條目評分等外部屬性或者知識條目關(guān)鍵詞及其權(quán)重為基礎(chǔ)構(gòu)建用戶需求模型,而本發(fā)明充分考慮功能詞匯的語義信息,構(gòu)建詞匯的高維向量表示式,并以此為基礎(chǔ)利用高斯混合模型擬合用戶對功能詞匯和知識條目的需求,本發(fā)明構(gòu)建的高斯混合模型能更貼切的擬合用戶知識需求模型,并提升知識推送準(zhǔn)確率。附圖說明圖1為本發(fā)明基于高斯混合模型的用戶知識需求模型預(yù)測方法示意圖;圖2為本發(fā)明具體實(shí)施方式中知識需求模型參數(shù)求解流程;圖3為本發(fā)明具體實(shí)施方式中功能詞匯與知識條目映射關(guān)系示意圖。具體實(shí)施方式下面結(jié)合附圖并舉實(shí)施例,對本發(fā)明進(jìn)行詳細(xì)敘述。本發(fā)明提出了一種基于高斯混合模型的用戶知識需求模型的構(gòu)建方法,示意圖如圖1所示。本發(fā)明構(gòu)建的需求模型主要考慮用戶對功能詞匯和知識條目的需求。本發(fā)明可以實(shí)現(xiàn):1)已知用戶瀏覽的知識條目推理出用戶對于功能詞匯的知識需求。由用戶瀏覽過的知識條目提取出代表用戶知識需求的功能詞匯,并訓(xùn)練用戶對于功能詞匯的用戶知識需求模型。功能詞匯的表示為向量形式,反應(yīng)了詞匯的語義信息。2)已知用戶對于功能詞匯的知識需求模型推理基于知識條目的知識需求模型,其具體關(guān)系如圖3所示。利用高斯混合模型表示用戶對于功能詞匯的知識需求,具體包括以下步驟:步驟1:對已有的知識庫進(jìn)行功能詞匯提取,生成功能詞匯集。所述功能詞匯集的生成方法包括兩種。第一種所述功能詞匯集的生成方法:利用自然語言處理技術(shù)處理知識庫提取功能詞匯,具體包括以下步驟:步驟1.1:采用中文分詞系統(tǒng),結(jié)合領(lǐng)域詞典對知識庫進(jìn)行分詞;步驟1.2:根據(jù)停用詞表,對分詞過后的知識庫中的無用的停用詞進(jìn)行過濾;步驟1.3:詞性標(biāo)注,保留過濾掉無用的停用詞后的知識庫中的動詞詞匯,即功能詞匯,舍棄非動詞詞匯,即非功能詞匯;步驟1.4:詞頻統(tǒng)計(jì),統(tǒng)計(jì)語料集中所有功能詞匯出現(xiàn)的頻率;步驟1.5:去除高頻率低區(qū)分度的功能詞匯;步驟1.6:整理功能詞匯,形成功能詞匯集。第二種功能詞匯集的生成方法:直接選取專家整理出的功能詞匯/特征詞匯作為功能詞匯集。步驟2:將功能詞匯轉(zhuǎn)化為維數(shù)至少為100的高維向量形式;具體步驟為:基于知識庫訓(xùn)練word2vec的skip-gram模型,并根據(jù)該模型生成功能詞匯的高維向量,其中一個(gè)功能詞匯對應(yīng)一個(gè)高維向量,高維向量間接體現(xiàn)功能詞匯的語義信息,且功能詞匯對應(yīng)的高維向量的相似度隨著功能詞匯語義信息的相似度增加而增大;步驟3:針對用戶瀏覽過的知識條目,統(tǒng)計(jì)所有知識條目中的功能詞匯的詞頻,然后根據(jù)詞頻計(jì)算各個(gè)功能詞匯對應(yīng)的tf-idf權(quán)重;根據(jù)功能詞匯的tf-idf權(quán)重對功能詞匯進(jìn)行排序,選取m個(gè)tf-idf權(quán)重最大的功能詞匯,其中功能詞匯為高維向量的表示形式,其中m至少為1;具體步驟包括:步驟31:統(tǒng)計(jì)所有知識條目中出現(xiàn)的功能詞匯詞頻,如表1所示:表1x1x2…xt…xmd1tf11tf12…tf1t…tf1md2tf21tf22…tf2t…tf2m…………………ditfi1tfi2…tfit…tfim…………………dqtfq1tfq2…tfqt…tfqm其中,tfit為詞頻,即知識條目di中詞語xt出現(xiàn)的次數(shù);步驟32:基于統(tǒng)計(jì)的詞頻,計(jì)算所有詞語對應(yīng)的tf-idf權(quán)重,計(jì)算公式為:其中:q:所有知識條目的總數(shù);df(xt):知識條目頻率,即包含詞匯xt的知識條目總數(shù);tfidf(xt):詞語xt的tf-idf權(quán)重;步驟33:根據(jù)tf-idf權(quán)重大小對所有的功能詞匯進(jìn)行排序,選取前m個(gè)tf-idf權(quán)重較大的功能詞匯。步驟4:將統(tǒng)計(jì)出的m個(gè)功能詞匯作為用戶最感興趣的詞匯,即用戶選取此m個(gè)功能詞匯的概率最大?;趍個(gè)功能詞匯的高維向量表示式,基于統(tǒng)計(jì)出的m個(gè)功能詞匯的高維向量集,利用em算法求解高斯混合模型參數(shù),構(gòu)建用戶對于功能詞匯的知識需求模型,得到描述功能詞匯分布的高斯混合模型;流程如圖2所示,具體步驟如下:步驟41:高斯混合模型參數(shù)初始化。使用高斯混合模型描述功能詞匯的分布,其中高斯混合模型表示為:其中,其中,xt表示功能詞匯對應(yīng)的高維向量,t=1,2,...,m,g(xt)是用戶選擇功能詞匯對應(yīng)的高維向量xt的概率,αk是第k個(gè)高斯分布的權(quán)重,μk,σk分別是第k個(gè)高斯分布的均值和方差,n(xt|μk,σk)為高維向量xt符合均值μk和方差σk的正態(tài)分布,k至少為3,初始化高斯分布的參數(shù)共3k個(gè)變量;步驟42:根據(jù)高斯分布的初始化參數(shù)采用em算法優(yōu)化求出高斯混合模型的參數(shù),具體的:e步:將高斯分布的3個(gè)初始參數(shù)以及代入公式(2),分別作為αk、μk以及σk的初始值,由公式(2)計(jì)算高維向量xt由第k個(gè)高斯分布生成的概率其中,αj是第j個(gè)高斯分布的權(quán)重,μj,σj分別是第j個(gè)高斯分布的均值和方差;m步:基于計(jì)算出的運(yùn)用最大似然法估計(jì)高斯混合模型的參數(shù):步驟43:將m步計(jì)算的結(jié)果αk、μk以及σk代入公式(1),計(jì)算高維向量的概率g(xt),并判斷概率g(xt)與前一迭代結(jié)果的差值是否大于設(shè)定值ε,其中:如果用戶選擇任意高維向量的概率g(xt)與前一迭代結(jié)果的差值不大于設(shè)定值ε,則停止迭代,且αk、μk以及σk為最終的高斯混合模型參數(shù);如果用戶選擇任意高維向量的概率g(xt)與前一迭代結(jié)果的差值大于設(shè)定值ε,則將m步的計(jì)算結(jié)果αk、μk以及σk取代初始參數(shù)以及再次代入公式(2),重新計(jì)算高維向量xt由第k個(gè)高斯分布生成的概率再根據(jù)新計(jì)算的概率代入m步的公式(3)、公式(4)以及公式(5),將得到新的高斯分布的參數(shù)以及代入公式(1),計(jì)算高維向量的概率g(xt)*,并判斷概率g(xt)與前一迭代結(jié)果的差值是否大于設(shè)定值ε;以此類推,直到用戶選擇任意向量的概率與前一迭代結(jié)果的差值不大于設(shè)定值ε,則停止迭代,得到最終的高斯混合模型參數(shù)。將參數(shù)帶入公式(1),用戶對于功能詞匯的知識需求模型構(gòu)建完成,輸入知識庫中其他功能詞匯的高維向量表示式,輸出為用戶選擇相應(yīng)功能詞匯的概率。步驟5:向高斯混合模型輸入知識庫中其他功能詞匯的高維向量表示式,得到用戶選擇的該功能詞匯的概率;基于功能詞匯知識需求模型和用戶選擇的相應(yīng)功能詞匯的概率,計(jì)算用戶對知識庫中所有知識條目的需求概率,構(gòu)建基于知識條目的用戶知識需求模型,圖3為二者映射關(guān)系示意圖。具體計(jì)算方法為:條目di包含功能詞匯為xm(此處為高維向量形式),其中i=1,2,...,q,m=1,2,...,p,每個(gè)功能詞匯在條目di中出現(xiàn)的詞頻為tfi1,tfi2,...tfim...,tfip(如表1),歸一化處理之后得到每個(gè)功能詞匯的頻率為wi1,wi2,...wim...,wip,其中歸一化計(jì)算公式為:得到每個(gè)知識條目包含功能詞匯的頻率,如表2所示.表2x1x2…xm…xpd1w11w12…w1m…w1pd2w21w22…w2m…w2p…………………diwi1wi2…wim…wip…………………dqwq1wq2…wqm…wqp每個(gè)功能詞匯的頻率衡量了詞對條目的重要程度,即權(quán)重。因此用戶選擇條目di的概率為:即為用戶對于知識條目的知識需求模型。其中g(shù)(xm)為用戶選擇功能詞匯xm的概率,wim為知識條目di中功能詞匯xm出現(xiàn)的頻率;步驟6:計(jì)算用戶對知識庫中所有條目的需求概率,將需求概率高的h個(gè)條目推送給用戶,其中h至少為1;隨著用戶行為的累積,基于用戶瀏覽的條目,實(shí)時(shí)更新用戶瀏覽過的知識條目集并更新步驟3中m個(gè)tf-idf權(quán)重最大的功能詞匯,并基于更新過的m詞匯重新計(jì)算用戶對于功能詞匯以及知識條目的知識需求模型。當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
滁州市| 思茅市| 海伦市| 盱眙县| 孟连| 吴川市| 鲁甸县| 海宁市| 湖南省| 获嘉县| 简阳市| 南充市| 宜川县| 博白县| 方城县| 牙克石市| 安平县| 鲜城| 曲松县| 林口县| 阿勒泰市| 青铜峡市| 德兴市| 平度市| 嘉峪关市| 蒙阴县| 措勤县| 四子王旗| 朔州市| 万荣县| 呼图壁县| 财经| 罗江县| 调兵山市| 乃东县| 冕宁县| 玛多县| 策勒县| 华安县| 徐水县| 瓮安县|