一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng),所述方法包括:構(gòu)建廣告需求本體;抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁類別,抽取關(guān)鍵詞與關(guān)鍵句;根據(jù)語言學(xué)規(guī)律,對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,對帶有商業(yè)性質(zhì)并帶有需求、情感與態(tài)度的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識;通過產(chǎn)生式系統(tǒng)對廣告標(biāo)識區(qū)域嵌入精準(zhǔn)廣告,當(dāng)用戶在瀏覽這類網(wǎng)頁時,在特定區(qū)域展現(xiàn)廣告。本發(fā)明方法與系統(tǒng)能夠在網(wǎng)頁文本內(nèi)容中發(fā)布與用戶閱讀內(nèi)容上下文需求相關(guān)的廣告,分析出網(wǎng)站中哪個頁面適合投放內(nèi)文廣告,將廣告放置在頁面中的哪些區(qū)域和廣告詞上,解決了現(xiàn)有的技術(shù)難題。
【專利說明】一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種廣告發(fā)布方法與系統(tǒng),尤其是一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng)。屬于廣告【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]內(nèi)文廣告是通過計算機(jī)識別文章內(nèi)部關(guān)鍵詞和文章特性,并根據(jù)這些數(shù)據(jù)在鼠標(biāo)滑過特定區(qū)域或關(guān)鍵詞的時候顯示出對應(yīng)的精準(zhǔn)廣告,匹配好的關(guān)鍵詞將被標(biāo)識(如用下劃線標(biāo)出),它準(zhǔn)確地將廣告、內(nèi)容、瀏覽者三者緊密結(jié)合在一起,是一種嶄新的、溫和的、完全由消費(fèi)者觸發(fā)的廣告形式。
[0003]傳統(tǒng)的搜索引擎關(guān)鍵詞廣告是將用戶搜索過的商品信息存入cookies中,當(dāng)用戶瀏覽其他網(wǎng)站時,搜索引擎公司分析用戶cookies,并假設(shè)用戶搜索過的信息為用戶需要的信息?;谠摷僭O(shè)來判斷用戶可能對什么商品感興趣,并在其他網(wǎng)站的廣告框內(nèi)發(fā)布用戶搜索過的類似商品的廣告,以此達(dá)到精準(zhǔn)廣告的目的。當(dāng)前世界級的大型搜索引擎公司已經(jīng)發(fā)展成熟,商業(yè)競爭激烈。應(yīng)用該原理重新開發(fā)搜索引擎與之競爭,困難重重。與此不同的是,內(nèi)文廣告是一種與搜索引擎廣告不同的新型模式。內(nèi)文廣告不收集用戶信息。其使廣告達(dá)到精準(zhǔn)的基本假設(shè)是:假設(shè)用戶之所以愿意閱讀網(wǎng)上的文章或信息,表明該用戶對該主題感興趣。內(nèi)文廣告的目標(biāo)是在文章內(nèi)的最適合區(qū)域發(fā)布與用戶閱讀內(nèi)容上下文相關(guān)的廣告。因?yàn)槲恼聝?nèi)容間接映射了用戶興趣。以此達(dá)到精準(zhǔn)的目的。
[0004]內(nèi)文廣告是一種廣告的新模式,具有很多優(yōu)點(diǎn),包括受眾質(zhì)量高,規(guī)模大,用戶主動點(diǎn)擊,且精神集中所以廣告記憶效果好。廣告無需廣告框,用戶體驗(yàn)好,在網(wǎng)頁主體內(nèi)容頁內(nèi),可在幾乎所有文章中加載。放置自由、表現(xiàn)多樣,不占用網(wǎng)頁空間,當(dāng)鼠標(biāo)移入時,可以以文本鏈接、Tag標(biāo)簽、氣泡按鈕、圖片、視頻、Flash等各種方式表現(xiàn)廣告,投放效果好,可統(tǒng)計分析,廣告定向精準(zhǔn),數(shù)量巨大,可覆蓋上萬家網(wǎng)站,且統(tǒng)計方便,用戶的點(diǎn)擊可被跟蹤和分析。
[0005]內(nèi)文廣告解決了很多現(xiàn)階段廣告的不足,而且適應(yīng)現(xiàn)階段廣告技術(shù)的發(fā)展。尤其是移動互聯(lián)網(wǎng)的興起,使移動廣告成為趨勢,而手機(jī)屏幕小的特點(diǎn)使廣告用戶體驗(yàn)差,內(nèi)文廣告可以把廣告打入文字內(nèi),解決屏幕小時打廣告導(dǎo)致用戶體驗(yàn)差的問題。當(dāng)前的很多基于搜索關(guān)鍵詞的廣告,通過分析用戶cookies,雖能精確匹配,但涉及隱私,隨著法律的健全和發(fā)展,可能不能長久,可挖掘的用戶隱私信息也會越來越少?;谏疃日Z義挖掘的內(nèi)文廣告系統(tǒng)不是依靠挖掘用戶私密信息,而是挖掘網(wǎng)頁本身。把用戶閱讀文章作為用戶對特定類型文章喜好的一種投票。所以可以間接的通過文章內(nèi)容折射用戶喜好。
[0006]內(nèi)文廣告雖有很多的優(yōu)勢,但是國內(nèi)在面向中文的內(nèi)文廣告方面卻存在很大缺陷。尤其是當(dāng)前還無法根據(jù)語義精確分析頁面內(nèi)容,所以當(dāng)前的技術(shù)是把所有與廣告商相關(guān)的詞語都發(fā)布成為廣告,這個缺陷直接導(dǎo)致了內(nèi)文廣告不但無法發(fā)揮上述專長,而且使網(wǎng)頁布滿劣質(zhì)的廣告,極大降低了用戶體驗(yàn)。這也是內(nèi)文廣告當(dāng)前未能大規(guī)模發(fā)展起來的直接原因;在內(nèi)文廣告系統(tǒng)中面臨的最大技術(shù)瓶頸是,無法做到廣告發(fā)布與文章內(nèi)容上下文相關(guān)、廣告頁面和關(guān)鍵詞的搜索分析難度大,因?yàn)閲鴥?nèi)外關(guān)于商品需求本體的構(gòu)建還不成熟,語義挖掘的深度不足,當(dāng)前學(xué)術(shù)界研究的關(guān)鍵詞提取大部分針對如何分析文章的詞頻和結(jié)構(gòu),目標(biāo)是概括文章內(nèi)容,這與廣告本身的關(guān)鍵詞提取根本目標(biāo)有很大的不同,當(dāng)前的內(nèi)文廣告發(fā)布系統(tǒng)都還無法把帶有商業(yè)性質(zhì)并與上下文語義相關(guān)的關(guān)鍵詞準(zhǔn)確的標(biāo)識為廣告詞。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)的缺陷,提供一種可以實(shí)現(xiàn)內(nèi)文廣告的精確分析與發(fā)布的基于深度語義挖掘的內(nèi)文廣告發(fā)布方法。
[0008]本發(fā)明的另一目的在于提供一種基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng)。
[0009]本發(fā)明的目的可以通過采取如下技術(shù)方案達(dá)到:
[0010]一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于所述方法包括:
[0011]構(gòu)建廣告需求本體;
[0012]抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句;
[0013]對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)需求句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識;
[0014]根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,當(dāng)用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告。
[0015]優(yōu)選的,所述構(gòu)建廣告需求本體,具體包括:
[0016]從當(dāng)前互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的知識組織結(jié)構(gòu)上獲取大致的各類商品,進(jìn)行詞典擴(kuò)建,構(gòu)建商品詞庫;
[0017]根據(jù)互信息算法,計算兩個商品詞同時出現(xiàn)的概率,構(gòu)建商品關(guān)聯(lián)度集合;
[0018]根據(jù)公開情感詞典,獲取與商品評價和需求相關(guān)的情感詞,構(gòu)建情感需求詞庫;
[0019]根據(jù)商品詞庫、情感詞庫和關(guān)聯(lián)度集合,構(gòu)建商品廣告推薦的規(guī)則庫。
[0020]優(yōu)選的,所述抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句,具體包括:
[0021]抓取各類內(nèi)容的網(wǎng)頁,采用信息抽取的方法,獲得剔除了導(dǎo)航和網(wǎng)頁廣告的正文文本;
[0022]根據(jù)商品詞庫和情感需求詞庫,采用Aho-Corasick算法對網(wǎng)頁進(jìn)行關(guān)鍵詞匹配,對完全不包含商品和需求相關(guān)詞語的網(wǎng)頁進(jìn)行剔除;
[0023]對文本進(jìn)行分詞和詞性標(biāo)注,采用貝葉斯算法或支持向量機(jī)算法對網(wǎng)頁內(nèi)容進(jìn)行文本分類,判斷網(wǎng)頁所屬類別,進(jìn)一步剔除與商業(yè)信息無關(guān)的文本類型;
[0024]對文本內(nèi)容進(jìn)行Tcxtrank算法分析,獲取文本關(guān)鍵詞與關(guān)鍵句。
[0025]優(yōu)選的,所述對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)情感句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識,具體包括:
[0026]根據(jù)國際學(xué)術(shù)會議CoNLL規(guī)定的分析格式,對文本進(jìn)行語義分析,分析出每個詞語的詞性、依存句法關(guān)系和角色語義,根據(jù)句子類型,分析句子語法特點(diǎn)和語義學(xué)模式,匹配相應(yīng)的需求語法規(guī)則庫,根據(jù)文本內(nèi)容上下文提到的事件、商品、評論、困難與陳述,分析上下文需求關(guān)系,獲得文本中的需求句;需求句的范圍包括但不限于直接要求模式、詢問原因模式、告知理由模式、表達(dá)困難模式、詢問能力模式、緩和態(tài)度模式、表達(dá)需求模式、表達(dá)情感模式、評價態(tài)度模式等等各種句式;
[0027]抽取角色語義中的受事者部分,根據(jù)語言學(xué)語法規(guī)律,搭配語法分析和詞性,抽取出句子中的相關(guān)商品詞、需求詞或關(guān)鍵詞,對相關(guān)詞語進(jìn)行廣告詞標(biāo)識。
[0028]優(yōu)選的,所述根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,使用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告,具體包括:
[0029]根據(jù)廣告商投放廣告情況和出價情況,以及商品關(guān)聯(lián)度排序情況,通過產(chǎn)生式規(guī)貝U,在已經(jīng)確定的廣告詞上面發(fā)布精準(zhǔn)廣告;網(wǎng)站擁有者通過嵌入相應(yīng)的javascript代碼到其網(wǎng)站內(nèi),就可以實(shí)現(xiàn)對相關(guān)廣告詞進(jìn)行自動標(biāo)識,
[0030]當(dāng)用戶瀏覽的客戶端為電腦終端時,在用戶將鼠標(biāo)移入或者拖動瀏覽到與文本內(nèi)容上下文相關(guān)的帶有商品需求、詢問、祈使、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、表達(dá)情感態(tài)度及評價的相關(guān)句子和詞語時顯示廣告;當(dāng)用戶瀏覽的客戶端為手機(jī)終端時,在用戶瀏覽到上述需求相關(guān)句子時,對相應(yīng)廣告詞或商品區(qū)域進(jìn)行凸顯,在用戶點(diǎn)擊廣告詞或商品區(qū)域后顯示廣告。
[0031]優(yōu)選的,所述方法還包括:
[0032]根據(jù)用戶點(diǎn)擊情況,進(jìn)行機(jī)器學(xué)習(xí)和點(diǎn)擊反饋,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫。
[0033]優(yōu)選的,所述根據(jù)用戶點(diǎn)擊情況,進(jìn)行機(jī)器學(xué)習(xí)和點(diǎn)擊反饋,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,具體如下:
[0034]根據(jù)用戶點(diǎn)擊廣告的情況,作為權(quán)值,對相應(yīng)的廣告詞與廣告商商品之間的關(guān)系進(jìn)行重新優(yōu)化和機(jī)器學(xué)習(xí)訓(xùn)練,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,同時不斷優(yōu)化商品詞庫和情感需求詞庫。
[0035]本發(fā)明的另一目的可以通過采取如下技術(shù)方案達(dá)到:
[0036]一種基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng),其特征在于所述系統(tǒng)包括:
[0037]廣告需求本體構(gòu)建模塊,用于構(gòu)建廣告需求本體;
[0038]關(guān)鍵詞與關(guān)鍵句抽取模塊,用于抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句;
[0039]深度語義挖掘與廣告標(biāo)識模塊,用于對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)情感句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識;
[0040]廣告展現(xiàn)模塊,用于根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,使用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告。
[0041]優(yōu)選的,所述系統(tǒng)還包括:
[0042]優(yōu)化模塊,用于根據(jù)用戶點(diǎn)擊廣告的情況,作為權(quán)值,對相應(yīng)的廣告詞與廣告商商品之間的關(guān)系進(jìn)行重新優(yōu)化和機(jī)器學(xué)習(xí)訓(xùn)練,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,同時不斷優(yōu)化商品詞庫和情感需求詞庫。
[0043]優(yōu)選的,所述廣告需求本體構(gòu)建模塊具體包括:
[0044]商品詞庫構(gòu)成單元,用于從當(dāng)前互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的知識組織結(jié)構(gòu)上獲取大致的各類商品,進(jìn)行詞典擴(kuò)建,構(gòu)建商品詞庫;
[0045]商品關(guān)聯(lián)度集合構(gòu)建單元,用于根據(jù)互信息算法,計算兩個商品詞同時出現(xiàn)的概率,構(gòu)建商品關(guān)聯(lián)度集合;
[0046]情感需求詞庫構(gòu)建單元,用于根據(jù)公開情感詞典,獲取與商品評價和需求相關(guān)的情感詞,構(gòu)建情感需求詞庫;
[0047]商品廣告推薦的規(guī)則庫構(gòu)建單元,用于根據(jù)商品詞庫、情感詞庫和關(guān)聯(lián)度集合,構(gòu)建商品廣告推薦的規(guī)則庫;
[0048]所述關(guān)鍵詞與關(guān)鍵句抽取模塊具體包括:
[0049]網(wǎng)頁抓取單元,用于抓取各類內(nèi)容的網(wǎng)頁,采用信息抽取的方法,獲得剔除了導(dǎo)航和網(wǎng)頁廣告的正文文本;
[0050]網(wǎng)頁模式匹配單元,用于根據(jù)商品詞庫和情感需求詞庫,采用Aho-Corasick算法對網(wǎng)頁進(jìn)行關(guān)鍵詞匹配,對完全不包含商品和需求相關(guān)詞語的網(wǎng)頁進(jìn)行剔除;
[0051 ] 網(wǎng)頁內(nèi)容文本分類單元,用于對文本進(jìn)行分詞和詞性標(biāo)注,采用貝葉斯算法或支持向量機(jī)算法對網(wǎng)頁內(nèi)容進(jìn)行文本分類,判斷網(wǎng)頁所屬類別,進(jìn)一步剔除與商業(yè)信息無關(guān)的文本類型;
[0052]關(guān)鍵詞與關(guān)鍵句獲取單元,用于對文本內(nèi)容進(jìn)行Textrank算法分析,獲取文本關(guān)鍵詞與關(guān)鍵句;
[0053]所述深度語義挖掘與廣告標(biāo)識模塊具體包括:
[0054]句子分析單元,用于進(jìn)行句法分析和角色語義標(biāo)注,根據(jù)句子類型,分析句子語法特點(diǎn)和語義學(xué)模式,匹配相應(yīng)的需求語法規(guī)則庫,獲得文本中的需求句;
[0055]廣告詞標(biāo)識單元,用于抽取角色語義中的受事者部分,根據(jù)語言學(xué)語法規(guī)律,搭配語法分析和詞性,抽取出句子中的相關(guān)商品詞、需求詞或關(guān)鍵詞,對相關(guān)詞語進(jìn)行廣告詞標(biāo)識;
[0056]所述廣告展現(xiàn)模塊具體包括:
[0057]廣告發(fā)布單元,用于根據(jù)廣告商的投放廣告情況和出價情況,以及商品關(guān)聯(lián)度排序情況,通過產(chǎn)生式規(guī)則,在已經(jīng)確定的廣告詞上面發(fā)布精準(zhǔn)廣告;
[0058]廣告顯示單元,用于當(dāng)用戶瀏覽的客戶端為電腦終端時,在用戶將鼠標(biāo)移入或者拖動瀏覽到與文本內(nèi)容上下文相關(guān)的帶有商品需求、詢問、祈使、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、表達(dá)情感態(tài)度及評價的相關(guān)句子和詞語時顯示廣告;當(dāng)用戶瀏覽的客戶端為手機(jī)終端時,在用戶瀏覽到上述需求相關(guān)句子時,對相應(yīng)廣告詞或商品區(qū)域進(jìn)行凸顯,在用戶點(diǎn)擊廣告詞或商品區(qū)域后顯示廣告。
[0059]本發(fā)明相對于現(xiàn)有技術(shù)具有如下的有益效果:
[0060]1、本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng)通過設(shè)計本體庫、文本挖掘和語義分析的方法,分析出了文章內(nèi)具有廣告價值的區(qū)域和關(guān)鍵詞,當(dāng)用戶鼠標(biāo)移入相應(yīng)區(qū)域時,網(wǎng)頁向用戶展現(xiàn)針對性的廣告,可以廣泛應(yīng)用于內(nèi)文廣告系統(tǒng)中。
[0061]2、本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng)可以對文本進(jìn)行情感和需求的深度語義挖掘,實(shí)現(xiàn)廣告頁面與關(guān)鍵詞的精準(zhǔn)定位,幫助內(nèi)文廣告系統(tǒng)挖掘精準(zhǔn)的廣告內(nèi)容頁和關(guān)鍵詞,從而能夠在網(wǎng)頁文本內(nèi)容中發(fā)布與用戶閱讀內(nèi)容上下文需求相關(guān)的廣告,分析出網(wǎng)站中的哪個頁面適合放內(nèi)文廣告,將內(nèi)文廣告放置在頁面中的哪些區(qū)域和哪些廣告詞上,解決了現(xiàn)有的技術(shù)難題。
【專利附圖】
【附圖說明】
[0062]圖1為本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法的流程示意圖。
[0063]圖2為本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法的原理示意圖。
[0064]圖3為本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法的分詞、詞性標(biāo)注與句法分析圖。
[0065]圖4為本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法的角色語義標(biāo)注圖。
[0066]圖5為本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法的深度語義挖掘綜合分析圖。
[0067]圖6為本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0068]實(shí)施例1:
[0069]如圖1和圖2所示,本實(shí)施例的基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,包括以下步驟:
[0070]I)構(gòu)建廣告需求本體,用L表示,即L= {W, R, S, T},具體包括:
[0071]1.1)從當(dāng)前互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的知識組織結(jié)構(gòu)上獲取大致的各類商品,進(jìn)行詞典擴(kuò)建,構(gòu)建商品詞庫W(WOTds),該詞庫包括但不限于:數(shù)碼、教育、運(yùn)動健身、醫(yī)療保健、美容化妝、服裝、家具生活、旅游、母嬰、辦公用品、娛樂等20余個類別的廣告相關(guān)數(shù)據(jù),并針對每一個領(lǐng)域進(jìn)行細(xì)分,例如教育又可以細(xì)分為:中考、高考、IT考證、公務(wù)員考試、英語培訓(xùn)等二級細(xì)致詞庫,以此類推。
[0072]通過人工參考當(dāng)前網(wǎng)站內(nèi)已有的知識結(jié)構(gòu),構(gòu)建初始的種子詞庫;接著進(jìn)一步對種子詞庫進(jìn)行詞語擴(kuò)散,步驟如下:將建立的種子詞放入同義詞詞林中進(jìn)行檢索(或放入知網(wǎng)本體中進(jìn)行檢索),獲得該類別的其他相近詞,相近詞的選取主要是從語義上進(jìn)行甄另IJ,詞語不僅考慮其字面表示,還收錄相應(yīng)的語義和概念相近的詞語,保證足夠的語義詞錄入;有足夠的相近詞后,再進(jìn)行第二次詞語擴(kuò)散收集。
[0073]上述技術(shù)米用了基于Deep learning技術(shù)的google開源工具word2vec進(jìn)行第二次商品詞庫發(fā)散,Word2vec的語料采用當(dāng)前最新語料進(jìn)行訓(xùn)練,以此解決同義詞詞林或知網(wǎng)無法一直保持最新詞語更新的問題,該詞庫通過上述方法多次迭代,不斷維護(hù)和優(yōu)化; [0074]1.2)根據(jù)互信息算法,計算兩個商品詞同時出現(xiàn)的概率,構(gòu)建商品關(guān)聯(lián)度集合!^relationship),該集合表示商品之間關(guān)聯(lián)度的概率與各種聯(lián)系,采用四元組{P1,V,P2,0}表示;其中,Pl表示商品1,V為謂語動詞,P2表示商品2,O為概率值;
[0075]商品關(guān)聯(lián)度集合R的構(gòu)建方法主要是基于詞庫W中的商品詞,再加上互信息技術(shù)和Deep learning技術(shù)進(jìn)行構(gòu)建。其方法是取出詞庫W中的一個商品詞pi,遍歷W-ρΙ個其他商品詞;通過計算該商品出現(xiàn)與其他商品同時出現(xiàn),再加上謂語動詞(謂語動詞包括但不限于“用于、具有、作為、目的是、屬于、部分于、關(guān)聯(lián)于、是一種、產(chǎn)生”等等與商業(yè)用途相關(guān)的詞語)的互信息,得出最終的概率值;將商品P1,謂詞、商品P2放入搜索引擎中計算得出返回結(jié)果數(shù),作為互信息的基礎(chǔ)值,歸一化為相應(yīng)的概率值,構(gòu)建成為商品關(guān)聯(lián)度四元組;在互信息值缺少的情況下,通過word2vec工具,通過輸入商品名獲得該商品相應(yīng)關(guān)聯(lián)詞的方法,進(jìn)一步獲取和分析商品類似關(guān)聯(lián)商品。不斷優(yōu)化和修正該四元組R ;
[0076]1.3)根據(jù)知網(wǎng)情感詞典、臺灣NTU情感詞典等公開情感詞典,獲取與商品評價和需求相關(guān)的情感詞,構(gòu)建情感需求詞庫S (sentiment),其中與需求相關(guān)的情感詞主要是基于語言學(xué)的分析方法,抽取包括但不限于“想要、想購買、想找、想入手、想吃、想去、要買、要吃、需要、急需、急求、求送、求購、幫買、喜歡、中意、大愛、求推薦、希望買到、找到、獲得”等與需求相關(guān)的詞匯;
[0077]1.4)根據(jù)商品詞庫、情感詞庫和關(guān)聯(lián)度集合,構(gòu)建商品廣告推薦的規(guī)則庫T (trues),該規(guī)則庫T是一個人工智能領(lǐng)域的產(chǎn)生式規(guī)則專家系統(tǒng),主要由三層架構(gòu)構(gòu)建,T= {t,r,s},其中t為商品推理事實(shí)庫,r為推理規(guī)則庫,s為搜索控制系統(tǒng);t的構(gòu)成主要基于前面構(gòu)建的W與R兩個已知事實(shí)庫;r是基于深度語義挖掘所構(gòu)成的規(guī)則,s為搜索控制系統(tǒng),包括專家系統(tǒng)用到的各類搜索算法例如Rete等,使用s實(shí)現(xiàn)正向與逆向推理控制功能;
[0078]2)抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句,具體包括:
[0079]2.1)抓取各類內(nèi)容的網(wǎng)頁,針對不同的頁面內(nèi)容采用不同的信息抽取方法,獲得剔除了導(dǎo)航和網(wǎng)頁廣告的正文文本;
[0080]在頁面內(nèi)容的抽取中,對什么樣的網(wǎng)站進(jìn)行數(shù)據(jù)采集與抽取也取決于與廣告商的合作;在一般情況下,對于微博和SNS網(wǎng)站進(jìn)行數(shù)據(jù)采集,可以采用調(diào)用其本身提供的API函數(shù)的方法,或者采用搜索爬蟲模擬瀏覽器登陸的方式抓取數(shù)據(jù),微博數(shù)據(jù)結(jié)構(gòu)統(tǒng)一,因此無需進(jìn)行網(wǎng)頁正文內(nèi)容信息抽?。粚τ谡搲惥W(wǎng)站可以采用scrapy爬蟲技術(shù),通過xpath等精準(zhǔn)定向和抽取數(shù)據(jù)內(nèi)容;對于博客和新聞網(wǎng)頁結(jié)構(gòu),可以采用基于自然標(biāo)注的網(wǎng)頁信息抽取方法,抽取網(wǎng)頁主要內(nèi)容,剔除廣告和導(dǎo)航內(nèi)容等;對于商品類與電商類網(wǎng)站,也同樣采用xpath技術(shù)以保障100%的采集準(zhǔn)確率;對于網(wǎng)絡(luò)無法獲取的數(shù)據(jù)(例如IM數(shù)據(jù)),可以通過合作或購買的方式獲得;
[0081]2.2)根據(jù)商品詞庫和情感需求詞庫,采用Aho-Corasick算法(即AC自動機(jī))對網(wǎng)頁進(jìn)行關(guān)鍵詞匹配,對完全不包含商品和需求相關(guān)詞語的網(wǎng)頁進(jìn)行剔除;
[0082]所述AC自動機(jī)應(yīng)用有限自動機(jī)的方法巧妙地將字符比較轉(zhuǎn)化為了狀態(tài)轉(zhuǎn)移,此算法在掃描文本時完全不需要回溯,時間復(fù)雜度為0(n),且時間復(fù)雜度與關(guān)鍵字的數(shù)目和長度無關(guān);由步驟1.D和步驟1.3)可知,有廣告價值的頁面P=A-p,其中A為所有頁面集合,P為未能與本題庫匹配的頁面,該步驟之所以不采用更加精準(zhǔn)的機(jī)器學(xué)習(xí)方法,主要是考慮到計算量的問題,對整個網(wǎng)絡(luò)進(jìn)行文本挖掘是不現(xiàn)實(shí)或者說代價過大的;步驟I)構(gòu)建的廣告需求本體L,已經(jīng)能夠包含絕大多數(shù)的廣告詞與情感與需求詞和各種語義關(guān)系,當(dāng)一個頁面不存在可能的廣告或商品或情感需求詞時,說明無法把廣告關(guān)鍵詞打在頁面內(nèi),由于L足夠大,所以每個頁面匹配的詞數(shù)已經(jīng)很大,不會產(chǎn)生數(shù)據(jù)稀疏問題;
[0083]2.3)采用開源工具,如IK、ICTCLAS, Stanford NLP等分詞工具,對文本進(jìn)行分詞和詞性標(biāo)注,如圖3所示,“今天是情人節(jié),大家都說應(yīng)該精心準(zhǔn)備好巧克力?!北环殖?3個詞,分別用空格隔開,其中每個詞都搭配有NN、VV、AD、PU等詞性,分別表示名詞、動詞、形容詞、標(biāo)點(diǎn)符號等,接下去采用貝葉斯算法(貝葉斯分類器)或支持向量機(jī)(SVM)算法對網(wǎng)頁內(nèi)容進(jìn)行文本分類,判斷網(wǎng)頁所屬類別,進(jìn)一步剔除與商業(yè)信息無關(guān)的文本類型;
[0084]采用貝葉斯算法還是采用支持向量機(jī)算法,主要取決于文本長度,對于較長文本例如博客和新聞等,因?yàn)榫哂凶銐蚨嗟奶卣黜?xiàng),因此采用樸素貝葉斯分類器進(jìn)行分析,這樣能夠在保證精準(zhǔn)分類的同時,獲得較快計算速度;對于類似QQ簽名頂聊天記錄和微薄等短文,由于文本特征不足,因此采用SVM算法或者改進(jìn)式貝葉斯算法,實(shí)驗(yàn)表明這些算法具有更好的分析精度;語料的選擇主要是從各大網(wǎng)站上抓取足夠多的各個領(lǐng)域的語料,其類別保持與步驟1.D中的商品詞庫W的類別一致,并收集另一個不屬于商業(yè)信息的類別,進(jìn)行訓(xùn)練,此處對文本進(jìn)行分類的目的主要有三個:第一,剔除掉與廣告和商業(yè)毫不相干的文本類別,得到候選廣告頁面P的進(jìn)一步篩選集;第二,它是一種變相的詞義消解,可以把相同類別的分類文本去匹配相同類別的本體庫詞匯,文本分類可以對文章領(lǐng)域進(jìn)行識別,因此就可以對例如數(shù)碼產(chǎn)品的詞匯“蘋果”與食品詞匯“蘋果”進(jìn)行區(qū)分,減少文本理解的歧義;第三,文本分類能為文本的進(jìn)一步挖掘做預(yù)處理;處理完之后,得到了經(jīng)過分詞與詞性標(biāo)注的文本;
[0085]2.4)對文本內(nèi)容進(jìn)行Textrank算法分析,獲取文本關(guān)鍵詞與關(guān)鍵句;
[0086]Textrank算法是一種把詞間關(guān)系看成投票關(guān)系的類似于Pagerank的算法,可用于分析和抽取文本中的關(guān)鍵詞和主題句,關(guān)鍵詞和主題句能夠反映文章的主旨內(nèi)容,是廣告的常用區(qū)域;另外,對于帶有情感態(tài)度需求和評價的句子也是發(fā)布內(nèi)文廣告需要關(guān)注的區(qū)域,將步驟1.3)中的情感需求詞庫S對全文進(jìn)行Aho-Corasick算法關(guān)鍵詞匹配,進(jìn)行斷句和提取后,獲得可能帶有需求與情感、態(tài)度與評價的句子;以上獲得的兩部分句子的分析結(jié)果可用于作為候選的廣告關(guān)鍵詞和廣告句進(jìn)行深度語義挖掘。
[0087]3)對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)需求句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或`詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識,具體包括:
[0088]3.1)進(jìn)行句法分析和角色語義標(biāo)注,如圖3和圖4所示,SBJ,COMP,ADV等分別表示主語、補(bǔ)語、修飾語等,詞語詞之間的連接線代表這兩個詞之間的依存語法關(guān)系,根據(jù)句子類型,分析句子語法特點(diǎn)和語義學(xué)模式,匹配相應(yīng)的需求語法規(guī)則庫,獲得文本中的需求句:
[0089]3.1.1)進(jìn)行句法分析,構(gòu)建一顆句法樹,構(gòu)建句法樹的目標(biāo)是對步驟1.4)中的推理規(guī)則庫r進(jìn)行模式匹配和規(guī)則推理搜索,步驟1.2)中的商品關(guān)聯(lián)度集合R中存儲了大量的語義語法規(guī)則和商品購買規(guī)則,這些規(guī)則的獲取主要靠人工構(gòu)建;其中的語法規(guī)則類似于:NR+要+NP、能不能+PP+ADVP、祈求/求+NP、麻煩+VP、需要+VP、有沒有適合+NR+使用的+NP?、求購+NN、NP+哪里的+NN+好點(diǎn)?其中NP、VP、PP等為名詞短語、動詞短語、介詞短
;五坐P 口寸ο
[0090]3.1.2)進(jìn)行角色語義標(biāo)注(SRL),主要采用的工具可以是OpenNLP、StanfordNLP、Illinois SRL等工具中的一種或多種。它是當(dāng)前自然語言處理領(lǐng)域最為高級的分析方法,給定一個句子,SRL的任務(wù)是找出句子中謂詞的相應(yīng)語義角色成分,包括核心語義角色(如施事者、受事者等)和附屬語義角色(如地點(diǎn)、時間、方式、原因等)如圖4和圖5所示AO表示施事者,Al表示受事者,ADV表示方式等;SRL標(biāo)注的語義角色對分析類似誰對誰做了什么的問題,提供了強(qiáng)有力的支持,從上述步驟2.4)分析出的句子中經(jīng)過角色語義標(biāo)注的受事者部分有很大的概率是文章的廣告推廣內(nèi)容和文章語義上描述的需要解決的問題。
[0091]深度語義挖掘的基礎(chǔ)基于成熟的語言學(xué)方法,該方法在淺層語義分析的基礎(chǔ)上進(jìn)行更具深度的語義挖掘,如圖5所示,一個句子中的每個詞都被分解為帶有詞性、依存句法、詞間依存關(guān)系、角色語義關(guān)系等細(xì)致內(nèi)容,其分析格式主要基于國際學(xué)術(shù)會議CoNLL的淺層語義分析格式,在淺層語義分析基礎(chǔ)上進(jìn)行深度語義挖掘,語法規(guī)則的挖掘主要依據(jù)以下客觀方法:基于現(xiàn)有語言學(xué)的規(guī)律和方法,搜集人們表達(dá)需求和情感的各種模式(稱為語義學(xué)模式),這些模式包括直接要求模式、詢問原因模式、告知理由模式、表達(dá)困難模式、詢問能力模式、緩和態(tài)度模式等,這些語法規(guī)則符合當(dāng)前漢語表達(dá)需求時的客觀語法規(guī)貝U,根據(jù)文本內(nèi)容上下文提到的事件、商品、評論、困難與陳述,分析上下文需求關(guān)系,將這些表達(dá)模式構(gòu)成的集合都錄入推理規(guī)則庫r中;上述步驟3.1.2)形成的句法分析句法樹,目的是用于與推理規(guī)則庫r進(jìn)行匹配;
[0092]句子如果符合語法規(guī)則模式,那么句法分析還要進(jìn)一步進(jìn)行句法中的常用句型,包括否定句,條件句和比喻句等,例如當(dāng)出現(xiàn)沒有、不是、不好等否定詞時,判斷結(jié)果需要取反;常用句型判斷完成之后,能夠基本確定文章中適合發(fā)布廣告的句子,這些句子都是能夠概括文章主旨,大部分的句子是帶有需求或者情感傾向,包括但不限于帶有需求、祈使、詢問、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、表達(dá)情感態(tài)度及評價的相關(guān)句子;句子在各個部分經(jīng)過細(xì)致分析后,便可以確定廣告詞的位置;
[0093]3.2)通過句法分析、抽取角色語義中的受事者部分、詞性標(biāo)注、商品詞庫等各部分綜合分析,最終確定出句子中廣告詞,對該詞語進(jìn)行廣告詞標(biāo)識;
[0094]廣告詞的確定主要結(jié)合三種因素綜合分析:第一種是根據(jù)依存句法分析,確定各個詞語之間的依存關(guān)系,將各種可能的匹配值進(jìn)行線性平均,一般是把廣告發(fā)布在句子中的名詞、動詞和動名詞等詞語或短語上;第二種是發(fā)布在角色語義標(biāo)注的受事者部分的相關(guān)詞語、短語或短句上;第三種是將步驟1.1)中的商品詞庫W,以上區(qū)域都是可以被打上廣告的區(qū)域,主要根據(jù)文章匹配詞語數(shù)和根據(jù)匹配的恰當(dāng)度決定選擇其中的一種或多種詞語作為廣告詞;例如圖3、圖4所示的示例句子“今天是情人節(jié),大家都說應(yīng)該精心準(zhǔn)備好巧克力。”,句子帶有情感色彩和需求句式,綜合分析以上方法,廣告詞被打在屬于名詞詞性又兼有受事語義,同時又屬于具體商品詞匯的關(guān)鍵詞“巧克力”上。
[0095]4)根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,當(dāng)用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告,具體包括:
[0096]4.1)根據(jù)廣告商的投放廣告情況和出價情況,以及最重要的商品關(guān)聯(lián)度排序情況,通過產(chǎn)生式規(guī)則,在已經(jīng)確定的廣告詞上面發(fā)布精準(zhǔn)廣告,具體為:
[0097]綜合分析廣告商的投放廣告情況和出價情況,通過步驟1.2)中形成的商品關(guān)聯(lián)度集合R,進(jìn)行判斷,把與廣告商最相近的商品打在相應(yīng)的廣告詞上;廣告鏈接顯示的商品根據(jù)關(guān)聯(lián)度進(jìn)行排序,也可適當(dāng)?shù)母鶕?jù)廣告商的出價程度排序;最后,網(wǎng)站擁有者通過嵌入相應(yīng)的javascript代碼到其網(wǎng)站內(nèi),就可以實(shí)現(xiàn)對相關(guān)廣告詞進(jìn)行自動標(biāo)識,通過加鏈接下劃線、植入圖片或按鈕、植入flash或視頻的方式,使廣告詞具有鏈接功能,成為相關(guān)廣生
P=I ;
[0098]4.2)當(dāng)用戶瀏覽的客戶端為電腦終端時,在將鼠標(biāo)移入或者拖動瀏覽到帶有商品需求、詢問、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、表達(dá)情感態(tài)度及評價的相關(guān)句子的區(qū)域時顯示廣告,具體為:
[0099]將內(nèi)文廣告顯示在特定廣告區(qū)域(通常為帶有商品需求或情感句的區(qū)域)內(nèi),該區(qū)域通過Ajax技術(shù),可以在用戶沒有把光標(biāo)移入時隱藏,當(dāng)用戶的鼠標(biāo)移動到相關(guān)廣告句法模式的特定區(qū)域時,廣告框顯示不同內(nèi)容來回應(yīng)用戶瀏覽頁面的文章描述內(nèi)容,例如當(dāng)光標(biāo)移入詢問原因和帶有直接需求的句子里面時,調(diào)用回應(yīng)這類需求的廣告顯示內(nèi)容,滿足文章內(nèi)提到的需求,廣告回應(yīng)方法主要根據(jù)商品廣告推薦的規(guī)則庫T和廣告商的商品內(nèi)容自動生成,精準(zhǔn)的內(nèi)文廣告方法能夠吸引更多的用戶點(diǎn)擊廣告;由于以前沒有需求分析技術(shù),只能當(dāng)用戶點(diǎn)擊廣告時才顯示,而本實(shí)施例可以在用戶將鼠標(biāo)移入或者拖動瀏覽到上述所述的需求相關(guān)句子時,就顯示廣告;
[0100]由于上述步驟都需要在大量的規(guī)則庫搜索和匹配規(guī)則,而且是通過不同層次的層次推理才能確定最終的內(nèi)文廣告內(nèi)容,因此采用Rete算法進(jìn)行產(chǎn)生式規(guī)則的匹配、選擇和執(zhí)行;Rete算法有兩個特點(diǎn),一個是優(yōu)于傳統(tǒng)的模式匹配算法,包括狀態(tài)保存,Rete算法通過保存操作過程中的狀態(tài),避免了大量的重復(fù)計算;另一個特點(diǎn)是節(jié)點(diǎn)共享,不同規(guī)則之間含有相同的模式,從而可以共享同一個節(jié)點(diǎn),Rete網(wǎng)絡(luò)的各個部分包含各種不同的節(jié)點(diǎn)共
[0101]5)根據(jù)用戶點(diǎn)擊廣告的情況,作為權(quán)值,對相應(yīng)的廣告詞與廣告商商品之間的關(guān)系進(jìn)行重新優(yōu)化和機(jī)器學(xué)習(xí)訓(xùn)練,優(yōu)化商品關(guān)聯(lián)度集合和商品廣告推薦的規(guī)則庫,同時不斷優(yōu)化商品詞庫和情感需求詞庫;
[0102]該步驟可以把用戶點(diǎn)擊廣告的數(shù)量作為投票數(shù)據(jù),推導(dǎo)新的推理規(guī)則庫r,還有進(jìn)一步優(yōu)化商品關(guān)聯(lián)度集合R,當(dāng)廣告被點(diǎn)擊時說明該廣告句與引導(dǎo)語關(guān)聯(lián)度大,該內(nèi)文廣告關(guān)鍵詞所在位置正確,于是加強(qiáng)了句法模式與引導(dǎo)語的關(guān)聯(lián);反之亦然,如果廣告一直沒有被點(diǎn)擊,則說明本設(shè)計投放的廣告可以進(jìn)一步優(yōu)化,應(yīng)該替換其他內(nèi)容的廣告語和替換關(guān)鍵詞;另一種優(yōu)化是對商品關(guān)聯(lián)度集合的優(yōu)化,點(diǎn)擊了的廣告使內(nèi)文中提到的商品與關(guān)聯(lián)商品之間關(guān)聯(lián)度加大,優(yōu)化步驟1.2)中O的概率值;同時不斷優(yōu)化商品詞庫和情感需求詞庫;
[0103]通過以上的方法,可以優(yōu)化人工設(shè)計的語法規(guī)則或者機(jī)器產(chǎn)生的關(guān)聯(lián)度可能產(chǎn)生的弊端,達(dá)到不斷精準(zhǔn)的目的。
[0104]實(shí)施例2:
[0105]本實(shí)施例的主要特點(diǎn)是:步驟4.2)中,當(dāng)用戶瀏覽的客戶端為手機(jī)終端時,在瀏覽到需求相關(guān)句子時,無需鼠標(biāo)移入即對相應(yīng)廣告詞或商品區(qū)域進(jìn)行凸顯,在用戶點(diǎn)擊廣告詞后顯示廣告。其余同實(shí)施例1。
[0106]實(shí)施例3:
[0107]如圖6所示,本實(shí)施例的基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng)包括:
[0108]廣告需求本體構(gòu)建模塊,用于構(gòu)建廣告需求本體;
[0109]關(guān)鍵詞與關(guān)鍵句抽取模塊,用于抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句;[0110]深度語義挖掘與廣告標(biāo)識模塊,用于對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)情感句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識;
[0111]廣告展現(xiàn)模塊,用于根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,使用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告;
[0112]優(yōu)化模塊,用于根據(jù)用戶點(diǎn)擊廣告的情況,作為權(quán)值,對相應(yīng)的廣告詞與廣告商商品之間的關(guān)系進(jìn)行重新優(yōu)化和機(jī)器學(xué)習(xí)訓(xùn)練,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,同時不斷優(yōu)化商品詞庫和情感需求詞庫。
[0113]其中,所述廣告需求本體構(gòu)建模塊具體包括:
[0114]商品詞庫構(gòu)成單元,用于從當(dāng)前互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的知識組織結(jié)構(gòu)上獲取大致的各類商品,進(jìn)行詞典擴(kuò)建,構(gòu)建商品詞庫;
[0115]商品關(guān)聯(lián)度集合構(gòu)建單元,用于根據(jù)互信息算法,計算兩個商品詞同時出現(xiàn)的概率,構(gòu)建商品關(guān)聯(lián)度集合;
[0116]情感需求詞庫構(gòu)建單元,用于根據(jù)公開情感詞典,獲取與商品評價和需求相關(guān)的情感詞,構(gòu)建情感需求詞庫;
[0117]商品廣告推薦的規(guī)則庫構(gòu)建單元,用于根據(jù)商品詞庫、情感詞庫和關(guān)聯(lián)度集合,構(gòu)建商品廣告推薦的規(guī)則庫;
[0118]所述關(guān)鍵詞與關(guān)鍵句抽取模塊具體包括:
[0119]網(wǎng)頁抓取單元,用于抓取各類內(nèi)容的網(wǎng)頁,采用信息抽取的方法,獲得剔除了導(dǎo)航和網(wǎng)頁廣告的正文文本;
[0120]網(wǎng)頁模式匹配單元,用于根據(jù)商品詞庫和情感需求詞庫,采用Aho-Corasick算法對網(wǎng)頁進(jìn)行關(guān)鍵詞匹配,對完全不包含商品和需求相關(guān)詞語的網(wǎng)頁進(jìn)行剔除;
[0121]網(wǎng)頁內(nèi)容文本分類單元,用于對文本進(jìn)行分詞和詞性標(biāo)注,采用貝葉斯算法或支持向量機(jī)算法對網(wǎng)頁內(nèi)容進(jìn)行文本分類,判斷網(wǎng)頁所屬類別,進(jìn)一步剔除與商業(yè)信息無關(guān)的文本類型;
[0122]關(guān)鍵詞與關(guān)鍵句獲取單元,用于對文本內(nèi)容進(jìn)行Textrank算法分析,獲取文本關(guān)鍵詞與關(guān)鍵句;
[0123]所述深度語義挖掘與廣告標(biāo)識模塊具體包括:
[0124]句子分析單元,用于進(jìn)行句法分析和角色語義標(biāo)注,根據(jù)句子類型,分析句子語法特點(diǎn)和語義學(xué)模式,匹配相應(yīng)的需求語法規(guī)則庫,獲得文本中的需求句;
[0125]廣告詞標(biāo)識單元,用于抽取角色語義中的受事者部分,根據(jù)語言學(xué)語法規(guī)律搭配語法分析和詞性,抽取出句子中的相關(guān)商品詞、需求詞或關(guān)鍵詞,對相關(guān)詞語進(jìn)行廣告詞標(biāo)識;
[0126]所述廣告展現(xiàn)模塊具體包括:
[0127]廣告發(fā)布單元,用于根據(jù)廣告商的投放廣告情況和出價情況,以及商品關(guān)聯(lián)度排序情況,通過產(chǎn)生式規(guī)則,在已經(jīng)確定的廣告詞上面發(fā)布精準(zhǔn)廣告;
[0128]廣告顯示單元,用于當(dāng)用戶瀏覽的客戶端為電腦終端時,在用戶將鼠標(biāo)移入或者拖動瀏覽到與文本內(nèi)容上下文相關(guān)的帶有商品需求、詢問、祈使、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、表達(dá)情感態(tài)度及評價的相關(guān)句子和詞語時顯示廣告;當(dāng)用戶瀏覽的客戶端為手機(jī)終端時,在用戶瀏覽到上述需求相關(guān)句子時,對相應(yīng)廣告詞或商品區(qū)域進(jìn)行凸顯,在用戶點(diǎn)擊廣告詞或商品區(qū)域后顯示廣告。
[0129]從實(shí)施例1?3可以看到,本發(fā)明基于深度語義挖掘的內(nèi)文廣告發(fā)布方法與系統(tǒng)可以對文本進(jìn)行情感和需求的深度語義挖掘,實(shí)現(xiàn)廣告頁面與關(guān)鍵詞的精準(zhǔn)定位,幫助內(nèi)文廣告系統(tǒng)挖掘精準(zhǔn)的廣告內(nèi)容頁和關(guān)鍵詞,從而能夠在網(wǎng)頁文本內(nèi)容中發(fā)布與用戶閱讀內(nèi)容上下文需求相關(guān)的廣告,分析出網(wǎng)站中的哪個頁面適合放內(nèi)文廣告,將內(nèi)文廣告放置在頁面中的哪些區(qū)域和哪些廣告詞上,解決了現(xiàn)有的技術(shù)難題。
[0130]以上所述,僅為本發(fā)明專利較佳的實(shí)施例,但本發(fā)明專利的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明專利所公開的范圍內(nèi),根據(jù)本發(fā)明專利的技術(shù)方案及其發(fā)明專利構(gòu)思加以等同替換或改變,都屬于本發(fā)明專利的保護(hù)范圍。
【權(quán)利要求】
1.一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于所述方法包括: 構(gòu)建廣告需求本體; 抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句; 對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)需求句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識; 根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,當(dāng)用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告。
2.根據(jù)權(quán)利要求1所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于:所述構(gòu)建廣告需求本體,具體包括: 從當(dāng)前互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的知識組織結(jié)構(gòu)上獲取大致的各類商品,進(jìn)行詞典擴(kuò)建,構(gòu)建商品詞庫; 根據(jù)互信息算法,計算兩個商品詞同時出現(xiàn)的概率,構(gòu)建商品關(guān)聯(lián)度集合; 根據(jù)公開情感詞典,獲取與商品評價和需求相關(guān)的情感詞,構(gòu)建情感需求詞庫; 根據(jù)商品詞庫、情感詞庫和關(guān)聯(lián)度集合,構(gòu)建商品廣告推薦的規(guī)則庫。
3.根據(jù)權(quán)利要求2所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于:所述抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句,具體包括: 抓取各類內(nèi)容的網(wǎng)頁,采用信息抽取的方法,獲得剔除了導(dǎo)航和網(wǎng)頁廣告的正文文本; 根據(jù)商品詞庫和情感需求詞庫,采用Aho-Corasick算法對網(wǎng)頁進(jìn)行關(guān)鍵詞匹配,對完全不包含商品和需求相關(guān)詞語的網(wǎng)頁進(jìn)行剔除; 對文本進(jìn)行分詞和詞性標(biāo)注,采用貝葉斯算法或支持向量機(jī)算法對網(wǎng)頁內(nèi)容進(jìn)行文本分類,判斷網(wǎng)頁所屬類別,進(jìn)一步剔除與商業(yè)信息無關(guān)的文本類型; 對文本內(nèi)容進(jìn)行Textrank算法分析,獲取文本關(guān)鍵詞與關(guān)鍵句。
4.根據(jù)權(quán)利要求1所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于:所述對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)需求句語法規(guī)則對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識,具體包括: 進(jìn)行句法分析和角色語義標(biāo)注,根據(jù)句子類型,分析句子語法特點(diǎn)和語義學(xué)模式,匹配相應(yīng)的需求語法規(guī)則庫,獲得文本中的需求句; 抽取角色語義中的受事者部分,根據(jù)語言學(xué)語法規(guī)律,搭配語法分析和詞性,抽取出句子中的相關(guān)商品詞、需求詞或關(guān)鍵詞,對相關(guān)詞語進(jìn)行廣告詞標(biāo)識。
5.根據(jù)權(quán)利要求1所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于:所述根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,使用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告,具體包括: 根據(jù)廣告商的投放廣告情況和出價情況,以及商品關(guān)聯(lián)度排序情況,通過產(chǎn)生式規(guī)則,在已經(jīng)確定的廣告詞上面發(fā)布精準(zhǔn)廣告; 當(dāng)用戶瀏覽的客戶端為電腦終端時,在用戶將鼠標(biāo)移入或者拖動瀏覽到與文本內(nèi)容上下文相關(guān)的帶有商品需求、詢問、祈使、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、表達(dá)情感態(tài)度及評價的相關(guān)句子和詞語時顯示廣告;當(dāng)用戶瀏覽的客戶端為手機(jī)終端時,在用戶瀏覽到上述需求相關(guān)句子時,對相應(yīng)廣告詞或商品區(qū)域進(jìn)行凸顯,在用戶點(diǎn)擊廣告詞或商品區(qū)域后顯示廣告。
6.根據(jù)權(quán)利要求2所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于所述方法還包括: 根據(jù)用戶點(diǎn)擊情況,進(jìn)行機(jī)器學(xué)習(xí)和點(diǎn)擊反饋,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫。
7.根據(jù)權(quán)利要求6所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布方法,其特征在于:所述根據(jù)用戶點(diǎn)擊情況,進(jìn)行機(jī)器學(xué)習(xí)和點(diǎn)擊反饋,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,具體如下: 根據(jù)用戶點(diǎn)擊廣告的情況,作為權(quán)值,對相應(yīng)的廣告詞與廣告商商品之間的關(guān)系進(jìn)行重新優(yōu)化和機(jī)器學(xué)習(xí)訓(xùn)練,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,同時不斷優(yōu)化商品詞庫和情感需求詞庫。
8.一種基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng),其特征在于所述系統(tǒng)包括: 廣告需求本體構(gòu)建模塊,用于構(gòu)建廣告需求本體; 關(guān)鍵詞與關(guān)鍵句抽取模塊,用于抓取和接收網(wǎng)頁內(nèi)容,根據(jù)廣告本體和文本分類算法剔除與商業(yè)信息無關(guān)的網(wǎng)頁,判斷網(wǎng)頁所屬類別,抽取關(guān)鍵詞與關(guān)鍵句; 深度語義挖掘與廣告標(biāo)識模塊,用于對抽取到的關(guān)鍵句子進(jìn)行深度語義挖掘,根據(jù)情感句語法規(guī)則 對帶有需求與情感、態(tài)度與評價的句子、短語或詞語進(jìn)行發(fā)現(xiàn)和抽取,并進(jìn)行廣告標(biāo)識; 廣告展現(xiàn)模塊,用于根據(jù)標(biāo)識的文本內(nèi)容的類型與商品關(guān)聯(lián)度,對帶廣告標(biāo)識的網(wǎng)頁文本,通過產(chǎn)生式規(guī)則進(jìn)行推理,嵌入精準(zhǔn)廣告,使用戶在瀏覽這類網(wǎng)頁文本時,在特定區(qū)域展現(xiàn)廣告。
9.根據(jù)權(quán)利要求8所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng),其特征在于所述系統(tǒng)還包括: 優(yōu)化模塊,用于根據(jù)用戶點(diǎn)擊廣告的情況,作為權(quán)值,對相應(yīng)的廣告詞與廣告商商品之間的關(guān)系進(jìn)行重新優(yōu)化和機(jī)器學(xué)習(xí)訓(xùn)練,優(yōu)化商品關(guān)聯(lián)度集合與商品廣告推薦的規(guī)則庫,同時不斷優(yōu)化商品詞庫和情感需求詞庫。
10.根據(jù)權(quán)利要求9所述的一種基于深度語義挖掘的內(nèi)文廣告發(fā)布系統(tǒng),其特征在于: 所述廣告需求本體構(gòu)建模塊具體包括: 商品詞庫構(gòu)成單元,用于從當(dāng)前互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的知識組織結(jié)構(gòu)上獲取大致的各類商品,進(jìn)行詞典擴(kuò)建,構(gòu)建商品詞庫; 商品關(guān)聯(lián)度集合構(gòu)建單元,用于根據(jù)互信息算法,計算兩個商品詞同時出現(xiàn)的概率,構(gòu)建商品關(guān)聯(lián)度集合; 情感需求詞庫構(gòu)建單元,用于根據(jù)公開情感詞典,獲取與商品評價和需求相關(guān)的情感詞,構(gòu)建情感需求詞庫; 商品廣告推薦的規(guī)則庫構(gòu)建單元,用于根據(jù)商品詞庫、情感詞庫和關(guān)聯(lián)度集合,構(gòu)建商品廣告推薦的規(guī)則庫;所述關(guān)鍵詞與關(guān)鍵句抽取模塊具體包括: 網(wǎng)頁抓取單元,用于抓取各類內(nèi)容的網(wǎng)頁,采用信息抽取的方法,獲得剔除了導(dǎo)航和網(wǎng)頁廣告的正文文本; 網(wǎng)頁模式匹配單元,用于根據(jù)商品詞庫和情感需求詞庫,采用Aho-Corasick算法對網(wǎng)頁進(jìn)行關(guān)鍵詞匹配,對完全不包含商品和需求相關(guān)詞語的網(wǎng)頁進(jìn)行剔除; 網(wǎng)頁內(nèi)容文本分類單元,用于對文本進(jìn)行分詞和詞性標(biāo)注,采用貝葉斯算法或支持向量機(jī)算法對網(wǎng)頁內(nèi)容進(jìn)行文本分類,判斷網(wǎng)頁所屬類別,進(jìn)一步剔除與商業(yè)信息無關(guān)的文本類型; 關(guān)鍵詞與關(guān)鍵句獲取單元,用于對文本內(nèi)容進(jìn)行Textrank算法分析,獲取文本關(guān)鍵詞與關(guān)鍵句; 所述深度語義挖掘與廣告標(biāo)識模塊具體包括: 句子分析單元,用于進(jìn)行句法分析和角色語義標(biāo)注,根據(jù)句子類型,分析句子語法特點(diǎn)和語義學(xué)模式,匹配相應(yīng)的需求語法規(guī)則庫,獲得文本中的需求句; 廣告詞標(biāo)識單元,用于抽取角色語義中的受事者部分,根據(jù)語言學(xué)語法規(guī)律搭配語法分析和詞性,抽取出句子中的相關(guān)商品詞、需求詞或關(guān)鍵詞,對相關(guān)詞語進(jìn)行廣告詞標(biāo)識; 所述廣告展現(xiàn)模塊具體包括: 廣告發(fā)布單元,用于根據(jù)廣告商的投放廣告情況和出價情況,以及商品關(guān)聯(lián)度排序情況,通過產(chǎn)生式規(guī)則,在已經(jīng)確定的廣告詞上面發(fā)布精準(zhǔn)廣告; 廣告顯示單元,用于當(dāng)用戶瀏覽的客戶端為電腦終端時,在用戶將鼠標(biāo)移入或者拖動瀏覽到與文本內(nèi)容上下文相關(guān)的帶有商品需求、詢問、祈使、要求、告知理由、詢問能力、緩和態(tài)度、表達(dá)困難、·表達(dá)情感態(tài)度及評價的相關(guān)句子和詞語時顯示廣告;當(dāng)用戶瀏覽的客戶端為手機(jī)終端時,在用戶瀏覽到上述需求相關(guān)句子時,對相應(yīng)廣告詞或商品區(qū)域進(jìn)行凸顯,在用戶點(diǎn)擊廣告詞或商品區(qū)域后顯示廣告。
【文檔編號】G06Q30/02GK103853824SQ201410075127
【公開日】2014年6月11日 申請日期:2014年3月3日 優(yōu)先權(quán)日:2014年3月3日
【發(fā)明者】沈之銳 申請人:沈之銳