本發(fā)明涉及數(shù)據(jù)檢索技術(shù)領(lǐng)域,特別是涉及一種熱門(mén)內(nèi)容搜索方法和系統(tǒng)。
背景技術(shù):
在數(shù)據(jù)檢索服務(wù)中,首先采集內(nèi)容信息,然后根據(jù)采集到的內(nèi)容信息數(shù)據(jù)建立索引。外部應(yīng)用在使用這些內(nèi)容信息數(shù)據(jù)的時(shí)候,通過(guò)索引進(jìn)行全文檢索,默認(rèn)根據(jù)信息的發(fā)布時(shí)間、評(píng)論數(shù)、點(diǎn)贊數(shù)等維度進(jìn)行排序,得到關(guān)注度高的內(nèi)容信息。
在實(shí)現(xiàn)過(guò)程中,發(fā)明人發(fā)現(xiàn)傳統(tǒng)技術(shù)中至少存在如下問(wèn)題:采用傳統(tǒng)內(nèi)容檢索方法,由于評(píng)論數(shù)、點(diǎn)贊數(shù)等會(huì)隨著時(shí)間的增長(zhǎng)而變大,得出的內(nèi)容熱度值會(huì)不斷地增大;但內(nèi)容熱度值往往是有時(shí)效性的,會(huì)隨著時(shí)間的變化產(chǎn)生波動(dòng),傳統(tǒng)熱門(mén)內(nèi)容搜索方法不能體現(xiàn)這種時(shí)效性,無(wú)法得到準(zhǔn)確的內(nèi)容熱度值,從而得到熱門(mén)內(nèi)容信息的準(zhǔn)確率低。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)傳統(tǒng)熱門(mén)內(nèi)容搜索方法得到熱門(mén)內(nèi)容信息的準(zhǔn)確率低的問(wèn)題,提供一種熱門(mén)內(nèi)容搜索方法和系統(tǒng)。
為了實(shí)現(xiàn)上述目的,一方面,本發(fā)明實(shí)施例提供了一種熱門(mén)內(nèi)容搜索方法,包括以下步驟:
獲取檢索關(guān)鍵詞;根據(jù)檢索關(guān)鍵詞,在預(yù)設(shè)索引庫(kù)中進(jìn)行檢索,得到各文本數(shù)據(jù);
根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值;將熱度增幅值和預(yù)設(shè)衰減值的乘積作為維度參數(shù)的熱度值,并對(duì)各維度參數(shù)的熱度值進(jìn)行相加求和,得到文本數(shù)據(jù)的內(nèi)容熱度值;
根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù);
將排序后的各文本數(shù)據(jù)作為根據(jù)檢索關(guān)鍵詞搜索出的熱門(mén)內(nèi)容進(jìn)行顯示或發(fā)送給相應(yīng)的外部應(yīng)用。
另一方面,本發(fā)明實(shí)施例還提供了一種熱門(mén)內(nèi)容搜索系統(tǒng),包括:
全文檢索單元,用于獲取檢索關(guān)鍵詞,并根據(jù)檢索關(guān)鍵詞,在預(yù)設(shè)索引庫(kù)中進(jìn)行檢索,得到各文本數(shù)據(jù);
內(nèi)容熱度值獲取單元,用于根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值;將熱度增幅值和預(yù)設(shè)衰減值的乘積作為維度參數(shù)的熱度值,并對(duì)各維度參數(shù)的熱度值進(jìn)行相加求和,得到文本數(shù)據(jù)的內(nèi)容熱度值;
排序單元,用于根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù);
反饋單元,用于將排序后的各文本數(shù)據(jù)作為根據(jù)檢索關(guān)鍵詞搜索出的熱門(mén)內(nèi)容進(jìn)行顯示或發(fā)送給相應(yīng)的外部應(yīng)用。
本發(fā)明具有如下優(yōu)點(diǎn)和有益效果:
本發(fā)明熱門(mén)內(nèi)容搜索方法和系統(tǒng),根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,獲取各文本數(shù)據(jù)內(nèi)容熱度值;其中,例如通過(guò)時(shí)間熱度衰減值乘以熱度增幅值得出熱度值的步驟,可以大大降低隨著時(shí)間增長(zhǎng)對(duì)內(nèi)容熱度定義的偏差,得出的內(nèi)容熱度值更準(zhǔn)確;然后根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到能夠準(zhǔn)確體現(xiàn)內(nèi)容熱度的排序結(jié)果;以上步驟使得本發(fā)明可以體現(xiàn)時(shí)間段內(nèi)的熱度情況和內(nèi)容熱度值的時(shí)效性;同時(shí)根據(jù)時(shí)間段內(nèi)的熱度增幅值進(jìn)行計(jì)算,將各維度參數(shù)的熱度值之和作為內(nèi)容熱度值,能夠有效提高獲取熱門(mén)內(nèi)容信息的準(zhǔn)確性。
附圖說(shuō)明
圖1為本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例1的流程示意圖;
圖2為本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例2的流程示意圖;
圖3為本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例1的結(jié)構(gòu)示意圖;
圖4為本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例2的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了便于理解本發(fā)明,下面將參照相關(guān)附圖對(duì)本發(fā)明進(jìn)行更全面的描述。附圖中給出了本發(fā)明的首選實(shí)施例。但是,本發(fā)明可以以許多不同的形式來(lái)實(shí)現(xiàn),并不限于本文所描述的實(shí)施例。相反地,提供這些實(shí)施例的目的是使對(duì)本發(fā)明的公開(kāi)內(nèi)容更加透徹全面。
除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語(yǔ)與屬于本發(fā)明的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。本文中在本發(fā)明的說(shuō)明書(shū)中所使用的術(shù)語(yǔ)只是為了描述具體的實(shí)施例的目的,不是旨在于限制本發(fā)明。本文所使用的術(shù)語(yǔ)“及/或”包括一個(gè)或多個(gè)相關(guān)的所列項(xiàng)目的任意的和所有的組合。
本發(fā)明熱門(mén)內(nèi)容搜索方法和系統(tǒng)應(yīng)用場(chǎng)景說(shuō)明:
在傳統(tǒng)內(nèi)容檢索方法中,關(guān)注度是根據(jù)發(fā)布時(shí)間、評(píng)論數(shù)量、點(diǎn)贊數(shù)等維度數(shù)據(jù)進(jìn)行求和運(yùn)算后得出的值,值越高表示關(guān)注度越高。而索引是用來(lái)提供全文檢索用的,關(guān)注度是對(duì)檢索的結(jié)果排序的參照依據(jù)。傳統(tǒng)熱門(mén)內(nèi)容搜索方法在進(jìn)行檢索時(shí),根據(jù)檢索關(guān)鍵詞獲取各文本數(shù)據(jù),然后結(jié)合關(guān)注度確定最終的排序結(jié)果。但傳統(tǒng)方法根據(jù)維度參數(shù)(即維度數(shù)據(jù))的值進(jìn)行直接運(yùn)算,易出現(xiàn)不同的內(nèi)容的維度數(shù)據(jù)具有較大的偏差的情況,最終會(huì)導(dǎo)致因?yàn)閮?nèi)容熱度值本身的大小造成排序結(jié)果的不準(zhǔn)確。
本發(fā)明熱門(mén)內(nèi)容搜索方法和系統(tǒng),具體可以適用于針對(duì)性的網(wǎng)站,例如各行業(yè)網(wǎng)站;優(yōu)選的,本發(fā)明熱門(mén)內(nèi)容搜索方法和系統(tǒng)適用于智能語(yǔ)義知識(shí)圖譜這類(lèi)內(nèi)容云系列軟件項(xiàng)目;智能語(yǔ)義知識(shí)圖譜作為媒體運(yùn)營(yíng)的中央廚房,擔(dān)任著媒體數(shù)據(jù)收集、清洗、入庫(kù)以及給內(nèi)容編輯提供檢索服務(wù)的重要角色,即在智能語(yǔ)義平臺(tái)根據(jù)預(yù)先設(shè)定的爬取規(guī)則從合作媒體客戶(hù)網(wǎng)站爬取相關(guān)媒體數(shù)據(jù)存入數(shù)據(jù)庫(kù),沉淀媒體數(shù)據(jù),為媒體內(nèi)容編輯提供數(shù)據(jù)搜索服務(wù)。本發(fā)明可以從合作媒體客戶(hù)網(wǎng)站爬取相關(guān)數(shù)據(jù),最后搜索到的熱門(mén)內(nèi)容更貼近某一類(lèi)行業(yè)的行業(yè)熱度,提高搜索結(jié)果的準(zhǔn)確性。
本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例1:
為了解決傳統(tǒng)熱門(mén)內(nèi)容搜索方法得到熱門(mén)內(nèi)容信息的準(zhǔn)確率低的問(wèn)題,本發(fā)明提供了一種熱門(mén)內(nèi)容搜索方法實(shí)施例1,圖1為本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例1的流程示意圖;如圖1所示,可以包括以下步驟:
步驟s110:獲取檢索關(guān)鍵詞;根據(jù)檢索關(guān)鍵詞,在預(yù)設(shè)索引庫(kù)中進(jìn)行檢索,得到各文本數(shù)據(jù);
步驟s120:根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值;將熱度增幅值和預(yù)設(shè)衰減值的乘積作為維度參數(shù)的熱度值,并對(duì)各維度參數(shù)的熱度值進(jìn)行相加求和,得到文本數(shù)據(jù)的內(nèi)容熱度值;
步驟s130:根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù);
步驟s140:將排序后的各文本數(shù)據(jù)作為根據(jù)檢索關(guān)鍵詞搜索出的熱門(mén)內(nèi)容進(jìn)行顯示或發(fā)送給相應(yīng)的外部應(yīng)用。
具體而言,本發(fā)明通過(guò)檢索獲取各文本數(shù)據(jù)(優(yōu)選的,可以采取全文檢索的方式),對(duì)文本數(shù)據(jù)根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,通過(guò)衰減值乘以熱度增幅算出各維度參數(shù)的熱度值,并根據(jù)熱度值得到文本數(shù)據(jù)的內(nèi)容熱度值;在用戶(hù)輸入關(guān)鍵字檢索時(shí),首先根據(jù)關(guān)鍵字進(jìn)行全文檢索,然后對(duì)各文本數(shù)據(jù)按照內(nèi)容熱度值進(jìn)行排序,再把排序后的結(jié)果返回給用戶(hù)。
其中,維度參數(shù)為根據(jù)用戶(hù)行為數(shù)據(jù)得到的衡量?jī)?nèi)容熱度的參數(shù);優(yōu)選的,維度參數(shù)指的是能夠體現(xiàn)文本數(shù)據(jù)的用戶(hù)關(guān)注度的維度數(shù)據(jù)(例如喜歡、點(diǎn)贊數(shù)、評(píng)論數(shù)以及轉(zhuǎn)載數(shù)等記載用戶(hù)行為的數(shù)據(jù));衰減值可以是根據(jù)時(shí)間段內(nèi)的不同,隨著時(shí)間的遞增而逐漸衰減的數(shù)值常量。熱度增幅值可以是根據(jù)時(shí)間范圍內(nèi)某一維度數(shù)據(jù)(即某一維度參數(shù))所增加的值。而內(nèi)容熱度值是體現(xiàn)內(nèi)容隨著時(shí)間的變化而體現(xiàn)出來(lái)的熱門(mén)程度的值,值越大代表越熱門(mén)。優(yōu)選的,熱度增幅值可以指根據(jù)計(jì)算文本數(shù)據(jù)在一個(gè)時(shí)間段內(nèi)維度參數(shù)(例如點(diǎn)贊數(shù)、閱讀數(shù)、評(píng)論數(shù))的增幅值。衰減值可以是根據(jù)時(shí)間段來(lái)靈活劃分得到的,優(yōu)選的,三天時(shí)間的衰減值是0.8,一周時(shí)間的衰減值是0.5,半個(gè)月時(shí)間的衰減值是0.3,衰減值越小代表衰減的程度越大。
本發(fā)明通過(guò)預(yù)設(shè)索引庫(kù)進(jìn)行全文檢索,然后對(duì)得到的各文本數(shù)據(jù)按照內(nèi)容熱度值進(jìn)行排序,這樣的排序結(jié)果可以準(zhǔn)確的體現(xiàn)文本數(shù)據(jù)的熱度情況和內(nèi)容熱度值的時(shí)效性,從而有效提高獲取熱門(mén)內(nèi)容信息的準(zhǔn)確性。
在一個(gè)具體的實(shí)施例中,根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,基于以下公式得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值:
熱度增幅值=維度參數(shù)當(dāng)前時(shí)間的參數(shù)值-維度參數(shù)上一個(gè)時(shí)間段的參數(shù)值。
具體而言,通過(guò)本發(fā)明中預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,能夠體現(xiàn)時(shí)間段內(nèi)的熱度情況,而不是只是根據(jù)評(píng)論數(shù)、閱讀數(shù)、點(diǎn)贊數(shù)等維度參數(shù)的值進(jìn)行直接運(yùn)算,因?yàn)椴煌膬?nèi)容其評(píng)論數(shù)、閱讀數(shù)、點(diǎn)贊數(shù)具有較大的偏差,最終會(huì)導(dǎo)致因?yàn)橹当旧淼拇笮∮绊懙脚判蚪Y(jié)果的不準(zhǔn)確,而根據(jù)這種預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,使得本發(fā)明可以根據(jù)時(shí)間段內(nèi)的增幅進(jìn)行計(jì)算,有效的提高了準(zhǔn)確性。
優(yōu)選的,可以依據(jù)以下公式實(shí)現(xiàn)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法:(1)熱度增幅值=某一維度(即某一維度參數(shù))當(dāng)前時(shí)間的值-某一維度(即某一維度參數(shù))上一個(gè)時(shí)間段的值;(2)衰減值是隨著時(shí)間推移而不斷衰減的特定常量值;(3)某一維度的熱度值=衰減值*某一維度的熱度增幅值(即二者的乘積);(4)內(nèi)容熱度值=將多個(gè)維度的熱度值進(jìn)行求和相加;
進(jìn)一步的,當(dāng)維度參數(shù)的數(shù)量為一個(gè)時(shí),內(nèi)容熱度值也可以通過(guò)衰減值乘以該維度參數(shù)的熱度增幅值計(jì)算得到的。
在一個(gè)具體的實(shí)施例中,維度參數(shù)包括點(diǎn)贊參數(shù)、評(píng)論參數(shù)和閱讀參數(shù);
將各維度參數(shù)的熱度值進(jìn)行相加求和,得到文本數(shù)據(jù)的內(nèi)容熱度值的步驟包括:
獲取熱度值與維度參數(shù)對(duì)應(yīng)的熱度權(quán)重的乘積,對(duì)各乘積進(jìn)行相加求和,得到內(nèi)容熱度值。
具體而言,為了更為準(zhǔn)確的得到內(nèi)容熱度值,可以根據(jù)用戶(hù)行為(例如點(diǎn)贊、喜歡、評(píng)論等)的使用頻次,分別設(shè)置維度參數(shù)的熱度權(quán)重;優(yōu)選的,可以將用戶(hù)喜歡的熱度權(quán)重?cái)?shù)值設(shè)置為最大,評(píng)論次之。然后將熱度權(quán)重和維度參數(shù)的熱度值進(jìn)行乘積運(yùn)算,將各乘積值進(jìn)行相加求和,從而得到文本數(shù)據(jù)的內(nèi)容熱度值。如此,能夠更準(zhǔn)確的反映文本數(shù)據(jù)的真實(shí)熱度。
在一個(gè)具體的實(shí)施例中,在獲取檢索關(guān)鍵詞的步驟之前還包括步驟:
根據(jù)預(yù)設(shè)的爬取規(guī)則,爬取網(wǎng)站的內(nèi)容信息,獲取內(nèi)容信息的文本數(shù)據(jù);
對(duì)文本數(shù)據(jù)進(jìn)行分詞,得到分詞后的詞語(yǔ)和句子;
根據(jù)分詞后的詞語(yǔ)和句子,建立倒排索引,并根據(jù)倒排索引,構(gòu)建預(yù)設(shè)索引庫(kù)。
具體而言,本發(fā)明中的行業(yè)網(wǎng)站可以是行業(yè)門(mén)戶(hù)網(wǎng)站;本發(fā)明可以根據(jù)爬取到的網(wǎng)站內(nèi)容的文本建立索引,首先對(duì)文本數(shù)據(jù)進(jìn)行分詞,然后根據(jù)切分出來(lái)的詞語(yǔ)和句子建立倒排索引,索引就是被用來(lái)存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射的數(shù)據(jù)。通過(guò)從行業(yè)門(mén)戶(hù)網(wǎng)站爬取相關(guān)數(shù)據(jù),最后搜索到的熱門(mén)內(nèi)容更貼近某一類(lèi)行業(yè)的行業(yè)熱度,可以進(jìn)一步提高搜索結(jié)果的準(zhǔn)確性。
需要說(shuō)明的是,預(yù)設(shè)的爬取規(guī)則可以指網(wǎng)絡(luò)爬蟲(chóng);對(duì)文本數(shù)據(jù)進(jìn)行分詞,得到分詞后的詞語(yǔ)和句子的步驟,可以采用例如基于字典匹配的分詞方法、基于語(yǔ)義分析的分詞算法以及基于概率統(tǒng)計(jì)模型的分詞方法來(lái)實(shí)現(xiàn)。
優(yōu)選的,可以通過(guò)solr(企業(yè)級(jí)搜索應(yīng)用服務(wù)器)實(shí)現(xiàn)本發(fā)明中根據(jù)檢索關(guān)鍵詞進(jìn)行全文檢索,得到各文本數(shù)據(jù)的步驟,從而進(jìn)一步提高各文本數(shù)據(jù)與關(guān)鍵詞的匹配度,保證搜索熱門(mén)內(nèi)容的準(zhǔn)確性。同時(shí)為建立索引以及獲取維度參數(shù)的準(zhǔn)確的熱度增幅值提供技術(shù)支持。
本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例1,根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,獲取各文本數(shù)據(jù)內(nèi)容熱度值;其中,使用時(shí)間熱度衰減值乘以熱度增幅值得出的熱度值可以大大降低隨著時(shí)間增長(zhǎng)對(duì)內(nèi)容熱度定義的偏差,得出的內(nèi)容熱度值更準(zhǔn)確;然后根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到能夠準(zhǔn)確體現(xiàn)內(nèi)容熱度的排序結(jié)果;以上步驟使得本發(fā)明可以體現(xiàn)時(shí)間段內(nèi)的熱度情況和內(nèi)容熱度值的時(shí)效性;同時(shí)根據(jù)時(shí)間段內(nèi)的熱度增幅值進(jìn)行計(jì)算,將各維度參數(shù)的熱度值之和作為內(nèi)容熱度值,能夠有效提高獲取熱門(mén)內(nèi)容信息的準(zhǔn)確性。
本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例2:
為了解決傳統(tǒng)熱門(mén)內(nèi)容搜索方法得到熱門(mén)內(nèi)容信息的準(zhǔn)確率低的問(wèn)題,本發(fā)明還提供了一種熱門(mén)內(nèi)容搜索方法實(shí)施例2;實(shí)施例2與上述實(shí)施例1相比,除了依據(jù)內(nèi)容熱度值對(duì)各文本數(shù)據(jù)進(jìn)行排序外,在對(duì)文本數(shù)據(jù)進(jìn)行全文搜索時(shí),還需要根據(jù)文本匹配的程度計(jì)算匹配值得分,并將匹配值與熱度值進(jìn)行結(jié)合的結(jié)果排序后返回檢索內(nèi)容,這樣的排序結(jié)果更能體現(xiàn)文章的熱度情況。圖2為本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例2的流程示意圖;如圖2所示,可以包括以下步驟:
步驟s210:獲取檢索關(guān)鍵詞;根據(jù)檢索關(guān)鍵詞,在預(yù)設(shè)索引庫(kù)中進(jìn)行檢索,得到各文本數(shù)據(jù);
步驟s220:根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值;將熱度增幅值和預(yù)設(shè)衰減值的乘積作為維度參數(shù)的熱度值,并對(duì)各維度參數(shù)的熱度值進(jìn)行相加求和,得到文本數(shù)據(jù)的內(nèi)容熱度值;
步驟s230:根據(jù)檢索關(guān)鍵詞與預(yù)設(shè)索引庫(kù)中詞句的匹配程度,得到各文本數(shù)據(jù)匹配值;
步驟s240:對(duì)內(nèi)容熱度值和匹配值進(jìn)行相加求和,得到最終分值;
步驟s250:根據(jù)最終分值由大到小的順序,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù);
步驟s260:將排序后的各文本數(shù)據(jù)作為根據(jù)檢索關(guān)鍵詞搜索出的熱門(mén)內(nèi)容進(jìn)行顯示或發(fā)送給相應(yīng)的外部應(yīng)用。
具體而言,即在實(shí)施例1中根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序的步驟之前還包括步驟:
根據(jù)檢索關(guān)鍵詞與預(yù)設(shè)索引庫(kù)中詞句的匹配程度,得到各文本數(shù)據(jù)匹配值;
實(shí)施例1中對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù)的步驟可以包括:
對(duì)內(nèi)容熱度值和匹配值進(jìn)行相加求和,得到最終分值;
根據(jù)最終分值由大到小的順序,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù)。
優(yōu)選的,本發(fā)明在檢索時(shí),首先根據(jù)關(guān)鍵字到索引庫(kù)中進(jìn)行全文匹配,根據(jù)關(guān)鍵詞與索引庫(kù)中的詞匹配的程度計(jì)算得出分值(例如,通過(guò)相似度算法獲得匹配值),接著再結(jié)合內(nèi)容熱度值進(jìn)行相加得到最終分?jǐn)?shù)值,各文本數(shù)據(jù)就是根據(jù)分?jǐn)?shù)值進(jìn)行從大到小的排序返回的,這樣的排序結(jié)果更能體現(xiàn)文本數(shù)據(jù)的熱度情況。
可以明確的是,本發(fā)明熱門(mén)內(nèi)容搜索方法實(shí)施例2的其它步驟流程可以與上述實(shí)施例1中的步驟流程相同,并達(dá)到相同或更佳的技術(shù)效果(例如更準(zhǔn)確的體現(xiàn)搜索內(nèi)容的熱度或獲得更準(zhǔn)確的內(nèi)容熱度值等),此處不再重復(fù)贅述。
本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例1:
基于以上熱門(mén)內(nèi)容搜索方法各實(shí)施例的技術(shù)方案,同時(shí)為了解決傳統(tǒng)熱門(mén)內(nèi)容搜索方法得到熱門(mén)內(nèi)容信息的準(zhǔn)確率低的問(wèn)題,本發(fā)明還提供了一種熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例1;圖3為本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例1的結(jié)構(gòu)示意圖;如圖3所示,可以包括
全文檢索單元310,用于獲取檢索關(guān)鍵詞,并根據(jù)檢索關(guān)鍵詞,在預(yù)設(shè)索引庫(kù)中進(jìn)行全文檢索,得到各文本數(shù)據(jù);
內(nèi)容熱度值獲取單元320,用于根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值;將熱度增幅值和預(yù)設(shè)衰減值的乘積作為維度參數(shù)的熱度值,并對(duì)各維度參數(shù)的熱度值進(jìn)行相加求和,得到文本數(shù)據(jù)的內(nèi)容熱度值;
排序單元330,用于根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù);
反饋單元340,用于將排序后的各文本數(shù)據(jù)作為根據(jù)檢索關(guān)鍵詞搜索出的熱門(mén)內(nèi)容進(jìn)行顯示或發(fā)送給相應(yīng)的外部應(yīng)用。
在一個(gè)具體的實(shí)施例中,內(nèi)容熱度值獲取單元根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,基于以下公式得到文本數(shù)據(jù)的各維度參數(shù)對(duì)應(yīng)的熱度增幅值:
熱度增幅值=維度參數(shù)當(dāng)前時(shí)間的參數(shù)值-維度參數(shù)上一個(gè)時(shí)間段的參數(shù)值。
在一個(gè)具體的實(shí)施例中,維度參數(shù)包括點(diǎn)贊參數(shù)、評(píng)論參數(shù)和閱讀參數(shù);
內(nèi)容熱度值獲取單元320,還用于獲取熱度值與維度參數(shù)對(duì)應(yīng)的熱度權(quán)重的乘積,對(duì)各乘積進(jìn)行相加求和,得到內(nèi)容熱度值。
在一個(gè)具體的實(shí)施例中,熱門(mén)內(nèi)容搜索系統(tǒng)還包括索引庫(kù)構(gòu)建單元350;
構(gòu)建索引庫(kù)單元350包括:
爬取模塊352,用于根據(jù)預(yù)設(shè)的爬取規(guī)則,爬取行業(yè)網(wǎng)站的內(nèi)容信息,獲取內(nèi)容信息的文本數(shù)據(jù);
分詞模塊354,用于對(duì)文本數(shù)據(jù)進(jìn)行分詞,得到分詞后的詞句;
索引庫(kù)構(gòu)建模塊356,根據(jù)分詞后的詞句,建立倒排索引,并根據(jù)倒排索引,構(gòu)建預(yù)設(shè)索引庫(kù)。
具體而言,需要說(shuō)明的是本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例1可以對(duì)應(yīng)實(shí)現(xiàn)上述熱門(mén)內(nèi)容搜索方法實(shí)施例1中的各方法步驟,此處不再重復(fù)贅述。
本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例2:
基于以上熱門(mén)內(nèi)容搜索方法各實(shí)施例的技術(shù)方案,同時(shí)為了解決傳統(tǒng)熱門(mén)內(nèi)容搜索方法得到熱門(mén)內(nèi)容信息的準(zhǔn)確率低的問(wèn)題,本發(fā)明基于熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例1的系統(tǒng)結(jié)構(gòu),還提供了一種熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例2;圖4為本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例2的結(jié)構(gòu)示意圖;如圖2所示,熱門(mén)內(nèi)容搜索系統(tǒng)還可以包括:
匹配值獲取單元460,用于根據(jù)檢索關(guān)鍵詞與預(yù)設(shè)索引庫(kù)中詞句的匹配程度,得到各文本數(shù)據(jù)匹配值;
排序單元430可以包括:
加和模塊432,用于對(duì)內(nèi)容熱度值和匹配值進(jìn)行相加求和,得到最終分值;
排序模塊434,用于根據(jù)最終分值由大到小的順序,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到排序后的各文本數(shù)據(jù)。
具體而言,需要說(shuō)明的是本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)實(shí)施例2可以對(duì)應(yīng)實(shí)現(xiàn)上述熱門(mén)內(nèi)容搜索方法實(shí)施例2中的各方法步驟,此處不再重復(fù)贅述。
本發(fā)明熱門(mén)內(nèi)容搜索系統(tǒng)各實(shí)施例,根據(jù)預(yù)設(shè)的時(shí)間波動(dòng)熱度算法,獲取各文本數(shù)據(jù)內(nèi)容熱度值;其中,使用時(shí)間熱度衰減值乘以熱度增幅值得出的熱度值可以大大降低隨著時(shí)間增長(zhǎng)對(duì)內(nèi)容熱度定義的偏差,得出的內(nèi)容熱度值更準(zhǔn)確;然后根據(jù)內(nèi)容熱度值,對(duì)各文本數(shù)據(jù)進(jìn)行排序,得到能夠準(zhǔn)確體現(xiàn)內(nèi)容熱度的排序結(jié)果;以上步驟使得本發(fā)明可以體現(xiàn)時(shí)間段內(nèi)的熱度情況和內(nèi)容熱度值的時(shí)效性;同時(shí)根據(jù)時(shí)間段內(nèi)的熱度增幅值進(jìn)行計(jì)算,將各維度參數(shù)的熱度值之和作為內(nèi)容熱度值,能夠有效提高獲取熱門(mén)內(nèi)容信息的準(zhǔn)確性。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括以上方法所述的步驟,所述的存儲(chǔ)介質(zhì),如:rom/ram、磁碟、光盤(pán)等。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專(zhuān)利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專(zhuān)利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。