一種獲取跳轉(zhuǎn)距離的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)通信領(lǐng)域,特別涉及一種獲取跳轉(zhuǎn)距離的方法及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)媒體和SNS (Social Networking Services,社會(huì)性網(wǎng)絡(luò)服務(wù))的發(fā)展, 越來(lái)越多的網(wǎng)民喜愛(ài)在網(wǎng)絡(luò)上分享自己的信息,以及對(duì)別人的信息進(jìn)行評(píng)論,拉近了自己 與他人的距離。但總是有人寄予從網(wǎng)絡(luò)中獲取自己的物質(zhì)利益,發(fā)布各類廣告信息、色情信 息、暴力信息、詆毀信息、敏感信息等,惡意損害網(wǎng)絡(luò)的健康發(fā)展和他人的身心健康,甚至危 害公共安全。為了解決這類問(wèn)題,需要把這些不良信息進(jìn)行屏蔽。
[0003] 對(duì)于網(wǎng)絡(luò)中每條信息,可以將該信息與多模字符串樹中的關(guān)鍵詞進(jìn)行匹配,如果 匹配出該信息包含多模字符串樹中的一個(gè)或多個(gè)關(guān)鍵詞,則認(rèn)為該信息為不良信息并將 其屏蔽。例如,假設(shè)某條信息為nothingtowoeryaboutinthis,多模字符串樹如圖1-1所 不,該多模字符串樹包括關(guān)鍵詞 ethernetmovesme,ethernetisking,ethernetisdead 和 ethernetforever。將該信息與多模字符串樹中的關(guān)鍵詞進(jìn)行匹配過(guò)程如下:首先將該信息 包括的字符從最后一個(gè)字符s開始輸入到匹配窗口,直到輸入到匹配窗口中的字符串長(zhǎng)度 與多模字符串樹中的最短關(guān)鍵詞的長(zhǎng)度相等時(shí)為止,圖1-1所示的多模字符串樹中最短關(guān) 鍵詞的長(zhǎng)度為14。
[0004] 參見(jiàn)圖1-2,往匹配窗口輸入14個(gè)字符后,該匹配窗口包括字符e、r、y、a、b、o、u、 ^11、〖、1 1、1和8,獲取該匹配窗口中的第一個(gè)字符6,獲取多模字符串樹中位于第一層次 的字符e,將位于第一層次的字符e作為第一個(gè)字符e的目標(biāo)字符,將第一個(gè)字符e與其對(duì) 應(yīng)的目標(biāo)字符e進(jìn)行匹配。匹配的結(jié)果為兩者相同,然后獲取匹配窗口中的第二個(gè)字符r, 獲取多模字符串樹中位于第二層次的字符t,從位于第二層次的字符中選擇與第一個(gè)字符 e匹配的目標(biāo)字符e的子節(jié)點(diǎn),該子節(jié)點(diǎn)為目標(biāo)字符e的子節(jié)點(diǎn)且包含字符t。將字符t作 為第二個(gè)字符r的目標(biāo)字符,將第二個(gè)字符r與其對(duì)應(yīng)的目標(biāo)字符t進(jìn)行匹配。匹配的結(jié)果 為兩者不同,然后將第二個(gè)字符r與第三層次的字符h進(jìn)行比對(duì),比對(duì)出第二個(gè)字符r與第 三層次內(nèi)的字符h不同,將第二個(gè)字符r與第四層次內(nèi)的字符e進(jìn)行比對(duì),比對(duì)出第二個(gè)字 符r與第四層次內(nèi)的字符e不同,將第二個(gè)字符r與第五層次內(nèi)的字符r進(jìn)行比對(duì),比對(duì)出 兩者相同,計(jì)算第五層次的層次號(hào)5和第二個(gè)字符對(duì)應(yīng)的目標(biāo)字符t所在的層次號(hào)2之間 的差值3,將計(jì)算的差值3作為匹配窗口的跳轉(zhuǎn)距離。參見(jiàn)圖1-3,根據(jù)該跳轉(zhuǎn)距離移動(dòng)匹 配窗口,使字符〇、w和〇輸入到該匹配窗口中,然后再按上述過(guò)程進(jìn)行處理,直到出現(xiàn)匹配 窗口中的某字符與多模字符串樹中的一關(guān)鍵詞的尾節(jié)點(diǎn)中的字符相同時(shí)為止或匹配窗口 中的某字符與其對(duì)應(yīng)的目標(biāo)字符不匹配且該信息中的每個(gè)字符都輸入到匹配窗口時(shí)為止, 該關(guān)鍵詞的尾節(jié)點(diǎn)中包括該關(guān)鍵詞的最后一個(gè)字符。其中,如果出現(xiàn)匹配窗口中的某字符 與多模字符串樹中的一關(guān)鍵詞的尾節(jié)點(diǎn)中的字符相同,則表示該信息包含關(guān)鍵詞,該關(guān)鍵 詞為從多模字符串樹的根節(jié)點(diǎn)到該尾節(jié)點(diǎn)的路徑上的每個(gè)字符組成的關(guān)鍵詞。
[0005] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:
[0006] 目前當(dāng)匹配窗口中的某字符與其對(duì)應(yīng)的層次內(nèi)的目標(biāo)字符不匹配時(shí),需要將該字 符依次與該層次之后的每一層次內(nèi)的字符進(jìn)行比對(duì),直到比對(duì)出相同的字符時(shí)才能獲取到 匹配窗口的跳轉(zhuǎn)距離,所以目前的獲取跳轉(zhuǎn)距離的過(guò)程較復(fù)雜,運(yùn)算量大,獲取跳轉(zhuǎn)距離的 效率低下。
【發(fā)明內(nèi)容】
[0007] 為了提高獲取跳轉(zhuǎn)距離的效率,本發(fā)明提供了一種獲取跳轉(zhuǎn)距離的方法及裝置。 所述技術(shù)方案如下:
[0008] -種獲取跳轉(zhuǎn)距離的方法,所述方法包括:
[0009] 將所述待匹配的字符串中的字符從最后一個(gè)字符開始輸入到匹配窗口,直到所述 匹配窗口中的字符串長(zhǎng)度與多模字符串樹中的一個(gè)關(guān)鍵詞的長(zhǎng)度相等時(shí)為止;
[0010] 將所述匹配窗口中的字符從第一個(gè)字符開始逐個(gè)與所述多模字符串樹中對(duì)應(yīng)的 目標(biāo)字符進(jìn)行匹配;
[0011] 當(dāng)出現(xiàn)所述匹配窗口中的字符與所述多模字符串樹中對(duì)應(yīng)的目標(biāo)字符不匹配時(shí), 根據(jù)跳轉(zhuǎn)表和所述不匹配的字符,獲取所述匹配窗口的跳轉(zhuǎn)距離,所述跳轉(zhuǎn)表包括當(dāng)前層 次號(hào)、字符與跳轉(zhuǎn)后的層次號(hào)的對(duì)應(yīng)關(guān)系。
[0012] 一種獲取跳轉(zhuǎn)距離的裝置,所述裝置包括:
[0013] 輸入模塊,用于將所述待匹配的字符串中的字符從最后一個(gè)字符開始輸入到匹配 窗口,直到所述匹配窗口中的字符串長(zhǎng)度與多模字符串樹中的最短關(guān)鍵詞長(zhǎng)度相等時(shí)為 止;
[0014] 匹配模塊,用于將所述匹配窗口中的字符從第一個(gè)字符開始逐個(gè)與所述多模字符 串樹中對(duì)應(yīng)的目標(biāo)字符進(jìn)行匹配;
[0015] 獲取模塊,用于當(dāng)出現(xiàn)所述匹配窗口中的字符與所述多模字符串樹中對(duì)應(yīng)的目標(biāo) 字符不匹配時(shí),根據(jù)跳轉(zhuǎn)表和所述不匹配的字符,獲取所述匹配窗口的跳轉(zhuǎn)距離,所述跳轉(zhuǎn) 表包括當(dāng)前層次號(hào)、字符與跳轉(zhuǎn)后的層次號(hào)的對(duì)應(yīng)關(guān)系。
[0016] 在本發(fā)明實(shí)施例中,由于根據(jù)跳轉(zhuǎn)表和不匹配的字符,可以快速獲取到匹配窗口 的跳轉(zhuǎn)距離,從而能夠提高獲取跳轉(zhuǎn)距離的效率。
【附圖說(shuō)明】
[0017] 圖1-1是現(xiàn)有技術(shù)提供的一種多模字符串樹的結(jié)構(gòu)示意圖;
[0018] 圖1-2是現(xiàn)有技術(shù)提供的一種字符串與多模字符串樹的第一匹配過(guò)程;
[0019] 圖1-3是現(xiàn)有技術(shù)提供的一種字符串與多模字符串樹的第二匹配過(guò)程;
[0020] 圖1-4是本發(fā)明實(shí)施例1提供的一種獲取跳轉(zhuǎn)距離的方法流程圖;
[0021] 圖2-1是本發(fā)明實(shí)施例2提供的一種獲取跳轉(zhuǎn)距離的方法流程圖;
[0022] 圖2-2是本發(fā)明實(shí)施例2提供的一種多模字符串樹的結(jié)構(gòu)示意圖;
[0023] 圖2-3是本發(fā)明實(shí)施例2提供的一種待匹配的字符串與多模字符串樹的匹配過(guò) 程;
[0024] 圖2-4是本發(fā)明實(shí)施例2提供的一種待添加的關(guān)鍵詞與多模字符串樹的匹配過(guò) 程;
[0025] 圖2-5是本發(fā)明實(shí)施例2提供的一種多模字符串樹的結(jié)構(gòu)示意圖;
[0026] 圖3是本發(fā)明實(shí)施例3提供的一種獲取跳轉(zhuǎn)距離的裝置結(jié)構(gòu)示意圖;
[0027] 圖4是本發(fā)明實(shí)施例4提供的一種終端結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0029] 實(shí)施例1
[0030] 參見(jiàn)圖1-4,本發(fā)明實(shí)施例提供了一種獲取跳轉(zhuǎn)距離的方法,包括:
[0031] 步驟101 :將待匹配的字符串中的字符從最后一個(gè)字符開始輸入到匹配窗口,直 到匹配窗口中的字符串長(zhǎng)度與多模字符串樹中的最短關(guān)鍵詞長(zhǎng)度相等時(shí)為止;
[0032] 步驟102 :將匹配窗口中的字符從第一個(gè)字符開始逐個(gè)與多模字符串樹中對(duì)應(yīng)的 目標(biāo)字符進(jìn)行匹配;
[0033] 步驟103 :當(dāng)出現(xiàn)匹配窗口中的字符與多模字符串樹中對(duì)應(yīng)的目標(biāo)字符不匹配 時(shí),根據(jù)跳轉(zhuǎn)表和不匹配的字符,獲取匹配窗口的跳轉(zhuǎn)距離,該跳轉(zhuǎn)表包括當(dāng)前層次號(hào)、字 符與跳轉(zhuǎn)后的層次號(hào)的對(duì)應(yīng)關(guān)系。
[0034] 在本發(fā)明實(shí)施例中,由于根據(jù)跳轉(zhuǎn)表和不匹配的字符,可以快速獲取到匹配窗口 的跳轉(zhuǎn)距離,從而能夠提高獲取跳轉(zhuǎn)距離的效率。
[0035] 實(shí)施例2
[0036] 參見(jiàn)圖2-1,本發(fā)明實(shí)施例提供了一種獲取跳轉(zhuǎn)距離的方法,包括:
[0037] 步驟201 :將待匹配的字符串中的字符從最后一個(gè)字符開始輸入到匹配窗口中, 直到匹配窗口中的字符串長(zhǎng)度與多模字符串樹中的最短關(guān)鍵詞長(zhǎng)度相等時(shí)為止。
[0038] 待匹配的字符串為網(wǎng)絡(luò)中的任一條消息,例如,待匹配的字符串可以為微博消息 或評(píng)論消息等。
[0039] 多模字符串樹中包括多個(gè)關(guān)鍵詞,在多模字符串樹中,每個(gè)關(guān)鍵詞對(duì)應(yīng)一條路徑, 該關(guān)鍵詞包括的每個(gè)字符為該關(guān)鍵詞對(duì)應(yīng)的路徑中的節(jié)點(diǎn)。例如,參見(jiàn)圖1-1所示的多模 字符串樹,該多模字符串樹中包括 ethernetmovesme,ethernetisking,ethernetisdead 和 ethernetforever 四個(gè)關(guān)鍵詞。關(guān)鍵詞 ethernetmovesme 包括字符 e、t、h、e、r、n、e、t、m、 0、¥、6、8、111和6,字符6、1:、]1、6、1'、11、6、1:、111、0、¥、6、8、1]1和6者|1為關(guān)鍵詞61:]161'1161:1]10¥681116 對(duì)應(yīng)路徑中的節(jié)點(diǎn)。
[0040] 每個(gè)關(guān)鍵詞存在對(duì)應(yīng)的屬性信息,該關(guān)鍵詞的屬性信息包括該關(guān)鍵詞適用的有效 區(qū)域以及在該有效區(qū)域下適用的有效場(chǎng)景。該有效區(qū)域包括多個(gè)有效場(chǎng)景,有效區(qū)域可以 為微博或網(wǎng)絡(luò)空間等,微博下的有效場(chǎng)景可以為微博正文、評(píng)論或個(gè)人資料等。
[0041] 對(duì)于每條消息,該消息對(duì)應(yīng)一個(gè)有效區(qū)域和有效場(chǎng)景,例如,對(duì)于微博消息,該微 博消息對(duì)應(yīng)的有效區(qū)域?yàn)槲⒉?,?duì)應(yīng)的有效場(chǎng)景為微博正文。當(dāng)某消息中包括一關(guān)鍵詞,如 果該消息所在的有效區(qū)域?yàn)樵撽P(guān)鍵詞適用的有效區(qū)域以及該消息所在的有效場(chǎng)景為該關(guān) 鍵詞在該有效區(qū)域下適用的有效場(chǎng)景,則可以將該消息確認(rèn)為不良消息,否則,將該消息確 認(rèn)為非不良消息。例如,對(duì)于某條微博消息,該微博消息所在的有效區(qū)域?yàn)槲⒉?,所在的?效場(chǎng)景為微博正文。假設(shè),該微博消息包含一關(guān)鍵詞,該關(guān)鍵詞適用的有效區(qū)域?yàn)槲⒉?,?該有效區(qū)域下適用的有效場(chǎng)景為微博正文,所以可以確認(rèn)為該微博消息為不良消息。
[0042] 在本發(fā)明實(shí)施例中,每個(gè)關(guān)鍵詞對(duì)應(yīng)至少一個(gè)屬性節(jié)點(diǎn),該關(guān)鍵詞對(duì)應(yīng)的屬性 節(jié)點(diǎn)中包括該關(guān)鍵詞的屬性信息。在多模字符串樹中,該關(guān)鍵詞對(duì)應(yīng)的路徑中包括的尾 節(jié)點(diǎn)中存儲(chǔ)用于指向該關(guān)鍵詞對(duì)應(yīng)的屬性節(jié)點(diǎn)的指針。例如,參見(jiàn)圖2-2,對(duì)于關(guān)鍵詞 ethernetmovesme,該關(guān)鍵詞對(duì)應(yīng)的路徑中的尾節(jié)點(diǎn)為節(jié)點(diǎn)e,在尾節(jié)點(diǎn)e中存在指針,該指 針指向該關(guān)鍵詞對(duì)應(yīng)的屬性節(jié)點(diǎn)。進(jìn)一步地,還可以在該關(guān)鍵詞的屬性節(jié)點(diǎn)中存儲(chǔ)該關(guān)鍵 詞的等級(jí)。
[0043] 例如,假設(shè),待匹配的字符串為nothingtowoeryaboutinthis,圖1-1所示的多模 字符串樹中的最短關(guān)鍵詞為ethernetisking和ethernetisdead,且最短關(guān)鍵詞的長(zhǎng)度為 14。參見(jiàn)圖1-2,將從待匹配的字符串nothingtowoeryaboutinthis中的字符從最后一個(gè)字 符e開始輸入到匹配窗口中,直到輸入到匹配窗口中的字符串的長(zhǎng)度達(dá)到14時(shí)為止,其中, 輸入到匹配窗口的字符為e、r、y、a、b、〇、u、t、i、n、t、h、i和s。
[0044] 步驟202 :將