欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種即時(shí)消息的主題內(nèi)容提取方法

文檔序號(hào):7629631閱讀:141來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種即時(shí)消息的主題內(nèi)容提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)及通信技術(shù)領(lǐng)域,尤其涉及一種即時(shí)消息的主題內(nèi)容提取方法。
背景技術(shù)
隨著Internet的發(fā)展和網(wǎng)絡(luò)的普及,即時(shí)通訊(IM,Instant Messenger)軟件的使用已經(jīng)慢慢的成為人們?nèi)粘9ぷ?、學(xué)習(xí)和生活中不可缺少的網(wǎng)上交流方式。通過(guò)IM軟件,人們可以實(shí)時(shí)地進(jìn)行文字、聲音和視頻的溝通。當(dāng)用戶(hù)通過(guò)IM軟件進(jìn)行文字聊天時(shí),如何對(duì)當(dāng)前即時(shí)消息進(jìn)行主題內(nèi)容的智能提取,并且,如何應(yīng)用提取到的主題信息,目前的IM軟件尚未給用戶(hù)帶來(lái)更好的體驗(yàn)和方便。
在目前IM軟件的文字聊天應(yīng)用中,尚無(wú)對(duì)聊天內(nèi)容進(jìn)行主題內(nèi)容的智能提取的應(yīng)用。當(dāng)用戶(hù)在聊天過(guò)程中,若想對(duì)聊天內(nèi)容中所感興趣的主題內(nèi)容進(jìn)行信息搜索時(shí),用戶(hù)必須手動(dòng)選擇并拷貝聊天的主題信息,同時(shí)自己?jiǎn)?dòng)搜索引擎(如Google,百度等),對(duì)聊天主題內(nèi)容進(jìn)行信息搜索。如果用戶(hù)想把搜索的結(jié)果共享給聊天的對(duì)方,還必須手動(dòng)拷貝信息,如此方式給用戶(hù)帶來(lái)了極大的不便。
其次,在目前現(xiàn)有的基于文字的主題內(nèi)容的智能提取技術(shù)中,在實(shí)時(shí)性和相關(guān)性上表現(xiàn)不好。所謂實(shí)時(shí)性,指捕獲到的主題內(nèi)容是否是當(dāng)前聊天內(nèi)容的主題;相關(guān)性,即捕獲主題內(nèi)容的準(zhǔn)確度。

發(fā)明內(nèi)容
本發(fā)明提供一種方法,以解決現(xiàn)有技術(shù)中無(wú)法對(duì)即時(shí)通訊中的主題內(nèi)容智能提取的問(wèn)題。
本發(fā)明提供一種方法,進(jìn)一步解決現(xiàn)有技術(shù)中只能手動(dòng)提取即時(shí)通訊中的主題內(nèi)容進(jìn)行應(yīng)用的問(wèn)題。
本發(fā)明提供以下技術(shù)方案一種應(yīng)用于即時(shí)通訊中的主題內(nèi)容提取方法,包括如下步驟A、根據(jù)預(yù)定的提取條件從即時(shí)消息中提取關(guān)鍵字;B、按照策略從提取出的關(guān)鍵字中確定主題內(nèi)容。
其中所述預(yù)定的提取條件為將即時(shí)消息所包含的所有文字與主題詞庫(kù)進(jìn)行匹配,并將匹配結(jié)果中出現(xiàn)頻率最高的單詞作為關(guān)鍵字。
所述即時(shí)消息是存在于滑動(dòng)窗口內(nèi)的即時(shí)消息。
所述滑動(dòng)窗口設(shè)有窗口大小和滑動(dòng)速度2個(gè)參數(shù),滑動(dòng)窗口根據(jù)這2個(gè)參數(shù)實(shí)時(shí)的對(duì)即時(shí)消息進(jìn)行捕獲。
所述主題詞庫(kù)的設(shè)置可擴(kuò)展,可自由地加入、刪除一個(gè)或多個(gè)詞庫(kù),也可以在詞庫(kù)中增加或者刪除一個(gè)或多個(gè)單詞。
所述預(yù)定的提取條件是指對(duì)即時(shí)消息的所有文字進(jìn)行單詞出現(xiàn)率統(tǒng)計(jì),并把出現(xiàn)頻率最高的單詞作為關(guān)鍵字。
對(duì)即時(shí)消息的所有文字進(jìn)行單詞出現(xiàn)率統(tǒng)計(jì),并把出現(xiàn)頻率最高的單詞作為關(guān)鍵字。
所述策略為計(jì)算提取到的各個(gè)關(guān)鍵字出現(xiàn)的相關(guān)度,將該相關(guān)度與閾值進(jìn)行比較,并在大于閾值時(shí)把該相關(guān)度對(duì)應(yīng)的關(guān)鍵字作為主題內(nèi)容。
所述關(guān)鍵字是存在于具有預(yù)先設(shè)定長(zhǎng)度的先進(jìn)先出的關(guān)鍵字隊(duì)列中。
所述相關(guān)度為關(guān)鍵字在關(guān)鍵字隊(duì)列中出現(xiàn)的次數(shù)與關(guān)鍵字隊(duì)列的長(zhǎng)度的比值。
在確定主題內(nèi)容后,啟動(dòng)搜索引擎,按照主題內(nèi)容進(jìn)行搜索并顯示搜索結(jié)果。
所述顯示搜索結(jié)果為將部分或全部搜索結(jié)果顯示于雙方、多方或任意一方的即時(shí)消息窗口上。
本發(fā)明的有益效果如下當(dāng)用戶(hù)通過(guò)IM軟件進(jìn)行即時(shí)通信時(shí),可以及時(shí)對(duì)當(dāng)前即時(shí)消息進(jìn)行主題內(nèi)容的智能提取,并且,可以應(yīng)用提取到的主題內(nèi)容,給IM用戶(hù)帶來(lái)更好的體驗(yàn)和方便。


圖1為本發(fā)明流程示意圖。
具體實(shí)施例方式
本發(fā)明根據(jù)IM中實(shí)時(shí)的即時(shí)消息,對(duì)主題內(nèi)容進(jìn)行智能提取,從而獲取用戶(hù)當(dāng)前聊天的主題內(nèi)容。在主題內(nèi)容的捕獲過(guò)程中,本發(fā)明使用了滑動(dòng)窗口技術(shù)、關(guān)鍵字隊(duì)列和主題相關(guān)度參數(shù),從而實(shí)現(xiàn)了提取主題內(nèi)容的實(shí)時(shí)性和相關(guān)性。
本發(fā)明設(shè)計(jì)了一個(gè)滑動(dòng)窗口,用于捕獲該滑動(dòng)窗口內(nèi)的關(guān)鍵字,關(guān)鍵字作為最終獲取主題內(nèi)容的依據(jù)和基礎(chǔ),只對(duì)實(shí)時(shí)存在于滑動(dòng)窗口內(nèi)的即時(shí)消息進(jìn)行統(tǒng)計(jì)和分析?;瑒?dòng)窗口有一定大小,并以一定的速度滑動(dòng),每滑動(dòng)一次,就對(duì)滑動(dòng)窗口內(nèi)的即時(shí)消息進(jìn)行一次統(tǒng)計(jì)和分析,統(tǒng)計(jì)分析的最小單位為一條即時(shí)消息。
滑動(dòng)窗口設(shè)置了兩個(gè)參數(shù)窗口大小(WindowSize)和滑動(dòng)速度(SlideVelocity),單位都為即時(shí)消息數(shù)目。例如,當(dāng)WindowSize=2,SlideVelocity=2時(shí),表示滑動(dòng)窗口中保持對(duì)兩條即時(shí)消息進(jìn)行處理,同時(shí),當(dāng)出現(xiàn)兩條新的即時(shí)消息時(shí),滑動(dòng)窗口向下滑動(dòng)兩條,并對(duì)滑動(dòng)窗口內(nèi)的2條即時(shí)消息進(jìn)行統(tǒng)計(jì)和分析。通常情況下,滑動(dòng)速度等于窗口大小,因?yàn)椋绻瑒?dòng)速度小于窗口大小時(shí),則會(huì)出現(xiàn)滑動(dòng)窗口內(nèi)的部分記錄被重復(fù)統(tǒng)計(jì)處理;反之,如果滑動(dòng)速度大于窗口大小時(shí),則會(huì)出現(xiàn)部分即時(shí)消息被遺漏,沒(méi)有被統(tǒng)計(jì)處理。
IM用戶(hù)可根據(jù)自己需求來(lái)定義這兩個(gè)變量,變量的初始值設(shè)置為WindowSize=2,SlideVelocity=2。
滑動(dòng)窗口每次滑動(dòng)時(shí),都會(huì)從滑動(dòng)窗口中新獲取的即時(shí)消息提取關(guān)鍵字。
根據(jù)人們文字聊天的習(xí)慣和常用語(yǔ)設(shè)置一主題詞庫(kù),包括氣候詞庫(kù)、景點(diǎn)詞庫(kù)、體育詞庫(kù)、軍事詞庫(kù)等常用的主題。在各個(gè)主題詞庫(kù)中,收集相關(guān)類(lèi)別的常用單詞。例如,在氣候詞庫(kù)中有天氣、氣候、溫度、寒冷、炎熱等;在景點(diǎn)詞庫(kù)中有九寨溝、張家界、鼓浪嶼、黃山、西湖等。主題詞庫(kù)的設(shè)置為可擴(kuò)展,可自由的加入或者刪除一個(gè)或多個(gè)詞庫(kù),也可以方便地在一個(gè)或多個(gè)主題詞庫(kù)中增加或者刪除一個(gè)或多個(gè)單詞。
有了主題詞庫(kù)之后,便可以進(jìn)行統(tǒng)計(jì)、提取關(guān)鍵字了。當(dāng)滑動(dòng)窗口按照預(yù)先設(shè)置的參數(shù)滑動(dòng)時(shí),將存在于滑動(dòng)窗口內(nèi)即時(shí)消息的所有文字到各個(gè)主題詞庫(kù)中進(jìn)行匹配。在匹配過(guò)程中,記錄下匹配到的單詞和該單詞出現(xiàn)的頻率,根據(jù)匹配結(jié)果,得到該滑動(dòng)窗口內(nèi)的關(guān)鍵字。在匹配過(guò)程中,如果有多個(gè)匹配結(jié)果,則從中選擇一個(gè)出現(xiàn)頻率最高的單詞作為最終的關(guān)鍵字。
然而,通過(guò)上述的匹配,存在有未匹配到任何關(guān)鍵字的可能性。
因此,在完成主題詞庫(kù)的匹配之后,如果沒(méi)有匹配到關(guān)鍵字,則進(jìn)行詞頻統(tǒng)計(jì)操作。即,當(dāng)滑動(dòng)窗口中的即時(shí)消息在主題詞庫(kù)中找不到任何匹配時(shí),則說(shuō)明用戶(hù)聊天的內(nèi)容不在主題詞庫(kù)范圍內(nèi),此時(shí),對(duì)滑動(dòng)窗口中即時(shí)消息包含的所有文字進(jìn)行單詞統(tǒng)計(jì),并且記錄下出現(xiàn)頻率最高的單詞,把該單詞作為提取到的關(guān)鍵字。
由此,在完成主題詞庫(kù)的匹配和詞頻統(tǒng)計(jì)之后,一定能提取到當(dāng)前滑動(dòng)窗口中的關(guān)鍵字。
通過(guò)上述處理,滑動(dòng)窗口的每次滑動(dòng)都會(huì)產(chǎn)生一個(gè)關(guān)鍵字,在滑動(dòng)窗口經(jīng)過(guò)若干次滑動(dòng)后,會(huì)出現(xiàn)多個(gè)關(guān)鍵字,然后按照一定的策略,從這些關(guān)鍵字中篩選出其中一個(gè)作為主題內(nèi)容。
首先,設(shè)計(jì)一個(gè)關(guān)鍵字隊(duì)列,用于存放滑動(dòng)窗口每次滑動(dòng)之后而產(chǎn)生的關(guān)鍵字。該關(guān)鍵字隊(duì)列按照先進(jìn)先出(First In First Out,F(xiàn)IFO)的隊(duì)列規(guī)則,且具有一定的長(zhǎng)度限制。通過(guò)設(shè)置隊(duì)列的長(zhǎng)度,可以控制關(guān)鍵字的時(shí)間有效性,即,當(dāng)一個(gè)關(guān)鍵字是在很久之前的聊天中提取到的,那么,該關(guān)鍵字就不應(yīng)該成為當(dāng)前聊天的主題內(nèi)容。故,通過(guò)隊(duì)列的長(zhǎng)度限制和FIFO隊(duì)列規(guī)則,近期入隊(duì)的關(guān)鍵字會(huì)使早期入隊(duì)的準(zhǔn)主題關(guān)鍵字出隊(duì)。由此,基于關(guān)鍵字隊(duì)列統(tǒng)計(jì)出的主題內(nèi)容永遠(yuǎn)都是當(dāng)前最新的聊天主題。隊(duì)列長(zhǎng)度的初始值設(shè)為5,表示隊(duì)列保留最新的5個(gè)關(guān)鍵字。
其次,為了用于表征相似主題出現(xiàn)的頻率,引入一個(gè)主題相關(guān)度,當(dāng)出現(xiàn)的頻率最高達(dá)到或超過(guò)相關(guān)度閾值時(shí),才認(rèn)為關(guān)鍵字就是當(dāng)前聊天的主題內(nèi)容。每個(gè)關(guān)鍵字的相關(guān)度等于,該關(guān)鍵字在關(guān)鍵字隊(duì)列中出現(xiàn)的次數(shù)除以關(guān)鍵字隊(duì)列的長(zhǎng)度所得的數(shù)值。例如,關(guān)鍵字“西湖”在關(guān)鍵字隊(duì)列中出現(xiàn)了4次,而隊(duì)列的長(zhǎng)度為5,那么關(guān)鍵字“西湖”的相關(guān)度為80%,如果預(yù)先設(shè)定的相關(guān)度閾值為60%,則將關(guān)鍵字“西湖”就作為主題內(nèi)容篩選出來(lái)。
設(shè)置了關(guān)鍵字隊(duì)列長(zhǎng)度和相關(guān)度之后,就可以獲取關(guān)鍵字了。每當(dāng)滑動(dòng)窗口滑動(dòng)一次,對(duì)關(guān)鍵字隊(duì)列中所有關(guān)鍵字進(jìn)行相關(guān)度的計(jì)算,取出相關(guān)度最大的關(guān)鍵字和預(yù)先設(shè)定的相關(guān)度閾值相比較,如果超過(guò)該相關(guān)度閾值,則取出的最大相關(guān)度的關(guān)鍵字為最終的主題關(guān)鍵字;相反,如果沒(méi)有超過(guò)閾值,則說(shuō)明當(dāng)前聊天沒(méi)有可提取的主題主題,等待下一次的滑動(dòng)窗口的滑動(dòng)。
每次窗口滑動(dòng)時(shí),都實(shí)時(shí)獲取用戶(hù)聊天的主題內(nèi)容,一旦獲取到主題內(nèi)容,則啟動(dòng)事先指定的搜索引擎,比如google或者百度等,對(duì)該主題內(nèi)容進(jìn)行搜索,并將搜索結(jié)果的部分或全部(可預(yù)先設(shè)定為3條)鏈接顯示在IM軟件的聊天對(duì)話(huà)窗口上,可以顯示在聊天雙方、多方或任意一方的聊天對(duì)話(huà)窗口上,由此,IM用戶(hù)不需要自己手動(dòng)操作,便可方便地對(duì)當(dāng)前聊天主題內(nèi)容進(jìn)行快速的查詢(xún),并自動(dòng)共享查詢(xún)結(jié)果。
下面結(jié)合附圖對(duì)本發(fā)明的完整方案作進(jìn)一步說(shuō)明,請(qǐng)參閱圖1,本發(fā)明的提供的方法為步驟100將存在于滑動(dòng)窗口中的即時(shí)消息所包含的所有文字與主題詞庫(kù)匹配;步驟200若匹配到單詞,則將出現(xiàn)頻率最高的單詞作為關(guān)鍵字壓入關(guān)鍵字隊(duì)列中并直接執(zhí)行步驟400,若未匹配到任何單詞,則執(zhí)行步驟300;步驟300對(duì)即時(shí)消息所包含的所有文字進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果中頻率最高的單詞壓入關(guān)鍵字隊(duì)列中;步驟400計(jì)算關(guān)鍵字隊(duì)列中所有關(guān)鍵字的相關(guān)度,并從結(jié)果中取出最大相關(guān)度與相關(guān)度閾值進(jìn)行比較,若超過(guò)相關(guān)度閾值,則把該最大相關(guān)度對(duì)應(yīng)的關(guān)鍵字作為主題內(nèi)容;步驟500應(yīng)用篩選出的主題內(nèi)容,啟動(dòng)事先設(shè)定的搜索引擎,并把搜索結(jié)果自動(dòng)共享顯示在聊天雙方、多方或任意一方的聊天對(duì)話(huà)窗口上。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種即時(shí)消息的主題內(nèi)容提取方法,其特征在于,包括如下步驟A、根據(jù)預(yù)定的提取條件從即時(shí)消息中提取關(guān)鍵字;B、按照策略從提取出的關(guān)鍵字中確定主題內(nèi)容。
2.如權(quán)利要求1所述的主題內(nèi)容提取方法,其特征在于,所述預(yù)定的提取條件為將即時(shí)消息所包含的所有文字與主題詞庫(kù)進(jìn)行匹配,并將匹配結(jié)果中出現(xiàn)頻率最高的單詞作為關(guān)鍵字。
3.如權(quán)利要求2所述的主題內(nèi)容提取方法,其特征在于,所述即時(shí)消息是存在于滑動(dòng)窗口內(nèi)的即時(shí)消息。
4.如權(quán)利要求3所述的主題內(nèi)容提取方法,其特征在于,所述滑動(dòng)窗口設(shè)有窗口大小和滑動(dòng)速度2個(gè)參數(shù),滑動(dòng)窗口根據(jù)這2個(gè)參數(shù)實(shí)時(shí)的對(duì)即時(shí)消息進(jìn)行捕獲。
5.如權(quán)利要求2所述的主題內(nèi)容提取方法,其特征在于,主題詞庫(kù)的設(shè)置可擴(kuò)展,可自由地加入、刪除一個(gè)或多個(gè)詞庫(kù),也可以在詞庫(kù)中增加或者刪除一個(gè)或多個(gè)單詞。
6.如權(quán)利要求1所述的主題內(nèi)容提取方法,其特征在于,所述預(yù)定的提取條件是指對(duì)即時(shí)消息的所有文字進(jìn)行單詞出現(xiàn)率統(tǒng)計(jì),并把出現(xiàn)頻率最高的單詞作為關(guān)鍵字。
7.如權(quán)利要求1所述的主題內(nèi)容提取方法,其特征在于,所述策略為計(jì)算提取到的各個(gè)關(guān)鍵字出現(xiàn)的相關(guān)度,將該相關(guān)度與閾值進(jìn)行比較,并在大于閾值時(shí)把該相關(guān)度對(duì)應(yīng)的關(guān)鍵字作為主題內(nèi)容。
8.如權(quán)利要求7所述的主題內(nèi)容提取方法,其特征在于,所述關(guān)鍵字是存在于具有預(yù)先設(shè)定長(zhǎng)度的先進(jìn)先出的關(guān)鍵字隊(duì)列中。
9.如權(quán)利要求7或8所述的主題內(nèi)容提取方法,其特征在于,所述相關(guān)度為關(guān)鍵字在關(guān)鍵字隊(duì)列中出現(xiàn)的次數(shù)與關(guān)鍵字隊(duì)列的長(zhǎng)度的比值。
10.如權(quán)利要求1所述的主題內(nèi)容提取方法,其特征在于,在確定主題內(nèi)容后,啟動(dòng)搜索引擎,按照主題內(nèi)容進(jìn)行搜索并顯示搜索結(jié)果。
11.如權(quán)利要求10所述的主題內(nèi)容提取方法,其特征在于,所述顯示搜索結(jié)果為將部分或全部搜索結(jié)果顯示于雙方、多方或任意一方的即時(shí)消息窗口上。
全文摘要
本發(fā)明公開(kāi)了一種應(yīng)用于即時(shí)通訊中的主題內(nèi)容提取方法,包括步驟根據(jù)預(yù)定的提取條件從即時(shí)消息中提取關(guān)鍵字;按照策略從提取出的關(guān)鍵字中篩選出主題內(nèi)容。本發(fā)明還可對(duì)篩選出的主題內(nèi)容進(jìn)行應(yīng)用,當(dāng)用戶(hù)通過(guò)IM軟件進(jìn)行即時(shí)通信時(shí),可以及時(shí)對(duì)當(dāng)前即時(shí)消息進(jìn)行主題內(nèi)容的智能提取,并應(yīng)用該主題內(nèi)容,提高了用戶(hù)的體驗(yàn)和方便。
文檔編號(hào)H04L12/58GK1983252SQ20051013445
公開(kāi)日2007年6月20日 申請(qǐng)日期2005年12月15日 優(yōu)先權(quán)日2005年12月15日
發(fā)明者李建成, 梁柱, 王麒 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
青铜峡市| 玉田县| 积石山| 水富县| 林周县| 巴里| 西城区| 台安县| 宁远县| 海晏县| 沿河| 新绛县| 泗水县| 宝应县| 卓尼县| 弥渡县| 延津县| 凌海市| 喜德县| 鹤岗市| 江陵县| 阿克苏市| 津市市| 南部县| 安宁市| 泾阳县| 丽江市| 瑞金市| 龙泉市| 内丘县| 甘德县| 保山市| 同江市| 阿尔山市| 安庆市| 巴塘县| 玉树县| 施甸县| 内黄县| 冷水江市| 大英县|