欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文件群集的自動摘要判斷方法

文檔序號:6441886閱讀:199來源:國知局
專利名稱:文件群集的自動摘要判斷方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種文件的摘要處理方法,特別涉及一種文件群集的自動摘要判斷方法。
背景技術(shù)
計(jì)算機(jī)及因特網(wǎng)的快速發(fā)展,造成因特網(wǎng)信息量的快速爆增。一般而言,使用者大都是通過特定的入口網(wǎng)站觀看所喜愛的內(nèi)文。所謂的文件泛指的是網(wǎng)頁中的文章、新聞或信息,亦可稱的為數(shù)字文件,由于目前數(shù)字科技的普遍運(yùn)用,近年來文件的產(chǎn)生極為快速,數(shù)量非常龐大,而且為達(dá)到即時的更新頁面中的各項(xiàng)文件的版面的目的,大多數(shù)的文件提供者(例如入口網(wǎng)站)都會提供文件內(nèi)容的摘要處理與顯示,藉以提供使用者可以同時觀看更多數(shù)量的文件。
現(xiàn)有的文件摘要處理是將文件中的主文內(nèi)容進(jìn)行部分的摘錄。誠如前文所提到,入口網(wǎng)站每一天所接收到的文件數(shù)量是非常龐大的。若使用人工進(jìn)行摘要處理的話,對于廠商不啻為一項(xiàng)沉重的負(fù)擔(dān)。因此文件提供者多會采用自動摘要的處理,其處理方式是將主文中的標(biāo)題或前幾個字直接取出,將其當(dāng)成該篇文件的摘要并顯示于首頁中,也就是說現(xiàn)有的摘要處理方法雖然可以提高同一頁面中的文章顯示數(shù)量,但是大部分為求處理快速,僅僅擷取主文部分文字作為該篇文件的摘要,而未做摘要內(nèi)容是否符合貼近主文重點(diǎn)或摘要內(nèi)容是否充足豐富的判斷,于是造成使用者在瀏覽該篇摘要時,常難以理解該篇文件的真正內(nèi)容,不符合現(xiàn)代使用者瀏覽重點(diǎn)式摘要的需求。發(fā)明內(nèi)容
有鑒于上述問題,本發(fā)明的主要目的在于揭露一種文件群集的自動摘要判斷方法,以期能在使用者瀏覽選定的文件群集(該文件群集即為一網(wǎng)站的頁面內(nèi)容或該網(wǎng)站的一個頻道頁面內(nèi)容),先判斷該文件群集中所夾帶的所有子文件的原始摘要內(nèi)容是否充足且貼近主文重點(diǎn),經(jīng)由本發(fā)明的多個判斷步驟分析是否需就該文件群集的內(nèi)容(其中所有的子文件)產(chǎn)出更貼近主文重點(diǎn)的摘要重組內(nèi)容(較佳的摘要內(nèi)容),以求能更符合使用者瀏覽重點(diǎn)式摘要的需求。
為達(dá)成上述目的,本發(fā)明的主要技術(shù)手段包含下列步驟:(A)建立一數(shù)據(jù)庫,將使用者預(yù)載的每一個包含有多筆子文件摘要內(nèi)容及主文內(nèi)容的文件群集包裝儲存成對應(yīng)的文件群集歷程記錄文件,每一個該文件群集歷程記錄文件中記錄有該些子文件的該摘要內(nèi)容及該主文內(nèi)容,并設(shè)置有一文件累計(jì)數(shù)值、一摘要化累計(jì)次數(shù)值及一摘要化成功次數(shù)值;(B)針對使用者欲瀏覽的該文件群集,于該數(shù)據(jù)庫中取出對應(yīng)的該文件群集歷程記錄文件;再針對該文件群集歷程記錄文件中的每一筆子文件的摘要內(nèi)容,配合一文件累計(jì)數(shù)值、一摘要化累計(jì)次數(shù)值及一摘要化成功次數(shù)值,進(jìn)行下列主要的回圈式判斷步驟,直至文件群集歷程記錄文件中所有的子文件的摘要內(nèi)容都被處理過為止,(C)針對其中該文件累計(jì)數(shù)值判斷是否大于一第一門檻值;(D)計(jì)算該摘要化累計(jì)次數(shù)值及該摘要化成功次數(shù)值以產(chǎn)生一摘要化成功率數(shù)值;(E)判斷該摘要化成功率數(shù)值是否大于一第二門檻值;(F)判斷該筆子文件的摘要內(nèi)容長度是否大于一第三門檻值;(G)針對該筆子文件的主文內(nèi)容進(jìn)行一摘要化處理,產(chǎn)出一新摘要內(nèi)容;(J)輸出新摘要內(nèi)容。
其中,文件累計(jì)數(shù)值、摘要化累計(jì)次數(shù)值及摘要化成功次數(shù)值會隨著數(shù)據(jù)庫中文件群集歷程記錄文件的建置和上述判斷步驟的執(zhí)行過程中而不斷變化,由上述判斷步驟(其中步驟(H)至步驟(I)是為更新該文件群集記錄文件的動作,故未列于前述步驟中,有關(guān)本發(fā)明詳細(xì)步驟細(xì)節(jié)將于實(shí)施方式中搭配實(shí)施例闡述),得以于使用者瀏覽選定的文件群集內(nèi)容前,先行判斷是否需就該文件群集內(nèi)容中的所有子文件的摘要內(nèi)容進(jìn)行摘要處理的動作,以產(chǎn)出更貼近主文重點(diǎn)的新摘要內(nèi)容,提供使用者較佳的摘要瀏覽需要。
本發(fā)明還可延伸設(shè)置更多的數(shù)值及增加更細(xì)微的判斷步驟進(jìn)行交叉比對,藉以檢查并輸出最佳化的摘要結(jié)果供使用者瀏覽,如于步驟(G)中還包含:(G1)比對新摘要內(nèi)容長度與該筆子文件的(原始)摘要內(nèi)容長度,若新摘要內(nèi)容長度小于該筆子文件的(原始)摘要內(nèi)容長度,則表示該筆子文件的(原始)摘要內(nèi)容較豐富,便直接選擇輸出該筆子文件的(原始)摘要內(nèi)容;(G2)若新摘要內(nèi)容長度大于該筆子文件的摘要內(nèi)容長度,則代表經(jīng)上述步驟所產(chǎn)出的新摘要內(nèi)容較豐富,而進(jìn)行步驟(J)輸出更符合使用者瀏覽需求的新摘要內(nèi)容。
以下結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述,但不作為對本發(fā)明的限定。


圖1本發(fā)明一較佳實(shí)施例的方框執(zhí)行程序示意圖。
圖2本發(fā)明一較佳實(shí)施例的文件群集歷程記錄文件的示意圖。
圖3 —新聞網(wǎng)頁對照解說示意圖。
圖4本發(fā)明一較佳實(shí)施例的詳細(xì)步驟流程圖。
圖5該較佳實(shí)施例的一新增步驟示意圖。
圖6該較佳實(shí)施例的另一新增步驟示意圖。
圖7本發(fā)明另一較佳實(shí)施例的詳細(xì)步驟流程圖。
圖8該較佳實(shí)施例的一新增步驟示意圖。
其中,附圖標(biāo)記
20使用者預(yù)載的文件群集
21文件群集A
211 子文件 Al
2111摘要內(nèi)容
212 子文件 A2
2121摘要內(nèi)容
22文件群集B
30數(shù)據(jù)庫
SlO S17步驟說明
S20 S29步驟說明
S5O SM步驟說明具體實(shí)施方式
有關(guān)本發(fā)明的特征與實(shí)施例,以下茲配合附圖與較佳實(shí)施例的詳細(xì)說明清楚呈現(xiàn)如下。
本發(fā)明以下所揭露的實(shí)施例,可以通過一般具有數(shù)字化數(shù)據(jù)處理能力的電子設(shè)備實(shí)施,例如計(jì)算機(jī)及智能型手機(jī),這里所稱的計(jì)算機(jī)包含但不限于個人計(jì)算機(jī)(PersonalComputer)或是筆記型計(jì)算機(jī)(Note Book Computer),通過軟體的途徑執(zhí)行下文中所揭露的方法來加以實(shí)現(xiàn)。
圖1主要闡述了本發(fā)明的一個較佳實(shí)施例的方框執(zhí)行程序示意圖,如圖中所示,其主要執(zhí)行程序以下步驟:
步驟SlO:建立數(shù)據(jù)庫,產(chǎn)出對應(yīng)于預(yù)載文件群集內(nèi)容的文件群集記錄文件;
步驟Sll:針對使用者選擇,取出對應(yīng)的文件群集記錄文件(內(nèi)容及數(shù)值);
步驟S12:針對其中數(shù)值判斷第一門檻值;
步驟S13:針對其中數(shù)值計(jì)算摘要化成功率;
步驟S14:針對摘要化成功率判斷第二門檻值;
步驟S15:針對其中內(nèi)容判斷第三門檻值;
步驟S16:針對其中內(nèi)容進(jìn)行摘要化處理,產(chǎn)出新摘要內(nèi)容;
步驟S17:更新文件群集歷程記錄文件(內(nèi)容及數(shù)值),并輸出該新摘要內(nèi)容。
由上述步驟主要可得知,本發(fā)明是通過建置文件群集記錄文件,并通過其中所記錄的內(nèi)容及數(shù)值,分別經(jīng)過步驟S12至S15至少三個門檻值的嚴(yán)謹(jǐn)判斷,若判斷均成立后,才會進(jìn)行步驟S16摘要化處理的動作產(chǎn)出一新摘要內(nèi)容,并于步驟S17輸出該新摘要內(nèi)容于顯示端。由于文件群集記錄文件記錄了對應(yīng)的文件群集內(nèi)容和建置了多個可供分析的判斷數(shù)值,于上述步驟中還可加入更多的交叉比對動作,增加更多的門檻值進(jìn)行更嚴(yán)謹(jǐn)?shù)呐袛嗖襟E,而得到更貼近使用者需要的摘要內(nèi)容。此種于使用者瀏覽文件群集內(nèi)容的前,針對文件群集內(nèi)容中的所有子文件的摘要判斷流程,實(shí)為業(yè)界獨(dú)創(chuàng)的方式。
其中于步驟SlO中(請同時參考圖2),先建立一數(shù)據(jù)庫30,將使用者預(yù)載的多個文件群集(文件群集A、文件群集B)中所夾帶的每一個子文件的摘要內(nèi)容及主文內(nèi)容抓取出來包裝儲存成對應(yīng)的文件群集歷程記錄文件(文件群集記錄文件CA、文件群集記錄文件CB),也就是說有多少個文件群集就形成多少個對應(yīng)的文件群集歷程記錄文件,其中文件群集A中夾帶有數(shù)筆子文件(以下以第一筆子文件Al做概括解說),該文件群集歷程記錄文件CA將文件群集A中夾帶的子文件Al的摘要內(nèi)容All及主文內(nèi)容A12抓取出來儲存為對應(yīng)的摘要內(nèi)容CAl I及主文內(nèi)容CAl2,并設(shè)置一文件累計(jì)數(shù)值CA2、一摘要化累計(jì)次數(shù)值CA3及一摘要化成功次數(shù)值CA4。
其中所述的文件群集A是為一網(wǎng)站的頁面內(nèi)容或該網(wǎng)站的一個頻道頁面內(nèi)容,其可能包括新聞頻道(News channel)、運(yùn)動頻道(Sport channel)、科技頻道(TechnologyChannel)或財經(jīng)頻道(Economics channel)等各式類型相近的網(wǎng)站頁面內(nèi)容或頻道頁面內(nèi)容,每一個頁面內(nèi)容中,都會有大量的文章顯示數(shù)量,請同時參考圖3,圖3是以一新聞網(wǎng)頁對照解說,其中每一個單獨(dú)的頁面(21、22),即為一個單獨(dú)的文件群集A、文件群集B,其中該文件群集A(21)中,即放置有多個經(jīng)節(jié)錄出來的當(dāng)日新聞文章(211即子文件Al、212即子文件A2)以供點(diǎn)閱瀏覽,但由于網(wǎng)頁空間有限的原因,所以該些新聞文章均僅擷取主文部分文字(有的附加圖片)作為該篇文件的摘要內(nèi)容(即子文件Al的摘要內(nèi)容2111、子文件A2的摘要內(nèi)容2121),并顯示于頁面上供點(diǎn)閱瀏覽,如圖中所示,該摘要內(nèi)容(2111、2121)是根據(jù)主文內(nèi)容所產(chǎn)生的部分內(nèi)容(其內(nèi)容可能為文字或文字加上圖片,如圖所示該摘要內(nèi)容2111、2121即為文字加上圖片),而關(guān)于如何抓取網(wǎng)頁純文字及圖片內(nèi)容的技術(shù),為本領(lǐng)域技術(shù)人員所熟知且非本案的重點(diǎn),故不在此重復(fù)贅述。
以下搭配圖4所示的詳細(xì)步驟流程圖,做更詳細(xì)的步驟解說。步驟S20是先建立一個數(shù)據(jù)庫,將使用者于網(wǎng)路上預(yù)載好的每一個文件群集包裝儲存成對應(yīng)的文件群集歷程記錄文件,每一個文件群集如前述都夾帶著多筆的子文件摘要內(nèi)容及主文內(nèi)容,本發(fā)明通過前述抓取網(wǎng)頁純文字及圖片內(nèi)容的技術(shù),將文件群集中每一筆子文件的原始摘要內(nèi)容及主文內(nèi)容抓取出來,并一一記錄在對應(yīng)的文件群集歷程記錄文件中,文件群集歷程記錄文件中同時設(shè)置有可供分析的文件累計(jì)數(shù)值、摘要化累計(jì)次數(shù)值及摘要化成功次數(shù)值(有關(guān)步驟S20的成型方式,請參考前述和圖2所示),設(shè)置文件累計(jì)數(shù)值、摘要化累計(jì)次數(shù)值及摘要化成功次數(shù)值的用意是在做為進(jìn)行后續(xù)步驟或下次使用時,判斷邏輯上的參考之用
其中,文件累計(jì)數(shù)值、摘要化累計(jì)次數(shù)值及摘要化成功次數(shù)值一開始都先設(shè)為0,該些數(shù)值將隨著后續(xù)步驟的執(zhí)行而累積變化,本發(fā)明的步驟是一次取出文件群集歷程記錄文件中的一筆子文件的摘要內(nèi)容做判斷,所以當(dāng)取出一筆子文件的摘要內(nèi)容時,文件累計(jì)數(shù)值就加1,一直累加下去,其記錄該份文件群集歷程記錄文件中處理過子文件數(shù)量,避免文件群集歷程記錄文件中累積處理過的子文件數(shù)量太少,而進(jìn)行后續(xù)步驟浪費(fèi)記憶體運(yùn)算資源,或者因累積處理過的子文件數(shù)量太少而造成執(zhí)行后續(xù)步驟時產(chǎn)生錯誤的判斷,故文件累計(jì)數(shù)值限定需達(dá)到預(yù)定數(shù)量,如后續(xù)步驟S22中需與第一門檻值做比對,大于預(yù)設(shè)的第一門檻值才會進(jìn)行后續(xù)的步驟。
而摘要化累計(jì)次數(shù)值及摘要化成功次數(shù)值,則隨著步驟的執(zhí)行而記錄著產(chǎn)生新摘要內(nèi)容的次數(shù)和新摘要內(nèi)容覆蓋取代該筆子文件(原始)摘要內(nèi)容的次數(shù)(將詳細(xì)說明如后)。
另外該數(shù)據(jù)庫是持續(xù)累積記錄內(nèi)容及數(shù)值,在使用者更新預(yù)載的文件群集后,會把同一個來源的文件群集的新內(nèi)容,再抓取出來置入之前已經(jīng)建置好的對應(yīng)的文件群集歷程記錄文件中累積記錄,并更新該份文件群集歷程記錄文件中的文件累計(jì)數(shù)值,若是上次沒建置到的新來源的文件群集,便會再產(chǎn)生一個對應(yīng)的新的文件群集記錄文件。這樣的數(shù)據(jù)庫建置及應(yīng)用方式,對于使用者下次選定欲瀏覽的文件群集時,由于文件群集歷程記錄文件不斷的累積內(nèi)容及更新判斷數(shù)值(文件累計(jì)數(shù)值、摘要化累計(jì)次數(shù)值及摘要化成功次數(shù)),對于進(jìn)行后續(xù)步驟S21至步驟S29會得到一次比一次快速的判斷結(jié)果,并輸出最貼近主文重點(diǎn)的較佳摘要化內(nèi)容供使用者瀏覽。以下為方便說明,先將文件累計(jì)數(shù)值預(yù)設(shè)為199 (即代表該文件群集歷程記錄文件中處理過了 199筆子文件的摘要內(nèi)容及主文內(nèi)容),并將摘要化累計(jì)次數(shù)值預(yù)設(shè)為150、摘要化成功次數(shù)值設(shè)為120。
當(dāng)數(shù)據(jù)庫建置好之后,接下來便可于步驟S21中,在使用者選定欲瀏覽的文件群集前,先于數(shù)據(jù)庫中取出對應(yīng)于該文件群集的文件群集歷程記錄文件出來,并進(jìn)行步驟S22,先取出該文件群集歷程記錄文件中記錄的其中一筆子文件的(原始)摘要內(nèi)容(第200筆子文件),因?yàn)橛秩〕隽艘还P子文件的(原始)摘要內(nèi)容,所以先更新文件累計(jì)數(shù)值將之累加I使之?dāng)?shù)值成為200,接著判斷文件群集歷程記錄文件中設(shè)置的文件累計(jì)數(shù)值是否大于第一門檻值,于本實(shí)施例中,將該第一門檻值設(shè)定為100,代表該文件群集歷程記錄文件中至少要累積有100篇子文件內(nèi)容(摘要內(nèi)容和主文內(nèi)容),才進(jìn)行步驟S23繼續(xù)判斷,若小于第一門檻值就直接跳至步驟S29輸出該筆子文件的摘要內(nèi)容。于本實(shí)施例中,文件累計(jì)數(shù)值200大于第一門檻值數(shù)值100,所以繼續(xù)進(jìn)行步驟S23。
于步驟S23中,計(jì)算該文件累計(jì)數(shù)值及該摘要化成功次數(shù)值,產(chǎn)生一摘要化成功率數(shù)值,于本實(shí)施例中通過下列方式計(jì)算出該摘要化成功率數(shù)值,其計(jì)算方式可以與文件群集歷程記錄文件中設(shè)置的判斷數(shù)值做多種組合計(jì)算,當(dāng)不應(yīng)限定以何種方式計(jì)算出摘要化成功率數(shù)值,于此僅舉下例說明之。
摘要化成功率數(shù)值=摘要化成功次數(shù)值(數(shù)值:120)/摘要化累計(jì)次數(shù)值(數(shù)值:150)
得到摘要化成功率數(shù)值為0.8,接著進(jìn)行步驟S24。
于步驟S24中,預(yù)設(shè)一個第二門檻值為0.5,用以跟步驟S23中計(jì)算出來的摘要化成功率數(shù)值做判斷,若該摘要化成功率大于第二門檻值,則進(jìn)行下一步驟S25繼續(xù)判斷,若小于第二門檻值就直接跳至步驟S29輸出該筆子文件的(原始)摘要內(nèi)容。于本實(shí)施例中,于步驟S23中計(jì)算出來的摘要化成功率數(shù)值0.6大于第二門檻值0.5,所以進(jìn)行步驟S25繼續(xù)判斷。
于步驟S25中,預(yù)設(shè)一個第三門檻值為100,用以跟該筆子文件的(原始)摘要內(nèi)容長度做判斷,用意是判斷該筆子文件的(原始)摘要內(nèi)容長度是否夠長,若大于第三門檻值,則判定該筆子文件(原始)摘要內(nèi)容就足夠充足了,不需要再進(jìn)行后續(xù)判斷步驟,直接跳至步驟S29輸出該筆子文件的(原始)摘要內(nèi)容。以下為方便步驟說明,設(shè)定該筆子文件的(原始)摘要內(nèi)容為50,于本實(shí)施例中,該筆子文件的(原始)摘要內(nèi)容(數(shù)值50)小于第三門檻值100,所以繼續(xù)進(jìn)行步驟S26。
經(jīng)由前面種種步驟判斷至此,于步驟S26中即對該子文件的主文內(nèi)容進(jìn)行一摘要化處理,以產(chǎn)出一新摘要內(nèi)容。至于所述摘要化處理產(chǎn)生新摘要內(nèi)容的方式,是通過特別的演算法將該筆子文件的主文內(nèi)容中的文字字元和圖片抓取出來,進(jìn)行演算法計(jì)算后(例如與標(biāo)題做比對或計(jì)算段落權(quán)重、文章最大區(qū)塊等等方式)而將文字字元和圖片重組成一個新的摘要內(nèi)容,關(guān)于該演算法的技術(shù),為本領(lǐng)域技術(shù)人員所熟知且非本案的重點(diǎn),故不在此重復(fù)贅述。當(dāng)產(chǎn)出一新摘要內(nèi)容之后,即將該摘要化累計(jì)次數(shù)值累加1,代表產(chǎn)出了一次新摘要內(nèi)容,然后繼續(xù)進(jìn)行步驟S27,將產(chǎn)出的該筆新摘要內(nèi)容更新至該份文件群集歷程記錄文件中取代該筆子文件的(原始)摘要內(nèi)容(于此步驟中,該筆子文件原來的舊摘要內(nèi)容已被新摘要內(nèi)容覆蓋并儲存于該文件群集歷程記錄文件中),及進(jìn)行步驟S28更新該文件群集歷程記錄文件中的摘要化成功次數(shù)值將之?dāng)?shù)值累加1,代表摘要判斷又成功了 I筆(以供后續(xù)步驟或下次使用文件群集歷程記錄文件時判斷邏輯上的參考),然后繼續(xù)進(jìn)行步驟S29。
于步驟S29中,便直接將文件群集歷程記錄文件中的該筆子文件的摘要內(nèi)容輸出于顯示端供使用者瀏覽,完成文件群集歷程記錄文件中該筆子文件的摘要判斷流程,并重復(fù)步驟S22,取出下一筆子文件的(原始)摘要內(nèi)容繼續(xù)進(jìn)行步驟S22至步驟S29的判斷流程,直至該文件群集歷程記錄文件中所有的子文件(原始)摘要內(nèi)容都被處理過為止。
而于本實(shí)施例中,可于文件群集歷程記錄文件中加入新的數(shù)值產(chǎn)生新的組合判斷或更進(jìn)一步的比對,如圖5,本實(shí)施例的一新增步驟示意圖,于步驟S22中,當(dāng)文件累計(jì)數(shù)值(數(shù)值:200)大于第一門檻值(數(shù)值:100)之后,再多增加一個步驟S221的判斷,進(jìn)一步判斷摘要化累計(jì)數(shù)值是否也大于一第四門檻值,如此通過判斷文件累計(jì)數(shù)值及摘要化累計(jì)數(shù)值是否均達(dá)預(yù)定數(shù)量的雙重判斷,更可達(dá)到嚴(yán)謹(jǐn)?shù)谋葘?,避免無謂的進(jìn)行后續(xù)步驟而浪費(fèi)記憶體運(yùn)算資源,或因累積處理過的子文件數(shù)量太少而造成執(zhí)行后續(xù)步驟時產(chǎn)生錯誤的判斷。于本實(shí)施例中,摘要化累計(jì)數(shù)值150,大于第四門檻值20,所以可以再繼續(xù)進(jìn)行步驟S23。
再如圖6,本實(shí)施例的另一新增步驟示意圖,于步驟S26針對該子文件的主文內(nèi)容進(jìn)行一摘要化處理,以產(chǎn)出一新摘要內(nèi)容之后,增加一個步驟S261的步驟,進(jìn)一步比對該新摘要內(nèi)容長度與該子文件的(原始)摘要內(nèi)容長度,判斷新摘要內(nèi)容與(原始)摘要內(nèi)容兩者哪一個內(nèi)容長度比較長(即摘要內(nèi)容較豐富),若產(chǎn)出的新摘要內(nèi)容長度比較長,則進(jìn)行步驟S57進(jìn)行更新該筆子文件摘要的動作,若經(jīng)比對后,該筆子文件的(原始)摘要內(nèi)容比新產(chǎn)出的新摘要內(nèi)容長度還長,則直接跳至步驟S59輸出原來的摘要內(nèi)容,經(jīng)過步驟S561的判斷,可選出最適合的摘要內(nèi)容,并減少程序的誤判。于本實(shí)施例中,假設(shè)于步驟S26中所產(chǎn)出的新摘要內(nèi)容長度為60,而本實(shí)施例于上述步驟S25中已經(jīng)預(yù)設(shè)該筆子文件的(原始)摘要內(nèi)容為50,于是經(jīng)過步驟S261的比對判斷后,該新摘要內(nèi)容長度大于該筆子文件的(原始)摘要內(nèi)容長度,所以進(jìn)行步驟S27的將產(chǎn)出的該筆新摘要內(nèi)容更新至該份文件群集歷程記錄文件中取代該筆子文件的(原始)摘要內(nèi)容的動作,而若新摘要內(nèi)容長度小于該筆子文件的(原始)摘要內(nèi)容長度的話,則判定該筆子文件的(原始)摘要內(nèi)容較豐富,所以直接進(jìn)行步驟S29輸出該筆子文件的(原始)摘要內(nèi)容。
圖7顯示另一完整的較佳實(shí)施例,即將前述新增的判斷步驟都加入(即圖中步驟S521及步驟S561),使的成為一個較完整的判斷流程,其判斷方式于前述都以充分闡述,所以不在此重復(fù)贅述。而為了使本發(fā)明的判斷流程更加詳盡及令輸出結(jié)果更為優(yōu)良及減少誤判的可能性,請參考圖8,于本實(shí)施例中還于步驟S53計(jì)算出該筆子文件的摘要成功率之后,于步驟S54判斷該摘要化成功率是否大于預(yù)設(shè)的第二門檻值的判斷步驟中,加入了更詳細(xì)的一個敗部復(fù)活判斷流程(該摘要化成功率若小于第二門檻值,在直接進(jìn)行步驟S59直接輸出該筆子文件的原始摘要內(nèi)容之前,先進(jìn)行摘要化成功率不高的子文件有敗部復(fù)活空間的進(jìn)一步判斷),以提高該筆子文件的摘要化成功率及增加該份文件群集歷程記錄文件的摘要化成功次數(shù)。
該判斷步驟包含:(步驟S541)判斷該摘要化成功率數(shù)值是否大于一第二門檻值,若該摘要化成功率數(shù)值大于該第二門檻值,則進(jìn)行步驟S55 ;若該摘要化成功率數(shù)值小于該第二門檻值,則進(jìn)行下列(敗部復(fù)活)步驟:
(步驟S542)計(jì)算該摘要化累計(jì)次數(shù)值及該文件累計(jì)數(shù)值,產(chǎn)生一摘要化頻率數(shù)值;
(步驟S543)判斷該摘要化頻率數(shù)值是否大于一第五門檻值,若該摘要化頻率數(shù)值大于該第五門檻值,則進(jìn)行步驟S59 ;
(步驟S544)若該摘要化頻率數(shù)值小于該第五門檻值,則更新該N值,并判斷該N值是否等于一第六門檻值,若該N值不等于該第六門檻值,則進(jìn)行步驟S59步驟;
若該N值等于該第六門檻值,則將該N值歸零并進(jìn)行步驟S55。
以下為方便清楚解說,先假設(shè)于步驟S53計(jì)算出來的該筆子文件的摘要成功率為0.4 (有關(guān)如何計(jì)算摘要成功率,已于前述實(shí)施例中完整揭露),而第二門檻值預(yù)設(shè)為0.5,另外摘要化累計(jì)次數(shù)值預(yù)設(shè)為18,文件累計(jì)數(shù)值預(yù)設(shè)為200。于步驟S541中,摘要化成功率數(shù)值0.4小于第二門檻值0.5,于是進(jìn)行步驟S542。于步驟S542中,計(jì)算摘要化累計(jì)次數(shù)值及該文件累計(jì)數(shù)值,產(chǎn)生一摘要化頻率數(shù)值,本實(shí)施例通過下列方式計(jì)算出該摘要化頻率數(shù)值,其計(jì)算方式可以與文件群集歷程記錄文件中設(shè)置的判斷數(shù)值做多種組合計(jì)算,當(dāng)不應(yīng)限定以何種方式計(jì)算出摘要化頻率數(shù)值,于此僅舉下例說明之。
摘要化頻率數(shù)值=摘要化累計(jì)次數(shù)值(數(shù)值:18)/文件累計(jì)數(shù)值(數(shù)值:200)
得到摘要化頻率數(shù)值為0.09,接著進(jìn)行步驟S543。
于步驟S543中預(yù)設(shè)一第五門檻值為0.1,用以跟步驟S542中計(jì)算出來的摘要化頻率數(shù)值做判斷,若該摘要化頻率數(shù)值小于第五門檻值,則進(jìn)行下一步驟S544繼續(xù)判斷,若大于第五門檻值就直接跳至步驟S59輸出該筆子文件的(原始)摘要內(nèi)容。于本實(shí)施例中,于步驟S542中計(jì)算出來的摘要化頻率數(shù)值0.09小于第五門檻值0.1,所以進(jìn)行步驟S544繼續(xù)判斷。
于S544中設(shè)置有一計(jì)數(shù)值N,該計(jì)數(shù)值N是累積記錄于步驟S541中摘要化成功率低于第二門檻值而進(jìn)入S542敗部復(fù)活判斷程序的子文件數(shù)量,一開始設(shè)為0,每當(dāng)處理一筆子文件就累加1,用以與一預(yù)設(shè)的第六門檻值做比對,用意在當(dāng)處理的子文件達(dá)到預(yù)設(shè)的數(shù)量(第六門檻值)時,便將該筆子文件的摘要內(nèi)容進(jìn)行后續(xù)步驟S55的判斷而不是直接將該筆子文件的摘要內(nèi)容輸出,藉以得到隨機(jī)篩選的目的,提高本發(fā)明針對文件群集歷程記錄文件中的子文件摘要內(nèi)容做判斷處理的數(shù)量,也能減少因?yàn)椴襟ES53中計(jì)算出來的該筆子文件摘要化成功率太低而未做后續(xù)判斷步驟的誤判結(jié)果產(chǎn)生。于本步驟中,該第六門檻值可設(shè)為4 6中的任一個數(shù)值,并用以和計(jì)數(shù)值N做判斷,以得到當(dāng)計(jì)數(shù)值N累積到第4筆、第5筆或第6筆子文件時,即將該筆摘要化成功率太低的子文件的摘要內(nèi)容進(jìn)行后續(xù)步驟S55的進(jìn)一步判斷,此即達(dá)到隨機(jī)篩選及前述所謂敗部復(fù)活的用意。
當(dāng)然,本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種文件群集的自動摘要判斷方法,其特征在于,包括下列步驟: (A)建立一數(shù)據(jù)庫,將使用者預(yù)載的每一個包含有多筆子文件摘要內(nèi)容及主文內(nèi)容的文件群集包裝儲存成對應(yīng)的文件群集歷程記錄文件,每一個該文件群集歷程記錄文件中記錄有該些子文件的該摘要內(nèi)容及該主文內(nèi)容,并設(shè)置有一文件累計(jì)數(shù)值、一摘要化累計(jì)次數(shù)值及一摘要化成功次數(shù)值; (B)針對使用者欲瀏覽的文件群集,于該數(shù)據(jù)庫中取出對應(yīng)的該文件群集歷程記錄文件; (C)取出其中一筆子文件的該摘要內(nèi)容,更新該文件累計(jì)數(shù)值并判斷該文件累計(jì)數(shù)值是否大于一第一門檻值,若該文件累計(jì)數(shù)值小于該第一門檻值,則進(jìn)行(F)步驟; (D)若該文件累計(jì)數(shù)值大于該第一門檻值,則計(jì)算該摘要化累計(jì)次數(shù)值及該摘要化成功次數(shù)值,產(chǎn)生一摘要化成功率數(shù)值; (E)判斷該摘要化成功率數(shù)值是否大于一第二門檻值,若該摘要化成功率數(shù)值小于該第二門檻值,則進(jìn)行(J)步驟; (F)判斷該摘要內(nèi)容長度是否大于一第三門檻值,若該摘要內(nèi)容長度大于該第三門檻值則進(jìn)行(J)步驟; (G)若該摘要內(nèi)容長度小于該第三門檻值,對該子文件的該主文內(nèi)容進(jìn)行一摘要化處理,產(chǎn)出一新摘要內(nèi)容并更新該摘要化累計(jì)次數(shù)值; (H)將該新摘要內(nèi)容更新至該文件群集歷程記錄文件中取代該筆子文件的摘要內(nèi)容; (I)更新該摘要化成功次數(shù)值; (J)輸出該摘要內(nèi)容于顯示端; 重復(fù)步驟(C)至步驟(K)步驟,直至該文件群集歷程記錄文件中所有的子文件摘要內(nèi)容都被處理過為止。
2.根據(jù)權(quán)利要求1所述的文件群集的自動摘要判斷方法,其特征在于,該文件群集為一網(wǎng)站或該網(wǎng)站的一頻道內(nèi)容。
3.根據(jù)權(quán)利要求1所述的文件群集的自動摘要判斷方法,其特征在于,該文件群集歷程記錄文件中還設(shè)置有一計(jì)數(shù)值N。
4.根據(jù)權(quán)利要求1所述的文件群集的自動摘要判斷方法,其特征在于,于步驟(C)還包含: (Cl)判斷該摘要化累計(jì)次數(shù)值是否大于一第四門檻值,若該摘要化累計(jì)次數(shù)值小于該第四門檻值則進(jìn)行(F)步驟;以及 (C2)若該摘要化累計(jì)次數(shù)值大于該第四門檻值則進(jìn)行(D)步驟。
5.根據(jù)權(quán)利要求4所述的文件群集的自動摘要判斷方法,其特征在于,該第四門檻值為20。
6.根據(jù)權(quán)利要求1或3所述的文件群集的自動摘要判斷方法,其特征在于,該步驟(E)包含: (El)判斷該摘要化成功率數(shù)值是否大于一第二門檻值,若該摘要化成功率數(shù)值大于該第二門檻值,則進(jìn)行(F)步驟; (E2)若該摘要化成功率數(shù)值小于該第二門檻值,則進(jìn)行下列步驟: (E21)計(jì)算該摘要化累計(jì)次數(shù)值及該文件累計(jì)數(shù)值,產(chǎn)生一摘要化頻率數(shù)值;(E22)判斷該摘要化頻率數(shù)值是否大于一第五門檻值,若該摘要化頻率數(shù)值大于該第五門檻值,則進(jìn)行(J)步驟; (E23)若該摘要化頻率數(shù)值小于該第五門檻值,則更新該計(jì)數(shù)值N,并判斷該計(jì)數(shù)值N是否等于一第六門檻值,若該計(jì)數(shù)值N不等于該第六門檻值,則進(jìn)行(J)步驟; (E24)若該計(jì)數(shù)值N等于該第六門檻值,則將該計(jì)數(shù)值N歸零并進(jìn)行(F)步驟。
7.根據(jù)權(quán)利要求6所述的文件群集的自動摘要判斷方法,其特征在于,該第二門檻值為 0.5。
8.根據(jù)權(quán)利要求6所述的文件群集的自動摘要判斷方法,其特征在于,該第五門檻值為 0.1。
9.根據(jù)權(quán)利要求6所述的文件群集的自動摘要判斷方法,其特征在于,該第六門檻值為4 6。
10.根據(jù)權(quán)利要求1或3所述的文件群集的自動摘要判斷方法,其特征在于,于步驟(G)還包含: (Gl)比對該新摘要內(nèi)容長度與該子文件的該摘要內(nèi)容長度,若該新摘要內(nèi)容長度小于該子文件的該摘要內(nèi)容長度,則進(jìn)行(J)步驟;以及 (G2)若該新摘要內(nèi)容長度大于該子文件的該摘要內(nèi)容長度,則進(jìn)行(H)步驟。
11.根據(jù)權(quán)利要求1所述的文件群集的自動摘要判斷方法,其特征在于,該摘要內(nèi)容由文字、圖片所組成。
12.根據(jù)權(quán)利要求1所述的文件群集的自動摘要判斷方法,其特征在于,該新摘要內(nèi)容由新摘要文字、新摘要圖片所組成。
13.根據(jù)權(quán)利要求1所述的文件群集的自動摘要判斷方法,其特征在于,該第一門檻值為 100。
14.根據(jù)權(quán)利要求1所述的 文件群集的自動摘要判斷方法,其特征在于,該第三門檻值為 100。
全文摘要
一種文件群集的自動摘要判斷方法,其建置一數(shù)據(jù)庫將使用者預(yù)載的每一個包含有多筆子文件摘要內(nèi)容及主文內(nèi)容的文件群集包裝儲存成對應(yīng)的文件群集歷程記錄文件,每一個文件群集歷程記錄文件中記錄有該文件群集中每一個子文件的原始摘要內(nèi)容及主文內(nèi)容,并設(shè)有多個可供分析的判斷數(shù)值,當(dāng)使用者欲瀏覽某文件群集內(nèi)容時,通過該數(shù)據(jù)庫中對應(yīng)于該文件群集的文件群集歷程記錄文件中所記錄的內(nèi)容和數(shù)值,進(jìn)行是否需要對該文件群集中的所有子文件產(chǎn)出更貼近主文重點(diǎn)的新摘要內(nèi)容的判斷。
文檔編號G06F17/30GK103164473SQ20111042407
公開日2013年6月19日 申請日期2011年12月8日 優(yōu)先權(quán)日2011年12月8日
發(fā)明者蔡弘揚(yáng), 高子騰, 薛格閔 申請人:易搜比控股公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
始兴县| 海阳市| 昭苏县| 忻州市| 乌海市| 寿光市| 平山县| 漳浦县| 广昌县| 金寨县| 紫金县| 博野县| 海口市| 元谋县| 宜兴市| 弥渡县| 怀柔区| 昌吉市| 长垣县| 文山县| 林口县| 宣城市| 赤峰市| 岗巴县| 大邑县| 仪陇县| 旌德县| 彰化县| 莱芜市| 邵阳市| 白银市| 泗水县| 芒康县| 读书| 临沂市| 惠州市| 阿巴嘎旗| 青川县| 法库县| 屯留县| 定西市|