欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種將pdf格式文件轉(zhuǎn)換為epub格式的方法及系統(tǒng)的制作方法

文檔序號(hào):6429614閱讀:213來(lái)源:國(guó)知局

專利名稱::一種將pdf格式文件轉(zhuǎn)換為epub格式的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及文檔處理
技術(shù)領(lǐng)域
,特別是涉及一種將PDF格式文件轉(zhuǎn)換為EPUB格式的方法及系統(tǒng)。
背景技術(shù)
:PDF是PortableDocumentFormat(便攜文件格式)的縮寫,是一種電子文件格式。PDF文件格式以其卓越的特性成為在互聯(lián)網(wǎng)上進(jìn)行電子文檔發(fā)行和格式化信息傳播的理想文件格式。當(dāng)前,在互聯(lián)網(wǎng)上發(fā)布的科技論文大部分以PDF格式提交。但是,因?yàn)镻DF文件是根據(jù)坐標(biāo)來(lái)排版的,而小型設(shè)備上很難絕對(duì)定位,所以PDF文件在小型設(shè)備或者移動(dòng)設(shè)備上不能自適應(yīng)頁(yè)面?,F(xiàn)有技術(shù)中,為了在小型設(shè)備或者移動(dòng)設(shè)備上更好地顯示PDF文件的內(nèi)容,通常將PDF格式文件轉(zhuǎn)換為EPUB格式。EPUB格式是一種電子圖書標(biāo)準(zhǔn),屬于一種可以“自動(dòng)重新編排”的內(nèi)容;也就是文字內(nèi)容可以根據(jù)閱讀設(shè)備的特性,以最適于閱讀的方式顯示。EPUB檔案內(nèi)部使用了XHTML或DTBook(—種由DAISYConsortium提出的XML標(biāo)準(zhǔn))來(lái)展現(xiàn)文字、并以zip壓縮格式來(lái)包裹檔案內(nèi)容。現(xiàn)有技術(shù)中,將PDF格式文件轉(zhuǎn)換為EPUB格式的方法主要有兩種一種是只提取PDF格式文件中的文本,圖片去除。顯然該方式存在圖片缺失的缺點(diǎn)。另一種方式是對(duì)PDF格式文件的每一頁(yè)進(jìn)行截圖。由于截圖時(shí)會(huì)導(dǎo)致分辨率下降,在小型設(shè)備上閱讀時(shí),文字更加難以識(shí)別。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種將PDF格式文件轉(zhuǎn)換為EPUB格式的方法及系統(tǒng),使得轉(zhuǎn)換后的EPUB格式文件能夠圖文并茂,并且轉(zhuǎn)換后的EPUB格式文件中,圖像元素與文本元素的相對(duì)位置關(guān)系與原PDF格式文件相同。為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案一種將PDF格式文件轉(zhuǎn)換為EPUB格式的方法,包括識(shí)別PDF格式文件中的文本元素、圖像元素;獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系相同;按照確定的位置,生成HTML格式文件;根據(jù)所述HTML格式文件,生成EPUB格式文件。優(yōu)選的,所述根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系相同,包括根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。優(yōu)選的,所述根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方,包括判斷所述文本元素的右下點(diǎn)的縱坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的縱坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的上方;否則,判斷所述文本元素的右下點(diǎn)的橫坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的橫坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的上方;否則,將所述文本元素定位在所述圖像元素的下方。優(yōu)選的,所述根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方,包括判斷所述文本元素的左上點(diǎn)的縱坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的縱坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的下方;否則,判斷所述文本元素的左上點(diǎn)的橫坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的橫坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的下方;否則,將所述文本元素定位在所述圖像元素的上方。優(yōu)選的,所述根據(jù)所述HTML格式文件,生成EPUB格式文件,包括生成包括container,xml文件以及后綴名為opf、ncx在內(nèi)的EPUB格式所必須的文件;將所述HTML格式文件,以及所述EPUB格式所必須的文件,壓縮成后綴名為EPUB的壓縮包。一種將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng),包括元素識(shí)別模塊,用于識(shí)別PDF格式文件中的文本元素、圖像元素;坐標(biāo)獲取模塊,用于獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);位置確定模塊,用于根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系相同;HTML格式文件生成模塊,用于按照所述位置,生成HTML格式文件;EPUB格式生成模塊,用于根據(jù)所述HTML格式文件,生成EPUB格式文件。優(yōu)選的,所述位置確定模塊包括上下位置確定單元,用于根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。優(yōu)選的,所述上下位置確定單元包括第一判斷子單元,用于判斷所述文本元素的右下點(diǎn)的縱坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的縱坐標(biāo);第一定位子單元,用于當(dāng)所述第一判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的上方;第二判斷子單元,用于當(dāng)所述第一判斷子單元的判斷結(jié)果為否時(shí),判斷所述文本元素的右下點(diǎn)的橫坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的橫坐標(biāo);第二定位子單元,用于當(dāng)所述第二判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的上方;第三定位子單元,用于當(dāng)所述第二判斷子單元的判斷結(jié)果為否時(shí),將所述文本元素定位在所述圖像元素的下方。優(yōu)選的,所述上下位置確定單元包括第三判斷子單元,用于判斷所述文本元素的左上點(diǎn)的縱坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的縱坐標(biāo);第四定位子單元,用于當(dāng)所述第三判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的下方;第四判斷子單元,用于當(dāng)所述第三判斷子單元的判斷結(jié)果為否時(shí),判斷所述文本元素的左上點(diǎn)的橫坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的橫坐標(biāo);第五定位子單元,用于當(dāng)所述第四判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的下方;第六定位子單元,用于當(dāng)所述第四判斷子單元的判斷結(jié)果為否時(shí),將所述文本元素定位在所述圖像元素的上方。優(yōu)選的,所述EPUB格式生成模塊包括必要文件生成單元,用于生成包括container,xml文件以及后綴名為opf、ncx在內(nèi)的EPUB格式所必須的文件;EPUB格式生成單元,用于將所述HTML格式文件,以及所述EPUB格式所必須的文件,壓縮成后綴名為EPUB的壓縮包。根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果通過對(duì)PDF格式文件中的文本元素與圖像元素的坐標(biāo)進(jìn)行分析,確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系相同;能夠使轉(zhuǎn)換后的EPUB格式文件能夠圖文并茂,并且轉(zhuǎn)換后的EPUB格式文件中,圖像元素與文本元素的相對(duì)位置關(guān)系與原PDF格式文件相同。為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一所述將PDF格式文件轉(zhuǎn)換為EPUB格式的方法流程圖;圖2為本發(fā)明實(shí)施例二所述將PDF格式文件轉(zhuǎn)換為EPUB格式的方法流程圖;圖3為本發(fā)明實(shí)施例三所述將HTML格式文件轉(zhuǎn)化為EPUB格式的文件的步驟的流程圖;圖4為本發(fā)明所公開的將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng)結(jié)構(gòu)圖;圖5為本發(fā)明實(shí)施例所公開的位置確定模塊結(jié)構(gòu)圖;圖6為本發(fā)明實(shí)施例所公開的位置確定模塊另一結(jié)構(gòu)圖;圖7為本發(fā)明實(shí)施例所公開的EPUB格式生成模塊結(jié)構(gòu)圖。具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。實(shí)施例一參見圖1,為本發(fā)明實(shí)施例一所述將PDF格式文件轉(zhuǎn)換為EPUB格式的方法流程圖。如圖1所示,該方法包括步驟SlOl識(shí)別PDF格式文件中的文本元素、圖像元素;由于文本元素和圖像元素本身的屬性不同,因此,在讀取PDF格式文件時(shí),文本元素的數(shù)據(jù)流與圖像元素的數(shù)據(jù)流,分別具有不同的標(biāo)識(shí)。所以可以根據(jù)數(shù)據(jù)流中的標(biāo)識(shí),識(shí)別PDF格式文件中的文本元素、圖像元素。S102獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);S103:根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系相同;因?yàn)镋PUB格式的文件通常由HTML格式文件以及其他一些EPUB格式所必須的文件構(gòu)成,所以本實(shí)施例中,需要根據(jù)PDF格式文件中的各種元素先生成HTML格式文件。下面對(duì)本步驟的原理,進(jìn)行說(shuō)明。大多數(shù)出版物的排版規(guī)律,都是從某個(gè)頁(yè)面的左上角處開始,每一行文字按照從左向右的順序顯示。該行文字排滿一行后,會(huì)從該頁(yè)面下移一行,繼續(xù)顯示。因此,通常一個(gè)頁(yè)面中,坐標(biāo)系是這樣的該頁(yè)面的左上角為坐標(biāo)系的原點(diǎn)(0,0),從左至右為X軸方向,且橫坐標(biāo)的值從左至右逐漸增大;從上向下為Y軸方向,且縱坐標(biāo)的值從上向下逐漸增大。因此,在某個(gè)頁(yè)面中,相對(duì)位置靠左的元素,其橫坐標(biāo)的值越??;相對(duì)位置靠右的元素,其橫坐標(biāo)的值越大;相對(duì)位置靠上的元素,其縱坐標(biāo)的值越??;相對(duì)位置靠下的元素,其縱坐標(biāo)的值越大。所以,可以根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系相同。具體的,可以根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。S104按照所述位置,生成HTML格式文件;S105根據(jù)所述HTML格式文件,生成EPUB格式文件。因?yàn)?,EPUB格式文件中,有一些必須的文件,例如container,xml文件以及后綴名為opf、nCX的文件等等,所以最后需要根據(jù)所述HTML格式文件,以及所述EPUB格式所必須的文件,生成EPUB格式文件。本實(shí)施例中,通過對(duì)PDF格式文件中的文本元素與圖像元素的坐標(biāo)進(jìn)行分析,確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系相同;能夠使轉(zhuǎn)換后的EPUB格式文件能夠圖文并茂,并且轉(zhuǎn)換后的EPUB格式文件中,圖像元素與文本元素的相對(duì)位置關(guān)系與原PDF格式文件相同。實(shí)施例二參見圖2,為本發(fā)明實(shí)施例二所述將PDF格式文件轉(zhuǎn)換為EPUB格式的方法流程圖。該實(shí)施例更加詳細(xì)地說(shuō)明了本發(fā)明的實(shí)際應(yīng)用過程。如圖2所示,該方法包括步驟S201識(shí)別PDF格式文件中的文本元素、圖像元素;S202獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);S203:判斷所述文本元素的右下點(diǎn)的縱坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的縱坐標(biāo);如果是,執(zhí)行步驟S204;否則,執(zhí)行步驟S205;S204將所述文本元素定位在所述圖像元素的上方;S205:判斷所述文本元素的右下點(diǎn)的橫坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的橫坐標(biāo);如果是,則執(zhí)行步驟S204;否則,執(zhí)行步驟S206;S206將所述文本元素定位在所述圖像元素的下方;S207按照所述位置,生成HTML格式文件;S208根據(jù)所述HTML格式文件,生成EPUB格式文件。其中,步驟S203-S206的原理如下通常,一個(gè)文本元素中包含一段文字。這段文字可以近似構(gòu)成一個(gè)矩形區(qū)域。該矩形區(qū)域的右下點(diǎn)的縱坐標(biāo),如果小于圖像元素(也可以認(rèn)為是一個(gè)矩形區(qū)域)的左上點(diǎn)的縱坐標(biāo),那么,可以肯定,該文本元素在原PDF格式文件中,是位于該圖像元素的上方的。同理,如果該文本元素的右下點(diǎn)的橫坐標(biāo)小于該圖像元素的左上點(diǎn)的橫坐標(biāo),那么,該文本元素在原PDF格式文件中,是位于該圖像元素的左側(cè)的。按照正常的閱讀習(xí)慣,在圖像元素上方和左側(cè)的文本元素,在轉(zhuǎn)換后的EPUB格式文件中,也應(yīng)該出現(xiàn)在圖像元素之前。因此,本實(shí)施例中,將原PDF格式文件中的圖像元素上方和左側(cè)的文本元素,均定位在該圖像元素的上方。步驟S203-S206中,當(dāng)進(jìn)行兩次判斷以后的結(jié)果都是否時(shí),表示該文本元素既不在圖像元素的上方,也不在該圖像元素的左側(cè),那么,該文本元素必然位于圖像元素的下方或右側(cè)。按照正常的閱讀習(xí)慣,本實(shí)施例中,將原PDF格式文件中的圖像元素下方和右側(cè)的文本元素,均定位在該圖像元素的下方。綜上,本實(shí)施例中,公開了根據(jù)文本元素和圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置的一種具體方式。本實(shí)施例所公開的將PDF格式文件轉(zhuǎn)換為EPUB格式的方法,通過對(duì)文本元素右下點(diǎn)與圖像元素左上點(diǎn)的橫、縱坐標(biāo)進(jìn)行比較,能夠確定文本元素與圖像元素在原PDF格式文件中的位置關(guān)系,并且在轉(zhuǎn)換后的EPUB格式文件中保留上述位置關(guān)系;使得轉(zhuǎn)換后的EPUB格式文件能夠圖文并茂,并且轉(zhuǎn)換后的EPUB格式文件中,圖像元素與文本元素的相對(duì)位置關(guān)系與原PDF格式文件相同。需要說(shuō)明的是,由于坐標(biāo)系的設(shè)置方向可以變化,用來(lái)進(jìn)行判斷的文本元素或者圖像元素的坐標(biāo)點(diǎn)的選取也可以改變(可以采用文本元素的左上點(diǎn)坐標(biāo)與圖像元素的右下點(diǎn)坐標(biāo)進(jìn)行比較),因此,本發(fā)明實(shí)施例所公開的將PDF格式文件轉(zhuǎn)換為EPUB格式的方法,還可以有多種變形后的方式,此處不應(yīng)理解為對(duì)本發(fā)明的限定。實(shí)施例三本實(shí)施例相對(duì)于實(shí)施例二,采用了另一種確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置的方式。參見圖3,為本發(fā)明實(shí)施例三所述將PDF格式文件轉(zhuǎn)換為EPUB格式的方法流程圖。如圖3所示,該方法包括步驟S301識(shí)別PDF格式文件中的文本元素、圖像元素;S302獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);S303:判斷所述文本元素的左上點(diǎn)的縱坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的縱坐標(biāo);如果是,執(zhí)行步驟S304;否則執(zhí)行步驟S305;S304將所述文本元素定位在所述圖像元素的下方;S305:判斷所述文本元素的左上點(diǎn)的橫坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的橫坐標(biāo);如果是,則執(zhí)行步驟S304;否則,執(zhí)行步驟S306;S306將所述文本元素定位在所述圖像元素的上方;S307按照所述位置,生成HTML格式文件;S308根據(jù)所述HTML格式文件,生成EPUB格式文件。其中,步驟S303-S306的原理如下文本元素構(gòu)成的矩形區(qū)域的左上點(diǎn)的縱坐標(biāo),如果大于圖像元素構(gòu)成的矩形區(qū)域的右下點(diǎn)的縱坐標(biāo),那么,該文本元素在原PDF格式文件中,是位于該圖像元素的下方的。同理,如果該文本元素的左上點(diǎn)的橫坐標(biāo)大于該圖像元素的右下點(diǎn)的橫坐標(biāo),那么,該文本元素在原PDF格式文件中,是位于該圖像元素的右側(cè)的。按照正常的閱讀習(xí)慣,在圖像元素下方和右側(cè)的文本元素,在轉(zhuǎn)換后的EPUB格式文件中,均定位在該圖像元素的下方。步驟S303-S306中,當(dāng)進(jìn)行兩次判斷以后的結(jié)果都是否時(shí),表示該文本元素既不在圖像元素的下方,也不在該圖像元素的右側(cè),那么,該文本元素必然位于圖像元素的上方或左側(cè)。按照正常的閱讀習(xí)慣,本實(shí)施例中,將原PDF格式文件中的圖像元素上方或左側(cè)的文本元素,均定位在該圖像元素的上方。綜上,本實(shí)施例中,公開了根據(jù)文本元素和圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置的一種具體方式。本實(shí)施例所公開的將PDF格式文件轉(zhuǎn)換為EPUB格式的方法,通過對(duì)文本元素左上點(diǎn)與圖像元素右下點(diǎn)的橫、縱坐標(biāo)進(jìn)行比較,能夠確定文本元素與圖像元素在原PDF格式文件中的位置關(guān)系,并且在轉(zhuǎn)換后的EPUB格式文件中保留上述位置關(guān)系;使得轉(zhuǎn)換后的EPUB格式文件能夠圖文并茂,并且轉(zhuǎn)換后的EPUB格式文件中,圖像元素與文本元素的相對(duì)位置關(guān)系與原PDF格式文件相同。本發(fā)明同時(shí)公開了一種將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng)。參見圖4,為本發(fā)明所公開的將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng)結(jié)構(gòu)圖。如圖4所示,該系統(tǒng)包括元素識(shí)別模塊401,用于識(shí)別PDF格式文件中的文本元素、圖像元素;坐標(biāo)獲取模塊402,用于獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);位置確定模塊403,用于根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系相同;HTML格式文件生成模塊404,用于按照所述位置,生成HTML格式文件;EPUB格式生成模塊405,用于根據(jù)所述HTML格式文件,生成EPUB格式文件。圖5為本發(fā)明實(shí)施例所公開的位置確定模塊結(jié)構(gòu)圖。如圖5所示,位置確定模塊403可以包括上下位置確定單元4030,用于根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。上下位置確定單元4030,可以包括第一判斷子單元4031,用于判斷所述文本元素的右下點(diǎn)的縱坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的縱坐標(biāo);第一定位子單元4032,用于當(dāng)所述第一判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的上方;第二判斷子單元4033,用于當(dāng)所述第一判斷子單元的判斷結(jié)果為否時(shí),判斷所述文本元素的右下點(diǎn)的橫坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的橫坐標(biāo);第二定位子單元4034,用于當(dāng)所述第二判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的上方;第三定位子單元4035,用于當(dāng)所述第二判斷子單元的判斷結(jié)果為否時(shí),將所述文本元素定位在所述圖像元素的下方。圖6為本發(fā)明實(shí)施例所公開的位置確定模塊另一結(jié)構(gòu)圖。如圖6所示,上下位置確定單元4030,可以包括第三判斷子單元4036,用于判斷所述文本元素的左上點(diǎn)的縱坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的縱坐標(biāo);第四定位子單元4037,用于當(dāng)所述第三判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的下方;第四判斷子單元4038,用于當(dāng)所述第三判斷子單元的判斷結(jié)果為否時(shí),判斷所述文本元素的左上點(diǎn)的橫坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的橫坐標(biāo);第五定位子單元4039,用于當(dāng)所述第四判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的下方;第六定位子單元40310,用于當(dāng)所述第四判斷子單元的判斷結(jié)果為否時(shí),將所述文本元素定位在所述圖像元素的上方。圖7為本發(fā)明實(shí)施例所公開的EPUB格式生成模塊結(jié)構(gòu)圖。如圖7所示,EPUB格式生成模塊405,可以包括必要文件生成單元4051,用于生成包括container,xml文件以及后綴名為opf、ncx在內(nèi)的EPUB格式所必須的文件;EPUB格式生成單元4052,用于將所述HTML格式文件,以及所述EPUB格式所必須的文件,壓縮成后綴名為EPUB的壓縮包。本實(shí)施例所公開的將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng),能夠?qū)DF格式文件中的文本元素與圖像元素的坐標(biāo)進(jìn)行分析,確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的所述文本元素和所述圖像元素的相對(duì)位置關(guān)系相同;能夠使轉(zhuǎn)換后的EPUB格式文件能夠圖文并茂,并且轉(zhuǎn)換后的EPUB格式文件中,圖像元素與文本元素的相對(duì)位置關(guān)系與原PDF格式文件相同。本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的系統(tǒng)而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法部分說(shuō)明即可。本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。權(quán)利要求1.一種將PDF格式文件轉(zhuǎn)換為EPUB格式的方法,其特征在于,包括識(shí)別PDF格式文件中的文本元素、圖像元素;獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系相同;按照確定的位置,生成HTML格式文件;根據(jù)所述HTML格式文件,生成EPUB格式文件。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系相同,包括根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方,包括判斷所述文本元素的右下點(diǎn)的縱坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的縱坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的上方;否則,判斷所述文本元素的右下點(diǎn)的橫坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的橫坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的上方;否則,將所述文本元素定位在所述圖像元素的下方。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方,包括判斷所述文本元素的左上點(diǎn)的縱坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的縱坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的下方;否則,判斷所述文本元素的左上點(diǎn)的橫坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的橫坐標(biāo);如果是,則將所述文本元素定位在所述圖像元素的下方;否則,將所述文本元素定位在所述圖像元素的上方。5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述HTML格式文件,生成EPUB格式文件,包括生成包括container,xml文件以及后綴名為opf、nCX在內(nèi)的EPUB格式所必須的文件;將所述HTML格式文件,以及所述EPUB格式所必須的文件,壓縮成后綴名為EPUB的壓縮包。6.一種將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng),其特征在于,包括元素識(shí)別模塊,用于識(shí)別PDF格式文件中的文本元素、圖像元素;坐標(biāo)獲取模塊,用于獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);位置確定模塊,用于根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系與PDF格式文件中的文本元素和圖像元素的相對(duì)位置關(guān)系相同;HTML格式文件生成模塊,用于按照確定的位置,生成HTML格式文件;EPUB格式生成模塊,用于根據(jù)所述HTML格式文件,生成EPUB格式文件。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述位置確定模塊包括上下位置確定單元,用于根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述上下位置確定單元包括第一判斷子單元,用于判斷所述文本元素的右下點(diǎn)的縱坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的縱坐標(biāo);第一定位子單元,用于當(dāng)所述第一判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的上方;第二判斷子單元,用于當(dāng)所述第一判斷子單元的判斷結(jié)果為否時(shí),判斷所述文本元素的右下點(diǎn)的橫坐標(biāo)是否小于所述圖像元素的左上點(diǎn)的橫坐標(biāo);第二定位子單元,用于當(dāng)所述第二判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的上方;第三定位子單元,用于當(dāng)所述第二判斷子單元的判斷結(jié)果為否時(shí),將所述文本元素定位在所述圖像元素的下方。9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述上下位置確定單元包括第三判斷子單元,用于判斷所述文本元素的左上點(diǎn)的縱坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的縱坐標(biāo);第四定位子單元,用于當(dāng)所述第三判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的下方;第四判斷子單元,用于當(dāng)所述第三判斷子單元的判斷結(jié)果為否時(shí),判斷所述文本元素的左上點(diǎn)的橫坐標(biāo)是否大于所述圖像元素的右下點(diǎn)的橫坐標(biāo);第五定位子單元,用于當(dāng)所述第四判斷子單元的判斷結(jié)果為是時(shí),將所述文本元素定位在所述圖像元素的下方;第六定位子單元,用于當(dāng)所述第四判斷子單元的判斷結(jié)果為否時(shí),將所述文本元素定位在所述圖像元素的上方。10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的系統(tǒng),其特征在于,所述EPUB格式生成模塊包括必要文件生成單元,用于生成包括container,xml文件以及后綴名為opf、ncx在內(nèi)的EPUB格式所必須的文件;EPUB格式生成單元,用于將所述HTML格式文件,以及所述EPUB格式所必須的文件,壓縮成后綴名為EPUB的壓縮包。全文摘要本發(fā)明公開一種將PDF格式文件轉(zhuǎn)換為EPUB格式的方法,包括識(shí)別PDF格式文件中的文本元素、圖像元素;獲取所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo);根據(jù)所述文本元素的坐標(biāo)和所述圖像元素的坐標(biāo),確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置;按照所述位置,生成HTML格式文件;根據(jù)所述HTML格式文件,生成EPUB格式文件。本發(fā)明還公開了一種將PDF格式文件轉(zhuǎn)換為EPUB格式的系統(tǒng)。采用本發(fā)明所公開的發(fā)明或系統(tǒng),能夠使轉(zhuǎn)化成的EPUB格式的文件圖文并茂,并保留原PDF格式文件中的文字元素與圖像元素的位置關(guān)系。文檔編號(hào)G06F17/30GK102332002SQ20111021355公開日2012年1月25日申請(qǐng)日期2011年7月28日優(yōu)先權(quán)日2011年7月28日發(fā)明者晏檢平,王峰申請(qǐng)人:深圳市萬(wàn)興軟件有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
介休市| 浦北县| 平度市| 榆树市| 紫金县| 余江县| 东阳市| 崇义县| 沙雅县| 仁布县| 绿春县| 长沙市| 南和县| 蒲城县| 苏尼特左旗| 寿宁县| 涪陵区| 肇源县| 嵊州市| 怀远县| 南汇区| 乌审旗| 科尔| 嘉黎县| 新蔡县| 松溪县| 浦北县| 靖远县| 南乐县| 阳曲县| 攀枝花市| 潢川县| 阳城县| 普安县| 茶陵县| 海安县| 青铜峡市| 琼结县| 黑河市| 桦南县| 会东县|