電子書亟待高質量轉檔
2012-08-17 09:41 來源:中國新聞出版報 責編:陳培
- 摘要:
- 電子書是校對者的噩夢,每當需要將PDF文件轉化為epub格式時,那些原本完美顯示的頁面就會出現一系列令人困惑的排版和格式錯誤。對于出版商和內容供應商來說,在電子書如此暢銷的今天,能夠使PDF文件準確無誤地轉化為epub格式,從而存入電子書閱讀器已經成為亟須關注、亟待解決的問題。
【CPP114】訊:電子書是校對者的噩夢,每當需要將PDF文件轉化為epub格式時,那些原本完美顯示的頁面就會出現一系列令人困惑的排版和格式錯誤。對于出版商和內容供應商來說,在電子書如此暢銷的今天,能夠使PDF文件準確無誤地轉化為epub格式,從而存入電子書閱讀器已經成為亟須關注、亟待解決的問題。
“有人認為轉換PDF格式就像從word文檔里復制文本一樣簡單:只需要選取那些已編好格式的文本并保存就能制作一本電子書。”印度金奈紐貞知識機構的首席執行官大衛·拉杰說。然而,遺憾的是,“PDF文件并不是按照單詞、空格、段落和圖像的邏輯流程來編寫的,也就是說,沒有內在信息可以顯示PDF文本的結構與順序。”
最嚴重且最常出現在電子書中的錯誤是單詞間、標點符號丟失或多余的空格。因為PDF文件并沒有把每一個單詞視作被空格分開的獨立單元,轉換程序通常需要猜測空格從哪里產生。如果猜測錯誤,就會出現一個單詞被分為兩個部分或者兩個單詞連在一起的情況。
另一個問題存在于連字符中。只要轉換軟件需要判定連字符是非強制性的(在文本行末尾,由于該單詞過長,輸入連字符使頁面保持整齊美觀)或強制性的(比如像“e-books”這樣必須使用連字符的單詞),那么就可能出現判定錯誤的情況。
同樣的問題還存在于判定文本格式上:粗體、斜體、下劃線、下標、上標;字體的選擇上:有襯線字體、無襯線字體、傳統字體、現代字體等。在制作PDF文件中字間距、行間距的設置,反白字的使用都會影響轉換結果的準確性。
如果作者沒有使用統一編碼標準的字符,那么這些特殊字符比如非拉丁語字母就成了轉換軟件面臨的又一個困難。對于這些特殊符號而言,建立字符轉換庫是有用的,但是把所有可能出現的字符集結成庫并不現實,所以大多數轉換軟件在遇到特殊字符時會以亂碼的形式呈現。
此外PDF文件還不能識別多列文本。轉換軟件會讀取整個頁面而不是按順序從上到下依次讀取每一列的內容,因此,識別與分列就會導致不同的列線混亂,從而產生完全錯誤的顯示。
與此相似的是,PDF文件沒有強制性分隔段落的概念,這就增加了正文內容混亂或幾個段落連在一起的可能性。另一種情況是,轉換后段落中的每一行都成為獨立的一段,或者是轉換程序會將頁面中的頁眉、頁腳作為正文中的內容進行轉換。
轉換程序最大的挑戰在于如何破解表格、數學方程式以及圖表。將這些元素識別為獨立的單元并與正文分開成為許多轉換軟件不能完成的任務。
在紐貞知識機構,有一種使用自然語言處理和文本識別工具的程序,這種程序用來分析PDF文件文本結構,使用這種程序可以改正PDF文件轉換為epub格式過程中通常出現的錯誤。如今這種產品已經出現——在紐約舉辦的2012TOC數字出版大會上,可以將PDF文件高質量轉換為epub2或3的產品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場。
據介紹,使用“絲綢”的轉換規則系統可以得到高質量的結果,同時最大限度保持PDF文件原文的風貌。“絲綢”會運行拼寫檢查工具找出連在一起或被分解的單詞,并使用內在連續性檢查工具區分字符。不到一分鐘的時間,“絲綢”就可以對一本標準的300頁圖書完成以上所有工作。接下來,“絲綢”會引導用戶查看它標記的每一處可能出現的錯誤,并將原始的PDF文件與轉化后的電子書進行并排式對比。拉杰同時補充說:“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項可以快速有效地將PDF文件中出現的自定義或其他復雜的變化轉換為epub/HTML文件。”
目前,“絲綢”正在進行內部測試,拉杰證實這種軟件運營服務模式很快會與廣大客戶見面。在更為復雜的PDF文件與電子書版面設計問世之前,我們無疑需要更先進的解決方法,將零錯誤的電子書和用戶對電子書質量的高滿意度作為奮斗目標,將驅使轉換工具研發朝著更快、更可靠、更自動化的方向發展。
“有人認為轉換PDF格式就像從word文檔里復制文本一樣簡單:只需要選取那些已編好格式的文本并保存就能制作一本電子書。”印度金奈紐貞知識機構的首席執行官大衛·拉杰說。然而,遺憾的是,“PDF文件并不是按照單詞、空格、段落和圖像的邏輯流程來編寫的,也就是說,沒有內在信息可以顯示PDF文本的結構與順序。”
最嚴重且最常出現在電子書中的錯誤是單詞間、標點符號丟失或多余的空格。因為PDF文件并沒有把每一個單詞視作被空格分開的獨立單元,轉換程序通常需要猜測空格從哪里產生。如果猜測錯誤,就會出現一個單詞被分為兩個部分或者兩個單詞連在一起的情況。
另一個問題存在于連字符中。只要轉換軟件需要判定連字符是非強制性的(在文本行末尾,由于該單詞過長,輸入連字符使頁面保持整齊美觀)或強制性的(比如像“e-books”這樣必須使用連字符的單詞),那么就可能出現判定錯誤的情況。
同樣的問題還存在于判定文本格式上:粗體、斜體、下劃線、下標、上標;字體的選擇上:有襯線字體、無襯線字體、傳統字體、現代字體等。在制作PDF文件中字間距、行間距的設置,反白字的使用都會影響轉換結果的準確性。
如果作者沒有使用統一編碼標準的字符,那么這些特殊字符比如非拉丁語字母就成了轉換軟件面臨的又一個困難。對于這些特殊符號而言,建立字符轉換庫是有用的,但是把所有可能出現的字符集結成庫并不現實,所以大多數轉換軟件在遇到特殊字符時會以亂碼的形式呈現。
此外PDF文件還不能識別多列文本。轉換軟件會讀取整個頁面而不是按順序從上到下依次讀取每一列的內容,因此,識別與分列就會導致不同的列線混亂,從而產生完全錯誤的顯示。
與此相似的是,PDF文件沒有強制性分隔段落的概念,這就增加了正文內容混亂或幾個段落連在一起的可能性。另一種情況是,轉換后段落中的每一行都成為獨立的一段,或者是轉換程序會將頁面中的頁眉、頁腳作為正文中的內容進行轉換。
轉換程序最大的挑戰在于如何破解表格、數學方程式以及圖表。將這些元素識別為獨立的單元并與正文分開成為許多轉換軟件不能完成的任務。
在紐貞知識機構,有一種使用自然語言處理和文本識別工具的程序,這種程序用來分析PDF文件文本結構,使用這種程序可以改正PDF文件轉換為epub格式過程中通常出現的錯誤。如今這種產品已經出現——在紐約舉辦的2012TOC數字出版大會上,可以將PDF文件高質量轉換為epub2或3的產品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場。
據介紹,使用“絲綢”的轉換規則系統可以得到高質量的結果,同時最大限度保持PDF文件原文的風貌。“絲綢”會運行拼寫檢查工具找出連在一起或被分解的單詞,并使用內在連續性檢查工具區分字符。不到一分鐘的時間,“絲綢”就可以對一本標準的300頁圖書完成以上所有工作。接下來,“絲綢”會引導用戶查看它標記的每一處可能出現的錯誤,并將原始的PDF文件與轉化后的電子書進行并排式對比。拉杰同時補充說:“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項可以快速有效地將PDF文件中出現的自定義或其他復雜的變化轉換為epub/HTML文件。”
目前,“絲綢”正在進行內部測試,拉杰證實這種軟件運營服務模式很快會與廣大客戶見面。在更為復雜的PDF文件與電子書版面設計問世之前,我們無疑需要更先進的解決方法,將零錯誤的電子書和用戶對電子書質量的高滿意度作為奮斗目標,將驅使轉換工具研發朝著更快、更可靠、更自動化的方向發展。
- 相關新聞:
- ·索尼推新型電子書閱讀器:整合社交網絡 2012.08.17
- ·[圖]哈佛醫學院研究小組在DNA模型中成功編碼電子書 2012.08.17
- ·市場新形勢 電子書曲線走高 2012.08.16
- ·電子書城應用字節社在App Store被下架 2012.08.16
- 關于我們|聯系方式|誠聘英才|幫助中心|意見反饋|版權聲明|媒體秀|渠道代理
- 滬ICP備18018458號-3法律支持:上海市富蘭德林律師事務所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098