Главная - e-Book Info

Форматы е-книг

Pdf Creator Форматы, в которых создаются е-книги разнообразны. Единого стандарта не существует и трудно себе представить появление в ближайшее время такого стандарта. Как говорится, на вкус и цвет товарищей нет. А разработчики не спешат приводить свои форматы к единому стандарту. Да, наверное это не надо. Пусть и самолеты летают, и поезда с теплоходами ходят, и автомобильная промышленность пусть процветает. Также и здесь. Каждый формат имеет свои положительные возможности. И пусть каждый пользователь выберет то, что удобнее для него, либо по каким-то иным критериям. В настоящее время е-книги создают в различных форматах, среди которых наибольшее распространение имеют пожалуй PDF, EXE, CHM, DJVU, EPUB, FB2, DOC, TXT, и некоторые другие.

Сразу примем к сведению, что данная статья не коснется двоичных форматов, которые представляются интересными разве что опытным программистам. Эта статья предназначена для обычных пользователей интернета, имеющих лишь общее представление по нашей тематике и должна помочь им разобраться и понять, что из себя каждый из них представляет. Классификация форматов, представленная здесь, не является общепринятой, а принята нами для удобства представления. Если у кого то по этому поводу возникнут какие-либо возражения, мы готовы их выслушать и переработать представленную классификацию в соответствии с достигнутым консенсусом.

Исходя из сказанного выше, все форматы электронных книг можем условно разделить на несколько групп, а конкретно: текстовые форматы, веб-форматы, автономные форматы, а также специальные форматы, то есть предназначенные для применения в конкретных программах и аппаратах. В следствие условности данного деления некоторые форматы могут классифицировать свою принадлежность к различным группам.

Текстовый файл можно принять, как форму представления последовательности символов в компьютере. Каждый символ из используемого набора символов закодирован в виде одного байта, а иногда как последовательность идущих подряд двух, трёх и т. д. байтов. Из типично текстовых форматов, которые используются при создании электронных книг следует указать файлы с расширениями RTF, DOC, и TXT. Кому-то может прийти в голову относить к группе текстовых форматов также документы, полученные при помощи OCR (Optical Character Recognition), но согласиться с этим нельзя. Ведь OCR – это ни в коей мере не формат, а представляет собой систему оптического распознавания графических и текстовых знаков для автоматического ввода документов в компьютер.

Rich Text Format RTF RTF *.RTF (Rich Text Format - формат обогащённого текста; rich с английского - богатый) - является предложенный фирмой Microsoft а также иными разработчиками, свободным межплатформенным форматом хранения размеченных текстовых документов. Данный формат позиционируется в качестве распространенного стандарта представления графических и текстовых данных, поддерживаемого практически каждым текстовым редактором, работающим на разнообразных типах процессоров и ОС. К примеру, созданный на Windows в PC-совместимом компьютере, такой RTF-файл можно без труда прочитать также на Apple Macintosh под MacOS.
Структура стандартного RTF-файла представлена последовательностью секций данных, которые заключаются в специальные метки (тэги), указывающие программе-обработчику начало или конец секции. Прнименяемые в данном стандарте данные могут быть различных типов, среди которых: текстовые блоки, графические объекты, таблицы, выполняемые файлы и пр.
Как работает такой файл? Собственно говоря, для пользователя это не так важно, но углубиться в тему не помешает. При запускаемом RTF-файле обработчик просматривает его содержимое и, пропустив незнакомые секции, автоматически выполнит все ему известные. Причем, структура RTF дает пользователю возможность безболезненно вводить новые виды секций, необходимые пользователю для выполнения специфических задач. При этом новые секции не будут влиять на работоспособность программы при использовании в других приложениях.
В большинстве текстовых редакторах реализуется импорт/экспорт в формат RTF, благодаря чему он имеет достаточно регулярное применение и используется в качестве «общего», для передачи текста из одной программы в другую. В данном формате документ преимущественно состоит из команд управления настройки программы чтения файлов в RTF-формате, которые разделяются на управляющие слова (control words) и управляющие символы (control symbols).

DOC Microsoft Word DOC *.DOC (формат, разработан фирмой Microsoft Word, и является самым используемым из всех в данный момент применяемых текстовых процессоров, что сделало этот бинарный формат документа стандартом де-факто, и многим конкурентным программам приходится иметь поддержку совместимости с данным форматом. Для тех, кто не в теме, документ в формате DOC - это не что иное, как обычный «вордовский» файл и вы, конечно же, частенько им пользуетесь. Действительно, расширение .doc платформы IBM PC стало синонимом двоичного формата Word 97—2000, получивших в свое время широчайшее распространение. Фильтры экспорта и импорта в данный формат имеются почти во всех текстовых процессорах. Формат документа различных версий Word даже при изменениях, различается довольно тонко. Форматирование, нормальное в последней версии, в старых версиях программы может не отображаться, однако имеется определенная возможность сохранения документа с потерей части форматирования для применения в старых версиях продукта. Версия MS Word 2007 «по умолчанию» использует формат, который основан на XML - Microsoft Office Open XML. Microsoft в 2008 году опубликовал Спецификацию форматов файлов Word 97-2007.

ODF OpenDocument Format ODF *.ODF (OpenDocument Format - OASIS Open Document Format for Office Application) является открытым форматом файлов документов для офисных приложений, предназначенным для хранения и обмена редактируемых офисных документов, в том числе текстовых документов (имеются в виду заметки, отчёты и книги), электронных таблиц, рисунков, баз данных, а также презентаций. Он предоставляет доступ до содержания документов вне зависимости от вида и версии приложения, в котором их создавали.
Стандарт разрабатывался индустриальным сообществом OASIS и основан на XML-формате, изначально созданном OpenOffice.org.
Каждый документ ODF - это не что иное, как архив zip, поэтому для проникновения внутрь этого документа, достаточно переименовать расширение документа на zip и вы откроете архив любым zip-архиватором. Архив этот содержит как минимум, пять xml-файлов, в которых кроме непосредственного содержания документа, имеются так называемые метаданные (дополнительная информация, позволяющая задать тексту определённые параметры. К примеру, тип и размер шрифта, положение на странице, параметры печати или вывода на экран монитора) и несколько каталогов.

TXT txt *.TXT – формат, с которым многии из вас видели, если приходилось использовать стандартный блокнот Windows. Возможности данного формата как е-книжного стандарта трудно однозначно воспринимать. С одной стороны, никакого оформления текста он не поддерживает, что конечно, делает бедными его возможности, но с другой стороны — нет такой платформы, на которой его нельзя было бы открыть. И это его главный (не единственный ли?) плюс. Из-за простоты издания в данном формате он используется многими сетевыми библиотеками для изготовления е-книг. Копируешь в текстовый файл текст и все, более никаких манипуляций. Книжкка готова, хотя, книжкой назвать это дело язык не поворачивается. Больше похоже на маккулатуру, если делать соответствие с бумажным изданием.

Пожалуй, на этом следует закончить описание этой группы форматов, общей характеристикой для которой является всеобщая доступность и распространенность. Мое мнение, эти форматы удобны для черновой работы над книгой и не совсем, если дело касается представления конечного результата работы пользователям. Более интересны и используемы в этом смысле веб-форматы. К типичным веб-форматам, применяемым для электронных изданий отнесем форматы html, xhtml, sml, oeb.

html Hypertext Markup Language html *.HTML (Hypertext Markup Language — язык разметки гипертекста) — это обычный стандартный язык разметки документов, широко распространенный во Всемирной паутине, особенно для создания веб-страниц, мноогие из которых созданы именно при помощи этого формата. Кстати, текст этой страницы набирался также при помощи этого формата. Что из себя представляет данный формат? Документы на языке HTML представляют собой набор элементов, где начало и конец каждого элемента обозначено специальными метками - тегами. Элементы могут быть пустыми, не содержать никакого текста и других данных (как пример, тег перевода строки <br>). В таких случаях по обыкновению закрывающий тег не указан. Кроме того, элементы могут обладать атрибутами, определяющими какие-нибудь свойства (например, размер или название шрифта для элемента font). Атрибуты указаны в открывающем теге. Кроме элементов, в HTML-документах имеются сущности (англ. entities) — «специальные символы». Сущности начинаются с символа амперсанда и имеют вид &имя; или &#NNNN;, где NNNN — код символа в Юникоде в десятеричной системе счисления. Например, &copy; — знак авторского права (©). Обычно сущности используют для представления символов, которые в кодировке документа отсутствуют, или для отражения в документе «специальных» символов: &amp; — амперсанда (&), &lt; — символа «меньше» (<) и &gt; — символа «больше» (>), которые «обычным» образом не удается корректно записать, из-за их особого значения в HTML.
По открытости, индексируемости, конвертируемости и читаемости на любой платформе к формату не может возникать каких-либо претензий. Другое дело, что сделанная в этом формате полноценная книга с иллюстрациями, оказывается состоящей из нескольких файлов, что не слишком удобно. К тому же, не получится применить сжатия, чтобы уменьшить размер документа. Однако, возможностями HTML пользуются также другие форматы, основанные на нем, такие, например, как iSilo.

xhtml xhtml *.XHTML Основным различием между HTML и XHTML является то, что в XHTML применен синтаксис XML, который создавался для помощи в разработке синтаксически корректных и правильных документов XML. Если HTML - это только предшествующий XHTML язык разметки, то XHTML представляет собой словарь XML. Считается, что большая часть содержимого интернета, написана в формате XHTML и выдаётся пользователю в виде “text/html”. Проще говоря браузеры воспринимают страницу в виде набора обычных тэгов, а вовсе не как XML. Одной из причин такого подхода является довольно жесткий механизм обработки ошибок в XML. В сущности, данному формату требуется безошибочное построение документа и он не заработает, пока все ошибки не будут исправлены. Так что, восприятие XML-документа будет остановлено на самой первой ошибке и страница окажется полностью недоступной в том случае, если имеется хотя бы одна ошибка. Неправильное построение XML документа показывает только детали ошибки, а не её содержание. И всегда существует опасность даже в правильно построенном и сформированном XML-документе допустить ошибку. Иногда такое можно увидеть на страницах, где содержание не контролируется XML-инструментами с хорошей обработкой различных кодировок. К примеру, ошибки выскакивают там, где посетителями оставляется комментарий или запись, а также где содержание приходит из внешних источников, таких, как обратная связь, рекламные сервисы либо некое расширение к программе или к веб-приложению. В общем, ошибок избежать практически невозможно. И это ограничивает широкое применение данного формата. Стоит сказать, что браузер Internet Explorer также не имеет поддержки XHTML в виде XML, и всегда возникают проблемы, которые создаёт XML тогда, когда не все инструменты разработчика являются XML-инструментами. Все это снижает стимул использования XML в интернете. а также для создания е-книг.

sml sml *.SML (Structured Modeling Language - язык структурного моделирования) - данный текстовый язык уподоблен файлу языка определений SQL, и как специальный тип текстового файла, выполняет задачу хранения информации, относящейся к модели «сущность-связь», в обычном текстовом формате. Использование SML предоставляет возможность легко перенести модели из одного CASE-средства в другое, при условии, что оба средства поддерживают данный формат.
В формате SML содержатся основные возможности XML и он служит для представления данных в форме древовидной структуры. От других языков разметки (HTML, XML), где заложено использование открывающихся и закрывающихся тегов в скобках, SML отличает наличие только открывающего тега (атрибута) без скобок. В одной строке описания структуры может иметься только одна запись, которая включает атрибут, значение и комментарий к записи. Также, комментарий может занимать отдельную строку. Между собой атрибут, значение и комментарий разделены символом табуляции TAB (09h), а отдельные записи (строки) разделяются символами возврата каретки CR (0Dh, 0Ah). Комментарий в строке начинается с символа # и является необязательным полем, то есть может и отсутствовать. В отличие от языка XML, где древовидная структура информации формируется за счет открывающихся и закрывающихся тегов а также их вложений, в языке SML она формируется при помощи символов табуляции, которые выполняют одновременно 2 функции: определение подчиненности записей и наглядное визуальное представление всей структуры информации. Дочерняя (подчиненная) запись Сhild имеет на один символ табуляции больше. Родительская запись Parent содержит только атрибут и необязательное поле комментария. Родительская запись в SML обозначается, как узел, который может содержать несколько дочерних записей Children, которые по отношению друг к другу являются близнецами Sibling и обладают одинаковым количеством символов табуляции. Структура SML предполагает наличие корневой записи root, которая начинается с первой позиции и заканчивается символом возврата каретки CR. Следующая строка описания является дочерней (подчиненной) записью Сhild и должна начинаться с символа табуляции; отсчет идет c начала строки.
Спецификация SML разрешает давать унифицированные определения для самых разнообразных сервисов, процессов и прочих элементов сетевой инфраструктуры. При этом подразумевается использование стандартных блоков, которые будут описывать те или иные функции, особенности объектов и прочее. Разработчиками спецификации SML являются компании Microsoft, IBM, BEA Systems, BMC Software, CA, Cisco Systems, Dell, EMC, Hewlett-Packard, Intel и Sun Microsystems. При этом каждый участник инициативы предоставляет для нужд проекта свою интеллектуальную собственность.

oeb oeb *.OEB Открытый формат, структура которого основана на XHTML (XML), используемых для создания информационных веб-узлов. Этот формат в свое время был создан консорциумом компаний под руководством Microsoft и целью его было предоставление возможности издателю опубликовать сразу такое е-книжное издание, которое можно просматривать на широком спектре устройств, таких как КПК, устройства для чтения электронных книг, ноутбуки и персональные компьютеры. По сути, OEB-книга представляет собой ZIP-архив xhtml- (xml-) графических файлов и файла с информацией о документе в целом. В настоящее время формат практически мертв, хотя OpenReader Consortium не оставляет надежды расширить возможности OEB и превратить его в действительно универсальный формат. (И в 2007 году состоялся релиз такого формата под названием .epub (прим.Ред).

ePubePub.ePub (Electronic Publication) – это открытый формат электронных версий книг, который был разработан Международным Форумом по Цифровым Публикациям (International Digital Publishing Forum – IDPF). Исходя из определения IDPF, ePub – является XML-форматом цифровых книг и публикаций с плавающей («резиновой») версткой. Основан он на трех открытых стандартах: Open Publication Structure (OPS), Open Packaging Format (OPF) и Open Container Format (OCF) и дает издателям возможность выпуска и распространения цифровых изданий в одном файле, при этом обеспечивая совместимость программного и аппаратного обеспечения, что необходимо для воспроизведения незашифрованных цифровых изданий с плавающей версткой. Сам формат был открыт еще в 1999 году, но поначалу имел название Open eBook Publication Structure (OEB). Непосредственный релиз формата ePub в том виде, который он сейчас существует, состоялся в 2007 году. По сути, файл в формате ePub - это zip-архив. Расширение .epub означает лишь то, что файл предназначается для открытия при помощи специальной программы «читалки». В zip-контейнере ePub-файла содержатся тексты в форматах xHTML, HTML или PDF, XML-файлы с описанием издания, а также каталоги, которые содержат графические файлы, в том числе в векторном формате SVG, встроенные шрифты, таблицы стилей и т.п. Файлы ePub можно создавать и редактировать даже применяя обычный Блокнот (Notepad). Создав в указанных выше форматах контент, достаточно расфасовать полученные файлы по папкам в соответствии со структурой ePub, упаковать все в zip-архив, а потом самым элементарным образом изменить расширение готового файла на .epub. Разумеется, имеются и более совершенные способы создания электронных книг в данном формате, к примеру, программа Adobe inDesign дает возможность сохранения файла в ePub-формате. Одной из особенностей ePub – является интеграция файлов шрифтов. В некоторых случаях это заметно увеличивает размер готового файла .epub, однако, позволяет донести до читателя документ в задуманном автором виде.

Продолжение обзора >>