Что такое DOC-, DOCX- и RTF-файлы? Это файлы текстовых документов офисного формата, спецификации которых разработаны фирмой Майкрософт. Изначальное назначение таких файлов — создание бумажных документов; сами файлы самостоятельного значения не имеют, распространение их за пределами корпоративной или частной сети создателя/владельца не запрещено, но и не приветствуется, а внутри сети создателя/владельца такие файлы нужны исключительно для архивного хранения документации. В связи с развитием электронного документооборота текстовые документы офисного формата часто используют как исходники для создания электронных документов (е-документов), включая электронные книги (е-книги).
Что такое электронный документ? Это цифровой заменитель бумажного документа с дополнительными специфическими свойствами, которые невозможно реализовать в бумажном документе (цифровая подпись, полнотекстовый поиск, интерактивное оглавление, гиперссылки, встроенные аудио- и видеофрагменты, и т.д, и т.п.). Распечатка е-документа на твёрдый носитель (бумагу, например) ведёт к потере специфических дополнительных возможностей и по этой причине не приветствуется.
Что такое цифровая книга? Это многостраничный е-документ, в котором реализована, как минимум, возможность полнотекстового поиска. Так, бумажная книга, сохранённая в PDF-формате, без текстового слоя представляет собой просто многостраничное изображение, помещённое в PDF-контейнер, а этот же файл, дополнительно содержащий тестовый слой, т.е. обеспечивающий полнотекстовый поиск, есть уже е-книга. Под вышеприведённое определение цифровой книги формально попадают все многостраничные документы любого офисного формата (DOC, DOCX, ODT, RTF, TMD, WRI и др.). Однако изначальная нацеленность перечисленных форматов на иные цели часто делает оные форматы менее удобными при использовании в качестве е-книг, нежели специализированные форматы цифровых книг (DJVU, EPUB, FB2, MOBI) и универсальный формат-контейнер PDF.
В каких форматах сохранять цифровые книги научно-технического содержания? Де-факто стандартом служит PDF-формат. На практике отсканированную бумажную книгу рекомендуют сохранять в виде многостраничного PDF- или DJVU-изображения с текстовым слоем и, при необходимости, интерактивным оглавлением (закладками). См.
Сканирование научно-технической литературы: советы начинающим.
Почему текстовые файлы офисного формата не подходят на роль цифровых книг научно-технического содержания? Во-первых, создание качественного научно-технического текста с изображениями и формулами возможно либо ручным набором всего текста, либо распознаванием соответствующей программой бумажного оригинала и ручной правкой полученного материала (вариант, когда, например, DOCX-файл состоит из одних картинок, из рассмотрения исключаем). Помимо впечатляющих затрат времени на выполнение работы при таком подходе к некоторому количеству ошибок в бумажном издании добавляется неизвестное количество собственных ошибок распознавания, вполне возможно, имеющих критическое значение и потому абсолютно недопустимых. Ошибки распознавания неизбежны, конечно, и при сохранении отсканированной бумажной книги в виде многостраничного PDF- или DJVU-изображения с текстовым слоем, вот только в глаза эти ошибки бросаться не будут, ибо визуально такая книга воспринимается как набор картинок.
Во-вторых, для PDF- и DJVU-файлов внешний вид страницы не зависит от используемого просмотрщика; в идеале это же должно было бы наблюдаться и для любого офисного формата, но увы… Пользователи, сохраняющие свои тексты в документах офисного формата (и при этом не подозревающие о необходимости внедрять используемые шрифты в создаваемый документ), сплошь и рядом наивно полагают, что и на других компьютерах юзеры будут наблюдать ту же картинку, которую автор, набирая текст, видит на своём мониторе. К сожалению, обычно дело обстоит с точностью до наоборот. Даже в родных майкрософтовских программах (Word разных версий, Wordpad и Microsoft Word Viewer) текст может выглядеть по разному: может измениться форматирование, поменяться разбивка на страницы, картинки будут иметь разные размеры и «бегать» по страницам или даже вообще становиться невидимыми, «улетая» за границы страницы. Нестандартные символы, не внедрённые автором в текст, будут отображаться квадратиками или кракозябрами. Более того, если для просмотра чужих DOC/DOCX-файлов использовать не родные майкрософтовские программы, включая проприетарный Word, а более удобные (и бесплатные к тому же) утилиты сторонних производителей (например,
IBM Lotus Symphony,
WPS Office 2016 Free или
SoftMaker FreeOffice 2016), то ситуация усугубляется, ибо неродные текстовые процессоры не обеспечивают 100%-ной совместимости с программой, в которой файл создан. Большинство «неродных» программ до сих пор с ошибками открывают DOC/DOCХ-файлы со сложной структурой, и сильнее всего страдают формулы, выглядящие иногда в неродном просмотрщике весьма странно или вовсе даже исчезающие из документа. Для иллюстрации привожу
страницу научного текста в DOC-формате. Если в вашем браузере формулы в этом тексте выглядят нормально, то вам повезло.
В-третьих, напомню, что за вордовским расширением DOC скрываются минимум 4 разных формата, причём самые старые из них современные версии родного майкрософтовского Ворда уже не могут открыть без потери форматирования! Тот факт, что сами мелкомягкие отказались от DOC-формата и перешли на DOCX означает, что дни DOC-формата, даже если этих дней будет много, сочтены.
В-четвёртых, цитируя книгу в PDF- или DJVU-формате, всегда можно дать ссылку на правильную страницу бумажного оригинала. Часто именно по этой причине многостраничное изображение любого качества оказывается предпочтительней документа офисного формата даже самого лучшего качества.
Комментарии