DJVU-файлы высокого качества с сохранением результатов OCR создаёт эта программа. Если исходник представляет собой контейнер с распознанным содержимым (текст + изображение + пустое место), то выходной файл будет меньшего размера, чем исходник. Если же в контейнере-исходнике находятся изображение с OCR-слоем, то результат непредсказуем: размер выходного файла может многократно превысить размер исходника. Тема мне интересна, так что если будут удачные находки — не сочтите за труд поделиться. Успехов! P.S. Никогда не используйте JPG-формат для сохранения сканов!
Попробовал посоветованную программку. В принципе, давно искал прямой конвертер из пдф в дежавю. Результат неплохой.Но я вспомнил про ссылку у себя в закладках, не помню откуда ее взял. Это достаточно хороший и бесплатный онлайн-конвертер с опциями. Но не стоит нагружать его сильно большими файлами, может не выполнить.Выложил в гугл-диск результаты конвертирования: два типа данных - страница преимущественно с картинкой (много мелких деталей), и документ исключительно с текстом. Предложены файл-исходник, результаты конвертера PdfToDjvu и результаты онлайн-конвертера. Последние два в разрешениях 300 и 600 dpi.Визуально результат онлайн-конвертера мне нравиться лучше. В масштабе "страница на экран" исходник пдф выглядит четче. При большом увеличении явно дежавю 300 дпи проигрывает в качестве - слишком размыто. Но при дпи 600 при приближении дежавю конечно слегка размыт, но контура мне нравятся даже больше, чем в исходнике.Кроме того, онлайн-конвертер дает меньшие по размеру файлы.Посмотрите, сравните.
Спасибо за информацию. Мне очень импонирует, что Вы не прекращаете поиск. Вы правы в том, что для одного и того же исходника визуально воспринимаемое качество выходного файла зависит от создавшей этот файл программы. Поделюсь выводом, который сделал для себя на основании многолетнего опыта: никогда не ставить окончательный крест на программе, даже если найдена лучшая. Всегда следует помнить об отличной от нуля вероятности того, что ситуация может развернуться на 180 градусов и отвергнутая программа в некотором конкретном случае выдаст файл лучшего качества, чем обычно используемая. Всегда полезно иметь про запас несколько программ одинаковой направленности. А поскольку спецификации как PDF, так и DJVU постоянно меняются, то приходится отслеживать и появление новых программ. Ну и нельзя исключать появление новых эффективных алгоритмов.Увы, чудес не бывает и за всё приходится платить. За качество приходится расплачиваться размером файла, и наоборот. Специализированные алгоритмы, будь то DJVU или JPG, изначально ориентированные на повышение степени сжатия за счёт допустимой потери качества, не универсальны, а потому не всегда выдают результат с устраивающим нас отношением размер/качество.Благодарю за интересное и полезное для меня обсуждение проблемы. Успехов на Вашем увлекательном и очень нужном, но таком нелёгком пути!
Большое спасибо за совет насчёт программы scantailor. Не могли бы Вы подсказать - открывать надо то, что после сканирования называется Мои сканированные страницы (автоматически сохранённые при сканировании)? Заранее благодарю за помощь.
TIF-формат рекомендуют для сохранения сканов по двум причинам: 1) многостраничность, 2) возможность сжатия без потери качества. Никогда не используйте JPG-формат! Если не нравится TIF, сканируйте в ВМР или PNG. Успехов!
Здравствуйте! Спасибо за совет. Сам я JPG не использую, но их полно на сайте, да еще не сканы, а фото. Для конвертации в TIF, ВМР или PNG использую Abby Fine Reader 11, он поддерживает, кажется, все форматы. А потом обрабатываю цепочкой - Scan Tailor - DjVuSolo3.1 - получается вполне качественно.
Здравствуйте. Спасибо за неравнодушность. Когда я сочинял послание Книгомастеру, то увидел его совет насчёт JPG, и рекомендация эта подействовала на меня как красная тряпка на быка, не утерпел, влез в вашу переписку. Правила сайта это допускают, но всё-же примите мои извинения.Не могли бы Вы прояснить необходимость цепочки из трёх программ для создания DJVU-книг? С учётом возможностей Файнридера 11 два последних звена представляются мне излишними, ибо я не вижу преимуществ, которые даёт такое усложнение. Всего доброго. Успехов!
Здравствуйте, Сергей Васильевич 2-й! Извиняться совершенно не за что - дискуссии помогают в работе. По существу комментария: не являясь экспертом, много раз пытаясь применять упомянутые программы с той или иной целью и сравнивая затраченное время с полученным результатом, для себя я сделал следующие выводы: 1 Программа Файнридер 11 представляется мне лучшим конвертером и лучшей программой для перевода в формат DOC/DOCX, но мне совершенно не понравилась ее работа с областями. Мне не нравится именно в Файнридере обрезать сканы, выравнивать области и т.д. 2 Scan Tailor - замечательные возможности именно для обрезки страниц, поворота-разворота страниц на любой угол, а особенно - возможность изменения толщины шрифта на выводе, причем есть возможность редактирования каждой страницы, и хорошая организация полей. Обладая массой преимуществ, мне видится следующий недостаток: на выводе обрабатываются все страницы, что занимает время, поэтому в случае объемных документов я их обрабатываю и сохраняю отдельными "кусками". 3 DjVuSolo3.1 - мне кажется, лучшая программа для сборки файла, особенно нравится простота перестановок страниц с места на место. Это особенно здорово, когда файл, выложенный пользователем, имеет непредсказуемое расположение страниц в произвольном порядке, без соблюдения нумерации страниц. Являясь сторонником специализации, каждую из этих программ я и применяю именно для тех целей, о которых сказал выше. Признавая, что могу не все знать (и наверняка не все знаю) о возможностях каждой из трех программ, вот такой порядок действий для себя я вывел опытным путем, и меня вполне устраивает результат. Конечно, далеко не все со мной согласятся, но ведь каждый применяет свои методы работы и обработки, так что я просто делюсь опытом, возможно, для кого-то он окажется полезным в какой-то части.
Спасибо за интересный и информационно насыщенный ответ. Жизнь убедила меня в справедливости тезиса: «Лучшая программа та, к которой привык». Используя выработанный временем алгоритм создания электронных книг, я не испытываю потребности в программе Scan Tailor, ибо те проблемы, которые она решает на стадии постобработки скана, я привык решать на предшествующей стадии — на этапе сканирования (в частности, толщина шрифта зависит от параметра «Яркость»). У меня сканер с бортиком, так что нет проблем с точным кадрированием перед сканированием, соответственно отсутствует необходимость в массовой обрезке страниц, а для корректировки размера полей обычно мне достаточно соответствующей опции Файнридера, доступной при сохранении в PDF-файл.Что касается DjVuSolo 3.1, то качество DJVU-файлов, создаваемых программой более чем десятилетней давности, нисколько не лучше качества файлов, генерируемых Файнридером. Теперь о таком достоинстве программы DjVuSolo, как
простота перестановок страниц с места на место
. Мне кажется, что здесь просто какое-то недоразумение: в Файнридере растягиваем окно «Страницы» на весь экран монитора, выделяем нужные страницы и перетаскиваем их на положенное место. Тот же принцип, что и в DjVuSolo, только в более удобной реализации.А в общем и целом я целиком и полностью согласен со многими высказанными Вами соображениями общего характера. Наш диалог был для меня весьма полезен с точки зрения расширения кругозора. Весьма Вам признателен за это. Успехов!
Здравствуйте, Сергей Васильевич! По поводу Вашего комментария:
те проблемы, которые она решает на стадии постобработки скана, я привык решать на предшествующей стадии — на этапе сканирования (в частности, толщина шрифта зависит от параметра «Яркость»).
Возможно, Вы просто не приняли во внимание, что я ни слова не говорил (писал) о сканировании. Если вести отсчет от сканирования, то тут вообще нет вопросов. Во-первых, Вы совершенно правы в своем мнении о программе Fine Reader, и я Вас полностью поддерживаю; Во-вторых, у меня весьма приличный фотосканер, и его встроенная программа позволяет обрезать, поворачивать, разрезать, редактировать каждую страницу как раз на этапе сканирования, после него делать почти нечего. А мои предыдущие комментарии как раз и относились к случаям обработки чужих некачественных материалов, встречаются ведь совсем уж неудобоваримые файлы, как только совесть позволяет такое выкладывать. Просто жаль тех несчастных, которые вот это вот скачивают, а потом высказывают претензии сайту. "За державу (в данном случае - за сайт) обидно... " - поэтому, когда попадается нечто этакое, я и пытаюсь сделать если и не конфетку, то хотя бы придать более приличный вид. С уважением и благодарностью за Ваши безусловно интересные и полезные консультации
Действительно, извиняться тут не за что, ведь так мы узнаем что-то новое.На самом деле, я не советовал сканировать в JPG :), я лишь упомянул возможность, но поставив TIFF на первое место.Моя цепочка действий при создании книги примерно такая же, как у resha58.Насчет Scan Tailor. Действительно, если вы поставите перед началом вывода активной первую страницу проекта, то обрабатываться будут все. Но! Если в папке out уже существует именно эта выходная страница, то она будет пропущена. Как при этом решается конфликт качества растра - я не знаю точно. Но то, что обработанные страницы пропускаются, это вроде точно, так как я смотрел по времени создания файла, да и видно, что ранее обработанные быстрее проскальзывают.Но чтобы не тратить время даже на такую проверку, рекомендую просто перед началом вывода делать активной первую невыведенную страницу. Тогда все страницы что выше - обработаны не будут. ST дойдет до конца обработки и остановится. Либо же вы его прервете, а потом начнете с остановленной страницы.
Вас понял. Но Вы уж, пожалуйста, поаккуратнее со словами, а то рекомендацию во фразе
1) Сканируем в tiff или jpg - каждый разворот страниц - отдельный файл
легко понять с точностью до наоборот в части, касающейся JPG-формата, что я и сделал. Благодарю за обсуждение вопроса и интересную информацию. Успехов!
Jpg с качеством 100 практически идентичен tif а djvusolo настолько древняя... и в ней и в DEE 5 и 6 вылезает проблема инь - змена и на н и наоборот. попробуйте это - нет проблем с большими проектами, так как кодируется все по одному.
Благодарю за полезную и интересную информацию. С проблемой «инь» сталкивался, но не знал, что она обязана своим происхождением программе DjvuSolo, ибо не использую оную именно в силу ейной устарелости.Касательно сканирования в JPG-формат процитирую Руководство по созданию электронных книг из бумажных:
Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно… потому, что этот формат даже при… Quality = 100 оставляет артефакты в виде "квадратиков".
Давным-давно, когда деревья были большими, а я был знаком только с двумя графическими форматами — ВМР и JPG — каюсь, сканировал в JPG-формат. Поиск причин неудовлетворительного качества отсканированного материала закончился отказом от JPG как выходного формата при создании электронных книг.Успехов!
Спасибо за развернутый ответ. Приятно побеседовать с умным человеком.По поводу JPG - может быть... только что сравнил tif24b(LZW) и оный, сохраненный в JPG(качество 12) в Photoshop CS3 - нет отличий... касательно других программ не знаю. не пользовал уже давно - многие в jpg сохраняют без опции макс качества.По поводу x64 и djvusmall 0.4.4 - у нее ограничение на длину пути и имени 73 символа путь+имя файла - предел при декодировании (проверено в XPSP3rus). Также, возможно, требуется MSVC runtime x32 и x64 = на рутрекере есть отличная сборка! (Ссылки нет под рукой - если не найдете - поищу.)Проблема "инь" связана с настройками кодера и качеством оригинала. DjVuSmall единственный позволяет настроить практически все параметры (в том числе и усреднение shape для jb2). Если не считать консольных чудес DjvuLibre :)
Настройки Solo настолько убоги, что пользовать ее при наличии DEE 6 с опцией lossless просто ;)Но оный имеет мало опций... Проще ScanTailor 300dpi->600dpi->DjVuSmall(User BW 600dpi) и вуаля - инь встречается, но редко
И Вам не болеть. Многие программы не любят не только длинные пути, но и кириллицу в именах обрабатываемых файлов, поэтому подлежащие конвертации файлы я помещаю в корневой каталог и снабжаю именами типа s1, v2 и т.д. Так что эта причина неработоспособности DjVu Small отпадает. Буду искать дальше по указанному Вами направлению.Теперь ещё раз о формате JPG. Существует достаточно большое количество ситуаций, когда его использование вполне допустимо (иначе зачем он нужен?), в том числе иногда и при сканировании. Но неофиты применяют его не потому, что ситуация позволяет это сделать, а от неопытности. Так давайте их учить правильному подходу к делу, неправильному они научатся сами.У меня сложилось ощущение, что применительно к JPG-формату Вы отождествляете режимы сжатия «максимальное качество (Quality = 100)» и «без потерь (lossless JPEG)». На всякий случай привожу несколько цитат из Википедии.
Алгоритм JPEG позволяет сжимать изображение как с потерями, так и без потерь (режим сжатия lossless JPEG).JPEG малопригоден для сжатия чертежей, текстовой и знаковой графики, где резкий контраст между соседними пикселами приводит к появлению заметных артефактов. Такие изображения целесообразно сохранять в форматах без потерь, таких как TIFF, GIF или PNG.JPEG (как и другие методы искажающего сжатия) не подходит для сжатия изображений при многоступенчатой обработке, так как искажения в изображения будут вноситься каждый раз при сохранении промежуточных результатов обработки.JPEG не должен использоваться и в тех случаях, когда недопустимы даже минимальные потери, например, при сжатии астрономических или медицинских изображений. В таких случаях может быть рекомендован предусмотренный стандартом JPEG режим сжатия Lossless JPEG (который, однако, не поддерживается большинством популярных кодеков) или стандарт сжатия JPEG-LS.При сохранении изображения в JPEG-файле указывается параметр качества, задаваемый в некоторых условных единицах, например, от 1 до 100 или от 1 до 10. Большее число обычно соответствует лучшему качеству (и большему размеру сжатого файла). Однако даже при использовании наивысшего качества восстановленное изображение не будет в точности совпадать с исходным, что связано как с конечной точностью выполнения дискретного косинусного преобразования (ДКП), так и с необходимостью округления значений Y, Cb, Cr и коэффициентов ДКП до ближайшего целого. Режим сжатия Lossless JPEG, не использующий ДКП, обеспечивает точное совпадение восстановленного и исходного изображений, однако его малая эффективность (коэффициент сжатия редко превышает 2) и отсутствие поддержки со стороны разработчиков программного обеспечения не способствовали популярности Lossless JPEG.
Общение с Вами не только интересно, но и приятно. Всего доброго. Успехов!
Вот тут ms vc на все случаи жизни - ставил - все ок какой jpg у PsCS3 - не выяснял, но файлы по объему получаются=tif-lzwнеофиты любят ужимать pdf не понимая, что это достигается даунсемплингом и jpeg-сжатием. бывают мастера, которые то же делают и с исходными сканами... боже мой! наша задача вбить каждому, что jpg - плохо, tif - хорошо! и st(sk, br)->st split->djvusmall->djvuimagerпод w7 кажется есть виртуальная машина с ХР - сам не пробовал - люди писали.ну успехов вам! приятно было пообщаться.
Djvusmall x32 vc программа-оболочка, запускающая консольный кодер: неясно что у вас не идет - сама графич оболочка или кодирование.учитывая, что х64 часто вызывает ошибки в х32 программах логично запустить проблемную утилиту в виртуальной машине с ХР - под ней и под w7x32 нет проблем. отлично кодирует.
Из дискуссии я узнал достаточно много полезного.Выше я говорил, что не нашел быстрого метода по расширенному кодированию в DJVU страниц с цветными иллюстрациями - чтобы рисунок сделать в photo-режиме, а текст - в bitonal.Однако, в вики Scan Tailor'a есть ссылка на программы ST Separator и DJVU Imager. Первая делает два субскана - отдельно текст, отдельно картинка. Разделение на субсканы производится на основе маски "зона картинок" в Scan Tailor'е (видимо, читает из файла проекта).Далее DJVU Imager помогает вклеить рисунки в черно-белый дежавю (на основе текстовых субсканов). Естественно, все делается с учетом одинаковых размеров растров - т.е. рисунок вклеивается куда надо.Я попробовал только часть процесса, но очевидно, что это работает. И программы бесплатные.Надеюсь, что пригодится кому-то. Хотя может все это и так знали.
прочтите - поможет st-split 1.4 можно взять на форуме там же обсуждены детали. очень легкая и простая технология. в imager рекомендую ДЗФ=2 качество 45-50 с контролем результата. Успехов! дорогу осилит идущий.
Судя по количеству некачественных переделок хороших сканов в дрянной jpg или jpg-pdf - мало кто знает, что в jpeg сжатие то же LZW, а сжатие достигается усреднением картинки блоками 8х8 - отсюда и артефакты и мохнатые буквы - фактически снижается разрешение, только очень необычным способом.
Господа, не смущайте неокрепшие души некорректными с теоретической точки зрения высказываниями типа
мало кто знает, что в jpeg сжатие то же LZW
Используйте более обтекаемые формулировки (вроде «с практической точки зрения…»).LZW — это универсальный алгоритм сжатия данных без потерь, а алгоритм JPEG использует визуально малоощутимую потерю качества для достижения высокой степени сжатия.
Насколько известно сжатие jpeg состоит в усреднении картинки блоками 8х8 и, последующем, сжатием "сглаженной и упрощенной" картинки LZW (то же, что и у TIFF). Разница в том, что в tiff-lzw нет никакого усреднения - после распаковки картинка идентична исходной, до сжатия. Хотя сейчас уже появилось и tiff-jpeg... Так что просто tiff - не гарантия сохранения скана 1:1 - необходимо уточнять что tif должен иметь сжатие lzw или не иметь его вовсе. для ч/б tif допустимо G4FAX (CCIT G4). для серого - packbits или lzw.
tiff - не гарантия сохранения скана 1:1 - необходимо уточнять что tif должен иметь сжатие lzw или не иметь его вовсе
Весьма уместное уточнение. Однако я предпочёл бы более обтекаемую формулировку: не «сжатие lzw», а «сжатие без потерь», имея в виду, помимо прочего, и потерю цветности при сжатии.
В опциях сохранения нет "сжатие без потерь". обычно "без", LZW, CCIT... и... JPEG! Обтекаемо будет: Сохраняйте сканированное изображение в формат TIF, сжатие - любое, кроме JPEG
А разве я где-то помянул опцию «сжатие без потерь»? Опции зависят от используемой программы (так, в FineReader 11 я насчитал 15 вариантов сохранения в TIF, а в IrfanView 4.35 — только 9), а вот говорить об группе опций, предполагающих сжатие без потерь (я, например, использую ZIP-сжатие), вполне уместно.
Помянуто "сжатие без потерь" - в расчете на неокрепший ум неофита - так он будет искать такую опцию. формулировка предполагает хорошее знание видов сжатия, их достоинств, недостатков, а также характер искажений оригинала, вносимых при сжатии. в расчете на специалиста - я продвинутый чайник, хорошо понял ваши реплики.а за критику по jpeg спасибо - я наконец поставил точку в этом вопросе для себя - потери есть даже на качество=12 в Ps.спасибо за конструктивную критику.p, s, удалось ли запустить djvusmall? мне скоро будет выбор что ставить и приглядываюсь к w7x64
Вы правы, мне (и многим другим тоже) трудно разговаривать на языке, понятном начинающим: это и скучно (требуется слишком много слов), и очень трудно (требуется особый подход), да и просто забыл уже, какие проблемы (теперь-то они кажутся пустяковыми, а тогда…) волновали меня много лет назад. Почему бы Вам не оставить свои комментарии к теме Подробное руководство по созданию электронных книг из бумажных? Жизнь не стоит на месте, а сказать Вам есть что. Прочитав помянутый материал, в котором в очередной раз растиражированы вредные (ибо выдаются за универсальные, хотя имеют чётко очерченную область применимости), с моей точки зрения, советы, не удержался и высказался. Боюсь, однако, что был излишне лапидарен и не каждый сможет уловить, например, какая связь между наличием бортика у сканера и проблемой полей или перекосов в полученном изображении. Да и у Книгомастера места уже маловато, так что пора записываться в «романтики с большой дороги».
за критику по jpeg спасибо
Критика (по форме) если и была, то помимо моей воли — было желание прояснить ситуацию. Рад, что это удалось.Теперь о DJVU SMALL. Начну издалека. Связка «пользователь + железо + операционка + набор софта» образуют систему. От использования некоторых отличным программ я отказался только потому, что они не вписывались в сложившуюся у меня систему. Опять же от входящих в эту систему программ я отказываюсь только тогда, когда они перестают меня устраивать. У меня выработалась определённая последовательность действий, основанная на имеющемся у меня работоспособном софте и позволяющая получать устраивающие меня по качеству DJVU-книги со цветными иллюстрациями (пример лучшего из созданных мной DJVU-файлов находится здесь ). Я не стал добиваться работоспособности DJVU SMALL помимо прочего и по той причине, что не испытываю в ней потребности — её место в моей системе занято.И последнее — о переходе на новую операционку. Вы, конечно, не застали переход с 8-разрядных операционных систем на 16-разрядные. Не уверен, что Вы помните и переход с 16 разрядов на 32. Я через это всё прошёл и помню, что все упомянутые переходы были резкими по времени. Отсюда вывод: не за горами момент, когда 32-разрядные системы вымрут, и процесс этот не займёт много времени (уже имеются примеры программ для Винды, существующих только в 64-разрядных версиях). Так что если хотите встретить этот момент во всеоружии, заранее к нему подготовившись, то переходите сразу на восьмёрку х64. Если же Вы не боитесь революций, то можно не спешить. Начиная с Висты я работаю только в 64-разрядных системах, уже привык к ним и неудобств не испытываю. Для программ, которым 64 разряда не нравятся (таких не очень много), у меня имеются виртуальная машина и реальная ХР в одном из разделов.Успехов!
Спасибо за ответ. Но альтернативе djvusmall нет - это ломаный кодер с сегментатором - конкуренты бесплатные не умеют разделяемый словать делать... так что неясно, чем можно под х64 нормально кодировать.
Всё зависит от постановки задачи. Мне требуется набор софта для создания качественной DJVU-книги относительно небольшого размера со цветными полутоновыми иллюстрациями и OCR-слоем, и такой набор у меня имеется; DJVU SMALL в этот набор не входит. При такой постановке проблемы альтернатива этой программе, как видите, есть. Ни с какой другой стороны DJVU-файлы меня пока не интересуют, поэтому применительно к решению других задач не мне судить о наличии или отсутствии достойных конкурентов DJVU SMALL. Успехов.
Ну ладно. не хотите отвечать - не надо. поставлю х64 - видно будет. если это FR11 - то он относительно неплох. djvuprinterpilot - убожество. софт от каминовы? насчет софта - пентиум100+32мб + win3.11 был существенным шагом от спектрума. c2d+4gb+xp - не очень. i5+8gb+w7x64 - мелкий и очень дорогой шажок. соблюдается принцип парето.
Снимаю утверждение о качестве jpeg:При сжатии изображение преобразуется из цветового пространства RGB в YCbCr (YUV)... После преобразования RGB->YCbCr для каналов изображения Cb и Cr, отвечающих за цвет, может выполняться «прореживание» (subsampling[3]), которое заключается в том, что каждому блоку из 4 пикселов (2х2) яркостного канала Y ставятся в соответствие усреднённые значения Cb и Cr (схема прореживания «4:2:0»[4]). При этом для каждого блока 2х2 вместо 12 значений (4 Y, 4 Cb и 4 Cr) используется всего 6 (4 Y и по одному усреднённому Cb и Cr)... Далее яркостный компонент Y и отвечающие за цвет компоненты Cb и Cr разбиваются на блоки 8х8 пикселов. Каждый такой блок подвергается дискретному косинусному преобразованию (ДКП). Полученные коэффициенты ДКП квантуются (для Y, Cb и Cr в общем случае используются разные матрицы квантования) и пакуются с использованием кодирования серий и кодов Хаффмана... Матрицы, используемые для квантования коэффициентов ДКП, хранятся в заголовочной части JPEG-файла. Обычно они строятся так, что высокочастотные коэффициенты подвергаются более сильному квантованию, чем низкочастотные. Это приводит к огрублению мелких деталей на изображении. Чем выше степень сжатия, тем более сильному квантованию подвергаются все коэффициенты.При сохранении изображения в JPEG-файле указывается параметр качества, задаваемый в некоторых условных единицах, например, от 1 до 100 или от 1 до 10. Большее число обычно соответствует лучшему качеству (и большему размеру сжатого файла). Однако даже при использовании наивысшего качества (соответствующего матрице квантования, состоящей из одних только единиц) восстановленное изображение не будет в точности совпадать с исходным, что связано как с конечной точностью выполнения ДКП, так и с необходимостью округления значений Y, Cb, Cr и коэффициентов ДКП до ближайшего целого.Режим сжатия Lossless JPEG, не использующий ДКП, обеспечивает точное совпадение восстановленного и исходного изображений, однако его малая эффективность (коэффициент сжатия редко превышает 2) и отсутствие поддержки со стороны разработчиков программного обеспечения не способствовали популярности Lossless JPEG...поиск дал следующее: Ps использует при качество=12 матрицу 1/1/1 и качество 98%. С использованием стандартного преобразования цвета, похоже (заметил еле различимое искажение оттенков).According to the Wikipedia entry for Lossless JPEG, it has been used in some medical imaging applications and is used in, of all things, DNG and some cameras' RAW formats
Большое спасибо за баллы, рад помочь!Примерная методика работы со Scan Tailor'ом:1) Сканируем в tiff или jpg - каждый разворот страниц - отдельный файл 2) Собираем все сканы в одной папке 3) Отрываем Scan Tailor - новый проект, указываем папку, где лежат наши растры, жмем добавить в проект 4) Загрузится проект со всеми нашими растрами 5) Обработка растров включает несколько последовательных этапов - исправление ориентации (альбом/портрет), разрезка двустраничных сканов, исправление угла каждой странички (когда сканируем всегда есть некий угол), указание полезной области (та что попадет в конечный растр) 6) Последние два этапа - добавление полей и вывод, в выводе можно выбирать цветной растр или ч/б.Я обычно сразу перехожу к этапу указания полезной области, так как предыдущие этапы программа сама выполняет хорошо. Готовые страницы (с этапа "вывод") будут лежать в папке "папка_проекта\out"Неплохой faq есть на сайте Scan TailorЕсли буду еще вопросы, всегда рад помочь, удачи!
Здравствуйте! Не увлекайтесь конвертированием форматов, т.к. цель сайта - максимальное разнообразие источников, а не "закрыть ниши" по форматам. Вы много поработали и основательно улучшили исходный файл, поэтому такое дополнение вполне в русле Правил. Однако на практике приветствуется дополнение в формате аналоге (например, pdf/djvu) в случае, когда более ранний источник был недостаточно хорошего качества
Добрый день, Дмитрий!Все дело в том, что по натуре я таков, что люблю порядок. Порой очень хорошие книги, выложенные на сайте, обладают рядом недостатков, которые снижают комфортность использования - формат 2 страницы на лист, отсутствие оглавления, сырые сканы (невыровненные, без обрезки бокового мусора). Это может быть связано как с ленью первичного автора, так и с его неумением обработки (я, например, только недавно открыл Scan Tailor, делая до этого в Corel).Для себя я стараюсь такой материал переделать. Таким образом, пользователи сайта становятся заложниками ситуации, что первоначальный автор сделал не совсем качественную работу, которую теперь каждый должен улучшать для себя сам, потому что механизма улучшения (и разделения баллов) пока нет.Я уже писал в свое время предложения админам по механизму замены файлов. Ими же было сказано, что как один из вариантов улучшения - перевод ПДФ в Дежавю. Тогда я для себя отверг Дежавю, но сейчас-таки склонился в его пользу, поэтому свои книги перевожу в этот формат. Отчего бы не дать возможность другим пользоваться этим.Собственно, я не гонюсь за баллами, а потому честно пишу что лишь доработал, давая ссылку на автора.
Здравствуйте! Я поэтому и сделал приписку, что в Вашем случае виден "пот" и работа. К сожалению, это редкий случай - в последнее время многие "новички" (к Вам не относится) пытаются делать "карьеру" именно самым незамысловатым способом: конвертировать пользующиеся спросом книги во всевозможные форматы. Предлагаю вариант, когда Вы, выкладывая файл-дубликат, делаете краткий комментарий с его отличиями (не в описании, а в просто в комментариях), чтобы было понятно, что это не вышеуказанный случай. А мне это сэкономит время.
Комментарии
Результат неплохой.Но я вспомнил про ссылку у себя в закладках, не помню откуда ее взял. Это достаточно хороший и бесплатный онлайн-конвертер с опциями. Но не стоит нагружать его сильно большими файлами, может не выполнить.Выложил в гугл-диск результаты конвертирования: два типа данных - страница преимущественно с картинкой (много мелких деталей), и документ исключительно с текстом. Предложены файл-исходник, результаты конвертера PdfToDjvu и результаты онлайн-конвертера. Последние два в разрешениях 300 и 600 dpi.Визуально результат онлайн-конвертера мне нравиться лучше. В масштабе "страница на экран" исходник пдф выглядит четче. При большом увеличении явно дежавю 300 дпи проигрывает в качестве - слишком размыто. Но при дпи 600 при приближении дежавю конечно слегка размыт, но контура мне нравятся даже больше, чем в исходнике.Кроме того, онлайн-конвертер дает меньшие по размеру файлы.Посмотрите, сравните.
Заранее благодарю за помощь.
1 Программа Файнридер 11 представляется мне лучшим конвертером и лучшей программой для перевода в формат DOC/DOCX, но мне совершенно не понравилась ее работа с областями. Мне не нравится именно в Файнридере обрезать сканы, выравнивать области и т.д.
2 Scan Tailor - замечательные возможности именно для обрезки страниц, поворота-разворота страниц на любой угол, а особенно - возможность изменения толщины шрифта на выводе, причем есть возможность редактирования каждой страницы, и хорошая организация полей. Обладая массой преимуществ, мне видится следующий недостаток: на выводе обрабатываются все страницы, что занимает время, поэтому в случае объемных документов я их обрабатываю и сохраняю отдельными "кусками".
3 DjVuSolo3.1 - мне кажется, лучшая программа для сборки файла, особенно нравится простота перестановок страниц с места на место. Это особенно здорово, когда файл, выложенный пользователем, имеет непредсказуемое расположение страниц в произвольном порядке, без соблюдения нумерации страниц.
Являясь сторонником специализации, каждую из этих программ я и применяю именно для тех целей, о которых сказал выше. Признавая, что могу не все знать (и наверняка не все знаю) о возможностях каждой из трех программ, вот такой порядок действий для себя я вывел опытным путем, и меня вполне устраивает результат. Конечно, далеко не все со мной согласятся, но ведь каждый применяет свои методы работы и обработки, так что я просто делюсь опытом, возможно, для кого-то он окажется полезным в какой-то части.
Если вести отсчет от сканирования, то тут вообще нет вопросов. Во-первых, Вы совершенно правы в своем мнении о программе Fine Reader, и я Вас полностью поддерживаю; Во-вторых, у меня весьма приличный фотосканер, и его встроенная программа позволяет обрезать, поворачивать, разрезать, редактировать каждую страницу как раз на этапе сканирования, после него делать почти нечего.
А мои предыдущие комментарии как раз и относились к случаям обработки чужих некачественных материалов, встречаются ведь совсем уж неудобоваримые файлы, как только совесть позволяет такое выкладывать. Просто жаль тех несчастных, которые вот это вот скачивают, а потом высказывают претензии сайту. "За державу (в данном случае - за сайт) обидно... " - поэтому, когда попадается нечто этакое, я и пытаюсь сделать если и не конфетку, то хотя бы придать более приличный вид.
С уважением и благодарностью за Ваши безусловно интересные и полезные консультации
а djvusolo настолько древняя... и в ней и в DEE 5 и 6 вылезает проблема инь - змена и на н и наоборот. попробуйте это - нет проблем с большими проектами, так как кодируется все по одному.
какой jpg у PsCS3 - не выяснял, но файлы по объему получаются=tif-lzwнеофиты любят ужимать pdf не понимая, что это достигается даунсемплингом и jpeg-сжатием. бывают мастера, которые то же делают и с исходными сканами... боже мой! наша задача вбить каждому, что jpg - плохо, tif - хорошо! и st(sk, br)->st split->djvusmall->djvuimagerпод w7 кажется есть виртуальная машина с ХР - сам не пробовал - люди писали.ну успехов вам! приятно было пообщаться.
st-split 1.4 можно взять на форуме там же обсуждены детали. очень легкая и простая технология. в imager рекомендую ДЗФ=2 качество 45-50 с контролем результата.
Успехов! дорогу осилит идущий.
Разница в том, что в tiff-lzw нет никакого усреднения - после распаковки картинка идентична исходной, до сжатия. Хотя сейчас уже появилось и tiff-jpeg... Так что просто tiff - не гарантия сохранения скана 1:1 - необходимо уточнять что tif должен иметь сжатие lzw или не иметь его вовсе. для ч/б tif допустимо G4FAX (CCIT G4). для серого - packbits или lzw.
Обтекаемо будет:
Сохраняйте сканированное изображение в формат TIF, сжатие - любое, кроме JPEG
если это FR11 - то он относительно неплох. djvuprinterpilot - убожество. софт от каминовы?
насчет софта - пентиум100+32мб + win3.11 был существенным шагом от спектрума. c2d+4gb+xp - не очень. i5+8gb+w7x64 - мелкий и очень дорогой шажок. соблюдается принцип парето.
После преобразования RGB->YCbCr для каналов изображения Cb и Cr, отвечающих за цвет, может выполняться «прореживание» (subsampling[3]), которое заключается в том, что каждому блоку из 4 пикселов (2х2) яркостного канала Y ставятся в соответствие усреднённые значения Cb и Cr (схема прореживания «4:2:0»[4]). При этом для каждого блока 2х2 вместо 12 значений (4 Y, 4 Cb и 4 Cr) используется всего 6 (4 Y и по одному усреднённому Cb и Cr)...
Далее яркостный компонент Y и отвечающие за цвет компоненты Cb и Cr разбиваются на блоки 8х8 пикселов. Каждый такой блок подвергается дискретному косинусному преобразованию (ДКП). Полученные коэффициенты ДКП квантуются (для Y, Cb и Cr в общем случае используются разные матрицы квантования) и пакуются с использованием кодирования серий и кодов Хаффмана...
Матрицы, используемые для квантования коэффициентов ДКП, хранятся в заголовочной части JPEG-файла. Обычно они строятся так, что высокочастотные коэффициенты подвергаются более сильному квантованию, чем низкочастотные. Это приводит к огрублению мелких деталей на изображении. Чем выше степень сжатия, тем более сильному квантованию подвергаются все коэффициенты.При сохранении изображения в JPEG-файле указывается параметр качества, задаваемый в некоторых условных единицах, например, от 1 до 100 или от 1 до 10. Большее число обычно соответствует лучшему качеству (и большему размеру сжатого файла). Однако даже при использовании наивысшего качества (соответствующего матрице квантования, состоящей из одних только единиц) восстановленное изображение не будет в точности совпадать с исходным, что связано как с конечной точностью выполнения ДКП, так и с необходимостью округления значений Y, Cb, Cr и коэффициентов ДКП до ближайшего целого.Режим сжатия Lossless JPEG, не использующий ДКП, обеспечивает точное совпадение восстановленного и исходного изображений, однако его малая эффективность (коэффициент сжатия редко превышает 2) и отсутствие поддержки со стороны разработчиков программного обеспечения не способствовали популярности Lossless JPEG...поиск дал следующее: Ps использует при качество=12 матрицу 1/1/1 и качество 98%. С использованием стандартного преобразования цвета, похоже (заметил еле различимое искажение оттенков).According to the Wikipedia entry for Lossless JPEG, it has been used in some medical imaging applications and is used in, of all things, DNG and some cameras' RAW formats
2) Собираем все сканы в одной папке
3) Отрываем Scan Tailor - новый проект, указываем папку, где лежат наши растры, жмем добавить в проект
4) Загрузится проект со всеми нашими растрами
5) Обработка растров включает несколько последовательных этапов - исправление ориентации (альбом/портрет), разрезка двустраничных сканов, исправление угла каждой странички (когда сканируем всегда есть некий угол), указание полезной области (та что попадет в конечный растр)
6) Последние два этапа - добавление полей и вывод, в выводе можно выбирать цветной растр или ч/б.Я обычно сразу перехожу к этапу указания полезной области, так как предыдущие этапы программа сама выполняет хорошо. Готовые страницы (с этапа "вывод") будут лежать в папке "папка_проекта\out"Неплохой faq есть на сайте Scan TailorЕсли буду еще вопросы, всегда рад помочь, удачи!