У нас нет организационно-технических возможностей признавать скан-pdf и ocr-pdf за разные форматы. Для программы, опознающей форматы, pdf = pdf, она не видит нюансов. Достаточного числа рабочих рук, чтобы скачать каждый файл, которого это касается, и пометить, что нет, это не такой pdf, а совсем другой pdf, у нас нет даже близко. Без такой пометки, это - повторы и источник постоянной необходимости объясняться, в чём разница. Плюс источник постоянного риска, что один из двух файлов таки будет удалён по факту большего ID. Причём, по нижеизложенным причинам, максимально печально, если это окажется скан-версия — поэтому с т.з. её сохранности ей безопаснее быть единственной.Ослабить запрет на выкладывание файлов в одном формате мы также не можем — сайт тут же окажется наводнён вариантами, подвариантами и подвариантами подвариантов, целесообразность одновременного сосуществования которых будет уже сомнительна, а места, к-рое могло бы быть занято уникальными (в смысле "не повторяющимися, представленными в одном экземпляре") материалами, они заедят порядочно.Если Вы переживаете за "нервы и зрение" пользователей, пожалуйста, выложите "отдельный от книги OCR" в формате doc или подобном - такие форматы, собственно, и существуют ради того, если кому-то не важно нижесказанное, а важно лишь прочитать текст не заморачиваясь. Кому надо, сделают себе из такого doc pdf'ку любым конвертером.За текстуру бумаги мы не переживаем: предпочтение всегда отдаётся вычищенным бинаризованным (ч/б) сканам, если только ч/б обработка не вредит разборчивости букв (если скан хороший, то не должна). Ценность аутентичного скана в том, что только он = ж/б гарантия соответствия бумажному первоисточнику в плане текста книги как текста. И вот именно за неё (за гарантию соответствия) мы переживаем очень сильно. Хотя бы потому, что наш сайт существует, в огромной мере, ради людей, у которых нет и не будет физической возможности когда-либо подержать в руках бумажный оригинал. Мы не можем верить Вам на слово, что Вы не допустили, возможно, даже случайно, вот прямо ни единого отклонения от первоисточника. И сверить побуквенно тоже не можем. А некоторые люди, бывает, допускают отклонения намеренно, считая, что "им виднее", нежели авторам и издателям. Начинается с правки издательских опечаток, но продолжается откровенными вольностями.Плюс очень важный момент, который, может быть, не заметен в спортивной литературе, но максимально критичен, когда речь идёт о фундаментальных научных изданиях (а они - основной профиль нашего сайта, и правила строятся исходя из них): Сохранение издательского разбиения на страницы/границ между страницами именно в местах, где они находятся в бумажном экземпляре, имеет абсолютную ценность для корректного научного цитирования (оформления библиографических отсылок).
Комментарии
Для программы, опознающей форматы, pdf = pdf, она не видит нюансов.
Достаточного числа рабочих рук, чтобы скачать каждый файл, которого это касается, и пометить, что нет, это не такой pdf, а совсем другой pdf, у нас нет даже близко.
Без такой пометки, это - повторы и источник постоянной необходимости объясняться, в чём разница.
Плюс источник постоянного риска, что один из двух файлов таки будет удалён по факту большего ID.
Причём, по нижеизложенным причинам, максимально печально, если это окажется скан-версия — поэтому с т.з. её сохранности ей безопаснее быть единственной.Ослабить запрет на выкладывание файлов в одном формате мы также не можем — сайт тут же окажется наводнён вариантами, подвариантами и подвариантами подвариантов, целесообразность одновременного сосуществования которых будет уже сомнительна, а места, к-рое могло бы быть занято уникальными (в смысле "не повторяющимися, представленными в одном экземпляре") материалами, они заедят порядочно.Если Вы переживаете за "нервы и зрение" пользователей, пожалуйста, выложите "отдельный от книги OCR" в формате doc или подобном - такие форматы, собственно, и существуют ради того, если кому-то не важно нижесказанное, а важно лишь прочитать текст не заморачиваясь.
Кому надо, сделают себе из такого doc pdf'ку любым конвертером.За текстуру бумаги мы не переживаем: предпочтение всегда отдаётся вычищенным бинаризованным (ч/б) сканам, если только ч/б обработка не вредит разборчивости букв (если скан хороший, то не должна).
Ценность аутентичного скана в том, что только он = ж/б гарантия соответствия бумажному первоисточнику в плане текста книги как текста.
И вот именно за неё (за гарантию соответствия) мы переживаем очень сильно.
Хотя бы потому, что наш сайт существует, в огромной мере, ради людей, у которых нет и не будет физической возможности когда-либо подержать в руках бумажный оригинал.
Мы не можем верить Вам на слово, что Вы не допустили, возможно, даже случайно, вот прямо ни единого отклонения от первоисточника. И сверить побуквенно тоже не можем.
А некоторые люди, бывает, допускают отклонения намеренно, считая, что "им виднее", нежели авторам и издателям. Начинается с правки издательских опечаток, но продолжается откровенными вольностями.Плюс очень важный момент, который, может быть, не заметен в спортивной литературе, но максимально критичен, когда речь идёт о фундаментальных научных изданиях (а они - основной профиль нашего сайта, и правила строятся исходя из них):
Сохранение издательского разбиения на страницы/границ между страницами именно в местах, где они находятся в бумажном экземпляре, имеет абсолютную ценность для корректного научного цитирования (оформления библиографических отсылок).