Відповідь

Warning: this topic has not been posted in for at least 150 days.
Unless you're sure you want to reply, please consider starting a new topic.
Ім'я:
   
Email:
Тема:
Іконка повідомлення:
Вкладення:
(Вкладення)
Restrictions: 4 per post, maximum total size 5120KB, maximum individual size 5120KB

підказка: натисніть alt+s для відправлення або alt+p для перегляду повідомлення


Повідомлення в цій темі

Автор: rga
« : 13 Липень 2018, 13:28:28  »

Вроде бы ничего не обычного: файнридер 8/распознать все/(поисправлять ошибки - пожеланию)/сохранить страницы/ все страницы/окно - формати (текст под изображением страницы, качество - пожеланию)/ок/сохранить

По идее, файнридеру все-равно на кодировку, он же распознает растровую графику  hmmmm
У меня файнридер - 11. Попробовала, таки да, и второй том удалось удачно переформатировать, и в Ворд тоже.
Похоже, этот глюк подправили, начиная с какой-то версии.
Автор: CC19
« : 13 Липень 2018, 11:54:31  »

Это просто исходник такой или перформатировали как-то?
Исходник также с кривой кодировкой был.
Можно последовательность?
Вроде бы ничего не обычного: файнридер 8/распознать все/(поисправлять ошибки - пожеланию)/сохранить страницы/ все страницы/окно - формати (текст под изображением страницы, качество - пожеланию)/ок/сохранить

По идее, файнридеру все-равно на кодировку, он же распознает растровую графику  hmmmm
Автор: rga
« : 13 Липень 2018, 09:50:09  »

Проверяйте. http://eom.com.ua/index.php?action=downloads;sa=view;down=3624
Правда я исходник скачал раньше с другого ресурса, но вроде бы файл тот же (по размеру и кодировке)

Вах! Поиск работает. Это просто исходник такой или перформатировали как-то? Можно последовательность?
Автор: CC19
« : 12 Липень 2018, 17:00:29  »

Проверяйте. http://eom.com.ua/index.php?action=downloads;sa=view;down=3624
Правда я исходник скачал раньше с другого ресурса, но вроде бы файл тот же (по размеру и кодировке)
Автор: rga
« : 12 Липень 2018, 16:38:04  »

Ради спортивного интереса - стоит попробовать :) Выкладывайте.
Справочник Крольченко-Баратова, том 1.
Автор: CC19
« : 12 Липень 2018, 16:01:45  »

Могу выложить образец для экспериментов.
Ради спортивного интереса - стоит попробовать :) Выкладывайте.
Автор: rga
« : 12 Липень 2018, 15:40:27  »

Наверное качество очень очень плохое.
Нет, файл нормальный.
Если плохое качество, то просто много орфографических ошибок. Если проблемы с кодировкой, то распознается нормально, но поиск как не работал в *.pdf, так не работает и в *.doc.

Могу выложить образец для экспериментов. :)
Автор: CC19
« : 12 Липень 2018, 15:05:36  »

а Баратов с Крольченко - увы!
Наверное качество очень очень плохое.
Автор: rga
« : 12 Липень 2018, 13:55:42  »

Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
Я все распознаю в Файнридере, но проблемы это снимает не всегда.
Вот приведенный в начале норматив получился нормально, а Баратов с Крольченко - увы! :)
Автор: CC19
« : 12 Липень 2018, 13:48:38  »

Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
2.
Quote (selected)
2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.
Автор: rga
« : 12 Липень 2018, 12:32:32  »

коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.
Трабл. Потому как проблемы возникают и с файлами, которые никому и в голову не пришло бы защищать.
Например отдельные файлы в Фоксит-ридере открываются как набор чистых листов, а Акробат нормально читает. То же и с печатью. Могут быть не напечатаны картинки, могут быть шрифты перекошены.
Где-то читала, что разработчики ПДФ-читалок и ПДФ-редакторов попросту не успевают отслеживать этот зоопарк средств создания файлов ПДФ. Имеется масса протоколов ПДФ. Разработчики пытаются угнаться, чтоб расширить рынок, но как-то не очень получается.
Автор: Сугор
« : 12 Липень 2018, 12:24:04  »

коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.
Автор: red13
« : 12 Липень 2018, 12:16:08  »

так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив
вчера с помощью Ghostscript пытался решить этот вопрос, но к сожалению пока без результатов.
то что прочитал на разных форумах/ресурсах пока не помогло... причем эта проблема не только с кириллицой, так как на англоязычных ресурсах тоже дискуссии на эту тему.
Автор: IamDi
« : 12 Липень 2018, 10:50:26  »

Загружаешь файл в программу распознавания текста, обработка, сохраняешь в pdf либо doc. (2-10 минут).

не сохраняется целосность документа некоторьіе слова распознаются с ошибками, не говоря уже про картинки, в целом метод не работает так как предполагалось в теме поста.


не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251

так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив
Автор: rga
« : 11 Липень 2018, 16:22:04  »

не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251
Да там проблема с колировками. Но к нормальному виду не всегда возможно привести.
Например, в справочнике Крольченко-Баратова ни в ПДФ поиск не работает, ни в распознанном тексте. И это не единственный случай.