Автор Тема: как перекодировать в читаемьій pdf?  (Прочитано 810 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн IamDi

  • *
  • Спасибо
  • -Given: 3
  • -Receive: 1
  • Сообщений: 12
  • Country: ua
    • Просмотр профиля
    • Awards
Как можно заметить сайт минрегион на своей странице
(линк http://www.minregion.gov.ua/?p=5922)
 частенько вьікладьівает обновлённьіе нормативьі.
Но, как всегда бьівает, "але є одне але".

При тчательном изучении файлов например "ДБН А.2.2-3:2014 Склад та зміст проектної документації на будівництво. - Зміна 1" линк - https://goo.gl/MfX2mP
файл имеет кодировку не пригодную для поиска текста внутри файла, тоесть если вьіделить название документа "СКЛАД ТА ЗМІСТ ПРОЕКТНОЇ ДОКУМЕНТАЦІЇ НА БУДІВНИЦТВО" и вставить, то получим  ------ "ÑÊËÀÄ ÒÀ Ç̲ÑÒ ÏÐÎÅÊÒÍί ÄÎÊÓÌÅÍÒÀÖ²¯ ÍÀ ÁÓIJÂÍÈÖÒÂÎ".

Может кто то подскажет как без нарушения структурьі пдф документа преобразить данньіе нормативньіе документьі в кодировку пригодную для поиска и копипейста?

Оффлайн Сугор

  • ******
  • Спасибо
  • -Given: 205
  • -Receive: 648
  • Сообщений: 7 137
  • Country: ua
  • Awards ЕОМактивность I - 1й по числу постов в день=(? сообщений)/(? времени пребывания) I по максимальному времени on-line пребывания на форуме Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
IamDi, это сделано специально, ибо они считают что нормы нужно покупать

Оффлайн ivk

  • ***
  • Спасибо
  • -Given: 0
  • -Receive: 26
  • Сообщений: 53
    • Просмотр профиля
    • Awards
Может кто то подскажет как без нарушения структурьі пдф документа преобразить данньіе нормативньіе документьі в кодировку пригодную для поиска и копипейста?
Загружаешь файл в программу распознавания текста, обработка, сохраняешь в pdf либо doc. (2-10 минут).

Оффлайн red13

  • ***
  • Спасибо
  • -Given: 15
  • -Receive: 7
  • Сообщений: 100
  • Country: ua
    • Просмотр профиля
    • Awards
это сделано специально
не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251

https://www.artlebedev.ru/decoder/ - копипастой из норматива.


Оффлайн rga

  • ******
  • Спасибо
  • -Given: 193
  • -Receive: 660
  • Сообщений: 5 206
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251
Да там проблема с колировками. Но к нормальному виду не всегда возможно привести.
Например, в справочнике Крольченко-Баратова ни в ПДФ поиск не работает, ни в распознанном тексте. И это не единственный случай.

Оффлайн IamDi

  • *
  • Спасибо
  • -Given: 3
  • -Receive: 1
  • Сообщений: 12
  • Country: ua
    • Просмотр профиля
    • Awards
Загружаешь файл в программу распознавания текста, обработка, сохраняешь в pdf либо doc. (2-10 минут).

не сохраняется целосность документа некоторьіе слова распознаются с ошибками, не говоря уже про картинки, в целом метод не работает так как предполагалось в теме поста.


не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251

так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив

Оффлайн red13

  • ***
  • Спасибо
  • -Given: 15
  • -Receive: 7
  • Сообщений: 100
  • Country: ua
    • Просмотр профиля
    • Awards
так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив
вчера с помощью Ghostscript пытался решить этот вопрос, но к сожалению пока без результатов.
то что прочитал на разных форумах/ресурсах пока не помогло... причем эта проблема не только с кириллицой, так как на англоязычных ресурсах тоже дискуссии на эту тему.

Оффлайн Сугор

  • ******
  • Спасибо
  • -Given: 205
  • -Receive: 648
  • Сообщений: 7 137
  • Country: ua
  • Awards ЕОМактивность I - 1й по числу постов в день=(? сообщений)/(? времени пребывания) I по максимальному времени on-line пребывания на форуме Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.

Оффлайн rga

  • ******
  • Спасибо
  • -Given: 193
  • -Receive: 660
  • Сообщений: 5 206
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.
Трабл. Потому как проблемы возникают и с файлами, которые никому и в голову не пришло бы защищать.
Например отдельные файлы в Фоксит-ридере открываются как набор чистых листов, а Акробат нормально читает. То же и с печатью. Могут быть не напечатаны картинки, могут быть шрифты перекошены.
Где-то читала, что разработчики ПДФ-читалок и ПДФ-редакторов попросту не успевают отслеживать этот зоопарк средств создания файлов ПДФ. Имеется масса протоколов ПДФ. Разработчики пытаются угнаться, чтоб расширить рынок, но как-то не очень получается.

Оффлайн CC19

  • ******
  • Спасибо
  • -Given: 75
  • -Receive: 174
  • Сообщений: 1 327
  • Country: ua
  • Awards За неизменность форуму I степени - на форуме более 3 лет Хрустальная сова (100 благодарностей + 500 сообщений)
    • Просмотр профиля
    • Awards
Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
2.
Цитировать (выделенное)
2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.

Оффлайн rga

  • ******
  • Спасибо
  • -Given: 193
  • -Receive: 660
  • Сообщений: 5 206
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
Я все распознаю в Файнридере, но проблемы это снимает не всегда.
Вот приведенный в начале норматив получился нормально, а Баратов с Крольченко - увы! :)

Оффлайн CC19

  • ******
  • Спасибо
  • -Given: 75
  • -Receive: 174
  • Сообщений: 1 327
  • Country: ua
  • Awards За неизменность форуму I степени - на форуме более 3 лет Хрустальная сова (100 благодарностей + 500 сообщений)
    • Просмотр профиля
    • Awards
а Баратов с Крольченко - увы!
Наверное качество очень очень плохое.

Оффлайн rga

  • ******
  • Спасибо
  • -Given: 193
  • -Receive: 660
  • Сообщений: 5 206
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
Наверное качество очень очень плохое.
Нет, файл нормальный.
Если плохое качество, то просто много орфографических ошибок. Если проблемы с кодировкой, то распознается нормально, но поиск как не работал в *.pdf, так не работает и в *.doc.

Могу выложить образец для экспериментов. :)
« Последнее редактирование: 12 Июль 2018, 15:42:56 от rga »

Оффлайн CC19

  • ******
  • Спасибо
  • -Given: 75
  • -Receive: 174
  • Сообщений: 1 327
  • Country: ua
  • Awards За неизменность форуму I степени - на форуме более 3 лет Хрустальная сова (100 благодарностей + 500 сообщений)
    • Просмотр профиля
    • Awards
Могу выложить образец для экспериментов.
Ради спортивного интереса - стоит попробовать :) Выкладывайте.

Оффлайн rga

  • ******
  • Спасибо
  • -Given: 193
  • -Receive: 660
  • Сообщений: 5 206
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Просмотр профиля
    • Awards
Ради спортивного интереса - стоит попробовать :) Выкладывайте.
Справочник Крольченко-Баратова, том 1.

 
Имя:     Email:     Я не спамер