Автор Тема: как перекодировать в читаемьій pdf?  (Прочитано 7084 раз)

0 Користувачів і 1 Гість дивляться цю тему.

Offline IamDi

  • *
  • Thank You
  • -Given: 3
  • -Receive: 1
  • Повідомлень: 15
  • Country: ua
    • Перегляд профілю
    • Awards
Как можно заметить сайт минрегион на своей странице
(линк http://www.minregion.gov.ua/?p=5922)
 частенько вьікладьівает обновлённьіе нормативьі.
Но, как всегда бьівает, "але є одне але".

При тчательном изучении файлов например "ДБН А.2.2-3:2014 Склад та зміст проектної документації на будівництво. - Зміна 1" линк - https://goo.gl/MfX2mP
файл имеет кодировку не пригодную для поиска текста внутри файла, тоесть если вьіделить название документа "СКЛАД ТА ЗМІСТ ПРОЕКТНОЇ ДОКУМЕНТАЦІЇ НА БУДІВНИЦТВО" и вставить, то получим  ------ "ÑÊËÀÄ ÒÀ Ç̲ÑÒ ÏÐÎÅÊÒÍί ÄÎÊÓÌÅÍÒÀÖ²¯ ÍÀ ÁÓIJÂÍÈÖÒÂÎ".

Может кто то подскажет как без нарушения структурьі пдф документа преобразить данньіе нормативньіе документьі в кодировку пригодную для поиска и копипейста?

Offline Сугор

  • ******
  • Thank You
  • -Given: 267
  • -Receive: 949
  • Повідомлень: 9 397
  • Country: ua
  • Awards ЕОМактивность I - 1й по числу постов в день=(? сообщений)/(? времени пребывания) I по максимальному времени on-line пребывания на форуме Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
IamDi, это сделано специально, ибо они считают что нормы нужно покупать

Offline ivk

  • ***
  • Thank You
  • -Given: 2
  • -Receive: 45
  • Повідомлень: 101
    • Перегляд профілю
    • Awards
Может кто то подскажет как без нарушения структурьі пдф документа преобразить данньіе нормативньіе документьі в кодировку пригодную для поиска и копипейста?
Загружаешь файл в программу распознавания текста, обработка, сохраняешь в pdf либо doc. (2-10 минут).

Offline red13

  • ***
  • Thank You
  • -Given: 15
  • -Receive: 7
  • Повідомлень: 100
  • Country: ua
    • Перегляд профілю
    • Awards
это сделано специально
не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251

https://www.artlebedev.ru/decoder/ - копипастой из норматива.


Offline rga

  • ******
  • Thank You
  • -Given: 325
  • -Receive: 862
  • Повідомлень: 6 548
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251
Да там проблема с колировками. Но к нормальному виду не всегда возможно привести.
Например, в справочнике Крольченко-Баратова ни в ПДФ поиск не работает, ни в распознанном тексте. И это не единственный случай.

Offline IamDi

  • *
  • Thank You
  • -Given: 3
  • -Receive: 1
  • Повідомлень: 15
  • Country: ua
    • Перегляд профілю
    • Awards
Загружаешь файл в программу распознавания текста, обработка, сохраняешь в pdf либо doc. (2-10 минут).

не сохраняется целосность документа некоторьіе слова распознаются с ошибками, не говоря уже про картинки, в целом метод не работает так как предполагалось в теме поста.


не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251

так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив

Offline red13

  • ***
  • Thank You
  • -Given: 15
  • -Receive: 7
  • Повідомлень: 100
  • Country: ua
    • Перегляд профілю
    • Awards
так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив
вчера с помощью Ghostscript пытался решить этот вопрос, но к сожалению пока без результатов.
то что прочитал на разных форумах/ресурсах пока не помогло... причем эта проблема не только с кириллицой, так как на англоязычных ресурсах тоже дискуссии на эту тему.

Offline Сугор

  • ******
  • Thank You
  • -Given: 267
  • -Receive: 949
  • Повідомлень: 9 397
  • Country: ua
  • Awards ЕОМактивность I - 1й по числу постов в день=(? сообщений)/(? времени пребывания) I по максимальному времени on-line пребывания на форуме Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.

Offline rga

  • ******
  • Thank You
  • -Given: 325
  • -Receive: 862
  • Повідомлень: 6 548
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.
Трабл. Потому как проблемы возникают и с файлами, которые никому и в голову не пришло бы защищать.
Например отдельные файлы в Фоксит-ридере открываются как набор чистых листов, а Акробат нормально читает. То же и с печатью. Могут быть не напечатаны картинки, могут быть шрифты перекошены.
Где-то читала, что разработчики ПДФ-читалок и ПДФ-редакторов попросту не успевают отслеживать этот зоопарк средств создания файлов ПДФ. Имеется масса протоколов ПДФ. Разработчики пытаются угнаться, чтоб расширить рынок, но как-то не очень получается.

Offline CC19

  • ******
  • Thank You
  • -Given: 106
  • -Receive: 321
  • Повідомлень: 1 945
  • Country: ua
  • Awards За неизменность форуму I степени - на форуме более 3 лет Хрустальная сова (100 благодарностей + 500 сообщений)
    • Перегляд профілю
    • Awards
Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
2.
Quote (selected)
2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.

Offline rga

  • ******
  • Thank You
  • -Given: 325
  • -Receive: 862
  • Повідомлень: 6 548
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
Я все распознаю в Файнридере, но проблемы это снимает не всегда.
Вот приведенный в начале норматив получился нормально, а Баратов с Крольченко - увы! :)

Offline CC19

  • ******
  • Thank You
  • -Given: 106
  • -Receive: 321
  • Повідомлень: 1 945
  • Country: ua
  • Awards За неизменность форуму I степени - на форуме более 3 лет Хрустальная сова (100 благодарностей + 500 сообщений)
    • Перегляд профілю
    • Awards
а Баратов с Крольченко - увы!
Наверное качество очень очень плохое.

Offline rga

  • ******
  • Thank You
  • -Given: 325
  • -Receive: 862
  • Повідомлень: 6 548
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
Наверное качество очень очень плохое.
Нет, файл нормальный.
Если плохое качество, то просто много орфографических ошибок. Если проблемы с кодировкой, то распознается нормально, но поиск как не работал в *.pdf, так не работает и в *.doc.

Могу выложить образец для экспериментов. :)
« Останнє редагування: 12 Липень 2018, 15:42:56 від rga »

Offline CC19

  • ******
  • Thank You
  • -Given: 106
  • -Receive: 321
  • Повідомлень: 1 945
  • Country: ua
  • Awards За неизменность форуму I степени - на форуме более 3 лет Хрустальная сова (100 благодарностей + 500 сообщений)
    • Перегляд профілю
    • Awards
Могу выложить образец для экспериментов.
Ради спортивного интереса - стоит попробовать :) Выкладывайте.

Offline rga

  • ******
  • Thank You
  • -Given: 325
  • -Receive: 862
  • Повідомлень: 6 548
  • Country: ua
  • Awards Золотая сова (400 благодарностей + 1500 сообщений) За неизменность форуму I степени - на форуме более 3 лет
    • Перегляд профілю
    • Awards
Ради спортивного интереса - стоит попробовать :) Выкладывайте.
Справочник Крольченко-Баратова, том 1.

 

Warning: this topic has not been posted in for at least 150 days.
Unless you're sure you want to reply, please consider starting a new topic.

Ім'я:     Email:    
Жирний Курсив Підкреслений Закреслений | Вирівняний текст Вирівняти ліворуч Центрувати Вирівняти праворуч
Вставити зображення Гіперлінк Email Вставити посилання на FTP | З обрамленням З тінню Біжучий рядок | Надрядковий Підрядковий Телетайп | Вставити таблицю Код Цитата Insert Spoiler | Insert Unordered List Insert Ordered List Горизонтальна лінія
Smiley Wink Grin laugh Cool evil Roll Eyes Tongue Angry Лукавый Sad Shocked Хм? crazy Wall slap Смущенный Шокирован Недопонял... Сумасшедший Kiss Cry thumbsup пиво flower Study Благодарю! Жадность Сомнение Умолкаю