Страницы: 1
RSS
Как сохранить части из pdf-файла?
 
Здравствуйте.

В pdf'е есть марки. Насколько осуществимо сохранение их отдельными картинками в экселевском файле?

Заранее спасибо.
 
hellm, вручную - несложно: открыл в бесплатном IrfanView, вырезал-вставил в другой IrfanView, сохранил в PNG, вставил в Excel.
Можно и автоматизировать, если "марки" будут расположены в строго определенных местах листа.
 
Цитата
Казанский написал:
Можно и автоматизировать, если "марки" будут расположены в строго определенных местах листа.
О! Да! Будут. Это я в примере кинул использованные куда придется.
 
а нужны марки целиком или достаточно только qr код?
 
Цитата
bigorq написал:
марки целиком
Да, целиком.  
 
Уважаемый hellm
Если я правильно понял, то тут Вы спрашивали как прочитать текст с картинки присланной в PDF.
Так вот, ваш PDF можно сконвертировать в текстовый формат конвертер можно найти здесь
Далее просто читайте текстовый файл и вытаскивайте данные
Также там можно найти и программу выгрузки изображений из pdf
Мне понравился этот конвертер, т.к. он легкий - без графической оболочки. работает с командной строки. Поэтому его можно вызывать прямо из Excel
Я с его помощью написал конвертер из PDF в XML

прикладываю вам пример вашего  PDF переконвертированного в txt
Изменено: Anatoliy Pychev - 27.04.2018 10:08:55
 
Еще уточню.

Я так понимаю, что есть pdf файлы в каждом одна? марка, нужно из этой марки в таблицу вытащить информацию
Цитата
длинный код и цену
вставить ее в таблицу + в таблицу дать ссылку на файл с маркой ?
 
Цитата
bigorq написал:  одна?
Их может быть целый лист (32 штуки, кажется), количество всегда разное.
Цитата
bigorq написал: информацию
Там в экселе понадобится номер марки (длинный шестнадцатиричный) и цена (справа над номером). Сама марка также нужна.
Цитата
bigorq написал: таблицу дать ссылку на файл с маркой
Не, это не надо.
 
Уважаемый Anatoliy Pychev,

Вот это да! Спасибо!
Цитата
Anatoliy Pychev написал:
Поэтому его можно вызывать прямо из Excel
Через Shell, так?


Цитата
Anatoliy Pychev написал:
Также там можно найти и программу выгрузки изображений из pdf
Нашел. Но как выгружать картинкой одну марку, а не все три (или сколько там их будет)?
 
Цитата
hellm написал:
Нашел. Но как выгружать картинкой одну марку, а не все три (или сколько там их будет)?
Судя по цитате, Вы не попробовали выгрузку картинок, или попробовали но не добились результата
Т.к. он выгружает все картинки отдельно и последовательно. Правда из вашего файла они выгружаются только в формате .pbm Потребуется конвертация

На самом деле Ваш PDF не состоит и картинок(марок) целиком. Каждая марка в PDF состоит из нескольких объектов - картинок (QR code и ...),  текста.
Поэтому без танцев программно вытащить марку целиком не получится.

Лично я вижу путь такой (в зависимости от задач)
  1. Использовать api AdobeReader (поищите в нете запрос как прочитать pdf из excel- ответов море). Он читает pdf как DOM документ
  2. Использовать набор библиотек которые я порекомендовал выше
Но эти 2 пути Вам позволят получить части одной марки (т.е. отдельно картинку, текст). Далее учитывая, что марки имеют одинаковый формат вы можете генерировать картинку марки программно на форме в Excel и с формы снимать jpeg.
Либо из pdf делать картинку целиком, и по маркерам крестам, которые можно получить из варианта 1 или 2  вырезать кусок картинки. Тогда нужно будет найти еще консольную прогу для вырезки картинки из картинки по координатам.

Так что все возможно.
можно даже читать QR code и выдавать содержимое
Изменено: Anatoliy Pychev - 27.04.2018 18:16:37
 
Спасибо за такой подробный ответ.

Цитата
Anatoliy Pychev написал:
Вы не попробовали выгрузку картинок, или попробовали но не добились результата
Пробовал и результата добился. Но получается одна картинка. PBM пробовал, вот там как раз не получилось.

Цитата
Anatoliy Pychev написал:
можно даже читать QR code и выдавать содержимое
DataMatrix

У них свой алгоритм, видимо. Я долгое время искал, но так и не нашел, к сожалению.

Цитата
Anatoliy Pychev написал:
Но эти 2 пути Вам позволят получить части одной марки (т.е. отдельно картинку, текст). Далее учитывая, что марки имеют одинаковый формат вы можете генерировать картинку марки программно на форме в Excel и с формы снимать jpeg.
Вот подумалось. А может наоборот? Считать все текстовые части и попытаться сгенерировать DataMatrix? Танцы выйдут долгими.
 
Цитата
Anatoliy Pychev написал:
Либо из pdf делать картинку целиком, и по маркерам крестам, которые можно получить из варианта 1 или 2  вырезать кусок картинки. Тогда нужно будет найти еще консольную прогу для вырезки картинки из картинки по координатам.
Не смог найти.
 
Для трех марок вашего pdf получаю 6 файлов (3 - ppm и 3 - pbm)
переконвертировал для Вас читаемый формат. Интересно что в данном случае bmp получился экономичнее чем jpeg (наверное из за монохромности и размера)
Также в архиве есть bat-ник для запуска конвертации
Изменено: Anatoliy Pychev - 27.04.2018 19:20:19
 
Цитата
hellm написал:
Вот подумалось. А может наоборот? Считать все текстовые части и попытаться сгенерировать DataMatrix?
Можно и так. Обязательно уже где-то есть код для excel для генерации QR

Все зависит от поставленной задачи
 
А приложенный pdf файл, это то что приходит от немцев?
там маркеры кресты из 10-ка наложений состоят
 
Цитата
bigorq написал:
там маркеры кресты из 10-ка наложений состоят
Вообще-то нет. Просто я складываю их для отчетности в один файл. вот они и накладываются. А вообще они одиночные. Без наложений.
 
Цитата
Anatoliy Pychev написал:
Все зависит от поставленной задачи
Вы правы, я постараюсь лучше продумать постановку задачи.
Страницы: 1
Наверх