Страницы: 1 2 След.
RSS
Импорт данных из PDF в Excel, Как массово получить данные из PDF-файлов с текстовым слоем в Excel
 
Доброго времени суток, Планетяне!
Развитие темы, описанной в Приёмах…

Задача: получить данные из нескольких больших PDF-файлов со сметами, не потеряв кодировку и структуру таблиц.
Вопрос: как это сделать максимально быстро/удобно/корректно?

Как сейчас: объединяю все PDF в 1 и далее по заветам НВП  :)
Текущие основные проблемы: в лучшем случае ОООЧЕНЬ долго, в худшем — синий экран смерти или просто зависание с вылетом

UPD: можно зайти со стороны "Импорт данных из PDF в Word", т.к. макрос пакетного копипаста "Word-Excel" уже есть, а сам метод копипаста (на моём примере) ничего не сбивает, но хотелось бы более "технологичный" подход, да и тема тогда будет другая, так что пока так…

UPD2: пока что решил таки делать — если PDF не вылетает при пересохранении в Word, то потом просто делаю копипаст (макросом быстрее и стабильнее) в Excel.
Для некоторых примеров сработает даже прямое пересохранение PDF в Excel.
Изменено: Jack Famous - 26.07.2019 16:21:30
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
сработает даже прямое пересохранение PDF в Excel
а чем это вы открываете ПДФ, что можно сразу сохранить в формате Excel ?
 
Игорь, Acrobat Reader… странно, что ВЫ такое спрашиваете  :)

Добавил в стартовое сообщение файлы для примера. Смотрю на полученные данные и всё довольно грустно — всё разбито по строкам и правила для объединения обратно поячеечно что-то не придумать(((
Изменено: Jack Famous - 26.07.2019 16:23:00
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
а, я-то думал что новая версия Excel такое умеет
Acrobat Reader - им макросами управлять получается?
я как-то ни разу не пользовался

делал так:
PDF открывается в IE (с использованием плагина акробатовского)
выделяем всё, копируем в буфер обмена
берем из буфера формат RTF
преобразуем RTF в HTML

Потом парсим HTML, либо открываем HTML в Excel
 
Игорь, не-не — я пока только "ручками" перевожу из PDF в Excel  :D
Есть пример по вашему методу?…
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Не, макроса отдельного нет
я в парсер этот функционал встраивал:
https://excelvba.ru/programmes/Parser/samples/PDF

где-то в интернетах откопал конвертер RTF в HTML, и допиливал его ещё
до начала 2019 года, можно было в буфере обмена получить сразу HTML, — тогда всё просто было
а потом Acrobat плагин переделал, и в буфер обмена стал передаваться только RTF, теперь всё сложнее (если не задействовать Word)

А если через Word прогонять RTF из буфера обмена - тогда все просто:
1) открывает ПДФ в IE (1 строка кода)
2) ждем пару секунд
3) SendKeys (Ctrl + A пару раз с паузой в секунду, Ctrl + С, проверяем скопировалось или нет - копирование иногда занимает 1-3 секунды)
4) вставляем в пустой документ Word
5) сохраняем как HTML
6) открываем в Excel
 
Здравствуйте, Игорь! Ваш метод дает лучшие результаты, чем если сразу открыть из Word файл pdf?  Или это актуально для старых версий офиса?
Владимир
 
Игорь, спасибо
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Моё решение должно работать в любой версии Office, начиная с Office 2003,
потому сделал именно так.
А если делать для себя, имея последний Office (который умеет открывать ПДФ), то тогда, конечно же, не нужно ничего изобретать с IE
 
Доброе время суток.
Вариант через Power BI Desktop
 
Игорь, спасибо за ответ!

Андрей, спасибо, интересно! Качество, с моей точки зрения, значительно выше, чем при открытии в Word (по крайней мере, таблицы).
Изменено: sokol92 - 26.07.2019 17:44:22
Владимир
 
Андрей VG, а как?  :D
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
Jack Famous написал:
а как?
Привет, Алексей.
Да проще, в принципе простого. Ставите Power BI Desktop запускаете. Получить данные, из Pdf, выбираете страницу страницы (коннектор пытается ещё и таблицы определить). Нажимаете импорт. Переключаетесь на вкладку таблиц, выбираете таблицу и ПКМ - копировать всю таблицу. Ну, и в Excel конечно.
Естественно, много творческой ручной работы :)  Но можно поэкспериментировать с запросами, если pdf все одного (ну, или плюс/минус) формата.
 
Андрей VG, приветствую! Понял - спасибо  ;)
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
вариант после обработки файла программой, скаченной на [ссылка удалена]
макросом еще бы запускать программу
 
Ссылка не работает.
 
Цитата
Юрий М написал:
Ссылка не работает.
а должна?  rutracker.org
По вопросам из тем форума, личку не читаю.
 
Если даётся на форуме, то должна. Иначе зачем такая? )
 
Ссылка то работает, но на сколько я помню блокируется сайт провайдерами. вот ссылка https://www.coolutils.com/ru/TotalPDFConverter на более официальное.
По вопросам из тем форума, личку не читаю.
 
Цитата
artyrH написал:
я всю жизнь пиратской продукцией пользуюсь!
Да кто же Вам мешает? - пользуйтесь. Но пункт 3.9 наших правил не для Вас?
 
artyrH, можно скрин, а то я с яблофона без Numbers?))
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
Юрий М написал:
пользуйтесь
ну а куда деваться, если локация такая)
а если бан, то что банится, айпи или логин?
 
ДНК
 
Юрий М, лол  :D
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Jack Famous,
 
Приложил для коллекции XLSX -файл, который сформировал Adobe Acrobat из меню:
Файл - Сохранить как другой - Электронная таблица - Рабочая книга MS Excel.
Счастливые обладатели Adobe Acrobat могут посредством VBA это автоматизировать, используя встроенный интерфейс JSObject:
Код
  ...
  Set objJSO = objAcroPDDoc.GetJSObject
  ret = objJSO.SaveAs("D:\Test.xlsx", "com.adobe.acrobat.xlsx")
Изменено: ZVI - 26.07.2019 22:23:00
 
Off
Цитата
artyrH написал:
а если бан, то что банится, айпи или логин?
У Вас есть возможность поисследовать :-)
По вопросам из тем форума, личку не читаю.
 
БМВ, есть возможность, но нет желания)
 
artyrH, спасибо за скрины. Вроде неплохо, надо тестить и сравнивать…

ZVI, спасибо вам большое за автоматизацию. А как регулировать настройки? Там же их немало…
Изменено: Jack Famous - 27.07.2019 10:25:22
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
Jack Famous написал: ...А как регулировать настройки? Там же их немало…
Добрый день, Алексей. Нет там настроек, а результат есть, приведен в #26.
Adobe - разработчики PDF-формата (1990г.), им и карты в руки  ;)
Страницы: 1 2 След.
Наверх