Страницы: 1
RSS
Извлечь текст из PDF из определенной области, Текст из PDF
 
Есть просьба помочь с извлечением теста из PDF файла средствами VBA. Текст всегда находится в определенной области документа. Буду рад любым решениям.
 
добрый день, может быть глупый вопрос, но почему именно средствами VBA?
Вам нужен результат (в виде извлечённого текста) или решение?
 
nilske, Есть задание переименовать 500 файлов PDF в имя, которое находится в определенной области PDF.
 
Думаю ЗДЕСЬ вы были.
Ещё ТУТ посмотрите
Изменено: Msi2102 - 29.04.2022 16:51:16
 
Msi2102, Пока не рассматривал, если быть точнее мне нужен текст с чертежа а не из таблиц, там все хаотично, но в рамке чертежа есть название - его и нужно вытащить. При экспорте или считывании текстом - невозможно разобрать эту кучу. Поэтому желатьельно взять текст из определенной позиции. Возможно попробую и через PQ.
 
Вторую ссылку посмотрите, там было решение подобное
Изменено: Msi2102 - 29.04.2022 16:58:32
 
Я мог бы попробовать переименовать все пятьсот файлов. Но без них не получится  ))
 
skais675, если pdf файл в виде картинки, то можно вытащить текст при помощи OCR (python + tesseract), а потом из текста вытаскивать средствами VBA.
Может и ни к месту совет, ведь форум по Excel  :)
 
Пока задача решилась вытаскиванием информации из всего текста путем определенного алгоритма парсинга. Файлы не могу предоставить - конфиденциальные.
Изменено: skais675 - 02.05.2022 10:24:27
Страницы: 1
Наверх