здравствуйте ест файл пдф в котором множество таблиц должен их копировать и вставит в ексел для сортировки все смешивается и не получается как быть? как таблицы с пдф можно вставит в ексел? например этот файл с 2 таблицами
как быть? как таблицы с пдф можно вставит в ексел?
Могу сделать,но не за бесплатно. Надо все страницы посмотреть
Пользователь
Сообщений: Регистрация: 22.12.2012
28.12.2013 19:39:51
Да, плохой материал. Я обычно pdf сохраняю в текст, затем его макросом парсю (или паршу? ) и гружу (или грузю? ) на лист. Но тут кириллица пропадает...
Изменено: - 28.12.2013 19:40:09
Пользователь
Сообщений: Регистрация: 09.04.2013
28.12.2013 20:06:34
Если текст нормально не взять,то получаю координаты символа и формирую строки. Если таблица,то в зависимости от координат столбца по ширине формирую таблицу.
Пользователь
Сообщений: Регистрация: 22.12.2012
28.12.2013 21:04:04
Можно по рабоче-крестьянски: нажать ALT =>выделить столбец=>скопировать=>вставить и т.д.
Пользователь
Сообщений: Регистрация: 22.12.2012
Win7 MSO 2013
29.12.2013 00:06:50
Код
"Ctrl+S" ведь это для сохранения документа.
а мне нужно копировать и вставит так чтоб таблицы не смешивались
показал это сообщение жене - ржала 2,5 часа Только не говорите,что я стебаюсь, а не помогаю - я такой... злой и коварный :o
Пользователь
Сообщений: Регистрация: 20.05.2013
29.12.2013 13:04:42
выходит что лучший вариант это все вручную заново писать так и сделаю наверное
Пользователь
Сообщений: Регистрация: 21.12.2012
Win 10, MSO 2013 SP1
29.12.2013 13:38:58
Цитата
лучший вариант это
- ... Хотя, мо быть, есть резон получать из веба по запросу сразу в excel?!.
такой же вопрос мучает и меня ... вариант иногда срабатывает в моём случае (pdf прилагаю - там тоже таблицы, но англ текст) - спасибо... но иногда не срабатывает... обычно делаю так: выделяю (даже без Alt) - копирую - вставляю в эксель - данные - текст по столбцам... но вот беда - значения +/- тоже разносятся по столбцам, а надо чтобы с этими знаками +/- в одну ячейку попадали и значения, следующие за ними... :| с + разобраться несложно: делаю найти-заменить +(с пробелом) на просто +, итог попадает в одну ячейку, НО вот с - (минусовые) изменения - так не работает, т к по др столбцам обозначаются ---- (нет значений) данные ребята, помогите please решить такую проблему - может какую маску применить (средствами эксель) или есть способ "найти и заменить" задать как-нибудь, чтобы правильно распознавать где - изменение, а где ---- (нет значения) ??? (чтобы правильно разместить в таблице эксель) файл прилагаю - если у кого есть идеи - заранее спасибо... И всех с Наступающим !
чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)
Пользователь
Сообщений: Регистрация: 25.12.2012
30.12.2013 16:38:55
ПРЕДПОЧИТАЮ РАСПОЗНАВАТЬ В ВОРД после проверки перетаскиваю в ексель
2 JeyCi Егор, ты сильно не переживай - я сегодня вернулся до домашнего рабочего места и продолжаю пилить твою тему. Там ведь у тебя проблемы не с плюсиками/минусиками, а с тем, что гарантированно получать точные данные можно только описав шаблоны для каждой из таблиц. А таблицы точно преобразовать можно только через указание позиций символов (границ столбцов).
P.S. для сообщества - Я уж молчу про то, что исходные файлы надо качать из инета, распаковывать, конвертировать (и всё по определенным принципам - иначе списки "откуда-куда-как-и почему" придётся составлять руками)... Затем выделять положение нужной информации... И вот только затем возникает вопрос о "тексте по столбцам"
Пользователь
Сообщений: Регистрация: 27.11.2013
26.08.2016 09:35:43
Цитата
Doober написал: Если текст нормально не взять,то получаю координаты символа и формирую строки.
по вопросу #13 (такого рода отчёты), если кому будет интересно, был один старый добрый проект, который автором уже не сопровождается (в силу отсутствия времени), но он любезно предоставил исходник Конвертера, не самОй полной его программы, (правда на C#) (для конвертации в csv )... не знаю, совпадает ли по Алгоритму (поскольку не знаю C#)?.. но инфо из pdf-файла, действительно, бывает иногда очень сложно взять (примером, думаю, могут быть отчёты такого вида, как по линку или приложен к #13)... да и изменения в них бывают от сайта-источника (это страшно)... наверно, поэтому приходится часто шлифовать код, когда источник меняет ширину столбцов или кодировку шрифта - если всё-таки по алгоритму Тимуром было реализовано так же... ему спасибо от трейдеров, что сопровождал этот проект так долго в своё время... а линк оставила в ветке для примера чисто алгоримически (если кто знает C# и захочет полюбопытствовать ) p.s. смотрела с помощью VSTA, добралась до неё, как
Изменено: - 26.08.2016 12:20:58
чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)
Пользователь
Сообщений: Регистрация: 07.05.2014
26.08.2016 15:26:29
Цитата
JeyCi написал: с + разобраться несложно: делаю найти-заменить +(с пробелом) на просто +, итог попадает в одну ячейку,НО вот с - (минусовые) изменения - так не работает, т к по др столбцам обозначаются ---- (нет значений) данныеребята, помогите please решить такую проблему -
Посмотрев структуру файла с примером, такую проблему можно решить обычной хитростью. 1. найти-заменить ---- на xxxx 2. найти-заменить - (с пробелом) на - 3. найти-заменить xxxx на ---- Надеюсь помог.
Viggi(или кому там вообще интересно), как показала практика работы в тендерном отделе налучшим решением (и по скорости и по качеству) стало использование Aiseesoft PDF Converter Ultimate - попробуйте, должна демка быть. FineReader хорош, но долго (и чуть хуже). Word открывает PDF, но только, если PDF "нормальный" - то есть оргинал, а не скан чего-то. И вообще FineReader и Aiseesoft PDF Converter Ultimat, - это для рапознавания, то есть сканы и прочая чешуя. Если PDF "отпечатан" из Word или Excel напрямую проблем быть не должно с любой программой - гугл в помощь. И, на всякий, одним из лучших для распознавания шрифтов является Times New Roman. Если документ на 1 (или на конкретных) языке(ах), то обязательно ограничьте список распознаваемых языков
Изменено: - 26.08.2016 20:15:15
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел)
спасибо ... но меня это озадачивало в 2013-м году ... надеюсь ваш ответ, кому-нибудь поможет...
чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)
Благодарю JeyCi. Посмотрел.У него алгоритм проще, чем мой.Читает по строкам и разбирает их. Структура обрабатываемых файлов известна, по этому так парсер и работает. Но остаются проблемы шрифтов.
ради интереса возник вопрос: он делал с использованием библиотеки iTextSharp... а есть ли какой-либо альтернативный способ (или алгоритм, иди другая библиотека) парсить pdf, чтобы не сталкиваться постоянно с проблемами шрифтов (когда сам создатель pdf-файла периодически меняет шрифт - и постоянно приходится поднастраивать код)?? есть ли способ сделать парсер индиферентным (нечувствительным) к типу шрифта?
Изменено: - 27.08.2016 12:54:33
чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)
Пользователь
Сообщений: Регистрация: 09.04.2013
27.08.2016 15:17:56
Есть, но они все платные и стоят до обеда
Пользователь
Сообщений: Регистрация: 27.11.2013
27.08.2016 18:30:21
спасибо за инфо... тогда просто оставлю альтернативный линк на вариант
Цитата
Hugo написал: обычно pdf сохраняю в текст, затем его макросом парсю
(с использованием стороннего pdftotext.exe для этих целей)
Изменено: - 27.08.2016 18:31:54
чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)