Страницы: 1
RSS
Импорт данных из файла HTML
 
Коллеги!    
Есть файл html, который генерируется системой, можно ли его каким либо образом импортировать в сводную таблицу или в качестве источника данных? В самом Экселе он открывается, но проблема в том что реальный файл весит 2,5 гигабайта. Плоский файл с аналогичными данными открывается сводными таблицами, и в качестве источника данных, но html  они не понимают :(.
 
Я Ваш файл переименовал в .хлс Вот, что вышло.
Я сам - дурнее всякого примера! ...
 
Я тоже такое получил, когда хотел через контекстное меню зайти в редактор по умолчанию :)  
Сергей, но там ведь  2,5 гигабайта - как это поднимет Эксель?  
А полезных данных в этом объёме 0,5%...  
Если нет родных средств экспорта ( я не знаю, но может и есть), я бы сперва скриптом переложил только нужное в другой текстовый файл, может даже в "Плоский файл с аналогичными данными" - такой объём уже вероятно чем угодно можно взять.
 
Игорь, я Вам не скажу за всю Одессу... Либо файл в личку, либо одно из двух. Гадать по фотографии - не моя сильная сторона. Кстати, он и в doc расширении открывается.
Я сам - дурнее всякого примера! ...
 
я вообще бы его импортировал в access и от туда уже работал бы спокойно без заморочек, там же все данные бы  и отформатировал,  
затем подключился и наслаждался.  
:)33113
Спасибо
 
Еще вариант - импортировать в Акцесс. Этому 2,5 гб вроде легкой закуски на NTFS.
Я сам - дурнее всякого примера! ...
 
используя SQL Server Integration Service пeрeгнaть всe в SQL. Попутно лишнее вычистить. И таскать потом данные куда угодно. Могу помочь.
 
- переименовал в aa.xls    
-открой    
-при открытии ругнется, но все же открой  
-сохранить как aa1.xls
 
Коллеги, прошу прощения за отсутствие, но вчера я на работу слава богу не выходил  :).  
Переименование не поможет, тк 2,5 Гб Экселю не поднять.  
В общем Access, в отличие от Excel, действительно позволяет импортировать внешние данные из html, и на маленьком файле это работает на ура. Но вот при попытке загрузить большой файл (2,5 Гб) - тут же вылетает напрочь.  
PowerPivot для Excel 2010 не умеет импортировать из html.    
В SSIS к сожалению я не шарю, а обновлять данные придется регулярно, тк бывают изменения задним числом.  
В общем я пока трясу у программистов отчет в системе для выгрузки в плоский файл, но когда это будет еще не известно (очередь на отчеты очень большая), плюс такого рода средства у нас не приветствуются (подразумевается, что все необходимые отчеты должны формироваться системой для обеспечения идентичности цифр у всех пользователей).
 
Тогда остаётся читать скриптом построчно и перекладывать нужное в другой текст, тоже построчно. Небыстро, но должно сработать. На такой скрипт тоже очередь?
 
{quote}{login=SIA}{date=23.10.2010 05:37}{thema=Импорт данных из файла HTML}{post}Коллеги!    
Есть файл html, который генерируется системой, можно ли его каким либо образом импортировать в сводную таблицу или в качестве источника данных? В самом Экселе он открывается, но проблема в том что реальный файл весит 2,5 гигабайта. Плоский файл с аналогичными данными открывается сводными таблицами, и в качестве источника данных, но html  они не понимают :(.{/post}{/quote}  
1. что это за система? из чего генерится такой здоровенный (в 2,5 гига) файл .html?  
2. файл на основе чего генерится? без какой-нить базы данных тут не обошлось...  
 
Может мы не там копаем? и не нужно в html скидывать, а напрямую из БД таскать то что нужно?
 
Попробуйте.  
Рассчитано на C:\temp\SIA\Копия 2.html  
Результат кладёт рядом, текст с расширением xls.  
Мне было лениво прописывать всё, так что ряд продолжите сами:  
 
case 2: S=replace(mid(strNextLine,150),"[/td]","")
case 4: NrDoc=replace(mid(strNextLine,150),"[/td]","")
case 6: DatOp=replace(mid(strNextLine,150),"[/td]","")
...  
...
 
Забыл, строку  
objFile.WriteLine S & vbtab & NrDoc & vbtab & DatOp  
тоже надо соответственно продолжить.
 
Сейчас только заметил - там, где цифры, идёт сдвиг на одну позицию.  
Т.е.  
case 36: Num1=replace(mid(strNextLine,149),"[/td]","")
и т.д.
 
{quote}{login=SIA}{date=25.10.2010 12:48}{thema=}{post}Коллеги, прошу прощения за отсутствие, но вчера я на работу слава богу не выходил  :).  
Переименование не поможет, тк 2,5 Гб Экселю не поднять.  
В общем Access, в отличие от Excel, действительно позволяет импортировать внешние данные из html, и на маленьком файле это работает на ура. Но вот при попытке загрузить большой файл (2,5 Гб) - тут же вылетает напрочь.  
PowerPivot для Excel 2010 не умеет импортировать из html.    
В SSIS к сожалению я не шарю, а обновлять данные придется регулярно, тк бывают изменения задним числом.  
В общем я пока трясу у программистов отчет в системе для выгрузки в плоский файл, но когда это будет еще не известно (очередь на отчеты очень большая), плюс такого рода средства у нас не приветствуются (подразумевается, что все необходимые отчеты должны формироваться системой для обеспечения идентичности цифр у всех пользователей).{/post}{/quote}  
ну и еще вариант прикрутить ETL вот неплохой open sourse http://www.talend.com
Спасибо
Страницы: 1
Читают тему
Наверх