Страницы: 1
RSS
В каком формате Excel лучше хранить данные
 
Добрый день, уважаемые гуру Excel.
Подскажите пож в каком формате Excel (xlsx, xlsm, xlsb, csv, txt...) лучше сохранять данные в плане скорости сохранения на ЖД, обработки в Excel и открытия в Excel.
Поступает много исходных файлов excel с данными (значения). Исходные файлы  нужно последовательно загрузить в Excel, последовательно обработать и результаты последовательно сохранить (значениями) на ЖД. Обработанные файлы опять нужно последовательно загрузить в Excel, последовательно обработать и последовательно сохранить результаты на ЖД (значениями). Несколько циклов.
Нужна скорость сохранения файла на ЖД и скорость открытия файла (или скорость получения данных) Excel'ем.
До баз данных не дорос пока, сложно это.
 
Думаю XLSB.
«Бритва Оккама» или «Принцип Калашникова»?
 
bedvit, спасибо за ответ, на данный момент данные загружаются макросом, но возможно потом с помощью Power Query. А тут  https://www.planetaexcel.ru/forum/?PAGE_NAME=read&FID=1&TID=49986 обсуждается некорректная работа Power Query с XLSB. еще где-то читал что есть такой минус как меньше вероятности восстановить поврежденный файл. Очень интересно нет данных насколько быстрее по сравнению с другими возможными форматами?
 
По Power Query не замечал, пусть ответят спецы (я пользуюсь Power Pivot в XLSB, проблем нет)
Из описания microsoft
.xlsb - Двоичная книга Excel
Формат двоичных файлов Excel 2019, Excel 2016, Excel 2013 и Excel 2010 и Microsoft Office Excel 2007. Это формат для пользователей, которым необходимо как можно быстрее загрузить файл с данными. Поддерживает проекты VBA, листы макросов Excel 4.0 и все новые функции, используемые в Excel. Однако это не формат XML-файла и поэтому не является оптимальным решением для доступа и управления контентом без использования Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Excel 2007 и объектной модели.
«Бритва Оккама» или «Принцип Калашникова»?
 
Ливиан,  Все зависит от объемов. объем csv, txt будет уступать сжатому xlsx, xlsm, xlsb, хотя по объему непосредственно данных будет компактнее. Чтение такого объема, - то при современном железе скорее всего заметите разницу только на ооочень большом количестве.
По вопросам из тем форума, личку не читаю.
 
У меня Excel 2016 х64. При личном тестировании .xlsb - выигрывает и по скорости и по размеру (файл получается меньше).
«Бритва Оккама» или «Принцип Калашникова»?
 
Цитата
БМВ написал:
Все зависит от объемов
БМВ, исходных файлов пару тысяч малых размеров 0,1-0,3 мб в формате csv. после обработки объем данных увеличится примерно в 10 раз
 
Ливиан, если планируете сбор данных делать через PQ то по скорости csv - самое оно. xlsb - сразу нет. По соотношению объем на диске/скорость - xlsx
Вот горшок пустой, он предмет простой...
 
csv - это по сути текст и есть, их можно всю кучу зажать например раром для архивирования.
Как хранить результат обработки - другой вопрос, но думаю нужно как-то группировать чтоб сократить количество файлов.
 
Цитата
Hugo написал:
всю кучу зажать например раром для архивирования
Если потом с этим работать через PQ, то только ZIP. Читать RAR он не умеет. Но тогда теряется преимущество в скорости доступа к данным и проще уж xlsx - который тот же zip. И без танцев с бубном при написании кода - для новичка лазить по архивам за данными при помощи PQ это не так и просто.
Вот горшок пустой, он предмет простой...
 
Цитата
PooHkrd написал:
Но тогда теряется преимущество в скорости доступа к данным и проще уж xlsx - который тот же zip
тот то тот, но структура XML- не самая компактная. и одинаковые данные в сsv займут меньше если не учитывать сжатие.
Изменено: БМВ - 23.05.2019 12:35:54
По вопросам из тем форума, личку не читаю.
 
Цитата
PooHkrd написал:
По соотношению объем на диске/скорость - xlsx
я бы поспорил, по моим замерам быстрее и меньше места - XLSB.
С форматом XLSB  - есть проблемы с PQ?
Изменено: bedvit - 23.05.2019 12:40:42
«Бритва Оккама» или «Принцип Калашникова»?
 
БМВ, да кто ж спорит. В любом случае всегда надо идти на компромисс место на диске/быстродействие кода/удобство написания этого кода/отлов ошибок в дальнейшем. При обращении к файлам стандартными средствами PQ, если где-то кривые данные - найти где именно сбой - дело быстрое, при определенной сноровке. А вот если лазить по архивам, то уже все не так интересно, особенно если все файлы будут в одном архиве.
Вот горшок пустой, он предмет простой...
 
Спасибо большое всем откликнувшимся.
Ваши советы всегда очень полезны
 
bedvit, да, для подключения к форматам xls и xlsb PQ использует какую-то то ли устаревшую, то ли изначально кривую версию коннектора ACE OLEDB. В результате он то видит, то не видит содержимое файла. Поведение очень непредсказуемое. Это уже давно так, и фиксить это дело никто не собирается.
Изменено: PooHkrd - 23.05.2019 15:25:38 (добавил ссылку про коннектор)
Вот горшок пустой, он предмет простой...
 
PooHkrd, спасибо за инфо. Я так понял это относится к PQ, PP не затрагивает?
«Бритва Оккама» или «Принцип Калашникова»?
 
bedvit, совершенно верно. Я как раз об этом писал в топике по ссылке из поста №3 от ТС.
Вот горшок пустой, он предмет простой...
Страницы: 1
Наверх