Страницы: 1
RSS
Обработка больших массивов, Какими программами лучше обрабатывать Гигабайты массивов данных
 
Добрый день.

Подскажите, достаточно ли будет изучить Power Query и Power Pivot для обработки массивов крупных сетевых магазинов (Дикси, Магнит, Х5) для построения дашбордов?
До этого работала с массивами до 1млн строк, обходилась Excel.
Изменено: Анастасия С - 27.10.2022 16:44:02
 
Анастасия С, В целом можно и счеты использовать)
Какие дашборды в PQ и PP :D
PBL тогда уж.
А вообще достаточно странный вопрос для человека с оптытом
Цитата
Анастасия С написал:
До этого работала с массивами до 1млн строк
хотя 100 строк тоже до 1млн :D
Изменено: Wild.Godlike - 27.10.2022 17:01:57
 
Анастасия С, здравствуйте
Для хранения больших объёмов данных придуманы БД. MS Access, MS SQL Server и так далее…
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
написал:
Анастасия С, В целом можно и счеты использовать)
Какие дашборды в PQ и PP  
PBL  тогда уж.
А вообще достаточно странный вопрос для человека с оптытом
Цитата
Анастасия С написал:
До этого работала с массивами до 1млн строк
хотя 100 строк тоже до 1млн

Спасибо.

Ну 800 тыс строк Excel вытягивал, сводные строились, гистограммы/графики тоже.
У сетевиков файлы исчисляются десятками, сотнями Гигабайтов. Пока не понятно, чем и как обрабатывать и на какие курсы выпрашивать денег в компании для обучения :)
 
Цитата
написал:
Анастасия С, здравствуйте
Для хранения больших объёмов данных придуманы БД. MS  Access ,  MS SQL Server  и так далее…

Большое спасибо!
 
Цитата
Анастасия С написал:
У сетевиков файлы исчисляются десятками, сотнями Гигабайтов.
вопрос не в количестве байт, а в том, что в этих байтах находится , что нужно для результата и каков должен быть результат.  Часто системы биллинга например хранят все в очень нормальном виде, но при экспорте дают например в XML. Это не самый компактный вид. В результате файл огромен, сложн в загрузке, но если правильно загрузить , то в базе занимает не такой большой объем, а OLAP позволит крутить данными и получать любую аналитику.
По вопросам из тем форума, личку не читаю.
 
Скажем так, вы можете загрузить в PBI или PP практически любое кол-во строк - все зависит от ресурсов процессора и оперативной памяти. Но даже если Вы, как разработчик в PBI или PP, установите себе супер многоядерный процессор и сотни гигов оперативы, чтобы обрабатывать милиарды строк к примеру. То это не будет работать у конечного пользователя в облаке или локальном сервере, т.к. там другие ресурсы и они ограничены. Если ваши исходные данные оперируют 100-и млн или миллиарды строк и вы их хотите обрабатывать в PBI (PP), то вам сначала следует определить уровень гранулярности, до которого потребуется анализировать данные и предварительно группировать и хранить данные уже в нужном виде и объеме. Для это лучше всего создать отдельное хранилище данных, куда предварительно будут заливаться и обрабатываться исходные данные (к примеру раз в сутки ночью все обновляется). А уже к этому хранилищу цепляетесь и делаете строите аналитику. Я к примеру, использую хранилище, в котором таблица фактов сгруппирована до 50 млн. строк, такой объем спокойно обрабатывается и в PP, и в PBI, имея 16 ГБ оперативы и core i5-7500 на борту. Отвечая на первоначальный вопрос:
Цитата
Анастасия С написал:
достаточно ли будет изучить Power Query и Power Pivot для обработки массивов крупных
да, если создать отдельное хранилище (DWH). Но для создания DWH нужен разработчик БД - там определенно другие знания требуются.
 
Цитата
написал:
Скажем так, вы можете загрузить в PBI или PP практически любое кол-во строк - все зависит от ресурсов процессора и оперативной памяти. Но даже если Вы, как разработчик в PBI или PP, установите себе супер многоядерный процессор и сотни гигов оперативы, чтобы обрабатывать милиарды строк к примеру. То это не будет работать у конечного пользователя в облаке или локальном сервере, т.к. там другие ресурсы и они ограничены. Если ваши исходные данные оперируют 100-и млн или миллиарды строк и вы их хотите обрабатывать в PBI (PP), то вам сначала следует определить уровень гранулярности, до которого потребуется анализировать данные и предварительно группировать и хранить данные уже в нужном виде и объеме. Для это лучше всего создать отдельное хранилище данных, куда предварительно будут заливаться и обрабатываться исходные данные (к примеру раз в сутки ночью все обновляется). А уже к этому хранилищу цепляетесь и делаете строите аналитику. Я к примеру, использую хранилище, в котором таблица фактов сгруппирована до 50 млн. строк, такой объем спокойно обрабатывается и в PP, и в PBI, имея 16 ГБ оперативы и core i5-7500 на борту. Отвечая на первоначальный вопрос:
Цитата
Анастасия С написал:
достаточно ли будет изучить Power Query и Power Pivot для обработки массивов крупных
да, если создать отдельное хранилище (DWH). Но для создания DWH нужен разработчик БД - там определенно другие знания требуются.
Огромное спасибо за развернутый ответ!
Страницы: 1
Наверх