Страницы: 1
RSS
Анализ примерно 2 млн строк из ю.csv
 
Здравствуйте, Уважаемые!
Есть таблица, около 2 млн. строк, с шестью столбцами. Нужно провести анализ текстовых данных в одном из столбцов, в ячейках которого могут содержаться данные начиная от одного символа и скажем до стихотворения. Задача: найти популярные слова, фразы, абзацы, повторения (использовать поиск по ключевым словам, массив из слов?). И в конце, на основе данных сформировать таблицу(ы) с теми же столбцами.
В excel, к сожалению, не силен. Сможет ли он справится с такими данными. Если да чем лучше сделать? Макрос, VBA, PowerPivot? Или загрузить в стороннее ПО типа python и там обработать.
 
Цитата
таблица, около 2 млн
таблица не в ексел?
или я отстал от жизни?
Да, вроде, нет

Общее количество строк и столбцов на листе

1 048 576 строк и 16 384 столбца

 
Извиняюсь, данные в csv. Пока строк около млн, я спросил с прицелом на будущее :)
 
yeyfd, запомните: кнопка цитирования не для ответа!
 
Цитата
популярные слова, фразы...
что под этим понимается? сколько раз встретилось?
тогда обрабатывать как текстовой файл макросом и собирать в словарь данные из нужной колонки
 
Данные csv можно подгружать в PQ - там нет ограничения по кол-ву строк, обрабатывать по алгоритму(которого пока нет) и выгружать в виде сводной таблицы, если общее кол-во строк будет недопустимо для Excel'я. Хотя после обработки их должно остаться много меньше.
 
Цитата
StatuS написал:
Хотя после обработки их должно остаться много меньше.
или исходя из  этого
Цитата
yeyfd написал:
найти популярные слова, фразы, абзацы,
больше. Уровень популярности надо как то задать.
По вопросам из тем форума, личку не читаю.
 
если понимать что нужно сделать то будет в файле 20 строк или 20 млн. строк это отражается только на времени обработки но никак не отражается на сложности алгоритма.
в данной задаче проблема не в количестве строк, а проблема в формулировке задачи.
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете!
 
Цитата
никак не отражается на сложности алгоритма
Не факт. Наступает момент когда считать файл полностью не представляется возможным и надо считывать построчно или блоками
 
Цитата
Ігор Гончаренко написал:
но никак не отражается на сложности алгоритма.
Игорь, ТС и ищет простой алгоритм с волшебной кнопкой - сделай сам. Вот и ищет, где есть такая кнопка. При этом обладает ещё каким-то секретным знанием - видит разницу между макросом и VBA. Положим в Access - это разные (если правильно помню) сущности. Но в чём разница между этими терминами в Excel - не могу сообразить.
 
Цитата
Андрей VG написал:
Но в чём разница между этими терминами в Excel - не могу сообразить
Зы Excel Macro 4.0  :D
Именно по этому я с трудом пишу слово макрос, подразумевая скрипт на VB :)
Изменено: БМВ - 30.08.2019 10:28:52
По вопросам из тем форума, личку не читаю.
Страницы: 1
Наверх