Для тренда высчитать для каждой строки функцию ЛИНЕЙН в DAX-Excel

Михаил Л Пользователь Сообщений: 2879 Регистрация: 19.02.2020	#1 25.04.2023 08:30:31 Здравствуйте Как высчитать значения функции y=bx+a(Аналог ЛИНЕЙН из Excel) ? В Power Bi как я понял уже есть подобная функция, а для Excel2021 как быть? Прикрепленные файлы Книга.xlsx (188.92 КБ) НА МЯСО В ПРОФИЛЕ

Михаил Л Пользователь Сообщений: 2879 Регистрация: 19.02.2020	#2 25.04.2023 11:38:37 По ссылке, скорее всего, есть решение, только прикрутить не пойму как. В итоге надо чтобы пересчитывалось при использовании срезов НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

25.04.2023 13:26:02

Цитата
написал: По ссылке , скорее всего, есть решение, только прикрутить не пойму как. В итоге надо чтобы пересчитывалось при использовании срезов

Михаил Л, Это простой МНК - коэффициент при X и свобод.член сходятся с вашими вычисленными... файл не доводила до полного исполнения вашего ТЗ - но функции работают чисто по МНК (Метод Наименьших Квадратов) -- в описании линка 2й файл лишний, наверно... первоисточник здесь - тоже не знаю зачем ему 2 файла....
В вашем случае:

Код

Столбцы:
XY  =[Продажи руб.]*[X]
XX  =[X]*[X]

Меры:
Count:=COUNT([X])
SumX:=SUM([X])
SumY:=SUM([Продажи руб.])
SumX*Y:=SUM([XY])
SumX*X:=SUM([XX])
Slope:=([Count]*[SumX*Y] - [SumX]*[SumY]) / ([Count]*[SumX*X] - [SumX]*[SumX]) 
Intercept = ([SumY] - [Slope]*[SumX]) / [Count]

Прикрепленные файлы

Ваш МНК.xlsx (226.04 КБ)

Изменено: JeyCi - 25.04.2023 13:28:52

чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)

Михаил Л Пользователь Сообщений: 2879 Регистрация: 19.02.2020	#4 25.04.2023 13:40:31 JeyCi, Спасибо! НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

25.04.2023 20:46:40

подправлю (чтобы не на скорую руку) для полноты картины:
да, по совету из линка, - действительно, удобнее через COUNTAX и SUMX... чтобы результативный признак тоже в модель поместить вычисляемым столбцом:

Код

Столбцы:
XY  =[Продажи руб.]*[X]
XX  =[X]*[X]
 
Меры:
Count:=COUNTAX(ALL('Таблица1');'Таблица1'[X])
SumX:=SUMX(ALL('Таблица1');'Таблица1'[X])
SumY:=SUMX(ALL('Таблица1');'Таблица1'[Продажи руб.])
SumX*Y:=SUMX(ALL('Таблица1');'Таблица1'[XY])
SumX*X:=SUMX(ALL('Таблица1');'Таблица1'[XX])
Slope:=([Count]*[SumX*Y] - [SumX]*[SumY]) / ([Count]*[SumX*X] - [SumX]*[SumX]) 
Intercept = ([SumY] - [Slope]*[SumX]) / [Count]

============== в модель
ещё вычисляемый столбец:
regrY=[Slope]*'Таблица1'[X]+[Intercept]

иначе у меня тоже выдавал "не число"...

Прикрепленные файлы

Ваш МНК_ (1).xlsx (223.26 КБ)

Изменено: JeyCi - 25.04.2023 21:16:40

Михаил Л Пользователь Сообщений: 2879 Регистрация: 19.02.2020	#6 25.04.2023 21:41:08 JeyCi, Большое спасибо! Вообще хотел, то что здесь на формулах Excel, сделать на Dax в сводной Excel. Там Сигмы привязаны к ЛИНЕЙН НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

25.04.2023 22:29:15

Цитата
Михаил Л написал: Там Сигмы привязаны к ЛИНЕЙН

тема уже не тренда (как заявлено в названии ветки), а доверительного интервала...
там (в статистике!) ср.кв.отклонение считается на основе месячных данных, у вас нет разброса данных по месяцам... можно по годам оценивать отклонения (от среднего за год), из которых потом дисперсию, но вам виднее цель вашего анализа... - при аппроксимации на годовой основе - теряете сезонную цикличность.
В общем и целом, для использования отклонений в расчёте дисперсии надо использовать т.н. ~~demeaning~~ mean - вопрос от чего mean брать... - это к слову о ваших данных... но я не подряжаюсь на этот топик - просто было немного времени - подсказала... а по сути, как обычно, - меры и вычисляемые поля - всё в модельку и будет счастье... но тема берёт начало из статистики регрессионного анализа - чтобы "сигмы не привязывались к ЛИНЕЙН", а было понимание того, что и как надо посчитать, тогда быстрее будете получать ответ (если будете предоставлять точный алгоритм расчётов, нужных вам), чем копаться в чужих файлах с вашего линка...
успехов вам!

Изменено: JeyCi - 26.04.2023 15:35:34

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

26.04.2023 08:39:17

P.S.
на стр.31 там простая схема анализа в целом:
- сначала априорный выбор теор. модели
- расчёт её по вашим данным
- тест на проверку гипотезы о том, что ваши данные описываются именно этой (стат.) моделью, - иначе ваши расчёты ничего не стоят
... и так можно тестить любые теор.модели... мера правдоподобия: AIC или BIC...
это всё лишь для оценки Правдоподобия выводов. - Метод приближения так и называется - MLE (Maximum Likelihood Estimation) - но DAX не имеет соотв. удобств - Python, R имеют много библиотек, дающих возможность не считать ручками дисперсию, ср.кв.откл, коэф. регрессии , а всё уже автоматизировано, надо просто уметь читать то, что выводят эти функции и с какими долями процентов правдоподобия и как(!) Интерпретировать

но это уже совсем другая история - и только после того как вы определитесь с подходящей моделью (и выбором экзогенных факторов), вы можете по ней прогнозировать результативные факторы... а так наобум примерять различные файлы и формулы к вашим данным - потеря времени... модель не будет универсальной, т.к. динамика др. данных может диктоваться др экзогенными(Х) факторами и даже их влиянием др. на др. ещё до их влияния на фактор-результат... без полноценного стат. анализа слово "Тренд" теряет смысл, превращаясь лишь в сглаживание имеющихся данных (а для этого и простая/взвешенная средняя за период подойдёт для принятия решения - просто период взять смещающийся вместе с горизонтом прогноза, без красивостей в супер-модном DAX)...

ВСЁ ЕСТЬ, НО НЕ В DAX -- (посмотрела ваши топики) - ваша затея вряд ли заинтересует серьёзного работодателя, желающего иметь валидный(!) прогноз... - без статистики никак... а со статистикой покажите понимание теории и формул, а не перевод файла в др - тогда на любом языке будете кодить ваше понимание... спросите "как посчитать", а не "как переделать чужой код" -- и на интересный вопрос всегда найдутся люди, желающие потратить время...

Изменено: JeyCi - 26.04.2023 15:36:11

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

26.04.2023 19:29:34

Цитата
JeyCi написал: вряд ли заинтересует серьёзного работодателя, желающего иметь валидный(!) прогноз

Найти бы хотя б работодателя, который толково разбирается в прогнозировании и все что около. Встречаю только работодателей, которые даже простейшие графики и диаграммы не понимают.
Сегодня только был на двух собеседованиях в компаниях, которые существуют более 14 лет и не у одной не настроено даже сбор данных из их 1с.
За четыре года встретил только одного аналитика, использующий PBi. Причем руководству дает файл pbix, а не ссылку на облачный аккаунт.
Я себя позиционирую как технический аналитик данных. Из полученных данных создаю необходимого вида таблицы. Даже не спорю и не доказываю работодателю как таблица будет полезнее. Что хотят видеть - то и делаю. Есть опыт с данными из 1с, на этом и выезжаю)
А изучать с нуля прогнозирование я точно не потяну)

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#10

27.04.2023 15:29:03

Цитата
написал: Сегодня только был на двух собеседованиях в компаниях, которые существуют более 14 лет и не у одной не настроено даже сбор данных из их 1с. ... А изучать с нуля прогнозирование я точно не потяну)

в том то и дело, что статистика завязана на Нормальное Распределение вероятностей, а реал. данные редко описываются нормальным (или хоть каким распределением) - поэтому я скептически отношусь к статистике (мат.ожидание, дисперсии,Корреляционно-регрессионный анализ, ANOVA, и даже смещённая ANCOVA)... ближе к реальности оценки байесовских и марковских случаев с пом теор.вер-тей -- не дадут чёткие модели ввиду стохастичности бизнес-процессов, но оценка динамики силами ПК именно такие алгоритмы включает, и именно для сглаживания, а не выявления причин/закономерностей... это лишь мат. аппарат, а не моделирование в прямом смысле... в общем, ввиду Нестационарности бизнес-процессов -- стат. аппарат считаю неподходящим (включая регрессию, которую вы нашли в этой ветке и доверительные интервалы, которые хотите найти)... не думаю, что за 14 лет у них насобиралось достаточно инфо для стат.анализа...
теор.вер. - лишь инструмент для выстраивания моделей управления бизнес-процессами (Evidence model, state-space model) -- а результат таких моделей, как и их архитектура, очень субъективны и диктуются даже не отраслью, а каждой конкретной компанией для себя (и плохо на долгосрок, а сам процесс построения модели для прогнозирования на её основе - занимает время)... и Принятие Решения по модели редко кто делает, в жизни - по обстоятельствам и по интуиции максимизируя выгоду из опыта и своих субъективных критериев оценки качества (на машине редко)... только маркетинг может порисовать картинки, от которых мало что зависит...

(как-то так - причина, по которой я не хочу искать доверительный интервал пока что, не интересен доверительный интервал регрессии, интереснее доверительный интервал решения из множества возможных решений по конкретному вопросу, решения - оптимизирующего к-л критерий, например, в условиях риска или неполной инфо... например, для создания адаптивных систем управления == всё равно нужно стационарное распределение, полагаю)...

===
какой строкой запроса в PQ тянете данные из 1С??.. (если не секрет) /// и я закончу offtop - просто строки предостережения изложила, - на эти грабли, наверно, многие уже наступали...

Изменено: JeyCi - 30.04.2023 08:10:58

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#11

27.04.2023 16:59:57

В тех компаниях, в которых я работал(всего то три), не требовалось прогнозирование. Руководитель я думаю не будет полагаться на прогнозы. Взглянуть еще можно и в тоже время чтоб было раз есть аналитики.
А вообще знаю что маркетологи используют прогнозы для составления плановых требований к торговым агентам.

Цитата
JeyCi написал: какой строкой запроса в PQ тянете данные из 1С??

Выгружаю из 1с в обработке) Типа СКД. Далее из PQ тяну из выгрузок. Напишите в телеграмм - покажу. Конешно можно и напрямую к серверному 1с подключаться, только это и нарушения правил пользования и к фактам еще нужно тянуть все справочники

Изменено: Михаил Л - 27.04.2023 19:58:16

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#12

27.04.2023 21:15:03

Цитата
Михаил Л написал: Выгружаю из 1с в обработке) Типа СКД. Далее из PQ тяну из выгрузок.

точно, там же выгрузки, всё брать/отбирать - долго... имела ввиду connectionString, а не queryString, но вопрос отпадает, согласна про выгрузки - удобнее.

Изменено: JeyCi - 27.04.2023 21:45:29

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#13

28.04.2023 07:45:51

по поводу Confidence Interval (для новой ветки) - если он вам всё-таки нужен... обратите внимание сюда (пункт Avoid...)

Цитата
A frequent misuse is applying confidence intervals to the distribution of sample values. Remember that these ranges apply only to population parameters, not the data values.

- поэтому по вашим данным мне кажется, что у вас нехватка данных (не сравнивала с вашим линком на пример (может и там misuse), не присматривалась к его алгоритму) - просто по логике... пример с цифрами здесь или здесь логика по-простому...
-- станд. (ср.кв.) отклон-е находите мерой КОРЕНЬ из дисперсии (тоже мера) или VaR в англ.яз. лит,
-- z (или t) брать - см. свой sample size (до 30 - нужен t-value, иначе z-value) - они табличные (в статистике много таблиц-справочников по распределениям и т.д. - вобщем, это справочная инфо - зависит от выбранного вами p-value)
-- собираете всю формулу с делением на корень из sample[population]_size... (ВАЖНО: тут имеется ввиду population для каждой даты, а не количество ваших дат)
= это и будет C.I., который +/- к средней (или вашей точке регрессии за дату, полагаю)

НО для этого вам, действительно, нужен разброс данных на каждую дату (у вас его нет) - это если у вас данные с разной дисперсией на каждый день (у вас вообще об этом ничего в файле) - тогда сможете прорисовать upper & lower level (т.к. +/- к лин. тренда) of Confidence Interval на графике с вашей линией тренда

ИЛИ

если хотите этот +/- посчитать для вашей выборки за период (что не совсем правильно, как усомнилась изначально) -- то получите 1 число, которое и есть этот +/- сигма

p.s. в общем успехов вам, если будете это делать в DAX... в первом случае получите upper & lower C.I. bounds -- т.е. это похоже и есть причина, по которой по линку в самом начале нужен 2-й файл (1 для данных полных по всем наблюдениям - для расчёта дисперсий в точках дат, второй уже частично сгруппирован, т.е. сжат в 1 линию регрессии, к которой и находятся параметры a и b) ... во 2-м случае (вариант ИЛИ) получите +/-сигма...

объяснила, чем мне не нравится ваш файл и отсутствие постановки вопроса (чужие реализации неизвестных вопросов - это не вопрос! - а ответ на др. вопрос! возможно не тот, который мучает вас)

Изменено: JeyCi - 28.04.2023 08:23:16

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#14

28.04.2023 08:40:30

JeyCi, В теме мне нужно было получить расчет в Dax на замену функции excel ЛИНЕЙН. Я это получил, благодаря вам!

Цитата
JeyCi написал: по линку в самом начале нужен 2-й файл

Не понимаю что это за оценки.
Мне ваше решение достаточно, в файле уже по месяцам и добавил срез. Слева таблица на формулах Excel для сравнения, справа на Dax.

Прикрепленные файлы

Книга — копия.xlsx (264.41 КБ)

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#15

28.04.2023 09:00:35

замечательно, что у вас получилось, что хотели... потому что меня дальше после C.I. ещё мучал бы Random Effect, т.к. вы показали только Fixed Effect ... и вопрос, when to demean data (y-y_mean: p40 "Only within variation is left. - for Panel Data") или для таких случаев, тоже не второстепенен в моделировании... поэтому мне уже не до C.I. ... чуть что, откроете новую ветку с вашим новым вопросом... успехов

Изменено: JeyCi - 03.05.2023 09:27:15

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#16

30.04.2023 07:03:55

Цитата
Михаил Л написал: Не понимаю что это за оценки.

не оценки, а реал данные (по линку чтобы рисовать их на графике) -- но по вашей задумке, вероятно, чтобы считать дисперсию, если данные по годам есть, и хотите просчитать дисперсию помесячно (беря в расчёт каждый 1 месяц за все года) : Потом корень из неё будет "ср.кв.откл-е", которое и используете в расчёте CI по месяцам, если он вам нужен... или весь CI не дифференцируя по месяцам... - вопрос лишь в том, какая степень аппроксимации вам нужна (более общая, одна по всему, или более частная, например, по месяцам)... результат всегда один: mean+/-sigma , последняя - есть корень из дисперсии... обычно берут 2 или 3 сигмы в зависимости от того, какой % данных хотят включить в итоговый range (т.е. upper & lower limits)..... Важно: цитату #13 никто не отменял, поэтому такая помесячная дифференциация мне кажется не всегда логичной/законной (с т. зр. случайности опыта), но для бизнеса, может, и нормально все январи оценить как WG (within-Group), и с др как BG (between-group)...
НО, повторюсь, это подход к данным, имеющим Нормальное Распределение -- в жизни не всегда данные такие красивые, чтобы их можно было так по-простому оценить... поэтому всё приводится обычно по любому к норм. распр. и только потом оценивается -- потому что эти +/- в принципе хороши для выставления ограничений на dataflow дальше по модели, если модель сложная..... чтобы сузить и так ресурсозатратные вычисления для машины... p.s. и потом надо выполнять обратную трансформацию - при интерпретации результата

Изменено: JeyCi - 30.04.2023 08:26:09

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#17

30.04.2023 07:33:48

кстати for Panel Data (did) - для межгрупповой оценки по месяцам - вам demeaning нужен будет... - это на перспективу - если захотите оценивать разброс по месяцам (не вникала в ваш линк по CI ) - но повторюсь, данных нужно много (не знаю помогут ли 14 лет) -- и только тогда средняя и диапазон будут стремиться к статистической устойчивости (т.е. валидности)... а т.к. за эти 14 лет много разл. факторов влияло в разл. периоды - и они вами не учтены, то и дисперсия у вас будет большая и средняя всё равно может быть (и даже будет) смещённая (т.е. ещё стат. неустойчива)... но так же через корр-регр анализ можете изучать и др факторы, проблема в том, что в соц-эк явлениях не сможете сделать conditioning, поэтому оценки параметров модели (ваши a и b) всё равно будут biased (смещёнными) -- хотя смещение Мат.Ожидания от Среднего всей генеральной совокупности -- в принципе, в бизнесе и есть показатель - лучше/хуже среднего

Изменено: JeyCi - 03.05.2023 06:19:36

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#18

30.04.2023 12:09:03

JeyCi, как вы однако обширно знаете про прогнозирование и все что рядом!
Помню лет десять-двенадцать назад увлекался изучением торговли валют на бирже. Вся суть сводилась к поиску на графике соответствия определенным паттернам. И да, находились паттерны чуть ли не в один в один и это было точкой для входа. Однако далее график может идти не так как ожидалось. Показываешь это куратору, а он в ответ: это часовые графики, давайте посмотрим дневной график, видите здесь не по паттерну, рано для входа.
В итоге я понял что история и повторяется и не повторяется. И перестал верить в прогнозирование)

Цитата
Михаил Л написал: JeyCi, как вы однако обширно знаете про прогнозирование и все что рядом!

У меня же все просто.
Все чаще вижу в вакансиях в требованиях прогнозирование. Вот и нужно что то подготовить для этих случаев.
Я еще не встречал директоров, требующих прогнозирование. Маркетологи еще могут востребовать прогноз. Вот и будет вариант. Если же у маркетолога будет сомнение, то для этого тоже есть ответ: предоставьте метод прогнозирования, которому доверяете, а я уже буду внедрять этот метод в Excel и PBI.

Цитата
JeyCi написал: данных нужно много (не знаю помогут ли 14 лет)

Я еще не работаю, за сколько лет будут данные не знаю, однако данные планирую использовать за последние два-три года. Так как, например в фарм-компании, постоянная текучка кадров. То медпредов 70, через два месяца 40, еще через два 60, костяк постоянных 25-30, а если маркетолог увольняется, то с ним и почти все медпреды увольняются. Все обнуляется и нужно искать маркетолога с командой медпредов(Встречали может объявление - требуется парикмахер со своими клиентами

) И как доверять прогнозированию при таких условиях.
Прогнозирование нужно чтобы было!

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#19

03.05.2023 05:47:40

Цитата
Михаил Л написал: Прогнозирование нужно чтобы было!

LS (МНК) - Итог: mean+/-3sigma - for Normal data - н привести к Normal
MLE under Gaussian Noise (no Autocorr) - Итог: best with AIC - for Non parametric data ()

реал данные ненормальны, а TS имеют автокорреляцию - поэтому надо правильно ставить вопрос и брать правильные (Random Values!) данные (для независимости опытов), чтобы стат. выводы помогали... при том что "Statistics can’t be used to variable data" - начинает работать, только если есть закономерность, вскрытие которой и есть задача Structural Engineering... чтобы выделять реальные тренды из latent-space, а не фиксить по факту результат незамеченных/невскрытых предпосылок

вывод LS: mean+/-3sigma это вывод для норм data
вывод max-likelihood это вывод для non-parametric data (нет mean, нет sigma - но можно найти MaxLikelihood) - обычно данные именно такие

для последнего м исп разл optimization algos:
- quadratic algo - in SVM (Euclidead distance) -- NB выбрать правильный Kernel (это фильтр) для имеющегося use-case
- Gradient Descent - in Neural Networks -- NB if it can converge
(т.е. чтобы был толк от более сложных вычислений [оптимизации на макс/мин] - задачу в любом случае надо сводить к квадратичному виду! чтобы нашёлся этот convergence point условно говоря, т.е. min [от negative log-likelihood] или max[от log-likelihood], т.е. решение)

и остаётся вопрос Интерпретации результатов:
для Непараметрических моделей (часто по реал данным м построить т их) - LIME (или здесь)... - независимо от модели... - генерится куча однотипных (по своей схеме) данных и ищется наиболее подходящий - по сути всё тот же Monte-Carlo Markov Chain алгоритм - мне так кажется... (хоть никто из так называемых "экспертов" - не может по алгоритму и тому и др (LIME и MCMC и NN) объяснить, в чём отличие, или ?? как обычно отличие в том "кто как что" обозвал)

p.s.
и да, вы правы - важна постаноВка вопроса - для любых оптимизационных задач (хоть по МНК, хоть по MLE) важно, чтобы задача/решение (или область решений) имела сходимость (т.е. решение на поиск нужного), т.е. can converge to min/max...
возможно вы хотите, чтобы вам всегда предоставляли алгоритм, а вы выполняли только техническую составляющую ТехЗадания,
но зачастую заказчик считает, что если у вас проф.тех.(высшее) образование - то вы сами можете состряпать алгоритм - хоть по Лапласу из ~ 18-го века, хоть по Лагранжу, хоть свой собственный - и именно вы должны выбрать/предложить максимально быстрый и дающий точные результаты алгоритм (как технарь), потому что вас этому учили, а не заказчика... но заказчик не хочет терять деньги () потому что вы выбрали не тот алгоритм == для этого вам надо знать все Assumptions ваших моделей, которые технически реализовываете (или иметь/найти экспертное мнение - e.g. статиста, но не руководителя бизнеса - это не его проблемы)...
т.е. программист со своими статистами(экспертами) - тоже имеет больше шансов реализовать адекватную модель (ту, на которую можно полагаться, а не просто отдавать на суд потребителя ТУИ предприятия, используя для рекламных графиков, -- ни потребитель, ни заёмщик денег на бизнес не обязаны разбираться, почему вы выбрали Ньютона или Лагранжа, ни даже статист (эксперт), - вы должны уметь объяснить (где OLS [МНК], а где MLE и почему вы выбрали один vs. др.) ... вы, как технарь... сбросить ответственность того, что и как вы считаете, на кого-либо не получится -- это ваша компетенция -- и да, к знаниям надо прилагать опыт работы с данными и задачами такого типа, работы с пониманием "какие расчёты к каким данным", а не надеждой, что поймёт кто-то вместо вас... поэтому часто "компьютерщики" и заказчики не могут услышать друг друга, когда между ними нет связующего звена - экспертов того, в чём один не должен разбираться, а второй имеет нехватку инфо для своего ТЗ... - а "эксперты" генерят не логику, а новые слова , не в состоянии сгенерить адекватное решение, и коверкают язык, продвигая свои новые слова (названия алго) под новым брендом, имеющим однако всё те же старые добрые ньютоновсие алгоритмы, НО без объяснения, как они их применили, обозвав новым словом, -- что и вызывает сомнения "а поняли ли сами, что обозвали" -- язык теряет силу для выстраивания конструктивного диалога, превращаясь в кувалду, когда отказываются от языка "знаний из опыта" (даже исторического) в пользу языка "я придумал, чтобы обозвать и продвигать" -- но любое "придумал" имеет под собой базу - важно, чтобы она не была гнилой... background считающего и становится базой в расчётах... это как в марковских моделях: всю историю м включить фактором в текущий state ... - каков текущий state, такие и расчёты - по Байесу...
====

поэтому так и получается: "надо чтобы прогноз был"... когда в фирме нет ни экспертов, ни квалифицированных (от слова "знания+опыт", а не слова "корочка") математиков (applied math) -- такие и прогнозы... а опыт, действительно, нарабатывается только на работе, а не из алгоритма псевдослучайных чисел -- в жизни же не всё случайно... и опыт передаётся по истории в текущее состояние (как в MCMC), а не как "я придумал брэнд" (что-то туда вложил, не знаю что, - просто поработал с shaker'ом, внедрив последние технологии работы барменов в отрасль прогнозирования) -- "так вы брэнд-менеджер или вы программист или вы бармэн или что-то помните из того, чему вас учили?" [примерный риторический скрытый вопрос на собеседовании]

Изменено: JeyCi - 03.05.2023 09:18:48

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#20

03.05.2023 09:28:30

Цитата

JeyCi написал:
LS (МНК) - Итог: mean+/-3sigma - for Normal data - н привести к NormalMLE under Gaussian Noise (no Autocorr) - Итог: best with AIC - for Non parametric data ()реал данные ненормальны, а TS имеют автокорреляцию
...
и остаётся вопрос Интерпретации результатов:для Непараметрических моделей (часто по реал данным м построить т их) - LIME (или здесь )... - независимо от модели... - генерится куча однотипных (по своей схеме) данных и ищется наиболее подходящий - по сути всё тот же Monte-Carlo Markov Chain алгоритм

Очень хочу и надеюсь когда-нибудь что-то из этого смогу применить)
Я как планировал: построить модель прогноза и рядом добавить в поле зрения график продаж за последние три года. При фильтрации на срезе прогноз пересчитывается, а на графике продаж видно корреляцию продаж. Если корреляция высокая, то и доверие к прогнозу высокое.
Только там где я работал высокая корреляция - редкость. Каждый год разные продажи и сами продажи импульсивные.
Наверное на, например, хлебопекарном производстве корреляция высокая и продажи стабильные из-за дня в день.

Цитата

JeyCi написал:
вы хотите, чтобы вам всегда предоставляли алгоритм, а вы выполняли только техническую составляющую ТехЗадания,но зачастую заказчик считает, что если у вас проф.тех.(высшее) образование - то вы сами можете состряпать алгоритм
...
ни потребитель, ни заёмщик денег на бизнес не обязаны разбираться, почему вы выбрали Ньютона или Лагранжа, ни даже статист (эксперт), - вы должны уметь объяснить (где OLS [МНК], а где MLE и почему вы выбрали один vs. др.) ... вы, как технарь... сбросить ответственность того, что и как вы считаете, на кого-либо не получится -- это ваша компетенция -- и да, к знаниям надо прилагать опыт работы с данными и задачами такого типа, работы с пониманием "какие расчёты к каким данным", а не надеждой, что поймёт кто-то вместо вас...
...
====поэтому так и получается: "надо чтобы прогноз был"... когда в фирме нет ни экспертов, ни квалифицированных (от слова "знания+опыт", а не слова "корочка") математиков (applied math) -- такие и прогнозы... а опыт, действительно, нарабатывается только на работе

Позавчера узнал что меня приняли на работу. Хотя последнее собеседование показало(из-за того что я не выспался) все мои минусы (образование-школа, не могу выступить перед аудиторией, не могу даже связать порой пару слов и ответить на вопросы. Вообщем не могу что либо озвучить). Поэтому у меня на старте будут следующие обязанности: Создать КХД, наполнять КХД из 1С, подготовка данных, PBI.
И тут же выпустили новую вакансию аналитика с требованиями, которых у меня нет.
В итоге будут два аналитика: один обеспечивает данными, второй с другими обязанностями.
Или надо было продолжать искать несколько лет одного аналитика под эти обязанности?
Я не спорю университеты выпускают аналитиков, только в университетах насколько я понимаю нету еще даже учителей или хотя бы знаний для работы с большими данными и тем более с распространенной в бизнесе 1С.
А те кто уже немного понахватались тут же бегут за высокой зп в РФ или еще дальше
Вот

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#21

03.05.2023 10:35:09

Цитата
Михаил Л написал: В итоге будут два аналитика: один обеспечивает данными, второй с другими обязанностями.

как обычно:
один отдел работает, второй ждёт первого, потом наоборот ... а платить придётся 1+1=2... расход человеко-времени 2x, полезность - лишь 50% ... вы правы: вопрос рентабельности - уже не ваш вопрос

Изменено: JeyCi - 03.05.2023 10:36:31

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#22

03.05.2023 10:39:01

Цитата
Михаил Л написал: Если корреляция высокая, то и доверие к прогнозу высокое.

вы ей льстите... или вашим данным...

Изменено: JeyCi - 03.05.2023 10:46:19

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#23

03.05.2023 12:43:36

Цитата
JeyCi написал: второй ждёт первого, потом наоборот ... а платить придётся 1+1=2... расход человеко-времени 2x, полезность - лишь 50% ...

Или

Цитата
Михаил Л написал: продолжать искать несколько лет одного аналитика под эти обязанности

пс. За некоторыми компаниями наблюдаю несколько лет. Сначала нужен аналитик девушка до 27 лет, через полгода уже аналитик до 27 лет. Звоню говорю что могу работать еще лет двадцать. В ответ от hr: у нас директору отдела 25 лет, как он будет вами управлять? В итоге заканчиваем разговор

Изменено: Михаил Л - 03.05.2023 12:52:54

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#24

04.05.2023 12:40:29

Цитата
написал: Я как планировал: построить модель прогноза и рядом добавить в поле зрения график продаж за последние три года.

по линку #2 у вас такое и отражено, только на одном графике - данные от модели линией тренда, и данные файла реал данных - линией ломаной ...

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#25

04.05.2023 14:20:40

Цитата
Михаил Л написал: модель прогноза и рядом добавить в поле зрения график продаж за последние три года

Типа этого.
На первом - вызывает доверие
На втором - можно сказать вызывает доверие второе полугодие

НА МЯСО В ПРОФИЛЕ

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#26

05.05.2023 07:14:39

Цитата
Михаил Л написал: вызывает доверие

его может вызвать только доверительный интервал (CI)
P.S.
Нестационарный процесс можно прогнозировать только на 1 шаг вперёд, - "потому что будущее состояние зависит только от текущего" - более длинный горизонт и вероятности иных состояний будут известны только по факту, но не сейчас apriori, поэтому прогноз более долгосрочный теряет смысл и уровень доверия... т.к. добавляется количество неопределённости (например, данных завтра и послезавтра для прогноза на после-после-завтра)

Цитата
Михаил Л написал: Показываешь это куратору, а он в ответ: это часовые графики, давайте посмотрим дневной график,

- возможно, вариант: просчитать прогноз на шаг вперёд для усреднённых/сглаженных часовых отдельно и усреднённых/сглаженных дневных отдельно... и смотреть однонаправленность прогноза. - подтверждают ли др др... но в любом случае: такой прогноз лишь отражает выводы на основе сглаженной истории... для более реального прогноза лучше см. настоящий state и его латентные факторы(признаки) - если процесс Марковский ! если нет - то пока не встречала формализованных способов работы с неопределённостью (стохастической и уж тем более нестохастической - её вообще сложно формализовать в какую-либо аналитическую функцию)... поэтому смотрят стохастические решения и разрабатывают эвристические методы поиска решения (генетические алгоритмы, нейросети и др) - если задача стохастическая, или приводят её к детерминированному виду...
P.P.S.
прогнозировать неопределённость (когда это возможно) можно только с доверительными интервалами...
но нет смысла переносить историю в будущее, если процесс вероятностный и даже нет детерминированного тренда, в лучшем случае - лишь стохастический тренд... если тренд вообще есть, а не сглаженная история... - см. лучше текущий state ...
P.P.P.S.
и для немарковских процессов надо (!!) иметь все условные вероятности -- для этого провести все эксперименты по conditioning, что невозможно в соц-эк явлениях, только statistical inference --> оценки всегда смещённые, т.к. почти всегда существуют случаи out-of-sample и/или малые выборки (не дающие статистически-устойчивых результатов) ...

Изменено: JeyCi - 05.05.2023 07:42:39

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#27

05.05.2023 08:39:38

в общем:
сглаживание (smoothing)
прогноз (SARIMAX Model)
-- разработана очень большая library statsmodels в Python для оценки АвтоРегрессионных моделей и др
== сделать авторегрессию ручками в DAX - проблематично - можно только порисовать графики (подготовить данные для АР-модели сложно - нет соотв. объектной модели, т.к. DAX лишь функциональный язык, не более того)...

Изменено: JeyCi - 05.05.2023 08:46:59

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#28

05.05.2023 09:44:43

Цитата
Михаил Л написал: Очень хочу и надеюсь когда-нибудь что-то из этого смогу применить)

Computational Statistics in Python - если решите делать это на более подходящем языке - для оптимизационных задач, которые в изобилии будут встречаться в стат.анализе... хотя чисто для оптимизации вероятностных систем (на min/max) и Пакет Анализа из Excel - даёт решение, но не марковсих - в очередной раз соглашусь с Vladimir Ch про рекурсию...
(не видела решений в Excel, кроме надстроек - например RealStatistics)...

Изменено: JeyCi - 05.05.2023 09:55:04

Михаил Л

Пользователь

Сообщений: 2879 Регистрация: 19.02.2020

#29

05.05.2023 14:11:54

Цитата
JeyCi написал: в общем: сглаживание (smoothing) прогноз (SARIMAX Model)

То что вы пишите я еще могу переваривать, однако когда перехожу по ссылкам я просто теряюсь даже с переводом) Глазами похлопаю и обратно на планету эксель)

Цитата
JeyCi написал: Vladimir Ch про рекурсию ...

и там же предложил отдельные меры для каждого месяца. И очень даже работает(в файле)

Прикрепленные файлы

Прогноз на 7месяцев_.rar (131.58 КБ)

Изменено: Михаил Л - 05.05.2023 14:12:17

НА МЯСО В ПРОФИЛЕ

JeyCi Пользователь Сообщений: 3399 Регистрация: 27.11.2013	#30 06.05.2023 11:23:56 1) по ссылкам хотя бы графики посмотреть 2) по результатам (хоть своим хоть чужим) дать Интерпретацию для принятия решения по полученным данным 3) по файлу - никто не отрицал, что циклический граф можно выродить в дерево - здесь даже с неявными связями ... и дерево реализовать на функциональном языке (типа DAX) 4) по алгоритму поиска dx/dt=kx - лишь вопрос скорости, тяжеловесности и точности (бывает) 5) по реализации файла - когда нарисуете CI - увидите размер неопределённости вашего прогноза ... в добавок к смещению (относительно данных, полученных при др. условиях) ... 6) по полезности анализа timeseries - от нас вообще ничего не зависит: время идёт само, продажи формируются спросом... хоть маркетологи и думают, что формируют его сами - вопрос: какой ценой и формализовать рычаги воздействия(?) -- не все маркетологи понимают какие и какой ценой... некоторые даже забывают вспомнить о спросе 7) а вот по входным данным - их, действительно, мало (поэтому и просчитываются быстро на среднем пк), но надо много (в реал бизнесе для прогноза, которому можно доверять) 8 ) -- и МНК не всегда "the best"... алгоритм поиска theta=dQ/dP по МНК даёт, вероятно, смещённые оценки по сравнению, например с DML - python notebook из этой статьи -- не вникала в алгоритм от Vladimir Ch и не тестила оба на реал данных - но во 2-м там есть шаг demeaning - вобщем, возможно, не все кривые одинаково хорошо аппроксимируются по МНК -- а, может, просто работа с шумом, а не с центральной тенденцией, - даёт более точное сглаживание, чем МНК... 9) а по-хорошему - сначала надо тест Дики-Фулера сделать на стационарность данных, и если они стац., то можно выделять тренд, цикличность и остатки (если в них просматривается паттерн - то либо заменить модель, либо период) и в любом случае (!)Оптимизировать на параметры сглаживания , чтобы чтобы выявить цикличность... или делать pmdarima.auto_arima... расписывать дерево на выбор лучших параметров вручную на DAX - не "comme ils faut" и не удобно 10) прежде не забыв поубирать праздники и др выбросы ... чтобы улучшить качество модели, уменьшив ошибку - e.g. как здесь p.s. по python ничего не приложу для сравнения удобств в моделировании, - слетела pandas_lib... да и нет смысла здесь кодить на др. яз,... просто для инфо Изменено: JeyCi - 07.05.2023 05:48:55 чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)