Конфаундинг, или как аналитику попасть в ловушку
Как вы знаете, последние несколько недель я активно работал над темой конфаундинга. На самом деле, я поднимал её и раньше — в заметках, кейсах и размышлениях. Писал об этом давно, но по частям.
✨ И вот, наконец, я собрал всё воедино — вышла моя дебютная статья на Хабре. Это важное событие для меня и моего канала!
В статье — теория, DAG, практический кейс и главное: почему конфаундинг — не просто термин из учебника, а реальная угроза для выводов и бизнес-решений.
P.S. Спасибо коллегам, кто дал ценные комментарии к черновику. 🙌
#causality #habr #r #лонгрид
Как вы знаете, последние несколько недель я активно работал над темой конфаундинга. На самом деле, я поднимал её и раньше — в заметках, кейсах и размышлениях. Писал об этом давно, но по частям.
В статье — теория, DAG, практический кейс и главное: почему конфаундинг — не просто термин из учебника, а реальная угроза для выводов и бизнес-решений.
P.S. Спасибо коллегам, кто дал ценные комментарии к черновику. 🙌
#causality #habr #r #лонгрид
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Конфаундинг, или как аналитику попасть в ловушку
Однажды к новоиспечённому аналитику компании «Линейные уравнения» обратились коллеги из HR-блока с просьбой проверить гипотезу: влияет ли запущенная ими программа обучения на эффективность...
❤27🔥13👍5❤🔥2👎1
H0H1: про HR-аналитику pinned «Конфаундинг, или как аналитику попасть в ловушку Как вы знаете, последние несколько недель я активно работал над темой конфаундинга. На самом деле, я поднимал её и раньше — в заметках, кейсах и размышлениях. Писал об этом давно, но по частям. ✨ И вот, наконец…»
Эффект: введение в дизайн исследований и каузальность
Продолжаем путешествие по миру причинно-следственного анализа. Сегодня — ещё одна важная книга: «Эффект: введение в дизайн исследований и каузальность» (The Effect: An Introduction to Research Design and Causality) Ника Хантингтона-Клейна.
Это фундаментальный учебник объёмом ~700 страниц. Не для пролистывания — для вдумчивого чтения, симуляций и повторения кода (на выбор: R, Python, Stata).
Что отличает эту книгу от других, которые я читал по каузальному анализу — и, на мой взгляд, делает её особенно полезной:
🟡 Полный охват исследовательского цикла и всех аспектов каузального анализа на наблюдаемых данных – от теории до практики.
🟡 Пошаговое объяснение процесса генерации данных — не просто упомянуто, а обучает, как размышлять об этом на практике.
🟡 Изложен плацебо-тест: если слышали про эффект плацебо, то здесь — методологический приём: проверка, не «находит» ли ваш метод эффект там, где его быть не должно.
🟡 Показаны симуляции для оценки мощности — наглядно и практически применимо.
🟡 Подробно разобраны инструментальные переменные.
🟡 Практические примеры по работе с DAG — от укрупнения переменных в кластера до осторожного захода на causal discovery - да, тот самый момент, когда DAG рисует не человек, а алгоритм.
🟡 Финальный блок — как и у Матеуса Факура — про новейшие подходы. Только без кода, исключительно теоретически.
На прошлой неделе вышел также разбор книги на канале This is Data — рекомендую как второе мнение.
#книги #causality
Продолжаем путешествие по миру причинно-следственного анализа. Сегодня — ещё одна важная книга: «Эффект: введение в дизайн исследований и каузальность» (The Effect: An Introduction to Research Design and Causality) Ника Хантингтона-Клейна.
Это фундаментальный учебник объёмом ~700 страниц. Не для пролистывания — для вдумчивого чтения, симуляций и повторения кода (на выбор: R, Python, Stata).
Что отличает эту книгу от других, которые я читал по каузальному анализу — и, на мой взгляд, делает её особенно полезной:
На прошлой неделе вышел также разбор книги на канале This is Data — рекомендую как второе мнение.
#книги #causality
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Лестница причинности
Читаю сейчас The Book of Why Джуды Перла — одного из отцов современного AI и ключевой фигуры в развитии каузального анализа. У него есть и более академичные работы, к примеру, Causality: Models, Reasoning, and Inference, но The Book of Why написана гораздо более доступно и предназначена для широкой аудитории.
Сегодня хочу поделиться с вами концептом «Лестницы причинности» из книги Перла, который я перевёл и адаптировал для канала. А чтобы не оставаться в теории, помещу её в контекст HR-аналитики.
📊 Первая ступень: связь
Мы видим, что опыт сотрудников положительно связан с их эффективностью. Но только на основе связи мы не можем утверждать, что именно опыт повышает эффективность. Возможно, менее эффективные сотрудники чаще уходят, поэтому их стаж не растёт. На этом уровне данных мы описываем наблюдаемые зависимости, но не можем говорить о причинности, что часто нарушается в реальности.
🔬Вторая ступень: интервенция
Мы запускаем новую программу обучения на одном из предприятий и сравниваем эффективность сотрудников до и после внедрения — или с аналогичными предприятиями, где программы не было. Здесь мы уже говорим о причинно-следственном эффекте: обучение → рост эффективности.
🚀 Третья ступень: контрфактический вывод
Несколько лет мы используем программу кадрового резерва для удержания и продвижения сотрудников. Контрфактический вопрос звучит так: а что было бы, если бы программы резерва у нас не было? Изменились бы показатели удержания и карьеры сотрудников? Это высший уровень причинного анализа — моделирование альтернативной истории.
К слову, именно отсутствие каузального мышления в современном AI Перл считает тупиком. На Хабре есть перевод его интервью 2018 года.
#книги #causality
Читаю сейчас The Book of Why Джуды Перла — одного из отцов современного AI и ключевой фигуры в развитии каузального анализа. У него есть и более академичные работы, к примеру, Causality: Models, Reasoning, and Inference, но The Book of Why написана гораздо более доступно и предназначена для широкой аудитории.
Сегодня хочу поделиться с вами концептом «Лестницы причинности» из книги Перла, который я перевёл и адаптировал для канала. А чтобы не оставаться в теории, помещу её в контекст HR-аналитики.
📊 Первая ступень: связь
Мы видим, что опыт сотрудников положительно связан с их эффективностью. Но только на основе связи мы не можем утверждать, что именно опыт повышает эффективность. Возможно, менее эффективные сотрудники чаще уходят, поэтому их стаж не растёт. На этом уровне данных мы описываем наблюдаемые зависимости, но не можем говорить о причинности, что часто нарушается в реальности.
🔬Вторая ступень: интервенция
Мы запускаем новую программу обучения на одном из предприятий и сравниваем эффективность сотрудников до и после внедрения — или с аналогичными предприятиями, где программы не было. Здесь мы уже говорим о причинно-следственном эффекте: обучение → рост эффективности.
🚀 Третья ступень: контрфактический вывод
Несколько лет мы используем программу кадрового резерва для удержания и продвижения сотрудников. Контрфактический вопрос звучит так: а что было бы, если бы программы резерва у нас не было? Изменились бы показатели удержания и карьеры сотрудников? Это высший уровень причинного анализа — моделирование альтернативной истории.
К слову, именно отсутствие каузального мышления в современном AI Перл считает тупиком. На Хабре есть перевод его интервью 2018 года.
#книги #causality
❤14👍5🤔1
Каузальный взгляд на парадоксы
Аналитики не понаслышке знакомы с парадоксами Монти Холла и Симпсона. Эти задачи регулярно звучат на собеседованиях — кандидатов просят объяснить их суть (я не исключение). Но пишу я не для того, чтобы в сотый раз пересказывать суть проблем и известные решения.
Читая The Book of Why Джуду Перла, я заново открыл для себя эти парадоксы — но уже через призму каузального анализа. Именно эта перспектива позволяет увидеть за привычными задачами глубинные механизмы и избавиться от кажущейся «магии».
🎲Парадокс Монти Холла
Представьте игровое шоу: за одной из трёх дверей стоит машина, за двумя другими — козы. Вы выбираете дверь №1. Ведущий, который знает, где машина, открывает дверь №3 с козой и предлагает вам переключиться на дверь №2. Стоит ли менять выбор?
Формально ответ таков: если остаться при своём выборе, шанс на выигрыш — 1/3, если сменить дверь — 2/3. И, если вас это смущает, не переживайте: когда Мэрилин вос Савант опубликовала этот ответ, с ней спорили даже учёные, математики и статистики с PhD.
Каузальный анализ даёт ключ к пониманию. Переменная «открытая дверь» — это коллайдер.
Как только ведущий открывает дверь с козой, все вероятности становятся обусловлены этим событием. Оно создаёт зависимость между выбором игрока и расположением машины, хотя изначально они были независимы. В результате вероятность смещается: остаётся 1/3 за вашей дверью и 2/3 — за другой закрытой.
Перл подчёркивает: если бы ведущий открывал дверь случайно, коллайдера не возникло бы — и тогда вероятность действительно была бы 1/2 для двух оставшихся дверей. Но в классическом шоу правила другие: ведущий всегда показывает козу.
📊 Парадокс Симпсона
Парадокс Симпсона — это ситуация, когда наблюдаемый тренд меняется на противоположный при разбиении данных на группы.
Классический пример, который описал Эдвард Симпсон в 1952 году: лекарство от сердечных приступов. В среднем оно полезно, но, если разделить пациентов по полу, окажется, что и для мужчин, и для женщин оно вредно.
Перл показывает, что за этим парадоксом могут скрываться разные каузальные структуры:
🟣 Конфаундер (вилка, общая причина). В примере с лекарством общий фактор — пол. Если учесть его (стратифицировать данные), парадокс исчезает.
🟣 Медиатор (труба). Если же переменная лежит на пути влияния (X → M → Y), ситуация трактуется иначе, и корректировка может исказить вывод.
Один и тот же статистический феномен может быть вызван: либо конфаундером, тогда контроль помогает, либо медиатором, тогда контроль вредит. И именно каузальное мышление позволяет отличить одно от другого.
#книги #causality
Аналитики не понаслышке знакомы с парадоксами Монти Холла и Симпсона. Эти задачи регулярно звучат на собеседованиях — кандидатов просят объяснить их суть (я не исключение). Но пишу я не для того, чтобы в сотый раз пересказывать суть проблем и известные решения.
Читая The Book of Why Джуду Перла, я заново открыл для себя эти парадоксы — но уже через призму каузального анализа. Именно эта перспектива позволяет увидеть за привычными задачами глубинные механизмы и избавиться от кажущейся «магии».
🎲Парадокс Монти Холла
Представьте игровое шоу: за одной из трёх дверей стоит машина, за двумя другими — козы. Вы выбираете дверь №1. Ведущий, который знает, где машина, открывает дверь №3 с козой и предлагает вам переключиться на дверь №2. Стоит ли менять выбор?
Формально ответ таков: если остаться при своём выборе, шанс на выигрыш — 1/3, если сменить дверь — 2/3. И, если вас это смущает, не переживайте: когда Мэрилин вос Савант опубликовала этот ответ, с ней спорили даже учёные, математики и статистики с PhD.
Каузальный анализ даёт ключ к пониманию. Переменная «открытая дверь» — это коллайдер.
Как только ведущий открывает дверь с козой, все вероятности становятся обусловлены этим событием. Оно создаёт зависимость между выбором игрока и расположением машины, хотя изначально они были независимы. В результате вероятность смещается: остаётся 1/3 за вашей дверью и 2/3 — за другой закрытой.
Перл подчёркивает: если бы ведущий открывал дверь случайно, коллайдера не возникло бы — и тогда вероятность действительно была бы 1/2 для двух оставшихся дверей. Но в классическом шоу правила другие: ведущий всегда показывает козу.
📊 Парадокс Симпсона
Парадокс Симпсона — это ситуация, когда наблюдаемый тренд меняется на противоположный при разбиении данных на группы.
Классический пример, который описал Эдвард Симпсон в 1952 году: лекарство от сердечных приступов. В среднем оно полезно, но, если разделить пациентов по полу, окажется, что и для мужчин, и для женщин оно вредно.
Перл показывает, что за этим парадоксом могут скрываться разные каузальные структуры:
Один и тот же статистический феномен может быть вызван: либо конфаундером, тогда контроль помогает, либо медиатором, тогда контроль вредит. И именно каузальное мышление позволяет отличить одно от другого.
#книги #causality
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8❤🔥3👍3🔥1
Шкала достоверности данных
Читаю Sex by Numbers Дэвида Шпигельхалтера. Книга напрямую не связана с HR-аналитикой — как понятно из названия. Однако, как вы, наверное, уже заметили, я люблю собирать методы из разных областей и применять их к нашему предмету.
В начале книги автор предлагает шкалу достоверности чисел, которая, на мой взгляд, заслуживает того, чтобы войти в инструментарий каждого аналитика. Она проста, и в то же время отлично показывает, насколько по-разному могут звучать цифры — в зависимости от их происхождения и основания.
🟠 🟠 (numbers that we can believe) — числа, которым можно доверять.
Пример: фактический уровень текучести X%, рассчитанный на основе данных кадровых систем.
🟠 🟠 (numbers that are reasonably accurate) — числа, которые достаточно точны.
Пример: оценка удовлетворённости сотрудников на основе опроса с репрезентативностью X%.
🟠 🟠 (numbers that could be out by quite a long way) — числа, которые могут существенно отличаться от реальности.
Пример: оценка эффективности обучения, основанная на самоотчётах участников.
🟠 🟠 (numbers that are unreliable) — ненадёжные числа.
Пример: X% сотрудников не читают корпоративную рассылку — без измерения.
🟠 🟠 (numbers that have just been made up) — просто выдуманные числа.
Пример: сотрудники на удалёнке менее эффективны, чем офисные, на X% — на основе субъективных мнений руководителей.
Эта шкала — напоминание о том, что цифра не равна факту. Даже в аналитике цифры живут на разных уровнях уверенности: от твёрдых данных до риторических украшений и мнений людей.
#книги
Читаю Sex by Numbers Дэвида Шпигельхалтера. Книга напрямую не связана с HR-аналитикой — как понятно из названия. Однако, как вы, наверное, уже заметили, я люблю собирать методы из разных областей и применять их к нашему предмету.
В начале книги автор предлагает шкалу достоверности чисел, которая, на мой взгляд, заслуживает того, чтобы войти в инструментарий каждого аналитика. Она проста, и в то же время отлично показывает, насколько по-разному могут звучать цифры — в зависимости от их происхождения и основания.
Пример: фактический уровень текучести X%, рассчитанный на основе данных кадровых систем.
Пример: оценка удовлетворённости сотрудников на основе опроса с репрезентативностью X%.
Пример: оценка эффективности обучения, основанная на самоотчётах участников.
Пример: X% сотрудников не читают корпоративную рассылку — без измерения.
Пример: сотрудники на удалёнке менее эффективны, чем офисные, на X% — на основе субъективных мнений руководителей.
Эта шкала — напоминание о том, что цифра не равна факту. Даже в аналитике цифры живут на разных уровнях уверенности: от твёрдых данных до риторических украшений и мнений людей.
#книги
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥7❤4❤🔥2
Forwarded from Hello New Job! Найти работу в современных реалиях
This media is not supported in your browser
VIEW IN TELEGRAM
Ты аналитик? Работаешь с данными? Мы запускаем очередное исследование рынка твоей профессии и хотим узнать твоё мнение.
Мы в NEWHR исследуем рынок аналитиков с 2018 года!
Выясняем, как меняется профессия, чего хочет бизнес от аналитиков, чего хотят сами аналитики, сколько стоят аналитики и какими технологиями пользуются.
Вот несколько инсайтов из исследования 2024 года:➖ Зарплаты в 2024 году продолжали расти (и не зря — значимость хорошей зарплаты резко выросла по сравнению с 2023 годом)
Больше половины респондентов признались нам, что деньги для них — на первом месте. В 2023 году так считали всего 25%.➖ Аналитики стали реже менять работодателей
При этом снижение активности по смене работы не повлияло на интерес к собеседованиям — мониторить рынок остаётся стабильной потребностью.➖ Зарубежные компании уже не так привлекательны для аналитиков из России
Это слом тренда 2022−2023 годов. Наши респонденты стали больше ориентироваться на рынок, который ближе к ним: в России — на российский, за рубежом — на зарубежный.➖ 🤍 Авито — самая привлекательная компания-работодатель для аналитиков
На втором месте —❤️ Яндекс, на третьем —✈️ Авиасейлс.
Что поменялось за год? Помоги нам узнать, поучаствовав в новом исследовании!
Опрос займёт около 20 минут. Участники получат ранний доступ к результатам и приглашение на закрытый эфир с инсайтами исследования.
Если ты хочешь «копнуть глубже» — вот результаты наших прошлых исследований: 2019, 2020, 2022, 2023, 2024.
P. S. Пожалуйста, поделись ссылкой на опрос с коллегами-аналитиками! Чем больше участников, тем точнее и интереснее результаты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Ещё раз про стену Будро
Многие, конечно, наслышаны про «стену Будро» — концепцию, впервые появившуюся в книге Investing in People: Financial Impact of Human Resource Initiatives авторов Уэйна Касио и Джона Будро (2010). Признаем: всё ещё актуально.
Любопытно, что в оригинале она выглядела не так, как на картинке, которую я показываю. Этот визуальный вариант — адаптация от AIHR, а в России мы знаем его во многом благодаря популяризации Эдуарда Бабушкина.
Однако интереснее другое. На прошлой неделе я выступал перед HR-стажёрами Яндекса с лекцией по основам HR-аналитики. Фокус моего выступления был на каузальном аспекте современного анализа. И в момент подготовки я понял, что привычное изображение «стены Будро» устарело.
10–15 лет назад считалось, что вершина зрелости аналитики — это предсказания. Сегодня мы живём в эпоху продвинутых ML- и LLM-моделей, которые прогнозируют всё, что угодно — от увольнений до продуктивности. Но вместе с этим пришло понимание, что предсказание ≠ понимание. Поэтому многие уже наигрались с моделями прогнозирования увольнений. Дальше — вопрос «а что теперь?»
Понять, почему что-то происходит, оказалось сложнее и ценнее, чем просто угадать, что произойдёт. Поэтому сегодня настоящая «высшая точка» развития HR-аналитики — не за стеной Будро, а по другую сторону причинности.
Думаю, на знакомом изображении стены Будро по версии AIHR сегодня логичнее разместить причинность после предсказаний — именно там теперь проходит настоящая граница зрелости аналитики.
#causality #размышлизм
Многие, конечно, наслышаны про «стену Будро» — концепцию, впервые появившуюся в книге Investing in People: Financial Impact of Human Resource Initiatives авторов Уэйна Касио и Джона Будро (2010). Признаем: всё ещё актуально.
Любопытно, что в оригинале она выглядела не так, как на картинке, которую я показываю. Этот визуальный вариант — адаптация от AIHR, а в России мы знаем его во многом благодаря популяризации Эдуарда Бабушкина.
Однако интереснее другое. На прошлой неделе я выступал перед HR-стажёрами Яндекса с лекцией по основам HR-аналитики. Фокус моего выступления был на каузальном аспекте современного анализа. И в момент подготовки я понял, что привычное изображение «стены Будро» устарело.
10–15 лет назад считалось, что вершина зрелости аналитики — это предсказания. Сегодня мы живём в эпоху продвинутых ML- и LLM-моделей, которые прогнозируют всё, что угодно — от увольнений до продуктивности. Но вместе с этим пришло понимание, что предсказание ≠ понимание. Поэтому многие уже наигрались с моделями прогнозирования увольнений. Дальше — вопрос «а что теперь?»
Понять, почему что-то происходит, оказалось сложнее и ценнее, чем просто угадать, что произойдёт. Поэтому сегодня настоящая «высшая точка» развития HR-аналитики — не за стеной Будро, а по другую сторону причинности.
Думаю, на знакомом изображении стены Будро по версии AIHR сегодня логичнее разместить причинность после предсказаний — именно там теперь проходит настоящая граница зрелости аналитики.
#causality #размышлизм
👏10❤7👍6🔥6
Какие методы анализа персонала являются самыми передовыми? И что нужно, чтобы стать экспертом в HR-аналитике?
Наконец-то я добрался до выпуска подкаста Directionally Correct, где гостем был Людек Стехлик — человек, которого я считаю одной из важных фигур в нашей области.
Я, как известно, крайне скептичен к визионерам, футурологам и прочим «мыслителям», которые рассказывают, как должно быть устроено будущее HR-аналитики — при этом не умея построить элементарную регрессию.
В отличие от них, такие аналитики, как Людек, — мои ролевые модели.
Глубина, методичность, академичность, реальная практика, и — важный нюанс — способность объяснить сложное простыми словами.
И конечно же, Людек – как и я выходец их психологии, который, ко всему, совмещает академический опыт и работу в бизнесе.
🎓К слову, всех причастных с прошедшим 22 ноября Днём психолога!
Людек даёт очень интересный ответ на тему того, почему ему нравится делиться знаниями с окружающими, — и делает это с характерной психологической точностью, вплетая в рассказ многофакторную природу мотивации (психологи поймут) 😄 Часть его мотивов совпадает с тем, почему я веду этот канал.
Не обошлось и без разговора про причинно-следственный анализ и DAG. Людек справедливо замечает, что в психологии традиционно сильны экспериментальные дизайны, в то время как современная причинно-следственная аналитика гораздо лучше развита в эконометрической среде — с богатым инструментарием, строгими методами и сильной статистической культурой.
И нам в HR-аналитике есть, что оттуда заимствовать.
Поделился интересными примерами оценки эффекта (impact evaluation). Например, рассказал про кейс с платформой kudos/bravo и ощущением признания: они анализировали, влияет ли использование платформы на восприятие признания и справедливого вознаграждения.
Интересно, что смотрели не только на сам факт отправки благодарностей, но и на характеристики сообщений — какие из них дают наибольший эффект. Использовали регрессионный контроль, чтобы аккуратно отделить влияние платформы от других факторов.
И много других интересных вещей, поэтому очень рекомендую выпуск всем, кому HR-аналитика интересна всерьёз. А для лёгкого развлечения — там есть отличный момент про то, что американцы и правда плохо знают географию. Кто послушает — поймёт. 🙈😂
#разбор_видео
Наконец-то я добрался до выпуска подкаста Directionally Correct, где гостем был Людек Стехлик — человек, которого я считаю одной из важных фигур в нашей области.
Я, как известно, крайне скептичен к визионерам, футурологам и прочим «мыслителям», которые рассказывают, как должно быть устроено будущее HR-аналитики — при этом не умея построить элементарную регрессию.
В отличие от них, такие аналитики, как Людек, — мои ролевые модели.
Глубина, методичность, академичность, реальная практика, и — важный нюанс — способность объяснить сложное простыми словами.
И конечно же, Людек – как и я выходец их психологии, который, ко всему, совмещает академический опыт и работу в бизнесе.
🎓К слову, всех причастных с прошедшим 22 ноября Днём психолога!
Людек даёт очень интересный ответ на тему того, почему ему нравится делиться знаниями с окружающими, — и делает это с характерной психологической точностью, вплетая в рассказ многофакторную природу мотивации (психологи поймут) 😄 Часть его мотивов совпадает с тем, почему я веду этот канал.
Не обошлось и без разговора про причинно-следственный анализ и DAG. Людек справедливо замечает, что в психологии традиционно сильны экспериментальные дизайны, в то время как современная причинно-следственная аналитика гораздо лучше развита в эконометрической среде — с богатым инструментарием, строгими методами и сильной статистической культурой.
И нам в HR-аналитике есть, что оттуда заимствовать.
Поделился интересными примерами оценки эффекта (impact evaluation). Например, рассказал про кейс с платформой kudos/bravo и ощущением признания: они анализировали, влияет ли использование платформы на восприятие признания и справедливого вознаграждения.
Интересно, что смотрели не только на сам факт отправки благодарностей, но и на характеристики сообщений — какие из них дают наибольший эффект. Использовали регрессионный контроль, чтобы аккуратно отделить влияние платформы от других факторов.
И много других интересных вещей, поэтому очень рекомендую выпуск всем, кому HR-аналитика интересна всерьёз. А для лёгкого развлечения — там есть отличный момент про то, что американцы и правда плохо знают географию. Кто послушает — поймёт. 🙈😂
#разбор_видео
Substack
#146 - Ludek Stehlik - What are the most sophisticated methods in people analytics? And what does it take to be a people analytics…
Directionally Correct, The #1 People Analytics Substack
❤13👍2🔥2❤🔥1🤔1
Итоги 2025
Я редко делюсь здесь чем-то личным и рабочим, но сейчас момент подходящий.
2025 год для меня стал годом расширения горизонтов. Он начинался с ответственности за HR-аналитику Яндекс.Маркета, летом к этому добавилась Лавка, а ближе к концу года — аналитика по массовому персоналу всего Яндекса.😊
Для меня это новый масштаб задач: вдохновляющий, сложный и требующий большой отдачи и времени. Многое ещё только предстоит осмыслить и выстроить, поэтому в этом году меня было заметно меньше на канале.
Однако своим главным достижением я считаю статью о конфаундинге на Хабре. Если вы ещё не читали — новогодние каникулы подходят для этого идеально. Для меня это будет лучшим подарком на Новый год.😄
В январе 2026 каналу исполнится четыре года. И наступающий год будет первым, в который я захожу без чёткого плана его развития. Но мы остаёмся на связи: мир HR-аналитики по-прежнему захватывающий и увлекательный, и я буду делиться тем, что действительно зацепило, удивило или заставило задуматься.
Хочу сказать спасибо всем, кто прошёл этот непростой и насыщенный событиями год вместе со мной.
Моим близким и родным — за поддержку в сложные моменты, которых в этот раз было действительно много.
Моим руководителям, коллегам и команде — за вовлечённость, доверие и энтузиазм, которые делают работу не просто задачей, а делом, имеющим смысл.
Подписчикам канала — за интерес, внимание и диалог.
Всех с наступающим 2026 годом🎄
Я редко делюсь здесь чем-то личным и рабочим, но сейчас момент подходящий.
2025 год для меня стал годом расширения горизонтов. Он начинался с ответственности за HR-аналитику Яндекс.Маркета, летом к этому добавилась Лавка, а ближе к концу года — аналитика по массовому персоналу всего Яндекса.
Для меня это новый масштаб задач: вдохновляющий, сложный и требующий большой отдачи и времени. Многое ещё только предстоит осмыслить и выстроить, поэтому в этом году меня было заметно меньше на канале.
Однако своим главным достижением я считаю статью о конфаундинге на Хабре. Если вы ещё не читали — новогодние каникулы подходят для этого идеально. Для меня это будет лучшим подарком на Новый год.
В январе 2026 каналу исполнится четыре года. И наступающий год будет первым, в который я захожу без чёткого плана его развития. Но мы остаёмся на связи: мир HR-аналитики по-прежнему захватывающий и увлекательный, и я буду делиться тем, что действительно зацепило, удивило или заставило задуматься.
Хочу сказать спасибо всем, кто прошёл этот непростой и насыщенный событиями год вместе со мной.
Моим близким и родным — за поддержку в сложные моменты, которых в этот раз было действительно много.
Моим руководителям, коллегам и команде — за вовлечённость, доверие и энтузиазм, которые делают работу не просто задачей, а делом, имеющим смысл.
Подписчикам канала — за интерес, внимание и диалог.
Всех с наступающим 2026 годом
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43❤🔥16👍12
Statistical Rethinking 2026
Год начался примечательно: после двухлетнего перерыва Ричард МакЭлрит вновь выкладывает свои лекции — теперь в рамках нового курса Statistical Rethinking 2026. В этот раз курс разбит на две секции: начальную (A) и для опытных (B).
Лекции выходят попеременно по секциям, и на текущий момент уже опубликовано по одной лекции в каждой. Формат записи изменился: лекции теперь записываются в аудитории, с включёнными вопросами студентов и без студийной пост-обработки.
Для меня вход в causal inference несколько лет назад начался именно с работ МакЭлрита. Я приходил за байесовской статистикой, а в итоге получил куда более глубокий сдвиг — переосмысление аналитического фреймворка. Моя статья о конфаундинге — по сути, прямое переложение и развитие его идей в прикладном HR-контексте. Поэтому я не перестаю рекомендовать Statistical Rethinking всем, кто интересуется причинно-следственным анализом.
Лично мне сейчас особенно любопытно посмотреть, как изменились лекции за эти два года.
И, как известно, repetitio est mater studiorum.
P.S. Из личных ожиданий на этот год: готовится третье издание книги Statistical Rethinking, а также второе издание Handbook of Regression Modeling in People Analytics от Кита МакНалти — в нём, как заявлено, появится отдельный блок про causal inference!
#causality #байес
Год начался примечательно: после двухлетнего перерыва Ричард МакЭлрит вновь выкладывает свои лекции — теперь в рамках нового курса Statistical Rethinking 2026. В этот раз курс разбит на две секции: начальную (A) и для опытных (B).
Лекции выходят попеременно по секциям, и на текущий момент уже опубликовано по одной лекции в каждой. Формат записи изменился: лекции теперь записываются в аудитории, с включёнными вопросами студентов и без студийной пост-обработки.
Для меня вход в causal inference несколько лет назад начался именно с работ МакЭлрита. Я приходил за байесовской статистикой, а в итоге получил куда более глубокий сдвиг — переосмысление аналитического фреймворка. Моя статья о конфаундинге — по сути, прямое переложение и развитие его идей в прикладном HR-контексте. Поэтому я не перестаю рекомендовать Statistical Rethinking всем, кто интересуется причинно-следственным анализом.
Лично мне сейчас особенно любопытно посмотреть, как изменились лекции за эти два года.
И, как известно, repetitio est mater studiorum.
P.S. Из личных ожиданий на этот год: готовится третье издание книги Statistical Rethinking, а также второе издание Handbook of Regression Modeling in People Analytics от Кита МакНалти — в нём, как заявлено, появится отдельный блок про causal inference!
#causality #байес
YouTube
Statistical Rethinking 2026 - Lecture A01 - Introduction to Bayesian Workflow
See https://github.com/rmcelreath/stat_rethinking_2026 for course description and additional materials
🔥9❤8🎉5👏2😁2👍1🤔1
Forwarded from People Analytics
Кит МакНалти анонсировал второе издание Handbook of Regression Modeling in People Analytics ("Руководство по регрессионному моделированию в People Analytics"). Первое издание рекомендовал ранее, во втором издании добавлено 5 новых глав, содержит множество улучшений и доработок. Печатная версия второго издания выйдет позже в этом году. А пока можно смело читать онлайн-версию.
#analytics #datascience #statistics #peopleanalytics #R
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥7❤3👍2🤔2
Forwarded from людмила
В 2025 году мы в NEWHR завершили сбор данных для нашего ежегодного исследования рынка аналитиков. Такие исследования позволяют в динамике наблюдать за тем, как меняется профессия, задачи, зарплаты аналитиков, их амбиции, желанные и нежеланные компании для работы и многое другое.
Сейчас мы обрабатываем результаты, и уже готовы поделиться с вами первыми инсайтами. А именно — рейтингом экспертов отрасли и каналами, которые читают и смотрят наши респонденты-аналитики. Выборка респондентов в этом году — 1493 человека!
Что вы найдёте на лендинге:
Они разделены специализациям: отдельно для продуктовых, маркетинговых, дата-, веб- и BI-аналитиков и отдельно для системных и бизнес-аналитиков — потому что предпочтения отличаются.
Telegram-каналы для удобства разделены по темам: аналитика, обучение и карьера, BI/UX/Data Viz, Data Engineering и разработка, ML/DS, Product Managment, продуктовая и HR аналитика.
Отдельно мы выделили блок экспертов, которых читаем сами — именно к ним мы обратились за информационной поддержкой. Благодарим всех, кто помог собрать такую выборку💙
Полные результаты исследования мы опубликуем весной, следите за обновлениями!
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4❤2
Заимствовал с канала Душно про дату. Разделяю содержание поста
Telegram
душно про дату
Матстат и около него. В интернете кто-то не прав.
❤2
Forwarded from Антон Воскресенский. AI консалтинг (Anton Voskresenskii)
# Прогнозная модель vs Причинная модель
Работаю с прогнозированием каждый день и регулярно вижу одну и ту же проблему: бизнес просит инструмент для принятия решений, а команда в ответ обучает прогнозную модель. Кажется логичным, но проблема в том, что это разные задачи. Делюсь своим подходом как я ставлю в inDrive экспертизу по casual forecasting
Прогнозная модель отвечает на вопрос «Сколько заказов будет в городе, если тренд сохранится?». Бизнес спрашивает другое: «Что произойдет с поездками, если мы снизим комиссию для водителей на 10%?». Первое — forecasting. Второе — causal inference
## Почему нельзя «просто подставить новую комиссию в модель»
Почему не работает «просто подставить новую комиссию в модель»? Прогнозная модель минимизирует ошибку между историей и предсказанием. Она эксплицитно учится воспроизводить паттерны, а не изолировать влияние объясняющей переменной на целевую. Когда вы меняете комиссию на входе, удерживая остальные признаки, то вы предполагаете, что модель корректно разделила эффекты комиссии, сезонности, промо и конкурентов. Это не так
Классическое ML отлично отвечает на вопрос: «что будет?». Но бизнес почти всегда спрашивает другое: «что сделать, чтобы стало лучше?». И вот тут предиктивные модели упираются в потолок потому что прогноз это про мир «как он есть» а решение — это вмешательство: мы меняем цену, бюджет и пр.
## Проблема эндогенности
Есть и более фундаментальная проблема: эндогенность. Прогнозная модель не отличает «мы снизили комиссию» от «комиссия снизилась потому что на рынок пришел конкурент и демпингует». А для what-if сценариев это критично потому что бизнесу важен причинный эффект, а не корреляция
## Типовой пример
В городе одновременно растут заказы и падает комиссия. Прогнозная модель видит корреляцию и «запоминает»: низкая комиссия = много заказов. Но на самом деле заказы выросли из-за маркетинговой кампании, а комиссию снизили в ответ на вход конкурента. Если вы используете эту модель для решения «давайте снизим комиссию и получим рост заказов» — вы получите неверный ответ
## Что бизнес на самом деле хочет
Бизнес не хочет дашборд с прогнозами. Точнее сказать сначала он хочет дашборд с прогнозами и хорошие метрики на ретроспектиных данных, но по мере развития проекта он начинает хотеть хочет инструмент управления. «Куда направить маркетинговый бюджет?», «Какой канал реально приносит конверсии?»
Это не задачи прогнозирования. Это про causal inference, оценку причинного эффекта и выбор действий
## Как выглядит причинная модель на практике
На практике это выглядит так: модель строится специально под задачу. Например, комиссия -> количество заказов с контролем confounders. Каузальная модель медленнее в разработке, требует экспертизы в дизайне исследования и не дает красивых метрик на тесте. Но именно она отвечает на вопрос, который бизнес на самом деле задает
## Как их использовать вместе
Прогнозная модель хороша для планирования, причинная — для управления. У меня воркфлоу такой: forecasting для операционных задач (планирование), causal inference для стратегических решений (ценообразование, распределение бюджетов и пр.). Для простых задач планирования хватает прогноза. Для решений, где мы что-то меняем, всегда нужна причинная модель
Прогнозы полезны для планирования, но если цель управленческие решения, то бизнесу нужен не прогнозная, а причинная модель
Работаю с прогнозированием каждый день и регулярно вижу одну и ту же проблему: бизнес просит инструмент для принятия решений, а команда в ответ обучает прогнозную модель. Кажется логичным, но проблема в том, что это разные задачи. Делюсь своим подходом как я ставлю в inDrive экспертизу по casual forecasting
Прогнозная модель отвечает на вопрос «Сколько заказов будет в городе, если тренд сохранится?». Бизнес спрашивает другое: «Что произойдет с поездками, если мы снизим комиссию для водителей на 10%?». Первое — forecasting. Второе — causal inference
## Почему нельзя «просто подставить новую комиссию в модель»
Почему не работает «просто подставить новую комиссию в модель»? Прогнозная модель минимизирует ошибку между историей и предсказанием. Она эксплицитно учится воспроизводить паттерны, а не изолировать влияние объясняющей переменной на целевую. Когда вы меняете комиссию на входе, удерживая остальные признаки, то вы предполагаете, что модель корректно разделила эффекты комиссии, сезонности, промо и конкурентов. Это не так
Классическое ML отлично отвечает на вопрос: «что будет?». Но бизнес почти всегда спрашивает другое: «что сделать, чтобы стало лучше?». И вот тут предиктивные модели упираются в потолок потому что прогноз это про мир «как он есть» а решение — это вмешательство: мы меняем цену, бюджет и пр.
## Проблема эндогенности
Есть и более фундаментальная проблема: эндогенность. Прогнозная модель не отличает «мы снизили комиссию» от «комиссия снизилась потому что на рынок пришел конкурент и демпингует». А для what-if сценариев это критично потому что бизнесу важен причинный эффект, а не корреляция
## Типовой пример
В городе одновременно растут заказы и падает комиссия. Прогнозная модель видит корреляцию и «запоминает»: низкая комиссия = много заказов. Но на самом деле заказы выросли из-за маркетинговой кампании, а комиссию снизили в ответ на вход конкурента. Если вы используете эту модель для решения «давайте снизим комиссию и получим рост заказов» — вы получите неверный ответ
## Что бизнес на самом деле хочет
Бизнес не хочет дашборд с прогнозами. Точнее сказать сначала он хочет дашборд с прогнозами и хорошие метрики на ретроспектиных данных, но по мере развития проекта он начинает хотеть хочет инструмент управления. «Куда направить маркетинговый бюджет?», «Какой канал реально приносит конверсии?»
Это не задачи прогнозирования. Это про causal inference, оценку причинного эффекта и выбор действий
## Как выглядит причинная модель на практике
На практике это выглядит так: модель строится специально под задачу. Например, комиссия -> количество заказов с контролем confounders. Каузальная модель медленнее в разработке, требует экспертизы в дизайне исследования и не дает красивых метрик на тесте. Но именно она отвечает на вопрос, который бизнес на самом деле задает
## Как их использовать вместе
Прогнозная модель хороша для планирования, причинная — для управления. У меня воркфлоу такой: forecasting для операционных задач (планирование), causal inference для стратегических решений (ценообразование, распределение бюджетов и пр.). Для простых задач планирования хватает прогноза. Для решений, где мы что-то меняем, всегда нужна причинная модель
Прогнозы полезны для планирования, но если цель управленческие решения, то бизнесу нужен не прогнозная, а причинная модель
👍7🔥5❤4😱1
Влияние ИИ на рынок труда: новый метод измерения и первые данные
Немножко хайповых тем для канала.
Anthropic — те самые создатели Claude — выпустили исследование про влияние ИИ на рынок труда и предложили методологию, которая должна позволить отслеживать этот эффект в динамике.
Ключевые выводы исследования:
🟣 Авторы ввели новый показатель риска вытеснения работников искусственным интеллектом — наблюдаемое воздействие/степень подверженности (observed exposure). Он объединяет теоретические возможности LLM и данные о реальном использовании, при этом больший вес придается автоматизации (а не аугментации) и применению в рабочих задачах.
🟣 ИИ пока далёк от достижения своего теоретического потенциала: фактический охват задач составляет лишь небольшую долю от того, что в принципе возможно.
🟣 Профессии с более высоким уровнем наблюдаемой экспозиции, согласно прогнозам Бюро трудовой статистики США, будут расти медленнее до 2034 года.
🟣 Работники в наиболее подверженных воздействию профессиях с большей вероятностью старше, чаще женщины, более образованы и имеют более высокий доход.
🟣 Авторы не обнаружили систематического роста безработицы среди работников из наиболее подверженных профессий с конца 2022 года, однако есть некоторые признаки того, что найм молодых работников в этих профессиях замедлился.
Статья в целом интересная и полезная как методологическая рамка для будущих исследований.
Но остаются вопросы.
Во-первых, неизбежно возникает вопрос ангажированности: исследование делает компания, которая сама разрабатывает LLM.
Во-вторых, авторы отдельно обсуждают контрфакты, но, честно говоря, я так и не понял, что именно имеется в виду.
Никакого явного контрфактического сценария в работе нет — есть лишь сравнение профессий с высокой и низкой подверженностью ИИ.
Оставлю на канале оригинальную статью для тех, кому хочется больше деталей.
#LLM
Немножко хайповых тем для канала.
Anthropic — те самые создатели Claude — выпустили исследование про влияние ИИ на рынок труда и предложили методологию, которая должна позволить отслеживать этот эффект в динамике.
Ключевые выводы исследования:
Статья в целом интересная и полезная как методологическая рамка для будущих исследований.
Но остаются вопросы.
Во-первых, неизбежно возникает вопрос ангажированности: исследование делает компания, которая сама разрабатывает LLM.
Во-вторых, авторы отдельно обсуждают контрфакты, но, честно говоря, я так и не понял, что именно имеется в виду.
Никакого явного контрфактического сценария в работе нет — есть лишь сравнение профессий с высокой и низкой подверженностью ИИ.
Оставлю на канале оригинальную статью для тех, кому хочется больше деталей.
#LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍6❤3
Я прочитал второе издание Handbook of Regression Modeling in People Analytics
Мой интерес к этой книге был вызван прежде всего новыми главами, посвящёнными байесовской статистике и causal inference. Эти две темы — наряду с вопросами эпистемологии — являются тем, чему я как аналитик уделяю наибольшее внимание в последние несколько лет.
Для своего канала я уже писал ряд статей, где рассматривал байесовскую статистику и causal inference в контексте HR-аналитики. Однако книга Кита МакНалти — пожалуй, первый пример, когда значимая фигура в мире HR-аналитики официально вводит эти современные методы в наше ремесло.
И это меня очень радует! Заодно убеждаюсь, что выбранный мной фокус внимания был верным.
Несколько дней назад также появился записанный мастер-класс Кита
Он посвящён применению байесовской статистики для анализа малых выборок — по сути, это наглядная демонстрация идей из книги. К сожалению, качество записи довольно плохое.
Но мне очень понравился один его небольшой квиз. Я взял из него два варианта ответов и немного переформулировал их — получилось очень ёмкое объяснение различия между классической и байесовской статистикой.
#книги
Мой интерес к этой книге был вызван прежде всего новыми главами, посвящёнными байесовской статистике и causal inference. Эти две темы — наряду с вопросами эпистемологии — являются тем, чему я как аналитик уделяю наибольшее внимание в последние несколько лет.
Для своего канала я уже писал ряд статей, где рассматривал байесовскую статистику и causal inference в контексте HR-аналитики. Однако книга Кита МакНалти — пожалуй, первый пример, когда значимая фигура в мире HR-аналитики официально вводит эти современные методы в наше ремесло.
И это меня очень радует! Заодно убеждаюсь, что выбранный мной фокус внимания был верным.
Несколько дней назад также появился записанный мастер-класс Кита
Он посвящён применению байесовской статистики для анализа малых выборок — по сути, это наглядная демонстрация идей из книги. К сожалению, качество записи довольно плохое.
Но мне очень понравился один его небольшой квиз. Я взял из него два варианта ответов и немного переформулировал их — получилось очень ёмкое объяснение различия между классической и байесовской статистикой.
#книги
❤8🔥4