доказательный ⎵ пробел
1.27K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Всем хорошего воскресения. Just for fun: Брайн Мур оценил волатильность 50-цента.
😁14👍3😢1
В апреле этого года вышла статья Центра микросимуляции и анализа политики (CeMPA), посвященная обновленной библиотеке SimPaths - это open-source микросимуляционный фреймворк жизненного пути (life course) для индивидуумов и домохозяйств: карьера, семья, здоровье, финансы. Что можно делать с помощью библиотеки:

- моделировать жизненные траектории индивидов и домохозяйств (работа, семья, здоровье, финансы);
- анализировать влияние налогово-бюджетной и социальной политики;
- оценивать вероятности перехода между состояниями (например, из безработицы в занятость).

Модель позволяет оценить долгосрочные последствия политики, даже если эффект проявится через десятилетия. Например, повышение пособий семьям с детьми можно смоделировать как снижение вероятности бедности через 20 лет или рост образования у детей.

Варианты исследовательских вопросов:
– Как бедность в детстве влияет на уровень дохода или образования во взрослом возрасте?
– Как материнский отпуск или ранняя занятость женщин отражаются на пенсионных правах и здоровье?
– Как потери работы влияют на карьерные траектории, вероятность повторной занятости и доход в долгосрочной перспективе?
– Как изменения в налогах или субсидиях влияют на решения о рождении детей, переезде, образовании?


Библиотека адаптирована для Великобритании и Италии (развиваются модели для Венгрии, Польши, Греции) и на вход требует лонгитюдные (панельные) данные. Потенциально модель может быть адаптирована и под отечественные данные (российский РЛМС-ВШЭ) с корректировкой модели под институциональную и социальную структуру России. Код на Java.

@evidencespace
👍6🔥21
🔎 Я хочу найти эффект, а где его искать?

Вместе с Никитой Бурловым решили пробить стену междисциплинарности и сделать совместный пост-коллаборацию с каналом Ebm_base – сегодня говорим о том, какие разные бывают эффекты, а в канале Никиты читайте о том, как их правильно оценивать 🔥

Если бы нас попросили пересказать причинный вывод в одном предложении, то мы бы сказали, что это такая подобласть статистики, которая пытается разными способами реконструировать альтернативные судьбы наших наблюдений – значит ли это, что мы изобрели машину времени?


Когда мы оцениваем эффект, мы хотим понять, как изменился показатель в ответ на воздействие. Это может быть изменение состояние здоровья пациента после приёма лекарства, эффект образовательной программы на успеваемость и т.д.

Проблема в том, что если мы уже провели реформу или выдали лекарство, то мы не знаем, что было бы, если бы мы не предприняли это действие – это называется «фундаментальной проблемой причинного вывода» (Holland, 1985)

В идеале нам надо бы путешествовать между альтернативными вселенными и записывать значение зависимой переменной, чтобы посчитать эффект. Эти альтернативные вселенные называются потенциальными исходами – это варианты судеб (гипотетические ненаблюдаемые величины) наших испытуемых в зависимости от того в какой мир мы их решим отправить – в контрольную группу или группу воздействия

Esti... что?
Исследователи пытаются реконструировать то, что в мир заложила природа. Но все начинается с постановки исследовательского вопроса, например: «увеличила ли реформа качество образования?» (Barrett et al., 2025; Watson et al., 2025)
🟤Далее мы формулируем целевой эстиманд (estimand) – статистическое выражение нашего вопроса. В примере это разница между качеством образования после реформы и гипотетическим качеством без неё. Эстиманд задаётся через потенциальные исходы
🟤Затем выбираем оценщик (estimator) – алгоритм, который использует данные, чтобы оценить значение эстиманда
🟤Наконец, рассчитываем оценку (estimate) – конкретное числовое значение, полученное применением оценщика к данным

А что за эффект мы считаем?
Причинный вывод занимается реконструкцией потенциальных исходов для оценки эффекта (обычно среднего). Но что значит среднего? Среднего участника нашего эксперимента? Среднего не-участника эксперимента? Среднего гражданина нашей страны? Даже не зная статистики, кажется, что ответы на эти вопросы будут разные (Nguyen, 2020):
🟤ATE (Average Treatment Effect) – средний эффект для всей популяции, если бы под воздействие попали бы все. Это самый общий estimand, отвечающий на вопрос о политике для всех
🟤ATT (Average Treatment effect on the Treated) – эффект именно для тех, кто фактически попал под воздействие. Важен для оценки влияния уже проведённого вмешательства
🟤ATnT или ATC (Average Treatment effect on the Non-Treated/Controls) – гипотетический эффект, если бы воздействие распространилось на тех, кто под него изначально не попал. Полезен для оценки целесообразности расширения программы

Эти параметры могут сильно отличаться, особенно при наличии гетерогенности эффектов или самоотборе в воздействие. Например, в добровольных программах ATT часто отличается от ATE, если мотивированные участники склонны участвовать в эксперименте (Heiss, 2024)

А что тогда показывают разные методы?
🟤DiD и Synthetic Control оценивают ATT – сравнивают изменения в тритмент группе с изменениями в контрольной, чтобы выявить эффект именно на тех, кто попал под воздействие (Zeldow et al., 2019)
🟤RDD и IV оценивают LATE – локальный эффект воздействия для подгруппы субъектов, чьё поведение изменилось из‑за инструмента (Cattaneo et al., 2019)
🟤Causal Machine Learning направлено на оценку CATE, позволяя изучать гетерогенные эффекты воздействия на разных подгруппах (Chernozhukov et al., 2024)
🟤Matching – в зависимости от задачи может оценивать ATE, ATT или ATnT (Barrett et al., 2025 – мем взяли тут)

Круг замкнулся: мы ищем эффект, но чтобы его найти, нужно заранее понять, какой именно эффект мы ищем. И, может быть, именно это и есть главный секрет

@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍5🔥5
🗺 По грани ходишь! Новая работа по пространственной разрывной регрессии

Boundary Discontinuity Designs (BВD) – это обобщение классической разрывной регресии (RDD), где правило назначения воздействия базируется на нескольких переменных, а порогом выступает сложная граница — кривая или линия в многомерном пространстве. Вместо разрыва в одной точке мы рассматриваем разрыв вдоль всего контура – это актуально, например, для географических границ или сложных критериев отбора


В чём ключевая проблема?
Стандартная разрывная регрессия ориентирована на одномерный порог, и это нельзя просто перенести на сложные многомерные случаи. Граница имеет сложную форму, и необходимо учитывать геометрию и локальные особенности, иначе оценки будут искажены

Летом мы рассказывали вам о работе, где Маттиас Каттанео, Росио Титиуник и Руйци Ю показали, что оценка на основе одномерного расстояния является смещенной (Cattaneo, Titiunik, Yu, 2025a)

Свежая ноябрьская работа (Cattaneo, Titiunik, Yu, 2025b) от тех же авторов стала хорошим обобщением и практическим подспорьем в идентификации эффектов при подобном дизайне. Авторы в целом славятся отличными практическими гайдами и софтом – и эта работа не исключение

Что есть в работе?
🟤Введение в BDD дизайн – объяснение, что такое многомерная разрывная регрессия с границей в виде кривой, и почему это расширение классического RDD важно
🟤Обзор эмпирической практики – анализ более 80 исследований, которые применяли BDD дизайн, с разбором типичных стратегий оценки эффектов
🟤Методология оценки и идентификация – подробное описание современных локальных полиномиальных методов для получения оценок эффектов вдоль границы, включая выбор оптимальной ширины окна (bandwidth)
🟤Анализ гетерогенности – подходы к обнаружению и учёту вариаций эффекта воздействия по разным точкам границы
🟤Агрегация эффектов – методы получения средних (Weighted Boundary Average Treatment Effect, WBATE) и максимальных (Largest Boundary Average Treatment Effect, LBATE) эффектов по всей границе
🟤Практические рекомендации – советы по спецификациям моделей, включению взаимодействий (interactions) и работе с ковариатами
🟤Программные инструменты – ссылки на R-пакеты для реализации методов
🟤Расширения и будущие направления – обсуждение fuzzy BDD-дизайнов и включение ковариат в анализ

А как считать?
Основные R-пакеты для Boundary Discontinuity Designs:
🟤rdrobust – классический пакет для RDD, поддерживает методы выбора оптимальной ширины окна и построения доверительных интервалов
🟤rdhte – специализирован для анализа гетерогенных эффектов в RDD, помогает выявлять вариации эффекта вдоль границ
🟤rdmulti и rd2d – пакеты, ориентированные на BDD-дизайны с двумя переменными, реализуют локальные полиномы с учетом положения наблюдений, обеспечивают современные методы оценки, поддерживают сложные границы

#канал_обозревает
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥5
Первый хакатон по социальным данным от «Если быть точным»! Наш партнер — Европейский университет

13–15 февраля в Европейском университете в Санкт-Петербурге пройдет хакатон. Участники будут решать реальные кейсы, связанные с важными социальными вызовами: инвалидностью, онкологией, бездомностью и не только.

Заявки на участие принимаются с 1 декабря по 22 января. Мы ждем студентов и недавних выпускников, обладающих базовыми навыками анализа данных и готовых три дня погрузиться в интенсивную командную работу.

Вся информация о хакатоне находится здесь, а зарегистрироваться можно по этой ссылке.
12
Forwarded from ПОРА считать
Латентный классовый анализ

Аналитик Центра доказательной политики, один из авторов нашего канала Олег Адамович поделился своим опытом поиска скрытых классов при проведении аналитических исследований Крайнего Севера. Слово нашему коллеге.

...Когда мы спрашиваем у людей "Хотите ли вы уехать?", за простым "да" или "нет" часто скрывается сложная картина. И средние статистические показатели эту картину раскрыть не могут.

Для решения этой задачи — "разложить аудиторию по полочкам" — и был создан латентный классовый анализ (LCA). Это метод, который находит скрытые, но устойчивые группы респондентов с похожими паттернами ответов.

Где используют LCA?

Метод отлично зарекомендовал себя в самых разных областях, в том числе таких как:

💉 Медицина и здравоохранение. LCA выявляет подтипы течения болезни на основе набора симптомов. Например, выделяют разные типы депрессии или астмы, что позволяет назначать более персонализированное лечение.

👨‍⚕️ Психология. Исследователи идентифицируют профили психологического благополучия или устойчивости к стрессу, объединяя данные о сне, настроении и социальной активности.

💳 Потребительское поведение. Маркетологи сегментируют аудиторию не по возрасту и доходу, а по стилю потребления: "экономные семьи", "импульсивные шопперы", "клиенты, лояльные бренду".

👩‍🏫 Образование. LCA помогает обнаружить группы учеников со схожими паттернами успеваемости по разным предметам, чтобы разработать для них адресные учебные программы.

Команда Центра доказательной политики применила LCA, чтобы понять, кто и почему хочет уехать из арктических регионов. Проанализировав ответы более 10 тысяч северян, мы выделили три четких латентных класса:

➡️ "Мобильные" (74,8% хотят уехать). Это почти 3400 человек, внутренне готовых к переезду.

➡️ "Оседлые" (95,3% хотят остаться). Около 1400 респондентов, которые довольны жизнью на Севере.

➡️ "Неопределившиеся" (50/50). Самая интересная группа — примерно 2000 человек, чьи мнения разделились поровну. Их окончательный выбор может зависеть от изменений в инфраструктуре или экономике.

Такой анализ помогает двигаться от усредненных цифр к реальным человеческим портретам, а значит — и точечным мерам поддержки.

Подробный разбор метода и всех этапов исследования — в нашем материале на Хабре.

@poradata
👍8🔥2👨‍💻2
#методы #сausal #inference #учебники #публикации

⚠️ В новом выпуске журнала  «Социология: методология, методы, математическое моделирование» (Социология: 4М) опубликована статья ведущего научного сотрудника ЦенСИБ Бориса Соколова "Целевые каузальные эффекты в социальных исследованиях".

Эта работа посвящена моднейшей нынче теме статистического причинно-следственного вывода 😎 Точнее, одному из наиболее недооцененных, по мнению автора, её аспектов, а именно определению целевого эффекта (англ. estimand). 

Если вы интересуетесь количественными методами, то наверняка слышали такие названия, как мэтчинг,  взвешивание по вероятности, инструментальные переменные, разность разностей или разрывный дизайн.

Но какие именно величины оцениваются с помощью этих методов? 🧐 И что эти величины означают содержательно? Как их можно объяснить читателям вашей статьи или заказчикам прикладного исследования - особенно в том случае, когда на основании полученных оценок будут приниматься практические решения с потенциально далеко идущими последствиями? Новая статья как раз и пытается ответить на указанные вопросы.

В частности, в ней предлагается обзор основных эстимандов, используемых в современных научных и прикладных исследованиях для операционализации каузальных запросов в терминах модели Рубина. Сначала рассматриваются наиболее популярные средние эффекты воздействия (АTE, АTT, АTC). Затем описываются их расширения, в том числе разнообразные локальные и условные эффекты воздействия; целевые величины, квантифицирующие каузальные взаимодействия и каузальную медиацию; эффекты воздействия многозначных и интервальных переменных; а также динамические причинно-следственные связи. Для каждого из этих эстимандов даëтся содержательное объяснение и приводятся примеры практических вопросов, на которые они позволяют ответить. Также обсуждаются допущения, необходимые для непараметрической идентификации ряда эффектов, и возможные методы их оценки.  


👉 Соколов, Б. О. (2025). Целевые каузальные эффекты в социальных исследованиях. Социология: методология, методы, математическое моделирование (Социология:4М), (61), 7-76. https://doi.org/10.19181/4m.2025.34.2.1
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉11👍6
Forwarded from HSE R Meet Up
🎯 Мэтчинг и обратное взвешивание по вероятности: немного теории и примеры в языке программирования R

Что такое мэтчинг и обратное взвешивание по вероятности? Из чего эти методы статистического причинно-следственного вывода состоят, с чем их едят и зачем они вообще нужны аналитикам данных?
Первая половина митапа будет посвящена теории, вторая - разбору практических примеров в R.

❗️В практической части мы будем использовать библиотеки {MatchIt} и {WeightIt}.

Когда? 26 декабря
Время: 18:00 по Мск
Место: Санкт-Петербург, наб. кан. Грибоедова, 123, ауд. 201 и онлайн
Спикер: Борис Соколов (ЦенСИБ НИУ ВШЭ)


Для понимания происходящего участникам желательно:

(а) нормально разбираться в азах статистики (безусловная и условная вероятность; статистическая проверка гипотез; обобщённое регрессионное моделирование; плюсом будет знание каузальной модели Рубина и направленных ациклических графов - НАГов);

(б) иметь опыт прикладного анализа данных, особенно с прицелом на каузальные вопросы;

(в) уметь работать в R (подключение библиотек; загрузка данных; построение обобщенных регрессионных моделей с помощью lm-подобного синтаксиса; понимание логики конвейеров; плюсом будет уверенное владение инструментами пакета {ggplot2} и его расширений)

❗️Зарегистрироваться

👀 В следующих постах мы подробнее расскажем о материалах, которые помогут подготовиться к встрече с мэтчингом и взвешиванием
7👍4🔥4
Чиновники обычно ругают Счетную палату, но сегодня у меня добрый пост

Чаще всего, изнутри органов власти Счетная палата воспринимается как надоедливый надзорщик, который закидывает тебя запросами, придирается к каждому термину из постановлений и законов. В последнее время мне не приходится отвечать на подобные запросы, но приходится разбираться в множестве разных сторон работы правительства. В этой части материалы Счетной палаты — кладезь полезной информации. Когда мне нужно в чем-то разобраться, я в первую очередь ищу отчеты и бюллетени. Любой вопрос, являющийся предметом контрольного мероприятия, разбирается по полочкам: кто отвечает, кто какие документы во исполнение чего принял, как и когда менял, как финансировал и так далее. В общем, советую.

Но сегодня я хотел написать даже не об этом. Помимо прочего, Счетная палата независимо и прозрачно оценивает эффективность реализации разных госполитик и открыто пишет о проблемах. Не всегда справедливо и аргументированно, но хорошие попытки есть. Сегодня я просмотрел свежий бюллетень о «новых инвестиционных проектах». На мой взгляд, по структуре это практически эталонный пример policy evaluation paper. В нем есть:
🔵описание механизма работы
🔵исследование осведомленности и использования мер
🔵оценка эффектов (DiD!!!)
🔵анализ кейсов применения
🔵поиск уязвимостей
🔵международный опыт и рекомендации
🔵рекомендации по изменениям

Больше всего меня, конечно, удивил количественный анализ эффектов на компании-участники проектов. Когда я сам работал с данными налоговых деклараций, меня удивляло, почему никто не применяет их для подобного анализа мер поддержки, и тут приятный сюрприз. Надеюсь коллеги будут радовать нас новыми исследованиями.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉166🔥5👍2
⚪️⚪️⚪️Новый набор данных в нашем каталоге! Все населенные пункты России с численностью населения, национальным составом и географическими координатами

Мы опубликовали новый набор данных — со всеми населенными пунктами России. Вот что внутри:

🔺155 тысяч населенных пунктов, а также муниципалитеты (первого и второго уровней) и регионы, к которым они относятся;
🔺Численность населения по итогам переписи 2021 года;
🔺Национальный состав в разбивке по 194 категориям с учетом того, что в переписи человек мог указать несколько этнических принадлежностей;
🔺Географические координаты населенных пунктов.

Хотя данные переписи о численности населения и национальной принадлежности нельзя считать абсолютно точными, этот датасет остается важным источником для анализа. Он позволяет изучать, как население распределено в пространстве, выявлять демографические и этнокультурные особенности регионов, а также оценивать, насколько территории обеспечены социальной, транспортной и коммунальной инфраструктурой.

Если вы хотите задать вопрос про открытые данные и узнавать что-то новое о них, вступайте в наш чат открытых данных @tochnochat.

◾️Если вам нравится, что мы делаем, — поддержите нас. Это можно сделать в рублях и евро.
Please open Telegram to view this post
VIEW IN TELEGRAM
12🎉4