доказательный ⎵ пробел
1.27K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Привет!

Мы - мастерская анализа текстовых данных, также известная как ТекстАн, и мы рады сообщить, что в 2025 году мы проводимся с 2 по 17 июля в рамках Летней школы. Вне зависимости от того, были ли вы на ЛШ уже или нет, у вас могут быть вопросы по поводу того, что из себя представляет именно наша мастерская, поэтому вот ответы на самые, возможно, частотные вопросы.

Кто мы и откуда?
Люди, делающие эту мастерскую, в основном либо из НИУ ВШЭ в Москве, либо из Европейского университета в Питере. Мы уже проводили такую мастерскую и ранее, и в этом году программа будет схожей, но, конечно же, с некоторыми изменениями относительно прошлых лет. Сама Летняя школа существует уже намного больше и рассказывать про неё намного сложней, поэтому почитать про неё можно здесь.

Как проходит мастерская?
Главный вопрос даже не "как", а "где". В лесу. Онлайн-версии не планируется. Летняя школа проводится на турбазе в Тверской области: жить планируется в палатках, а учиться - в деревянных домиках. Интернет есть, но с перебоями. Душ по расписанию, еда из общего кана, проверки МЧС за счёт заведения.

Когда примерно будет проходить мастерская?
Программа будет проходить с 2 по 17 июля, где второго будет въезд, а семнадцатого - выезд. Программа рассчитана на две недели (дальше в лесу уже становится трудновато жить без чистой одежды)

Какая примерно программа?
В целом тематика будет вращаться вокруг автоматической обработки естественного языка: языковые модели, визуализация, анализ тональности и извлечение именованных сущностей, и, конечно же, старые добрые машобуч с нейросетями (без этого сложно понять, как работают наши инструменты). Более подробную программу мы покажем позже.

Сколько это стоит?
Должны предупредить - это не совсем бесплатно. Летняя школа живёт на добровольные пожертвования участников, и минимальная рекомендуемая сумма пожертвований - 800 рублей в день. Получается около 12000 за все две недели. Как по мне, стоит того.

Как проходит отбор?
Отбор у нас проходит в два этапа: текстовое задание и беседа-созвон. Первое - чтобы определить, насколько вы хорошо подкованы с точки зрения знаний, второе - чтобы определить, насколько вам подходят условия жизни в палатке, работы в команде, учёбы в лесу и ежей в шитояме.

Надо ли что-нибудь подготовить?
На нашу мастерскую мы берём со знанием Питона и интересом к компьютерной лингвистике (возможно, с базовыми знаниями оной). Обычно этого вполне хватает. Гуглить, кстати, во время решения задач мы не запрещаем, но ради бога, не списывайте.

Что по дедлайнам?
Отбор вот-вот начнётся (по планам должен на этой неделе). Отборочного задания пока нет, но заявки можно подавать и без этого. Как только задание будет выложено, мы обязательно дадим вам знать. Четких дат пока нет, но обычно отбор длится до конца мая, потом около недели мы проверяем задания и устанавливаем количество прошедших первый этап, а затем неделю проводим интервью и определяем финальный состав участников к началу-середине июня. К сожалению, поскольку проект волонтёрский, от форс-мажоров и задержек по срокам мы не застрахованы, но если что случится, будем обязательно предупреждать.

А по коммуникации?
У нас есть сайт, но основным способом коммуникации является Телеграм и в частности этот канал. Здесь удобнее всего быстро делиться новостями и получать фидбэк, чего не предусматривает тот же сайт. Обязательно подпишитесь, если хотите быть в курсе дел.

Что нового по сравнению с прошлым годом?
Вы просили, ждали и надеялись - и вот оно! Теперь у нас два трека - базовый и продвинутый. На базовом треке мы ждём тех, кто знает основы Питона, но ещё только готовится окунуться в мир NLP, а на продвинутом - тех, кто уже имеет какие-то знания и там, и там, и хочет продвинуться дальше.

Спасибо, что прочли до конца, и увидимся на ЛШ! (Надеюсь.)
5🔥5
Mathematica опубликовали отчет impact-отчет за 2024 год. Отчет содержит три блока лучших практик: данные, программы, эффекты, - среди которых:

1. Фонд равенства заработной платы для сотрудников сферы дошкольного образования, который с 2022 года увеличил предложение труда воспитателей примерно на 7%. Это увеличение привело к созданию почти 1500 дополнительных мест в детских садах в округе, где реализовывалась инициатива. Дополнительные выплаты и льготы фонда способствовали улучшению набора и удержания воспитателей. Пример альтернативного подхода к решению задач по росту заработных плат работников образования, которые в том числе декларировались в майских указах в России.

2. Оценка влияния профилактических программ, таких как программа домашних визитов социальных служб по укреплению родительских навыков (Nurturing Skills for Families), программы интеграции и развития рабочей силы (Workforce Innovation and Opportunity Act (WIOA) на снижение количества случаев по лишению родительских прав, изъятию детей из семей. Программы показали эффективность за счёт снижения затрат на изъятие детей и организацию опеки ($30 000–$50 000 на одного ребенка в год). Оценка стала возможно в результате инициатив по объединению данных различных федеральных ведомств.

3. Программа поддержки людей с психическими заболеваниями (Transitions to Community Living) и их инклюзии, которая обеспечила жилье и трудоустройство для более чем 5000 человек в штате, где реализуется инициатива, и сократила социальные расходы почти в 3 раза в отношении категории граждан с психическими заболеваниями, повысив их благосостояние и уровень социальной интеграции.

Подробнее о других кейсах - в отчете

________________
* Mathematica — исследовательская организация (Принстон, штат Нью-Джерси), которая специализируется на предоставлении данных, аналитики и решений на основе фактических данных для оптимизации программ и политики в области общественного благополучия. Интересный факт о Mathematica: в 1986 году сотрудники выкупили компанию у её корпоративного владельца, сделав Mathematica полностью принадлежащей сотрудникам (employee-owned company).

@evidencespace
👍93👨‍💻2
📊 Новый взгляд на разрывную регрессию: когда исход — это распределение, а не число

Разрывная регрессия (Regression Discontinuity Design, RDD) — часто использующийся, интуитивный и красивый инструмент в экономике. Это мощный квазиэкспериментальный метод, который помогает оценить эффект воздействия, если оно работает неслучайно, а по правилу, связанному с превышением порога какой-то величиной (cutoff-based treatment assignment) (Thistlethwaite, Campbell, 1960)
Например: округа с бедностью выше 20% получают грант — сравниваем тех, кто чуть выше и чуть ниже этого порога, и делаем выводы


🤔 В чем проблема?
🟤Обычный RDD работает со средними значениями зависимой переменной — средний балл, средний доход, цена
🟤А если для оценки эффекта важно не среднее, а вся картина? Как изменилась структура зарплат в фирме? Или распределение оценок в школе? Или доходы бедных и богатых в штате после выборов?

🆕 Решение — метод R3D
В конце апреля вышел препринт, в котором Давид Ван Дейк (University of Michigan) предложил новую версию RDD, которая работает с распределениями в качестве исхода (Van Dijcke, 2025). Он назвал её R3D — Regression Discontinuity Design with Distribution-Valued Outcomes (разрывная регрессия с разрывом для распределений)

📊 В чем отличие от обычного RDD?
🟤В обычном RDD оценивается локальный средний эффект воздействия (Local Average Treatment Effect, LATE) — это разница в средних значениях результата по обе стороны порога (про LATE мы уже немного писали ранее)
🟤В R3D оценивается локальный средний квантильный эффект воздействия (Local Average Quantile Treatment Effect, LAQTE) — это разница в квантилях распределений по обе стороны порога
🟤LATE показывает, как воздействие влияет на среднее, а LAQTE — где именно в распределении (у бедных, средних или богатых) проявляется эффект

💪 В чём сила R3D?
🟤Учитывает не только "что случилось в среднем", а где именно в распределении произошли изменения
🟤Не требует жёстких и нереалистичных допущений о гладкости распределений
🟤Поддерживает как "четкие" (sharp), так и "размытые" (fuzzy) дизайны воздействия

В статье автор показывает, как с помощью R3D можно измерить влияние победы Демократической партии на распределение доходов в американских штатах. Выясняется: доходы у верхней части населения снижаются, у нижней — нет изменений (см. график в посте). Классическая история: равенство растёт, эффективность — нет (Okun, 1975)

🖥 Открытый пакет R3D
Также Давид Ван Дейк разработал R-пакет R3D
🔗 Исследование: arXiv
🔗 Документация пакета: Github и Pkgdown

📖 Если же вы только начинаете свое знакомство с разрывной регрессией, то очень рекомендуем отличные гайды от Матиаса Каттанео (Princeton University) и соавторов: базовый (Cattaneo, Idrobo, Titiunik, 2020) и расширения (Cattaneo, Idrobo, Titiunik, 2024), а также целую страницу, посвященную RDD, с разными материалами и софтом для ваших исследований


😀 Благодаря работе Флориана Гунзилиуса (University of Michigan), аналогичное расширение метода, позволяющее оценивать не средний эффект воздействия, а изменение в распределении, несколько лет назад появилось и для синтетического контроля — Distributional Synthetic Controls (DiSCo) (Gunsilius, 2023)
🔗 Реализация метода от Давида Ван Дейка в виде пакета DiSCos доступна на R и Stata

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Forwarded from Tatyana Cherkashina
Какими будут обследования населения к 2030 году в исполнении Росстата?

До января 2027 г. будет «разработан и внесен в Правительство Российской Федерации проект федерального закона, предусматривающий использование административных данных в качестве источника сведений о населении при проведении федерального статистического наблюдения населения».

До декабря 2027 г. будут проведены пилотные федеральные статистические наблюдения населения в цифровом формате.

До декабря 2028 г. произойдёт «переход на цифровой формат проведения федеральных статистических наблюдений населения, включая формирование системы стимулирования участия населения в цифровых опросах». С декабря 2028 г. «Федеральные статистические наблюдения населения в населенных пунктах с обеспечением широкополосного доступа к информационно- телекоммуникационной сети "Интернет" проводятся преимущественно в цифровом формате».

К 2030 году
– более половины вопросов анкет при обследованиях населения будут предзаполнены с использованием административных данных;
– три четверти домашних хозяйств (Т.Ч.: надо полагать, из выборки) будут «проходить обследование с использованием личных кабинетов на цифровых платформах органов публичной власти»;
– главной функцией привлекаемых интервьюеров станет «не собственно сбор первичных статистических данных, а контроль полноты учета населения и качества обследования».

Также нас ожидает
«… публикация официальной статистической информации на уровне населенных пунктов, в том числе опорных;
расширение состава статистических показателей, собираемых и публикуемых на уровне населенных пунктов».

Стратегия развития системы государственной статистики и Росстата до 2030 года

План мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года
👍4
📊 Centre for Big Data in Economics запускает серию эконометрических семинаров!

🖥 Новый цикл регулярных встреч — для исследователей, студентов и всех, кто интересуется современными методами анализа данных в экономике:
🟤Приглашённые доклады — ведущие учёные из России и мира делятся своими последними исследованиями в области экономики, финансов, эконометрики и big data
🟤Студенческие доклады — платформа для молодых исследователей, чтобы представить свои проекты и получить ценные комментарии от экспертов

📖 Ближайший семинар посвящен методам причинного вывода!
🟤Когда: 3 июня, 12:00 МСК
🟤Тема: Современные методы оценки причинных эффектов: теоретические основы двойного машинного обучения, его отличие от линейной регрессии и применение к квантильному моделированию
🟤Спикер: Александр Ченцов (МФТИ, Центр больших данных в экономике НИУ ВШЭ)
🟤Язык: русский
🔗 Подключение и регистрация на будущие семинары

Аннотация:
Речь пойдёт о современных подходах к оценке причинных эффектов в наблюдаемых данных: от идентификации параметров до статистического вывода. Обсуждаются различия между классическими методами и новыми техниками с использованием устойчивых оценок в полупараметрических моделях. Особое внимание уделяется методу двойного машинного обучения и его применению в квантильной регрессии

✈️ Следите за событиями Центра больших данных в экономике в их новостном тг-канале @CEBASociety и канале Центра @cebalab

❗️А еще! Продлён дедлайн подачи работ на международную конференцию iCEBDA 2025!
🟤Конференция пройдёт 11–14 сентября в Стамбуле
🟤Новая дата подачи — до 15 июня 2025
🔥Ключевые спикеры: Хидо Имбенс (Stanford GSB), лауреат Нобелевской премии по экономике (2021); Томмазо Проиетти (Università di Roma "Tor Vergata")
🔗 Подробнее и регистрация, тг-чат конференции

#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🎉6👍4
Профессор ЦЕУ Габор Бекеш продолжает радовать нас открытыми курсами в области анализа данных (об одном из них мы писали ранее). Совсем недавно в свет вышел Курс «Анализ данных с использованием ИИ» (Doing Data Analysis with AI) , который предназначен для студентов с базовыми знаниями в области анализа данных, эконометрики и количественных методов. Курс учит применять ИИ для повышения продуктивности в анализе данных. Основное внимание уделяется использованию крупных языковых моделей (LLMs), таких как ChatGPT, Claude.ai и других. Есть много практических кейсов: например, здесь Бекеш подробно описывает как генерировать графики распределения доходов в привязке к уровню образования и гендеру, приводя примеры промтов и результатов выдачи ChatGPT и Claude.ai. Если еще не используете ИИ в дата-анализе и исследованиях, курс - хорош для погружения 🧠

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍2👎1
🧠 Машинное обучение в экономике: препятствия, мифы и светлое будущее

Машинное обучение постепенно входит в эмпирическую практику экономистов — от отбора переменных до оценки индивидуальных эффектов воздействия. В академической экономике это движение встречает заметное сопротивление. По мнению Беатрис Гитнер (University College Dublin), источники этого недоверия кроются в фундаментальных интеллектуальных барьерах:
🟤Ортодоксии — укоренившейся приверженности линейным моделям, ручной спецификации и классическим подходам, даже когда они не подходят к данным
🟤Пуризме — идеале «чистой» идентификации, где любое отклонение от RCT или строго структурных моделей считается снижением научной добродетели
🟤Недопонимании — представлении, что машинное обучение — это исключительно про прогноз и не применимо для каузального анализа

В этом посте, основанном на публикации в блоге Беатрис Гитнер, мы разберём наиболее популярные мифы об ML в экономике, предложим контраргументы и в финале расскажем о свежей важной обзорной работе в сфере ML и causal inference

↔️ Миф 1: ML — это только про прогноз, а не про причинно-следственный анализ
Современный причинный вывод активно использует ML как инструмент оценки вспомогательных (nuisance) функций (условных ожиданий, вероятностей назначения, и т.п.) в рамках строго идентифицированных моделей
🟤Double/Debiased Machine Learning (Chernozhukov et al., 2018): позволяет получить √n-состоятельные оценки с корректной инференцией
🟤Causal forests (Athey, Wager, 2019): оценивают гетерогенные эффекты при слабых предпосылках
🟤Meta-learners (Kunzel et al., 2019): формализуют оценку индивидуальных эффектов воздействия
Эти подходы позволяют совмещать гибкость ML с требованиями строгой причинной идентификации

↔️ Миф 2: ML — это «чёрный ящик»
Многие считают, что ML-модели сложно интерпретировать, а значит они бесполезны для научного исследования. Но интерпретируемость ≠ линейность. Современные инструменты позволяют:
🟤извлекать локальные и глобальные эффекты переменных (например, через SHAP или LIME) (Lundberg, Lee, 2017)
🟤оценивать гетерогенность эффектов (causal forest)
🟤формализовать вклад ковариат в treatment effect (meta-learners, feature importance в policy models)
Интерпретируемость в ML — это вопрос правильно выбранного инструмента и научной задачи

↔️ Миф 3: ML нарушает стандарты статистического вывода
Ранние версии ML действительно не обеспечивали достоверного статистического вывода (inference): стандартные ошибки, доверительные интервалы, p-значения были недоступны. Но в последние годы это изменилось. ML в каузальном анализе сопровождается:
🟤Neyman-ортогональностью (устойчивость к ошибкам оценки вспомогательных параметров) (Chernozhukov et al., 2018; Ahrens et al., 2025)
🟤Sample splitting / cross-fitting (устранение смещения от переобучения)
🟤Bootstrap-инференцией или post-selection methods для доверительных интервалов
Результат — ML-подходы, совместимые с классической инференцией и теорией оценивания

↔️ Миф 4: ML не позволяет делать обобщения и policy-выводы
ML предоставляет именно те инструменты, которых не хватает классической эконометрике, например:
🟤Causal forests и X-learners оценивают индивидуальные эффекты воздействия (CATE) (Athey, Wager, 2019; Kunzel et al., 2019)
🟤Policy learning позволяет вывести, кому и при каких условиях нужно рекомендовать интервенцию (Athey, Imbens, 2019)
То есть ML не мешает, а расширяет возможности вывода для политики

↔️ Что почитать?
Если вы хотите разобраться, как применять ML в причинной эконометрике, начните со свежего июньского обзора (Ahrens et al., 2025), среди авторов которого Виктор Черножуков и Кристиан Хансен

Если же вы хотите не только понять, но и научиться применять эти методы на практике, начните с сайта авторов обзора dmlguide.github.io, проектов Causal ML Book от Виктора Черножукова с соавторами и Dive into Causal Machine Learning от команды, которая перерабатывает учебные материалы ведущих ученых на разные языки программирования, а также учебных материалов Мадины Курмангалиевой

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥2👎1
Натолкнулись на интересную статью Andersen et al. (2023) Disaggregated Economic Accounts (Дезагрегированные экономические счета), в которой представлена новая система дезагрегированных экономических счетов, разбивающая национальные счета Дании на двусторонние потоки между группами потребителей и производителями, а также правительством и внешним миром. Используя различные административные данные (например, транзакции Danske Bank), авторы раскрывают «треугольную» схему торговли («triangular trade» pattern): сельские потребители направляют расходы в городские регионы, городские потребители больше тратят за границей (12% против 8% у сельских), а экспортные доходы преимущественно поступают в сельские регионы из-за расположения в них экспортных производителей.

С помощью калиброванной модели общего равновесия авторы показывают, как структура этих счетов влияет на распространение экономических шоков. Некоторые выводы работы:

- трансферы, дольше циркулирующие в национальной экономике, обеспечивают более высокий мультипликатор благосостояния, особенно в сельских районах;
- снижение экспортных тарифов напрямую выгодно сельским регионам, но общие выгоды, включая косвенные эффекты, больше ощущаются городскими потребителями;
- в целом инструменты фискальной политики результативнее в сельских регионах, так как расходы сельских потребителей дольше циркулируют внутри страны, прежде чем «утекают» за границу.

Авторы утверждают, что такой подход к оценке экономических связей позволяет лучше понимать эффекты от внешних шоков, идентифицировать наиболее уязвимых экономических агентов, а также более точно таргетировать фискальную политику. Кроме этого, работа - хороший бенчмарк того, как можно и нужно транслировать академические результаты в массы: disaggregatedaccounts.com и bfi.uchicago.edu.

@evidencespace
6🔥5👍4
NBER опубликовало сегодня исследование Река Юхаса и коллектива авторов «Measuring Industrial Policy: A Text-Based Approach». О чем оно и почему интересно с точки зрения impact-оценки государственных политик?

Коллеги использовали базу данных Global Trade Alert (GTA) — самый большой в мире сборник описаний торговых и экономических мер, принятых государствами (47283 записи за 2010–2022 годы после очистки данных). В GTA собраны понятные описания на английском языке, которые составлены экспертами. Они включают только проверенные и значимые меры, влияющие на международную торговлю. Река Юхас и команда поставили перед собой задачу, используя базу GTA, разработать метод систематической идентификации и измерения мер промышленной политики среди стран Мира, а именно: классифицировать государственные меры, сформировать показатели активности промышленной политики, предельно точно идентифицировать целевой характер мер (не просто соотнести меру к тарифной политике или видам субсидий, а определить ее таргет).

Решали задачу методами ML в три этапа: ручная разметка для обучения (было размечено 2932 описания (примерно 6% от всей базы), тренировка модели (непосредственно само обучение), имплементация модели на всей выборке и кластеризация данных. В зависимости от года было выделено из GTA 44–63% мер, относящихся к промышленной политике. Точность модели на тестовой выборке достаточно высокая (F1-score 94.1%). Примеры классифицированных политик:

• Бразилия увеличила импортные тарифы на IT и телекоммуникационные товары, чтобы стимулировать инновации и укрепить национальный IT-сектор.
• Китай предоставил государственные займы для развития производства батарей для электромобилей.
• США приняли CHIPS and Science Act 2022 для развития полупроводниковой отрасли и исследований.

По стэку и методам. Использовалась модель BERT (Bidirectional Encoder Representations from Transformers), которая была дообучена для задачи трехклассовой классификации (определяли таргет (промышленная политика), не таргет и условную корзину, где модель не смогла классифицировать текстовые данные). Есть отдельный репо, но без кода - только данные. Но из текста статьи следует, что коллеги использовали инструменты на основе python, в частности Hugging Face (для доступа к предобученной модели BERT), Optuna (для оптимизации гиперпараметров модели), Prodigy (для разметки и аннотации данных).

Эффект мер на текущем этапе не оценивался, но вот некоторые выводы исследования:

1. С 2010-х годов наблюдается устойчивое увеличение разработки и применения мер промышленной политики, стимулирующих различные отрасли.
2. Промышленная политика чаще использует субсидии и меры, ориентированные на экспорт, вместо тарифных и фискальных мер.
3. Имплементация промышленной политики характерна для стран с высоким уровнем дохода, но не для развивающихся стран, что противоречит традиционным представлениям о промышленной политике как инструменте догоняющего развития.
4. Промышленная политика, особенно в странах с высоким доходом, чаще нацелена на сектора, где страна уже имеет конкурентные преимущества в рамках экспорта (отрасли как стартапы остаются за бортом).

Подход интересен тем, что он на практике показывает, как может выглядеть консолидация различных инициатив под вектором того или иного механизма воздействия. Для задач оценки государственной политики в России аналогичные методы могут быть использованы в части выявления на пантеоне текстовых данных документов стратегического планирования региональных мер, резонирующих с федеральной повесткой. При оценках различных политик, например, политики в области повышения благосостояния населения меры на федеральном уровне консолидируются в единые механизмы проще, чем меры регионального характера, которые в силу специфики отечественного госпланирования часто размыты и формально могут быть не связаны с федеральными, однако фактически могут влиять на достижение национальных целей. Методы ML, описанные в статье, могут решать такие задачи консолидации.

@evidencespace
8🔥7👍4
Libraries Scholarly API Cookbook - подборка туториалов Университета Алабамы по работе с API различных веб-сервисов, полезных для исследователей: arXiv, WB, Scopus, NASA, Wiley, OSM и другие.

@evidencespace
👍64👨‍💻2
💊 Интенсивность имеет значение: как оценить эффект, если воздействие имеет разную силу?

Недавно мы обещали рассказать вам, как оценивать эффекты, если воздействие непрерывное -- пришло время этой темы!

Обычно для оценки влияния политик или другого воздействия используется метод разность разностей (Difference-in-Differences, DiD), но он работает хорошо, когда можно разделить наблюдаемые единицы на две группы: тех, кто подвергся воздействию, и тех, кто нет

В реальности же воздействие часто имеет не бинарную, а непрерывную природу — то есть разную интенсивность (dose):
🟤уровень загрязнения воздуха в регионах
🟤доля пациентов с ДМС в больнице
🟤количество символов в посте 😁 и т.д.

Во всех этих случаях вопрос звучит не "было ли воздействие?", а "насколько интенсивным оно было?"

🆕 Не скоро дело делается... Спустя 5 лет эти вопросы снова подняли в своём препринте известные исследователи DiD — Брэнтли Кэллоуэй (Университет Джорджии), Эндрю Гудман-Бейкон (Федеральный резервный банк Миннеаполиса) и Педро Сант'Анна (Университет Эмори) (Callaway et al., 2025)
Авторы переосмысливают классический DiD и показывают, что при непрерывном воздействии привычные методы могут давать некорректные оценки

В чём проблема?
Во многих прикладных работах исследователи используют стандартную модель с фиксированными эффектами (TWFE) и включают переменную интенсивности воздействия, умноженную на бинарную переменную пост-периода. Но такая оценка:
🟤не равна среднему причинному эффекту
🟤не отражает отклик на изменение интенсивности
🟤может быть смещенной из-за гетерогенных эффектов в разных группах и при разных интенсивностях
🟤складывается из эффектов при разных уровнях интенсивности с непрозрачными, иногда отрицательными весами

Авторы показывают, что даже в простой ситуации 2×2 DiD (две группы, два периода), коэффициент TWFE не имеет корректной причинной интерпретации, если интенсивность воздействия варьируется

Что и как нужно оценивать на самом деле?
Авторы вводят два типа причинных эффектов:
🟤Уровневый эффект (Level Effect) — показывает, как изменяется результат при переходе от нулевой интенсивности к заданной
🟤Причинный отклик (Causal Response) — описывает, как результат реагирует на небольшое изменение интенсивности. Это аналог производной или эластичности, но в причинном смысле

Что делать?
🟤Если вы хотите понять, что даёт воздействие при конкретной интенсивности — ищите уровневый эффект
🟤Если хотите знать, как результат реагирует на рост интенсивности — ищите причинный отклик
🟤Если нужно усреднённое значение по всей выборке — считайте агрегаты с корректными весами

Какие нужны предпосылки?
🟤Параллельные претренды (Parallel Trends) - предположение, что без воздействия все группы развивались бы одинаково
→ Позволяет идентифицировать уровневый эффект при заданной интенсивности
🟤Сильные параллельные претренды (Strong Parallel Trends) - предположение, что результат при одинаковой интенсивности развивался бы одинаково у всех групп
→ Необходимо для корректной оценки причинного отклика

Действительно разные результаты? Medicare и капиталоёмкость
🟤Дарон Аджемоглу и Эми Финкельштейн (Acemoglu, Finkelstein, 2008), используя TWFE показали, что после отмены трудовых субсидий по Medicare больницы стали больше инвестировать в капитал
🟤Авторы новой статьи применили свой подход к тем же данным — и получили иные результаты: уровень эффекта оказался на 50% выше, чем в TWFE; причинный отклик был положительным при низкой интенсивности, но негативным при высокой
🟤Это означает, что TWFE не просто занижал эффект, но и менял его знак при попытке оценить маржинальный отклик

🖥 Открытый пакет contdid
Авторы статьи разработали R-пакет contdid. Это пока альфа-версия, но она уже поддерживает непрерывное воздействие, ступенчатое воздействие (staggered adoption), агрегации по интенсивности и времени
🔗 Документация пакета: Github и RD Packages

Заинтересованным в теме предлагаем также заглянуть в препринт (Zhang, 2025), где автор пытается решить похожую задачу с помощью double/debiased machine learning

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥42
Открыт прием заявок на конкурс исследований

Мы запускаем конкурс научно-практических исследований социального развития в сфере помощи детям и молодым взрослым в ситуации уязвимости 2025.

Принять участие могут государственные и негосударственные НКО, ресурсные и методические центры, образовательные, научные и исследовательские организации, зарегистрированные по форме НКО.

Грантовый фонд конкурса составит 50 млн рублей. Прием заявок стартует 17 июня и продлится до 12.00 по московскому времени 21 июля 2025 года. Результаты конкурса будут объявлены в августе 2025 года.

Особенность конкурса в том, что он призван поддержать научно-практические исследования при условии, что результаты исследований будут в обязательном порядке внедрены в практику и способствовать улучшению жизни целевых групп. При этом важно не только проведение исследований и внедрение результатов на практике, но и распространение информации в открытом доступе, а также мониторинг и оценка влияния результатов исследования.


Узнать больше о конкурсе и подать заявку можно по ссылке.
📊 Позавчера начался NBER Summer Institute — это ежегодная конференция, одно из самых значимых и авторитетных событий в области экономических исследований, собирающее ведущих учёных и экспертов из разных направлений экономики (в этом году конференция содержит более 35 направлений). В этом году она проходит с 7 по 25 июля

Мы хотели бы обратить ваше внимание на две секции, связанные с анализом данных и причинностью (24 июля - save the date) 📅

↔️ Methods Lecture: Uncovering Causal Mechanisms

🟤Mediation Analysis: Identifying Mechanisms Underlying Treatment Effects on Primary Outcomes (Kosuke Imai, Harvard University)
Раскрывает современные методы медиаторного анализа: как оценивать, через какие механизмы интервенции влияют на исход. Ключевой акцент — на идентификационные допущения и анализ чувствительности

🟤Surrogate Indices: Identifying Treatment Effects on Primary Outcomes Using Mediators (Raj Chetty, Harvard University and NBER) [мы писали об этом исследовании тут]
Показывает, как использовать суррогатные переменные и агрегирующие медиаторы для оценки эффектов, когда главные исходы пока не наблюдаемы

Трансляции и записи лекций можно будет посмотреть на YouTube

↔️ Frontier Econometric Methods

🟤Testing Mechanisms (Soonwoo Kwon, Jonathan Roth, Brown University)
Методы эмпирического тестирования механизмов эффектов воздействия: как убедиться, что интервенция действует именно через заявленный канал
Дискутант: Ismael Mourifié, Washington University in St. Louis and NBER

🟤Program Evaluation with Remotely Sensed Outcomes (Ashesh Rambachan, MIT; Rahul Singh, Davide Viviano, Harvard University)
Использование спутниковых данных и данных мобильных операторов в качестве исходов для оценки программ в труднодоступных регионах (экология, агросектор и др.)
Дискутант: Seema Jayachandran, Princeton and NBER

🟤Causal Inference on Outcomes Learned from Text (Iman Modarressi, Cambridge; Jann Spiess, Amar Venugopal, Stanford) [мы писали об этом исследовании тут]
Методы оценки причинного эффекта на текстовые переменные, извлечённые с помощью NLP (например, отзывы, протоколы заседаний и др.)
Дискутант: Jesse M. Shapiro, Harvard and NBER

🟤Identification of Long-Term Treatment Effects via Temporal Links, Observational, and Experimental Data (Filip Obradovic, UCLA)
Предлагается метод для объединения краткосрочных экспериментальных и долгосрочных наблюдаемых данных для оценки эффекта во времени
Дискутант: Susan Athey, Stanford and NBER

🟤Investigating Instruments with Meta-Regressions (Aaron Pancost, UT Austin; Garrett Schaller, Colorado State University)
Новый способ оценки качества инструментов через мета-регрессии, обобщающий информацию из разных исследований
Дискутант: Isaiah Andrews, MIT and NBER

🟤Estimating Demand with Recentered Instruments (Kirill Borusyak, UC Berkeley and NBER; Mauricio Caceres Bravo, Peter Hull, Brown and NBER)
Разработка рецентрированных инструментов для оценки спроса в моделях с дифференцированными продуктами — актуально для IO и маркетинговых исследований
Дискутант: Steven T. Berry, Yale and NBER

#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥4🎉3
Opensustain.tech: один из масштабных волонтерских open-source проектов, посвященный устойчивому развитию. Представляет собой каталог более 1000 проектов, связанных с изменением климата, возобновляемой энергетикой, биоразнообразием, природными ресурсами, бедностью и неравенством.

Вот некоторые примеры проектов с открытым исходным кодом:

accessibility: инструмент для расчёта уровней доступности и анализа бедности и неравенства в доступе к услугам, использует предварительно рассчитанную матрицу транспортных затрат и гео-данные (например, расположение рабочих мест, медицинских учреждений и населения). Проект помогает выявлять районы с ограниченным доступом к базовым услугам, что особенно актуально для бедных сообществ. В чем польза: предоставляет данные и алгоритмы для анализа пространственного неравенства, что будет ценно для исследований в области социальной географии и городской политики.

OpenTripPlanner
: мультимодальный планировщик маршрутов, который объединяет данные об общественном транспорте, велосипедных маршрутах, пешеходных путях и сервисах микромобильности (например, bike-sharing). Проект помогает оптимизировать транспортные потоки и снижать углеродный след за счёт продвижения экологичных способов передвижения. В чем польза: предоставляет данные и алгоритмы для анализа транспортной инфраструктуры и моделирования сценариев устойчивых транспортных систем, можно использовать для изучения эффективности общественного транспорта в городах.

EcoSonar: инструмент, помогающий командам разработчиков оценивать экологическое воздействие цифровых технологий на этапе проектирования. Проект продвигает практики экологичного дизайна и доступности, позволяя минимизировать углеродный след программного обеспечения. В чем польза: анализа энергопотребления программных решений и разработки рекомендаций по созданию «зелёного» ПО.

venco.py: инструмент обработки данных, который создаёт профили спроса и гибкости для будущих парков электромобилей. Проект помогает моделировать сценарии использования электромобилей в энергосистемах. В чем польза: анализ интеграции электромобилей в энергосети, оценки их влияния на энергопотребление и разработка стратегий управления нагрузкой.

@evidencespace
🔥7👍41😁1
⚪️⚪️⚪️Хотите знать, выпускники каких вузов и специальностей получают больше? В нашем каталоге для этого есть два уникальных датасета

Почти 70% всех выпускников бакалавриата и специалитета в 2024 году совмещали учебу с работой хотя бы один месяц. Чаще всего — на педагогических, сельскохозяйственных и инженерных направлениях.

Среди очников работу с учебой совмещали 54%. И это заметно влияет на будущее: через год после выпуска шансы найти работу у них выше на 16–19%, а зарплата — в среднем на 14%. Правда, разница между направлениями колоссальна — от 30 тысяч в драматургии до 150 тысяч в аэронавигации.

Данные о зарплатах и работе во время учебы можно найти в наших датасетах — о том, сколько зарабатывают выпускники по учебным заведениям и специальностям. Мы их как раз обновили.

Что нового:

🔺Данные теперь охватывают выпускников 2016–2024 годов.

🔺Добавлены медианные зарплаты и корректировки на уровень цен региона, где выпускник нашел работу.

🔺Появились данные о возрасте выпускников и доле тех, кто совмещал учёбу с работой.

На этих данных мы показали, что гендерный разрыв в зарплатах возникает уже через два года после выпуска и что не только престиж вуза влияет на доход выпускника. А всего у нас собрано 35 датасетов на разные проблемы — посмотреть и скачать их можно здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🤔1🎉1
Python Case Studies — «крафтовый» репо с разборами шести кейсов анализа данных на синтаксисе python от Раждипа Чакраборти:

1. DNA Sequencing — исследование биоинформатики: работа с последовательностями ДНК, выявление шаблонов и биологических закономерностей.
2. Linguistic Analysis of Books — анализ лексической вариативности в книгах: частотность, стилистика, различия между авторами.
3. Classification Models — построение предиктивных моделей на табличных данных: отбор признаков и интерпретация.
4. Whisky Flavor Profiles — исследование вкусовых характеристик шотландского виски и предпочтений потребителей (кластеризация по регионам).
5. Bird Migration (GPS) — пространственно-временной анализ маршрутов перелётных птиц.
6. Social Networks — анализ взаимодействий и социальных структур среди жителей деревни.

@evidencespace
9👍5
Недавно VoxDev (платформа Института Всемирного банка, посвященная исследованию экономики развития) опубликовали интересный материал о применении эконометрических методов в экономике. В статье рассматриваются примеры применения различных каузальных методов, некоторые примеры:

1. RCT:
⬇️ Государственное субсидирование среднего образования в Гане продемонстрировало выраженные положительные эффекты, отличающиеся комплексным характером, при этом особенно значительные результаты были зафиксированы в отношении женщин. Подробнее здесь.
⬇️Внедрение децентрализованных систем водоснабжения в сельских районах Индии способствовало существенным улучшениям показателей здоровья домохозяйств, особенно за счёт повышения доступа к чистой питьевой воде и снижения распространённости заболеваний, связанных с её нехваткой. Подробнее здесь.
⬇️ Программа распределения жилья посредством жилищной лотереи в Эфиопии выявила высокий уровень неудовлетворённого спроса на улучшенные жилищные условия среди жителей трущоб, что свидетельствует о значительной потребности в доступном и качественном жилье в уязвимых городских сообществах. Подробнее здесь.

2. Натуральные эксперименты:
⬇️ Отмена программы условных денежных трансфертов в Мексике позволила оценить её влияние на образование и трудовые результаты. Подробнее здесь.
⬇️ Внедрение генетически модифицированной сои в сельском хозяйстве Бразилии позволило эмпирически оценить влияние аграрных инноваций на гендерные различия в трудовой занятости, выявив, в частности, значимые эффекты на трудовые результаты женщин в сельской местности. Подробнее здесь.

3. DID:
⬇️ Скоординированные усилия по обеспечению вакцинации существенно повысили охват детского населения, что, по оценкам, позволило предотвратить около 1,5 миллиона случаев преждевременной смертности, продемонстрировав высокую эффективность международных программ в области профилактического здравоохранения. Подробнее здесь.

4. RDD:
⬇️ Эмпирический анализ воздействия квотирования на трудоустройство лиц с инвалидностью в Бразилии продемонстрировал, что усиленные меры контроля за соблюдением трудового законодательства способствуют увеличению занятости в данной группе, подчёркивая значимость институционального давления в реализации социальной инклюзии на рынке труда. Подробнее здесь.

5. Инструментальные переменные:
⬇️Доступ к 3G широкополосному интернету в Индонезии снизил количество случаев COVID-19 примерно на 45%, что является относительно большим воздействием по сравнению с эффективностью других нехимических интервенций. Районы с более высокими уровнями грамотности и большей способностью к удаленной работе испытали еще более выраженные преимущества. Подробнее здесь.

В статье также есть материалы об образовательных ресурсах VoxDev, включая подкасты и литературу.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32
Forwarded from Ну Экон
Interested in using intermediate outcomes to better understand causal mechanisms and predict long-term impacts of interventions? Join Prof. Chetty and Prof. Kosuke Imai at the NBER Methods lectures:

📅 Thursday, 7/24, 3 pm
📍 Cambridge, MA for NBER SI attendees, or virtually ⬇️

https://www.nber.org/conferences/si-2025-methods-lecture-uncovering-causal-mechanisms-mediation-analysis-and-surrogate-indices
8
Causal Inference в реальных задачах индустрии

Привет! На связи Саша Кузнецов, старший аналитик команды Trisigma External в Авито.

Когда разговор заходит о причинно-следственных выводах (Causal Inferense), часто уходят в дебри статистики, не доходя до главного — как это работает в индустрии и зачем это нужно бизнесу.

Алекс Дэнг (ex-Microsoft, один из авторов CUPED и многих других industry-standard техник) написал открытый конспект про causality — «Causal Inference and Its Applications in Online Industry».

• Что внутри

Это не учебник, а набор глав, объясняющих «на пальцах» применение действительно релевантных для задач бизнеса методов и концепций. Также материал покрывает следующие топики:
— корреляции и Парадокс Симпсона;
— рандомизированные эксперементы;
— Propensity Scores;
— SUTVA;
— Causal Graphical Models;
— регрессионные методы;
— А/В-тесты на больших данных;
— диагностика «здоровья» А/В-систем;
— повышение чувствительности метрик.

• Главная мысль

Causality может эффективно применяться не только в академических исследованиях, но и в реальных задачах бизнеса на больших данных и высоконагруженных системах. Конспект дает базу про проектирование, запуск и интерпретацию экспериментов. Поэтому, если ещё остались вопросы, почему SRM — не баг, а симптом, или зачем в CUPED важно корректно задавать ковариты — то вам точно стоит прочитать статью.

• От себя

Это must-read для тех, кто строит эксперименты в проде, особенно если вы хотите верхнеуровнево понять, как устроены платформы уровня Bing, Airbnb или Booking. На мой взгляд, конспект не покрывает важные advanced-топики, как в Causal Inference, так и в A/B — Uplift Modelling, Mixed Models, нестандартные дизайны по типу свичбэка. Всему этому уделено неприлично мало внимания — видимо, автор решил сфокусироваться на базовых понятиях.

🔵Прочитать материал можно тут 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥5
🚀 Летняя школа по анализу данных

Если вы интересуетесь анализом данных, обратите внимание на серию воркшопов от Hertie School Data Science Lab*

Data Science Summer School 2025 – это бесплатные воркшопы по анализу данных и математическим основам
🟤Школа является частью подготовки к программе Master of Data Science for Public Policy в Hertie School, но участвовать могут все желающие
🟤Летняя школа стартует с введения в программирование и математику для data science
🟤Завершается знакомством с современными методами ML и DL – от компьютерного зрения до обработки естественного языка
🟤Можно посетить как отдельные занятия, так и весь курс целиком

🥲Что обещают организаторы?
🟤Однодневные (4 часа) практические воркшопы
🟤Преподаватели – профессора, исследователи, практики отрасли
🟤Сертификат об участии и живой нетворкинг

🥲Как подключиться?
🟤Все занятия пройдут онлайн в Zoom с трансляцией на YouTube
🟤Регистрация по ссылке

🥲Воркшопы школы

😢 Введение в R для анализа данных
4 августа, 10:00 MSK, Sebastian Ramirez Ruiz
Практика основ языка R – от рабочего окружения и функций до работы с tidyverse

😢 Введение в Python для анализа данных
5 августа, 10:00 MSK
Базовый синтаксис, работа с реальными датасетами, основы визуализации и лайфхаки по использованию ИИ для обучения и автоматизации

😢 Математический анализ для анализа данных
6 августа, 10:00 MSK, Ilja Klebanov
Ключевые концепции (градиент, производные, градиентный спуск), без которых невозможны ML и DL

😢 Линейная алгебра для анализа данных
7 августа, 10:00 MSK, Dr. Kristian Rother
Простыми словами о матрицах, векторах, реальных задачах и даже трансформации изображений

😢 Статистика и вероятность для анализа данных
8 августа, 10:00 MSK, Dr. Darina Goldin
О том, как измерять неопределенность, строить выводы из несовершенных данных и методологическую базу для ML и A/B-тестирования

😢 Построение автономных AI-агентов
7 августа, 15:00 MSK, Huy Dang
С нуля о том, что такое AI-агенты – инструменты, которые уже используется для автоматизации процессов, экспериментов и анализа. Создадите своего агента на Python

😢 Экспериментальный дизайн для цифровых медиа исследований
8 августа, 03:00 MSK, Dr. Kevin Munger
О том, как оценить влияние контента и алгоритмов в соцсетях, о дизайне экспериментов для real-world платформ (YouTube, Twitter/X, TikTok) и поведении и аудитории в медиа

❇️Hertie School Data Science Lab – исследовательский и образовательный центр в Берлине, объединяющий data science и социальные науки для решения общественных задач. Лаборатория развивает исследования и обучение в сфере данных и ИИ для принятия обоснованных решений

#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
Forwarded from Рюмочная ИПП
РББО 2.0.1

Мы обновили Российскую базу бухгалтерской отчетности (РББО), а процесс ее создания описали в журнале Scientific Data:

🗓 Добавлены данные за 2024 год для более чем 2,2 млн фирм.

👾 Ошибки в отчетностях за предыдущие годы, исправленные фирмами с этого января, теперь исправлены и у нас.

🔨 Устранен баг, из-за которого в предыдущих версиях мы не досчитались 280+ тыс. наблюдений, реконструированных из отчетностей будущих годов.

🗺 Улучшено геокодирование юридических адресов фирм.

Обо всех изменениях читайте на гитхабе проекта.

Как писали исследователи Google в 2021 г., «все хотят работать с моделями, никто не хочет работать с данными». За работой по производству данных сохраняется репутация грязной, тяжелой, требующей меньшей компетентности, чем моделирование, — короче говоря, менее престижной и важной. Из-за этого качеству данных зачастую уделяется недостаточно времени и внимания, что ведет к каскадам искажений.

Мы прикладываем много усилий для подготовки РББО, но видим, что в ней есть что улучшать, и приглашаем всех заинтересованных присоединяться к этой работе.

Скачать РББО можно на Hugging Face и Zenodo.
🔥112