доказательный ⎵ пробел
1.27K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Новый бесплатный курс от MIT (о других совместных с J-PAL курсах рассказывали здесь и здесь): «Анализ данных для социологов».

Курс дает возможность узнать о методах использования данных для ответов на вопросы, представляющие культурный, социальный, экономический и политический интерес. На протяжении всего курса у вас будет возможность работать с реальными данными и применять изученные статистические методы с помощью статистического пакета R. Курс длится около 11 недель.

@evidencespace
🔥61
Наша подписчица прошла курс Evaluating Social Programs от J-PAL, о котором мы рассказывали раньше. Вот её отзыв

J-PAL (The Abdul Latif Jameel Poverty Action Lab) — крупнейшая мировая лаборатория исследований бедности и оценки эффективности социальных программ. В курсе Evaluating Social Programs излагаются основные теоретические посылки, на которых строится работа лаборатории (модель оценки воздействия, статистика, планирование эксперимента) и приводятся примеры проектов. Наша подписчица Юлия Апухтина (@conspect_labs) делится своим впечатлением от курса.

◽️Где проводится курс

🟡 На платформе MITx. Курс синхронный — каждый запуск имеет срок начала и конца. Это примерно 10 недель. Нужно прослушать 30 часов видеолекций, постоянно перемежаемых заданиями и вопросами, и прорешать несколько кейсов. Чтобы получить сертификат (стоит 99 долларов, бывают скидки) нужно набрать 65% баллов в ассесментах, если баллов не хватает — сдать дополнительный экзамен (доступ к нему появляется после оплаты сертификата). Уровень заданий далеко не низкий, рекомендую очень тщательно вчитываться в тексты кейсов и вообще не торопиться с ответами.

◽️Как устроен курс

🟡 Курс сформирован из лекций, записанных в большей части на живых лекциях для сотрудников НКО из разных стран (каких, неизвестно, но акценты в студии были в основном африканские). Лекции в зале записаны в 2010-2020 годах с профессорами (и в разное время директорами) MIT/J-PAL — Benjamin Olken и Rachel Glennerster. С этими спикерами есть и другие лекции на Yuotube. Оба очень живые, я рекомендую посмотреть все, что найдется. Коммуникационно это «Harvard style», когда лектор каждые две-три минуты требует от аудитории вопросов или реакции. Причем обращается с аудиторией невероятно нежно — любой вопрос получает похвалу и одобрение спикера.

◽️Какие в нем части

🟡 Содержательно курс состоит из теории воздействия (как их планировать), статистики и практических примеров «из жизни», в которых важны не только сами истории, но и большое количество оговорок и деталей:

«Вице-губернатор будет просить вас включить в программу его родную деревню - не надо ему отказывать! Потом просто в оценку эту деревню не включите, и все»


🟡 Но это анекдоты, а реально самое ценное — сплав, какой-то что ли гибкости в подходах к эксперименту с очень жесткой статистической базой и, соответственно, очень трезвым подходом к результатам. Этот подход настоятельно рекомендуется использовать при общении с фаундерами и заказчиками на самых ранних этапах планирования программ и экспериментов.
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥4👍3
🟡 Часть про статистику невероятно хороша. Рассчитана на гуманитариев, так как основная аудитория лекций — сотрудники НКО. Основные блоки — про необходимый, но критически важный минимум проверки гипотез: ЦПТ, понятия точности и надежности, ошибки первого и второго рода. Уровень объяснения очень высокий, одновременно подробно и емко, на все основные статистические определения приводятся примеры применения из жизни. Много анимированных чартов с растущими колоколами, сдвигающимися распределениями.

🟡 Помогают вопросы из аудитории с последующими ответами и английский — на чужом языке нет вредной иллюзии понимания псевдо-легких концепций, поневоле замедляешься и до конца перевариваешь каждую формулу и высказывание.

🟡 Главным в контенте мне показалось описание опыта работы лаборатории по дизайну экспериментов, формированию групп и последующей работе с ними в процессе эксперимента и при оценке. Основное направление работы J-PAL — рандомизированные исследования. Подробно разбираются проблемы работы с группами: убывания участников, эффекты утечек информации, обмена групп участниками. Особенно хороши дизайны экспериментов с учетом взросления детей, растянутого входа в эксперимент с использованием новых групп как контрольных, есть отдельный блок про финансовую оценку воздействия.

🟡 Очень классные примеры про поиск респондентов через 5-10 лет после эксперимента, в других городах и странах. Подробно разбирают подход, при котором рандомизация и оценка происходят на разных уровнях, как считать и пересчитывать для таких случаев статические показатели. Все это с примерами и довольно подробно, но с учетом уровня лекторов, иногда, конечно, вспоминается анекдот про «отсюда, очевидно, следует...» в курсе лекций Ландау по физике.

«Ну, тут интуитивно понятно влияние размера вашей выборки на мощность» — говорит лектор. Мне кажется, что такая «интуиция» свойственна не всем людям. Несмотря на предыдущий блок статистики, для понимания многих рассуждений все-таки нужна не вводная, а довольно крепкая статистическая база.

Мне не хватило лекции про то, на чем, собственно, они замеряют эффекты — как будто предполагается, что это всегда параметрический анализ, но почему, не говорится.


Не знаю, насколько все это полезно для профессионалов в доказательной политике и социальных науках, но было очень интересно.

Подписывайтесь на канал Юлии: @conspect_labs
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5
Большой образовательный проект CORE-Econ (Curriculum Open-access Resources in Economics), который объединяет экономистов из разных стран и публикует много материалов по экономической теории, разместил курс лекций по экономике с разбором кейсов на данных «Doing Economics: empirical projects». Работа с данными разобрана на примере excel, google sheets, R и python (очень разносторонний набор инструментов).

Среди тем кейсов:
🔘 Оценка влияния налога на сахар в США с использованием DiD
🔘 Анализ управленческих практик в коммерческих компаниях стран мира
🔘 Оценка рисков банковских систем
🔘 Оценка влияния государственной политики на неравенство доходов

В библиотеке CORE также много интересного материала по анализу и оценке прошедших кризисов, исследованиям различных форм неравенства и подборок бесплатных обучающих курсов.

@evidencespace
🔥182
🌎 Возможно, нашим читателям уже знаком. Но в процессе своих исследований натолкнулись на отличный лонг-лист инструментов геопространственного анализа от географа Эдуардо Ласерда. Делимся: ссылка на лонг-лист

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
8👨‍💻2
5-7 июня 2025 года — третья конференция «New Advances in the Political Economy of Development in Eurasia», Алматы, Казахстан.
Рабочий язык - английский.
Тематика:
--Социальный капитал, доверие и культурные нормы
--Человеческий капитал и экономическое развитие
--Медиа и общественне мнение
--Конликты и их решение
--Коллективные дейсвтия и общественные блага
--Политические элиты и управление
--Сравнительная политика
--Проблема колеи
--Экономическая политика и общественное благосостояние

Ключевые докладчики: Дженнифер Ганди (Йельский Университет) и Рубен Ениколопов (Университет Поммеу Фабра)

Заявки до 28 февраля 2025 года: полные тексты статей или аннотации до 250 слов и резюме.
Результаты отбора заявок — 31 марта 2025 года.
Полные тексты статей от приглашённых атворов заявок — до16 мая 2025 года.
Подробности:

https://sites.google.com/view/polecon/call-for-papers
Forwarded from Профессорский кот (Yulia Vymyatnina)
Недавно рассказывала о собранной коллегами базе бухгалтерской отчетности российских компаний. В четверг в рамках нашего Городского экономического семинара пройдет ее презентация.

13 февраля в 18:00 Дмитрий Скугаревский (ЕУСПб) представит доклад "Российская база бухгалтерской отчетности: коллекция финансовой отчетности всех российских компаний".

Аннотация: Представляем вам Российскую базу бухгалтерской отчетности (РББО, RFSD) — первую открытую альтернативу СПАРК-Интерфакс, Ruslana, Контур.Фокус и СБИС. До сих пор исследователям приходилось покупать доступ к данным, формировать выгрузку и импортировать данные в статистический пакет. База собрана из официальных источников — ЕГРЮЛ ФНС, архивных данных Росстата и отчетностей, полученных через Государственный информационный ресурс бухгалтерских отчетностей (ГИР БО). Сейчас РББО охватывает 2011–2023 годы и содержит 56,6 млн наблюдений. В докладе мы рассмотрим процесс создания РББО и ее применения в исследованиях: оценка процентных расходов российских компаний, оценка производственной функции предприятий обрабатывающей промышленности, а также новый способ оценить пространственное распределение ВВП России. РББО свободно доступна по адресу http://github.com/irlcode/RFSD

Мы приглашаем посетить семинар очно - заседание пройдет в Гагаринском зале ЕУСПб (адрес: Гагаринская, 6, вход с улицы Гагаринская). Но есть также возможность подключиться к семинару онлайн. В любом случае зарегистрируйтесь, пожалуйста, тут
👍104🎉3
🟩 Неделя любви к данным… и благодарности их создателям!❤️

В честь недели любви к данным (Love Data Week 2025) мы решили сделать для вас подборку с обзором некоторых отраслевых данных, которые лежат в нашем «хранилище всего интересного» -- да-да, у нас такое есть) 🛒

🌻 Наши коллеги из ИПП ЕУ выложили в открытый доступ несколько интересных наборов данных и алгоритмов:
🧡Недавно ребята выложили данные бухгалтерской отчетности -- если у вас нет доступа к СПАРКу или вы хотите использовать его альтернативу, то вам сюда. А подробнее об этом наборе данных можно будет послушать на семинаре в ближайший четверг
🧡Если вы увлекаетесь исследованиями в области экономики права или давно искали корпус текстов для освоения NLP, то вам может быть интересно поработать с корпусом текстов российского законодательства
🧡Для тех, кто вынужден работать с запутанными структурами владения компаний, коллеги из ЕУ и Сколтеха разработали алгоритм для определения контролирующих владельцев

⚫️ Как же в признании в любви не рассказать, как можно объединить два прекрасных проекта? - Никак. Поэтому расскажем вам про Если быть точным и Сбериндекс:
🧡Если быть точным обрабатывает данные муниципальной статистики, которые уже можно использовать - там данные аж до 2024 года! Присмотритесь и к другим датасетам проекта, там много интересного
🧡Но границы муниципальных образований изменяются -- тут вам поможет версионный справочник СберИндекса, в котором есть данные по муниципальным образованиям и пространственный слой с границами муниципалитетов

♥️ Любовь к миру рождается из любви к себе ❤️❤️, поэтому расскажем вам и о тех данных, которые собраны нашими ручками и бережно положены в гитхаб:
🧡С дорогими коллегами собрали и обработали данные о ковидных ограничениях и заявках на пособия по безработице (за данные по пособиям отдельно благодарим ЦПУР) -- настоящий кладезь, который при объединении с другими датасетами может дать неиссякаемый источник работ
🧡Два года назад мы собрали и обработали данные о сделках с российскими стартапами -- с ними можно сделать много всего интересного (особенно если вы дополните ее ИНН)

И, конечно, не забывайте ссылаться на авторов, когда используете их данные -- это не просто часть концепции воспроизводимости исследований, форма поддержки авторов и возможность сделать им приятно, но и способ узнать о данных для кого-то еще. Это действительно важно, и даже тема недели любви к данным в этом году - Whose Data Is It, Anyway? 👍

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5🥰2
🕵 Революция достоверности: как изменились эмпирические исследования в экономике за 40 лет?

Экономическая наука сегодня стремительно развивается, осваивая новые методы анализа данных и причинно-следственных связей. "Революция достоверности" (credibility revolution) (Angrist & Pischke, 2010) изменила то, как экономисты отвечают на вопросы

Обычно примерно такой фразой мы с коллегами начинаем наш курс по эконометрике причинно-следственных связей, чтобы замотивировать студентов. Взгляните на график, который в 2016 году опубликовал The Economist. Впечатляет, не правда ли? Эта картинка ушла широко в массы, но есть нюанс – в статье не столько восхищаются экономистами, сколько… их критикуют

🚀 Модный приговор или градиент развития? (The Economist, 2016)
🟤В экономическом научном мире есть тренды: в разные годы на пике популярности были RCT, RDD, matching, DiD и другие методы
🟤Эти новшества действительно расширяют границы науки – помогают отвечать на сложные вопросы, раньше остававшиеся загадкой
🟤Но есть риск: модные методы начинают применять не всегда уместно – и именно это беспокоит The Economist, а также то, что методы могут формировать повестку исследований, а не наоборот

Но всё ли так плохо?💁‍♂️

😒"Причинные претензии" экономики (Garg, Fetzer, 2024)
🟤Прашант Гарг и Тимо Фетцер на основе базы из 44 000+ статей NBER и CEPR (1980–2023) показали, как экономисты сменили корреляции на строгий каузальный анализ
🟤В 1990 году только 4% статей содержали доказанные причинно-следственные связи, в 2020 году этот показатель вырос до 28%
🟤Больше всего каузальных исследований появилось в экономике здоровья, экономике города, поведенческой экономике и экономике развития

🙅‍♂️ Вся ли экономика движется в сторону причинности? (Goldsmith-Pinkham, 2024)
🟤Проанализировав 32 000+ публикаций NBER (1982–2024), Пол Голдсмит-Пинкхэм показал, что не все направления развиваются одинаково
🟤Прикладная микроэкономика – лидер в использовании квазиэкспериментальных методов (55% статей)
🟤Финансы внедряют причинные методы медленнее, но активно осваивают DiD
🟤Макроэкономика использует меньше квазиэкспериментальных методов, больше полагаясь на структурные модели

👨‍💻 Что ещё изменилось в методах? (Goldsmith-Pinkham, 2024)
🟤Упоминание идентификации (то есть четкого обоснования причинно-следственных связей в исследованиях) увеличилось с 2000 года, но с 2016 года стабилизировалось на уровне 40%
🟤Использование административных данных (например, налоговых отчетов, государственных баз данных) резко возросло с 2010 года
🟤"Графическая революция" (то есть рост использования графиков по сравнению с таблицами) стала особенно заметной в макроэкономике и финансах

Как нам кажется, во-первых, несмотря на то, что методы меняются, главный навык экономиста (да и исследователя в целом) – это умение замечать интересности и задавать правильные вопросы. И этого пока не умеет делать искусственный интеллект, которого все так боятся. Во-вторых, главное не только инструмент, но и руки, в которые он попадает: в зависимости от этого мы видим либо блестящие открытия, либо посредственные попытки что-то написать в угоду моде. И, конечно же, в-третьих, помните об ограничениях и предпосылках методов, которыми вы пользуетесь.
Всем классных исследований
💚

#канал_обозревает
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥4
Forwarded from Tatyana Cherkashina
А вообще-то пару недель назад ВШЭ сделала одно из масштабных обновлений данных РМЭЗ прошлых волн. Выложены обновленные индивидуальные файлы как за отдельные волны, так и объединенные массивы, в которые добавлены до этого отсутствовавшие переменные.

Например, в данные 2004-2008 добавлены переменные о пенсионных планах и отношении к пенсионной реформе (версии 2002-го года). В своё время мне этих переменных очень не хватало… В данные 2009 добавили переменные об отношении к деньгам, о финансовых установках; в файле 2012 года появились переменные о покупке алкоголя (чем руководствуются, что покупали, насколько легко купить в населенном пункте; эти переменные добавлены и в файлы следующих волн), про тревожность и нервозность; к данным 2015 года добавили переменные об отношении к представителям разных национальностей. Открыли, к примеру, переменные о некогнитивных навыках (2016); о социальном капитале (2018; к кому могли бы обратиться в разных ситуациях); о том, как переживали ковид и карантин (2020), насколько удовлетворены тем, как в семье принимаются финансовые решения (2021). В файл 2022 добавили среди других переменные о пользовании социальными сетями и платформами, так что могу вернуться к идее предложить в курсовых работах исследование цифровых мигрантов: панельный характер данных позволяет посмотреть, кто куда «переезжал» из виртуальных обжитых мест после запрета некоторых из них в начале 2022.

Назвала лишь несколько открытых тематических блоков, там ещё много интересного.
👍152
📊 Causal Inference для качественных данных

В конце февраля Риккардо Ди Франческо и Джованни Меллаче из Университета Южной Дании опубликовали препринт, где предложили новый подход, позволяющий корректно измерять причинные эффекты в случае качественных (qualitative, категориальных) зависимых переменных - то есть мультиномиальных (multinomial) или порядковых (ordered)

📖 А где до этого возникала проблема?
🟢Часто исследователей интересует, как что-то влияет на качественную переменную (исход представляет собой категорию) - например, уровень удовлетворенности, выбор вида транспорта, уровень образования, диагноз в медицине и т.д.
🟢Стандартно в таких случаях оценивается средний эффект (ATE, ATT, ATnT), но нельзя просто брать разницу между "доволен" и "очень доволен", как если бы это были непрерывные переменные
🟢В этой ситуации исследователям нужно перейти к другому способу измерения зависимой переменной или оценки эффекта

🆕 Что предлагают авторы?
🟢Они вводят Probability Shift (PS) — показатель, отражающий, как воздействие изменяет вероятность попадания в разные категории
🟢Вместо классического усреднения они оценивают, как изменяется распределение вероятностей между группами

🖥 Пакет causalQual
Риккардо Ди Франческо и Джованни Меллаче разработали R-пакет causalQual, который
🟢Адаптирует методы IV, DiD, RDD к категориальным данным
🟢Оценивает Probability Shift вместо средних эффектов

🔗 Исследование: arXiv
🔗 Документация пакета: GitHub

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍116👎1
💻 Новый практический гайд по difference-in-differences для исследователей

Мы уже писали, что метод "разности разностей" (Difference-in-Differences, DiD) — один из наиболее распространенных квазиэкспериментальных методов для оценки причинных эффектов в экономике и социальных науках (Garg, Fetzer, 2024; Goldsmith-Pinkham, 2024; Currie et al., 2020)

В середине марта весьма звёздный состав авторов опубликовал методологическое руководство-препринт для всех, кто использует DiD в прикладных исследованиях (Baker et al., 2025)

🙂 В чём ценность работы?
🟤Авторы систематизируют современные подходы к DiD и показывают, что классический дизайн с двумя группами и двумя периодами (2×2) — лишь частный случай
🟤Когда в данных много периодов, есть ступенчатое введение воздействия (staggered treatment adoption), а эффекты гетерогенны по группам или во времени (treatment effect heterogeneity), простое использование регрессии с двунаправленными фиксированными эффектами (Two-Way Fixed Effects, TWFE) может приводить к смещённым оценкам (Roth et al., 2023; de Chaisemartin & D’Haultfoeuille, 2023)
🟤Авторы предлагают переход от обратного проектирования (backwards engineering) (позитивный подход, когда исследователь ориентируется на существующие методы и пытается приспособить их к данным) к прямому проектированию (forward engineering) (нормативный подход, при котором исследователь начинает с определения целей исследования и строит модели и методы, которые соответствуют этим целям)
🟤В рамках этого подхода предлагается рассматривать сложные дизайны как комбинацию элементарных 2×2 сравнений (2×2 building blocks) и использовать аккуратную агрегацию результатов

🖥 Мы собрали основные пакеты в R, которые вам пригодятся в ваших исследованиях с использованием DiD
🟤did (Brantly Callaway, Pedro Sant’Anna) - оценка эффектов DiD при ступенчатом дизайне воздействия, множественных периодах и гетерогенности с агрегацией и визуализацией
🟤fixest (Laurent Berge) - быстрые панельные регрессии с фиксированными эффектами и поддержкой кластеризации и переменных взаимодействия (interactions)
🟤bacondecomp (Andrew Goodman-Bacon) - разложение TWFE-оценки на вклад парных сравнений. Используется для диагностики весов и потенциальных источников смещения
🟤did2s (Kyle Butts, Mike Gardner) - двухшаговая устойчивая оценка DiD при вариации времени воздействия
🟤DRDID (Pedro Sant’Anna, Jun Zhao) - двойная робастная оценка DiD через IPW и outcome regression

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥7👍4
ЦБ выложил микроданные шестой волны обследования домохозяйств по потребительским финансам

▪️ Скачать документацию, вопросники и сами данные можно тут.

▪️ По дизайну обследование очень похоже на знаменитый Российский мониторинг экономического положения и здоровья населения Вышкив нем есть панельная составляющая, т.е. часть одних и тех же домохозяйств и индивидов опрашивают в нескольких волнах.

Всего в 2024 г. опрошено 6079 домохозяйств. Из них в 5325 домохозяйствах повторно опрошены респонденты, ранее опрошенные в 5-ю волну обследования в 2022 г. Это составляет 87,6% всех семей, опрошенных в 2024 г. Кроме них, в 2024 году были также опрошены ещё 203 семьи, которые участвовали в обследовании хотя бы 1 раз в 2013-2020 гг., но пропустили участие в 2022 году. И еще 552 семьи были опрошены в 2024 году впервые.


▪️ Обследование включает вопросы про доходы и расходы домохозяйств, владение недвижимостью и другими активами, использование финансовых инструментов, ценовые ожидания и много чего еще.

👉 Подписаться на доказательный ⎵ пробел: https://t.me/evidencespace
🔥124👍3
Привет! Больше года назад мы запустили собственный каталог данных. За это время вышло 35 датасетов — их скачали более 25 тысяч раз. Сейчас мы думаем над планами по развитию каталога.

Пожалуйста, пройдите небольшой опрос. Он займет у вас более 5 минут. По его итогам мы выберем, какие наборы данных добавлять в каталог в этом году.
👍7🔥5👨‍💻1
Уровень бедности в одной и той же стране может различаться более чем на 30 процентных пунктов. ВБ обновил базу данных по субнациональной бедности и неравенству (SPID), теперь набор данных включает 2045 регионов из 133 стран, в том числе и России.

@evidencespace
🔥10👍5👨‍💻2
📚 Свежий курс, посвященный методам причинно-следственного анализа (causal inference) в социальных науках от Факультета политических наук Калифорнийского университета. На лекциях поприсутствовать не удастся, но презентации и практикумы доступны.

Примеры прикладных кейсов

🔘 Эффект запрета курения в Калифорнии (Abadie et al., 2010), последствия Brexit (Born et al., 2019).
🔘 Влияние минимальной зарплаты на занятость (Card & Krueger, 1993), эффекты локдауна в период COVID-19 (Friedson et al., 2020)
🔘 Влияние образования на доходы (Acemoglu et al., 2001), роль СМИ в авторитарных режимах (Kern & Hainmueller, 2009)

@evidencespace
👨‍💻6🔥5