доказательный ⎵ пробел
1.27K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
🟡 Часть про статистику невероятно хороша. Рассчитана на гуманитариев, так как основная аудитория лекций — сотрудники НКО. Основные блоки — про необходимый, но критически важный минимум проверки гипотез: ЦПТ, понятия точности и надежности, ошибки первого и второго рода. Уровень объяснения очень высокий, одновременно подробно и емко, на все основные статистические определения приводятся примеры применения из жизни. Много анимированных чартов с растущими колоколами, сдвигающимися распределениями.

🟡 Помогают вопросы из аудитории с последующими ответами и английский — на чужом языке нет вредной иллюзии понимания псевдо-легких концепций, поневоле замедляешься и до конца перевариваешь каждую формулу и высказывание.

🟡 Главным в контенте мне показалось описание опыта работы лаборатории по дизайну экспериментов, формированию групп и последующей работе с ними в процессе эксперимента и при оценке. Основное направление работы J-PAL — рандомизированные исследования. Подробно разбираются проблемы работы с группами: убывания участников, эффекты утечек информации, обмена групп участниками. Особенно хороши дизайны экспериментов с учетом взросления детей, растянутого входа в эксперимент с использованием новых групп как контрольных, есть отдельный блок про финансовую оценку воздействия.

🟡 Очень классные примеры про поиск респондентов через 5-10 лет после эксперимента, в других городах и странах. Подробно разбирают подход, при котором рандомизация и оценка происходят на разных уровнях, как считать и пересчитывать для таких случаев статические показатели. Все это с примерами и довольно подробно, но с учетом уровня лекторов, иногда, конечно, вспоминается анекдот про «отсюда, очевидно, следует...» в курсе лекций Ландау по физике.

«Ну, тут интуитивно понятно влияние размера вашей выборки на мощность» — говорит лектор. Мне кажется, что такая «интуиция» свойственна не всем людям. Несмотря на предыдущий блок статистики, для понимания многих рассуждений все-таки нужна не вводная, а довольно крепкая статистическая база.

Мне не хватило лекции про то, на чем, собственно, они замеряют эффекты — как будто предполагается, что это всегда параметрический анализ, но почему, не говорится.


Не знаю, насколько все это полезно для профессионалов в доказательной политике и социальных науках, но было очень интересно.

Подписывайтесь на канал Юлии: @conspect_labs
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5
Большой образовательный проект CORE-Econ (Curriculum Open-access Resources in Economics), который объединяет экономистов из разных стран и публикует много материалов по экономической теории, разместил курс лекций по экономике с разбором кейсов на данных «Doing Economics: empirical projects». Работа с данными разобрана на примере excel, google sheets, R и python (очень разносторонний набор инструментов).

Среди тем кейсов:
🔘 Оценка влияния налога на сахар в США с использованием DiD
🔘 Анализ управленческих практик в коммерческих компаниях стран мира
🔘 Оценка рисков банковских систем
🔘 Оценка влияния государственной политики на неравенство доходов

В библиотеке CORE также много интересного материала по анализу и оценке прошедших кризисов, исследованиям различных форм неравенства и подборок бесплатных обучающих курсов.

@evidencespace
🔥182
🌎 Возможно, нашим читателям уже знаком. Но в процессе своих исследований натолкнулись на отличный лонг-лист инструментов геопространственного анализа от географа Эдуардо Ласерда. Делимся: ссылка на лонг-лист

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
8👨‍💻2
5-7 июня 2025 года — третья конференция «New Advances in the Political Economy of Development in Eurasia», Алматы, Казахстан.
Рабочий язык - английский.
Тематика:
--Социальный капитал, доверие и культурные нормы
--Человеческий капитал и экономическое развитие
--Медиа и общественне мнение
--Конликты и их решение
--Коллективные дейсвтия и общественные блага
--Политические элиты и управление
--Сравнительная политика
--Проблема колеи
--Экономическая политика и общественное благосостояние

Ключевые докладчики: Дженнифер Ганди (Йельский Университет) и Рубен Ениколопов (Университет Поммеу Фабра)

Заявки до 28 февраля 2025 года: полные тексты статей или аннотации до 250 слов и резюме.
Результаты отбора заявок — 31 марта 2025 года.
Полные тексты статей от приглашённых атворов заявок — до16 мая 2025 года.
Подробности:

https://sites.google.com/view/polecon/call-for-papers
Forwarded from Профессорский кот (Yulia Vymyatnina)
Недавно рассказывала о собранной коллегами базе бухгалтерской отчетности российских компаний. В четверг в рамках нашего Городского экономического семинара пройдет ее презентация.

13 февраля в 18:00 Дмитрий Скугаревский (ЕУСПб) представит доклад "Российская база бухгалтерской отчетности: коллекция финансовой отчетности всех российских компаний".

Аннотация: Представляем вам Российскую базу бухгалтерской отчетности (РББО, RFSD) — первую открытую альтернативу СПАРК-Интерфакс, Ruslana, Контур.Фокус и СБИС. До сих пор исследователям приходилось покупать доступ к данным, формировать выгрузку и импортировать данные в статистический пакет. База собрана из официальных источников — ЕГРЮЛ ФНС, архивных данных Росстата и отчетностей, полученных через Государственный информационный ресурс бухгалтерских отчетностей (ГИР БО). Сейчас РББО охватывает 2011–2023 годы и содержит 56,6 млн наблюдений. В докладе мы рассмотрим процесс создания РББО и ее применения в исследованиях: оценка процентных расходов российских компаний, оценка производственной функции предприятий обрабатывающей промышленности, а также новый способ оценить пространственное распределение ВВП России. РББО свободно доступна по адресу http://github.com/irlcode/RFSD

Мы приглашаем посетить семинар очно - заседание пройдет в Гагаринском зале ЕУСПб (адрес: Гагаринская, 6, вход с улицы Гагаринская). Но есть также возможность подключиться к семинару онлайн. В любом случае зарегистрируйтесь, пожалуйста, тут
👍104🎉3
🟩 Неделя любви к данным… и благодарности их создателям!❤️

В честь недели любви к данным (Love Data Week 2025) мы решили сделать для вас подборку с обзором некоторых отраслевых данных, которые лежат в нашем «хранилище всего интересного» -- да-да, у нас такое есть) 🛒

🌻 Наши коллеги из ИПП ЕУ выложили в открытый доступ несколько интересных наборов данных и алгоритмов:
🧡Недавно ребята выложили данные бухгалтерской отчетности -- если у вас нет доступа к СПАРКу или вы хотите использовать его альтернативу, то вам сюда. А подробнее об этом наборе данных можно будет послушать на семинаре в ближайший четверг
🧡Если вы увлекаетесь исследованиями в области экономики права или давно искали корпус текстов для освоения NLP, то вам может быть интересно поработать с корпусом текстов российского законодательства
🧡Для тех, кто вынужден работать с запутанными структурами владения компаний, коллеги из ЕУ и Сколтеха разработали алгоритм для определения контролирующих владельцев

⚫️ Как же в признании в любви не рассказать, как можно объединить два прекрасных проекта? - Никак. Поэтому расскажем вам про Если быть точным и Сбериндекс:
🧡Если быть точным обрабатывает данные муниципальной статистики, которые уже можно использовать - там данные аж до 2024 года! Присмотритесь и к другим датасетам проекта, там много интересного
🧡Но границы муниципальных образований изменяются -- тут вам поможет версионный справочник СберИндекса, в котором есть данные по муниципальным образованиям и пространственный слой с границами муниципалитетов

♥️ Любовь к миру рождается из любви к себе ❤️❤️, поэтому расскажем вам и о тех данных, которые собраны нашими ручками и бережно положены в гитхаб:
🧡С дорогими коллегами собрали и обработали данные о ковидных ограничениях и заявках на пособия по безработице (за данные по пособиям отдельно благодарим ЦПУР) -- настоящий кладезь, который при объединении с другими датасетами может дать неиссякаемый источник работ
🧡Два года назад мы собрали и обработали данные о сделках с российскими стартапами -- с ними можно сделать много всего интересного (особенно если вы дополните ее ИНН)

И, конечно, не забывайте ссылаться на авторов, когда используете их данные -- это не просто часть концепции воспроизводимости исследований, форма поддержки авторов и возможность сделать им приятно, но и способ узнать о данных для кого-то еще. Это действительно важно, и даже тема недели любви к данным в этом году - Whose Data Is It, Anyway? 👍

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5🥰2
🕵 Революция достоверности: как изменились эмпирические исследования в экономике за 40 лет?

Экономическая наука сегодня стремительно развивается, осваивая новые методы анализа данных и причинно-следственных связей. "Революция достоверности" (credibility revolution) (Angrist & Pischke, 2010) изменила то, как экономисты отвечают на вопросы

Обычно примерно такой фразой мы с коллегами начинаем наш курс по эконометрике причинно-следственных связей, чтобы замотивировать студентов. Взгляните на график, который в 2016 году опубликовал The Economist. Впечатляет, не правда ли? Эта картинка ушла широко в массы, но есть нюанс – в статье не столько восхищаются экономистами, сколько… их критикуют

🚀 Модный приговор или градиент развития? (The Economist, 2016)
🟤В экономическом научном мире есть тренды: в разные годы на пике популярности были RCT, RDD, matching, DiD и другие методы
🟤Эти новшества действительно расширяют границы науки – помогают отвечать на сложные вопросы, раньше остававшиеся загадкой
🟤Но есть риск: модные методы начинают применять не всегда уместно – и именно это беспокоит The Economist, а также то, что методы могут формировать повестку исследований, а не наоборот

Но всё ли так плохо?💁‍♂️

😒"Причинные претензии" экономики (Garg, Fetzer, 2024)
🟤Прашант Гарг и Тимо Фетцер на основе базы из 44 000+ статей NBER и CEPR (1980–2023) показали, как экономисты сменили корреляции на строгий каузальный анализ
🟤В 1990 году только 4% статей содержали доказанные причинно-следственные связи, в 2020 году этот показатель вырос до 28%
🟤Больше всего каузальных исследований появилось в экономике здоровья, экономике города, поведенческой экономике и экономике развития

🙅‍♂️ Вся ли экономика движется в сторону причинности? (Goldsmith-Pinkham, 2024)
🟤Проанализировав 32 000+ публикаций NBER (1982–2024), Пол Голдсмит-Пинкхэм показал, что не все направления развиваются одинаково
🟤Прикладная микроэкономика – лидер в использовании квазиэкспериментальных методов (55% статей)
🟤Финансы внедряют причинные методы медленнее, но активно осваивают DiD
🟤Макроэкономика использует меньше квазиэкспериментальных методов, больше полагаясь на структурные модели

👨‍💻 Что ещё изменилось в методах? (Goldsmith-Pinkham, 2024)
🟤Упоминание идентификации (то есть четкого обоснования причинно-следственных связей в исследованиях) увеличилось с 2000 года, но с 2016 года стабилизировалось на уровне 40%
🟤Использование административных данных (например, налоговых отчетов, государственных баз данных) резко возросло с 2010 года
🟤"Графическая революция" (то есть рост использования графиков по сравнению с таблицами) стала особенно заметной в макроэкономике и финансах

Как нам кажется, во-первых, несмотря на то, что методы меняются, главный навык экономиста (да и исследователя в целом) – это умение замечать интересности и задавать правильные вопросы. И этого пока не умеет делать искусственный интеллект, которого все так боятся. Во-вторых, главное не только инструмент, но и руки, в которые он попадает: в зависимости от этого мы видим либо блестящие открытия, либо посредственные попытки что-то написать в угоду моде. И, конечно же, в-третьих, помните об ограничениях и предпосылках методов, которыми вы пользуетесь.
Всем классных исследований
💚

#канал_обозревает
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥4
Forwarded from Tatyana Cherkashina
А вообще-то пару недель назад ВШЭ сделала одно из масштабных обновлений данных РМЭЗ прошлых волн. Выложены обновленные индивидуальные файлы как за отдельные волны, так и объединенные массивы, в которые добавлены до этого отсутствовавшие переменные.

Например, в данные 2004-2008 добавлены переменные о пенсионных планах и отношении к пенсионной реформе (версии 2002-го года). В своё время мне этих переменных очень не хватало… В данные 2009 добавили переменные об отношении к деньгам, о финансовых установках; в файле 2012 года появились переменные о покупке алкоголя (чем руководствуются, что покупали, насколько легко купить в населенном пункте; эти переменные добавлены и в файлы следующих волн), про тревожность и нервозность; к данным 2015 года добавили переменные об отношении к представителям разных национальностей. Открыли, к примеру, переменные о некогнитивных навыках (2016); о социальном капитале (2018; к кому могли бы обратиться в разных ситуациях); о том, как переживали ковид и карантин (2020), насколько удовлетворены тем, как в семье принимаются финансовые решения (2021). В файл 2022 добавили среди других переменные о пользовании социальными сетями и платформами, так что могу вернуться к идее предложить в курсовых работах исследование цифровых мигрантов: панельный характер данных позволяет посмотреть, кто куда «переезжал» из виртуальных обжитых мест после запрета некоторых из них в начале 2022.

Назвала лишь несколько открытых тематических блоков, там ещё много интересного.
👍152
📊 Causal Inference для качественных данных

В конце февраля Риккардо Ди Франческо и Джованни Меллаче из Университета Южной Дании опубликовали препринт, где предложили новый подход, позволяющий корректно измерять причинные эффекты в случае качественных (qualitative, категориальных) зависимых переменных - то есть мультиномиальных (multinomial) или порядковых (ordered)

📖 А где до этого возникала проблема?
🟢Часто исследователей интересует, как что-то влияет на качественную переменную (исход представляет собой категорию) - например, уровень удовлетворенности, выбор вида транспорта, уровень образования, диагноз в медицине и т.д.
🟢Стандартно в таких случаях оценивается средний эффект (ATE, ATT, ATnT), но нельзя просто брать разницу между "доволен" и "очень доволен", как если бы это были непрерывные переменные
🟢В этой ситуации исследователям нужно перейти к другому способу измерения зависимой переменной или оценки эффекта

🆕 Что предлагают авторы?
🟢Они вводят Probability Shift (PS) — показатель, отражающий, как воздействие изменяет вероятность попадания в разные категории
🟢Вместо классического усреднения они оценивают, как изменяется распределение вероятностей между группами

🖥 Пакет causalQual
Риккардо Ди Франческо и Джованни Меллаче разработали R-пакет causalQual, который
🟢Адаптирует методы IV, DiD, RDD к категориальным данным
🟢Оценивает Probability Shift вместо средних эффектов

🔗 Исследование: arXiv
🔗 Документация пакета: GitHub

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍116👎1
💻 Новый практический гайд по difference-in-differences для исследователей

Мы уже писали, что метод "разности разностей" (Difference-in-Differences, DiD) — один из наиболее распространенных квазиэкспериментальных методов для оценки причинных эффектов в экономике и социальных науках (Garg, Fetzer, 2024; Goldsmith-Pinkham, 2024; Currie et al., 2020)

В середине марта весьма звёздный состав авторов опубликовал методологическое руководство-препринт для всех, кто использует DiD в прикладных исследованиях (Baker et al., 2025)

🙂 В чём ценность работы?
🟤Авторы систематизируют современные подходы к DiD и показывают, что классический дизайн с двумя группами и двумя периодами (2×2) — лишь частный случай
🟤Когда в данных много периодов, есть ступенчатое введение воздействия (staggered treatment adoption), а эффекты гетерогенны по группам или во времени (treatment effect heterogeneity), простое использование регрессии с двунаправленными фиксированными эффектами (Two-Way Fixed Effects, TWFE) может приводить к смещённым оценкам (Roth et al., 2023; de Chaisemartin & D’Haultfoeuille, 2023)
🟤Авторы предлагают переход от обратного проектирования (backwards engineering) (позитивный подход, когда исследователь ориентируется на существующие методы и пытается приспособить их к данным) к прямому проектированию (forward engineering) (нормативный подход, при котором исследователь начинает с определения целей исследования и строит модели и методы, которые соответствуют этим целям)
🟤В рамках этого подхода предлагается рассматривать сложные дизайны как комбинацию элементарных 2×2 сравнений (2×2 building blocks) и использовать аккуратную агрегацию результатов

🖥 Мы собрали основные пакеты в R, которые вам пригодятся в ваших исследованиях с использованием DiD
🟤did (Brantly Callaway, Pedro Sant’Anna) - оценка эффектов DiD при ступенчатом дизайне воздействия, множественных периодах и гетерогенности с агрегацией и визуализацией
🟤fixest (Laurent Berge) - быстрые панельные регрессии с фиксированными эффектами и поддержкой кластеризации и переменных взаимодействия (interactions)
🟤bacondecomp (Andrew Goodman-Bacon) - разложение TWFE-оценки на вклад парных сравнений. Используется для диагностики весов и потенциальных источников смещения
🟤did2s (Kyle Butts, Mike Gardner) - двухшаговая устойчивая оценка DiD при вариации времени воздействия
🟤DRDID (Pedro Sant’Anna, Jun Zhao) - двойная робастная оценка DiD через IPW и outcome regression

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥7👍4
ЦБ выложил микроданные шестой волны обследования домохозяйств по потребительским финансам

▪️ Скачать документацию, вопросники и сами данные можно тут.

▪️ По дизайну обследование очень похоже на знаменитый Российский мониторинг экономического положения и здоровья населения Вышкив нем есть панельная составляющая, т.е. часть одних и тех же домохозяйств и индивидов опрашивают в нескольких волнах.

Всего в 2024 г. опрошено 6079 домохозяйств. Из них в 5325 домохозяйствах повторно опрошены респонденты, ранее опрошенные в 5-ю волну обследования в 2022 г. Это составляет 87,6% всех семей, опрошенных в 2024 г. Кроме них, в 2024 году были также опрошены ещё 203 семьи, которые участвовали в обследовании хотя бы 1 раз в 2013-2020 гг., но пропустили участие в 2022 году. И еще 552 семьи были опрошены в 2024 году впервые.


▪️ Обследование включает вопросы про доходы и расходы домохозяйств, владение недвижимостью и другими активами, использование финансовых инструментов, ценовые ожидания и много чего еще.

👉 Подписаться на доказательный ⎵ пробел: https://t.me/evidencespace
🔥124👍3
Привет! Больше года назад мы запустили собственный каталог данных. За это время вышло 35 датасетов — их скачали более 25 тысяч раз. Сейчас мы думаем над планами по развитию каталога.

Пожалуйста, пройдите небольшой опрос. Он займет у вас более 5 минут. По его итогам мы выберем, какие наборы данных добавлять в каталог в этом году.
👍7🔥5👨‍💻1
Уровень бедности в одной и той же стране может различаться более чем на 30 процентных пунктов. ВБ обновил базу данных по субнациональной бедности и неравенству (SPID), теперь набор данных включает 2045 регионов из 133 стран, в том числе и России.

@evidencespace
🔥10👍5👨‍💻2
📚 Свежий курс, посвященный методам причинно-следственного анализа (causal inference) в социальных науках от Факультета политических наук Калифорнийского университета. На лекциях поприсутствовать не удастся, но презентации и практикумы доступны.

Примеры прикладных кейсов

🔘 Эффект запрета курения в Калифорнии (Abadie et al., 2010), последствия Brexit (Born et al., 2019).
🔘 Влияние минимальной зарплаты на занятость (Card & Krueger, 1993), эффекты локдауна в период COVID-19 (Friedson et al., 2020)
🔘 Влияние образования на доходы (Acemoglu et al., 2001), роль СМИ в авторитарных режимах (Kern & Hainmueller, 2009)

@evidencespace
👨‍💻6🔥5
В феврале этого года ОЭСР обновила свои рекомендации по оценке программ и политик для стран участниц в части использования гайда, принятого Советом по оценке госполитики в 2022 году.

В приложении к рекомендациям - репозиторий всех документов, принятых странами ОЭСР по оценке - фактически существующий на сегодня ландшафт институтов в этой области. Рекомендации в принципе интересны с позиции институционализации и внедрения практик оценки на уровне государств. Так, например, появляются весьма достойные кейсы оценки в органах аудита Испании: оценка влияния мер по повышению устойчивости пенсионной системы; Швеции: оценка результативности международной помощи; и другие.

@evidencespace
🔥8👍2
Forwarded from Профессорский кот (Yulia Vymyatnina)
Экономисты все чаще используют в исследованиях спутниковые данные – создают прокси экономической активности, изучают распределение дохода, эффективность программ государственной поддержки в беднейших странах, воссоздают исторические ряды данных, которые не получить другими методами. Ниже – небольшая подборка ресурсов с информацией со спутников по ссылкам из статей (сюда же отношу и систему идентификации судов). На полноту не претендую, но возможно, кому-то будет полезно. Дополнения приветствуются!

World Meteorological Organization’s OSCAR database (список спутников, доступных данных и областей применения)

Landsat (городская застройка, пляжи, леса, залежи полезных ископаемых)

MODIS (загрязнение воздуха, отслеживание передвижения рыбы)

Ночная светимость (оценка дохода, развития, использование электричества)
Агрегирование данных по ночной светимости по регионам (ссылка 1, ссылка 2)

SRTM (относительная высота, доступность территорий)

EROS (данные о типе покрытия земной поверхности)

Open Street Map (вспомогательный источник информации на основе данных пользователей, дополняет спутниковые снимки)

Google Earth Engine (каталог спутниковых снимков и геопространственных данных)

Copernicus Open Access Hub (инициатива ЕС по предоставлению данных – со спутников и не только)

PortWatch (отслеживание природных катастроф и симуляции последствий для мировой торговли; включают данные AIS – Automatic Identification System)

#в_помощь_исследователю #подборка_данные
👍10🔥53