Как мы считали
2.32K subscribers
98 photos
1 video
124 links
сами себе дата-отдел

связаться с нами: @datafeedback_bot
Download Telegram
Большие новости — теперь на «Если быть точным» есть каталог датасетов! Поддержите нас, чтобы он пополнялся

Привет! Это команда «Если быть точным». Наверняка вы знаете, что данные в России исчезают. Сведения о доходах и расходах чиновников, информация о госзакупках подсанкционных компаний, миграционная статистика — с 24 февраля 2022 года более 20 наборов данных были скрыты полностью или частично. Последние месяцы мы занимались тем, что пытались их «спасти».

Так у нас на сайте появился каталог — раздел с открытыми данными, собранными в удобные машиночитаемые датасеты. В таком формате вы их больше нигде не найдете. Чтобы собрать эти данные, мы обработали сотни таблиц из pdf-файлов, нашли скрытые API в недрах сайтов ведомств и вернулись в прошлое с помощью Wayback Machine, чтобы вернуть удаленные показатели.

Для каждого набора мы подготовили описание — об источниках, полноте и качестве данных. Доступных датасетов пока восемь.

🔸 Атмосфера: степень загрязнения в городах России с 2007 года. Данные для 220 населенных пунктов, в которых Росгидромет проводит регулярные наблюдения.

🔸 Объекты-загрязнители. Данные обо всех объектах, которые производят выбросы в стране, и о вредных веществах, которые в них содержатся. Ранее Росприроднадзор их скрыл.

🔸 Социально-экономические показатели. Почти 500 показателей о регионах России за 20 лет — от социально-демографических данных и уровня жизни до доходов и внешней торговли.

🔸 Учреждения уголовно-исполнительной системы. Из чего состоят, кто в них работает и за какие преступления в них сидят.

🔸 Смертность и заболеваемость среди заключенных и осужденных. Почти всю эту информацию ФСИН засекретила.

🔸 Преступность в России. Данные с 2011 года о типах и количестве правонарушений. Собраны с Портала правовой статистики
Генеральной прокуратуры, который перестал обновляться с начала этого года.

🔸 Волны жары. Длительные периоды жары летом 2023 года в 45 городах страны.

🔸 Онкология: численность больных и показатели диагностики. Обработанные данные из ежегодников Минздрава за последние 16 лет.

А еще мы запускаем отдельный чат для обсуждения и обмена знаниями об открытых данных. Если вы часто работаете со статистикой, любите обсуждать данные, у вас много вопросов или ответов — наше сообщество для вас.

Открытых данных становится все меньше, но многие еще доступны. Собрать их все в одиночку нам не под силу. Если вы хотите помочь — напишите в наш бот. Сохраним открытые данные вместе.
🔥123
Мы изучили 8,4 тысячи сообщений в бот поддержки русскоязычных израильтян во время войны. Главная эмоция этих людей — тревога, а не ненависть

Привет, это Алеся Соколова. Недавно вышел мой материал о том, что русскоязычные израильтяне пишут в бот поддержки во время войны.

Когда ХАМАС напал на Израиль, мои знакомые из израильского стартапа AskRobot попросили меня помочь с их новым ботом. Его основная идея — собрать в одном месте всю информацию, которая может понадобиться в связи с войной. Моя роль была в том, чтобы подключить к боту источники из фейсбука.

Как человеку, помогающему с разработкой, мне дали доступ к логам бота, т.е. к анонимизированным сообщениям, которые ему отправляют пользователи. Читать их оказалось очень интересно: как будто заглядываешь в голову к тем, кто сейчас в Израиле.

Я сразу заметила, что это сильно отличается от того, что пишут в соцсетях. Поэтому на основе этих данных мы решили сделать небольшое исследование. С помощью модели машинного обучения BERTopic я выделила из вопросов боту наиболее частые темы.

Одной из самых популярных тем оказалось проявление тревоги и страха (22% всех обращений). Помимо прямых проявлений, тревога заметна в практических вопросах, которые задают боту: наприме, как улететь или, наоборот, прилететь в Израиль, как использовать бомбоубежища.

Кроме сообщений в стиле "мне страшно", люди часто задают вопросы о том, когда закончится война, и вступят ли в нее Иран и Ливан. Кроме того, пользователи бота интересовались историей и политикой арабо-израильского конфликта: спрашивали о том, как появилась Палестина, виноват ли Израиль и какое будущее ждет сектор Газа.

Полной картины общественных настроений в Израиле такое исследование, конечно, не дает. Но оно показывает, что основные эмоции русскоязычных жителей Израиля (по крайней мере недавних репатриантов, которые пользуются ботом) отличаются от того, что больше всего заметно в соцсетях. Люди чаще всего проявляют не ненависть, а страх и тревогу, и пытаются рефлексировать о причинах конфликта.

Полностью материал можно почитать здесь.
👍10🔥2
С начала войны РИА «Новости» 11628 раз упомянули предложение «Россия наносит удары исключительно по военной инфраструктуре», подсчитала «Новая-Европа»

РИА «Новости» — пожалуй, главное пропагандистское СМИ России. Вот уже 10 лет оно объясняет стране, что такое «хорошо», а что такое «плохо». Нарративы пропаганды помогли миллионам россиян разрешить моральные дилеммы и объяснить себе, почему война — «лучший путь примириться с соседом», а Россия — просто не может быть неправой.

🗓Все началось в 2013 году, когда в разгар протестов на Майдане либеральное по госмеркам РИА «Новости» присоединяют к новой медиа-группе «Россия сегодня». Главой медиа-монстра стал телеведущий Дмитрий Киселев.

С тех пор РИА «Новости» начинает готовить россиян к войне. В десятках тысяч заметок агентство объясняло, как относиться к тому, что происходит в России и Украине — и будет происходить после 24 февраля 2022 года.

«Новая-Европа» и «Декодер» проанализировали 3,5 миллиона статей РИА «Новости» и выяснили, как в России сформировалась иллюзия правды.

Подробности — на сайте нашего нового спецпроекта В СЕТЯХ ПРОПАГАНДЫ.

🫂 Поддержать нас пожертвованием
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍3🎉3👎1
💡 Читателей «Новой-Европа» приглашают принять участие в ежегодном онлайн-хакатоне «Прожектор 2024: данные и технологии против пропаганды».

В центре внимания — сервисы, инструменты, данные, визуализации, исследования и расследования, снижающие вред от государственной пропаганды в России.

🔷 Участвовать могут программисты, активисты, представители НКО, исследователи, IT-специалисты, журналисты, дизайнеры и прочие энтузиасты, которые любят работать с данными.

➡️ Участие в хакатоне бесплатное. Общий призовой фонд — 6000 евро.

🗓 Хакатон состоится в онлайн-формате 17-18 февраля 2024 года. Регистрация открыта до 15-го февраля 2024 года включительно (решение о вашем участии придет в течение 5 дней) 👉 https://pd.te-st.org/projector2024/

📍Подробности — по ссылке 👉 https://te-st.org/events/projector2024/
👍31🔥1
За эту зиму в России произошло рекордное число коммунальных аварий. За два месяца от них пострадали три миллиона россиян

Привет, это Даша Таланова. На днях вышло наше исследование о коммунальных авариях в России. Судя по сообщениям в медиа, этой зимой их было больше обычного — без отопления оставались целые города. Мы решили проверить на данных, действительно ли эта зима стала рекордной по числу аварий, сколько человек от них пострадало и почему трубы в России рвутся все чаще.

Откуда данные?

Чтобы получить свежие данные, мы скачали новости о коммунальных авариях из тг-каналов федеральных и локальных медиа. Из полученных сообщений мы также постарались выяснить масштаб и причины происшествий.

Свои данные мы дополнили официальной статистикой. Росстат, к примеру, сообщает, что более 40% труб нуждаются в замене, а из данных Минстроя следует, что каждый день в России происходит в среднем по 220 коммунальных происшествий.

Основные выводы

🔹Только за декабрь и январь произошло минимум 557 коммунальных аварий — это больше, чем за всю прошлую зиму.

🔹За январь с перебоями ЖКХ столкнулись как минимум 1,5 миллиона россиян — больше, чем за весь 2022 год.

🔹Коммунальные аварии — это не только вопрос бытового комфорта, но и реальная угроза жизни людей. В 2023 году число жертв коммунальных аварий выросло в 2,5 раза. Более 100 человек пострадали из-за прорыва труб, еще 36 — из-за взрыва бытового газа.

🔹Новости о крупных происшествиях приходят со всей страны — это общероссийская проблема. Только этой зимой коммунальные аварии произошли в 59 регионах.

🔹Основная причина — изношенные трубы. По данным Росстата за 2022 год, 88% всех перебоев теплоснабжения произошли из-за аварий на теплосетях. А вот источники тепла — котельные и ТЭЦ — сбои дают гораздо реже. По нашим данным, с 2016 года медиа сообщили почти о тысяче аварий на трубопроводах и только о 22 авариях на ТЭЦ.

Полный текст исследование читайте по ссылке.
👍7🔥4
Z-телеграм в начале войны резко обрел популярность, но политической силой так и не стал. Мы сделали самую полную (и единственную) его карту

Привет, это Алеся Соколова. За несколько часов до убийства Навального вышел наш с соавторами текст про z-телеграм. В тот день по понятным причинам его не заметили, и напоминать о нем в следующие 2 недели уместным не казалось. Но мы продолжаем жить и работать, то есть не сдаемся, поэтому про текст все же расскажем. Ведь изучение z-телеграма важно для составления полной картины российской пропаганды, которая делает возможным не только войну в Украине, но и репрессии и политические убийства.

Как готовился материал

Текст начали готовить год назад: команда на прошлогоднем хакатоне "Прожектор", в которую входил мой соавтор @sv9t_channel, скачала весь телеграм (точнее, открытую его часть) и построила его полную карту. Они заметили, что российский пропагандистский сегмент выглядит необычно плотным: кроме того, что в него входит огромное количество каналов, они неестественно часто друг друга репостят.

В июне я подключилась к проекту и мы начали писать текст. Сначала текст должен был быть про каналы Пригожина, потом Пригожина убили (кстати, еще одно политическое убийство, которое российский режим считает нормой) и эта идея перестала быть так актуальна, как минимум потому что многие пригожинские каналы перестали существовать. Текст пришлось полностью переделывать, поэтому вышел он только сейчас. В итоге мы решили сфокусироваться на z-телеграме как целом, его эволюции и влиянии.

Что мы узнали о z-каналах

Главное, что мы сделали — это категоризировали практически все имеющие влияние каналы в телеграме, которые поддерживают войну, и определили их связи друг с другом. Мы фокусировались только на тех каналах, которые правда кто-то читает и репостит. В итоге их получилось разбить на фракции: системные каналы (куда входят государственные медиа), "турбопатриоты" (военкоры и схожие персонажи), бывшие пригожинские каналы, каналы политиков и партий, аналитики-инсайдеры, провоенные культурные деятели и каналы силовиков. Все эти фракции каналов связаны друг с другом репостами, причем в начале войны связь между фракциями была сильнее, а со временем они поляризовались.

Стратегии репостов прогосударственных каналов интересны для изучения сами по себе: количество репостов у них настолько высоко и несравнимо с любыми другими телеграм-каналами, что естественными причинами это объяснить сложно. Скорее всего, дело в огромном количестве сеток и целенаправленных вложениях в раскрутку. Здесь речь уже не столько о z-каналах в их стандартном значении, сколько о пропагандистских медиа, например RT и РИА Новости, и каналах различных госструктур. К примеру, по количеству цитирований канал Дептранса Москвы не уступает каналам Зеленского или Медузы.

На популярность z-каналов такая цитируемость тоже влияет: в начале вторжения системые каналы (например, те же RT и РИА) активно репостили турбопатриотов (и наоборот), что способствовало взрывному (нередко в сотни раз) росту популярности военкорских каналов.

Сейчас их популярность уже не растет, и скорее даже идет на спад. Вероятно, с одной стороны это объясняется тем, что уровень "турбопатриотизма" населения снижается, с другой — что политической силой z-каналы так и не стали: вся их активность ограничивается требованиями от государства того, что оно и так собиралось сделать, и жалобами на недостаток чего-то на фронте, которые остаются без ответа.

Полный текст исследования, а также очень красивый интерактивный граф, можно увидеть по ссылке.
🔥11👍75👎1👏1
❗️Около половины голосов за Владимира Путина на президентских выборах были вброшены, показывают расчеты «Новой-Европа»

С помощью метода математика Сергея Шпилькина мы оценили долю «аномальных» голосов на прошедших выборах. Мы использовали данные по итогам обработки 97% протоколов ЦИК, собранных каналом Невыборы.

Без учета электронного голосования, в выборах приняли участие 74,5 млн избирателей. 64,7 млн из них, по данным ЦИК, проголосовали за Путина.

Из нашего анализа следует, что Путин получил не меньше 31,6 млн голосов с помощью фальсификаций, то есть около половины голосов за него были вброшены.

Это рекордный масштаб подделки голосов на президентских выборах в России. Фальсификаций было настолько много, что область «честных» голосов статистическими методами выделить практически невозможно.

Метод Шпилькина выявляет, сколько голосов было «добавлено» победителю за счет вброса бюллетеней и переписывания итоговых протоколов. Для этого сопоставляется распределение голосов за разных кандидатов с явкой на каждом отдельном участке.

Если выборы прошли честно, распределение за кандидата-лидера и всех прочих кандидатов должны быть идентичны –  отличаться только по абсолютному значению за счет разного количества голосов, а не по форме. Однако вброс за одного из кандидатов влияет на распределение: он увеличивает и явку, и результат.

Более подробно про оценку вбросов мы расскажем в ближайших публикациях.

Подписаться на «Новую-Европа»
Please open Telegram to view this post
VIEW IN TELEGRAM
🤬18😱6👍4👏3
У нас новости! Мы обновили каталог датасетов — теперь в нем есть 240 миллионов строк муниципальной статистики, 135 тысяч судебных дел об убийствах и данные о смертности с 1999 года

В начале декабря мы запустили каталог — раздел с открытыми данными, собранными в удобные машиночитаемые датасеты. С тех пор им воспользовались больше трех тысяч раз, а данные скачивали как журналисты, так и исследователи.

Сегодня мы открыли доступ к пяти новым датасетам — четыре из них не найти в других источниках.

◾️Муниципальная статистика c 2005 года. Это самый детализированный источник о жизни россиян. Здесь численность населения, миграция, зарплаты, доходы и расходы местных бюджетов, финансовые результаты компаний и много чего еще — всего 546 показателей. Можно скачать как отдельный показатель, так и подборку по определенной теме.

◾️Проекты конкурса Фонда президентских грантов c 2017 года. Все поданные за семь лет заявки с подробными описаниями и суммами, которую получили победители. Можно смотреть, как изменились приоритеты государственной грантовой поддержки в последние годы.

◾️Коэффициенты смертности в регионах России. Мы собрали длинные ряды коэффициентов смертности от разных причин с 1999 года в разрезе регионов, пола и возрастных групп.

◾️Дела и тексты судебных решений по статье 105 УК «Убийство». В этом датасете 135 тысяч судебных дел за восемь лет. Он поможет проанализировать, при каких обстоятельствах в России чаще всего совершаются убийства и что влияет на решение суда.

◾️Численность населения в муниципальных образованиях и населенных пунктах с разбивкой на мужчин и женщин. Мы пересобрали итоги переписи в удобный для работы формат плоской таблицы. А еще обогатили данными сервиса DaData о географических координатах муниципальных образований и населенных пунктов.

⚫️Если у вас есть пожелания по форматам данных или новым наборам — напишите в чат. Ваши замечания мы учтем в новых обновлениях. Чтобы у нас получилось собирать больше датасетов — поддержите нас. Это можно сделать через Boosty или Patreon.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7🔥2
🔔 Дискуссия «Не совсем черный ящик: как сегодня исследовать Россию с помощью открытых данных»

Для участия в дискуссии необходимо пройти регистрацию: https://us06web.zoom.us/meeting/register/tZwtf-qtpjwvHtUrnsI28DUC4KBxNdFjRP9K

Когда: 30 апреля, вторник, 20:00 по мск
Где: Zoom

После полномасштабного вторжения в Украину Россия стала закрытой страной. Исследователи потеряли доступ к своим источникам. Тем не менее не все официальные российские данные всегда фальсифицируются и до сих пор остаются возможности для стороннего наблюдателя.

Россия, в отличие от Северной Кореи или Советского Союза, не стремится полностью отгородиться от внешнего мира (по крайней мере, пока). Несмотря на цензуру военного времени, в России по-прежнему остаётся много высококачественных открытых данных и главное — как правильно их использовать.

Об этих инструментах и оставшихся возможностях расскажет Арнольд Хачатуров, редактор дата-отдела «Новой газеты Европа» и основатель проекта Cedar

🔵Подписывайтесь на канал «Первым рейсом»
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41👎1🔥1
Forwarded from Cedar
Ищем интерна в совместный проект Cedar и инициативы Ideas for Russia Фонда Бориса Немцова!

📈 О чем проект

Цель — исследовать динамику российских элит после полномасштабного вторжения в Украину, с фокусом на заместителях руководителей федеральных органов исполнительной власти.

Предлагается оценить фракционность элиты, конфликты, сдержки и противовесы. Для этого будет создан датасет, включающий информацию о внутриэлитных репрессиях, санкциях и их влиянии на карьерный рост, назначенях и увольнениях, степени участия в военных действиях и военной риторике.

Результатом проекта будет опубликованный отчет и датасет. Подробнее о проекте можно почитать здесь.

👨‍💼 Кто ментор проекта

Dr. Fabian Burkhardt — постдок в исследовательской группе по политологии в Институте Лейбница по изучению Восточной и Юго-Восточной Европы (IOS) в Регенсбурге, Германия, non-resident associate fellow Германского совета по международным отношениям (DGAP), соредактор «Russian Analytical Digest» и «Russland-Analysen». Научная работа Dr. Fabian Burkhardt сфокусирована на сравнительном авторитаризме, в частности в России и Беларуси.

🔍 Кого мы ищем

Проактивнного студента любого уровня (старшие курсы бакалавриата, магистратура, PhD), заинтересованного в теме проекта и академической литературе о российской политике, авторитарных режимах, войнах, элитах и т.д.

Интерес и навыки в сферах кодирования биографий, обработки и визуализации данных, количественного или качественного анализа текста или анализа соцсетей будут плюсом.

Обязательно знание русского языка. Стажировка будет проходить на английском.

📚 В чем заключается работа

В зависимости от интересов и квалификации, можно участвовать в проекте на этапах обзора литературы, сбора новых данных и анализа существующих, анализа и написания статей.

📅 Сроки и условия

Длительность программы — 6 месяцев, начиная с июля 2024 года.

Стажировка будет проходить онлайн. При желании можно организовать краткосрочное пребывание в IOS (Регенсбург, Германия) за свой счет.

В связи с признанием Фонда Немцова «нежелательной организацией», заявки от исследователей, находящихся на территории России, не будут приниматься.

💵 Стипендия

Для интернов предусмотрена единовременная стипендия в размере $1000, выплачиваемая по окончанию программы.

🔵 Узнать об условиях подробнее и подать заявку можно здесь
6👍4🥴3
Друзья, «Новая-Европа» открывает вакансию в дата-отделе!

Если вы любите и умеете рассказывать истории с помощью данных, мы будем рады с вами поработать. Мы ищем авторов, аналитиков и редакторов как для постоянной, так и для проектной занятости.

📍 Что мы делаем: пытаемся понять, что происходит в России, с помощью открытых данных, статистики, анализа соцсетей, веб-скрейпинга, алгоритмов машинного обучения и не только. Результат нашей работы — вот такие новости, исследования и спецпроекты.

Что нам важно в кандидатах:

📌 технические навыки — вы на продвинутом уровне владеете табличными редакторами, в идеале — знаете один из языков программирования;

📌 ориентация в источниках — вы знаете неочевидные места, где можно найти данные про Россию;

📌 интересные темы — вы умеете задавать вопросы, на которые можно ответить с помощью данных, и писать журналистские тексты для широкой аудитории;

📌 статистическая грамотность — вы знаете, как устроены количественные исследования, аккуратно относитесь к методологии и расчетам.

📌 вы живете не в России, и у вас есть валютный счет, куда вы готовы получать деньги (напоминаем, что «Новая-Европа» признана в РФ нежелательной организацией).

Заполните форму, если эти пункты — про вас, и мы с вами обязательно свяжемся. Зарплата и другие условия сотрудничества обсуждаются на собеседовании.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61