Мастерская
1.52K subscribers
38 photos
180 links
Журналисты-расследователи рассказывают о крутых инструментах для работы с данными. И о программировании

🎥 YouTube: http://bit.ly/312rLgY
🧑‍💻 Github.com/iStoriesMedia
Download Telegram
Привет! Обычно в 10 утра среды мы постим новый выпуск Мастерской. Но не сегодня.

Мы подумали, посовещались и пришли к выводу, что публиковать видеоуроки в середине недели все-таки не слишком удобно. И решили перенести день выхода на пятницу.

В новый график перейдем уже на этой неделе. В пятницу ждите видос от Иры про списковые включения и генераторы выражений.
Хотели потренироваться изучать судебные решения? Это можно сделать на 2-недельном хакатоне вместе с дата-журналистками «Важных историй»

30 января – 14 февраля «ОВД-Инфо» и Мемы про машинное обучение проводят хакатон по анализу данных российских органов судебной, законодательной и исполнительной власти.

Можно анализировать постановления судов по заявлениям о пытках, искать копипаст в судебных решениях или «подозрительные» изменения в законопроектах.

А можно предложить и свою тему.

Участвовать в хакатоне можно как командой, так и в одиночку. Главное – успеть зарегистрироваться.

В менторах: журналисты «Важных историй» и «Медиазоны», юристы, исследователи, активисты и дата-сайентисты.
Привет, это Ира Долинина. В юбилейном выпуске нашей Мастерской я расскажу, как сокращать свой код до одной строчки. Поверьте, это очень увлекательно: код преображается, становится более лаконичным, а еще работает быстрее.

На уроке мы поработаем с данными Федстата: посчитаем уровень бедности в России. Мы изучали эти данные для материала о 2020 как худшем годе в истории (или не совсем). Почитайте, если у вас останется время после урока 🙂

📺 Смотреть выпуск
📰 Читать
🍩 Поддержать Мастерскую
Привет! Это Соня Савина. В новом выпуске Мастерской рассказываю про работу с файлами в Python. Научимся открывать, создавать и менять файлы с текстами и таблицами.

Для тренировки сперва внесем в текст Конституции собственные поправки, а потом узнаем, сколько студентов в России учатся на военных журналистов (по версии Минобрнауки).

Смотрите или читайте урок, а если понравится – поддержите нас пожертвованием.
Привет, друзья! Это Алеся Мароховская.

Так каждую неделю кто-то из редакции «Важных историй» здоровается с вами и делится новым выпуском Мастерской. Но, к сожалению, не в этот раз.

Репортеры «Важных историй» заняты работой на митингах, это отнимает практически все наше время. Поэтому в эту пятницу Мастерская не выйдет, но в начале следующей недели мы обязательно вернемся к вам с новым выпуском!
«Прожектор – 2021»: открыта регистрация на хакатон «Новой газеты» и «Теплицы социальных технологий»

До 10 февраля (включительно) можно подать заявку на участие во втором хакатоне «Прожектор».

Его фишка в том, что организаторы предлагают работать не просто над проектом, основанным на данных, а над общественно значимым проектом.

Победитель по итогам двух дней хакатона будет один, и он получит 110 тыс. рублей на доработку своего проекта.

Участвовать можно как командой, работая над своим проектом, так и присоединившись другим участникам.

В работе вам будут помогать кураторы. В том числе редакторка дата-отдела @istories_media Алеся Мароховская.

Больше узнать про условия участия, посмотреть на проекты прошлого года и зарегистрироваться можно тут.

А если есть вопросы, всегда можно написать организаторам:
🔹 Алиса Цветкова (работа с командами и оргвопросы)
тг: @itisalise почта: alisetsvetkova@te-st.ru


🔹Серафим Романов (работа с проектами)
тг: @mayorsimon
почта: jourhack@gmail.com
Всем привет! Это Рома Анин. Как и обещали, возвращаемся к вам с новым выпуском мастерской.

Мы постепенно заканчиваем знакомство с азами языка Python. И совсем скоро мы применим наши знания на практике, когда вместе с вами напишем небольшого робота, который будет собирать полезные данные и отправлять рассылку с ними. На одном из этапов этого проекта мы будем использовать рекурсию для поиска значений во вложенных словарях. Так как многие из вас, скорее всего, не сталкивались с этим явлением на практике, я решил записать выпуск про этот прием в программировании. Прием, который мне не давался долгое время, который я совсем не понимал.

Поэтому, если в начале вы не будете понимать, что происходит, — не отчаивайтесь. Через муки рекурсии проходили все. Понимание этого явления сильно разовьет ваше алгоритмическое мышление.

https://www.youtube.com/watch?v=3VdarRt2UbI&t=637s
Друзья! Во вчерашнем выпуске мастерской про рекурсию мы сознательно написали только часть функции по поиску значения ключа во вложенном словаре. Эта функция не будет работать, если, к примеру, словарь содержит список, а список может в свою очередь тоже содержать словари. И это не теоретическая придумка, а ситуация, которую мы часто встречаем на практике, когда работаем с различными API-сервисами.

Посмотрите, например, как выглядит выдача в формате json одного госконтракта: http://openapi.clearspending.ru/restapi/v3/contracts/get/?regnum=2772765679021000015

Так вот, мы не дописали функцию, чтобы устроить небольшой конкурс. Допишите нашу функцию так, чтобы она искала значения ключей и в списках. Это первое задание.

А второе задание — попробуйте найти баг в нашей функции. Он очень неявный и кажется мелким, но может проявить себя, если… И вот ваша задача написать, что это за «если», при котором проявит себя баг.

Первый, кто ответит на оба вопроса до вторника (16.02.2021), получит в подарок от «Важных историй» худи из замечательного магазина Barking Store.
Привет, это Алеся Мароховская!

Вчера у нас вышло расследование о целой системе «штатных» понятых, которых полицейские могли использовать, чтобы фальсифицировать дела за наркотики. Искали мы таких понятых в текстах судебных приговоров.

И наш новый выпуск Мастерской как раз об этом: как находить и вычленять имена из русскоязычных текстов. Мы для этой задачи использовали очень хорошую библиотеку Natasha, над ней работала Лабаратория данных Александра Кукушкина.

Как всегда: смотреть новый выпуск можно тут, а если вам проще читать, то тут.
Привет! Сегодня протестируем новый для нас формат – поговорим в Clubhouse про расследование о «штатных» понятых: как мы его делали, насколько проблема масштабна и есть ли какие-то варианты эту систему изменить.

Участники дискуссии:
🔹 журналисты @istories_media

В гостях ждем:
🔹 адвокатов Ирину Бирюкову и Калоя Ахильгова,
🔹 главреда @mediazzzona Сергея Смирнова,

Начнем в 19 часов.
Присоединяйтесь!

Ссылка на комнату
Привет! И опять про Clubhouse.

Завтра в 21.00 ведущие дата-журналисты из разных стран соберутся в одной комнате, чтобы обсудить накопившиеся вопросы к журналистике данных.

Среди спикеров и дата-журналистки «Важных историй» Алеся Мароховская, Ирина Долинина и Соня Савина.

Приходите задать свои вопросы или просто поболтать.

https://www.joinclubhouse.com/event/PrkbyRz5
Привет, это Алеся Мароховская!

Сегодня выпуск про регулярные выражения. Про них обычно шутят, что если у вас есть какая-то проблема и вам нужно решить ее с помощью регулярных выражений — теперь у вас есть две проблемы.

Но все же это очень мощный инструмент, который здорово выручает, когда из текстов необходимо каким-то образом вытащить нужные детали, а делать это вручную очень долго. Например, когда мне приходится работать с текстами приговоров, я всегда использую регулярки. С их помощью можно для каждого приговора узнать, был ли человек ранее судим, в алкогольном опьянении, признал ли вину, а также какое наказание ему назначил суд.

В этом выпуске — как раз об этом. Смотреть выпуск можно здесь, а читать — здесь.
Привет, это Юлия Алыкова, сегодня у нас первый выпуск про Pandas.

Pandas – главная библиотека для анализа данных на Python. Это очень удобный и не самый сложный в освоении инструмент дата-журналиста. Он позволяет работать с данными в привычном для нас табличном виде.

Причем данные могут быть в очень больших объемах (миллионы строк, например) или в формте json — то, что не под силу стандартному Excel. А Pandas с такими задачами легко справляется.

Мы посвятим библиотеке Pandas несколько уроков. Сегодня будет первое знакомство: мы научимся делать самые базовые вещи, с которыми уже можно анализировать реальные данные.

Конечно, Pandas можно изучать очень долго и подробно, но мы остановимся только на тех моментах, которые чаще всего нужны для работы дата-журналиста.

Смотрите урок здесь. Текстовая версия урока уже на сайте.

Если вам нравится Мастерская, поддержите нашу работу донатом.
Привет! С вами Юля, SMM-редактор @istories_media и человек, который раз в две недели собирает для вас рассылку Мастерской.

Очередной ее выпуск (еще и юбилейный, #20) пришелся на сегодня, 8 марта. Мы решили сделать его особенным, в стиле #GRLPWR.

Мы поговорили с дата-журналистками, которые пишут истории на русском языке.

Они рассказали, как пришли в профессию, как им приходится бороться со стереотипами («Женщина, какой вам анализ данных? Вас тут не стояло» / «Девушек берут в технические вузы, чтобы у мальчиков были умные жены»🤦‍♀️).

Но главное – они поделились своими советами. Мы назвали это «Советы тем, кто только начинает». Хотя на самом деле они будут полезны всем. Буквально вообще всем.

Мои любимые:
💚 Если есть желание — вы всему научитесь.
💚 Учитесь постоянно.
💚 Не будьте предвзятыми.
💚 Не сдавайтесь!

Максимально универсальные рекомендации!

Все монологи журналисток читайте по ссылке

Подписывайтесь на рассылку Мастерской, чтобы не пропускать годноту

И всех с праздником!

Мир, равноправие, март 🖖
Привет! Это Юля Алыкова и второй урок по библиотеке Pandas. Мы изучим потрясающие методы groupby и сводные таблицы, без которых невозможно представить анализ данных в Pandas. Они позволяют легко и быстро получить нужные выводы.

Смотрите урок здесь. Текстовая версия урока уже на сайте.

Если вам нравится Мастерская, поддержите нашу работу донатом!
Привет, это снова Юля Алыкова и завершающий урок по библиотеке Pandas. Мы научимся объединять датафреймы, изменять их и работать с очень большими файлами.

На этом наше знакомство с библиотекой Pandas завершится, но мы будем обязательно обращаться к ней в дальнейшем.

Смотрите урок здесь. Текстовая версия урока уже на сайте.

Если вам нравится Мастерская, поддержите нашу работу донатом!
#анонс
Курс Strelka по дата-журналистике

Strelka Institute запускает новый поток курса «Как стать дата-журналистом». Участникам расскажут, где искать данные, что такое очистка данных и парсинг и как видеть в данных истории.

Кураторы курса — известные дата-журналисты Андрей Дорожный, Дада Линделл и Александр Богачев.

Для подписчиков Мастерской есть скидка 10% по промокоду stories (действует до 29 марта).

Подробности и регистрация – по сылке.

P.S.
Первыми о таких плюшках узнают читатели нашей email-рассылки. Подписывайтесь, если еще нет
Привет, это Полина Ужвак! Сегодня я расскажу, как быстро обработать большое количество однотипных Excel-таблиц и извлечь нужные данные без программирования.

Многие ведомства выкладывают статистику в статистических формах. Опираясь на данные из статформ можно делать исследования на разные темы. В наших материалах мы тоже нередко опираемся на данные из статформ. Например, в тексте про проблемы в школах или вторичное сиротство.

Статистические формы — это громоздкие Excel-таблицы с несколькими листами, абсолютно непригодные для быстрой обработки. Форма заводится отдельно на каждый регион и на каждый год.

Это значит, что если вы хотите посмотреть динамику по регионам хотя бы за пять лет придется открыть 425 файлов. Вручную это сделать почти нереально и очевидное решение проблемы — программирование.

Но если прогать вы пока не умеете, автоматически собрать нужные данные поможет Microsoft Office 365 и инструмент Power Query.

Пошаговую инструкцию смотрите здесь.

Если вам нравится Мастерская, поддержите нашу работу донатом.
Привет, это Лёша Смагин из Т—Ж.

Я преподаю в Вышке бакалаврам датажур с нуля, и учу их делать всякие классные штуки без программирования. Программирование — это тоже круто, но долго, и не всем нужно, а нам надо уметь «здесь и сейчас».

Есть у меня урок про неочевидные функции в «Гугл-таблицах» — функции для использования регулярных выражений.

Регулярные выражения — это такие шаблоны, по которым мы можем искать текст в ячейках. Так, например, легко можно найти почтовый адрес, год или инициалы человека.

Я сам частенько пользуюсь ими в «таблицах», когда нужно решать простенькие задачки, потому что это быстрее, чем расчехлять Python.

Делюсь с вами редкими знаниями в новом выпуске «Мастерской».