Мастерская
1.52K subscribers
38 photos
180 links
Журналисты-расследователи рассказывают о крутых инструментах для работы с данными. И о программировании

🎥 YouTube: http://bit.ly/312rLgY
🧑‍💻 Github.com/iStoriesMedia
Download Telegram
Всем привет! Это Рома Анин. Как и обещали, возвращаемся к вам с новым выпуском мастерской.

Мы постепенно заканчиваем знакомство с азами языка Python. И совсем скоро мы применим наши знания на практике, когда вместе с вами напишем небольшого робота, который будет собирать полезные данные и отправлять рассылку с ними. На одном из этапов этого проекта мы будем использовать рекурсию для поиска значений во вложенных словарях. Так как многие из вас, скорее всего, не сталкивались с этим явлением на практике, я решил записать выпуск про этот прием в программировании. Прием, который мне не давался долгое время, который я совсем не понимал.

Поэтому, если в начале вы не будете понимать, что происходит, — не отчаивайтесь. Через муки рекурсии проходили все. Понимание этого явления сильно разовьет ваше алгоритмическое мышление.

https://www.youtube.com/watch?v=3VdarRt2UbI&t=637s
Друзья! Во вчерашнем выпуске мастерской про рекурсию мы сознательно написали только часть функции по поиску значения ключа во вложенном словаре. Эта функция не будет работать, если, к примеру, словарь содержит список, а список может в свою очередь тоже содержать словари. И это не теоретическая придумка, а ситуация, которую мы часто встречаем на практике, когда работаем с различными API-сервисами.

Посмотрите, например, как выглядит выдача в формате json одного госконтракта: http://openapi.clearspending.ru/restapi/v3/contracts/get/?regnum=2772765679021000015

Так вот, мы не дописали функцию, чтобы устроить небольшой конкурс. Допишите нашу функцию так, чтобы она искала значения ключей и в списках. Это первое задание.

А второе задание — попробуйте найти баг в нашей функции. Он очень неявный и кажется мелким, но может проявить себя, если… И вот ваша задача написать, что это за «если», при котором проявит себя баг.

Первый, кто ответит на оба вопроса до вторника (16.02.2021), получит в подарок от «Важных историй» худи из замечательного магазина Barking Store.
Привет, это Алеся Мароховская!

Вчера у нас вышло расследование о целой системе «штатных» понятых, которых полицейские могли использовать, чтобы фальсифицировать дела за наркотики. Искали мы таких понятых в текстах судебных приговоров.

И наш новый выпуск Мастерской как раз об этом: как находить и вычленять имена из русскоязычных текстов. Мы для этой задачи использовали очень хорошую библиотеку Natasha, над ней работала Лабаратория данных Александра Кукушкина.

Как всегда: смотреть новый выпуск можно тут, а если вам проще читать, то тут.
Привет! Сегодня протестируем новый для нас формат – поговорим в Clubhouse про расследование о «штатных» понятых: как мы его делали, насколько проблема масштабна и есть ли какие-то варианты эту систему изменить.

Участники дискуссии:
🔹 журналисты @istories_media

В гостях ждем:
🔹 адвокатов Ирину Бирюкову и Калоя Ахильгова,
🔹 главреда @mediazzzona Сергея Смирнова,

Начнем в 19 часов.
Присоединяйтесь!

Ссылка на комнату
Привет! И опять про Clubhouse.

Завтра в 21.00 ведущие дата-журналисты из разных стран соберутся в одной комнате, чтобы обсудить накопившиеся вопросы к журналистике данных.

Среди спикеров и дата-журналистки «Важных историй» Алеся Мароховская, Ирина Долинина и Соня Савина.

Приходите задать свои вопросы или просто поболтать.

https://www.joinclubhouse.com/event/PrkbyRz5
Привет, это Алеся Мароховская!

Сегодня выпуск про регулярные выражения. Про них обычно шутят, что если у вас есть какая-то проблема и вам нужно решить ее с помощью регулярных выражений — теперь у вас есть две проблемы.

Но все же это очень мощный инструмент, который здорово выручает, когда из текстов необходимо каким-то образом вытащить нужные детали, а делать это вручную очень долго. Например, когда мне приходится работать с текстами приговоров, я всегда использую регулярки. С их помощью можно для каждого приговора узнать, был ли человек ранее судим, в алкогольном опьянении, признал ли вину, а также какое наказание ему назначил суд.

В этом выпуске — как раз об этом. Смотреть выпуск можно здесь, а читать — здесь.
Привет, это Юлия Алыкова, сегодня у нас первый выпуск про Pandas.

Pandas – главная библиотека для анализа данных на Python. Это очень удобный и не самый сложный в освоении инструмент дата-журналиста. Он позволяет работать с данными в привычном для нас табличном виде.

Причем данные могут быть в очень больших объемах (миллионы строк, например) или в формте json — то, что не под силу стандартному Excel. А Pandas с такими задачами легко справляется.

Мы посвятим библиотеке Pandas несколько уроков. Сегодня будет первое знакомство: мы научимся делать самые базовые вещи, с которыми уже можно анализировать реальные данные.

Конечно, Pandas можно изучать очень долго и подробно, но мы остановимся только на тех моментах, которые чаще всего нужны для работы дата-журналиста.

Смотрите урок здесь. Текстовая версия урока уже на сайте.

Если вам нравится Мастерская, поддержите нашу работу донатом.
Привет! С вами Юля, SMM-редактор @istories_media и человек, который раз в две недели собирает для вас рассылку Мастерской.

Очередной ее выпуск (еще и юбилейный, #20) пришелся на сегодня, 8 марта. Мы решили сделать его особенным, в стиле #GRLPWR.

Мы поговорили с дата-журналистками, которые пишут истории на русском языке.

Они рассказали, как пришли в профессию, как им приходится бороться со стереотипами («Женщина, какой вам анализ данных? Вас тут не стояло» / «Девушек берут в технические вузы, чтобы у мальчиков были умные жены»🤦‍♀️).

Но главное – они поделились своими советами. Мы назвали это «Советы тем, кто только начинает». Хотя на самом деле они будут полезны всем. Буквально вообще всем.

Мои любимые:
💚 Если есть желание — вы всему научитесь.
💚 Учитесь постоянно.
💚 Не будьте предвзятыми.
💚 Не сдавайтесь!

Максимально универсальные рекомендации!

Все монологи журналисток читайте по ссылке

Подписывайтесь на рассылку Мастерской, чтобы не пропускать годноту

И всех с праздником!

Мир, равноправие, март 🖖
Привет! Это Юля Алыкова и второй урок по библиотеке Pandas. Мы изучим потрясающие методы groupby и сводные таблицы, без которых невозможно представить анализ данных в Pandas. Они позволяют легко и быстро получить нужные выводы.

Смотрите урок здесь. Текстовая версия урока уже на сайте.

Если вам нравится Мастерская, поддержите нашу работу донатом!
Привет, это снова Юля Алыкова и завершающий урок по библиотеке Pandas. Мы научимся объединять датафреймы, изменять их и работать с очень большими файлами.

На этом наше знакомство с библиотекой Pandas завершится, но мы будем обязательно обращаться к ней в дальнейшем.

Смотрите урок здесь. Текстовая версия урока уже на сайте.

Если вам нравится Мастерская, поддержите нашу работу донатом!
#анонс
Курс Strelka по дата-журналистике

Strelka Institute запускает новый поток курса «Как стать дата-журналистом». Участникам расскажут, где искать данные, что такое очистка данных и парсинг и как видеть в данных истории.

Кураторы курса — известные дата-журналисты Андрей Дорожный, Дада Линделл и Александр Богачев.

Для подписчиков Мастерской есть скидка 10% по промокоду stories (действует до 29 марта).

Подробности и регистрация – по сылке.

P.S.
Первыми о таких плюшках узнают читатели нашей email-рассылки. Подписывайтесь, если еще нет
Привет, это Полина Ужвак! Сегодня я расскажу, как быстро обработать большое количество однотипных Excel-таблиц и извлечь нужные данные без программирования.

Многие ведомства выкладывают статистику в статистических формах. Опираясь на данные из статформ можно делать исследования на разные темы. В наших материалах мы тоже нередко опираемся на данные из статформ. Например, в тексте про проблемы в школах или вторичное сиротство.

Статистические формы — это громоздкие Excel-таблицы с несколькими листами, абсолютно непригодные для быстрой обработки. Форма заводится отдельно на каждый регион и на каждый год.

Это значит, что если вы хотите посмотреть динамику по регионам хотя бы за пять лет придется открыть 425 файлов. Вручную это сделать почти нереально и очевидное решение проблемы — программирование.

Но если прогать вы пока не умеете, автоматически собрать нужные данные поможет Microsoft Office 365 и инструмент Power Query.

Пошаговую инструкцию смотрите здесь.

Если вам нравится Мастерская, поддержите нашу работу донатом.
Привет, это Лёша Смагин из Т—Ж.

Я преподаю в Вышке бакалаврам датажур с нуля, и учу их делать всякие классные штуки без программирования. Программирование — это тоже круто, но долго, и не всем нужно, а нам надо уметь «здесь и сейчас».

Есть у меня урок про неочевидные функции в «Гугл-таблицах» — функции для использования регулярных выражений.

Регулярные выражения — это такие шаблоны, по которым мы можем искать текст в ячейках. Так, например, легко можно найти почтовый адрес, год или инициалы человека.

Я сам частенько пользуюсь ими в «таблицах», когда нужно решать простенькие задачки, потому что это быстрее, чем расчехлять Python.

Делюсь с вами редкими знаниями в новом выпуске «Мастерской».
Мастерская
#анонс Курс Strelka по дата-журналистике Strelka Institute запускает новый поток курса «Как стать дата-журналистом». Участникам расскажут, где искать данные, что такое очистка данных и парсинг и как видеть в данных истории. Кураторы курса — известные дата…
Привет, сегодня у нас два небольших анонса.

1️⃣ Для подписчиков @istories_workshop Strelka продлила действие промокода на скидку на курс по дата-журналистике.

По промокоду stories скидка 10% (действует до 5 апреля).

Прием заявок на участие заканчивается 5 апреля.
Подробности и регистрация – по сылке.

2️⃣ В числе приглашенных спикеров курса — редакторка дата-отдела @istories_media Алеся Мароховская.

20 апреля она будет участвовать в Zoom-talk. Расскажет о кейсах для вдохновения, процессах внутри нашего дата-отдела и ответит на вопросы участников курса.

Весь список гостей и преподавателей можно увидеть здесь.


May the data be with you!
«Панамские документы»: пять лет со дня публикации важнейшего расследования в мировой журналистике

Пять лет назад, в апреле 2016 года, 380 журналистов из разных стран одновременно опубликовали расследования, основанные на гигантской утечке данных о владельцах офшорных компаний.

После публикации «Панамского досье» высокопоставленные чиновники в нескольких странах мира лишились своих постов, началась глобальная кампания по реформированию финансовой системы.

В России этим расследованием занимались журналисты, которые создали @istories_media. Сегодня один из соавторов расследования и наш главред Роман Анин рассказывает, с чего начиналась эта история и почему в России «Панамское досье» запомнится виолончелью и фильмом с Шерон Стоун.

Наверное, вы, как и мы, часто задаетесь вопросом: «Что делать, если власть „отморозилась“ и просто игнорирует все доказательства собственных преступлений?»

Да, пускай сегодня власть «отморозилась». Но наша задача — продолжать говорить правду о происходящем в России, несмотря ни на что.

История не заканчивается сегодня, история не заканчивается через год, и даже через 50 лет она тоже не заканчивается. Поэтому хочется, чтобы будущие поколения судили о России не по «агиткам» Дмитрия Киселева, а по честным журналистским текстам — в том числе на основе «Панамских документов».

Вы можете помочь нам рассказывать такие истории, поддержав нашу работу пожертвованием.
Вем привет! Это Рома Анин из "Важных историй". Сегодня мы начинаем важную серию лекций в "Мастерской". В течение нескольких недель шаг за шагом мы вместе с вами будем писать робота на языке Python, который будет собирать крупнейшие госконтракты в России, упаковывать их в удобную для анализа форму и отправлять на почту.

А начнем мы с самых азов. В первой лекции установим редактор кода Visual Studio Code и изучим базовые команды терминал.
Привет! Обыски у Ромы Анина и в офисе – это все, конечно, давит. Но мы продолжаем работать и над новыми важными историями, и над мастерской. И сегодня на канале новый видеоурок.

Рома продолжает рассказывать, как самому написать робота для анализа госконтрактов.

В уроке #2 разбираемся, что такое виртуальное окружение и как создать его для вашего собственного приложения.

Смотрите урок по ссылке
➡️ https://youtu.be/H94Aicz-Hyc

Если вам нравится, что мы делаем, поддержите нас донатом, если еще не.

Это поможет нам продолжать делать свою работать. Потому что как иначе? 🙂
Привет! Сегодня у всех будет тяжелый вечер. И к нему стоит как следует подготовиться.

Поэтому на всякий случай очень советуем прочесть и посмотреть:


🟢 Как журналисты должны работать на акциях протеста, чтобы ничего не нарушить — инструкция «Медузы» и Центра защиты прав СМИ


🟢 Что делать, если вас задержали на акции и доставили в ОВД — инструкция от «ОВД-Инфо» для участников акций, но полезна для изучения и журналистам тоже.


🟢 Как действовать, если к вам пришли с обысками — советы от адвоката Василия Грищака (из рассылки «Мастерской»).


И не забудьте «запинить» @OvdInfoBot — он может пригодиться даже журналистам.


May the data and freedom be with you!
Привет! Продолжаем вместе с Ромой Аниным разбираться, как написать робота на Python, который будет присылать вам на почту крупнейшие госконтракты в России.

Сегодня выпуск про библиотеку Requests и API проекта «Госзатраты». Знания этих базовых вещей могут пригодиться буквально каждому журналисту.
➡️ https://www.youtube.com/watch?v=ziE7VceZZ1M