Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ivan Begtin
Свежий отчёт от Civicus "Changing what counts" http://blog.okfn.org/2016/03/03/changing-what-counts/ о том как сбор данных людьми меняет принципы официальной статистики и официальных способов сбора данных. Это не первый подобный отчёт. Не так давно выходил…
Пример проекта на журналистике данных "The migrant files" http://www.themigrantsfiles.com/ с охватом масштабов миграционных потоков, расходов евросоюза и количества разрегистрированных смертей мигрантов. Координируется проект командой из Journalism++ http://www.jplusplus.org/ Лично для меня этот проект наглядное подтверждение тому что сейчас вопрос стоит так что журналистика данных должна быть не просто частью обучения журналистов, а так что обучение журналистов без неё станет просто невозможным. То что я смотрю по образовательным программам в этой области в США и Европе, там идёт активнейшая трансформация обучения в сторону "технологической журналистики" по умолчанию. #opendata #ddj

(вопросы можно адресовать мне на @ibegtin или через Facebook https://www.facebook.com/ibegtin)
К вопросу о медиастартапах. Шведский Newsworthy http://www.newsworthy.se мониторят кучу статистических данных Евросоюза и генерят новостные лиды.

Тоже дата журналистика с элементами робожурналистики, с той лишь разницей что они не текст финальный создают, а значительно облегчают поисковые возможности.

Кстати создать такой сервис в России можно, даже не супер сложно на самом деле, но покупателей на него будет 5-10 изданий, в основном федерального значения и рынок совсем скромный. Так что у нас в можно запускать это скорее как некий in-house проект.

Другой интересный проект - это нидерландский LocalFocus https://www.localfocus.nl/en/ по созданию интерактивной инфографики с данными. Они так и пишут что превращают данные в истории.

#opendata #ddj #datajournalism
Дата журналистам на заметку.

1. Заходите на сайт Газпроммежрегионгаза в раздел "Крупнейшие должники за газ"
http://mrg.gazprom.ru/implementation/spisok-dolzhnikov/

2. Парсите данные любым удобным Вам образом и превращаете в CSV или JSON где у Вас должны быть поля:
- наименование организации должника
- сумма задолженности
- наименование субъекта федерации
- наименование федерального округа в который субъект федерации входит

3. Открываете Википедию (или Wikidata) и скачиваете таблицу с населением страны по субъектам https://ru.wikipedia.org/wiki/Население_субъектов_Российской_Федерации

4. Открываете Википедию (или Wikidata) и скачиваете таблицу ВРП по субъектам https://ru.wikipedia.org/wiki/Список_субъектов_Российской_Федерации_по_валовому_продукту

5. На этих данных считаете рейтинги:
- субъектов по общей задолженности
- субъектов по задолженности на 1 человека
- субъектов по задолженности к ВРП

6. Аналогично для федеральных округов

7. Полученные цифры визуализируете любым удобным Вам образом

8. Вуаля! Отдавайте результат в любое федеральное издание, особенно в те которые сейчас активно чморят власти Московской области.

Потому что кто будет анти-лидером рейтинга я уже вам как бы подсказал.
#datajournalism #ddj #opendata
New York Times выложили в открытый доступ материалы по обучению журналистов дата-журналистике [1], со всеми материалами и датасетами [2]. Неплохой курс/тренинг, очень практичный, про работу с таблицами, очистку данных, брейншторм на данных и так далее.

Такой гайд был бы хорош и на русском языке. Благо материалов предостаточно.

Ссылки:
[1] https://www.niemanlab.org/2019/06/the-new-york-times-has-a-course-to-teach-its-reporters-data-skills-and-now-theyve-open-sourced-it/
[2] https://drive.google.com/drive/u/0/folders/1ZS57_40tWuIB7tV4APVMmTZ-5PXDwX9w

#opendata #ddj #data #datajournalism
Дайджест коротких и материалов:
- Австралийский G2G сервис Notify [1] - это система рассылок внутри государства. Госслужащие регистрируются в нём, загружают списки email'ов и телефонов и имеют возможность для отправки писем и SMS централизовано. С открытым кодом [2] и за деньги [3]. Всё ровно по австралийской модели погружения внутрь госаппарата ключевых ИТ сервисов, но предоставление их по фиксированной цене и без необходимости госорганам проводить торги.

- данные из утечек по Луанде (Luanda Leaks) в виде списка компаний на сервере OCCRP [4]. Структурированно по компаниям, странам и интегрировано с остальными данными OCCRP

- Women, Business and the Law 2020 [5] доклад с индексом от Всемирного банка по влиянию законов и регулирования на вовлечение женщин в экономику. Со множеством цифр и таблиц

- Минэкономразвития России предлагает создать российский аналог Github'а за 2.1 млрд. рублей [6]. Идея может быть и неплоха, но сумма огромна. С другой стороны если это заменит текущий мёртвый Фонд алгоритмов и программ, то быть может дело и стоит того. Остаётся лишь вопрос стоимости и того что форма ЧГП для таких проектов может подойти лучше. В принципе это похоже на австралийские G2G проекты. Не без российской специфики, конечно.

- РБК в статье от 17 января утверждают что Константин Носков (глава Министерства цифрового развития России) уходит в отставку [7] и гадают кто может прийти ему на смену. Кто бы это ни был, мы узнаем очень скоро.

- Open Referall, открытый проект по разработке стандартов обмена данными о людях, здоровье и соцуслугах [8] анонсировали инструментарий по обработке данных [9]

- Bird Toolbox [10] коллекция инструментов для журналистов расследователей и множество статей о том как расследования на данных проводятся.

- Awsome Shodan Queries [11] наиболее интересные и странные запросы которые можно делать через систему Shodan, сканирующую интернет на всевозможные доступные сервисы. Например, через неё находят подключенные к интернету камеры для детей или рентгеновские установки.

- полугодовой давности расследование о том как турецкий власти перевозят оружие в Ливию [12]. Нельзя сказать насколько оно непредвзято, но довольно детально. Любопытно что они в расследовании используют инструменты от Palantir что врядли по карману маленькой НКО даже в Вашингтоне.

- диаграмма того как устроено ИТ в правительстве Германии [13]. Очень наглядно, но на немецком языке

Ссылки:
[1] https://notify.gov.au/
[2] https://github.com/govau/notify
[3] https://notify.gov.au/pricing
[4] https://aleph.occrp.org/datasets/1554
[5] https://openknowledge.worldbank.org/handle/10986/32639
[6] https://www.kommersant.ru/doc/4225365
[7] https://www.rbc.ru/politics/17/01/2020/5e21b5599a79475340a567df
[8] https://openreferral.org/
[9] https://openreferral.org/introducing-open-referrals-data-transformation-toolkit/
[10] https://bird.tools/
[11] https://github.com/jakejarvis/awesome-shodan-queries
[12] https://c4ads.org/blogposts/2020/1/2/assets-in-flight-libyas-flying-armories
[13] https://pbs.twimg.com/media/ELhXoRvWoAAMGyF?format=jpg&name=4096x4096

#opendata #data #ddj #digest #opensource
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech