Ivan Begtin
8.07K subscribers
1.55K photos
3 videos
100 files
4.29K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Проект SubsidyStories [1] по сбору и визуализации субсидий получаемых европейскими предприятиями. Много скрейперов для данных в XLS, XLSX, PDF и других форматах о чем рассказывают создатели проекта в блоге Open Knowledge International [2]

Простой и симпатичный проект с открытым кодом [3] вышедший из экосистемы OpenSpending.

Ссылки:
[1] http://subsidystories.eu/
[2] https://okfn.de/blog/2017/04/Making-EU-Data-Open/
[3] https://github.com/os-data/eu-structural-funds/

#opendata #openfinances
Национальный архив Великобритании в марте опубликовали Цифровую стратегию [1] в виде подробного документа описывающего развитие цифровых технологий с 2017 по 2019 годы [2]

Основные тезисы этой стратегии:
1. Записи переходят из физической формы в виртуальную
2. Цифровое сохранение сложная задача
3. Высокие ожидания
4. Изменения непрерывны
5. Цифровые навыки на вес золота

Если пересказать стратегию коротко то она звучит так.
- Мы учимся работать в цифровом мире.
- Мигрируем в облака и даем доступ исследователям для анализа данных.
- Открываем все что только возможно
- Создаем API для наших проектов

Там еще много всего и, конечно, у архивов есть давняя беда дефицита цифровых навыков и то что те кто реально собирает данные обо всем с архивами не делятся - ни спецслужбы, ни дата корпорации не сдают туда "награбленное и накопленное".

Поэтому до сих пор инструменты сбора данных несовершенны, для социальных сетей, для веб-сайтов и для многого другого.

Ссылки:
[1] https://www.nationalarchives.gov.uk/about/our-role/plans-policies-performance-and-projects/our-plans/digital-strategy/
[2] https://www.nationalarchives.gov.uk/documents/the-national-archives-digital-strategy-2017-19.pdf

#digitalpreservation
Instacart, онлайн сервис заказа и доставки еды на дом опубликовал датасет из 3 миллионов заказов за 2017 год . Подробнее в блоге Jeremy Stanley [1]

В наборе данных информация о времени заказа, его идентификатор и купленный продукт плюс дополнительная информация. Структуру данных можно посмотреть тут [2], а сами данные выгрузить тут [3].

В очередной раз привожу это как пример того что открытые данные публикует не только государство. Для исследовательских целей их предоставляют многие крупные интернет компании заинтересованные в том чтобы наиболее талантливые разработчики использовали их данные.

Ссылки:
[1] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
[2] https://gist.github.com/jeremystan/c3b39d947d9b88b3ccff3147dbcf6c6b
[3] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

#opendata #instacart
Свежая статья "The world’s most valuable resource is no longer oil, but data в The Economist о данных которые превратились в "новую нефть" [1] поднимает все более актуальную тему о том что деятельность транснациональных корпораций данных (data corporations) дает возможность им отслеживать другие компании и влиять на конкурентный рынок.

Статья поднимает важнейший вопрос соответствия государственных систем существующему мироустройству информационной эры или, как сейчас говорят, "цифровой экономики".

Ссылки:
[1] http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource

#data #dataeconomy
Кто-то отдыхает в праздники, а я публикую заметку о том как проходит архивация сайтов на примере Общественной палаты - https://medium.com/@ibegtin/oprf-archival-209d9b09af3

#digitatalpresevation #opengovernment #archiving
Главный недостаток канала в Телеграм в том что можно промахнуться ведя с кем-то переписку. Всем подписчикам извинения и хороших праздников!
Относительно недавняя новость - оказывается администрация Трампа старательно игнорирует петиции публикуемые на портале петиций Белого дома [1]. Об этом пишут Sunlight Foundation у себя в твиттере [2] и подробнее в статье в Miami Herald "Transparency doesn’t seem to be among the Trump administration’s priorities" [3].

Администрация Барака Обамы обязалась отвечать в течении 30 дней на петиции собирающие более 100 тысяч подписчиков, а на сегодняшний день накопилось 9 петиций перешедших этот рубеж, но не отвеченных администрацией Трампа за 100 дней его правления.

Судьба проектов петиций давно оказывается незавидной. Попытки строить прямую демократию оказываются недолгими, вот и российский РОИ [4] давно уже не функционален.

Ссылки:
[1] https://petitions.whitehouse.gov/
[2] https://twitter.com/SunFoundation/status/857627423659233280
[3] http://www.miamiherald.com/news/politics-government/article146851974.html
[4] https://www.roi.ru/

#opendata #opengov #trump #petitions
Стала доступна бета версия портала USASpending [1] посвященного раскрытию информации о госрасходах в США. Не просто система публикации информации о контрактах, а полноценная система визуализации и предоставления открытых данных. Много лет я и команда Инфокультуры поддерживает похожий проект в России под названием Госзатраты - это проект Комитета гражданских инициатив [2] .

Мало кто знает его предысторию. Еще до того как этот проект стал проектом КГИ, он был создан на гораздо меньшем по объему данных проекте под названием Росгосзатраты созданным мной в Институте современного развития. Тогда у проекта был шанс стать официальным государственным порталом и "получить прописку" в виде портала spending.gov.ru, а теперь до смены текущего правительства на это и не стоит рассчитывать.

Госзатраты - это проект который я начинал проектировать 10 лет назад, сделал первый прототип 6 лет назад и за эти годы уже трижды переделывал его и вначале сам и вместе с командой по мере роста проекта.

Сейчас я могу сказать что для запуска любого подобного большого проекта нужна, в первую очередь, воля, а не деньги и даже не большая команда разработчиков. Нужно очень много желания его реализовать.

Не все также знают что проект USASPending изначально произошел от проекта FedSpending [3] созданного американской НКО "Project of government oversight" в 2006 году.

Именно глядя на него днем, тогда, в конце 2006 года и начале 2007 года я просыпался много месяцев с мыслью о том почему ничего подобного в России нет? Те кто знали госзакупки лучше чем я тогда отвечали мне - "Потому что они никому не нужен".

Сейчас, по истечении многих лет, я рад что нам удается сохранять наш проект и что в мире развиваются подобные проекты. Кроме USASpending их еще около десятка посвящено именно анализу контрактов и открытым данным о госрасходах.

Ссылки:
[1] https://beta.usaspending.gov/
[2] http://clearspending.ru
[3] http://fedspending.org/

#opendata #opengov #spending #clearspending
Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.
Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.
Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].
Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь http://archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью - http://archive.infoculture.ru/donate.

Ссылки:
[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/
[2] http://digital2.library.unt.edu/nomination/eth2016/about/
[3] http://digital2.library.unt.edu/nomination/eth2016/reports/urls/
[4] http://digital2.library.unt.edu/nomination/GWDA/

#opendata #opengov #digitatalpresevation #webarchiving

P.S. Также эта заметка на Medium - https://medium.com/@ibegtin/government-archive-b43a0cde7f97
В качестве исключения я написал заметку про WannaCry, идущую сейчас эпидемию заражения компьютеров программой вымогателей - https://medium.com/@ibegtin/wannacry-e5626de68557
Apple купили компанию Lattice Data [1] специализирующуюся на "неструктурированных темных данных" (unstructured dark data). О компании очень мало известно, только то что они привлекли 20 миллионов долларов США инвестиций от GV, Madrona и InQTel

Компания была создана командой Christopher Ré, Michael Cafarella, Raphael Hoffmann и Feng Niu ранее создавшими DeepDrive [2] "a system to extract value from dark data".

Если "темные данные" - это развитие Deep Dive, выявление отношений и сущностей из неструктуированных текстов, то уже становится интересно какие же новые продукты готовил Apple. Бьюсь об заклад что это будет как-либо связано еще и с распознаванием речи.

Ссылки:
[1] https://techcrunch.com/2017/05/13/apple-acquires-ai-company-lattice-data-a-specialist-in-unstructured-dark-data/
[2] http://deepdive.stanford.edu/

#darkdata #deepdrive #apple
В Ведомостях вышла статья Алексея Кнорре и моим соучастием https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya о несознательной информатизации госорганов. На самом деле картина, как всегда, гораздо более комплексная, но основные принципы неизменны - сейчас государственные информационные системы создаются не для людей
Я давно не публиковал ссылок на то что я читаю в основном и что является источником того о чем я регулярно пишу.

Подборка рекомендаций того откуда лично я черпаю новости и более серьезные знания:
- https://architecht.io/ - журнал о ПО, сервисах и тд. на базе Medium.
- https://govinsider.asia/ - Government Insider, много интересного о цифровых преобразованиях в Азии
- http://www.opengovasia.com/ Open Gov Asia. Множество публикаций о цифровых правительствах в Азии. Скучнее чем GovInsider, но полезен
- http://opengovdaily.com - агрегатор новостей об открытых данных и открытости государства (дизклеймер - я его сделал на базе paper.li).
- https://dataelixir.com - лучшая рассылка о данных из мне известных
- http://thegovlab.org/blog/ - GovLab блог и их дайджест http://thegovlab.org/govlab-digest/ все вокруг государства и цифровых технологий
- https://datafloq.com/ - новости и рассылки и информация о компаниях по работе с данными

#data #opendata
Тем временем в США мода на микрогранты в ИТ и близких сферах.

Недавно Nadia Eghbal, сотрудник Github, анонсировала что раздает по $5000 без каких либо условий тем чье мотивационное письмо ей понравится - https://medium.com/@nayafia/how-to-give-away-5-000-on-the-internet-66cae906ab7e

С оглядкой на нее же такую же инициативу запустил Yurii Rashkovskii - https://medium.com/@yrashk/5-000-for-your-dream-project-c820494eadb4

А группа спонсоров организовали AI Grants - гранты на проекты по искусственному интеллекту - https://aigrant.org/

UPD1: Вот тут больше примеров подобных грантов https://github.com/nayafia/microgrants

Главные особенности:
1. Гранты маленькие, в рублях около 270 тысяч.
2. Часто их раздают физ лица
3. Никаких ограничений по местонахождению получателя
4. Нет последующего контроля, отслеживания и так далее.

No strings attached.

Я давно хочу раздавать гранты на проекты по открытому коду/открытым данным, так же без каких-либо ограничений и условий. Главное чтобы проект/дополнение к какому-то проекту и тд. был в общей экосистеме и обеспечивал открытые данные, был с открытым кодом и свободными лицензиями.

Кстати в России нет ни то что микрогрантов в этой области, нет даже институциональных фондов. Ни одного.

#opendata #opensource #grants #microgrants
Полезная и подробная история о том как один из крупнейших сервисов вопросов и ответов StackOverflow переходил на HTTPS по умолчанию для всех проектов - https://nickcraver.com/blog/2017/05/22/https-on-stack-overflow/

У перехода на HTTPS оказалось много нюансов о которых Nick Craver очень подробно пишет и для очень большого проекта - это не просто создать сертификаты, но и большая работа по обновлению кода и инфраструктуры.


#ssl #tls #https #privacy
ICANN запустили платформу для онлайн просвещения о том как Интернет управляется - http://learn.icann.org/
С большим числом курсов интересных для тех кто не погружен изначально деятельность ICANN и существующую интернет-инфраструктуру.

У курсов есть один недостаток, русский перевод оставляет желать лучшего - http://learn-ru.icann.org/, тексты еще более-менее, а вот кнопки совсем беда.

И тем не менее, вполне возможно что там будет нечто полезное для тех кто хочет знать как управляется выделение доменных имен, что такое WHOIS и так далее

#learning #icann
Open Data Barometer выпустили 4-й глобальный доклад об открытых данных по всему миру .

С текстом доклада и интерактивным навигатором можно ознакомиться по ссылке
http://opendatabarometer.org/4thedition/report/

Этот доклад охватывает 2016 год и большинство стран, за исключением многих африканских и части наименее развитых азиатских стран. Россия находится там на 25-м месте, что, не так уж плохо, но и далеко от стран лидеров.

Подробные профили:
- Россия, 25-е место: http://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=RUS
- Беларусь, 93 место: http://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=BLR
- Украина, 44 место: http://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=UKR
- Казахстан: 59 место: http://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=KAZ

Обратите внимание на большой вклад открытости криминальной статистики и раскрытия данных о госконтрактах в России на позицию в рейтинге.

Как и во многих подобных докладах и исследованиях всегда находятся вопросы почему те или иные данные классифицированы именно таким образом, как измерялась их доступность и так далее.

Тем не менее подобные рейтинги - это хороший ориентир для понимания того как обстоят дела с открытостью данных в разных странах.

#opendata #opengov
До чего же удивительно читать статью "Eliminating the humans" за авторством Дэвида Бирна
http://davidbyrne.com/journal/eliminating-the-human

А я только только хотел приобрести его обновленную книгу "How music works", а тут вижу статью больше про настоящее/будущее чем про музыку.

Для тех кто не знает, Дэвид Бирн - это известный музыкант, лауреат премии Оскар и автор немалого числа песен, саундтреков и автор книг о музыке (https://en.wikipedia.org/wiki/David_Byrne).

Статья, кстати, по делу и посвящена тому как новые технологии заменяют людей везде где только возможно.

#digitalfuture
Информационный комиссар Великобритании Elizabeth Denham начала официальное расследование по использованию данных о гражданах в политической рекламе. Об этом пишет NewScientist [1] и сама комиссар в своем блоге [2].

Это не первый и не последний голос о этике использования больших данных. Напомню что уже много лет идут публикации и дебаты о усилении неравенства благодаря большим данным.

Напомню лишь о некоторых:
- How Big Data Enables Economic Harm to Consumers, Especially to Low-Income and Other Vulnerable Sectors of the Population [3]. Документ федеральной торговой комиссии США о том как большие данные не помогают, а вредят наиболее уязвимым группам граждан
- BigData. A Tool for Inclusion or Exclusion? [4]. Отчет федеральной торговой комиссии США о плюсах и рисках использования больших данных
- Don’t trust that algorithm [5] интервью с Cathy O’Neil, автором книги "Cathy Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy" о предубежденности алгоритмов и их манипулятивной природе
- Is ‘Big Data’ Actually Reinforcing Social Inequalities? [6]

В последней статье приводится важный пример системы e-Verify [7] созданной правительством США для того чтобы работодатели могли проверять легальность труда текущих и потенциальных работников. Эту систему используют более 500 тысяч работодателей и о ней посвящен отдельный раздел [8] в отчете "Civil Rights, Big Data, and Our Algorithmic Future A September 2014 report on social justice and technology." [9]

Оборотной стороной технологий работы с данными является возможность злоупотребления новым информационным неравенством. Как я уже упоминал, в России сейчас нет "точек опоры", общественных или государственных и сфокусированных именно на правах граждан.

Ссылки:
[1] https://www.newscientist.com/article/2131660-uk-government-watchdog-examining-political-use-of-data-analytics
[2] https://iconewsblog.wordpress.com/2017/05/17/information-commissioner-elizabeth-denham-opens-a-formal-investigation-into-the-use-of-data-analytics-for-political-purposes/
[3] https://www.ftc.gov/system/files/documents/public_comments/2014/08/00015-92370.pdf
[4] https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf
[5] http://news.harvard.edu/gazette/story/2016/10/dont-trust-that-algorithm/
[6] https://www.thenation.com/article/big-data-actually-reinforcing-social-inequalities/
[7] https://www.uscis.gov/e-verify
[8] https://bigdata.fairness.io/e-verify/
[9] https://bigdata.fairness.io

#bigdata #data #opendata

P.S. Также эта заметка не Medium: https://medium.com/@ibegtin/uk-data-investigation-85a4f4b7cefc
Подборка ссылок для тех кто думает о технологиях работы с данными:
- О том как устроена работы с данными в Airbnb - https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770 включая их удивительный инструмент Superset https://github.com/airbnb/superset позволяющий очень удобно визуализировать самые разные данные. И с открытым кодом

- Обзор 15 библиотек для работы с данными с помощью Python - https://medium.com/activewizards-machine-learning-company/top-15-python-libraries-for-data-science-in-in-2017-ab61b4f9b4a7

- Metabase. Возможность создания быстрой бизнес аналитики на данных - https://github.com/metabase/metabase с открытым кодом

- Cyclotron. Фреймворк для быстрого создания панелей управления с визуализацией данных - http://www.cyclotron.io/ с открытым кодом

- Bad Data Guide. Подробное руководство о том какими бывают плохие данные - https://github.com/Quartz/bad-data-guide

- Статья о том как использовать "темные данные. Dark analytics: Illuminating opportunities hidden within unstructured data https://dupress.deloitte.com/dup-us-en/focus/tech-trends/2017/dark-data-analyzing-unstructured-data.html

#data #datascience