Ivan Begtin
7.97K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Многие уже написали о проекте USAFacts [1] который представляется как "USAFacts is a new data-driven portrait of the American population, our government’s finances, and government’s impact on society."

Действительно, интереснейший проект с собранными и удобно поданными данными о населении, финансах, доходах и расходах бюджета и многом другом.

Проект, очень хорошо сделан, в нем интересно что цифры предоставляются в сравнении с 1980 года и в том что за каждой цифрой есть тщательная методология [2], вдохновением для проекта оказался разговор Стива Балмера с женой [3], в котором он задался вопрос о том что государство делает с теми деньгами что оно собирает в виде налогов.

На мой взгляд это одна из лучших визуализаций бюджетов стран и, конечно, это ровно тот проект который логично было бы иметь любому государственному мозговому центру до начала любых реформ. В какой-то степени он напомнил мне проект DataUSA [4], который тоже совсем недавно упоминался и в котором собрана локальная и гиперлокальная статистика образования, производства, здравоохранения, населения и многое другое.

Подобный проекты практически всегда основанные на открытых данных. Но на открытых данных прошедших тщательную верификацию и упаковку в аналитический продукт.

Ссылки:
[1] https://www.usafacts.org
[2] https://www.usafacts.org/methodology
[3] https://www.usafacts.org/about
[4] https://datausa.io/

#opendata #data #analytics

P.S. Теперь я также начал вести блог на Medium и для тех кому это удобнее, можно читать меня там https://medium.com/@ibegtin/usafacts-e5c623c81097
Вышел доклад "The State of weather data infrastructure" [1] от The Open Data Institute посвященный инфраструктуре метерологических данных в Великобритании, других странах и данных создаваемых частным сектором.

Это интересный отчет для всех кто интересуется тем как устроены метеоданные за пределами России. Главные тезисы отчета можно свести к следующим:

• бизнес активно создает новые сенсоры и платформы и создает и анализирует метеорологические данные без участия государства;
• метеорологические ведомства, с одной стороны должны регулярно обновлять парк оборудования и использовать суперкомпьютеры, а с другой от них ждут открытых данных и сами они публикуют данные открыто, а не продают их;
• необходимы дополнительные инвестиции в data инфраструктуру метеоданных для обеспечения доступности данных.

В докладе много ссылок на существующие частные инициативы. Например, проекты PlanetIQ [2] и TAMDAR [3] , а также много последних новаций в том что касается предсказания погодных явлений.

Ссылки:
[1] https://theodi.org/the-state-of-weather-data-infrastructure-white-paper?utm_source=digg
[2] http://planetiq.com/
[3] https://weather.panasonic.aero/

#opendata #data #weather
В блоге Keen.io обзор архитектур анализа данных в Twitter, Facebook, Airbnb, Netflix и Pinterest [1]. Практически все они работают на технологиях Apache Kafka, Apache Spark, Apache Storm, Elastic Search и Hadoop.

Там же много ссылок на публикации архитектуры данных этими компаниями. Например, "Behind the Pins: Building Analytics" [2] и "Data Infrastructure at Airbnb" [3]

Миллиардные транзакции ежедневно происходящие в этих системах поражают. Если и говорить про большие данные, не в маркетинговом, а в осмысленном понимании, то они происходят именно там.

И здесь можно обратить внимание на несколько важных явлений:
- все решения на базе открытого кода. У всех крупнейших компаний, или на базе открытого кода, или собственные разработки;
- повсеместная стандартизация компонентов;
- акцент на горизонтальном масштабировании.

Ссылки:
[1] https://blog.keen.io/architecture-of-giants-data-stacks-at-facebook-netflix-airbnb-and-pinterest-9b7cd881af54
[2] https://medium.com/@Pinterest_Engineering/behind-the-pins-building-analytics-f7b508cdacab?s=hi-from-keen-io
[3] https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c

#bigdata #data
Помните я писал про архивацию и то что нехватает мощностей для проекта по архивации госсайтов?
Мы наконец-то сделали страницу сайт всей инициативы и то куда можно собирать средства - http://archive.infoculture.ru

Это Национальный цифровой архив России (НЦАР) большая инициатива состоящая из многих проектов в будущем, а пока из двух:

1-й - это "Консервированное государство", архивация всех официальных сайтов, социальных аккаунтов, сайтов спецпроектов и тд созданных на госсредства и от государственных органов и учреждений.
2-й - это пока разрозненные специализированные коллекции из сайтов, баз данных, других цифровых артефактов по темам не обязательно относящимся к государству. Например, это сайты банков или закрываемых онлайн проектов.

Сайт пока еще в состоянии доработки, мы его только-только сделали, но можно уже его показывать.
Значительная часть собранного уже опубликована и общедоступна. Они есть по ссылкам на сайте и доступны для выгрузки тут - http://cdn2.sdlabs.ru/preservation/webcollect/
Но там не все, там нет последних 3 терабайт официальных сайтов которые пока некуда выкладывать

Однако это очень большие объемы и мы постепенно и постоянно упираемся в потолки объемов данных, даже не для хранения, но для раздачи.
Одно из решений - это аренда 2-х Storage Box по 10 терабайт на серверах хостера Hetzner. Он обойдется примерно в 72 тысяч рублей в год.

Архивация государственных сайтов - это особый проект. На него мы врядли сможем привлечь грантовое или государственное финансирование, к нему же сложнее получить поддержку от крупных российских интернет-компаний, поэтому мы попробуем устроить краудфандинг.
Для этого достаточно 72 людям сбрасываться по 1 тысяче рублей в год.

Скажу сразу это небольшая сумма, однако мы в Инфокультуре ведем очень много проектов таких как Открытая полиция, Госзатраты, Хаб открытых данных, Понятный русский язык, День открытых данных, хакатоны, конкурсы, мероприятия и еще многое и в итоге силы и средства распеределены по всем ним.

Краудфандинг для меня лично - это столько сбор средств, сколько то что проект по консервации общедоступной государственной информации - это нужно и востребовано.

Если получится собрать больше денег, то все они будут направлены на:
- холодное резевирование данных чтобы было минимум по 2-3 копии любых данных
- оплату работы программистов для создания утилит для архивации данных из социальных аккаунтов ОК, VK, Facebook и др
- создание удобного интерфейса для поиска по архивам
Пока я пишу это только в формате Facebook'а и других площадок на которых я публикуюсь. Чуть позже мы запустим и официальную кампанию по сбору средств на Planeta.ru

Сделать пожертвование можно через Яндекс.Деньги или переводом на банковский счет, реквизиты и форма по ссылке http://archive.infoculture.ru/donate/
Если у Вас есть или будут идеи того что и как архивировать, готовность помочь и так далее - пишите мне на ibegtin@infoculture.ru

#digitalpreservation
На днях прошла новость о том что проект Имхонет, состоящий из рекомендаций фильмов, книг и многого другогоб закрылся [1]. Закрылся он внезапно, без предупреждения, без возможности скачать хотя бы собственные опубликованные там материалы, теперь там просто заглушка вместо главной страницы [2].

Это довольно удручающая новость показывающая еще и уровень информационной культуры у создателей проектов основанных на материалах пользователей. В любой момент создали могут решить проект закрыть и невозможно получить собственные материалы.

Для сравнения, корпорация "Microsoft" 31 марта этого года объявила [3] о закрытии проекта хостинга открытого кода Codeplex и переносе собственных проектов на Github.
При этом они пообещали что:
• все материалы останутся на сайте в режиме для чтения с октября 2017;
• полностью сайт будет закрыт в декабре 2017;
• для переноса данных написано подробное руководство.

Итого, они предупредили за чуть менее чем 9 месяцев и достаточно время сохранить собственный код и не только. Например, команда Archiveteam уже успела отследить этот факт и отслеживает статус проекта [4]

Или, например, сервис закладов Ffound.com объявил о закрытии с 8 мая [5 ], хотя бы за 2 недели. Сейчас его также копируют участники ArchiveTeam.

Самые неприятные истории, конечно, похожи на историю с Имхонет. Например, после того как Яндекс продал хостинг Narod.ru компании uCOZ [6 ] этот хостинг сильно испортился и теперь на какой сайт на narod.ru не зайти, я вижу всегда длительную блокирующую просмотр материалов автоматическую видеорекламу.

Это вполне может быть признаком того что uCOZ нацелились на быструю монетизацию и судьба сайтов на бесплатном хостинге - это вопрос открытый.

Ссылки:
[1] https://roem.ru/29-04-2017/248903/imhonet-zakrylsya/
[2] http://imhonet.ru/
[3] https://blogs.msdn.microsoft.com/bharry/2017/03/31/shutting-down-CodePlex/
[4] http://www.archiveteam.org/index.php?title=CodePlex
[5] http://ffffound.com/
[6] https://yandex.ru/blog/company/57916

#digitalpreservation #archiving
Всем привет! Случилось страшное, архивируя все на свете я не успел заархивировать чат @begtinchat в котором обсуждаются новости на моем канале @begtin. Пара неверных движений в мобильном приложении и вместо добавления админа в чат, меня угораздило его удалить. Если Вам есть что обсудить по тем новостям о которых я пишу - открытые данные, открытое государство, приватность, данные вообще и государство в принципе - прошу, присоединяйтесь. Я же продолжу восстанавливать чат из архивов, надеюсь удалось сохранить хотя бы что-то. Все что удастся сохранить - будет доступно.
Проект SubsidyStories [1] по сбору и визуализации субсидий получаемых европейскими предприятиями. Много скрейперов для данных в XLS, XLSX, PDF и других форматах о чем рассказывают создатели проекта в блоге Open Knowledge International [2]

Простой и симпатичный проект с открытым кодом [3] вышедший из экосистемы OpenSpending.

Ссылки:
[1] http://subsidystories.eu/
[2] https://okfn.de/blog/2017/04/Making-EU-Data-Open/
[3] https://github.com/os-data/eu-structural-funds/

#opendata #openfinances
Национальный архив Великобритании в марте опубликовали Цифровую стратегию [1] в виде подробного документа описывающего развитие цифровых технологий с 2017 по 2019 годы [2]

Основные тезисы этой стратегии:
1. Записи переходят из физической формы в виртуальную
2. Цифровое сохранение сложная задача
3. Высокие ожидания
4. Изменения непрерывны
5. Цифровые навыки на вес золота

Если пересказать стратегию коротко то она звучит так.
- Мы учимся работать в цифровом мире.
- Мигрируем в облака и даем доступ исследователям для анализа данных.
- Открываем все что только возможно
- Создаем API для наших проектов

Там еще много всего и, конечно, у архивов есть давняя беда дефицита цифровых навыков и то что те кто реально собирает данные обо всем с архивами не делятся - ни спецслужбы, ни дата корпорации не сдают туда "награбленное и накопленное".

Поэтому до сих пор инструменты сбора данных несовершенны, для социальных сетей, для веб-сайтов и для многого другого.

Ссылки:
[1] https://www.nationalarchives.gov.uk/about/our-role/plans-policies-performance-and-projects/our-plans/digital-strategy/
[2] https://www.nationalarchives.gov.uk/documents/the-national-archives-digital-strategy-2017-19.pdf

#digitalpreservation
Instacart, онлайн сервис заказа и доставки еды на дом опубликовал датасет из 3 миллионов заказов за 2017 год . Подробнее в блоге Jeremy Stanley [1]

В наборе данных информация о времени заказа, его идентификатор и купленный продукт плюс дополнительная информация. Структуру данных можно посмотреть тут [2], а сами данные выгрузить тут [3].

В очередной раз привожу это как пример того что открытые данные публикует не только государство. Для исследовательских целей их предоставляют многие крупные интернет компании заинтересованные в том чтобы наиболее талантливые разработчики использовали их данные.

Ссылки:
[1] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
[2] https://gist.github.com/jeremystan/c3b39d947d9b88b3ccff3147dbcf6c6b
[3] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

#opendata #instacart
Свежая статья "The world’s most valuable resource is no longer oil, but data в The Economist о данных которые превратились в "новую нефть" [1] поднимает все более актуальную тему о том что деятельность транснациональных корпораций данных (data corporations) дает возможность им отслеживать другие компании и влиять на конкурентный рынок.

Статья поднимает важнейший вопрос соответствия государственных систем существующему мироустройству информационной эры или, как сейчас говорят, "цифровой экономики".

Ссылки:
[1] http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource

#data #dataeconomy
Кто-то отдыхает в праздники, а я публикую заметку о том как проходит архивация сайтов на примере Общественной палаты - https://medium.com/@ibegtin/oprf-archival-209d9b09af3

#digitatalpresevation #opengovernment #archiving
Главный недостаток канала в Телеграм в том что можно промахнуться ведя с кем-то переписку. Всем подписчикам извинения и хороших праздников!
Относительно недавняя новость - оказывается администрация Трампа старательно игнорирует петиции публикуемые на портале петиций Белого дома [1]. Об этом пишут Sunlight Foundation у себя в твиттере [2] и подробнее в статье в Miami Herald "Transparency doesn’t seem to be among the Trump administration’s priorities" [3].

Администрация Барака Обамы обязалась отвечать в течении 30 дней на петиции собирающие более 100 тысяч подписчиков, а на сегодняшний день накопилось 9 петиций перешедших этот рубеж, но не отвеченных администрацией Трампа за 100 дней его правления.

Судьба проектов петиций давно оказывается незавидной. Попытки строить прямую демократию оказываются недолгими, вот и российский РОИ [4] давно уже не функционален.

Ссылки:
[1] https://petitions.whitehouse.gov/
[2] https://twitter.com/SunFoundation/status/857627423659233280
[3] http://www.miamiherald.com/news/politics-government/article146851974.html
[4] https://www.roi.ru/

#opendata #opengov #trump #petitions
Стала доступна бета версия портала USASpending [1] посвященного раскрытию информации о госрасходах в США. Не просто система публикации информации о контрактах, а полноценная система визуализации и предоставления открытых данных. Много лет я и команда Инфокультуры поддерживает похожий проект в России под названием Госзатраты - это проект Комитета гражданских инициатив [2] .

Мало кто знает его предысторию. Еще до того как этот проект стал проектом КГИ, он был создан на гораздо меньшем по объему данных проекте под названием Росгосзатраты созданным мной в Институте современного развития. Тогда у проекта был шанс стать официальным государственным порталом и "получить прописку" в виде портала spending.gov.ru, а теперь до смены текущего правительства на это и не стоит рассчитывать.

Госзатраты - это проект который я начинал проектировать 10 лет назад, сделал первый прототип 6 лет назад и за эти годы уже трижды переделывал его и вначале сам и вместе с командой по мере роста проекта.

Сейчас я могу сказать что для запуска любого подобного большого проекта нужна, в первую очередь, воля, а не деньги и даже не большая команда разработчиков. Нужно очень много желания его реализовать.

Не все также знают что проект USASPending изначально произошел от проекта FedSpending [3] созданного американской НКО "Project of government oversight" в 2006 году.

Именно глядя на него днем, тогда, в конце 2006 года и начале 2007 года я просыпался много месяцев с мыслью о том почему ничего подобного в России нет? Те кто знали госзакупки лучше чем я тогда отвечали мне - "Потому что они никому не нужен".

Сейчас, по истечении многих лет, я рад что нам удается сохранять наш проект и что в мире развиваются подобные проекты. Кроме USASpending их еще около десятка посвящено именно анализу контрактов и открытым данным о госрасходах.

Ссылки:
[1] https://beta.usaspending.gov/
[2] http://clearspending.ru
[3] http://fedspending.org/

#opendata #opengov #spending #clearspending
Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.
Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.
Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].
Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь http://archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью - http://archive.infoculture.ru/donate.

Ссылки:
[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/
[2] http://digital2.library.unt.edu/nomination/eth2016/about/
[3] http://digital2.library.unt.edu/nomination/eth2016/reports/urls/
[4] http://digital2.library.unt.edu/nomination/GWDA/

#opendata #opengov #digitatalpresevation #webarchiving

P.S. Также эта заметка на Medium - https://medium.com/@ibegtin/government-archive-b43a0cde7f97
В качестве исключения я написал заметку про WannaCry, идущую сейчас эпидемию заражения компьютеров программой вымогателей - https://medium.com/@ibegtin/wannacry-e5626de68557
Apple купили компанию Lattice Data [1] специализирующуюся на "неструктурированных темных данных" (unstructured dark data). О компании очень мало известно, только то что они привлекли 20 миллионов долларов США инвестиций от GV, Madrona и InQTel

Компания была создана командой Christopher Ré, Michael Cafarella, Raphael Hoffmann и Feng Niu ранее создавшими DeepDrive [2] "a system to extract value from dark data".

Если "темные данные" - это развитие Deep Dive, выявление отношений и сущностей из неструктуированных текстов, то уже становится интересно какие же новые продукты готовил Apple. Бьюсь об заклад что это будет как-либо связано еще и с распознаванием речи.

Ссылки:
[1] https://techcrunch.com/2017/05/13/apple-acquires-ai-company-lattice-data-a-specialist-in-unstructured-dark-data/
[2] http://deepdive.stanford.edu/

#darkdata #deepdrive #apple
В Ведомостях вышла статья Алексея Кнорре и моим соучастием https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya о несознательной информатизации госорганов. На самом деле картина, как всегда, гораздо более комплексная, но основные принципы неизменны - сейчас государственные информационные системы создаются не для людей
Я давно не публиковал ссылок на то что я читаю в основном и что является источником того о чем я регулярно пишу.

Подборка рекомендаций того откуда лично я черпаю новости и более серьезные знания:
- https://architecht.io/ - журнал о ПО, сервисах и тд. на базе Medium.
- https://govinsider.asia/ - Government Insider, много интересного о цифровых преобразованиях в Азии
- http://www.opengovasia.com/ Open Gov Asia. Множество публикаций о цифровых правительствах в Азии. Скучнее чем GovInsider, но полезен
- http://opengovdaily.com - агрегатор новостей об открытых данных и открытости государства (дизклеймер - я его сделал на базе paper.li).
- https://dataelixir.com - лучшая рассылка о данных из мне известных
- http://thegovlab.org/blog/ - GovLab блог и их дайджест http://thegovlab.org/govlab-digest/ все вокруг государства и цифровых технологий
- https://datafloq.com/ - новости и рассылки и информация о компаниях по работе с данными

#data #opendata