Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Весьма показательная история именно в европейской практике государственных и общественных дискуссий - это публичные консультации. Например, вот публичная консультация в Великобритании по использованию академических идентификаторов DOI для материалов опубликованных на GOV.UK [1] [2].

Сама идея очень любопытная, действительно, наличие постоянной ссылки даёт гарантию что документ не исчезнет и что его всегда можно найти по конкретному адресу. Для академических публикаций это норма, для государственных - редкость.

Но важнее именно сам факт публичной консультации и с весьма подробными ответами участников.

Ссылки:
[1] https://dataingovernment.blog.gov.uk/2020/11/10/we-want-your-feedback-on-using-the-doi-standard-in-government/
[2] https://github.com/alphagov/open-standards/issues/75

#data #doi #opengov
Для тех кто ищет наборы данных побольше, команда Clickhouse обработала данных из Github'а собранные в проекте GHArchive и превратила в большую базу для Clickhouse [1].

Её также можно скачать в виде цельной базы данных для Clickhouse, 71ГБ в сжатом виде [2]

Конечно, это уже существующие данные, нового раскрытия тут нет, но есть удобный формат для работы. Переупакованные данные также имеют большую ценность поскольку по такой базе проще делать сложные запросы, тем более что примеры там приведены неплохие.

Всем кто изучает сложные структуры, большие графы и тд. это всё будет более чем полезный набор данных.

Ссылки:
[1] https://gh.clickhouse.tech/explorer/
[2] https://gh.clickhouse.tech/explorer/#download-the-dataset

#opendata #bigdata #github #clickhouse
Правительство РФ анонсировало большую работу по инвентаризации ИТ систем [1].

Мне так много что есть сказать об этом что я даже не знаю с чего начать. Поэтому буду краток.

Хорошее: это назрело и собственные ИТ ресурсы не знают до сих пор в большинстве органов власти

Плохое: инвентаризация данных - это не инвентаризация баз данных. Базы смешаны с ИТ ресурсами.

Хуже:
- всё меняется постоянно, без постоянной актуализации сведения устареют за год.
- слишком многое не находится в органах власти, а сокрыто в подведах разной степени подведности.

Итого: это инвентаризация последствий информатизации и автоматизации за последние лет 20. Закончить в заявленные сроки ее нереально, надеюсь это только первый шаг в этом направлении.

Ссылки:
[1] http://government.ru/news/41104/

#government #data #digital
Общепринято считать что открытость - это продолжение или следствие демократии, но с оговоркой, что демократии да, а вот капитализма не всегда. Давним примером была приватизация Ordnance Survey, госпредприятия аналога Росреестра в Великобритании которое финансировалось из бюджета страны и Правительство Великобритании решило сократить расходы через его приватизацию [1].

А вот и свежий пример. В США законодатели решили сделать открытую, бесплатную и общедоступную федеральную базу всех судебных решений, против, совершенно неожиданно, оказались судьи. В статье в Washington Post [2] о том что судейское сообщество приводит следующие аргументы:
- ведение картотек судебных дел сейчас в США на 87% оплачивают юридические фирмы и крупные клиенты
- неизвестно насколько вырастет нагрузка на аппараты судов
- в некоторых штатах такие базы уже создаются и возникает дублирование работы и финансирования

Юридическая сторона, в принципе, одна из самых сложных именно в США. Если сравнивать по открытости законотворческого процесса, то прозрачность законотворческого процесса в США высокая, а вот общефедеральной базы законов никогда не было, по тем же самым причинам что сейчас сопротивляются судьи.

Ещё 11 лет назад Карл Маламуд, известный активист по открытию общественно значимых юридических текстов, выдвигал инициативу по созданию базы law.gov [3], но, видимо, 10 лет недостаточно.

Это, кстати, и вопрос про то почему в международных рейтингах открытость обычно лидируют скандинавские страны или Австралия и Новая Зеландия, иногда Сингапур. В странах со сложившимся с развитым, даже если и демократическим капитализмом, некоторые решения ломают или сильно трансформируют рынки. А у крупных лоббистов слишком много влияния чтобы откладывать необходимые решения или сильно их ослаблять.

Поэтому когда я, например, пишу про опыт открытости в США и Великобритании, я всегда держу в голове что даже у очень хорошего опыта и стран сильными сообществами по открытости, есть свои ограничения.

Ссылки:
[1] https://en.wikipedia.org/wiki/Ordnance_Survey#Data_access_and_criticisms
[2] https://www.washingtonpost.com/local/legal-issues/judiciary-opposes-free-online-court-records-database/2020/12/03/02b10a3c-357f-11eb-b59c-adb7153d10c2_story.html
[3] https://law.resource.org/index.law.gov.html

#opendata #opengov #data
Приводить в пример США или Великобританию в части того что происходит в цифровизации с каждым годом всё сложнее, политика, санкции и так далее. Я регулярно привожу примеры из других стран, главные же ограничения по тому чтобы привести их опыт в том что английский язык в России знают многие, а вот другие языки не так много кто.

В этот раз и на фоне инвентаризации информационных систем в России, приведу итальянский опыт.

В Италии действует портал разработчиков developers.italia.it [1] (кстати, отвлекусь, в Италии как и во многих странах есть национальный туристический портал italia.it [2]).

На портале для разработчиков ПО приведён каталог [3] из 226 продуктов из которых:
- 15 платформ
- 145 решений с открытым кодом сделанных органами власти для повторного использования
- 66 решений с открытым кодом третьих сторон используемые органами власти

По ним доступны:
- исходный код, всегда на Github в открытом доступе
- документация
- обсуждение в канале в Slack для разработчиков для гос-ва в Италии
- обсуждение на форуме
- для платформ также приведены ресурсы в виде: API, SDK и возможность обсудить прототипы

Что характерно, этот и другие цифровые порталы, создаются в Италии в рамках трёхлетнего плана информатизации государства Piano Triennale per l’informatica nella Pubblica Amministrazione 2020 - 2022 [4]
Это краткий, чётко изложенный план из 8 пунктов:
1. Сервисы
2. Данные
3. Платформы
4. Инфраструктура
5. Интеграция
6. Кибербезопасность
7. Инструменты и модель инновации
8. Управление цифровой трансформацией

Кстати, обратите внимание что первое что сделали в Италии это сделали систему публикации государственных документов в понятном виде docs.italia.it [5] и об этом они писали ещё в 2018 году, все документы там редактируются через Github [6]

Ссылки:
[1] https://developers.italia.it/
[2] http://www.italia.it
[3] https://developers.italia.it/it/search?page=0&sort=relevance
[4] https://docs.italia.it/italia/piano-triennale-ict/pianotriennale-ict-doc/it/2020-2022/index.html
[5] https://docs.italia.it/
[6] https://medium.com/team-per-la-trasformazione-digitale/docs-italia-open-government-collaborazione-pubblica-amministrazione-progetti-linguaggio-b89ff330e21b

#opengov #opendata #opensource #italy
Открытость данных по испански - это когда на национальном портале данных datos.gob.es публикуются данные не только органов власти, но и университетов [1] и других исследовательских центров. А также университеты объединяются [2] и создают негосударственный проект UniversiDATA [3] посвящённый прозрачности университетов и предназначенный для раскрытия ими информации об их деятельности: бюджеты, состав преподавателей, исследовательские центры и программы,

Фактически открытые данные используются как часть инфраструктуры прозрачности как государства в целом, так и в частных случаях требований к организациям.

Ссылки:
[1] https://datos.gob.es/en/catalogo?administration_level=U&_res_format_label_limit=0
[2] https://datos.gob.es/es/noticia/nace-universidata-el-portal-colaborativo-de-datos-abiertos-especializado-en-el-sector-de-la
[3] https://www.universidata.es/

#opendata #data #spain
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/http://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных.

- Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными

Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.

#opendata #data #bigdata #datasource
Сервисы Google: Gmail, Google Диск и Youtube недоступны. Пока не было сообщений о причинах сбоя
Статистическое ведомство Канады внедрило сервис виртуальной лаборатории для данных связанных с COVID-19 [1]. Лаборатория представлена в виде дистанционного рабочего места в которое включены такие продукты как Jupiter Notebook, R Studio, Kubeflow, Seldon, Shiny и другие. Подробнее в презентации [2] и в документации [3]

Все инструменты приведены с исходным кодом [4].

Все вместе они формируют Data analytics as a Platform (DaaP).

Ссылки:
[1] https://analytics-platform.statcan.gc.ca/covid19
[2] https://govcloud.blob.core.windows.net/docs/daaas-cncf.pdf
[3] https://statcan.github.io/daaas/en/
[4] https://github.com/StatCan

#data #canada #analytics
Многие тезисы которые я пишу в этом канале и в текстах докладов которые готовлю или в которых участвую написаны ещё довольно давно. Чтобы не повторятся по многу раз, привожу тут ссылки на предыдущие публикации

Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены.

Ведомости
- Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti
- Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya
- От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu
- Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya
- Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat
- Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya
- Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

РБК
- Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897
- Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10
- Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f
- Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910
- Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef
- Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d
- Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f
- Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073
- Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207
- Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
- Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c
- Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
- Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

Republic
- Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866
- Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148
- Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720
- Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869

+ ещё было много текстов написанных для Полит.ру
+ какое-то количество текстов в моём блоге begtin.tech

#writings
В блоге PicNic Engeneering интересные подробности [1] внутренностей работы с данными в этом стартапе (PicNic - один из крупных онлайн ритейлеров со штаб квартирой в Нидерландах и $350 млрд. инвестициями [2])

Как пример цифровой среды компании изначально существующей в цифровом мире интересны цифры:
- 120 микросервисов/источников данных/сервисов
- около 1000 ежедневных ELT/ETL задач по сбору и агрегации данных
- около 50% сотрудников не относящихся к технарям владеют SQL
- средний бизнес аналитик делает до 300 SQL запросов в сутки
- в хранилище данных 15 тысяч таблиц, 247 тысяч полей и 121 миллиард строк

Там же много рассказа про организацию работу, используемый стек технологий из смеси облачных решений и открытого кода.

Публикация ещё ноябрьская этого года, но своей актуальности не потеряла, а их блог [3] могу порекомендовать как хороший пример качественной коммуникации с сообществом, много любопытного по Data Engineering там есть, как технического, так и, что лично мне интереснее, организационного.

К сожалению, к государственным проектам такой опыт применим лишь в малой степени, потому большая часть примеров инфраструктуры данных крупных дата-стартапов построена на облачных решениях и общедоступных решениях. А в госпроектах куда ни ткни, либо тех технологической инфраструктуры удобной для быстрого запуска, или такие ограничения по безопасности что применять современные технологии/стеки невозможно.

Ссылки:
[1] https://blog.picnic.nl/picnics-lakeless-data-warehouse-8ec02801d50b
[2] https://www.crunchbase.com/organization/picnic-3
[3] https://blog.picnic.nl

#data #dataengineering
Хороший обзор платформы данных в Financial Times [1] вернее продолжение предыдущей их же публикации от мая 2020 г. [2] о том как внутри издания построена полноценная платформа сбора данных, с озером данных, обработкой, разными командами загружающими и обрабатывающими данные. Интересно не только с точки зрения технологий, но и с точки зрения погружения в data-driven культуру современных зарабатывающих медиа. Не знаю с какими российскими проектами можно было бы сравнить FT.com, но кто знает, может однажды спрос на полноценную инфраструктуру данных появится и в российских СМИ.

Ссылки:
[1] https://medium.com/ft-product-technology/financial-times-data-platform-from-zero-to-hero-143156bffb1d
[2] https://medium.com/ft-product-technology/enabling-data-driven-decisions-564359b79788

#data #dataplatforms #datalakes #media
Продолжаю публиковать крупнейшие наборы данных для исследователей.

Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.

Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.

2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы

3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.

4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/

5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.

6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.

Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump

#webarchive #data #datasets
Sony представили [1] [2] Gastronomy Flagship Project по применению искусственного интеллекта в разработке гастрономических рецептов. Хорошее направление для ИИ и такой помощник на кухне это ровно то чего не хватает. Правда от ИИ до полноценного ассистента надо ещё будет подождать, но хочется надеяться.

И, до сих пор актуально преодоление двух сложностей - это сенсоры вкуса и запахов. Вот когда и это произойдёт то будет большой прорыв.

Ссылки:
[1] https://www.zdnet.com/article/sony-ai-launches-new-project-dedicated-to-gastronomy-research/
[2] https://ai.sony/projects/

#ai #data