Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Коммерсант пишет о том что Правительство Москвы в лице ДИТ заказало разработку мобильного приложения "Сводка" [1] которое теперь будет отслеживать ещё и частоты слов в Yandex Wordstat и Googe Trends для мониторинга криминогенной обстановки.

Я прокомментировал в статье и повторюсь сейчас - важнее не получение данных государством из коммерческих систем, а раскрытие данных государством. У Правительства Москвы уже много лет существует система мониторинга преступности использующая не только данные МВД, но и многие другие источники. Нет никаких ограничений, кроме политических чтобы раскрывать эти данные с детальностью до района, а я точно знаю, что там возможно детальность и до улицы, и до блока в 500 метров.

Если деньги налогоплательщиков тратятся на создание очередной системы измерения качества жизни граждан, то и эти данные должны быть открыты. А общественное и коммерческое применение им найдется, есть много сервисов которые знают как положить их на карту и создать востребованных гражданами продукты.

Данные о качестве жизни должны быть общедоступны - это данные о преступности, качестве здравоохранения, образования, состояния окружающей среды, инфраструктуре и многое другое.

Ссылки:
[1] https://www.kommersant.ru/doc/5218189

#opendata #police #crimedata
Forwarded from Инфокультура
Приглашаем на День открытых данных 2022 — онлайн

4-5 марта 2022 года Инфокультура проведет ежегодную конференцию, приуроченную к международному Дню открытых данных.

Присоединяйтесь ко Дню открытых данных, чтобы узнать:
— Как открывать код, данные, знания, созданные за счет госбюджета.
— Как в 2022 году в России регулируется оборот персональных данных.
— Эволюция открытости: от открытых данных по умолчанию к Data4Good.
— Что известно о доступности медицинских данных в эпоху пандемии.
— Где взять данные о жизни в стране: официальные и альтернативные источники.
— Какие проблемы доступности государственных данных сейчас наиболее актуальны.
— Как решить проблему совместимости открытых лицензий в разных юрисдикциях.

Подробности и регистрация: opendataday.ru/msk. Трансляция будет доступна и бесплатна для всех желающих.
В рубрике как это работает у них, каталог научных данных геологической службы США (USGS) [1], всего более 23 тысяч наборов данных в основном в CSV, XML и Shape форматах, очень много данных с геопривязкой, наверное даже большая их часть.

Большая часть публикуется в ScienceBase [2] цифровом репозитории USGS, а всего агрегируется 8 научных репозиториев.

Сейчас они развивают каталог в сторону публикации научных моделей [3] вместе с указанием данных, ПО и публикаций на их основе.

Главные особенности каталога данных:
- обязательные DOI ссылки для всех датасетов
- детальные метаданные в привязкек теме наук о земле
- обязательная привязка к локации
- условия использования на все данные не ограничивающие
- обязательно с указанием периода наблюдений


Ссылки:
[1] https://data.usgs.gov/datacatalog/
[2] https://www.sciencebase.gov/catalog/
[3] https://data.usgs.gov/modelcatalog/search

#opendata #sciencedata #usa #geology
В рубрике интересных наборов данных Awesome-forests [1] коллекция ссылок на наборы данных о лесах. Много интересного для тех кто интересуется этой темой, включая наборы данных для распознавания деревьев, классификации, данных спутникового мониторинга и так далее.

Ссылки:
[1] https://github.com/blutjens/awesome-forests

#datasets #opendata
В продолжение темы открытых наборов данных лесе и заодно отвечая на вопрос о том что можно сделать в открытых данных. Например, петиция на Change.org [1] об открытии реестра зелёных насаждений в Москве. До петиции, её авторы запрашивали эти данные у властей города и получили ответ в стиле "граждане у нас малограмотные, а реестр только для нужд чиновников" [2].

Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.

Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.

К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.

Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.

Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.

Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.

Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.me/openregistry

#opendata #petitions #moscow #ecology #lifequality
В блоге Datahub, open source продукта каталога корпоративных данных пост про то как составлять бизнес глоссарии [1] в привязке к данным. То что в Datahub называется бизнес глоссарием - это просто другой взгляд на те же semantic types, смысловые категории данных. В Datahub всё решают через самостоятельное составление этого глоссария и через тэгирование данных что тоже вполне себе подход для многих задач.

Я же могу сказать что это та область которая хорошо поддаётся автоматизации и алгоритмизации и я над ней думаю уже наверное с 10 лет, в разных направлениях, но основное - это всегда data undestanding, понимание данных, в том числе когда до этого никакой информации именно об этой базе данных или наборе данных не было.

В каталогах данных вроде Datahub другой подход, в том что есть ручная разметка и ручное документирование и в дополнение к ним кое что может автоматизироваться, выявление некоторых типов персональных данных к примеру.

Вообще же могу сказать что мне лично в этом всём нехватает большого числа разных данных. Всё основное что можно было собрать по российским порталам открытых данных уже или загружено в DataCrafter [2], или лежит большими слепками вроде слепка данных в data.gov.ru или, ещё, с крупных зарубежных порталов данных. В общей сложности около 75 тысяч наборов данных по которым не менее 300 тысяч полей/метаданных доступны. Но это всё общедоступные данные, там почти нет чувствительных персональных данных (кроме некоторых исключений).

Для задач распознавания типов данных всегда нехватает данных предметных областей: финансовой, коммерческой, транспорта, медицины и тд. В общем и целом постоянное ощущение что данных мало сколько бы их не было;)

В ситуации дефицита данных для обучения алгоритмов альтернативный способ всегда остаётся тем же, наличием возможности пользователю самому создавать бизнес глоссарии.

Ссылки:
[1] https://medium.com/datahub-project/creating-a-business-glossary-and-putting-it-to-use-in-datahub-43a088323c12
[2] https://data.apicrafter.ru

#datacatalogs #metadata
Полезное чтение о данных и их регулировании:
- Data saves lives: reshaping health and social care with data (draft) [1] черновик регулирования в Великобритании, с примерами и целеполаганием на использование данных в целях спасения жизни и здоровья граждан. Четко и внятно написанный документ,стоит почитать чтобы понимать как развивается регулирование в UK. Можно обратить внимание на то что кроме данных планируется и раскрытие кода под лицензиями MIT and OGLv3
- Public bodies’ access to private sector data [2] научная статья о том как в 12 европейских локальных юрисдикциях органы власти взаимодействуют с бизнесом для получения данных частного сектора
- Open Data Governance and Its Actors [3] свежая книга о регулировании открытых данных от Max Kassen. Я её ещё не читал, но планирую. Судя по содержанию, похоже книга про систематизацию того как устроено раскрытие данных и кто за это отвечает
- Data Federalism [4] очень систематизирующий и длинный лонгрид о взаимодействии властей между собой через призму данных. Автор юрист, очень много конституционных аспектов и особенностей связанных с работой с данными в госорганах США.
- The Political Philosophy of AI: An Introduction [5] политические аспекты применения ИИ. Любопытная книга, я её также пока не читал, и также планирую прочитать.

Ссылки:
[1] https://www.gov.uk/government/publications/data-saves-lives-reshaping-health-and-social-care-with-data-draft/data-saves-lives-reshaping-health-and-social-care-with-data-draft
[2] https://firstmonday.org/ojs/index.php/fm/article/view/11720
[3] https://link.springer.com/book/10.1007/978-3-030-92065-4
[4] https://harvardlawreview.org/2022/02/data-federalism/
[5] https://www.politybooks.com/bookdetail?book_slug=the-political-philosophy-of-ai-an-introduction--9781509548538

#ai #data #policy #books #reading
Стартапы по работе с данными о которых мало кто знает

Hanzo [1] компания с изначальной специализацией на ведении корпоративных веб-архивов с акцентом на рынок complience, регуляторных требований, в первую очередь от SEC и FINRA, финансовых регуляторов. Кроме архивов специализируются на архивации данных из корпоративных систем коммуникации и совместной работы таких как Slack и Google Workspace. В целом этот рынок называется eDiscovery. Привлекли венчурных инвестиций на $3.3M

Open Data Blend [2] проект частной компании NumbleLearn по представлению аналитики по фармацевтическому рынку в Великобритании. Используют данные о рецептах публикуемые Агентством здравоохранения Великобритании и предоставляют рынку подробные инсайты и иные формы представления понимания этого рынка. Сведений о инвестициях в них нет, но похоже что проект живой и приносит деньги.

Ссылки:
[1] https://www.hanzo.co
[2] https://www.opendatablend.io/

#opendata #data #startups
Ivan Begtin
Для тех кто интересуется реакцией правительств на COVID-19 через мобильные приложения для отслеживания, вышел финальный отчет Tracing The Tracers 2021 report: Automating COVID responses [1] от Algrorithm Watch, германской исследовательской группы в области…
Я ранее много раз упоминал стандарт публикации Frictionless Data [1] созданный командой Rufus Pollock, основателя Open Knowledge Foundation. Это стандарт контейнера для обмена данными и включающего специальный манифест с описанием состава данных. Самое очевидное и декларируемое его применение - это распространение данных в форматах CSV при которых в манифесте указаны параметры для открытия такого файла.

Идея эта не новая, например, библиотека конгресса США когда-то разработала стандарт Bagit [2] для обмена архивными данными. Но важным достоинством именно Frictionless Data является возможность расширения и создания своих стандартов на его основе. Так появился стандарт WACZ [3] для публикации веб-архивы внутри ZIP контейнера.

Веб архивы - это слепки сайтов создаваемые краулерами, такими как Internet Archive. Они создаются в международном стандарте WARC, а их метаданные в формате CDX, у которых есть множество достоинств и важный недостаток - они довольно сильно устарели. С метаданными есть потребность работать в машиночитаемом виде, сразу в JSON, а WARC файлы держать сжатыми, отсюда и появилась эта спецификация.

При этом не могу сказать что спецификация решает многие или все задачи веб-архивации.

У нас в Национальном цифровом архиве пока используется только формат WARC для архивации сайтов и складывание файлов в ZIP архивы для архивации API и каталогов данных. Так вот у WARC главное достоинство - это некоторая, хоть и не самая большая, но экосистема и совместимость в виде статуса стандарта и множество недостатков таких как: плохое сжатие файлов, поддержка инструментами только сжатия в форматах .warc.gz (GZIP плохо жмёт и вообще и такие данные), отсутствие встроенного механизма индекса содержания или поддержка внешних индексов и, в целом, возможность быстрой навигации с разделением метаданных и содержания - сейчас в WARC файле хранятся одновременно заголовки файлов и сами данные, в результате надо листать весь архив.

В целом же область веб-архивации очень консервативна, там нет такой жизни и гиперактивности как в работе с корпоративными данными, к примеру, да и денег там тоже на много порядков меньше, а вот интересные данные есть и использовать их может быть интересно многим.

Ссылки:
[1] https://frictionlessdata.io
[2] https://datatracker.ietf.org/doc/html/draft-kunze-bagit
[3] https://webrecorder.github.io/wacz-spec/1.2.0/

#opendata #datastandards
В блоге Fivetran весьма интересные размышления [1] о популярности dbt, инструмента по преобразованию данных с помощью SQL, с акцентом на то что dbt решает одну из главных системных проблем SQL - невозможность использования библиотек и шаблонов. В dbt это решается через их менеджер пакетов куда входят многочисленные рецепты работы с данными.

Авторы также ссылаются на статью середины прошлого года Against SQL [3] где как раз проблемы SQL четко актикулировались.

Я, кстати, также совершенно не в восторге от языка SQL, слишком много разных реализаций значительно меняющих/расширяющих SQL стандарт и сам по себе текст стандарта SQL 2016 составляет 1732 страницы. В целом то критика в адрес SQL идёт давно, многие NoSQL продукты появлялись как раз как замена SQL и, по ощущениям, как раз с появлением dbt происходит какое-то экспоненциальное перерождение подходов к работу с этим языком.

Ссылки:
[1] https://www.fivetran.com/blog/can-sql-be-a-library-language
[2] https://hub.getdbt.com/
[3] https://www.scattered-thoughts.net/writing/against-sql
[4] https://blog.ansi.org/2018/10/sql-standard-iso-iec-9075-2016-ansi-x3-135/

#reading #sql #data
Свежее европейское исследование Study on mapping data flows [1] о том как корпоративные данные хостятся и передаются в странах Европы. Используют данные Евростата, ITU и Cisco, а по итогам публикуют визуализацию на карте ЕС [2].

Визуализация, если честно, так себе, а вот исследование полезно для понимания в каких странах ЕС идёт рост строительства ЦОДов и развития облачных сервисов, а в каких их скорее нет. В лидерах, конечно, Германия, но там немало и других инсайтов.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/study-mapping-data-flows
[2] https://digital-strategy.ec.europa.eu/en/policies/european-data-flow-monitoring

#data #datalofw #europe #policy #research
Voltron Data, стартап со-основанный создателем Apache Arrow, Wes McKinney, привлек $110M инвестиций [1]. Подробности стартапа не раскрывают, но он точно будет основан на базе Apache Arrow и ориентирован на обработку больших объёмов данных и, учитывая что в основателях как минимум 2 человека вовлечённых в создание продуктов на данных использующих графические процессоры [2], почти наверняка в нем будет что-то с оптимизацией обработки данных с помощью GPU.

Ссылки:
[1] https://techcrunch.com/2022/02/17/voltron-data-grabs-110m-to-build-startup-based-on-apache-arrow-project/
[2] https://voltrondata.com/news/fundinglaunch/

#startups #data #opensource
Культура работы с данными, она в немелочных мелочах. Её иногда можно понять по тому в каких форматах публикуются данные или по тому насколько полно заполнено представляемые данные и как оперативно они обновляются, но то что значительно сложнее проверить и требует отраслевых знаний - это то _чего нет в опубликованных данных_, но что необходимо для аналитического и практического применения данных.
Например, во Франции Национальный институт здоровья публикует не только суммы грантов на исследования, но и ФИО основного исследователя и его ORCID [1].

Почему это важно? Потому что ORCID, в отличие от ФИО, позволяет однозначно идентифицировать человека.
А многие данные внутри государственных и муниципальных систем уже линкуют с OSM, Geonames и Wikidata. Например, Территории с надписью " Город и страна искусства и истории» региона Ile de France [2].

Если посмотреть на европейские госданные то в них много интеграции с международными авторитетными источниками. Не только с Wikidata, но и с WorldCat и др. гораздо больше ссылок на международные справочники и гораздо больше данных. Например, только данных в портале агрегаторе data.opendatasoft.com, аккумулирующего данные публикуемые органами власти Франции, около 1ТБ данных и это по предварительной оценки выкачки 75% наборов данных с этого портала.

Ссылки:
[1] https://nihr.opendatasoft.com/.../nihr-summary.../table/...
[2] https://data.iledefrance.fr/explore/dataset/vpah_idf/table/

#opendata #data #dataportals
О том как устроена классификация данных, семантические типы, бизнес глоссарии у меня накопилось уже на большой лонгрид. Типизация данных сильно заточена под их понимание.

Пока вот такая картинка/схема того как будет устроен реестр идентификаторов/сементических типов Metacrafter registry [1].

Главная особенность описания данных в том что многие данные не могут идентифицироваться без ошибок, это принципиально невозможно в виду частой повторяемости одних и тех же форматов идентификаторов.

Частично это можно исправить задавая категории правил, зная язык (разговорный) текстов в данных и зная привязку к стране. Чтобы составить хорошие правила нужна хорошая модель идентификаторов/семантических типов с которыми они связаны, а таких моделей нет, только практики и несколько научных публикаций.

Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry

#data #reading #dataunderstanding
Я чувствую мне скоро придётся завести поджанр на канале "критика ГосТех". Вот например слайд из их презентации на семинаре Минспорта. Проблемы всегда не в том о чём сказано, а то о чём упущено. Классические схемы ОЭСР и Мирового банка перехода от аналога к цифре выглядит иначе, можно увидеть на картинках.

Чем отличается российский гостех? Выбрасыванием направлений "Greater transparency" и "Open by default".

Для общества это полный тупик, переход в эпоху цифрового патернализма в его плохой форме.

#data #transparency #govtech
Для тех кто работает с данными и кому нужно регулярно кто-либо архивировать из социальных сетей, продвинутый инструмент для этой задачи - snscrape [1]. Поддерживает Faceboo, VK, Twitter, Instagram, Reddit и ещё много чего. Лучше всего архивирует данные твиттера.

Когда надо сохранить/регулярно сохранять чьи-то социальные сети - вещь незаменимая.

Работает с командной строки, написан на языке Python.

Ссылки:
[1] https://github.com/JustAnotherArchivist/snscrape

#datatools #opensource #digitalpreservation
В блоге Pinterest история про то как они выбирали и в итоге настроили оркестратор задач на базе Airflow [1]. Пост интересный, про сложную архитектуру, реально большие данные, сложные процессы и тд.

А также там же много интересных цифр про Pinterest:
- 500 петабайт данных всего
- 600 терабайт данных ежесуточно
- 4000 workflows
- 10 000 data flows
- 38 000 ежесуточных задач в среднем

Достоинство больших проектов и крупных команд как раз в таких масштабах и решениях возникающих от сложностей подобного объема данных.

А в случае Pinterest'а ещё и интересна их архитектура связки потоков данных, развертывания кода и кластеров Kubernetes.

Ссылки:
[1] https://medium.com/pinterest-engineering/spinner-pinterests-workflow-platform-c5bbe190ba5

#opensource #bigdata #datarchitecture #datapipelines
В рубрике большие наборы открытых данных открытые данные о химических элементах, формулах, веществах и тд.

- PubChem [1] одна из крупнейших в мире баз данных по химическим веществам с параметрами веществ и идентификаторами и описаниями из десятков источников данных. Несколько десятков гигабайт архивов экспортированных в XML файлов.
-HMDB [2] The Human Metabolome Database (HMDB) - база молекул метаболитов в человеческом теле. Общий объём, включая спектральные данные, более 20GB архива с XML файлами
- MassBank Europe [3] база спектральных масс высокого качества. Данных относительно немного, сотни мегабайт выложенных на Github

А также многие другие. В PubChem перечислено 844 источника данных [4] многие из которых включают полные дампы открытых данных.

Ссылки:
[1] https://pubchemdocs.ncbi.nlm.nih.gov/downloads
[2] https://hmdb.ca/downloads
[3] https://massbank.eu/MassBank/
[4] https://pubchem.ncbi.nlm.nih.gov/sources

#opendata #chemistry #openaccess #data #datasets
Для всех кто учится работать с данными и работать с SQL я рекомендую сразу начинать изучать dbt, например, по ссылкам из awesome-dbt [1] и начиная с бесплатного официального курса [2]. Пройдёт год-два максимум и dbt в России начнут повсеместно использовать, а для работы инженера-аналитика (analytics engineer) дистанционно на проект/компанию в любой стране - это будет одна из наиболее востребованных технологий.

Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.

Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.

Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/

#datatools #studies #learning #sql #dbt