Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.

А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.

Всё это про рынок труда в США, конечно.

А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?

Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801

#it #jobs #salaries #usa
Я вернулся к написанию технических текстов на английском языке, в этот раз заметка Semantic data types. Systematic approach and types registry [1] в Medium о инструментах о которых я регулярно пишу тут и на других площадках. Это инструмент metacrafter [2] по определению типов данных и наконец-то завершенный реестр Semantic data types [3] в котором собираются смысловые типы данных которые поддерживаются утилитой metacrafter или будут поддерживаться в будущем.

Зачем это нужно я уже писал, это необходимо для задач:
- выявления персональных и чувствительных данных автоматически
- упрощения интеграции данных
- автоматического документирования баз данных
- контроля качества данных, в том числе автоматического

Об этом и другом про данные и про практическую работу с данными я, постепенно, буду писать больше.

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] http://registry.apicrafter.io/

#opendata #data #datatools #opensource #metadata
Полезное чтение про данные
- Union.ai [1] стартап с облачным управлением data workflows от создателей Flyte, продукта с аналогичными функциями с открытым кодом. Привлекли $10M инвестиций [2]
- The “Datadogs” of tomorrow. [3] интересные размышления о инструментах data observability и будущих возможностях в этой области
- Data Discovery Tool: why you absolutely need one! [4] обзор практического внедрения Amundsen, корпоративного каталога [мета]данных и data discovery tool. Полезное как практические обзор
- Feathr [5] LinkedIn выложили в открытый код свой feature store
- Data Engineering Best Practices [6] лучшие практики по дата инженерии, почти все написаны про облака. Нужен аналогичный обзор по лучшим практикам по не облачным инструментам с открытым кодом.
- Guidance Data engineer [7] описание профессии data engineer на сайте gov.uk. Текст из 2020 года, сейчас он также актуален. Хорошо структурировано для понимания того что это за профессия и какими навыками надо обладать. (После такого, конечно, читать российские "профстандарты" совершенно невозможно).
- Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared [8] сравнение инструментов создания озер данных от создателей Lakefs.

Ссылки:
[1] https://www.union.ai/
[2] https://techcrunch.com/2022/04/12/union-ai-raises-10m-to-simplify-ai-and-ml-workflow-orchestration/
[3] https://itnext.io/the-mlops-engineer-the-datadogs-of-tomorrow-614a88a374e0
[4] https://medium.com/hipay-tech/setting-up-a-data-discovery-tool-why-and-which-solution-to-choose-5e03fcbed458
[5] https://engineering.linkedin.com/blog/2022/open-sourcing-feathr---linkedin-s-feature-store-for-productive-m
[6] https://medium.com/@matt_weingarten/data-engineering-best-practices-2a02949b99c4
[7] https://www.gov.uk/guidance/data-engineer
[8] https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/

#data #readings
Продолжается архивация порталов открытых данных в РФ.

Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.

Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.

Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.

1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.

И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.

Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive

Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично

Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!

#opendata #digitalpreservation #webarchival #dataportals
В рубрике инструментов работы с данными Mistql [1] [2] утилита и библиотека для JS и Python позволяющая делать сложные запросы к JSON подобным данным.

Например, mistql умеет отрабатывать подобные запросы "events | filter type == "send_message" | groupby email | keys". Синтаксис немного необычный, но вполне понятный, по мне так он гораздо понятнее и удобнее языков запросов вроде jq и, конечно, очень хотелось бы чтобы NoSQL базы данных умели бы такие запросы обрабатывать и, вообще, нехватает универсального языка запросов для NoSQL баз данных.
Например, их не хватает для MongoDB или ArangoDB.

А я думаю добавить поддержку mistql в мой инструмент undatum [3]. Потому что текущий язык фильтрации данных совершенно несовершенен, а тут хороший подход и много задач где такое нужно.

Ссылки:
[1] https://www.mistql.com/
[2] https://github.com/evinism/mistql
[3] https://github.com/datacoon/undatum

#data #datatools #querylanguage #nosql #json
Чуть отвлекаясь от технологических тем дам ссылку на канал Олега Дерипаски который рассуждает (призывает) к сокращению госаппарата и силовых структур [1]․ Рассуждает он так словно собирается возглавить какую-то новую партию от бизнеса или претендует на должность в Пр-ве или в ЦБ РФ, но я хочу поднять другой вопрос.

Вот говорят что в России назревает мобилизационная экономика, а насколько соответствует текущее правительство всей этой "новой реальности"? Я не только про кадровый состав, я даже про саму структуру и организацию.

Может быть пора начать сокращение с вице-премьеров, сократив их максимум до 2-х?
Может быть пора сократить число органов власти до 15-20? Слишком многие дублируют функции друг друга и совершенно необоснованно раздроблены.
Может быть пора сократить числа замов руководителей в министерствах до 2-3 максимум ? А то министры с 12 замами выглядит как-то даже неприлично.
Может быть надо перестать плодить госАНО для вывода их сотрудников из под закона о госслужбе и госзакупок?
Может быть надо кардинально перестроить всю систему госзакупок, а не продолжать латать громоздкие 44-ФЗ и 223-ФЗ?
Может быть надо ускоренно ликвидировать или преобразовать унитарные предприятия? Помните же был план по приватизации, и где он теперь? Ау-ау!

Я могу продолжать долго, несколько лет назад я довольно активно участвовал в подготовке реформ госуправления, госзакупок и т.д. Сейчас, если честно, вопросы бизнеса, данных и технологий мне куда интереснее, потому что не остаётся ощущения что на 100% работы только 5% результата.

Я даже не призываю все эти реформы начать проводить, слишком многие из тех кто могли бы оценить их разумность и полезность активно уезжают из России с сильным настроем "пусть они сами всё доламывают, чем раньше оно разрушится тем раньше мы будем восстанавливать". Я слышу такое часто, не разделяю такую позицию, но понимаю тех кто её придерживается.

Предсказание дело неблагодарное, но я бы рискнул предположить что текущее Пр-во уйдет таки в отставку до конца этого года, а вот что придёт ему на замену предсказать не готов. В России слишком часто изменения подобного рода сопровождаются ожиданиями "А хуже не будет?". Будет конечно, так что не растрачиваем позитив до худших времен:)

Ссылки:
[1] https://t.me/olegderipaska/402

#government #politics #regulation
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.

Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость

Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.

В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.

Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/

#data #opensource #yandex #tools
Open Knowledge Foundations раздаёт от $500 до $1000 грантами на организацию небольшим мероприятий по открытым данным в рамках программы Open Data Day Grants [1].

В России брать зарубежные гранты и даже получать деньги из других стран стало практически невозможно, поэтому это будет актуально скорее тем кто развивает тему открытых данных в других странах.

Ссылки:
[1] https://blog.okfn.org/2022/04/18/application-for-the-open-data-day-2022-small-grants-is-now-open/

#opendata #events #grants.
Продолжаю писать про технические инструменты на английском языке. В этот раз про open-source утилиту undatum [1] которую я довольно давно сделал для личных задач и заопенсорсил. Это утилита командной строки для преобразования JSON lines и BSON файлов. Удобная для тех кто этими форматами пользуется ежедневно. Например, она позволяет много во что из много чего преобразовывать данные и не только.

В утилите часть кода из Datacrafter'а [2] (у проекта, кстати, теперь отдельный домен datacrafter.ru)․ Там внутри очень много задач по гармонизации данных из всех разных форматов в JSON lines и BSON и тд.

Вообще undatum я начал писать когда почувствовал что начинаю терять ИТ навыки, выступаю с лекциями и говорю на околополитические и ИТ темы чаще чем что-то руками делаю. А программирование - это как любой язык, если не тренируешься, то забываешь. Так что Lingua usu opus est.

А пока предлагаю почитать про undatum и написать чего в нём нехватает, что полезно, покидать в меня успешный опыт использования или, наоборот, безуспешных попыток попробовать.

Ссылки:
[1] https://medium.com/@ibegtin/undatum-command-line-json-lines-bson-data-processing-tool-d45ff1cc1013
[2] http://datacrafter.ru/

#opendata #datatools #opensource
Пишут что SAP уходит из России [1], как прокомментировать это даже и не знаю пока. Если бы в стране был фондовый рынок, то, долгосрочно, продавать акции предприятий где он был внедрён. Но фондового рынка нет, а их акции и так чуть ли не в мусорный уровень обращены, да и годовые отчеты они теперь публиковать не будут. Так что какой такой фондовый рынок, о чём это я.

В общем новость ожидаемая, но комментировать её должен не я, а представители тех компаний где SAP внедрён.

Ссылки:
[1] https://news.sap.com/2022/04/sap-plans-russia-exit/

#russia #it
Я всё откладывал комментарий к новости о том что ФНС теперь "рекомендует" не использовать адреса в доменах отличных от .ru и .su. Там ещё есть про "сервисы стран не подпадающих под ограничения", но что-то вот сами страны не перечислены.

Помимо того что это особо вопиющий, я бы сказал, случай противоречия принципу сетевой нейтральности, это ещё и какая-то не очень понятный способ не думать со стороны руководства ФНС.

Вот почему:
1. Налоговые органы взаимодействуют не только с гражданами России, но и с гражданами других стран являющихся налоговыми резидентами
2. Кроме .ru и .su к России относятся и ряд других доменов таких как .москва или .moscow
3. Российские госструктуры используют домены в зонах .com, .org и других. Примеры: forumspb.com, investarctic.com, volculturecamp.com, ombudsmanrf.org, ruexport.org

Список можно продолжать.
А если кратко, то кто-то в ФНС явно превысил полномочия. Надеюсь у них хватит ума написать разъяснения и исправить ранее написанное.

#idioten #taxes #government
В качестве небольшого пред-анонса, в середине мая выйдет глобальный рейтинг стран по открытости данных Global Data Barometer [1] созданный по перезапущенной методологии предыдущего рейтинга Open Data Barometer.

Если Вы хотите знать реальный уровень открытости данных в России и в других странах, то читайте именно его. Забегая вперед, до февраля 2022 года уровень открытости данных в России по сравнению с другими странами был на среднем уровне, но постепенно снижался.

Отличия глобальных рейтингов в том что там идёт сравнение по доступности и качеству публикации данных имеющих большой значение (high value datasets). Это не сравнение органов власти или порталов регионов по количеству опубликованного "цифрового мусора", а вполне серьёзная и большая и тяжелая работа.

АНО Инфокультура выступало российским партнером в этой работы в прошлом году, всё финансирование было из российских источников, я сам же эту работу и оплачивал и координировал. Иногда надо потратить личные средства на полезное.

Поэтому, никому не верьте, мне можно (с), не читайте отечественных рейтингов Минэкономразвития или Счетной палаты или ещё кого-то, ошибки в них заложены на стадии проектирования, органы власти не могут оценивать другие органы власти и более того сама оценка открытости данных органа власти предполагает равенство и автономность ФОИВов, а это не так. Отвечать за открытость государства и данных может Правительство целиком, не в смысле коллективной ответственности, а конкретно премьер министр.

Но в России публичная повестка по открытости Правительства деградировала до "открытых разговоров" [2] членов правительства с отраслевыми представителями, что выглядит особенно тухло для тех кто знает что, та же отрасль образования почти вся государственная и "открытый разговор" правительства с подчинёнными - это, ну такое, примерно того же типа открытость, как когда Федеральное Казначейство формирует свой общественный совет по представлению НКО в виде их собственного профсоюза (гусары молчат, но запоминают) и так ещё много где и ещё много в какой форме.

Поэтому я не хочу загадывать произойдёт ли перезагрузка повестки открытости государства в России в ближайшие годы и в какой форме эта повестка возможна.

Ещё раз напомню про нашу инициативу по обязательной архивации всех порталов открытых данных в России, поскольку риск их исчезновения в этом году ненулевой.

Ссылки:
[1] https://globaldatabarometer.org/
[2] https://t.me/government_rus/2999

#opendata #opengovernment
В рубрике интересных наборов данных Github опубликовали их базу GitHub Advisory Database [1] уведомлений о проблемах в безопасности в open source продуктах. База невелика, зато полезна и открыта. Данные публикуются в Open Source Vulnerability format [2].

Ссылки:
[1] https://github.com/github/advisory-database
[2] https://ossf.github.io/osv-schema/

#opendata #opensource #security #datasets
В рубрике полезных инструментов для работы с данными несколько обновлений
- spcrawler [1] утилита командной строки для выгрузки данных и файлов из открытых сайтов Sharepoint к которой я наконец-то нашёл время дописать документацию и выложил как открытый код. Предистория: в открытом доступе много сайтов на Sharepoint, некоторые государственные системы/сайты тоже сделаны нём. Эта утилита выгружает все данные доступные через API "/_api/web" для тех случаев когда такое API есть. Похоже на другую утилиту wparc - по архивации данных через API Wordpress, которую я ранее выкладывал.
- у утилиты undatum появилась команда query использующая mistql как язык запросов. Удобно при необходимости потоковой фильтрации данных при работе с JSON lines. Пока в экспериментальном режиме, функции незавершённые. Одна из идей в том чтобы реализовать полноценную команду запросов на многих языках, не только mistql, но и dictquery и ещё нескольких вариантах.
- у меня в планах написать гайд по apibackuper, утилите по архивации данных внутри API. Очень много примеров API по России и оказывается мало по миру, не могу быстро найти зарубежные недокументированные API.
- добавлены новые общедоступные правила к утилите идентфикации типов данных metacrafter, добавлены правила: intcodes.yaml - международные коды, boolean.yaml - булевые значения, orgs.yaml - организации, science.yaml - научные идентификаторы, vehicles.yaml - автомобили. Все они в категории common в репозитории. Напомню, что утилита является открытой и общедоступной как и базовые правила, а у нас внутри проходит бета тестирование сервис с расширенными правилами. Желающие могут использовать открытый код и сами писать правила под свои данные или привлечь нашу команду и мы применим расширенный свод правил + напишем под Ваши данные.

В ближайших планах собрать вместе открытый код + наработки по APICrafter'у и Datacrafter՛у и собрать продукт + сервис на международную и русскоязычную аудитории.

Ссылки:
[1] https://github.com/ruarxive/spcrawler

#opensource #tools #data
Вот уже немало пересмотрев продуктов с открытым кодом для работы с данными и не только с данными могу сказать что два важнейших недооцениваемых компонента успеха у многих из них - это документация и сообщество. Недооцениваемых потому что многие из нас, людей из ИТ, любим технологическую красоту и преимущества создаваемых продуктов и не понимаем до конца тех кто продуктами пользуются.

В части документации хороший пример в виде The documentation system компании Divio. Это стандарт, которому можно придерживаться при создании любого проекта.

А в части сообщества хороший пример Dbt с сообществом в 25+ тысяч человек в Slack, у многих других продуктов похожие большие сообщества в Slack или в Discord. Чаще всего - это сотни и тысячи активных пользователей. Важная особенность - это пассионарность сообществ, потому что есть сообщества в том же Slack с большим числом участников и минимальной активностью, а в данном случае через сообщества идет бета тестирование, проверка фич и сбор ключевых идей.

Я склоняюсь к мысли что это такой подход правильный. Даже если ты делаешь продукт не сильно лучше чем у всех, хорошая документация и сообщество помогают его внедрение.

#opensource #datatools #thoughts
В блоге Data in government [1] Правительства Великобритании текст Using a federated model for API discovery in government [2] про их централизованный каталог API [3]. Я хотел написать об этом ещё в феврале, но вначале отложил, а потом просто подзабыл про это. Текст интересный, собственно о том как должна быть устроена система работы API современного государства.

В корне идея того что каталог API делается централизованным, но для того чтобы сделать его просто создается манифест, машиночитаемое описание, владельцами API которое агрегируется централизованно. В UK для этого сделали специальную схему агрегации [4]

Там же в Великобритании государственная система дизайна (GOV.UK Government design system) официально прошла приёмку и стала живой госуслугой [5]. Для тех кто не знает, в Великобритании, как и в США, как и Сингапуре, как и ещё в десятке стран есть утвержденный стандарт создания госсайтов. Он необязателен, но настоятельно рекомендуемый. Особенность всех дизайн систем в их полной открытости - это открытый код под свободными лицензиями, бесплатные и открытые шрифты и открытые графические элементы. О том почему этого нет в России в этот раз я писать не буду.

Там же в блогах Правительства UK о том как их Charity Commission собирает данные о благотворительных организациях [6], фактически предлагают организациям выступать в роли бета-тестеров и фокус групп.

В целом блоги gov.uk [7] - это такое уникальное явление в госуправлении когда от лица органов власти идёт постоянная коммуникация, ведут их госслужащие которым не запрещено, а наоборот поощряется писать о своей работе и вовлекать тех кто от их работы зависит в разные формы обратной связи.

Ссылки:
[1] https://dataingovernment.blog.gov.uk
[2] https://dataingovernment.blog.gov.uk/2022/02/18/using-a-federated-model-for-api-discovery-in-government/
[3] https://www.api.gov.uk/#uk-public-sector-apis
[4] https://github.com/co-cddo/federated-api-model/tree/main/schemas/v1alpha
[5] https://gds.blog.gov.uk/2022/03/31/the-gov-uk-design-system-is-now-live/
[6] https://charitycommission.blog.gov.uk/2022/04/05/help-us-gather-better-data-on-charities/
[7] https://blog.gov.uk

#blogs #uk #data #government #bestpractices