О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.
А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.
Всё это про рынок труда в США, конечно.
А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?
Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801
#it #jobs #salaries #usa
А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.
Всё это про рынок труда в США, конечно.
А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?
Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801
#it #jobs #salaries #usa
Я вернулся к написанию технических текстов на английском языке, в этот раз заметка Semantic data types. Systematic approach and types registry [1] в Medium о инструментах о которых я регулярно пишу тут и на других площадках. Это инструмент metacrafter [2] по определению типов данных и наконец-то завершенный реестр Semantic data types [3] в котором собираются смысловые типы данных которые поддерживаются утилитой metacrafter или будут поддерживаться в будущем.
Зачем это нужно я уже писал, это необходимо для задач:
- выявления персональных и чувствительных данных автоматически
- упрощения интеграции данных
- автоматического документирования баз данных
- контроля качества данных, в том числе автоматического
Об этом и другом про данные и про практическую работу с данными я, постепенно, буду писать больше.
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] http://registry.apicrafter.io/
#opendata #data #datatools #opensource #metadata
Зачем это нужно я уже писал, это необходимо для задач:
- выявления персональных и чувствительных данных автоматически
- упрощения интеграции данных
- автоматического документирования баз данных
- контроля качества данных, в том числе автоматического
Об этом и другом про данные и про практическую работу с данными я, постепенно, буду писать больше.
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] http://registry.apicrafter.io/
#opendata #data #datatools #opensource #metadata
Medium
Semantic data types. Systematic approach and types registry
What is semantic data types?
Полезное чтение про данные
- Union.ai [1] стартап с облачным управлением data workflows от создателей Flyte, продукта с аналогичными функциями с открытым кодом. Привлекли $10M инвестиций [2]
- The “Datadogs” of tomorrow. [3] интересные размышления о инструментах data observability и будущих возможностях в этой области
- Data Discovery Tool: why you absolutely need one! [4] обзор практического внедрения Amundsen, корпоративного каталога [мета]данных и data discovery tool. Полезное как практические обзор
- Feathr [5] LinkedIn выложили в открытый код свой feature store
- Data Engineering Best Practices [6] лучшие практики по дата инженерии, почти все написаны про облака. Нужен аналогичный обзор по лучшим практикам по не облачным инструментам с открытым кодом.
- Guidance Data engineer [7] описание профессии data engineer на сайте gov.uk. Текст из 2020 года, сейчас он также актуален. Хорошо структурировано для понимания того что это за профессия и какими навыками надо обладать. (После такого, конечно, читать российские "профстандарты" совершенно невозможно).
- Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared [8] сравнение инструментов создания озер данных от создателей Lakefs.
Ссылки:
[1] https://www.union.ai/
[2] https://techcrunch.com/2022/04/12/union-ai-raises-10m-to-simplify-ai-and-ml-workflow-orchestration/
[3] https://itnext.io/the-mlops-engineer-the-datadogs-of-tomorrow-614a88a374e0
[4] https://medium.com/hipay-tech/setting-up-a-data-discovery-tool-why-and-which-solution-to-choose-5e03fcbed458
[5] https://engineering.linkedin.com/blog/2022/open-sourcing-feathr---linkedin-s-feature-store-for-productive-m
[6] https://medium.com/@matt_weingarten/data-engineering-best-practices-2a02949b99c4
[7] https://www.gov.uk/guidance/data-engineer
[8] https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/
#data #readings
- Union.ai [1] стартап с облачным управлением data workflows от создателей Flyte, продукта с аналогичными функциями с открытым кодом. Привлекли $10M инвестиций [2]
- The “Datadogs” of tomorrow. [3] интересные размышления о инструментах data observability и будущих возможностях в этой области
- Data Discovery Tool: why you absolutely need one! [4] обзор практического внедрения Amundsen, корпоративного каталога [мета]данных и data discovery tool. Полезное как практические обзор
- Feathr [5] LinkedIn выложили в открытый код свой feature store
- Data Engineering Best Practices [6] лучшие практики по дата инженерии, почти все написаны про облака. Нужен аналогичный обзор по лучшим практикам по не облачным инструментам с открытым кодом.
- Guidance Data engineer [7] описание профессии data engineer на сайте gov.uk. Текст из 2020 года, сейчас он также актуален. Хорошо структурировано для понимания того что это за профессия и какими навыками надо обладать. (После такого, конечно, читать российские "профстандарты" совершенно невозможно).
- Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared [8] сравнение инструментов создания озер данных от создателей Lakefs.
Ссылки:
[1] https://www.union.ai/
[2] https://techcrunch.com/2022/04/12/union-ai-raises-10m-to-simplify-ai-and-ml-workflow-orchestration/
[3] https://itnext.io/the-mlops-engineer-the-datadogs-of-tomorrow-614a88a374e0
[4] https://medium.com/hipay-tech/setting-up-a-data-discovery-tool-why-and-which-solution-to-choose-5e03fcbed458
[5] https://engineering.linkedin.com/blog/2022/open-sourcing-feathr---linkedin-s-feature-store-for-productive-m
[6] https://medium.com/@matt_weingarten/data-engineering-best-practices-2a02949b99c4
[7] https://www.gov.uk/guidance/data-engineer
[8] https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/
#data #readings
www.union.ai
Union: Orchestrate Your AI
Bring engineering, ops and data science teams together to create AI products efficiently with lower cost and faster time to market.
Продолжается архивация порталов открытых данных в РФ.
Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.
Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.
Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.
1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.
И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.
Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive․
Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично
Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!
#opendata #digitalpreservation #webarchival #dataportals
Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.
Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.
Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.
1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.
И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.
Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive․
Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично
Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!
#opendata #digitalpreservation #webarchival #dataportals
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
В рубрике инструментов работы с данными Mistql [1] [2] утилита и библиотека для JS и Python позволяющая делать сложные запросы к JSON подобным данным.
Например, mistql умеет отрабатывать подобные запросы "events | filter type == "send_message" | groupby email | keys". Синтаксис немного необычный, но вполне понятный, по мне так он гораздо понятнее и удобнее языков запросов вроде jq и, конечно, очень хотелось бы чтобы NoSQL базы данных умели бы такие запросы обрабатывать и, вообще, нехватает универсального языка запросов для NoSQL баз данных.
Например, их не хватает для MongoDB или ArangoDB.
А я думаю добавить поддержку mistql в мой инструмент undatum [3]. Потому что текущий язык фильтрации данных совершенно несовершенен, а тут хороший подход и много задач где такое нужно.
Ссылки:
[1] https://www.mistql.com/
[2] https://github.com/evinism/mistql
[3] https://github.com/datacoon/undatum
#data #datatools #querylanguage #nosql #json
Например, mistql умеет отрабатывать подобные запросы "events | filter type == "send_message" | groupby email | keys". Синтаксис немного необычный, но вполне понятный, по мне так он гораздо понятнее и удобнее языков запросов вроде jq и, конечно, очень хотелось бы чтобы NoSQL базы данных умели бы такие запросы обрабатывать и, вообще, нехватает универсального языка запросов для NoSQL баз данных.
Например, их не хватает для MongoDB или ArangoDB.
А я думаю добавить поддержку mistql в мой инструмент undatum [3]. Потому что текущий язык фильтрации данных совершенно несовершенен, а тут хороший подход и много задач где такое нужно.
Ссылки:
[1] https://www.mistql.com/
[2] https://github.com/evinism/mistql
[3] https://github.com/datacoon/undatum
#data #datatools #querylanguage #nosql #json
Mistql
MistQL | MistQL
A query language for JSON-like structures
Чуть отвлекаясь от технологических тем дам ссылку на канал Олега Дерипаски который рассуждает (призывает) к сокращению госаппарата и силовых структур [1]․ Рассуждает он так словно собирается возглавить какую-то новую партию от бизнеса или претендует на должность в Пр-ве или в ЦБ РФ, но я хочу поднять другой вопрос.
Вот говорят что в России назревает мобилизационная экономика, а насколько соответствует текущее правительство всей этой "новой реальности"? Я не только про кадровый состав, я даже про саму структуру и организацию.
Может быть пора начать сокращение с вице-премьеров, сократив их максимум до 2-х?
Может быть пора сократить число органов власти до 15-20? Слишком многие дублируют функции друг друга и совершенно необоснованно раздроблены.
Может быть пора сократить числа замов руководителей в министерствах до 2-3 максимум ? А то министры с 12 замами выглядит как-то даже неприлично.
Может быть надо перестать плодить госАНО для вывода их сотрудников из под закона о госслужбе и госзакупок?
Может быть надо кардинально перестроить всю систему госзакупок, а не продолжать латать громоздкие 44-ФЗ и 223-ФЗ?
Может быть надо ускоренно ликвидировать или преобразовать унитарные предприятия? Помните же был план по приватизации, и где он теперь? Ау-ау!
Я могу продолжать долго, несколько лет назад я довольно активно участвовал в подготовке реформ госуправления, госзакупок и т.д. Сейчас, если честно, вопросы бизнеса, данных и технологий мне куда интереснее, потому что не остаётся ощущения что на 100% работы только 5% результата.
Я даже не призываю все эти реформы начать проводить, слишком многие из тех кто могли бы оценить их разумность и полезность активно уезжают из России с сильным настроем "пусть они сами всё доламывают, чем раньше оно разрушится тем раньше мы будем восстанавливать". Я слышу такое часто, не разделяю такую позицию, но понимаю тех кто её придерживается.
Предсказание дело неблагодарное, но я бы рискнул предположить что текущее Пр-во уйдет таки в отставку до конца этого года, а вот что придёт ему на замену предсказать не готов. В России слишком часто изменения подобного рода сопровождаются ожиданиями "А хуже не будет?". Будет конечно, так что не растрачиваем позитив до худших времен:)
Ссылки:
[1] https://t.me/olegderipaska/402
#government #politics #regulation
Вот говорят что в России назревает мобилизационная экономика, а насколько соответствует текущее правительство всей этой "новой реальности"? Я не только про кадровый состав, я даже про саму структуру и организацию.
Может быть пора начать сокращение с вице-премьеров, сократив их максимум до 2-х?
Может быть пора сократить число органов власти до 15-20? Слишком многие дублируют функции друг друга и совершенно необоснованно раздроблены.
Может быть пора сократить числа замов руководителей в министерствах до 2-3 максимум ? А то министры с 12 замами выглядит как-то даже неприлично.
Может быть надо перестать плодить госАНО для вывода их сотрудников из под закона о госслужбе и госзакупок?
Может быть надо кардинально перестроить всю систему госзакупок, а не продолжать латать громоздкие 44-ФЗ и 223-ФЗ?
Может быть надо ускоренно ликвидировать или преобразовать унитарные предприятия? Помните же был план по приватизации, и где он теперь? Ау-ау!
Я могу продолжать долго, несколько лет назад я довольно активно участвовал в подготовке реформ госуправления, госзакупок и т.д. Сейчас, если честно, вопросы бизнеса, данных и технологий мне куда интереснее, потому что не остаётся ощущения что на 100% работы только 5% результата.
Я даже не призываю все эти реформы начать проводить, слишком многие из тех кто могли бы оценить их разумность и полезность активно уезжают из России с сильным настроем "пусть они сами всё доламывают, чем раньше оно разрушится тем раньше мы будем восстанавливать". Я слышу такое часто, не разделяю такую позицию, но понимаю тех кто её придерживается.
Предсказание дело неблагодарное, но я бы рискнул предположить что текущее Пр-во уйдет таки в отставку до конца этого года, а вот что придёт ему на замену предсказать не готов. В России слишком часто изменения подобного рода сопровождаются ожиданиями "А хуже не будет?". Будет конечно, так что не растрачиваем позитив до худших времен:)
Ссылки:
[1] https://t.me/olegderipaska/402
#government #politics #regulation
Telegram
Дерипаска
Непростые решения по сокращению госаппарата, бюджета, который задействуется на его финансирование на всех уровнях (федеральном, региональном, муниципальном), сокращение финансирования любых госструктур, включая ЦБ и госкорпораций, масштабное сокращение силовых…
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.
Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость
Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.
В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.
Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/
#data #opensource #yandex #tools
Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость
Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.
В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.
Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/
#data #opensource #yandex #tools
ydb.tech
YDB — an open source Distributed SQL Database
YDB is an open source Distributed SQL Database that combines high availability and scalability with strong consistency and ACID transactions.
Open Knowledge Foundations раздаёт от $500 до $1000 грантами на организацию небольшим мероприятий по открытым данным в рамках программы Open Data Day Grants [1].
В России брать зарубежные гранты и даже получать деньги из других стран стало практически невозможно, поэтому это будет актуально скорее тем кто развивает тему открытых данных в других странах.
Ссылки:
[1] https://blog.okfn.org/2022/04/18/application-for-the-open-data-day-2022-small-grants-is-now-open/
#opendata #events #grants.
В России брать зарубежные гранты и даже получать деньги из других стран стало практически невозможно, поэтому это будет актуально скорее тем кто развивает тему открытых данных в других странах.
Ссылки:
[1] https://blog.okfn.org/2022/04/18/application-for-the-open-data-day-2022-small-grants-is-now-open/
#opendata #events #grants.
blog.okfn.org
Application for the Open Data Day 2022 small grants is now open!
Open Knowledge Foundation is excited to announce the launch of the Open Data Day 2022 Small Grants Application to support organisations hosting Open Data events and activities across the world. Depending on the types of events, the grant will support selected…
Продолжаю писать про технические инструменты на английском языке. В этот раз про open-source утилиту undatum [1] которую я довольно давно сделал для личных задач и заопенсорсил. Это утилита командной строки для преобразования JSON lines и BSON файлов. Удобная для тех кто этими форматами пользуется ежедневно. Например, она позволяет много во что из много чего преобразовывать данные и не только.
В утилите часть кода из Datacrafter'а [2] (у проекта, кстати, теперь отдельный домен datacrafter.ru)․ Там внутри очень много задач по гармонизации данных из всех разных форматов в JSON lines и BSON и тд.
Вообще undatum я начал писать когда почувствовал что начинаю терять ИТ навыки, выступаю с лекциями и говорю на околополитические и ИТ темы чаще чем что-то руками делаю. А программирование - это как любой язык, если не тренируешься, то забываешь. Так что Lingua usu opus est.
А пока предлагаю почитать про undatum и написать чего в нём нехватает, что полезно, покидать в меня успешный опыт использования или, наоборот, безуспешных попыток попробовать.
Ссылки:
[1] https://medium.com/@ibegtin/undatum-command-line-json-lines-bson-data-processing-tool-d45ff1cc1013
[2] http://datacrafter.ru/
#opendata #datatools #opensource
В утилите часть кода из Datacrafter'а [2] (у проекта, кстати, теперь отдельный домен datacrafter.ru)․ Там внутри очень много задач по гармонизации данных из всех разных форматов в JSON lines и BSON и тд.
Вообще undatum я начал писать когда почувствовал что начинаю терять ИТ навыки, выступаю с лекциями и говорю на околополитические и ИТ темы чаще чем что-то руками делаю. А программирование - это как любой язык, если не тренируешься, то забываешь. Так что Lingua usu opus est.
А пока предлагаю почитать про undatum и написать чего в нём нехватает, что полезно, покидать в меня успешный опыт использования или, наоборот, безуспешных попыток попробовать.
Ссылки:
[1] https://medium.com/@ibegtin/undatum-command-line-json-lines-bson-data-processing-tool-d45ff1cc1013
[2] http://datacrafter.ru/
#opendata #datatools #opensource
Medium
Undatum: command-line JSON lines/BSON data processing tool
For a long time I am fun of command line tools like csvkit, tsv-utils and many other for data processing/data engineering tasks. Command…
Пишут что SAP уходит из России [1], как прокомментировать это даже и не знаю пока. Если бы в стране был фондовый рынок, то, долгосрочно, продавать акции предприятий где он был внедрён. Но фондового рынка нет, а их акции и так чуть ли не в мусорный уровень обращены, да и годовые отчеты они теперь публиковать не будут. Так что какой такой фондовый рынок, о чём это я.
В общем новость ожидаемая, но комментировать её должен не я, а представители тех компаний где SAP внедрён.
Ссылки:
[1] https://news.sap.com/2022/04/sap-plans-russia-exit/
#russia #it
В общем новость ожидаемая, но комментировать её должен не я, а представители тех компаний где SAP внедрён.
Ссылки:
[1] https://news.sap.com/2022/04/sap-plans-russia-exit/
#russia #it
SAP News Center
SAP Plans Russia Exit
SAP remains committed to supporting Ukraine and has announced further steps toward an orderly exit from Russia.
Я всё откладывал комментарий к новости о том что ФНС теперь "рекомендует" не использовать адреса в доменах отличных от .ru и .su. Там ещё есть про "сервисы стран не подпадающих под ограничения", но что-то вот сами страны не перечислены.
Помимо того что это особо вопиющий, я бы сказал, случай противоречия принципу сетевой нейтральности, это ещё и какая-то не очень понятный способ не думать со стороны руководства ФНС.
Вот почему:
1. Налоговые органы взаимодействуют не только с гражданами России, но и с гражданами других стран являющихся налоговыми резидентами
2. Кроме .ru и .su к России относятся и ряд других доменов таких как .москва или .moscow
3. Российские госструктуры используют домены в зонах .com, .org и других. Примеры: forumspb.com, investarctic.com, volculturecamp.com, ombudsmanrf.org, ruexport.org
Список можно продолжать.
А если кратко, то кто-то в ФНС явно превысил полномочия. Надеюсь у них хватит ума написать разъяснения и исправить ранее написанное.
#idioten #taxes #government
Помимо того что это особо вопиющий, я бы сказал, случай противоречия принципу сетевой нейтральности, это ещё и какая-то не очень понятный способ не думать со стороны руководства ФНС.
Вот почему:
1. Налоговые органы взаимодействуют не только с гражданами России, но и с гражданами других стран являющихся налоговыми резидентами
2. Кроме .ru и .su к России относятся и ряд других доменов таких как .москва или .moscow
3. Российские госструктуры используют домены в зонах .com, .org и других. Примеры: forumspb.com, investarctic.com, volculturecamp.com, ombudsmanrf.org, ruexport.org
Список можно продолжать.
А если кратко, то кто-то в ФНС явно превысил полномочия. Надеюсь у них хватит ума написать разъяснения и исправить ранее написанное.
#idioten #taxes #government
В качестве небольшого пред-анонса, в середине мая выйдет глобальный рейтинг стран по открытости данных Global Data Barometer [1] созданный по перезапущенной методологии предыдущего рейтинга Open Data Barometer.
Если Вы хотите знать реальный уровень открытости данных в России и в других странах, то читайте именно его. Забегая вперед, до февраля 2022 года уровень открытости данных в России по сравнению с другими странами был на среднем уровне, но постепенно снижался.
Отличия глобальных рейтингов в том что там идёт сравнение по доступности и качеству публикации данных имеющих большой значение (high value datasets). Это не сравнение органов власти или порталов регионов по количеству опубликованного "цифрового мусора", а вполне серьёзная и большая и тяжелая работа.
АНО Инфокультура выступало российским партнером в этой работы в прошлом году, всё финансирование было из российских источников, я сам же эту работу и оплачивал и координировал. Иногда надо потратить личные средства на полезное.
Поэтому, никому не верьте, мне можно (с), не читайте отечественных рейтингов Минэкономразвития или Счетной палаты или ещё кого-то, ошибки в них заложены на стадии проектирования, органы власти не могут оценивать другие органы власти и более того сама оценка открытости данных органа власти предполагает равенство и автономность ФОИВов, а это не так. Отвечать за открытость государства и данных может Правительство целиком, не в смысле коллективной ответственности, а конкретно премьер министр.
Но в России публичная повестка по открытости Правительства деградировала до "открытых разговоров" [2] членов правительства с отраслевыми представителями, что выглядит особенно тухло для тех кто знает что, та же отрасль образования почти вся государственная и "открытый разговор" правительства с подчинёнными - это, ну такое, примерно того же типа открытость, как когда Федеральное Казначейство формирует свой общественный совет по представлению НКО в виде их собственного профсоюза (гусары молчат, но запоминают) и так ещё много где и ещё много в какой форме.
Поэтому я не хочу загадывать произойдёт ли перезагрузка повестки открытости государства в России в ближайшие годы и в какой форме эта повестка возможна.
Ещё раз напомню про нашу инициативу по обязательной архивации всех порталов открытых данных в России, поскольку риск их исчезновения в этом году ненулевой.
Ссылки:
[1] https://globaldatabarometer.org/
[2] https://t.me/government_rus/2999
#opendata #opengovernment
Если Вы хотите знать реальный уровень открытости данных в России и в других странах, то читайте именно его. Забегая вперед, до февраля 2022 года уровень открытости данных в России по сравнению с другими странами был на среднем уровне, но постепенно снижался.
Отличия глобальных рейтингов в том что там идёт сравнение по доступности и качеству публикации данных имеющих большой значение (high value datasets). Это не сравнение органов власти или порталов регионов по количеству опубликованного "цифрового мусора", а вполне серьёзная и большая и тяжелая работа.
АНО Инфокультура выступало российским партнером в этой работы в прошлом году, всё финансирование было из российских источников, я сам же эту работу и оплачивал и координировал. Иногда надо потратить личные средства на полезное.
Поэтому, никому не верьте, мне можно (с), не читайте отечественных рейтингов Минэкономразвития или Счетной палаты или ещё кого-то, ошибки в них заложены на стадии проектирования, органы власти не могут оценивать другие органы власти и более того сама оценка открытости данных органа власти предполагает равенство и автономность ФОИВов, а это не так. Отвечать за открытость государства и данных может Правительство целиком, не в смысле коллективной ответственности, а конкретно премьер министр.
Но в России публичная повестка по открытости Правительства деградировала до "открытых разговоров" [2] членов правительства с отраслевыми представителями, что выглядит особенно тухло для тех кто знает что, та же отрасль образования почти вся государственная и "открытый разговор" правительства с подчинёнными - это, ну такое, примерно того же типа открытость, как когда Федеральное Казначейство формирует свой общественный совет по представлению НКО в виде их собственного профсоюза (гусары молчат, но запоминают) и так ещё много где и ещё много в какой форме.
Поэтому я не хочу загадывать произойдёт ли перезагрузка повестки открытости государства в России в ближайшие годы и в какой форме эта повестка возможна.
Ещё раз напомню про нашу инициативу по обязательной архивации всех порталов открытых данных в России, поскольку риск их исчезновения в этом году ненулевой.
Ссылки:
[1] https://globaldatabarometer.org/
[2] https://t.me/government_rus/2999
#opendata #opengovernment
После того как зарубежные облачные сервисы перестали работать с российскими пользователями изменилось ли Ваше отношение к облачным сервисам в принципе - для почты, для хранения файлов, для любых сервисов?
Anonymous Poll
24%
Облака - это будущее, продолжу ими пользоваться
22%
Облака теперь только для некритичных сервисов
12%
Российские облака норм, зарубежные теперь надолго не норм
13%
Зарубежные облака норм, а российские всё равно не будут норм
6%
Никаких облаков, только on-premise
15%
Никаких облаков, ничего проприетарного, только управляемый open source
28%
Просто хочу посмотреть ответы
Forwarded from Национальный цифровой архив
В журнале НОЖ вышла статья про цифровую архивацию / веб-архивацию и наш проект Ruarxive https://knife.media/internet-archive/
Нож
Сохранить память: как веб-архивация спасает от забвения заблокированные медиа и «вымирающие» ссылки
Сетевые медиа эфемерны: иногда они просто исчезают, а их сайты могут быть заблокированы или стерты хостером. Как сохранить архивы прошлого? Национальная библиотека Австралии работает над этим с 1996 года. Почитайте, как с этим обстоит дело в России.
В рубрике интересных наборов данных Github опубликовали их базу GitHub Advisory Database [1] уведомлений о проблемах в безопасности в open source продуктах. База невелика, зато полезна и открыта. Данные публикуются в Open Source Vulnerability format [2].
Ссылки:
[1] https://github.com/github/advisory-database
[2] https://ossf.github.io/osv-schema/
#opendata #opensource #security #datasets
Ссылки:
[1] https://github.com/github/advisory-database
[2] https://ossf.github.io/osv-schema/
#opendata #opensource #security #datasets
GitHub
GitHub - github/advisory-database: Security vulnerability database inclusive of CVEs and GitHub originated security advisories…
Security vulnerability database inclusive of CVEs and GitHub originated security advisories from the world of open source software. - github/advisory-database
В рубрике полезных инструментов для работы с данными несколько обновлений
- spcrawler [1] утилита командной строки для выгрузки данных и файлов из открытых сайтов Sharepoint к которой я наконец-то нашёл время дописать документацию и выложил как открытый код. Предистория: в открытом доступе много сайтов на Sharepoint, некоторые государственные системы/сайты тоже сделаны нём. Эта утилита выгружает все данные доступные через API "/_api/web" для тех случаев когда такое API есть. Похоже на другую утилиту wparc - по архивации данных через API Wordpress, которую я ранее выкладывал.
- у утилиты undatum появилась команда query использующая mistql как язык запросов. Удобно при необходимости потоковой фильтрации данных при работе с JSON lines. Пока в экспериментальном режиме, функции незавершённые. Одна из идей в том чтобы реализовать полноценную команду запросов на многих языках, не только mistql, но и dictquery и ещё нескольких вариантах.
- у меня в планах написать гайд по apibackuper, утилите по архивации данных внутри API. Очень много примеров API по России и оказывается мало по миру, не могу быстро найти зарубежные недокументированные API.
- добавлены новые общедоступные правила к утилите идентфикации типов данных metacrafter, добавлены правила: intcodes.yaml - международные коды, boolean.yaml - булевые значения, orgs.yaml - организации, science.yaml - научные идентификаторы, vehicles.yaml - автомобили. Все они в категории common в репозитории. Напомню, что утилита является открытой и общедоступной как и базовые правила, а у нас внутри проходит бета тестирование сервис с расширенными правилами. Желающие могут использовать открытый код и сами писать правила под свои данные или привлечь нашу команду и мы применим расширенный свод правил + напишем под Ваши данные.
В ближайших планах собрать вместе открытый код + наработки по APICrafter'у и Datacrafter՛у и собрать продукт + сервис на международную и русскоязычную аудитории.
Ссылки:
[1] https://github.com/ruarxive/spcrawler
#opensource #tools #data
- spcrawler [1] утилита командной строки для выгрузки данных и файлов из открытых сайтов Sharepoint к которой я наконец-то нашёл время дописать документацию и выложил как открытый код. Предистория: в открытом доступе много сайтов на Sharepoint, некоторые государственные системы/сайты тоже сделаны нём. Эта утилита выгружает все данные доступные через API "/_api/web" для тех случаев когда такое API есть. Похоже на другую утилиту wparc - по архивации данных через API Wordpress, которую я ранее выкладывал.
- у утилиты undatum появилась команда query использующая mistql как язык запросов. Удобно при необходимости потоковой фильтрации данных при работе с JSON lines. Пока в экспериментальном режиме, функции незавершённые. Одна из идей в том чтобы реализовать полноценную команду запросов на многих языках, не только mistql, но и dictquery и ещё нескольких вариантах.
- у меня в планах написать гайд по apibackuper, утилите по архивации данных внутри API. Очень много примеров API по России и оказывается мало по миру, не могу быстро найти зарубежные недокументированные API.
- добавлены новые общедоступные правила к утилите идентфикации типов данных metacrafter, добавлены правила: intcodes.yaml - международные коды, boolean.yaml - булевые значения, orgs.yaml - организации, science.yaml - научные идентификаторы, vehicles.yaml - автомобили. Все они в категории common в репозитории. Напомню, что утилита является открытой и общедоступной как и базовые правила, а у нас внутри проходит бета тестирование сервис с расширенными правилами. Желающие могут использовать открытый код и сами писать правила под свои данные или привлечь нашу команду и мы применим расширенный свод правил + напишем под Ваши данные.
В ближайших планах собрать вместе открытый код + наработки по APICrafter'у и Datacrafter՛у и собрать продукт + сервис на международную и русскоязычную аудитории.
Ссылки:
[1] https://github.com/ruarxive/spcrawler
#opensource #tools #data
GitHub
GitHub - ruarxive/spcrawler: A command-line tool to backup Sharepoint public installations data from open API endpoint
A command-line tool to backup Sharepoint public installations data from open API endpoint - ruarxive/spcrawler
Вот уже немало пересмотрев продуктов с открытым кодом для работы с данными и не только с данными могу сказать что два важнейших недооцениваемых компонента успеха у многих из них - это документация и сообщество. Недооцениваемых потому что многие из нас, людей из ИТ, любим технологическую красоту и преимущества создаваемых продуктов и не понимаем до конца тех кто продуктами пользуются.
В части документации хороший пример в виде The documentation system компании Divio. Это стандарт, которому можно придерживаться при создании любого проекта.
А в части сообщества хороший пример Dbt с сообществом в 25+ тысяч человек в Slack, у многих других продуктов похожие большие сообщества в Slack или в Discord. Чаще всего - это сотни и тысячи активных пользователей. Важная особенность - это пассионарность сообществ, потому что есть сообщества в том же Slack с большим числом участников и минимальной активностью, а в данном случае через сообщества идет бета тестирование, проверка фич и сбор ключевых идей.
Я склоняюсь к мысли что это такой подход правильный. Даже если ты делаешь продукт не сильно лучше чем у всех, хорошая документация и сообщество помогают его внедрение.
#opensource #datatools #thoughts
В части документации хороший пример в виде The documentation system компании Divio. Это стандарт, которому можно придерживаться при создании любого проекта.
А в части сообщества хороший пример Dbt с сообществом в 25+ тысяч человек в Slack, у многих других продуктов похожие большие сообщества в Slack или в Discord. Чаще всего - это сотни и тысячи активных пользователей. Важная особенность - это пассионарность сообществ, потому что есть сообщества в том же Slack с большим числом участников и минимальной активностью, а в данном случае через сообщества идет бета тестирование, проверка фич и сбор ключевых идей.
Я склоняюсь к мысли что это такой подход правильный. Даже если ты делаешь продукт не сильно лучше чем у всех, хорошая документация и сообщество помогают его внедрение.
#opensource #datatools #thoughts
dbt Labs
dbt Labs | Transform Data in Your Warehouse
Use dbt to build reliable data models quickly and collaboratively—featuring version control, automated documentation, and integrated testing.
В блоге Data in government [1] Правительства Великобритании текст Using a federated model for API discovery in government [2] про их централизованный каталог API [3]. Я хотел написать об этом ещё в феврале, но вначале отложил, а потом просто подзабыл про это. Текст интересный, собственно о том как должна быть устроена система работы API современного государства.
В корне идея того что каталог API делается централизованным, но для того чтобы сделать его просто создается манифест, машиночитаемое описание, владельцами API которое агрегируется централизованно. В UK для этого сделали специальную схему агрегации [4]
Там же в Великобритании государственная система дизайна (GOV.UK Government design system) официально прошла приёмку и стала живой госуслугой [5]. Для тех кто не знает, в Великобритании, как и в США, как и Сингапуре, как и ещё в десятке стран есть утвержденный стандарт создания госсайтов. Он необязателен, но настоятельно рекомендуемый. Особенность всех дизайн систем в их полной открытости - это открытый код под свободными лицензиями, бесплатные и открытые шрифты и открытые графические элементы. О том почему этого нет в России в этот раз я писать не буду.
Там же в блогах Правительства UK о том как их Charity Commission собирает данные о благотворительных организациях [6], фактически предлагают организациям выступать в роли бета-тестеров и фокус групп.
В целом блоги gov.uk [7] - это такое уникальное явление в госуправлении когда от лица органов власти идёт постоянная коммуникация, ведут их госслужащие которым не запрещено, а наоборот поощряется писать о своей работе и вовлекать тех кто от их работы зависит в разные формы обратной связи.
Ссылки:
[1] https://dataingovernment.blog.gov.uk
[2] https://dataingovernment.blog.gov.uk/2022/02/18/using-a-federated-model-for-api-discovery-in-government/
[3] https://www.api.gov.uk/#uk-public-sector-apis
[4] https://github.com/co-cddo/federated-api-model/tree/main/schemas/v1alpha
[5] https://gds.blog.gov.uk/2022/03/31/the-gov-uk-design-system-is-now-live/
[6] https://charitycommission.blog.gov.uk/2022/04/05/help-us-gather-better-data-on-charities/
[7] https://blog.gov.uk
#blogs #uk #data #government #bestpractices
В корне идея того что каталог API делается централизованным, но для того чтобы сделать его просто создается манифест, машиночитаемое описание, владельцами API которое агрегируется централизованно. В UK для этого сделали специальную схему агрегации [4]
Там же в Великобритании государственная система дизайна (GOV.UK Government design system) официально прошла приёмку и стала живой госуслугой [5]. Для тех кто не знает, в Великобритании, как и в США, как и Сингапуре, как и ещё в десятке стран есть утвержденный стандарт создания госсайтов. Он необязателен, но настоятельно рекомендуемый. Особенность всех дизайн систем в их полной открытости - это открытый код под свободными лицензиями, бесплатные и открытые шрифты и открытые графические элементы. О том почему этого нет в России в этот раз я писать не буду.
Там же в блогах Правительства UK о том как их Charity Commission собирает данные о благотворительных организациях [6], фактически предлагают организациям выступать в роли бета-тестеров и фокус групп.
В целом блоги gov.uk [7] - это такое уникальное явление в госуправлении когда от лица органов власти идёт постоянная коммуникация, ведут их госслужащие которым не запрещено, а наоборот поощряется писать о своей работе и вовлекать тех кто от их работы зависит в разные формы обратной связи.
Ссылки:
[1] https://dataingovernment.blog.gov.uk
[2] https://dataingovernment.blog.gov.uk/2022/02/18/using-a-federated-model-for-api-discovery-in-government/
[3] https://www.api.gov.uk/#uk-public-sector-apis
[4] https://github.com/co-cddo/federated-api-model/tree/main/schemas/v1alpha
[5] https://gds.blog.gov.uk/2022/03/31/the-gov-uk-design-system-is-now-live/
[6] https://charitycommission.blog.gov.uk/2022/04/05/help-us-gather-better-data-on-charities/
[7] https://blog.gov.uk
#blogs #uk #data #government #bestpractices
dataingovernment.blog.gov.uk
Data in government
A blog about the work of performance analysts and data scientists at the Government Digital Service