Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Полный слепок всех данных из портала Data.gov.ru выложен на Хаб открытых данных [1]. Это архив в 13ГБ, после распаковки 29 ГБ.

Слепок этих данных создавался в архивационных целях, для Национального цифрового архива, но также может быть полезен всем исследователям открытых данных в России, тем кто ищет большие данные для собственных задач и так далее.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #data #dataports #ruarxive
В рубрике интересных инструментов по работе с данными Mercury [1], утилита по преобразованию тетрадок с Python в веб приложения и возможностью запуска их с определёнными параметрами.

Выглядит любопытно и есть живое демо [2], может быть полезно для разного рода способов публикации, например, студенческих работ или работ на хакатонах/конкурсах.

А может и другие применения есть.

Ссылки:
[1] https://github.com/mljar/mercury
[2] http://mercury-demo-1.herokuapp.com/

#datatools #notebooks #python #opensource
Вышла новая версия Metabase [1] опенсорсной и облачной системы визуализации дашбордами (BI системы). В этой версии добавили поддержку моделей и возможности моделирования структуры отображаемых данных для нетехнических пользователей и, в принципе, видно что продукт эволюционирует в сторону повышения его доступености для аналитиков без технического бэкграунда и большей поддержке облачных продуктов.

Собственно основные продукты по визуализации данных с открытым кодом готовые к быстрому корпоративному применению - это Metabase и Superset. Изменения в них весьма интересны.

Ссылки:
[1] https://www.metabase.com/blog/Metabase-0.42/index.html

# datatools #cloud #bi #metabase #opensource
Написал в рассылку о судьбе NoSQL в современном стеке данных [1]. Могу сказать что сейчас NoSQL и современные инструменты - это плохо сочетающиеся комбинации, как минимум в ряде задач. Это создает как проблемы, так и коммерческие возможности

Ссылки:
[1] https://begtin.substack.com/p/23

#datatools #mailing #nosql #mongodb
Минцифры анонсировали поддержку раскрытия исходного кода и открытую государственную лицензию для открытого кода публикуемого от лица Российской Федерации и выставили проект НПА на обсуждение [1]

Если кратко, то инициатива полезная, как минимум открытие исходного кода многих госпроектов/госпродуктов/инструментов разработанных за бюджетные средства - это хорошо. Важно чтобы открытость была полной, а не доступ к репозиторию после регистрации, например, в ЕСИА или по ограниченному списку.

В любом случае это тот документ который стоит прочитать и содержательно прокомментировать на regulation как минимум. Лично у меня есть вопросы к содержанию открытой лицензии, я о своих сомнениях и комментариях позже ещё напишу.

Ссылки:
[1] http://regulation.gov.ru/p/124850

#opensource #sourcecode #digital
Если университет проводит хакатоны на данных и не может опубликовать ни одного набора данных в открытом доступе, то это, конечно, то грош цена таким хакатонам. (c)

Кстати, в Испании 12 университетов публикуют свои данные на национальном портале открытых данных data.gob.es [1], а Университет Сарагосы опубликовал уже 341 набор данных.

В основном это административные данные о жизни университетов, их обязательной финансовой отчетности, статистике и образовательному процессу. Потому что раскрытие данных о научной деятельности обычно идёт по другим каналам - порталам публикации научных данных вроде Zenodo и других проектов открытого доступа.

Ссылки:
[1] https://datos.gob.es/es/catalogo?administration_level=U

#opendata #data
Продолжая тему недокументированных государственных API приведу ещё один живой пример с некоторыми техническими подробностями.

Вот, в Санкт-Петербурге есть портал бюджетных инициатив граждан [1]. В целом неплохой, современно выглядящий и с примерно 29 тысячами опубликованных инициатив. Когда я в целях архивации региональных сайтов бюджетов пытался его заархивировать то столкнулся с тем что у него нет веб-страниц в нормальном понимании. Вместо этого даннные отдаются через API по вполне легко находимой ссылке /api/v2/budget/initiatives [2] в коде страницы, в HTML коде сайта видно что что API передаётся параметр offset для перехода к следующей порции данных и limit для ограничений числа получаемых данных. В результате все инициативы можно выкачать простым перебором. Запросы к API возвращают в JSON формате общее число объектов в поле total_count и список объектов в поле objects в каждом ответе.

Особенность в том что это типовая задача. Не только на этом сайте и не только в этом API данные публикуются именно таким образом. В принципе вариации мышления и логики разработчиков очень невелики, всего 5-6 базовых сценария. Поэтому когда-то давно, 2 года назад я сделал ручную утилиту apibackuper [3] которую считаю личным вкладом в дело цифровой архивации;)

Утилита создана чтобы автоматизировать именно выгрузку данны из API, так чтобы всё можно было описать простыми параметрами в конфигурационном файле и запустить выгрузку. Не открою большого секрета в том что по объёму около 75% данных в Датакрафере [4] скачано именно с помощью apibackuper, фактически над этой утилитой просто возведена надстройка по автогенерации из API в процессе обнаружения данных.

В отличие от HTML парсеров утилита умеет проходить по всем страницам API, выгружать индивидуальные объекты при необходимости и складывать файлы в локальное хранилище или в S3 совместимое, а также экспортировать данные в JSONL формат. Для простоты все промежуточные файлы хранятся в ZIP контейнере и экспортируются по запросу. Всё описыается в .cfg файле

Пример который я озвучивал выше, с инициативами на портале инициативного бюджетирования СПб один из самых простых. Я специально его выложил онлайн как открытый код [4] хотя именно кода там мало, собственно .cfg файл необходимый для выполнения команд и набор этих команд прост.
- apibackuper estimage - оценить длительность и число запросов по выгрузке данных
- apibackuper run - запустить выгрузку данных
- apibackuper export data.jsonl - экспортировать данные в формат jsonl в файл data.jsonl
- apibackuper getfiles - выгрузить все изображения по ссылкам images.image.url

Когда-то я делал эту утилиту для архивации материалов с сайта Мэрии Москвы, там почти весь контент через API, и портала электронного бюджета. Сейчас, как я говорил, эта маленькая программа помогает собирать и большого числа документированных и недокументированных государственных API для архивации и для каталога данных.

Ссылки:
[1] https://tvoybudget.spb.ru
[2] https://tvoybudget.spb.ru/api/v2/budget/initiatives
[3] https://github.com/ruarxive/apibackuper
[4] https://data.apicrafter.ru
[5] https://github.com/ruarxive/apibackuper-example-spbbudget
[6] https://github.com/ruarxive/apibackuper-example-spbbudget/blob/main/apibackuper.cfg

#opendata #datatools #opensource
Один из важнейших этических вопросов к экосистемам и крупнейшим платформам - это саморегулирование и самоцензура. Отчасти он проистекает от скорости развития платформ, значительно опережающей работу регуляторов и законодателей. А отчасти природа этого вопроса в сильной зависимости крупных и, особенно публичных, компаний от общественного мнения.

Вот к примеру на Amazon началось давление по поводу того что через него закупают некоторые пищевые консерванты которые потом используют для суицидов [1], теперь компания использует алгоритмы для идентификации таких продуктов и предлагает тем кто их покупает воспользоваться альтернативами.

Можно ли говорить о том что это самоцензура и саморегулирование? В каких случае это допустимо и в каких нет?

Вопрос очень непростой потому что нет какого-то общечеловеческого каталога ценностей определяющих допустимые границы самоограничений для технологических компаний да и бизнеса в принципе. Как правило компании разрабатывают свои принципы самостоятельно, некоторые даже публикуют их в открытом доступе. К примеру, Google на странице "Беспрепятственный доступ к информации" [2], по сути, декларируют свою ценностную модель (частично декларируют на самом деле).

Но в отличие от вопросов научной этики или международных документов по защите прав человека - эти правила не универсальны.

Случай с Amazon - это тоже некая форма цензуры и таких будет только больше.

Ссылки:
[1] https://www.nytimes.com/2022/02/04/technology/amazon-suicide-poison-preservative.html
[2] https://www.google.com/intl/ru/search/howsearchworks/mission/open-web/

#policy #amazon #censorship
Напомню что 4-5 марта мы, Инфокультура и АУРД, организуем в Москве Open Data Day 2022 [1] он пройдет паралеллельно с сотнями других мероприятий по всему миру [2]. ODD начинался по инициативе Open Knowledge Foundation, большая часть мероприятий были простыми митапами и хакатонами, но несколько больших мероприятий были в формате конференций, например, неделя открытых данных в Нью-Йорке.

В Москве мы проводим мероприятие в формате конференции в которой будут дискусии по актуальным вопросам открытых данных и открытости в целом (открытый код, открытые сообщества, открытое железо и тд.), а также практические мастер классы. Мы скоро разместим программу где будут подробности!

А когда-то мы проводили ODD в формате большой оффлайновой [не]конференции, но пандемия все сильно поменяла и в этом году почти всё будет онлайн с оффлайновым присутствием для спикера и тех кто захочет прийти во ФРИИ и послушать вживую.

Как принять участие/помочь/сделать доброе дело?
1. Сделать репост этого поста и рассказать другим о мероприятии.
2. Ещё есть время предложить спикеров для дискуссий/актуальные темы/проведения мастер классов. Главный критерий - знание предметной области и хорошая подача материала!
3. Подключиться к трансляции в сам День открытых данных, задавать вопросы и комментировать.
4. [При желании] прийти вживую в оффлайн и поговорить на актуальные темы в оффлайне. Чай/кофе/печеньки обеспечим;)

И, конечно, и это важно, что мероприятий в день открытых данных много. В России кроме мероприятия в Москве, анонсировано мероприятие в Кирове и надеюсь оно также будет интересным. Я ещё напишу о нём когда узнаю все подробности от организаторов.

Формат полу-онлайн конференции может подойти не всем, кто-то хочет больше общения вживую. Не стесняйтесь организовать своё мероприятие в своём городе. Создавайте для него лендинг или сообщество в соц сети, регистрируйте на opendataday.org и присылайте мне, я и мои коллеги постараемся привлечь к нему побольше внимания.

ODD в Москве проводится при поддержке членов ассоциации АУРД и наших многолетних партнеров: Фонда Развития Интернет Инициатив, Интерфакса, Департамента медиаи коммуникации Высшей школы экономики и Центра цифровых прав, Роскомсвободы и многих других! Присоединяйтесь к списку партнеров и вступайте к нам в ассоциацию, конечно же;)

Вы также можете поддержать Инфокультуру по мере своих возможностей.

Ссылки:
[1] https://opendataday.ru/msk
[2] https://opendataday.org

#opendataday #odd #деньоткрытыхданных #opendata #events #data
В Италии выяснили что местные автостраховщики делают разные оценки процентной ставки в зависимости от того где Вы родились [1]. Для жителей Рима тариф будет одним, для жителей Неаполя другим. Всё это в статье Algorithmic Audit of Italian Car Insurance: Evidence of Unfairness in Access and Pricing от команды исследователей из 3-х итальянских университетов [2].

Дискриминация по национальности и по месту рождения одна из наиболее жёстких. Большинство из нас не имеет возможности выбрать расу, нацию и, особенно, место рождения.

В статье упоминается что эта практика существовала и раньше, а с применением автоматизированных алгоритмов она лишь стала изощрённее.

Ссылки:
[1] https://algorithmwatch.org/en/discriminating-insurance/
[2] http://www.dei.unipd.it/~silvello/papers/2021_aies2021.pdf

#privacy #ai #ethics
Существует совсем не нулевая вероятность что Google Analytics в Европейском союзе может быть запрещён или ограничен или Google сами перестанут предоставлять этот продукт европейским пользователям. Simpleanalytics [1] сделали обзор с упоминанием регуляторов Австрии и Голландии которые уже сформулировали свои претензии к этому продукту, в части нарушения GDPR.

Но тут важно помнить что Google просто самый большой из таких сервисов. Кто следующий и чем это закончится?


Ссылки:
[1] https://blog.simpleanalytics.com/will-google-analytics-be-banned-in-the-eu

#privacy #eu #google
В Forbes вышла моя колонка [1] по регулировании Метавселенных в России

Вначале я хотел добавить юмора, описать будущее чего-то вроде Росметаконтроля или Федеральной службы виртуального патриотизма или Министерства внутривиртуальных дел, но в какой-то момент юмор засбоил и получился серьёзный текст про усиление госконтроля.

Ссылки:
[1] https://www.forbes.ru/mneniya/455185-metavselennye-pod-kontrolem-pocemu-novye-tehnologii-v-rossii-vosprinimaut-kak-ugrozu

#privacy #vr #ar #metauniverses #reading
В блоге Open Ownership пишут о том что на декабрьской конференции UNDC (Управлении ООН по противодействии коррупции) приняли резолюцию [1] о развитии в сторону раскрытия сведений о конечных владельцах компаний. Обратите внимание что именно о конечных владельцах (beneficial owners), а не учредителям юр. лиц. Сведения об учредителях не везде, но много где доступны за деньги или бесплатно, а вот сведения о конечных владельцах публикуются лишь единицами стран.

Напомню что в России сведения о конечных владельцах публикуются только кредитными организациями и то, в виде схем, в немашиночитаемом виде.

Ссылки:
[1] https://www.unodc.org/unodc/en/corruption/COSP/session9-resolutions.html#Res.9-7

#opendata #un #anticorruption
Команда Superconductive стоящая за Great Expecations open source продуктом по контролю качества данных подняла $40M инвестиций на создание облачного продукта [1]

Можно сказать что у инструментов работы с данными просто заметнейший тренд на то что вначале команды создают востребованное open source ПО, а потом берут инвестиции на облачную версию.

Главное, я напомню, не забывать судьбу CloverETL которые начинали с open source продукта, а потом убили его ради корпоративной версии и таких примеров в настольном и сервером ПО немало, а у open source + облачного другие особенности, главная из которых в том что авторы часто потом добавляют в open source решение зависимость от своей облачной инфраструктуры.

Ссылки:
[1] https://techcrunch.com/2022/02/10/superconductive-creators-of-great-expectations-raises-40m-to-launch-a-commercial-version-of-its-open-source-data-quality-tool/

#opensource #dataquality #startups #investments
Полезное чтение про разное

- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.

- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.

- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.

- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.

- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.

- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.

Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/

#reading #data #tech
В качестве регулярного напоминания о том где искать данные и какие каталоги данных существуют:
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.

- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.

- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.

- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)

Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.

#opendata #dataportals #datasets #datadiscovery
Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].

Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).

А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.

Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.

Ссылки:
[1] https://github.com/juicedata/juicefs
[2] http://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc

#data #datainfrastructure #storage #startups
В рубрике интересных наборов данных, Google Mobility Report, данные о передвижении жителей стран во время COVID-19. Компания опубликовала и обновляет файлы в виде CSV файла по всему миру, CSV файлов по странам и в виде PDF отчетов по каждой стране [1]. Всего данных на 844 МБ в распакованном виде, данные по России тоже есть.

Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.

Тем не менее практическое применение этим данным вполне возможно найти.

Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru

#opendata #data #covid19
Несомненно полезная визуализация онтологии инициатив Data and AI for Good [1]. Автор Jake Porway, сооснователь проекта DataKind просистематизировал несколько десятков инициатив по неплохой методологии [2] собрал вот такую визуальную картину.

Если кратко, то у инициатив "за всё хорошее" в данных и в ИИ есть два вектора:
- уменьшить ущерб
- увеличить пользу

Думают об этом, создают проекты, сообщества, инициативы, регулирование и кодексы очень многие. С разными подходами и этическими базисами. Ещё до рисования этой картинки и текста, летом 2021 года автор собирал кластеры участников процесса и получилось неплохо.

Ссылки:
[1] https://data.org/news/a-taxonomy-for-ai-data-for-good/
[2] https://data.org/wp-content/uploads/2022/02/Landscape-Methodology_FINAL.pdf
[3] https://docs.google.com/document/d/1WoIQUJHFSMG-biaB5pNPdrPauK2Sn920VAvP68dyQ1I/edit
#data4good #ai4good #data #policies
Я уже писал про содержание российского портала data.gov.ru [1] и выкладывал его дамп для тех кто хочет его исследовать [2].

Чтобы дополнительно объяснить что с ним не так нужны были сравнимые по уровню и масштабу каталоги данных и такие каталоги есть.
В каталоге Humanitarian Data Exchange data.humdata.org опубликовано около 31 тысячи наборов данных, а в каталоге-агрегаторе OpenDataSoft data.opendatasoft.com размещено около 25,6 тысяч наборов данных. Очень близкие цифры с data.gov.ru где опубликовано 26 тысяч наборов данных и вполне можно сравнивать.

Поскольку я непрерывно скачиваю каталоги данных, могу приводить цифры, не всегда финальные, но уже показательные

Так вот, предварительные и уже показательные цифры:
- data.gov.ru - 100% наборов данных, 26 тысяч наборов, всё вместе 29GB
- data.humdata.org - 205GB объём уже скачанных 21% наборов данных (6600), ожидаемый итоговый объём 950-1000ГБ
- data.opendatasoft.com - 145 GB объём 40% уже скачанных данных, ожидаемый итоговый объём около 300-350GB

Откуда такая разница и почему на российском национальном портале данных их так мало?

Есть 3 основные причины:
1. Низкая интеграция портала с государственными информационными системами, только на портале электронного бюджета размещаются сотни гигабайт данных.
2. Полное отсутствие геоданных, в то время как значительная часть данных на других порталах - это Shape-файлы, используемые в геопродуктах.
3. Формальное раскрытие данных "из под палки" и по белому списку. Когда есть обязательный перечень бессмысленных требований по публикации в форматах открытых данных вакансий или списков подведов и, как результат, в виде открытых данных публикуются CSV файлы в 1-2 строки или и вовсе пустые.

И ещё для сравнения, на портале открытых данных Великобритании, data.gov.uk, только CSV файлов без сжатия опубликовано 222ГБ. Остальных скачанных данных у меня нет на руках, но я бы оценил объём остальных данных как примерно столько же. А самые большие данные там по госзакупкам и анонимизированные цифры статистики по выписке рецептурных лекарств по районам. Уникальные данные, мало где в мире публикуемые.

Какой вывод можно из всего этого сделать? К сожалению всё те же, довольно бессмысленно пользоваться российским федеральным порталом открытых данных, проще извлекать данные из первоисточников, сайтов органов власти и региональных порталов данных.

Ссылки:
[1] https://t.me/begtin/3508
[2] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #dataportals #data
О ГосТехе в канале Координация профанации вышло аж 3 публикации [1] [2] [3] где автор весьма дотошно разбирает историю ГосТеха в России. Что не значит что ГосТех совершенно бесмысленная история, но что означает что то как он запускается и публичные коммуникации вокруг вызывают очень много вопросов.

Я скажу от себя лично, вне зависимости от того насколько в итоге архитектура Гостеха будет грамотной, а технические решения полезны, публичные коммуникации по нему проваливаются. Материалов в открытом доступе минимум, архитектурных сведений минимум, ответы на вопросы шаблонные и так далее. Публично вся эта инициатива подаётся _очень плохо_, как я писал ранее после их мероприятия в РАНХиГС, выглядело всё это демотивирующе и антихаризматично, даже не нейтрально уныло, а просто плохо.

Ссылки:
[1] https://telegra.ph/GosTeh-SHryodingera-02-10
[2] https://telegra.ph/GosTeh-SHryodingera-02-11
[3] https://telegra.ph/GosTeh-SHryodingera-02-13

#govtech #government #it