Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Написал в сегодняшнюю рассылку [1] про платформу Гостех, где постарался изложить свою позицию насколько можно подробно.

А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.

- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.

- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.

Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.

Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech