Ivan Begtin
8.09K subscribers
1.58K photos
3 videos
100 files
4.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий State of Data Engineering report 2023 от LakeFS [1].

Не очень детальный, на мой взгляд, не тянущий на полноценный State of ... доклад, но содержащий полезные факты и тезисы и упоминания некоторых продуктов про которые я лично не слышал или когда-то видел, но не впечатлившись отложил на потом.

Отчет короткий поэтому прочитать его несложно в любом случае.

Ссылки:
[1] https://lakefs.io/blog/the-state-of-data-engineering-2023

#dataengineering #startups #reports
Я давно не писал про то дата-инженерные задачи которые приходится решать. Вот, к примеру, нетипичная-типичная задача - это построение поискового индекса по открытым данным - это то для чего начинался Common Data Index. Чтобы построить поисковый индекс надо
а) Собрать оригинальные опубликованные каталоги метаданных, чаще всего это REST API возвращающее JSON или JSON каталоги по стандарту DCAT
б) Проанализировать и подготовить схемы/структуру собранных данных
в) Преобразовать собранные первичные данные в общий поисковый индекс, соответственно преобразовав первичные данные в унифицированную структуру.

Типовых API и вариантов экспорта данных которые есть уже сейчас 9 штук, то что может быть сведено к типовому API ещё примерно 10 разных типов API и вариантов экспорта данных, а также есть огромное число произвольных API или даже сайтов без API, из которых самые значимые это большие онлайн каталоги открытых данных где публикуется их, условно, от 100 тысяч наборов данных.

Все собираемые данные через API из этих каталогов - это JSON или XML и природа данных такова что преобразовывать их в плоские таблицы - это потратить много сил на проектирование структур данных, с каждого API данные преобразуются от 1 до 10 таблиц и, также, одна из задач в сохранении всех первичных данных чтобы с ними можно было бы удобно работать в будущем.

Всё это пока что нельзя отнести к большим данным или данным реального времени, тут нет пока что большого технического челленжа, но есть челленж аналитический и решение задачи по интеграции и преобразовании данных. Большие данные тоже будут, но позже, когда уже начнётся сбор не только описаний наборов данных, но и самих файлов, а там уже данных очень много, петабайты если не больше, если обрабатывать всё.

А пока с построением поискового индекса возникает резонный вопрос как всё собирать и обрабатывать и это то почему я постоянно сетую что не хватает ETL/ELT инструментов с поддержкой NoSQL. Потому что поисковый индекс это тоже не плоские таблицы, это хранилище, тоже NoSQL, например, Elasticsearch.

Итого, на входе тысячи источников данных, с данными в JSON, не менее чем 9 разных схем, хранением первичных данных, преобразованием этих данных в унифицированный формат и итоговый поисковый индекс. И для всего этого хочется ещё и observability, управляемые конвейеры для обработки (pipelines), контроль качества и ELT/ETL для трансформации первичных данных в унифицированный формат, а инструментов для этого из коробки просто нет.

Но решать надо и я позже расскажу как эта задача сейчас решается, а пока мысли вслух о какими данными приходится работать.

#opendata #dataengineering #datarchitecture
Software Licenses in Plain English [1] ровно тот случай когда простой и понятный язык, в данном случае Plain English, помогает понять юридические тексты лицензий и условий использования ПО.
Проект очень давно напрашивающийся и существующий уже какое-то время, но мне ранее не попадавшийся.

Всего там более 140 лицензий с кратким сжатым понятным изложением того что в них написано и полными текстами для тех кому нужно иметь и юридический текст под рукой. Полезная штука, этому сайту нехватает только ещё и набора данных чтобы когда ты на своём сайте/продукте даёшь возможность пользователю выбрать лицензию, то и была бы возможность подсветить основные отличия лицензий.

Ссылки:
[1] https://www.tldrlegal.com

#openlicenses #opensource #opendata
Через месяц, 29 июня, закрывается проект bit.io [1] в связи с тем что их команду купил DataBricks. Для тех кто не помнит, bit.io - это был сервис облачного хостинга PostgreSQL с возможностью ручной загрузки данных, API, дистанционного подключения к СУБД, наличия большого числа опубликованных баз данных.

DataBricks такой сервис не нужен, а нужна только команда. Поэтому сервис закрывают.

Ссылки:
[1] https://bit.io

#startups #data #rdbms #databases #dataengineering
По поводу московского проекта hub.mos.ru конкурента Github'а буду краток:
1. В мире нет таких порталов создаваемых органами власти, потому что это дорого и бессмысленно. Все крупные онлайн сообщества такого типа коммерческие или некоммерческие
2. Новая площадка для спама, первый за долгое время проект властей Москвы где граждане не только могут что-то загружать, но и это загруженное является информационной системой города и общедоступно.
3. Хаб сделан на базе Gitlab, но нигде на сайте это не упоминают. Как бы не было тут нарушений использования бесплатной версии Gitlab

А в остальном не знаю даже как это комментировать. Скорее как то что у властей Москвы очень и очень много лишних денег. Лучше бы исходные коды своих информационных систем публиковали и данные.

#opensource #moscowcity #government
В IPVM статья [1] о том как в Китае компания Dahua, с 2021 года, помимо классических услуг распознавания лиц и объектов, предоставляет ещё и AI платформу Jinn [2] в которой обещают что могут определять неработающих сотрудников, сотрудников на стройке без касок, людей курящих в помещении и ещё много чего. В том числе среди их продуктов обнаружили пример с распознаванием протестующих с баннерами. Неизвестно умеет ли их продукт считывать с лозунга текст, но умеет определять тех кто с ним стоит. После того как журналисты IPVM запросили у компании комментарии, то сразу же эти примеры исчезли. Причем скорее всего Dahua не единственный вендор с таким продуктом,

Ссылки:
[1] https://ipvm.com/reports/dahua-protestor-alarms
[2] https://ai.dahuatech.com/deviceOpenPlatform

#privacy #surveillance #china #ai
Forwarded from Open Data Armenia (Ivan Begtin)
For everyone ready to help with data collection for Open Data Armenia, we have started publishing tasks for volunteers. The first six tasks are already available via the link. If you have some free time, you are a programmer or an analyst; you can help the community. If you need programming skills but know where data needs to be collected/transformed, or you have ideas about what can be built on their basis, we invite you to share your thoughts in the general chat.

Для всех кто готов помочь со сбором данных для Open Data Armenia мы начали публиковать задачи для волонтеров. Первые 6 задач уже доступны по ссылке. Если у Вас есть немного свободного времени, Вы программист или аналитик, то Вы можете помочь сообществу. Если Вы не умеете программировать, но знаете где есть данные которые нужно собрать/преобразовать или у Вас есть идеи что можно на их основе построить, приглашаем поделиться идеями в общем чате.

Բոլորի համար, ովքեր պատրաստ են օգնել Open Data Armenia-ի տվյալների հավաքագրմանը, մենք սկսել ենք կամավորների համար առաջադրանքներ հրապարակել: Առաջին վեց առաջադրանքներն արդեն հասանելի են հղման միջոցով։ Եթե ունեք ազատ ժամանակ, դուք ծրագրավորող եք կամ վերլուծաբան; դուք կարող եք օգնել համայնքին: Եթե Ձեզ անհրաժեշտ են ծրագրավորման հմտություններ, բայց գիտեք, թե որտեղ պետք է տվյալները հավաքվեն/փոխակերպվեն, կամ ունեք գաղափարներ այն մասին, թե ինչ կարելի է կառուցել դրանց հիման վրա, մենք ձեզ հրավիրում ենք կիսվել ձեր մտքերով ընդհանուր չաթում:

Tasks list https://github.com/opendataam/opendatam-tasks/issues
Chat for discussion https://t.me/opendataamchat

#opendata #armenia #tasks #volunteering
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех кто любит работать с командной строкой со всем чем только можно замечательный инструмент Mods [1], утилита работающая с OpenAI и LocalAI и генерирующая результаты на основе входящих пайплайнов (конвейеров) от других утилит командной строки, а результат работы mods также пригоден для дальнейшей конвейерной обработки.

Я вот люблю командную строку ещё с того времени когда основными операционными системами были [MS/PC]-DOS и FreeBSD и всегда приятно когда находишь очередной удобный инструмент чтобы можно было делать разное, что раньше было делать сложнее.

Из практичного там мне более всего нравится генератор документации в Markdown и команды вроде
mods "write a new section to this readme for a feature that sends you a free rabbit if you hit r" | glow

Стоит ещё и упомянуть что эта утилиты от команды Charm.sh [2], которые за последние годы насоздавали множество утилит и библиотек для командной строки которые выглядят не только интересно, но и, часто, просто мило.

Много инструментов чтобы сделать ваши утилиты более мимимишными.

Ссылки:
[1] https://github.com/charmbracelet/mods
[2] https://charm.sh/

#opensource #commandline #ai
В телеграм канале Счетной палаты РФ начали публиковать материалы уровня ликбеза о том что такое ГРБС или что такое Бюджетная роспись. Когда то я в Счетной палате вёл проект Госрасходы, а ранее несколько лет совместно с Минфином РФ организовывал несколько конкурсов BudgetApps по разработке приложений и визуализаций данных открытых государственных финансов. Это очень большая и важная тема в любой стране, в России она была на довольно высоком уровне много лет, и тем печальнее, конечно, смотреть на происходящее последние 1.5 года если не больше, когда доступность финансовой информации снижается.

Однако, возвращаясь к определениям. Когда-то, ещё при работе над вовлечением участников в BudgetApps у нас была задача дать простые и понятные описания сложным бюджетным определениям. Задача это сложная по двум причинам.

Во первых некоторые определения дать реально сложно потому что они описывают сложные понятия финансовой системы которые несведующему человеку прочитать непросто. Переводить в простой и понятный язык это сложно

Во вторых когда даёшь простое и понятное определение то оно всегда не-юридическое, а юристы сразу встают на дыбы и говорят что так описывать нельзя ни в коем случае.

Для госорганов второе особенно катастрофично и в текстах что в телеграм канале Счетной палаты видно что они особо то не упрощают, потому что пытаются соблюсти юридическую чистоту.
Работает это плохо, не специалистом это непонятно.

Ещё много лет назад я считал что самое яркое объяснение бюджетных определений можно дать через описание бюджета какой-то очень большой семьи например, ... мафиозной.

Что такое ГРБС? Предположим босс мафии уже старенький, а организация велика, один капо курирует бордели, другой утилизацию мусора, третий распространение запрещёнки, а ещё есть не только те кто зарабатывает, но и отмазывает от полиции, защищает в судах и тд., то есть только тратящих. И бойцов и других расходов у них много. Не самому же боссу выдавать лично деньги каждому сотруднику члену семьи. Вот он и распределяет регулярно собранное этим капо, а чтобы те не воровали назначает казначея чтобы следить и выдавать деньги.

Что такое бюджетная роспись? Это когда тот же босс мафии на регулярной встрече с этими же капо в начале года распределяет кому и как сколько положено и на что пойдет во всех деталях. А поскольку босс капо не доверяет то требует чтобы расписано было во всех подробностях. Сколько на выплаты бойцам, сколько на взятки, сколько на помощь семьям сидящем в тюрьме и тд. Получается такая большая простыня таблицей. Вот этот план расходов на год и можно называть бюджетной росписью.


Конечно такой словарик никогда бы не опубликовали, он так и остался у меня в черновиках.

#openfinances #government #budget #likbez #humour
Для тех кто интересуется интересными наборами данных, коллекция дата-файлов с частотами использования лицензий в порталах открытых данных, пока в форме репозитория с экспериментами и экспортом частотных файлов из Common Data Index [1]

Самая популярная лицензия, ожидаемо, Creative Commons. Но все вместе эти файлы пока не сведены, нужна аналитическая работа по систематизации описания лицензий в разных типах каталогов данных. Большой соблазн систематизировать это всё, но задача пока другая и придётся ограничится самыми популярными.

Тем не менее там много всего, особенно по лицензиями на геоданные из Geonetwork

Ссылки:
[1] https://github.com/commondataio/cdi-licensemapper

#opendata #licenses #opensource #openaccess
В рубрике как это работает у них итальянский государственный портал дата-семантики schema.gov.it [1] на котором собраны описание, данные, API для онтологий и контролируемых справочников. Если сравнивать с Россией то это аналогично системам управления НСИ Минздрава [2] или общероссийским справочникам в ведении Росстата и ФОИВов.

Важное отличие итальянского schema.org в том что он полностью построен на связанных данных, Linked Data. Там размещены, как онтологии, так и сами справочники в форматах RDF. Причём что характерно все данные одновременно опубликованы на Github'е [3] и сам портал и данные представлены в виде открытого кода.

Там же обещают публиковать и схемы данных.

У портала развитое API и возможность интегрировать эти справочники в любой другой создаваемый продукт.

Ссылки:
[1] https://schema.gov.it
[2] https://nsi.rosminzdrav.ru
[3] https://github.com/italia/daf-ontologie-vocabolari-controllati

#opendata #opensource
Google опубликовали Generative AI learning path [1] из 9 курсов. Там практически все курсы посвящены развертыванию решений на базе Google Cloud.

Полный список курсов:
🤖 Intro to Generative AI
🤖 Intro to Large Language Models
🤖 Intro to Responsible AI
🤖 Intro to Image Generation
🤖 Encoder-Decoder
🤖 Attention Mechanism
🤖 Transformers and BERT Models
🤖 Create Image Captioning Models
🤖 Intro to Gen AI Studio

Ссылки:
[1] https://www.cloudskillsboost.google/paths/118

#ai #learning #generativeai
Всякое интересное чтение про данные, технологии и не только:
- Meltano Cloud ETL/ELT продукт от одноимённого стартапа вышел в бета режиме. На мой взгляд Meltano один из наиболее интересных ELT продуктов последних лет и точно стоит к нему присмотреться, как минимум к открытой опенсорсной версии, но и от облака может быть практическая польза

- Castor теперь CastorDoc - Castor это такой стартап для каталогизации данных, они поменяли приоритет и стали CastorDoc, стартапом по документированию данных. Ценник у них резко взлетел, минимальная стоимость продукта в $1200 в год, всё остальное по договорённости. Ниша интересная и перспективная

- Paragraphica голландский артист/инженер/дизайнер Bjørn Karmann сделал фотоаппарат которые "делает снимки" так похожие на реальность. Данных там нет, но есть про ИИ и сама концепция. Современное искусство в чистой, незамутнённой форме

- Instacard pipelines про модуляризованные ковейеры данных внутри Instacart, с использованием Spark и Lakehouse архитектуру. Полезно как практический пример живой системы.

- 144TB Nvidia GPU - Nvidia пока однозначно лидирует в гонке ИИ, новый их продукт специально для Generative AI.

- В Японии копирайт не распространяется на обучение ИИ - отличная новость для ИИ, печальная для художников, писателей и тд. ИИ лоббисты (биг тех) всё сильнее, а традиционные копирайтовладельцы не могут им противостоять.

#ai #data #datatools #datacatalogs #etl
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
Отличный открытый курс по анализу данных от Яндекса и Европейского университета в СПб Прикладной анализ данных в социальных науках на русском языке.
Для тех кто только начинает работать с данными или переключается в эту область из другой профессии, рекомендую. Особенно это полезно для тех кто работает с данными в академической среде.

У Яндекса, в принципе, хороший набор русскоязычных хэндбуков. Лично мне не хватает хэндбуков про данные, например, про data discovery. С другой стороны я подозреваю если подходить к делу серьёзно, то мне же самому такой хэндбук надо делать.

#education #studies #learning #dataanalysis #data
В Великобритании готовят перезапуск Gov.uk и правительство (кабинет министров) прам-парам-пам, вы не поверите, но решили сделать мобильное приложение. Первым же пунктом у них звучит "Develop a GOV.UK app". И это особенно забавно звучит для тех кто помнит когда их цифровая служба чуть ли гордилась тем что не будет делать мобильные приложения.

Тем более что ещё с ноября 2012 года любая разработка мобильных приложений требовала явного одобрения кабинетом министров, так что мобильных приложений от госорганов в Великобритании было почти совсем ничего, очень мало.

Ждём вот уже скоро этого приложения. Можно сказать что уходит целая эпоха когда аргумент "давайте мы вместо приложения оптимизируем наш сайт под мобильные устройства" потерял уже самых стойких оппонентов.

UK когда-то были очень сильными лидерами в цифровизации государства а потом всё не то чтобы сдулось, но очень сильно потеряло у них внутренний темп развития. Смогут ли они перезапустить это всё в новой современной форме? Пока непонятно, но интересно

#government #uk #govservices
Я тут регулярно писал о том что в последнее время стараюсь меньше писать про внутрироссийские дела, особенно связанные с госинформатизацией и больше про то что касается рынка данных в мире, глобальные проекты и не только. Но российские журналисты где-то 2-3 раза в неделю задают мне какие-нибудь вопросы и просят комментарии на очередную госинициативу, а я долго подбираю слова для цензурных комментариев, а потом ещё и не все эти слова доходят до публикаций. Где-то срабатывают темники и ограничения на негатив в российских СМИ, где-то ещё что-то.

Так вот, несколько универсальных комментариев на всё:
1. Гостех - это активная профанация на высоком уровне. Я писал об этом много раз, повторяться надоедает. Больше 3-х лет это разговоры про планы с практически полным отсутствием реальной демонстрации работы. От того что слово мёд повторить тысячу раз слаще не станет. Но к любой госактивности связанной с ГосТехом можно и нужно относится только как к пиару. Даже если предположить что вся эта история - это реализация принципа Fake it till you make it (Обманывай пока не сделаешь). Все профессионалы в области кого я знаю стараются держаться от этой темы как можно дальше.

2. Рейтинги оружие слабых. Если я выпускаю рейтинг госорганов или региональных властей - это понятно. У меня нет возможности им приказать или отрезать финансирование. По той же причине публикуют или все остальные, подсветить свою тему локально или глобально. Если Пр-во выпускает любой рейтинг подведомственных им структур, например, рейтинг РЦТ (Руководителей цифровой трансформации), то как бы помягче сказать. Это такой, я бы сказал признак, неедееспособности. Потому что рейтинг - это публично PR действие, похвалить и пристыдить, а у Пр-ва есть прямые механизмы управления ФОИВами. Публикации рейтингов Пр-ва - это как выносить сор из избы. Вот вам аналог, представьте себе что ваша компания начала публиковать пресс релизы о том что вот программисты хорошо поработали в этом году, они молодцы, а HR отдел редкие засранцы, плохо работают. Какая первая реакция на это? WTF?! Чего об этом всем кричать? Это вообще особое какое-то ментальное изменение в Пр-ве за последние годы когда даже не имитируют оргазм независимые оценки, а оценивают от себя напрямую. То есть уже даже контроль подрядчиков недостаточен для того чтобы выдавать нужные себе цифры.

3. Вице-премьеры то, вице-премьеры сё, а зачем они вообще нужны? Это, уж простите, но ключевой вопрос. Журналисты пишущие о том что там провёл и сделал тот или иной вице-премьер забывают о том что вот эта многоуровневая модель управления гос-вом с 10 зампредами пр-ва, с 20 министрами и толпой руководителей ФОИВов. Ключевой вопрос зачем Пр-ву 10 вице-премьеров? В большинстве стран у премьер-министра только один заместитель который и есть реальный заместитель. Премьер министр уехал куда-то и он его заменяет. А вот эта модель коллегиального управления где ещё и толпа комиссий, президиум пр-ва, огромный аппарат и ещё дохрена всего - вот это и должно вызывать вопросы. Не то что вице премьеры делают, а нахрена их столько

Это всё то что я мог бы написать ещё, и 2, и 3 года назад. Это проблемы ещё мирного времени, понятно что за эти полтора года можно много чего добавить. И рост бюрократической нагрузки, и снижение открытости гос-ва в целом через почти полное сокрытие всех результатов выполнения госпроектов и ещё много всего. Причины всего этого понятны, я здесь повторять их не буду.

#government #russia
Forwarded from Open Data Armenia (Ivan Begtin)
[EN] We keep working on new data tasks for volunteers and we added new tasks recently:
- Collect data from legal acts drafts website www.e-draft.am
- Collect metadata on the reports of the Armenian NGOs
- Collect the data of the Exchange Rates Archive
- Worldwide Armenian Churches Lists Extraction
- Convert data of Research on Armenian Architecture from HTML to machine readable data (csv, geojson)
- Extraction of Electronic Catalogue of Armenian Cultural Values
- Collect metadata of Armenian historical documents

And we would like to thank Github user arsen41531 for the first completed task: Extract government budget data from Republic of Armenia interactive budget website. Parser and data available at https://github.com/opendataam/opendatam-egov-am-budget-parser Thanks a lot Arsen!

If you have some free time and programming skills, you could help to create more open data about Armenia or related to Armenia. Please take any of these tasks.

If you don't have programming skills but you have ideas in mind about how to find and use data if it will be machine-readable open data, please write in chat https://t.me/opendataamchat, we will help to convert ideas into tasks for volunteers.

if you know IT communities willing to help to bring more open data online, please share, like and repost :)

#opendata #opensource #datatasks #volunteering
К разговору о сообществе по открытым данным Open Data Armenia которое я сейчас создаю, я не могу не вспомнить что повторяю то же самое что делал 14 лет назад в России. В 2009 году я начал создавать портал OpenGovData.ru, а ещё занимался другими общественными проектами такими как ГосЛюди и ГосСеть [1]. Они все уже не работают в изначальном виде, но было важным заделом к созданию российского сообщества и многих проектов которые за ними последовали.

Сейчас идти по собственным следам несложно, но важно и то что как 13 лет назад, так и сейчас всё это может существовать даже при нулевом и отрицательном участии государства.

Разница лишь в том что в последние годы кроме открытости государства на передний план всё чаще выходят и другие темы: защита персональных данных, этика использования ИИ и многое другое. Игнорировать их нельзя, помнить о них также необходимо.

В остальном же, не важно, к примеру, восстановит ли Минэк России портал открытых данных data.gov.ru или нет, сама тема значительно больше одного министерства и продолжит существовать в любом случае.

Ссылки:
[1] https://blog.okfn.org/2010/06/23/open-government-data-in-russia/

#opendata #memories #russia