Ivan Begtin
8.09K subscribers
1.66K photos
3 videos
100 files
4.37K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Самые полезные инструменты те которые делаешь сам и пользуешься ими каждый день (с)

Много лет назад я сталкивался с тем что я читаю и делаю обзоры материалов из сотни источников, но в половине из них отсутствовали RSS/ATOM ленты и агрегаторы новостей с ними не работали. Сейчас это всё стало проще, почти у каждого значимого или оперативного источника информации есть какая-то социальная сеть или рассылка, но, как ни странно, до сих пор в 2022 году есть новости публикуемые на сайтах без экспорта в RSS или ATOM.

Примерно 14 лет назад я сделал специальную программу автоматического (!) создания новостных лент из сайтов. Не автоматизированного, а именно автоматического. Получающего на вход ссылку и на выход выдающего RSS или JSON с данными.

А в 2018 году я выложил её в открытый код под названием newsworker и с тех пор почти не обновлял.

Но, как ни странно, до сих пор существуют ситуации когда такие инструменты нужны. Например, новости UNFPA публикуются без RSS аналогично с новостями венчурного фонда Runa Capital.

На скриншотах примеры JSON данных извлекаемых из этих страниц, на основе которых быстро воссоздаётся RSS или ATOM.

Тогда, 14 лет назад, это была реально сложная задача. Решая её пришлось написать автоматическое распознавание дат в виде библиотеки qddate, и достаточно сложную, на тот момент, логику анализа структуры веб-страниц.

Оснастку инструмента и библиотеки сейчас я бы написал по другому, а основа, похоже, останется актуальной ещё надолго, даже при распространении социальных сетей.

#opensource #datatools
Коммерсант пишет про то что Реестр российских IT-компаний ждет еще одна чистка, там и мои комментарии есть.

Лично мне довольно безразлично что критиковать, Минцифры или создаваемый совет. Важно не путать глав ассоциаций и экспертов - глава ассоциации, это, как правило менеджер, лоббист и говорящая голова, а эксперт это человек погруженный в проблемную область. Совмещение, обычно, приводит к душевным травмам, посмотрите на меня, я живой пример;) и радости и результата не приносит.

А вот благодарность мне Максут Шадаев за помощь в чистке реестра так и не выдал. Наверное бумага в министерстве закончилась;)

Ну а если серьёзно, я повторю ещё раз всё ту же ключевую идею. Не надо "танцевать вокруг реестра", есть решение проще. Реестр аккредитованных = реестру ИТ льготников. Нет подтверждения ФНС - нет аккредитации. Все остальные модели сложнее объяснить, сложнее реализовать и так далее.

#government #digital #itmarket
Все ещё не наигрались с искусственными изображениями создаваемыми ИИ MidJourney, а уже появился движок Stable Diffusion от стартапа Stability AI умеющие генерировать изображения людей, например, знаменитостей. В TechCrunch большая статья про потенциальные последствия и возможности этой системы [1].

Опуская технические подробности её реализации, как вы думаете какие последствия для человечества может принести развитие этой технологии?

Ссылки:
[1] https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/

#ai #ethics
Языковые модели могут учить себя программировать лучше

"Пугающее" название научной статьи по весьма актуальной теме Language Models Can Teach Themselves to Program Better [1] о том что языковые модели, в данном случае модель Codex, умеют не только решать программные задачи, но и улучшать код этих решений.

Тема интересная и я считаю что её категорически нельзя недооценивать. Программная инженерия всё более стремится к автоматизации. Как это поменяет рынок труда сейчас говорить рано, но определённо поменяет.

Ссылки:
[1] https://arxiv.org/abs/2207.14502

#ai #languagemodels #programming
Для тех кто пользуется MongoDB и постоянно ищет альтернативы, OxideDB [1] эмуляция MongoDB поверх PostgreSQL. Внутри движок которые запихивает объёкты документов в тип JSON для PostgreSQL и умеет конвертировать запросы MongօDB (язык MQL) в сложные SELECT.

Это не первая попытка проделать такое, эмулировать интерфейсы MongoDB в других СУБД и определенно эта попытка внимания заслуживает.

Зачем это нужно?
Две важнейшие причины:
1. Недооткрытый код MongoDB под SSPL лицензией. Для открытых сообществ - это как красная тряпка, для инфраструктурного бизнеса это ограничитель к облачному применению.
2. MongoDB далеко не оптимально по производительности, а тут возможность использовать наработки других СУБД.
3. Многим хочется иметь SQL и NoSQL сразу из коробки и давать удобные инструменты для каждой команды.

Ссылки:
[1] https://github.com/fcoury/oxide

#opensource #dbms #datatools #nosql #mongodb
Я недавно критиковал ГосТех [1] за плохое описание международного опыта, но реальная критика будет в том что про международный опыт они вообще никак и ни в какой форме не должны были и не должны писать. Они могут и, я считаю, что должны писать про российский опыт. Про то почему технологии выбираются, применяются, используются и почему вообще всё это нужно. Потому что, в отличие от текстов про других, тексты про себя не проСММить.

У меня есть заготовка для большого лонгрида почему в России всё катастрофически плохо с публичным технологическим евангелизмом для госпроектов, но, пока, покидаю Вам ссылок на то как рассказывают о технологиях в гос-ве в других странах и органах власти.

В Великобритании существует большой портал blog.gov.uk в котором очень много технологических блогов и тем из которых я бы выделил Inside GOV.UK [2] где, например, рассказывают как отказались от JQuery для портала gov.uk, как проектировали его веб-интерфейсы, как портал улучшается. Казалось бы ничего сложного, но это сделано системно и публикации там регулярные.

Другой их блог Data in Government [3] про то как работают с данными аналитики и разработчики. Там много всего интересного, мне было любопытно читать их тексты про Reproducible Analytical Pipelines (RAP) [4] о системном подходе к госаналитике данных. Кроме этих блогов есть ещё многие другие, про цифру, про технологии, про данные.

В США про госИТ пишет лучше всего команда 18F [5] про переделку госпорталов на новых технологиях и многое другое. Про данные там меньше, про документирование, фронтэнд, архитектуру и пользователей немало. В США куда хуже с централизованным блоггингом, блоги рассеяны по сайтам ведомств, но их много, просто очень много.

Сингапурский Гостех ведёт около десятка публичных блогов, например, вот такой основной Government Digital Services, Singapore [6], а вот ещё Open Government Products [7].

Новая Зеландия относительно небольшая страна, но там тоже есть блог у местного цифрового ведомства с кучей технических подробностей [8]․

В России культура государственных блогов, в том числе технологических, пропала где-то 5 лет назад. Она выродилась в ограниченное число блогов в твиттере и инстаграм политических персон, значительно меньшее число телеграм каналов некоторых госинициатив и почти тотальный запрет на публичные блоги госслужащих/чиновников.

Ну а блоги многих госинициатив как и их сайты слишком часто превращаются в бесконечный непрофильный СММ, пресс релизы, "новости отрасли" и прочий шлак.

Даже не знаю что рекомендовать читать на русском языке.

Ссылки:
[1] https://t.me/begtin/4152
[2] https://insidegovuk.blog.gov.uk/
[3] https://dataingovernment.blog.gov.uk/
[4] https://analysisfunction.civilservice.gov.uk/policy-store/reproducible-analytical-pipelines-strategy/
[5] https://18f.gsa.gov/blog/
[6] https://medium.com/singapore-gds
[7] https://opengovsg.medium.com/
[8] https://www.digital.govt.nz/blog/

#government #digital #blogging
В рубрике как это работает у них, порталы открытых данных латиноамериканских стран.

Портал открытых данных Перу [1] создан на базе движка CKAN в 2020 году согласно декрету цифровой трансформации страны. Содержит 7363 набора данных включая 56 наборов данных про COVID-19

Портал открытых данных Мексики [3] включает 9.8 тысяч наборов данных (40.7 тысяч файлов) от 280 органов власти. Также создан на базе движка CKAN. Большая часть данных опубликованы по темам качества жизни, инфраструктуры и образования.

Портал открытых данных Парагвая [4]. Данных пока немного, всего 251 набор данных. Также на базе CKAN.

Аналогично порталы открытых данных есть у всех стран Латинской Америки. Как правило на базе открытого кода, обновляющиеся, чаще всего с данными в форматах CSV.

В испаноязычном мире открытые данные (datos abiertos) - это одна из актуальных тем и таких порталов появляется всё больше.

Ссылки:
[1] https://www.datosabiertos.gob.pe/
[2] https://www.gob.pe/institucion/pcm/normas-legales/395320-006-2020
[3] https://datos.gob.mx/
[4] https://www.datos.gov.py

#opendata #spanish #government #opengov
Свежая и полезная книжка Fundamentals of Data Observability от Andy Petrella из стартапа Kensu в виде первых двух глав. Можно скачать через форму на сайте Kensu, а можно и сразу по этой прямой ссылке. По прямой ссылке не надо оставлять свои контакты;)

Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.

#data #books #review
Вы беременны и используете приложение для отслеживания своего здоровья? Почти 100% за Вами следят

Если бы я писал статью в популярный журнал, я бы начал именно с такого заголовка

У фонда Mozilla интересный проект Privacy not included по анализу приватности в мобильных приложениях. Я писал о нём коротко в мае 2022 г. [1], но тема шире и интереснее.

Исследователи в Mozilla проверяют приложения на предмет того:
- как компания использует данные
- можете ли Вы управлять Вашими данными
- какова история компании в использовании данных
- дружелюбность информации о приватности
- можно ли продукт использовать оффлайн

А также минимальные проверки безопасности:
- используется ли шифрование
- позволяют ли они использовать слабые пароли

А также несколько критериев применения ИИ:
- используется ли ИИ?
- доверенный ли ИИ?
- прозрачны ли решения компании по использованию ИИ?

и ещё много чего другого, почитайте методологию [2]

А теперь пример, в Mozilla проверили 20 наиболее популярных приложений для отслеживания здоровья в период беременности и признали 18 из 20 как не обеспечивающие приватность. [3]

При этом они не анализировали наличие кода передачи данным третьим сторонам (трекерам). Например, приложение Period Tracker [4] помечено как не обеспечивающее приватность, а если ещё и посмотреть на отчет в Exodus Privacy [5] то можно найти внешние 8 трекеров в этом приложении.

Почему Mozilla эту информацию не учитывают не знаю, по своему важны оценки, и их ручной проверки, и автоматической от Exodus Privacy.

А теперь, внимание вопрос, неужели кто-то полагает что аналогичные приложения в России или в других не-англоязычных странах существуют иначе?

Год назад примерно мы публиковали доклад от приватности мобильных приложений публикуемых госорганами [6]․ Всего 44 приложения тогда было и, как Вы догадываетесь, их приватность была далека от совершенства.

В качестве преданонса, и я об этом уже писал, в этом году мы скоро опубликуем исследование на ту же тему.

Оно обязательно выйдет в Телеграм канале Информационная культура, подписывайтесь и не переключайте каналы!

Ссылки:
[1] https://t.me/begtin/3826
[2] https://foundation.mozilla.org/en/privacynotincluded/about/methodology/
[3] https://foundation.mozilla.org/en/privacynotincluded/categories/reproductive-health/
[4] https://foundation.mozilla.org/en/privacynotincluded/period-tracker/
[5] https://reports.exodus-privacy.eu.org/en/reports/com.period.tracker.lite/latest/
[6] https://privacygosmobapps.infoculture.ru/

#privacy #android #mobile #surveillance
Полезное чтение про данные и не только:
- The Data Business Partnership [1] про партнерство дата-команд с бизнес подразделениями в компаниях. Актуально для больших и средних компаниях как голос за разделение ответственности и заинтересованность в результате любого дата-проекта
- Lessons I Learned From Building Self-Service Data Platform [2] автор рассуждает о пользе перехода на платформу управления данными в режиме самообслуживания.
- стартап Explo поднял $12M инвестиций на Series A [3], Explo - это система удобных дашбордов и, по сути, упрощение работы с аналитикой. Всего у них около 40+ платящих клиентов
- десять принципов доставки дата-проектов [4] по моему я о них не писал, принципы простые и полезные.
- запущен Dagster Cloud [5] для тех кто не помнит, Dagster - это такой open-source движок для работы с трубами данных и управлением данными. Ожидаемая бизнес модель open source + cloud.

Ссылки:
[1] https://locallyoptimistic.com/post/the-data-business-partnership/
[2] https://betterprogramming.pub/lessons-i-learned-from-building-self-service-data-platform-8dc1fa1fdee9
[3] https://www.explo.co/blog/explo-raises-12m-series-a-for-customer-facing-analytics
[4] https://towardsdatascience.com/top-10-most-powerful-lessons-i-learned-by-delivering-data-projects-4dcb647f5219
[5] https://dagster.io/blog/dagster-cloud-ga-launch

#startups #data #readings
Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.

По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%

Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.

И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.

Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.

И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.



Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/

#data #analytics #careers
В рубрике интересных наборов данных ДетКорпус [1] аннотированный корпус русской детской литературы, который отражает литературный процесс XX—XXI в. Включает включает более 2273 прозаических произведений, написанных на русском языке в период с 1900-х по 2010-е годы и адресованных детям и подросткам.

Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.

Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.

Ссылки:
[1] http://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001

#opendata #datasets #russian #languages
Многие кто пишет сейчас про ИТ, про данные, про разработку ПО пишут про карьерные треки для разработчиков, дата инженеров и дата сайентистов.

Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.

Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).

Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.

Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.

Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)

Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.

И вот эти два решения я считаю в моей карьере самыми главными.

В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.

#careers #thoughts
Полезный документ Structured and interoperable beneficial ownership data [1] в виде инструкций, методик и рекомендаций как властям стран раскрывать данные о конечных бенефициарах юридических лиц. Документ от команды Open Ownership которые не только публикуют на своём сайте наборы данных конечных бенефициаров, но и продвигают практики раскрытия данных по всему миру.

Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.

Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.

Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/

#opendata #readings