Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто пользуется MongoDB и постоянно ищет альтернативы, OxideDB [1] эмуляция MongoDB поверх PostgreSQL. Внутри движок которые запихивает объёкты документов в тип JSON для PostgreSQL и умеет конвертировать запросы MongօDB (язык MQL) в сложные SELECT.

Это не первая попытка проделать такое, эмулировать интерфейсы MongoDB в других СУБД и определенно эта попытка внимания заслуживает.

Зачем это нужно?
Две важнейшие причины:
1. Недооткрытый код MongoDB под SSPL лицензией. Для открытых сообществ - это как красная тряпка, для инфраструктурного бизнеса это ограничитель к облачному применению.
2. MongoDB далеко не оптимально по производительности, а тут возможность использовать наработки других СУБД.
3. Многим хочется иметь SQL и NoSQL сразу из коробки и давать удобные инструменты для каждой команды.

Ссылки:
[1] https://github.com/fcoury/oxide

#opensource #dbms #datatools #nosql #mongodb
Я недавно критиковал ГосТех [1] за плохое описание международного опыта, но реальная критика будет в том что про международный опыт они вообще никак и ни в какой форме не должны были и не должны писать. Они могут и, я считаю, что должны писать про российский опыт. Про то почему технологии выбираются, применяются, используются и почему вообще всё это нужно. Потому что, в отличие от текстов про других, тексты про себя не проСММить.

У меня есть заготовка для большого лонгрида почему в России всё катастрофически плохо с публичным технологическим евангелизмом для госпроектов, но, пока, покидаю Вам ссылок на то как рассказывают о технологиях в гос-ве в других странах и органах власти.

В Великобритании существует большой портал blog.gov.uk в котором очень много технологических блогов и тем из которых я бы выделил Inside GOV.UK [2] где, например, рассказывают как отказались от JQuery для портала gov.uk, как проектировали его веб-интерфейсы, как портал улучшается. Казалось бы ничего сложного, но это сделано системно и публикации там регулярные.

Другой их блог Data in Government [3] про то как работают с данными аналитики и разработчики. Там много всего интересного, мне было любопытно читать их тексты про Reproducible Analytical Pipelines (RAP) [4] о системном подходе к госаналитике данных. Кроме этих блогов есть ещё многие другие, про цифру, про технологии, про данные.

В США про госИТ пишет лучше всего команда 18F [5] про переделку госпорталов на новых технологиях и многое другое. Про данные там меньше, про документирование, фронтэнд, архитектуру и пользователей немало. В США куда хуже с централизованным блоггингом, блоги рассеяны по сайтам ведомств, но их много, просто очень много.

Сингапурский Гостех ведёт около десятка публичных блогов, например, вот такой основной Government Digital Services, Singapore [6], а вот ещё Open Government Products [7].

Новая Зеландия относительно небольшая страна, но там тоже есть блог у местного цифрового ведомства с кучей технических подробностей [8]․

В России культура государственных блогов, в том числе технологических, пропала где-то 5 лет назад. Она выродилась в ограниченное число блогов в твиттере и инстаграм политических персон, значительно меньшее число телеграм каналов некоторых госинициатив и почти тотальный запрет на публичные блоги госслужащих/чиновников.

Ну а блоги многих госинициатив как и их сайты слишком часто превращаются в бесконечный непрофильный СММ, пресс релизы, "новости отрасли" и прочий шлак.

Даже не знаю что рекомендовать читать на русском языке.

Ссылки:
[1] https://t.me/begtin/4152
[2] https://insidegovuk.blog.gov.uk/
[3] https://dataingovernment.blog.gov.uk/
[4] https://analysisfunction.civilservice.gov.uk/policy-store/reproducible-analytical-pipelines-strategy/
[5] https://18f.gsa.gov/blog/
[6] https://medium.com/singapore-gds
[7] https://opengovsg.medium.com/
[8] https://www.digital.govt.nz/blog/

#government #digital #blogging
В рубрике как это работает у них, порталы открытых данных латиноамериканских стран.

Портал открытых данных Перу [1] создан на базе движка CKAN в 2020 году согласно декрету цифровой трансформации страны. Содержит 7363 набора данных включая 56 наборов данных про COVID-19

Портал открытых данных Мексики [3] включает 9.8 тысяч наборов данных (40.7 тысяч файлов) от 280 органов власти. Также создан на базе движка CKAN. Большая часть данных опубликованы по темам качества жизни, инфраструктуры и образования.

Портал открытых данных Парагвая [4]. Данных пока немного, всего 251 набор данных. Также на базе CKAN.

Аналогично порталы открытых данных есть у всех стран Латинской Америки. Как правило на базе открытого кода, обновляющиеся, чаще всего с данными в форматах CSV.

В испаноязычном мире открытые данные (datos abiertos) - это одна из актуальных тем и таких порталов появляется всё больше.

Ссылки:
[1] https://www.datosabiertos.gob.pe/
[2] https://www.gob.pe/institucion/pcm/normas-legales/395320-006-2020
[3] https://datos.gob.mx/
[4] https://www.datos.gov.py

#opendata #spanish #government #opengov
Свежая и полезная книжка Fundamentals of Data Observability от Andy Petrella из стартапа Kensu в виде первых двух глав. Можно скачать через форму на сайте Kensu, а можно и сразу по этой прямой ссылке. По прямой ссылке не надо оставлять свои контакты;)

Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.

#data #books #review
Вы беременны и используете приложение для отслеживания своего здоровья? Почти 100% за Вами следят

Если бы я писал статью в популярный журнал, я бы начал именно с такого заголовка

У фонда Mozilla интересный проект Privacy not included по анализу приватности в мобильных приложениях. Я писал о нём коротко в мае 2022 г. [1], но тема шире и интереснее.

Исследователи в Mozilla проверяют приложения на предмет того:
- как компания использует данные
- можете ли Вы управлять Вашими данными
- какова история компании в использовании данных
- дружелюбность информации о приватности
- можно ли продукт использовать оффлайн

А также минимальные проверки безопасности:
- используется ли шифрование
- позволяют ли они использовать слабые пароли

А также несколько критериев применения ИИ:
- используется ли ИИ?
- доверенный ли ИИ?
- прозрачны ли решения компании по использованию ИИ?

и ещё много чего другого, почитайте методологию [2]

А теперь пример, в Mozilla проверили 20 наиболее популярных приложений для отслеживания здоровья в период беременности и признали 18 из 20 как не обеспечивающие приватность. [3]

При этом они не анализировали наличие кода передачи данным третьим сторонам (трекерам). Например, приложение Period Tracker [4] помечено как не обеспечивающее приватность, а если ещё и посмотреть на отчет в Exodus Privacy [5] то можно найти внешние 8 трекеров в этом приложении.

Почему Mozilla эту информацию не учитывают не знаю, по своему важны оценки, и их ручной проверки, и автоматической от Exodus Privacy.

А теперь, внимание вопрос, неужели кто-то полагает что аналогичные приложения в России или в других не-англоязычных странах существуют иначе?

Год назад примерно мы публиковали доклад от приватности мобильных приложений публикуемых госорганами [6]․ Всего 44 приложения тогда было и, как Вы догадываетесь, их приватность была далека от совершенства.

В качестве преданонса, и я об этом уже писал, в этом году мы скоро опубликуем исследование на ту же тему.

Оно обязательно выйдет в Телеграм канале Информационная культура, подписывайтесь и не переключайте каналы!

Ссылки:
[1] https://t.me/begtin/3826
[2] https://foundation.mozilla.org/en/privacynotincluded/about/methodology/
[3] https://foundation.mozilla.org/en/privacynotincluded/categories/reproductive-health/
[4] https://foundation.mozilla.org/en/privacynotincluded/period-tracker/
[5] https://reports.exodus-privacy.eu.org/en/reports/com.period.tracker.lite/latest/
[6] https://privacygosmobapps.infoculture.ru/

#privacy #android #mobile #surveillance
Полезное чтение про данные и не только:
- The Data Business Partnership [1] про партнерство дата-команд с бизнес подразделениями в компаниях. Актуально для больших и средних компаниях как голос за разделение ответственности и заинтересованность в результате любого дата-проекта
- Lessons I Learned From Building Self-Service Data Platform [2] автор рассуждает о пользе перехода на платформу управления данными в режиме самообслуживания.
- стартап Explo поднял $12M инвестиций на Series A [3], Explo - это система удобных дашбордов и, по сути, упрощение работы с аналитикой. Всего у них около 40+ платящих клиентов
- десять принципов доставки дата-проектов [4] по моему я о них не писал, принципы простые и полезные.
- запущен Dagster Cloud [5] для тех кто не помнит, Dagster - это такой open-source движок для работы с трубами данных и управлением данными. Ожидаемая бизнес модель open source + cloud.

Ссылки:
[1] https://locallyoptimistic.com/post/the-data-business-partnership/
[2] https://betterprogramming.pub/lessons-i-learned-from-building-self-service-data-platform-8dc1fa1fdee9
[3] https://www.explo.co/blog/explo-raises-12m-series-a-for-customer-facing-analytics
[4] https://towardsdatascience.com/top-10-most-powerful-lessons-i-learned-by-delivering-data-projects-4dcb647f5219
[5] https://dagster.io/blog/dagster-cloud-ga-launch

#startups #data #readings
Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.

По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%

Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.

И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.

Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.

И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.



Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/

#data #analytics #careers
В рубрике интересных наборов данных ДетКорпус [1] аннотированный корпус русской детской литературы, который отражает литературный процесс XX—XXI в. Включает включает более 2273 прозаических произведений, написанных на русском языке в период с 1900-х по 2010-е годы и адресованных детям и подросткам.

Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.

Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.

Ссылки:
[1] http://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001

#opendata #datasets #russian #languages
Многие кто пишет сейчас про ИТ, про данные, про разработку ПО пишут про карьерные треки для разработчиков, дата инженеров и дата сайентистов.

Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.

Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).

Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.

Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.

Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)

Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.

И вот эти два решения я считаю в моей карьере самыми главными.

В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.

#careers #thoughts
Полезный документ Structured and interoperable beneficial ownership data [1] в виде инструкций, методик и рекомендаций как властям стран раскрывать данные о конечных бенефициарах юридических лиц. Документ от команды Open Ownership которые не только публикуют на своём сайте наборы данных конечных бенефициаров, но и продвигают практики раскрытия данных по всему миру.

Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.

Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.

Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/

#opendata #readings
В рубрике как это работает у них - коммунистический Вьетнам.

В 2020 году во Вьетнаме создали государственный портал открытых данных data.gov.vn [1] который является местом для публикации данных и агрегатором данных из других репозиториев и порталов, таких как портал открытых данных города Хошимин [2] и многих других.

Портал создан на основе проекта портала данных Национального бюро информационных наук и технологий [3] который, в первую очередь агрегировал данные университетов и исследовательских центров.

Важно отметить что хотя на портале декларируется более 10 616 наборов данных, по факту, из них 10 045 - это наборы данных из научного репозитория Ханойского национального университета [4] где 99% материалов - это книги и публикации. То есть в реальности на портале менее 600 наборов данных, но даже если так важен сам факт его наличия в коммунистической азиатской стране где цифровой трансформацией занимается государственный военный холдинг [5].

Кроме того на национальный портал ещё и многие данные просто не попадают, например, с портала данных города Дананг [6], а то есть у портала даже как агрегатора есть куда развиваться.

Все порталы во Вьетнаме делают на базе движка с открытым кодом CKAN, работа порталах построена скорее по модели open by default и качество публикуемых данных пока невелико с одной стороны, с другой стороны видно что сама тема для страны актуальна и национальный и остальные порталы открытых данных развиваются.

Ссылки:
[1] https://data.gov.vn
[2] https://opendata.hochiminhcity.gov.vn
[3] https://dulieu.itrithuc.vn
[4] https://repository.vnu.edu.vn
[5] https://english.mic.gov.vn/Pages/TinTuc/154612/PM-asks-Viettel-group-to-take-lead-in-digital-transformation.html
[6] https://opendata.danang.gov.vn/

#opendata #opengov #vietnam #casestudies
В рубрике что читать регулярно, подборка рассылок для полезного чтения про данные и технологии.

Проектирование систем
- ByteByteGo [1] регулярная рассылка по системному дизайну с большим числом наглядных визуализаций от автора System Design Interview. Очень доходчиво, для начинающих - обязательно, для опытных в технологиях - полезно

Инженерия данных
- Data Engineering Weekly [2] известная рассылка по инженерии данных. Ничего сверх выдающегося, ничего лишнего. Минимальные комментарии составителя, много ссылок на корпоративные публикации про их стеки данных.

Data Science
- The Sequence [3] рассылка с материалами по ИИ в режиме weekly curated digest (еженедельная отбираемая подборка). Не слишком технично чтобы читать не только учёным, не слишком популярно чтобы был полной ерундой.

Открытые данные
- The Week in Data [4] рассылка от Open Data Institute (UK) про открытые данные и практики обмена данными (data sharing). Половина про их дела, половина про новости по миру.

Ссылки:
[1] https://blog.bytebytego.com
[2] https://www.dataengineeringweekly.com/
[3] https://thesequence.substack.com
[4] https://theodi.org/knowledge-opinion/the-week-in-data/

#readings #data #mailing
Может ли открытый код помочь построить открытое общество?

Одноимённая статья Can open-source technologies support open societies? [1] от The Brookings Institution о том что открытый код может помочь в построении открытых обществ и помочь в достижении целей устойчивого развития.

Всё это актуально в рамках "Дорожной карты цифровой кооперации" опубликованной в ООН в 2020 г. [2]

Общая идея в том что, да, открытый код и общественная цифровая инфраструктура (digital public infrastructure) способны создавать новые экосистемы, но важно помнить что происходит это только при целенаправленных шагах в этом направлении.

Статья полезная и отражает международную повестку продвигаемую ООН с практической точки зрения.

Ссылки:
[1] https://www.brookings.edu/research/can-open-source-technologies-support-open-societies/
[2] https://www.un.org/en/content/digital-cooperation-roadmap/

#opensource #un #readings
Если Вы используете <что угодно>, то за Вами следят

Скоро это будет универсальным заголовком, потому что экономика слежки, surveillance capitalism, также называемая надзорным капитализмом устроена так что даже если Вы ничего не имеете и никому не нужны за Вами всё равно следят, а если тратите и деньги у Вас есть, то следят гарантированно и повсеместно.

Свежая новость, ТикТок поймали на слежке через браузер встроенный приложение [1], собственно не только ТикТок, но и многие другие встраиватели браузеров в аппы стали внедрять в просматриваемый HTML код возможность отслеживания действий пользователей.

Но ТикТок пошёл дальше всех и начал отслеживать вообще ВСЕ действия который пользователь делал при открытии страницы: нажатые клавиши и тд. Поймали это с помощью сервиса InAppBrowser.com который можно открыть в одном из приложений на iPhone и убедиться в том что код внедрен в тело страницы. Таким же образом недавно поймали Meta [2] ровно на том же самом.

Для тех кто хочет технических подробностей, автор находок Felix Krause рассказывает о них у себя в блоге [3]

Ссылки:
[1] https://www.forbes.com/sites/richardnieva/2022/08/18/tiktok-in-app-browser-research/
[2] https://www.theguardian.com/technology/2022/aug/11/meta-injecting-code-into-websites-visited-by-its-users-to-track-them-research-says
[3] https://krausefx.com/blog/ios-privacy-instagram-and-facebook-can-track-anything-you-do-on-any-website-in-their-in-app-browser

#privacy #mobileapps #facebook #tiktok
Forwarded from Инфокультура
Инфокультура провела новое исследование приватности мобильных приложений. На этот раз в фокусе — новый магазин мобильных приложений для Android RuStore. Он рекомендован для предустановки на продаваемые смартфоны в России.

Мы изучили данные о 1014 мобильных приложениях и обнаружили 820 приложений (87,8%), которые имеют как минимум один отслеживающий трекер в коде. Для них характерно следующее:

1. По числу приложений, трекеры которых в них установлены, лидируют юрисдикции: США, Россия и Китай. В 93,8% таких приложений используются трекеры компаний США.
2. Российские трекеры, в основном от компаний «Яндекс» и VK, используются 3 477 (58%) приложениях.
4. Всего в 44 приложениях установлены чисто российские трекеры, без соседства с трекерами иных юрисдикций.
5. Только в 17 приложениях нет ни одного разрешения к функциям и данным устройства, а также нет ни одного установленного трекера.
6. Из потенциально опасных разрешений в приложениях чаще всего встречаются: доступ на чтение и запись в хранилище данных, доступ к камере, доступ к точному и приблизительному местоположению, получению информации об устройстве и записи аудио.
7. Из 29 приложений, в которых установлено 10 и более опасных разрешений, 10 приложений — принадлежат компании VK.
8. Больше всего таких разрешений запрашивают приложения «VK Звонки», «Одноклассники», «ICQ», которые принадлежат компании VK.

Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
Результаты свежего исследования Инфокультуры с анализом приватности (читай - слежки) 1014 мобильных приложений для Android опубликованных в магазине приложений RuStore.

Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет тех разрешений которые затребуют на устройствах пользователей и наличия в них кода специальных библиотек (трекеров) используемых для слежки за потребителями.

Почему RuStore и приложения оттуда? Потому что усилиями Минцифры РФ и Правительства РФ именно этот магазин приложений стал официальным, фактически, нормативно закреплённым. Можно говорить о том что компания ВК и Правительство РФ теперь несут совокупную ответственность за то как приложения оттуда следят за нами.

Выводы [не]удивительные:
- большая часть приложения включает трекеры, требуют больше разрешений чем им реально может быть нужно, а сам магазин приложений не имеет стандартов верификации.
- большая часть приложений передают данные компаниям в юрисдикциях которые Правительство РФ называет "недружественными"
- даже госприложения включают трекеры, например компании Google, передающие данные о гражданах в другие страны и в BigTech корпорации

44 госприложения мы анализировали в прошлом году, но в этот раз решили подойти масштабнее и проанализировали 1014 приложений всех категорий. Было это дольше, но не менее увлекательно.

С результатами исследования мы публикуем все данные в CSV и исходный код по их подготовке [2].

Если будут сложности самостоятельного анализа данных в CSV и если Вы журналист или исследователь, хотите сделать собственную визуализацию или материал, свяжитесь с нами на infoculture@infoculture.ru, мы поможем․

Ссылки:
[1] https://rustoreprivacy.infoculture.ru
[2] https://github.com/infoculture/rustore-privacy/

#privacy #infoculture #android #mobileapps