Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Полезное чтение про данные и не только:
- The Data Business Partnership [1] про партнерство дата-команд с бизнес подразделениями в компаниях. Актуально для больших и средних компаниях как голос за разделение ответственности и заинтересованность в результате любого дата-проекта
- Lessons I Learned From Building Self-Service Data Platform [2] автор рассуждает о пользе перехода на платформу управления данными в режиме самообслуживания.
- стартап Explo поднял $12M инвестиций на Series A [3], Explo - это система удобных дашбордов и, по сути, упрощение работы с аналитикой. Всего у них около 40+ платящих клиентов
- десять принципов доставки дата-проектов [4] по моему я о них не писал, принципы простые и полезные.
- запущен Dagster Cloud [5] для тех кто не помнит, Dagster - это такой open-source движок для работы с трубами данных и управлением данными. Ожидаемая бизнес модель open source + cloud.

Ссылки:
[1] https://locallyoptimistic.com/post/the-data-business-partnership/
[2] https://betterprogramming.pub/lessons-i-learned-from-building-self-service-data-platform-8dc1fa1fdee9
[3] https://www.explo.co/blog/explo-raises-12m-series-a-for-customer-facing-analytics
[4] https://towardsdatascience.com/top-10-most-powerful-lessons-i-learned-by-delivering-data-projects-4dcb647f5219
[5] https://dagster.io/blog/dagster-cloud-ga-launch

#startups #data #readings
Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.

По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%

Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.

И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.

Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.

И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.



Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/

#data #analytics #careers
В рубрике интересных наборов данных ДетКорпус [1] аннотированный корпус русской детской литературы, который отражает литературный процесс XX—XXI в. Включает включает более 2273 прозаических произведений, написанных на русском языке в период с 1900-х по 2010-е годы и адресованных детям и подросткам.

Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.

Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.

Ссылки:
[1] http://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001

#opendata #datasets #russian #languages
Многие кто пишет сейчас про ИТ, про данные, про разработку ПО пишут про карьерные треки для разработчиков, дата инженеров и дата сайентистов.

Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.

Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).

Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.

Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.

Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)

Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.

И вот эти два решения я считаю в моей карьере самыми главными.

В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.

#careers #thoughts
Полезный документ Structured and interoperable beneficial ownership data [1] в виде инструкций, методик и рекомендаций как властям стран раскрывать данные о конечных бенефициарах юридических лиц. Документ от команды Open Ownership которые не только публикуют на своём сайте наборы данных конечных бенефициаров, но и продвигают практики раскрытия данных по всему миру.

Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.

Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.

Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/

#opendata #readings
В рубрике как это работает у них - коммунистический Вьетнам.

В 2020 году во Вьетнаме создали государственный портал открытых данных data.gov.vn [1] который является местом для публикации данных и агрегатором данных из других репозиториев и порталов, таких как портал открытых данных города Хошимин [2] и многих других.

Портал создан на основе проекта портала данных Национального бюро информационных наук и технологий [3] который, в первую очередь агрегировал данные университетов и исследовательских центров.

Важно отметить что хотя на портале декларируется более 10 616 наборов данных, по факту, из них 10 045 - это наборы данных из научного репозитория Ханойского национального университета [4] где 99% материалов - это книги и публикации. То есть в реальности на портале менее 600 наборов данных, но даже если так важен сам факт его наличия в коммунистической азиатской стране где цифровой трансформацией занимается государственный военный холдинг [5].

Кроме того на национальный портал ещё и многие данные просто не попадают, например, с портала данных города Дананг [6], а то есть у портала даже как агрегатора есть куда развиваться.

Все порталы во Вьетнаме делают на базе движка с открытым кодом CKAN, работа порталах построена скорее по модели open by default и качество публикуемых данных пока невелико с одной стороны, с другой стороны видно что сама тема для страны актуальна и национальный и остальные порталы открытых данных развиваются.

Ссылки:
[1] https://data.gov.vn
[2] https://opendata.hochiminhcity.gov.vn
[3] https://dulieu.itrithuc.vn
[4] https://repository.vnu.edu.vn
[5] https://english.mic.gov.vn/Pages/TinTuc/154612/PM-asks-Viettel-group-to-take-lead-in-digital-transformation.html
[6] https://opendata.danang.gov.vn/

#opendata #opengov #vietnam #casestudies
В рубрике что читать регулярно, подборка рассылок для полезного чтения про данные и технологии.

Проектирование систем
- ByteByteGo [1] регулярная рассылка по системному дизайну с большим числом наглядных визуализаций от автора System Design Interview. Очень доходчиво, для начинающих - обязательно, для опытных в технологиях - полезно

Инженерия данных
- Data Engineering Weekly [2] известная рассылка по инженерии данных. Ничего сверх выдающегося, ничего лишнего. Минимальные комментарии составителя, много ссылок на корпоративные публикации про их стеки данных.

Data Science
- The Sequence [3] рассылка с материалами по ИИ в режиме weekly curated digest (еженедельная отбираемая подборка). Не слишком технично чтобы читать не только учёным, не слишком популярно чтобы был полной ерундой.

Открытые данные
- The Week in Data [4] рассылка от Open Data Institute (UK) про открытые данные и практики обмена данными (data sharing). Половина про их дела, половина про новости по миру.

Ссылки:
[1] https://blog.bytebytego.com
[2] https://www.dataengineeringweekly.com/
[3] https://thesequence.substack.com
[4] https://theodi.org/knowledge-opinion/the-week-in-data/

#readings #data #mailing
Может ли открытый код помочь построить открытое общество?

Одноимённая статья Can open-source technologies support open societies? [1] от The Brookings Institution о том что открытый код может помочь в построении открытых обществ и помочь в достижении целей устойчивого развития.

Всё это актуально в рамках "Дорожной карты цифровой кооперации" опубликованной в ООН в 2020 г. [2]

Общая идея в том что, да, открытый код и общественная цифровая инфраструктура (digital public infrastructure) способны создавать новые экосистемы, но важно помнить что происходит это только при целенаправленных шагах в этом направлении.

Статья полезная и отражает международную повестку продвигаемую ООН с практической точки зрения.

Ссылки:
[1] https://www.brookings.edu/research/can-open-source-technologies-support-open-societies/
[2] https://www.un.org/en/content/digital-cooperation-roadmap/

#opensource #un #readings
Если Вы используете <что угодно>, то за Вами следят

Скоро это будет универсальным заголовком, потому что экономика слежки, surveillance capitalism, также называемая надзорным капитализмом устроена так что даже если Вы ничего не имеете и никому не нужны за Вами всё равно следят, а если тратите и деньги у Вас есть, то следят гарантированно и повсеместно.

Свежая новость, ТикТок поймали на слежке через браузер встроенный приложение [1], собственно не только ТикТок, но и многие другие встраиватели браузеров в аппы стали внедрять в просматриваемый HTML код возможность отслеживания действий пользователей.

Но ТикТок пошёл дальше всех и начал отслеживать вообще ВСЕ действия который пользователь делал при открытии страницы: нажатые клавиши и тд. Поймали это с помощью сервиса InAppBrowser.com который можно открыть в одном из приложений на iPhone и убедиться в том что код внедрен в тело страницы. Таким же образом недавно поймали Meta [2] ровно на том же самом.

Для тех кто хочет технических подробностей, автор находок Felix Krause рассказывает о них у себя в блоге [3]

Ссылки:
[1] https://www.forbes.com/sites/richardnieva/2022/08/18/tiktok-in-app-browser-research/
[2] https://www.theguardian.com/technology/2022/aug/11/meta-injecting-code-into-websites-visited-by-its-users-to-track-them-research-says
[3] https://krausefx.com/blog/ios-privacy-instagram-and-facebook-can-track-anything-you-do-on-any-website-in-their-in-app-browser

#privacy #mobileapps #facebook #tiktok
Forwarded from Инфокультура
Инфокультура провела новое исследование приватности мобильных приложений. На этот раз в фокусе — новый магазин мобильных приложений для Android RuStore. Он рекомендован для предустановки на продаваемые смартфоны в России.

Мы изучили данные о 1014 мобильных приложениях и обнаружили 820 приложений (87,8%), которые имеют как минимум один отслеживающий трекер в коде. Для них характерно следующее:

1. По числу приложений, трекеры которых в них установлены, лидируют юрисдикции: США, Россия и Китай. В 93,8% таких приложений используются трекеры компаний США.
2. Российские трекеры, в основном от компаний «Яндекс» и VK, используются 3 477 (58%) приложениях.
4. Всего в 44 приложениях установлены чисто российские трекеры, без соседства с трекерами иных юрисдикций.
5. Только в 17 приложениях нет ни одного разрешения к функциям и данным устройства, а также нет ни одного установленного трекера.
6. Из потенциально опасных разрешений в приложениях чаще всего встречаются: доступ на чтение и запись в хранилище данных, доступ к камере, доступ к точному и приблизительному местоположению, получению информации об устройстве и записи аудио.
7. Из 29 приложений, в которых установлено 10 и более опасных разрешений, 10 приложений — принадлежат компании VK.
8. Больше всего таких разрешений запрашивают приложения «VK Звонки», «Одноклассники», «ICQ», которые принадлежат компании VK.

Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
Результаты свежего исследования Инфокультуры с анализом приватности (читай - слежки) 1014 мобильных приложений для Android опубликованных в магазине приложений RuStore.

Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет тех разрешений которые затребуют на устройствах пользователей и наличия в них кода специальных библиотек (трекеров) используемых для слежки за потребителями.

Почему RuStore и приложения оттуда? Потому что усилиями Минцифры РФ и Правительства РФ именно этот магазин приложений стал официальным, фактически, нормативно закреплённым. Можно говорить о том что компания ВК и Правительство РФ теперь несут совокупную ответственность за то как приложения оттуда следят за нами.

Выводы [не]удивительные:
- большая часть приложения включает трекеры, требуют больше разрешений чем им реально может быть нужно, а сам магазин приложений не имеет стандартов верификации.
- большая часть приложений передают данные компаниям в юрисдикциях которые Правительство РФ называет "недружественными"
- даже госприложения включают трекеры, например компании Google, передающие данные о гражданах в другие страны и в BigTech корпорации

44 госприложения мы анализировали в прошлом году, но в этот раз решили подойти масштабнее и проанализировали 1014 приложений всех категорий. Было это дольше, но не менее увлекательно.

С результатами исследования мы публикуем все данные в CSV и исходный код по их подготовке [2].

Если будут сложности самостоятельного анализа данных в CSV и если Вы журналист или исследователь, хотите сделать собственную визуализацию или материал, свяжитесь с нами на infoculture@infoculture.ru, мы поможем․

Ссылки:
[1] https://rustoreprivacy.infoculture.ru
[2] https://github.com/infoculture/rustore-privacy/

#privacy #infoculture #android #mobileapps
Из-за сделки Яндекса с ВК наша новость про результаты исследования приватности мобильных приложений [1] слегка утопла, пишут о ней куда меньше чем хотелось бы, но актуальность оно сохранит ещё долго.

Я дополню несколькими важными тезисами которые в основную часть исследования не попали:
1. То что мы проанализировали - это статический анализ, он показывает наличие кода который предполагает передачу данных. Не анализировалось то какие приложения сами собирают и что для себя. Такие методики есть, но это сильно-сильно дольше и дороже, называется динамический анализ, делается стартапами вроде AppCensus.
2. Почему RuStore? Потому что он стал официальным государственным магазином приложений. Это его принципиально отличает от всех остальных магазинов приложений в России.
3. Что не успели - не успели сопоставить те же приложения в Google Play, трудоёмкость избыточна и выборочные проверки показали что разработчики не заморачиваются разными версиями приложения для разных магазинов приложений.
4. Что важно? У RuStore отсутствуют очень важные данные по популярности и числу скачиваний по приложениям. В результате сложно измерить "уровень вреда" по влиянию (impact) приложений, как говорят.
5. Что не стали делать? Не стали сознательно делать списки приложений которыми лучше не пользоваться и которые лучше заменить.
6. Что ещё можно было бы сделать в будущем? Добавить юридический анализ, посмотреть в условия использования и их соответствие фактической ситуации наличия трекеров внутри приложения.

Ссылки:
[1] https://t.me/begtin/4187

#android #mobileapps #privacy
В рубрике интересных продуктов для работы с данными SurrealDb [1] свежая документоориентированная СУБД категории NewSQL позиционируемая создателями как облачная без-серверная СУБД.

Облачная версия у них ещё в разработке, а открытый код уже общедоступен, можно установить и тестировать на собственных задачах.

Внутри язык запросов похожий на SQL, но не SQL, называется https://SurrealQL [2] не поддерживающий JOIN'ы по изначальному его дизайну.

Причём код стал открытым только летом прошлого года [3], а на сентябрь обещают версию 1.0, однако сейчас он стремительно набирает популярность, порядка 1500+ лайков за август 2022 года и далее популярность нарастает.

Среди клиентских библиотек основная NodeJS, по позиционированию СУБД скорее под Jamstack чем под MDS (Modern Data Stack), так что для тех кто программирует на JS она может быть полезной находкой.

Ссылки:
[1] https://surrealdb.com
[2] https://surrealdb.com/docs/surrealql
[3] https://surrealdb.com/roadmap

#opensource #rdbms #datatools
Если российские подсанкционные банки так хотят иметь приложения в аппсторе, то реально путь у них только один - разрабатыва́ть и публиковать открытые спецификации и API для доступа, так чтобы приложения были не для доступа к ним, а типа универсальные, для подключения к любому банку по этому стандарту. Примеры вроде OpenBanking в мире есть.

Но что-то мне подсказывает что ничего такого не будет.

#thoughts
В журнале IEEE Spectum вышел обзор Top Programming Languages 2022 [1] о самых популярных языках программирования по категориям сводного рейтинга (spectrum), вакансий и трендов.

Там же у них методика [2] на основе частотности упоминаемости на различных ресурсах и

Python на 3-м месте в вакансиях и на первом в остальных. Чему я лично рад, поскольку Python вот уже много лет мой любимый язык программирования, не удивительна популярность Java, а вот SQL резко выбился в лидеры востребованности у работодателей.

В том же журнале об этом отдельная статья The Rise of SQL [3], но там даже не упоминают Modern Data Stack, унификацию языка запросов, восхождение dbt и тд. В общем у меня нет ощущения значительной глубины понимания из той заметки, но, их взгляд на происходящее имеет право на существование.

Для сравнения в исследовании JetBrains за прошлый год на первом месте был Javascript [4] и мне лично, наоборот, это не нравится, JS вообще не вызывает у меня симпатии с самого его зарождения. И у JetBrains в исследованиях гораздо популярнее и востребованнее Go и Rust и другие молодые языки разработки.

Поэтому к публикации в IEEE Spectrum надо бы относится с долей осторожности, но изучать и преподавать Python никогда не поздно;)

Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2022
[2] https://spectrum.ieee.org/top-programming-languages-methods
[3] https://spectrum.ieee.org/the-rise-of-sql
[4] https://www.jetbrains.com/lp/devecosystem-2021/

#python #languages #programming
Wir dokumentieren Deutschland

В рубрике как это работает у них проект bund.de [1] и его основательница Лилит Виттманн. Лилит с волонтерами занимается тем что находит недокументированные государственные API, документируют их и выкладывают документацию на сайт bund.de помогая повторному использованию данных. Фактически выполняют за правительство Германии ту работу которую они должны делать сами. Например, во Франции этим занимается государственная компания Etalab создавшая каталог api.gouv.fr

Из свежих работ Лилит и её команды - это превращение торгового реестра Германии (аналога российского ЕГРЮЛа) в машиночитаемую форму. С 1 августа в Германии он стал "открытым", но лишь частично, не в виде открытых данных. Она пишет у себя в блоге о том как они обрабатывают эти данные и собирают набор данных [2]. В общий доступ они его не выкладывают, но можно заполнить форму и получить их для исследовательских целей (это около 100ГБ).

То что делает Лилит и команда волонтеров - это то что волонтеры в Германии, Великобритании, России и т.д. делали ещё 10 лет назад. До появления национальных порталов открытых данных мы устраивали хакатоны и конкурсы по извлечению данных из открытых источников и превращению их в открытые данные.

Потом стали появлятся госинициативы, но не все из них были достаточно системы чтобы решить вопросы с доступом к данным, поэтому история ходит по кругу.

В прошлом году наша команда собрала более 100 открытых точек подключения к открытым недокументированным API информационных систем в России и сделать аналог bund.de или api.gouv.fr это несложно и быстро. Но время ещё, видимо, не пришло.

Кстати, Лилит Виттманн известна тем что когда-то вычислила секретное германское ведомство с помощью Airtag [3]. Так что боевая девушка, думаю что ещё станет депутатом Бундестага когда-нибудь или сделает политическую карьеру.

Ссылки:
[1] https://bund.de
[2] https://lilithwittmann.medium.com/bund-dev-wir-befreien-das-handelsregister-8168ad46b4e
[3] https://t.me/begtin/3473
#opendata #germany #opengov #api