Ivan Begtin
8.09K subscribers
1.63K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Как я обещал публикую результаты опроса по поводу организации Дня открытых данных в Москве в 2023 году. Всего опрошенных 100 человек, из опроса можно узнать что։
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных

Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.

Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.

Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.

И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на infoculture@infoculture.ru или мне в личку о том какая нужна помощь, если она нужна.

#opendataday #opendata #events
К вопросу о том как зарабатывают на открытых данных, открытом коде, экосистеме открытости и почему многие компании используют это в маркетинге своих продуктов успешно.

В качестве предисловия, я регулярно читаю и слышу жалобы российских "импортозамещающих компаний" что вот мол они делают хороший продукт и почему-то никто им не пользуются и "как же обидно почему о них никто не говорит и не пишет". Скажу сдержанно, про хорошие продукты говорят всегда, про очень плохие тоже, с другим контекстом, а на посредственные пусть тратят время и деньги на рекламу. В то же время в мире сейчас, кроме уже устоявшихся бизнес моделей по клонированию продуктов, есть несколько бизнес моделей или ключевых их элементов связанных с открытостью. Я перечислю некоторые.

Открытый код + облачный коммерческий сервис.
Идея проста до безобразия. Если кто-то сделал крутой коммерческий продукт или сервис, успешный и раскрученный, то всегда можно сделать его клон, но конкурировать перпендикулярно, подрывая бизнес того продукта. Создав клон с открытым кодом и его облачной версией с бесплатным аккаунтом и с подпиской за деньги. Таким образом создают сейчас клоны Notion, клоны Airtable, клоны Google таблиц и ещё кучи всяких разных сервисов и продуктов. Причём на такие клоны успешно фандрайзят венчурные деньги, потому что есть подтверждение рынка существованием того платного конкурента(-ов) и раскручивают продукт пользователи которые используют, в том числе, версию с открытым кодом. Это очень популярная бизнес модель в последнее время.

Открытому - бесплатно
Широкая бизнес модель, в разных вариациях, но суть её в том что то что имеет общественную ценность, будь то открытый код, открытые данные, свободно распространяемый контент, а также любые сервисы на их основе отдаются бесплатно. К примеру, сервисы проверки исходного кода. Для открытых git репозиториев бесплатно, для закрытых репозиториев за деньги. Или бизнес модель Github, для открытых репозиториев без ограничений, для закрытых репозиториев и доп сервисов за деньги. По такой же модели существуют сервисы доступа к данным Dolthub и Bit.io и многие другие. Их идея проста, из тех пользователей кто точно не станет их клиентами, но могут распространять о них информацию и создавать вокруг экосистему, создавать большое сообщество.
Существенный бесплатный и открытый сервис
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.

Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.

#opendata #opensource #business #startups #openness
Ещё один шаг в сторону от открытости гос-ва в России - Госдума прекратила трансляции своей работы [1]. Казалось бы, там одни лишь не секретные темы обсуждения, казалось бы и судя по риторике депутатов работы они своей не стыдятся, казалось бы вообще-то законотворчество в принципе должно бы максимально прозрачным, казалось бы члены ГД и так все под санкциями так чего им бояться.

Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.

Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.

Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.

А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.

P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше

Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/

#government #parliament #russia #openness
Полезное для тех кто постоянно работает с Pandas в наборе заметок Modern Polars [1] написанных по мотивам Modern Pandas [2]. Основная идея в том что Polars существенно быстрее и более однозначно позволяет работать с теми же данными и миграция на Polars с Pandas не является чем-то реально очень сложным. Наоборот, это довольно просто.

А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]

Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.

Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.

Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4

#opensource #datatools
База Government Open Source Software Policies [1] опубликована CSIS, Центром стратегий и международных исследований включает описание сотен нормативных документов и стратегий правительств большинства стран мира в части внедрения открытого кода. Данные можно скачать в CSV [2], посмотреть визуально в сервисе Datawrapper [3] и посмотреть версию на Github [4] вместе с документацией.

Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия

По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.

Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies

#opendata #opensource #policies #regulation
Ребята из Digital Rights Center и Privacy Accelerator проводят международную конференцию Privacy Day [1]. Она пройдет 27 января этого года, буквально через неделю в пятницу. Пометьте себе в календаре, конференция интересная, выступления там живые и по делу.

Я также буду там участвовать в секции Приватность во время военных действий и глобальных катастроф. Пока не знаю с презентацией или в дискуссии, но постараюсь рассказать что-то интересное.

И напомню что после очень долгих размышлений и сомнений, мы всё таки проведем день открытых данных в Москве, в сокращённом, формате - в виде онлайн, а не большой оффлайн конференции. Тем не менее там тоже будут интересные доклады, примеры и кейсы работы с данными и инструментами. Подробности будут на сайте Opendataday.ru [2] и в телеграм канале Инфокультуры [3]. День открытых данных по всему миру будет проходить 5 марта.

Ссылки։
[1] https://2023.privacyday.net/
[2] https://opendataday.ru
[3] https://t.me/infoculture

#privacy #opendata #events
В рубрике открытых научных данных в России система ЕСИМО (Единая государственная система информации об обстановке в Мировом океане) [1].

Систему создавали начиная, как минимум, с 1999 года и в неё включены данные собираемые различными подведомственными структурами Росгидромета. Система финансировалась из Федеральной целевой программы Мировой океан. Только на основном портале упомянуто 2305 наборов данных.

Далеко не все данные в этой системе являются открытыми, часто они являются коллекциями ресурсов со ссылками на закрытые порталы входящие в ЕСИМО, но часть данных опубликованы и являются полностью общедоступными.

В мире во многих странах есть похожие информационные системы. Например, Portail des données marines [2] во Франции и многочисленные международные проекты и порталы.

Конкретно ЕСИМО создано на довольно старых технологиях, с одной стороны, а с другой весьма детально проработано с точки зрения управления данными. Включает метаданные, связь типов данных с конкретными наборами данных.

Ссылки:
[1] http://portal.esimo.ru
[2] http://data.ifremer.fr/

#opendata #openaccess #russia
Я сегодня потратил несколько часов смотря брифинг Чернышенко и Шадаева по поводу цифровой трансформации государства в РФ в 2022 году. И, конечно же, как и всегда важно не то что говорят, а то о чём _не говорят_. Пока слушал я делал пометки, постараюсь изложить их тут в сжатом виде.

1. Практически окончательный переход от открытости государства к цифровому патернализму. Запомните этот термин и вспоминайте его слушая про проекты государства в цифре. Развитые госуслуги - это ровно про повышение качества патернализма, государства взаимодействие с которым происходит по строго проложенным рельсам. Всё что за пределами этого оказывается далеко в не столь прекрасно поданном состоянии.
2. Единственная форма открытости которая сейчас упоминается - это присутствие госорганов с соцсетях, что можно перевести как лоббирование VK гарантированным наполнением контентом их проектов, а пиарщиков контрактами на ведение этих пабликов. Всё это никак не отражает реальную открытость. Присутствие органа власти в соцсети не означает вменяемости того что там будут писать, гарантию ответа и вообще не имеет значимого юридического эффекта.
3. Слыша про упоминание Гостеха надо задавать себе лишь один вопрос а существует ли Гостех? Если бы брифинг был настоящие, а у журналистов была бы возможность/готовность/интерес задавать реальные вопросы то ключевые вопросы очень простые։
- почему Правительство Москвы отказалось от Гостеха?
- почему Правительство Казахстана отказалось от Гостеха?
- почему до сих пор нет стратегии, концепции, архитектуры Гостеха?
Ответы отчасти риторические, хотя было бы любопытно услышать Собянина о том почему Гостех "не взлетел в Москве".
4. При этом реклама/маркетинг которым продвигают Гостеха весьма агрессивны интенсивны. Фактически, Гостех продвигают так словно он в совсем хреновом состоянии. Потому что на хороший продукт столько маркетинга, с привлечением вице-премьера, не нужно. Хороший продукт "продаёт" себя сам. А вот такое административное давление на госорганы федеральные и региональные - это демонстрация давления на сомневающихся, потому что ответственные за ИТ люди в госорганах, помимо того что просто не хотят терять контроля за ИТ системами, но ещё и понимают что потеряют контроль за их разработкой, развитием, гарантией результата и тд.
5. Меры про удержание ИТшников в России я даже не комментирую.

В качестве резюме։ выглядит это всё весьма печально. Я более 10 лет изучаю того как устроены подходы государства к цифровой трансформации и внедрении технологий и чем дальше тем больше убеждаюсь что
наблюдать за происходящим в России довольно бессмысленно. Ну или полезно только для примеров того как делать не надо.

#government #policies
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлены новые 9 новых каталогов. Из них 8 - это геопорталы региональных правительств, городов и научных центров, а один - это пропущенный ранее портал открытых данных Амурской области.


- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН http://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru

Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.

#opendata #datacatalogs #datasets
В рубрике интересных наборов данных данные World Values Survey [1] глобального опроса о ценностях проводимого среди жителей десятков стран. Опросы проводятся 5 летними периодами и последняя 7я волна проходила с 2017 по 2022 года. Например, опрос в России проводился в 2017 году, а в Нидерландах в 2022 году. Это делает такой анализ довольно необычным по сравнению с ежегодными исследованиями и рейтингами, а с другой стороны измеряются же фундаментальные ценности, поэтому такие периоды вполне оправданы.

Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.

Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.

Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.

Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp

#opendata #datasets #data
Полезное чтение про данные, технологии и не только։

Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле

The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.

Ссылки:
[1] https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff

#data #readings #dataengineering #dataquality
В начале 2007 года пропала посылка, отправленная с севера Англии в Национальное контрольно-ревизионное управление (NAO) в Лондоне. В нем находились два диска с личными записями двадцати пяти миллионов человек, включая их адреса, дни рождения и номера национальной страховки, необходимые для работы в Соединенном Королевстве, которые NAO намеревалась использовать для «независимого исследования» база данных детских пособий для проверки на предполагаемое мошенничество. Вместо этого эта информация так и не была восстановлена, последовал национальный скандал, а младший чиновник, отправивший посылку, был уволен...

Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.

Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.

Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.

Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf

#privacy #data #government
Минцифры РФ через Гостех разродили документ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА РАЗРАБОТКИ ГОСУДАРСТВЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С УЧЕТОМ ПРИМЕНЕНИЯ ИТЕРАЦИОННОГО ПОДХОДА К РАЗРАБОТКЕ

Он легко гуглится на Tadviser'е и других ресурсах [1].

Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.

Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf

#government #tech #readings
Методические рекомендации по организации Agile/Scrum в госпроектах от команды ГосТеха и с привязкой к платформе ГосТеха — это значит что ... (можно несколько вариантов ответа)
Anonymous Poll
13%
Отличная штука! Больше эджайла и ГосТеха в жизнь госслужащих
22%
Бессмыленна, эджайл и скрум невозможны в госухе
16%
Коррупционно. Ну, мы же понимаем, там весь Гостех это лишь один вендор и мы его знаем...
6%
Хорошо бы больше, но без Гостеха, само по себе
2%
Гостех - хорошо, а методические рекомендации так себе.
12%
Минцифры много на себя берёт распространяя на других пусть с себя и начнут
16%
Нет никакого ГосТеха кроме как на бумаге и в презентациях отдельных людей
7%
Прочитал. Людей с записью "Гостех" в резюме на работу брать не буду. Поделитесь списком, кстати
11%
Да ладно Вам. Люди профессионально саботирует госинформатизацию. Молодцы же! Работают с огоньком
43%
У меня тут пиво и попкорн, так что я ничего не знаю, хочу посмотреть что другие думают