Ivan Begtin
8.02K subscribers
1.74K photos
3 videos
101 files
4.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто любит программировать на Python и не любит Javascript не могу не рассказать о таком проекте как PyScript [1], код для исполнения кода Python'а на стороне браузера. Включает как простые, так и сложные примеры [2], а также по нему есть огромное руководство с кучей подробностей [3].

Признаюсь, я лично, никогда не любил разработку фронтэнда именно из-за Javascript'а, какое-то сильное чувство отторжение у меня вызывало его использование, так что не только Javascript'у проникать на сервер, но и Python'у в браузер.

А их свежего и любопытного - руководство по написанию расширений для Google Chrome с помощью PyScript [4].

Почему это важно? Многие продукты по обработке и визуализации данных не сервере написаны на Python. Если PyScript будет работать с хорошей производительностью, то часть задач обработки можно будет перенести в браузер и поддерживать единую кодовую базу.

Пока единственное ограничение в том что PyScript более-менее оттестирован в Chrome, но даже в Firefox'е его активно не проверяли.

Тем не менее, экспериментировать можно уже сейчас.

Ссылки:
[1] https://pyscript.net
[2] https://pyscript.net/examples/
[3] https://realpython.com/pyscript-python-in-browser/#modules-missing-from-the-python-standard-library
[4] https://medium.com/@petefison/write-chrome-extensions-in-python-6c6b0e2e1573

#opensource #python #programming
Ещё одна утилита идентифицирующая смысл данных в базах данных - catwright [1]. Авторы декларируют что используют ИИ и поддержку категорий данных времени и геоданных. Правда они называют категориями то что все остальные называют семантическими типами данных. Сейчас правил и категорий там мало, зато есть предобученная модель.

Выглядит любопытно, но, пока, не более того. Я всё же скажу что metacrafter [2] куда практичнее поскольку расширяем.

Ссылки:
[1] https://github.com/jataware/cartwright
[2] https://github.com/apicrafter/metacrafter

#opensource #datatypes #dataengineering
Полезное чтение про данные, технологии и не только:
- Your Data Catalog Shouldn’t Be Just One More UI [1] автор рассуждает о том что каталоги данных должны быть API First, построены изначально под автоматизацию работы с данными. Приводит в пример Datahub и OpenMetadata. Мои мысли с ним созвучны, только я думал о том же в форме Headless data catalog и Headless data management system.
- Visualization Tips for Data Story-Telling [2] как подбирать цвета при визуализации данных и много других советов.
- Dataclasses: Supercharge your Python code [3] классы данных, для тех кто хочет продвинутся в разработке на Python в сторону датацентричности. Классы данных хорошая штука, нехватает только ещё более удобных инструментов для маппинга их на хранилища.
- Introducing Notion AI [4] Notion обещают ИИ который будет помогать писать тексты. Таких предложений всё больше, скоро их будет какое-то пугающее количество. Когда наступит перелом, когда Google добавит похожее в Google Docs и GMail или когда Microsoft поместит это в онлайн версию MS Office?
- DuckDB — What’s the Hype About? [5] рассуждения о хайпе вокруг DuckDB. Всё по делу, главное достоинство DuckDB - это возможность работы с данными локально, и без дополнительных знаний кроме Pandas. Главное не забывать это это локальная аналитическая база не заменяющая серверные продукты.

Ссылки:
[1] https://towardsdatascience.com/your-data-catalog-shouldnt-be-just-one-more-ui-e6bffb793cf1
[2] https://medium.com/mlearning-ai/visualization-tips-for-data-story-telling-1e99cccbb8c7
[3] https://heyashy.medium.com/supercharge-your-python-code-with-dataclasses-6965ddd7fb98
[4] https://www.notion.so/product/ai
[5] https://olivermolander.medium.com/duckdb-whats-the-hype-about-5d46aaa73196

#opensource #readings #datatools #data #ai
Многие следят за событиями в Twitter'е с массовыми увольнениями инженеров и руганью Элона Маска с некоторыми из них публично. Можно смотреть на это с разными эмоциями, кто-то, надеюсь меньшинство думает что "так мол им и надо зажравшимся смузеедам", а кому-то события вокруг твиттера лишь в очередной раз напоминают что чем меньше ты зависишь от централизованных платформ тем лучше.

Поэтому, мой аккаунт в Mastodon https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.

На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com

#blogging
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.

Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.

А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]

Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3

#technology #blockchain
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]

Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]

Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.

Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.

Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.

Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org

#opendata #contracting #procurement #usa #transparency
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].

Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.

Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.

Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.me/begtin/4382
[3] https://openownership.org

#opendata #opengov #transparency #eu
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities
В рубрике интересных инструментов работы с данными Rasgo [1], интерактивный каталог данных работающий поверх Snowflake и BigQuery и в планах команды поддержать RedShift и Delta Lake. Основная идея в том что командам по работе с данными может быть сложно работать с данными в облачных хранилищах и Rasgo должен помочь им в этих задачах. Через интерактивное построние запросов и систематизацию метаданных.

Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.

А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).

Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.

Ссылки:
[1] https://www.rasgoml.com/

#startups #data #datatools #dataengineering #datacatalogs
Для тех кто любит диаграммы и не любит рисовать их мышкой, декларативный язык программирования D2 [1] позволяет определить набором простых правил как необходимо отобразить нужные блоки диаграммы и получить нужную диаграмму автоматически.

Опубликовано с открытым кодом [2], может использоваться как утилита командной строки или как библиотека для языка Go.

Развивается стартапом Terrastruct [3] у которого есть облачный сервис генерации диаграмм. Стартап существует с 2019 года, а код D2 они выложили месяц назад. Выглядит он довольно зрелым и похож на внутреннюю разработку выложенную в открытый доступ и открытый код.

Ссылки:
[1] https://d2lang.com
[2] https://github.com/terrastruct/d2
[3] https://terrastruct.com/

#opensource #diagramming #datatools #programming
В The Verge статья [1] о том что Элон Маск собирается перезапустить механизм прямых сообщений в Twitter и дать возможность обмениваться зашифрованными сообщениями, аудио и видео и тд. И даже собираются сотрудничать с командой Signal в этой задаче. Звучит как конкурент как раз Signal, WhatsApp, Telegram (?), но от Элона Маска.

Может ли Twitter пройти такое преобразование? Почему бы и нет, тогда и логика с платностью аккаунтов и премиумом будет иметь больше пространств для расширения возможностей.

Иначе говоря, если Twitter сможет превратиться аналог в Telegram, то у Telegram՛а появится сильный конкурент. Хотя о чём я, скорее Telegram станет ещё более прямым аналогом Twitter'а ;)

Ссылки:
[1] https://www.theverge.com/2022/11/21/23472174/twitter-dms-encrypted-elon-musk-voice-video-calling

#twitter #telegram #tech #privacy
У Stable Diffusion, движка с открытым кодом для генерации изображений с помощью ИИ, вышла вторая версия [1] [2].

Среди возможностей:
- визуальное улучшение изображений в плохом разрешении
- развитая генерация изображений на основе изображений с сохранением структуры изображения
- улучшенная генерация изображений из текста
и ещё многое другое.

Если Вы ещё не пробовали Stable Diffusion, то определённо стоит попробовать.

Ссылки:
[1] https://stability.ai/blog/stable-diffusion-v2-release
[2] https://huggingface.co/stabilityai/stable-diffusion-2-base

#ai #opensource #datasets
Группа исследователей в области инфобеза выяснили что сервис аналитики компании Apple, так и называется Apple Analytics, собирает персонально идентифицирующую информацию о пользователях [1].

В передаваемых данных там есть параметр "dsId" который они проверили и подтвердили что он является "Directory Services Identifier”, уникальный идентификатор аккаунта iCloud, хотя в условиях использования Apple фигурирует что [2] None of the collected information identifies you personally.

Ждём опровержений, исков к Apple, расследований регуляторов в ЕС и США.

Ссылки:
[1] https://twitter.com/mysk_co/status/1594515229915979776
[2] https://www.apple.com/legal/privacy/data/en/device-analytics/

#privacy #security #apple #surveillance
ТикТок анонсировали API для доступа к их аналитике исследователям/учёным [1]. Сами ссылки на API и форма запроса доступа, видимо, появятся позже, а сейчас с ними работают представители их Content and Safety Advisory Councils (общественных советов по контенту).

Ссылки:
[1] https://newsroom.tiktok.com/en-us/an-update-on-our-platform-api-for-researchers

#api #tiktok #transparency #data
Забавный текст и термин уютные данные или cozy data [1] за авторством Zach Musgrave в блоге Dolthub. Идея очень проста, в том что cozy data это такой антоним big data. Это такие данные которыми ты занимаешься как хобби, вроде личной картотеки личной коллекции бабочек или результативности игроков в настольный теннис. Иначе говоря это небольшие по объёму, хорошо структурируемые и лично курируемые данные над которыми, как правило, работает один человек, реже больше.

Если не считать того что автор бесстыдно рекламирует Dolthub сама концепция весьма интересная. Cozy дата в этом смысле - это бесконечно число баз в Excel и Access созданное за десятки лет. Частично их создатели перебрались в Google Sheets и Airtable, но далеко не все.

Для тех кто живёт в мире уютных данных главным недостатком онлайн сервисов является подписочная модель оплаты. Я больше поверю в развитие продуктов вроде Strapi и Directus именно для таких пользователей.

Но, кто знает, быть может кто-то ещё сможет создать гармоничное сочетание гибридного клиент-серверного аналога Access'а когда от потери доступа к онлайн сервису доступ к своим данным потерян не будет.

Ссылки:
[1] https://www.dolthub.com/blog/2022-11-18-cozy-data/

#data #datatools
Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.

Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.

Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]

Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.

Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries

#data #opendata #census #uk #statistics