Ivan Begtin
8.09K subscribers
1.62K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops
Но есть и хорошие новости, Stats Bomb, консалтеры и разработчики дата продуктов по спортивным данным выложили под свободными лицензиями датасеты распознанных событий по Euro 2024 [1]. Всего 3400 события по 51 матчу.

Скачать данные можно у них на Github [2], при использовании и распространении просят упоминать их и использовать их лого.

Вообще это хороший пример пиара на полезных для аудитории/сообщества данных. Даже меня при очень небольшой аудитории моего телеграм канала регулярно просят что-то прорекламировать, не обязательно коммерческое, но сколь редко то что просят упомянуть является общественным благом.

Ссылки:
[1] https://statsbomb.com/news/statsbomb-release-free-euro-2024-data/
[2] https://github.com/statsbomb

#opendata #datasets #euro2024 #data
В рубрике как это работает у них Repozytorium Standardów Informacyjnych [1] репозиторий стандартов для информационного обмена созданный и поддерживаемый статистической службой Польши.

В каком-то смысле это уникальный проект. В первую очередь - это реестр типов данных и их описаний которые хранятся в государственных информационных системах. Это и описания физического лица, и то какие метаданные о физ лице собираются и описания организаций и геообъектов и ещё много чего.

Но не менее важно что в систему входит реестр всех информационных систем [2], а это 614 штук и схемы данных в этих информационных системах привязанные к реестру типов данных.

Самый интересный вопрос в том причём же тут статслужба? И вот эта логика как раз очень понятна. Статслуба Польши кроме базовой статистики производит ещё и очень много экспериментальной статистики, созданной на основе одной или нескольких ведомственных информационных систем. Например, это портал транспортной статистики TranStat [3]


Ссылки:
[1] https://rsi.stat.gov.pl
[2] https://rsi.stat.gov.pl/#/rsisystemy
[3] https://transtat.stat.gov.pl

#opendata #data #statistics #poland
Полезное чтение про данные, технологии и не только:
- Everyone Has A Price — And Corporations Know Yours [1] о нарастающем тренде персонализированных цен в примерах. О том что накоплений данных корпорациями приводит к тому что они рано или поздно научатся контролировать то сколько денег остаётся у тебя в карманах. Статья не за пэйволом, но требует регистрации.
- Mapping the Landscape of AI-Powered Nonprofits [2] об отношении НКО и AI, примеры некоммерческого применения и НКОшек работающих с AI, а также областях применения в некоммерческом секторе
- Digital Ethology [3] книга о человеческом поведении в геопространственном контексте. Ещё не читал, но планирую. Судя по содержанию там немало про цифровые следы в пространстве что мы оставляем.
- Diversity in Artificial Intelligence Conferences [4] статья о том что в конференциях по ИИ низкий уровень diversity (разнообразия), например, мало женщин. И низкое разнообразие по странам: все из США, Европы и Китая. Почти все. Казалось бы на эти вопросы есть очевидные ответы, но тут целая научная работа.
- The Great Scrape: The Clash Between Scraping and Privacy [5] нарастающий конфликт между теми кто "обдирает" (scrape) сайты и теми кто заботится о приватности. И ранее было спорной темой, а сейчас становится особенно актуально в контексте обучения ИИ.
- Automated warfare: irresponsible even without killer robots [6] о том как Израиль применяет ИИ для идентификации зданий объектов для атаки и "социальный скоринг" палестинцев на вероятность что они боевики Хамас. Упоминаются две системы Gospel [7] и Lavander [8]

Ссылки:
[1] https://www.levernews.com/everyone-has-a-price-and-corporations-know-yours/
[2] https://ssir.org/articles/entry/ai-powered-nonprofits-landscape
[3] https://mitpress.mit.edu/9780262548137/digital-ethology/
[4] https://publications.jrc.ec.europa.eu/repository/handle/JRC137550
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
[6] https://r.algorithmwatch.org/nl3/lm8uSbreEO9yUU55aO0flA
[7] https://www.972mag.com/mass-assassination-factory-israel-calculated-bombing-gaza/
[8] https://www.972mag.com/lavender-ai-israeli-army-gaza/

#data #readings #ai
Рейтинг открытости данных в Германии Open Data Ranking от OKF Germany [1].

На первом месте регион Schleswig-Holstein, на последнем Saxony-Anhalt, а ключевые оценки по юридической обязательности публикации данных.

Если посмотреть на рейтинг то кажется что всё не так уж хорошо, хотя, ИМХО, они игнорируют порталы геоданных которых в Германии немало, особенно на региональном и городском уровне.

В реестре Dateno сейчас 378 каталогов данных в Германии [2] из которых 211 - это геопорталы.

При этом почти наверняка в каталоге собрано далеко не всё, как минимум у каждой из земель в Германии есть собственный статистический офис и много муниципальных порталов данных.

Поэтому этот рейтинг скорее про качество госполитики чем про доступность данных, хотя авторы и пытаются это смешать и добавили туда оценку по доступности документов парламентов. Что, несомненно, важно, хотя и методически странно. Тогда надо бы разделять на меньшее число крупных блоков: законодательство, технологии, прозрачности власти.

В любом случае рейтинг полезен и любопытен.

Ссылки:
[1] https://opendataranking.de
[2] https://dateno.io/registry/country/DE

#opendata #data #germany #ratings
Зима близко, "зима данных" статья
Are we entering a Data Winter? On the urgent need to preserve data access for the public interest [1] от Stefaan Verhulst
и исследование Consent in Crisis: The Rapid Decline of the AI Data Commons [2] от учёных из MIT.

И там, и там на тему того что данные которые используются для обучения ИИ стремительно исчезают из открытого доступа.

В том числе
5% всех данных и 25% данных высокого качества для обучения ИИ (C4, RefinedWeb, Dolma) теперь ограничены в доступе
45% данных в наборе C4 ограничены условиями сервиса
Многие контентные сайты теперь устанавливают пэйволы или меняют условия использования.
Массово блокируются краулеры от таких компаний как OpenAI, Anthropic, и Google.
Ряд компаний начинают требовать плату за доступ к данным (напр. Reddit, Inc., StackOverflow).
Активно предпринимаются юридические действия такие как иск The New York Times’ против OpenAI и Microsoft.

Список можно продолжать, фрагментация Интернета может стремительно нарастать уже в ближайшие месяцы. Как минимум многие владельцы крупных сайтов могут пойти на дальнейшее исключение их из поисковых систем, только чтобы их контент не был бы заменён ИИ который вообще трафика на их сайты не принесёт.

Отдельная история в этом всём в том что будет с открытостью данных. Пока ещё базовая концепция открытости не меняется, данные созданные на общественные средства должны быть общедоступны. Но соблазн у многих правительств по ограничению "чужих" ИИ к доступу к чувствительным данным может только нарастать.

Ссылки:
[1] https://policylabs.frontiersin.org/content/commentary-are-we-entering-a-data-winter
[2] https://www.dataprovenance.org/consent-in-crisis-paper

#opendata #data #ai #readings
Полезное чтение про данные, технологии и не только:
- A Quick Introduction to JavaScript Stored Programs in MySQL [1] в блоге Oracle MySQL о том чтобы использовать программы на Javascript внутри СУБД. Признаться честно я к этой практике отношусь с глубоким осуждением, особенно в части аргументации что миллионы разработчиков используют Javascript так давайте запихнём его ещё куда-нибудь. Тем не менее тоже тренд и тоже понятный, хотя и запоздавший лет на 10-15.
- ColPali: Efficient Document Retrieval with Vision Language Models [2] про распознавание текстов и Vision LLMs. Вот это перспективная тема которая может подвинуть текущих лидеров OCR.
- A Crash Course on Relational Database Design [3] хорошая инфографика для совсем начинающих работающих с базами данных. Как и вся наглядная инфографика от ByteByteGo
- Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models [4] проект STORM родом из Stanford который позволяет писать длинные вики статьи с помощью LLM на произвольные неизвестные темы. Выглядит как инструмент который может, как сильно дополнить Википедию, так и создать реального её конкурента с нуля, так и ещё много для чего. Когда уже сделают LLM для быстрой генерации корпоративной документации на ИТ продукты или доков для open source?

Ссылки:
[1] https://blogs.oracle.com/mysql/post/a-quick-introduction-to-javascript-stored-programs-in-mysql
[2] https://huggingface.co/blog/manu/colpali
[3] https://blog.bytebytego.com/p/a-crash-course-on-relational-database
[4] https://storm-project.stanford.edu/research/storm/

#ai #readings #sql #databases #ocr #data
В рубрике как это устроено у них раскрытие данных Европейского центрального банка (ECB) на ECB Data portal [1]. Главная особенность именно портала данных ECB в том что они публикуются, одновременно, для аналитиков не умеющих работать с техническими инструментами, тех кто умеет работать с API и тех кто оперирует большими данными.

Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.

Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]

В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.

Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.

А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.


Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview

#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
В рубрике как это устроено у них данные кадастра Франции доступны как открытые данные для массовой выгрузки (bulk download) [1] их можно скачать в форматах EDIGEO, DXF или TIFF и использовать в собственных приложениях. Особенность в том что доступны они не через API, а в виде сжатых файлов которые можно скачать одномоментно. Общий объём данных несколько десятков, может быть даже сотен гигабайт в сжатом виде. А также доступны регулярные полные слепки кадастра начиная с февраля 2017 года.

Ссылки:
[1] https://cadastre.data.gouv.fr/
[2] https://cadastre.data.gouv.fr/data/dgfip-pci-vecteur/2024-07-01/edigeo/feuilles/

#opendata #france #datasets #data #cadastre #land
Полезное чтение про данные технологии и не только:
- Querying 1TB on a laptop with Python dataframes [1] статья от разработчиков обёртки для систем управления запросами к базам данных Ibis про обработку 1TB данных в виде адаптированного бенчмарка TPC-H на ноутбуке с помощью разных движков для датафреймов. Надо правда оговорится что ноутбук там не абы какой а MacBook Pro с 96GB RAM, но это не отменяет того факта что RAM в 10 раз меньше чем обрабатываемых данных. Главный вывод - duckdb выше всяких похвал, единственный движок который отработал все запросы до конца.
- Whenever [2] свежая библиотека для работы с датами и временем в Python, изначально написана на Rust. Помимо того что очень быстро работает и это очень актуально при обработке больших объёмов данных, она ещё и всегда учитывает переход на летнее время.
- datawizard: Easy Data Wrangling and Statistical Transformations [3] пакет для R для манипуляции данными. Казалось бы вопрос, кто сейчас пользуется R для таких задач? Но точно пользуются и для тех кто это делает такой пакет может оказаться очень полезным.
- Confronting Impossible Futures [4] полезное чтение о том что развитие, в том числе любой сценарий развития ИИ, необходимо учитывать в корпоративных стратегиях. Несмотря на то что всё ещё идёт продолжающийся взлёт хайпа вокруг этой темы, будет ещё много событий которые могут создать новые бизнес модели, сломать имеющиеся и тд.
- Applied forecasting [5] открытый курс по прикладному прогнозированию. Видео, слайды, примеры на R, выглядит достаточно просто чтобы садиться за изучение и достаточно сложно чтобы курс был интересным.
- Questionable practices in machine learning [6] а теперь дети запомните слова которые нельзя говорить (с) статья про спорные практики в машинном обучении. Большая их часть возникает от того что где-то не подумали, где-то ошиблись, где-то нехватает практического/теоретического знания у ML разработчиков, но есть и те которые нельзя сотворить случайно. Статья полезная, больше про технологии чем про этику и про автоматизацию контроля качества ML моделей.
- The biggest-ever global outage: lessons for software engineers [7] подробный разбор ситуации с недоступностью миллионов компьютеров на базе Windows из-за антивируса CrowdStrike и того какие выводы из неё можно извлечь. Многое не только про эту историю с CrowdStrike, но и предыдущие проблемы с их антивирусом и другие примеры больших сбоев других софтверных вендоров.
- TabularFM: An Open Framework For Tabular Foundational Models [8] открытый код, научная статья и модели на HuggingFace по извлечению смысла из табличных данных. Это, конечно, упрощённое описание того что такое Tabular Foundation Model, но можно сказать что это применение нейросетей к табличным данным.

Ссылки:
[1] https://ibis-project.org/posts/1tbc/
[2] https://github.com/ariebovenberg/whenever
[3] https://easystats.github.io/datawizard/index.html
[4] https://www.oneusefulthing.org/p/confronting-impossible-futures
[5] https://af.numbat.space/
[6] https://arxiv.org/abs/2407.12220
[7] https://newsletter.pragmaticengineer.com/p/the-biggest-ever-global-outage-lessons
[8] https://www.semanticscholar.org/paper/TabularFM%3A-An-Open-Framework-For-Tabular-Models-Tran-Hoang/977fec09a458fe326e5059774e3f05ab695acf2a

#readings #ai #data #opensource