Ivan Begtin
7.99K subscribers
1.78K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Подборка ссылок про данные, технологии и не только:
- The Open Data Editor is now ready for the pilot phase [1] обновлённый редактор для подготовки датасетов готов для тестирования, полезный инструмент для всех кто публикует данные с помощью CKAN
- To Be Born in a Bag [2] о исследованиях в разработки искусственной матки и возможностью создавать живых существ искусственным образом. Напоминает воплощение научной фантастики из серии книг Лоис Буджолд. А заодно и там же про создание мамонтов искусственным образом
- DuckDB foundation [3] один из успехов DuckDB в том что это фонд успешно взаимодействующий с несколькими компаниями контрибьюторами. Полезное чтение про успешную модель существования открытого кода.
- The Disappearance of an Internet Domain [4] Великобритания отказывается от суверенитета над островами Чагос и передаёт их Маврикию. Что такое острова Чагос? Это доменная зона .io. Автор рассуждает о его судьбе.
- The Prosopography of Anglo-Saxon England (PASE) [5] онлайн база данных всех британцев как-либо упомянутых в литературных источниках с 6 по 11 века нашей эры. Почти 20 тысяч персон
- Bots, so many Bots [6] боты составляют более 60% из 1 миллиона пользователей ProductHunt. А если говорить о других социальных площадках, то и там ботов всё больше. В какой-то момент должен будет возникнуть перелом когда такие площадки станут бесполезными.
- DatAasee - A Metadata-Lake for Libraries [7] научная статья и открытый код [8] каталога метаданных и озера данных для библиотек.

Ссылки:
[1] https://blog.okfn.org/2024/10/02/the-open-data-editor-is-now-ready-for-the-pilot-phase/
[2] https://press.asimov.com/articles/artificial-wombs
[3] https://davidsj.substack.com/p/foundation
[4] https://every.to/p/the-disappearance-of-an-internet-domain
[5] https://pase.ac.uk/pase/
[6] https://wakatime.com/blog/67-bots-so-many-bots
[7] https://www.semanticscholar.org/reader/7166be7af2fd4bc9cf73d19f076180d9ca83b029
[8] https://github.com/ulbmuenster/dataasee

#opendata #data #tech #dataengineering
Полезное чтение про данные, технологии и не только:
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость


Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/

#data #opendata #ai #india #china #healthcare #openaccess #datapolicy
Еврокомиссия 24 сентября запустила Public Procurement Data Space (PPDS) [1] инициативу по интеграции данных о государственных закупках в странах Евросоюза. Инициатива эта является продолжением и развитием Европейской стратегии данных (European strategy for data) [2] от 2020 года где тематика доступности данных о закупках была явно обозначена.

Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset

Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.

Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards

#opendata #europe #procurement #data #datasets
В рубрике как это устроено у них текст How to build a National Data Library [1] в блоге Open Data Institute о создании Национальной библиотеки данных в Великобритании.

Национальная библиотека данных - это инициатива по созданию и предоставлению особо ценных данных исследователям и стартапам и с акцентом на их применение в задачах создания и развития AI. Open Data Institute ещё месяц назад публиковали первоначальное видение этой инициативы [2].

Кроме того National Data Library упомянута в манифесте Лейбористов [3], нынешней правящей партии как часть их экономической программы.

Сама инициатива более напоминает современную реализацию исследовательского портала данных для ИИ, по модели аналогичного корейского проекта и похожих проектов в ряде других стран. А упоминание библиотеки это, на самом деле, отсылка к Британской библиотеке, так сказать "British Library for Data".

Проект всё ещё на стадии проектирования и есть разные варианты его реализации, но можно обратить внимание на приоритеты в его создании в виде научного и экономического эффекта. Иначе говоря такой проект может содержать немного открытых данных, но создаваться с прицелом на академическую аудиторию.

В Великобритании есть как минимум две похожие инициативы. Первая - это UK Biobank с данными по здравоохранению и вторая UK Data Archive с данными по экономике и социальным наукам.

Ссылки:
[1] https://theodi.org/news-and-events/blog/how-to-build-a-national-data-library/
[2] https://theodi.org/news-and-events/consultation-responses/the-odis-input-to-the-ai-action-plan-an-ai-ready-national-data-library/
[3] https://labour.org.uk/change/kickstart-economic-growth/

#opendata #data #uk #datapolicy #datastrategy
В рубрике интересных больших наборов данных
Open Buildings 2.5D Temporal Dataset [1] от команды Google Research. Отражает изменения в наличии зданий, их высоте и другим показателям по странам Африки, Южной Азии, Юго-Восточной Азии, Латинской Америки и Карибов за 2016-2023 годы.

О нём же подробнее в блоге Google Research [2].
А также можно увидеть его сразу на карте [3]

Применений видится множество, в первую очередь - это прослеживание урбанизации/деурбанизации, мониторинг корреляции изменений с глобальными событиями (землетрясениями, пандемиями, засухами, миграцией, войнами и тд.)

Ссылки:
[1] https://sites.research.google/gr/open-buildings/temporal/
[2] https://research.google/blog/open-buildings-25d-temporal-dataset-tracks-building-changes-across-the-global-south/
[3] https://mmeka-ee.projects.earthengine.app/view/open-buildings-temporal-dataset

#opendata #datasets #spatialdata #geodata #google #googleearth
Вот прям очень интересное исследование от Сбериндекса со многих точек зрения, но главное - это взгляд на проблемы работы с муниципальными данными
#analytics #opendata
Для тех кто давно не слышал новостей про наш стартап-проект Dateno.io, поисковой системы по данным, вот самая свежая новость - мы создали личный кабинет и доступ к поисковому индексу через API. Поисковый индекс тоже растёт и составляет уже 19 миллионов наборов данных и это не предел, цель была до конца года достичь хотя бы 20 миллионов, но реально будет больше, скорее всего.

В любом случае API Dateno можно уже пользоваться, интегрировать с собственными разработками, строить поисковики, например, по странам и ещё многое другое.

Пишите про ваши кейсы использования, какие возникнут вопросы и идеи, будем придавать им приоритет.

#opendata #datasearch #data #dateno
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml
В рубрике полезного чтения про данные, технологии и не только:
- G7 Toolkit for Artificial Intelligence in the Public Sector [1] руководство от стран G7 по созданию и эксплуатации доверительного ИИ в госсекторе. Иначе говоря рекомендации госслужащим по работе с ИИ.
- Data’s Role in Unlocking Scientific Potential [2] обзор инициатив и набор рекомендаций о том как доступность данных для учёных меняет науку в США. Если коротко, то больше открытости - больше науки.
- The Age of AI Nationalism and Its Effects [3] о стремительном развитии ИИ национализма
- Interesting startup idea: benchmarking cloud platform pricing [4] любопытная идея для стартапа, сравнение расценок облачных платформ. Не знаю насчёт стартапа, но проблема есть, без сомнения.

Ссылки:
[1] https://www.oecd.org/en/publications/g7-toolkit-for-artificial-intelligence-in-the-public-sector_421c1244-en.html
[2] https://www.scsp.ai/wp-content/uploads/2024/10/Datas-Role-in-Unlocking-Scientific-Potential-Paper.pdf
[3] https://www.cigionline.org/publications/the-age-of-ai-nationalism-and-its-effects/
[4] https://blog.pragmaticengineer.com/spare-cores/

#opendata #ai #ideas #readings
Я в ближайшие дни больше расскажу про большое обновление в Dateno.io которое мы недавно произвели, а там, в первую очередь, большое обновление индекса на 4 миллиона датасетов и личный кабинет с API [1].

А пока немного о том что есть в Dateno и нет в большинстве поисковиков по данным. Это то что Dateno теперь крупнейший поисковик по статистическим индикаторам по всему миру. Сейчас в базе данных более чем 6.7 миллионов индикаторов, в привязке к источникам данных, странам, темам и многому другому.

Основные источники статистики - это статистические порталы ряда стран и глобальные каталоги индикаторов от Всемирного Банка, Банка международных расчётов и ряда структур ООН.

Этих источников, на самом деле, значительно больше и до конца года мы их добавим. Есть ещё пара десятков глобальных и около сотни национальных порталов со статистикой.

Но, далеко не со всеми из них работать просто, и вот почему:
1. Далеко не все порталы статистики создаются на типовом ПО, основное типовое ПО для статистики это PxWeb и .Stat Suite. Сайты на базе PxWeb уже индексируется в Dateno, а на .Stat Suite будут в скором будущем. Но таковых не так много
2. Даже если порталы сделаны на одном из типовых ПО, не всегда они пригодны используют актуальные версии ПО. Например, статбанк Армении [2] работает на ПО PxWeb старой версии и чтобы его проиндексировать надо писать специальный парсер, потому что стандартное API не работает.
3. Далеко не все, даже лучшие международные примеры порталов статистики, предоставляют её в стандартизированных форматах и с возможностью дать ссылку на конкретный индикатор. Есть прекрасные примеры, вроде портала Банка международных расчётов [3], но и плохих примеров много, вроде портала статистики ООН [4]

Тем не менее и текущие 6.7 миллионов индикаторов - это много. Это возможность поиска страновой статистики удобным образом. К примеру, для поиска статистики по тем странам где нет порталов открытых данных или удобных сайтов статслужб.

В это обновление не попали данные Евростата и ЕЦБ, ещё нескольких структур ООН и не только, но они попадут в следующие и тогда число индикаторов достигнет 10-12 миллионов, а может быть и больше;)

А пока, если Вы ищете статистику, то Dateno - это хорошее место чтобы начать её искать.

Далее, я расскажу про то как работать с API Dateno в примерах и поиске датасетов по нестандартным темам, таким как криптовалюта, извлечение данных из документов и превращение банков документов в порталы данных и не только.

Ссылки:
[1] https://api.dateno.io
[2] https://statbank.armstat.am
[3] https://data.bis.org
[4] https://data.un.org

#opendata #dateno #statistics #datasets