Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Open Budgets India [1] общественный проект в Индии собирающий данные по бюджетам со всех штатов в Индии и от федерального пр-ва. Существует в формате визуализаций и портала открытых данных.

Это ныне какая-то устойчивая форма проектов на открытых данных когда создатели одновременно делают продукт для массовых потребителей и не забывают выложить все данные для аналитиков/программистов.

Ссылки:
[1] https://openbudgetsindia.org/

#opendata #opengov #openbudgets #budgets #india
В Индии Development Data Lab выложили набор данных о 81.2 миллионе судебных дел из которых 10 миллионов дел идентифицированы как уголовные дела [1]

Данные собраны из e-Court platform [2] и использовались в исследовании предубеждения судов на гендерной и религиозной основе [3].

До этого они делали очень крутой проект SHRUG [4] сбора и визуализации гиперлокальных социоэкономических данных Индии. Это данные о 500,000 деревнях, 8000 городах, и 4000 законодательных собраниях.

А сами данные включают данные о: компаниях, населении, потреблении, выборах, политиках, образовании, энергетике, кастах, дорогах, ночном освещении, покрытии лесом и секторах. Всё это представлено в виде базы данных и наглядного атласа [5].

Если проект по судебным делам в России возможен и даже будет сопоставим, то можно долго писать почему невозможно сделать аналог SHRUG'а, и главная причина будет в полнейшем отсутствии данных переписи/переписей в гиперлокальном виде и отсутствие актуализированной карты с гиперлокальной разметкой муниципалитетов.

Да и данных о качестве жизни маловато, а если она и есть то негармонизируема на всю страну.

Ссылки:
[1] http://www.devdatalab.org/judicial-data
[2] https://districts.ecourts.gov.in
[3] https://shrug-assets-ddl.s3.amazonaws.com/static/main/assets/other/India_Courts_In_Group_Bias.pdf
[4] http://www.devdatalab.org/shrug
[5] http://www.devdatalab.org/atlas

#opendata #opengov #data #india
В рубрике как это устроено у них портал раскрытия данных о переписях в Индии Census Digital Library [1] создан на базе открытого ПО NADA для публикации микроданных, я писал о нём совсем недавно [2].

Этот портал включает более 29 тысяч наборов данных и охватывает данные переписей начиная с 1901 года. Это больше чем на российском госпортале открытых данных о его закрытия.
А это лишь один из порталов публикации открытых данных в Индии.
Например, на портале data.gov.in опубликовано более 600 тысяч ресурсов, большая часть в форме машиночитаемых данных под свободными лицензиями.

А портал раскрытия данных переписей интересен крайне подробными метаданными по каждому набору данных и существенной гранулярностью, данные переписи там представлены с детализацией до округов (districts) и на их основе можно анализировать и визуализировать данные на довольно детальном уровне.

Такой способ публикации данных тоже не идеален, ведь большая часть файлов на портале в Excel формате, там не менее масштаб раскрытия данных и их использование весьма значительны.

Ссылки:
[1] https://censusindia.gov.in/nada/index.php
[2] https://t.me/begtin/4710

#opendata #datasets #india
В рубрике интересных каталогов данных портал India Urban Data Exchange [1] содержащий 189 наборов данных из 47 индийских городов. Большая часть датасетов - это API с данными реального времени, например, отслеживания передвижения автомобилей скорой помощи, автобусов и многое другое.

Ни один датасет из этого каталога не является открытым и даже не совсем правильно называть их датасетами, поскольку основной режим доступа к данным через API. Само API реализовано на базе стандарта NGSI-LD API.

По сути этот каталог скорее аналог продуктов по созданию порталов для разработчиков вокруг корпоративных API. Ключевые отличия в доступности данных в реальном времени, растущее число поставщиков данных и многое другое.

Ссылки:
[1] https://catalogue.cos.iudx.org.in

#opendata #india #datacatalogs #data
Одна из стран по которой пока в Dateno мало датасетов, всего 58 тысяч, это Индия. 58 тысяч датасетов на страну в более чем 1 млрд человек это очень мало хотя объективно причины и понятны.

В Dateno сейчас 46 каталогов данных связанных с Индией [1], они сейчас обновляются и не все доступны и не все включены.

Итак что с открытыми данными в Индии:
1. В Индии сильная централизация данных на национальном портале data.gov.in Это самописный продукт где заявляется 500+ тысяч дата ресурсов. У его создателей свое восприятие мира и по факту, эти 500+ тысяч ресурсов - это файлы, а то что принято в мире называть датасетами они называют каталогами. Их всего 12.6+ тысяч. Примерно по 40 файлов на один каталог. Поэтому, с одной стороны индийский портал данных кажется огромным, а с другой, совсем нет. Это всего +12.6 тысяч наборов данных для поискового индекса. А это уже не так много и не так масштабно. Что ещё показательно на нац портале не указываются объёмы хранимых данных, а это один из верных признаков что физического объёма там немного. В любом случае стандартизированного API там нет, надо делать парсер их API/веб страниц

2. Индия страна большая, но сравнительно небогатая. Не у всех регионов есть свои информационные системы, геопорталы и тд. Они постепенно появляются, но в общем то есть не у каждого штата.

3. Официальная статистика тоже не отдаётся стандартизированными интерфейсами, а отдельный портал открытых данных [2] и ещё несколько публичных ресурсов о которых я ранее писал.

В принципе же Индию я лично отношу пока к категории стран со своей большей спецификой в работе с данными. Сейчас это: Китай, Россия, Индия.

У меня пока ключевой вопрос в том как измерять качество покрытия поиска Dateno по странам. В пропорции к населению, к ВВП, индексу развития цифровой инфраструктуры (ООН), индексу демократизации или ещё чему-то? Или всем сразу?

При этом понятно что это, одновременно, оценка, и качество наполнения реестра и поискового индекса Dateno, и развитости культуры работы с данными в стране.

Можно свой индекс "забабахать" World data discovery index;)

Ссылки:
[1] https://dateno.io/registry/country/IN
[2] https://esankhyiki.mospi.gov.in

#opendata #india #datasets #datacatalogs
В рубрике как это устроено у них Indian Data Portal [1] портал открытых данных созданный Bharti Institute of Public Policy, индийским исследовательским центром в области публичной политики.

Интересен тем что работает на собственном движке поверх каталога открытых данных CKAN. Сами данные хранятся в связанном с ним каталогом данных [2], а основной веб сайт использует API каталога данных для создания дополнительных фильтров при поиске данных, таких как гранулярность, сектор экономики, источник данных, частота обновления.

Данные исследователям доступны после авторизации и, в принципе, именно они являются аудиторией этого портала.

Это пример, использования CKAN как Data Management System (DMS), многие порталы данных в мире создавались по той же модели, когда CKAN используется как хранилище метаданных и данных, а над ним строятся разные интерфейсы.

Ссылки:
[1] https://indiadataportal.com/
[2] https://ckan.indiadataportal.com/

#opendata #datacatalogs #datasets #india
Полезное чтение про данные, технологии и не только:
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость


Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/

#data #opendata #ai #india #china #healthcare #openaccess #datapolicy