Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Росводресурсы открыли прототип системы "Водные данные" [1] о чем публикация на сайте Минприроды РФ [2].

Сам ресурс содержит сведения о:
- Водохозяйственных участках
- Водных объектах
- Водопользовании
- ГМВО (Государственном мониторинге водных объектов)

Кроме того доступны API для получения данных по формам ГВР [3], а данные в форме открытых данных доступны как CSV файлы и с цифровой подписью.

Если кратко резюмировать, то по форме представления данных всё выглядит довольно прилично.

А если немного углубиться в детали, то есть на что обратить внимание:
1. Нет такого понятия как ЭЦП в российском законодательстве уже давно, есть электронная подпись (ЭП) и она точно реализуется иначе и должна быть проверяема, например, через сервис на портале госуслуг. Сейчас эта проверка не проходит.
2. Хотя на сайте есть паспорта набора данных там нет ничего про метаданные. То есть паспорта сделаны не по метод рекомендациям опубликованным на data.gov.ru которые, хотя и весьма и весьма неидеальны, но даже их не соблюдают.
3. В том числе отсутствуют метаднные по структуре полей наборов данных. Иначе говоря данные есть, документации к ним нет.
4. Документация к API есть, но почему-то, не в формате Swagger, а просто HTML описанием без примеров.
5. Наборы данных опубликованы все через ajax, как следствие ни у одного набора данных нет отдельной веб страницы, они не будут находиться поисковыми системами.

Это было про форму публикации данных, а теперь про их качество и полноту:
- не все наборы данных опубликованы, по некоторым открываются пустые файлы. Например, набор данных " Данные о состоянии гидротехнических сооружений, находящихся в собственности" в разделе ГВМО пустой (обратите внимание что я не могу дать ссылку на сам набор потому что сайт так сделан)
- данные смешаны и в одном поле публикуется то что должно быть разделено на несколько полей для удобного поиска. Например, в данных по форме ГВР 2-6 есть поле owner_person, которое совсем не про владельца физ. лица, а про сведения о любом владельце и содержат наименование организации или физ. лица, адрес местонахождения и ИНН. Все вместе, хотя в большинстве реестров эти данные разделяют на 3 поля минимум, а максимум ещё и декомпозируют адрес и добавляют ему коды ОКАТО или ОКТМО.
- в опубликованных данных есть неполное заполнение данных. Всё в тех же данных по форме ГВР 2-6 есть 46 867 записей из которых код ИНН отсутствует у 4259, около 9% записей. Что означает что для сопоставления объекта водопользования с юр лицом придется выяснять ИНН юр. лица.
- даже в тех случаях когда ИНН указан, проверка показывает что в 507 случаях код указан с ошибкой, по некоторым кодам, очевидно сразу что они вводились как неверные. Например: часто встречается указание кода 7600000000 в отношении водопользователей Ярэнерго и других юр лиц. Что это означает? Что в системе(-ах) Росводресурсов нет форматно-логического контроля и данные вводятся с ошибками. И это только по самым очевидным случаям поддающимся автоматическому анализу, а многое можно понять уже создавать правила проверки под конкреный источник данных.

В качестве резюме, хорошо что эти данные публикуются, но много над чем есть работать.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata
[2] https://www.mnr.gov.ru/press/news/rosvodresursy_otkryli_vodnye_dannye/
[3] https://gis.favr.ru/external-api

#dataquality #opendata #waterdata #voda