Ivan Begtin
8.09K subscribers
1.51K photos
3 videos
100 files
4.27K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Хорошая новость ко дню открытых данных, группа Open Data Institute в Австралии выпустили версию 1.0 продукта Data Curator [1], это инструмент с открытым кодом для контроля качества данных. Создавался он с оглядкой на другой инструмент с открытым кодом Comma Chameleon [2] помогающий работать с csv файлами.

У Data Curator есть важная особенность - это поддержка стандарта Data Packages [3] из проекта Frictionless Data.
Data Packages - это способ описания данных в виде плоских таблиц в CSV с качественным описанием метаданных.

Data Curator не единственный продукт позволяющий работать над качеством данных. Я напомню про Open Refine о котором даже есть статья в Википедии [4] и созданный на базе проекта Google Refine. Этот продукт довольно активно используется всеми командами работающими с открытыми данными и в России тоже

Есть немало коммерческих продуктов по очистке данных используемые в России сильно реже.
Например:
- Trifacta https://www.trifacta.com/
- ClearStory https://www.clearstorydata.com/product/data-prep/
- DataIku https://www.dataiku.com/

Среди них самый интересный по заходу - DataIku. Они продают себя как инструмент для корпоративного искусственного интеллекта (enterprise AI), а платформа изначально заточена по machine learning.

Все эти инструменты очень полезны, но нет ни одного совсем универсального. Дело в том что инструменты умеющие делать базовую проверку качества - например структуру полей описания набора данных, идентификацию типов и так далее, обычно не умеют делают валидацию справочников с отраслевой спецификой. Например, валидация кодов ИНН или ОКАТО организаций, декомпозиции и валидации адреса, геокоординат и так далее. Всё это требует специализированных инструментов или же целевого программирования под эти задачи.

Вчера на дне открытых данных была секция о качестве данных где много говорили про разные, но в основном, не инструментальные, аспекты качества.

Ссылки:
[1] https://github.com/ODIQueensland/data-curator
[2] https://comma-chameleon.io/
[3] http://frictionlessdata.io/data-packages/
[4] https://en.wikipedia.org/wiki/OpenRefine

#opendata #dataclean #dataquality