Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store

Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.

- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.

- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию

- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных

- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.

Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c

#opendata #data #datalakes #datamanagement #datagovernance
Счётная палата США (The U.S. Government Accountability Office, GAO) опубликовали доклад DATA GOVERNANCE Agencies Made Progress in Establishing Governance, but Need to Address Key Milestones [1] посвящённый анализу практик работы с данными в органах власти США.

Доклад короткий, 59 страниц, ясно написанный, четко сформулированный, хотя и описывает для нас совершенно другую политическую, бюрократическую и организационную конструкцию управления данными, тем менее полезный для изучения.

На что стоит обратить внимание, с оглядкой на то что у нас:
1. В США координацией работы с данными в госорганах занимается совет CDO (CDO council) - это группа руководителей занимающихся _только данными_. Не цифровой трансформацией, не ИТ инфраструктурой, а именно данными. Я постепенно всё более убеждаюсь что российская конструкция с CDTO совмещающим функции "швеца, жнеца и на дуде игреца" уходит не в ту сторону. Но стоит ли транслировать опыт США как-есть тоже сомневаюсь>
2. Этот совет CDO отчитывается перед конгрессом и OMB (Office of Management and Budget, Административно бюджетное управление) в форме отчета. Кстати, необходимость ежегодного отчета для подобных органов хорошая практика. Жаль что ни один из председателей государственных комиссий и советов перед парламентом не отчитываются и годовые отчеты не составляют.

Текст также можно прочитать на сайте GAO в HTML формате и структурированных рекомендациях [2]

Ссылки:
[1] https://www.gao.gov/assets/720/711325.pdf
[2] https://www.gao.gov/products/GAO-21-152

#opendata #opengov #accounting #datagovernance
Global Data Governance - это свежий рейтинг/индекс стран по уровню/качеству управления данными [1]․ Публикуется институтом Джорджа Вашингтона, включает интерактивную карту [2] и профили отдельных стран, например, России [3].

Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.

Если кратко, то у России всего 27 баллов из 100.

По нулям в направлениях Responsible, Participatory и International.

По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.

В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.

Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.

Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia

#data #datagovernance #government #russia