Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике полезных инструментов работы с данными, подборка инструментов для сбора и анализа данных с моими комментариями.

- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.

Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.

Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/

#data #tools #opensource #datatools
Для тех кто интересуется где взять интересных данных для отраслевых проектов напомню о проекте "Карты данных" [1] со схемами данных:
- «Данные об авиации»
- «Данные об экологии»
- «Данные в образовании»
- «Данные о госфинансах»
- «Данные в здравоохранении»
- «Данные в законотворчестве»
- «Данные о нефти и газе».

С 2018 года мы их не обновляли, часть ссылок может устареть, но большая часть всё ещё актуальны. Карты данных не помогают в обработке данных, но дают возможность структурировать поиск нужных данных.

Поэтому сейчас мы не делаем карты потому что большую ценность имеет каталогизация данных, но и уже созданное может пригодится в работе.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #datasets
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.

- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA

А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.

#datasets #opendata #un
Правительство решило расширить список [1] предустанавливаемого ПО программами для чтения книг
Инициатива которую я очень осуждаю - это всё что касается предустановки ПО.

Есть много причин почему вся она - одна большая ошибка:
1. Потребитель в минусе. Гражданина/потребителя/избирателя не спрашивают, не дают выбора из нескольких программ или отказа от их установки на этапе предустановки. Вместо этого безальтернативное одно приложение.
2. Большие становятся больше, малый и средний бизнес в пролёте. Предустановка ПО у которого от 500 тысяч инсталляций - это не про малый или средний бизнес, это про консолидацию рынка мобильных приложений и сверконсолидации в нескольких крупных игроках.
3. Правительство несёт ответственность за коммерческую слежку. А вот это особенно важный момент. Пока органы власти и Пр-во осуществляли регулирование, то они были, как бы, вне схватки. А теперь Правительство отвечает за всю слежку которую за пользователями ведут предустановленные приложения.

Ну и в который раз не могу не отметить что видно что есть лоббисты разработчиков приложений расширяющие этот список, но оказывается нет лоббистов интересов граждан. Интересы граждан не представлены, а значит это расширение списка не последнее.

Ссылки:
[1] http://government.ru/news/43958/

#mobile #privacy
Совершенно занимательная история о том что Мировой банк отказывается раскрывать результаты аудита договоров и сами тексты договоров с получателями средств [1]. Автор и ещё несколько представителей НКО запрашивали у представителей Мирового Банка сведения по контрактам заключённым в рамках мер противодействия COVID-19 и нескольких контрактов банка с его кредитополучателями.

Представители банка отказали в их предоставлении, но мировая бюрократия на то и мировая бюрократия чтобы там была процедура обжалования. И вот, например, 3 ноября банк опубликовал результаты рассмотрения жалобы (Appeal #88) [2] на получение данных о контракте в рамках финансирования по COVID-19 правительства Сьерра-Леоне. Самое интересное что в формулировках отказа присутствует упоминание о том что раскрытие содержание контракта в процессе его исполнения может нести репутационные риски для банка () и создать напряжение в отношениях между банком и получателем средств (в оригинале - Disclosing such information during a project under implementation may cause reputational risk to the Bank and strain the relationship between the Bank and the borrower).

Ко всему можно прибавить неспешность бюрократии банка.
- 2 ноября 2020 года они получают запрос на доступ к информации
- 23 февраля 2021 года банк отказывает предоставить сведения
- 29 марта 2021 года банк получает запрос на обжалование решения об отказе
- 3 ноября 2021 года банк публикует результаты рассмотрения обжалования

Там же автор упоминает и многие другие запросы, например, на сведения о контрактах на финансирование инфраструктуры обогрева в Вильнюсе (Литва) в 2002-2003 годах (Appeal #76) [3], а также проектах в Камеруне, Мозамбике, Буркина Фасо и других странах. Во всех решениях в отказе от раскрытия информации представители банка ссылаются на "prerogative" (исключительное право) в отказе от раскрытия информации в случае если представители банка считают что ущерб от раскрытия сведений перевешивает возможную пользу.

Похожая ситуация была в 2015 году когда Freedom Info запрашивали у банка сведения о контракте на выкачку воды из затопленной шахты в Сербии [4].

Вся описанная история интересна сразу с нескольких сторон:
1. Не стоит идеализировать открытость международных организаций, она работает только под постоянным давлением извне и часто значительно замедлена.
2. Можно обратить внимание на классический юридический подход к доступу информации через запросы. То что исследователи The GovLab определяли как "первую волну открытых данных" когда их можно было получить только через запросы на открытие сведений (Freedom of Information Requests).
3. Интересно что процедура обжалования непредоставления сведений и наличие специальной группы внутри банка ответственной за рассмотрение жалоб и тот факт что каждое рассмотрение практически как судебное решение, публикуется довольно подробно.
4. Важна и та часть где банк связывается с получателями средств, правительствами стран, запрашивая их разрешение на предоставление документов третьим сторонам (запрашивающим эти документы). Это, конечно, совсем не модель открытости по умолчанию, по видимому у Мирового Банка в договорах нет пункта о праве на раскрытие информации в одностороннем порядке, или не во всех договорах.

Ссылки:
[1] https://eyeonglobaltransparency.net/2021/11/12/world-bank-refuses-public-access-to-contract-reviews-and-contract-texts-too/
[2] https://thedocs.worldbank.org/en/doc/7d690d60be37ed3debef4bd51e63268b-0090012021/original/AIC-Decision-Case-AI7243-Merits.pdf
[3] https://thedocs.worldbank.org/en/doc/d16cfcc3a736d7bcd72b07fe9f2c5a3b-0090012020/original/AIC-Appeal-76-Case-AI6359-1.pdf
[4] http://www.freedominfo.org/2015/02/world-bank-rejects-request-for-serbian-project-report/

#opendata #spending #contracts #worldbank #covid19 #transparency
4 декабря я выступаю на Digital Innopolis Days с лекцией "Управление основанное на данных в государственном и частном секторе" и участвую в дискуссии "Практики предоставления государственных данных (data sharing). Потребности государства и бизнеса" [1].

Пока не знаю будет ли онлайн-трансляция, скорее всего будет и я размещу на неё ссылку. Если же Вы будете на конференции, приходите на лекцию и дискуссию.

Ссылки:
[1] https://digitalinnopolisdays.ru

#events #data
ngo_2021_11.csv
90.6 KB
8 ноября я писал [1] о том что в российском ЕГРЮЛ перестали раскрывать сведения об учредителях НКО - АНО, Фондов и других. Сейчас, 1-го декабря, мы перепроверили это и всё подтверждается. У НКО зарегистрированных в ноябре 2021 года в открытой части ЕГРЮЛ нет сведений об учредителях.

Как это проверить? В CSV файле с этой публикации перечислены все НКО с кодами ОКОПФ '70400', '70401', '70402', '70403', '70404', '71500', '71601', '71400' зарегистрированные с 1 по 31 ноября 2021 года. По ОГРН кодам этих организаций любой желающий может проверить их в любом сервисе проверки контрагентов, коммерческом или официальном на сайте egrul.nalog.ru.

Так что увы, наблюдается деградация раскрытия информации о юридических лицах в России. Даже при том что у НКО большую роль может иметь состав правления и иных управляющих органов, но отсутствие сведений об учредителях также крайне критичная ситуация.

Всё таки, видимо, без официального запроса в ФНС тут никак.

Ссылки:
[1] https://t.me/begtin/3227

#opendata #disclosure #fns
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте проекта СП РФ "Госрасходы" теперь доступен новый модуль - "Организации" (https://spending.gov.ru/orgs/) ^_^. Собрали первую версию профилей организаций, работающих со средствами из бюджета (получающих или распределяющих), на основе данных проекта: контрактов, субсидий (на конец 2020 года), расходов федерального бюджета. Пока бета-версия, будем постепенно расширять функционал.

А в октябре мы запустили модуль "Бюджет", содержащий данные о расходах федерального бюджета с 2016 года: https://spending.gov.ru/budget/
В рубрике интересных наборов данных OSCAR (Open Super-large Crawled Aggregated coRpus) Dataset 21.09 [1] многоязычный корпус текстов созданный на базе Common Crawl [2] с помощью ungoliant [3], специального приложения по потоковому извлечению текстов из дампов Common Crawl.

А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]

Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] http://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/

#web #datasets
В качестве напоминания, полезные данные и код для работы с открытыми данными:
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.

Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.

#API #data #opendata #dataset #opensource
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading
Алишер Усманов вышел из капитала VK [1] и теперь основным владельцем группы компаний является Газпром через группу СОГАЗ.

Я даже не знаю как трактовать эту новость. Сверхконцентрация медиаактивов не несёт ничего хорошего, а у Газпрома через Газпром медиа, их немало. Rutube, множество СМИ, а теперь ещё и VK. У среднего и малого бизнеса не только в России есть острые опасения что "большие становятся ещё больше", а остальным приходится как-то выживать.

Ссылки:
[1] https://www.kommersant.ru/doc/5102919

#itmarket #vk #gazprom #socialnetworks
30 ноября на площадке комиссии РСПП по медиаиндустрии и предпринимательству в информационной сфере прошло совещание по работе с данными государства для бизнеса. На сайте РСПП пресс-релиз [1], рекомендую его почитать. Позже будут доступны и другие материалы. Я также участвовал во встрече и помогал её организовать от лица АУРД (Ассоциации участников рынка данных) и чуть менее формально опишу свои впечатления.

- Представители органов власти и госинициатив про данные, в принципе, говорили про хорошее и про готовность развивать НСУД в сторону ещё больше "легализации" открытых данных и про практики взаимодействия с бизнесом. Это позитивный сигнал, безусловно.
- Анатолий Дюбанов из Минэкономразвития РФ озвучил идею того что Минэк должен выступить координатором инициатив в области открытых данных. Это можно только приветствовать и могу напомнить что, в принципе, по текущей нормативке это и так функция министерства. Если она будет усилена - так и славно.
- Андрей Никуличев из ЦЭКИ рассказал про инициативу подготовки данных для ИИ и заявительную модель создания таких данных это, в принципе, укладывается в мировой подход 3-й волны открытых данных Publish with the purpose для данных которые ещё не созданы или создание которых является дорогостоящим процессом.

Было ещё несколько разных полезных тем, подробнее посмотрите в пресс-релизе.

Я рассказывал про то как в мире регулируются практики обмена данными (data sharing), перезапускается тема открытых данных и многое другое.

Лично я считаю что тема открытых данных, безусловно, в России должна быть глубоко перезапущена и возможности для этого точно есть. Но важна не только доступность открытых данных, но и как правильно обратил внимание Юрий Хохлов и то о чём регулярно говорят многие другие эксперты включая меня - в России необходима национальная стратегия работы с данными.

А я напомню что АУРД [2] будет проводить и организовывать ещё множество мероприятий, уже скорее в следующем году. Наша ассоциация объединяет малый и средний бизнес работающий с данными. Как и все ассоциации она построена на интересах участников. Вступайте, не пожалеете;)

Ссылки:
[1] https://rspp.ru/events/news/komissiya-rspp-po-mediaindustrii-i-predprinimatelstvu-v-informatsionnoy-sfere-obsudila-voprosy-dostu-61a8cdf48b4c3/
[2] https://aurd.ru

#opendata #data #government
Написал большой текст (больше обычно) о технологиях headless BI и reverse ETL как часть Modern Data Stack в рассылку [1] и пока писал удивился что не нашёл об этих явлениях материалов на русском языке. Тема всё более актуальная и в России тоже.

На всякий случай напомню что я веду рассылку на begtin.substack.com [2] куда пишу значительно реже, но более объёмные тексты. Со временем, подумываю, преобразовать её для текстов которые я раньше писал колонками для СМИ. Я и сейчас колонки иногда пишу, но куда реже чем даже год назад, хотя тем меньше не становится. В любом случае подписывайтесь, конечно же.

Меня, в последнее время, больше интересуют темы современного стека данных (modern data stack) и активное развитие технологий в этой области. Пока я вижу очень большой разрыв, в первую очередь идеологический, между технологиями работы с данными применяемыми внутри корпораций, технологиями вокруг открытых данных и технологиями работы с данными у исследователей. Очень разные стеки, технологии и подходы, в разных экосистемах, даже несмотря на преимущественное использование открытого кода во всех случаях.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://begtin.substack.com

#opendata #datastack #data #tools
В Австралии офис уполномоченного комиссара по данным запустил два новых проекта.

Dataplace [1] - унифицированный сервис запросов данных у государства, как раз в соответствии с моделью Publish with the purpose, а то есть общественный или коммерческий интересант размещает запрос на данные и его получают и рассматривают все data custodians (хранители данных). Запросы рассматриваются на основании принципов обмена данными ранее разработанными в офисе уполномоченного [2]

Второй проект Data Inventories Pilot Program [3] сфокусирован на сборе метаданных о базах данных 20% органов власти в Австралии. По каждому набору данных собираются Core Metadata Attributes, специально сформированный перечень атрибутов для описания содержимого набора данных и его ключевых характеристик. Немного удивляет что они придумали собственную систему метаданных вместо DCAT2 [4], поскольку с DCAT/DCAT2 пересечения довольно заметные.

Ссылки:
[1] https://datacommissioner.gov.au/media-hub/dataplace-new-tool-promote-safe-and-effective-sharing-government-data
[2] https://www.datacommissioner.gov.au/data-legislation/assessing-data-requests
[3] https://datacommissioner.gov.au/media-hub/ondc-launches-pilot-project-australian-government-data-catalogue
[4] https://www.w3.org/TR/vocab-dcat-2/

#opendata #australia #datasharing #data
Forwarded from The Bell
❗️Новым главой VK с вероятностью 95% станет сын первого замглавы администрации президента Сергея Кириенко Владимир, рассказали The Bell два источника, знакомых с ходом сделки по продаже компании «Согазу».
Похоже что Tor в России заблокировали [1], а заодно и ajax.aspnetcdn.com относящийся к Microsoft Ajax Content Delivery Network, которая используется более чем в 3000+ сайтов в Рунете [2], включая веб-ресурсы аэрофлота и так далее.

Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.

Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia

#security #blocking
В университете Коста-Рики запустили проект "Todos los contratos CR" (Все договора [Коста-Рики]) по мониторингу, анализу и оценке госконтрактов страны [1]. В основе методология RED FLAGS for integrity [2] созданная в 2016 году в международном проекте Open Contracting.

Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.

У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.

Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.


Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos

#contracts #open #opendata #spending
Команда создателей Datahub [1], каталога управления метаданными от LinkedIn, в 2020 году выделились в отдельный стартап Metaphor и вот в ноябре этого года анонсировали Metaphor Platform [2].

По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.

Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.

В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.

Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch

#metadata #datacatalogs