Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересные наборы данных.

Политический журналист Derek Willis в течение нескольких лет заходил на сайты всех кандидатов в конгрессмены и партийных комитетов связанных с выборами и заполнял формы подписки на письма на специально созданный для этого email адрес. В итоге у него накопилась база в 100 000+ писем общим объёмом более 673 мегабайт. Об этом он пишет у себя в блоге [1] и выложил всю базу в открытый доступ [2] предварительно забрав её с помощью Google Takeout.

Забавный эксперимент который можно повторить и в наших реалиях, например, подписавшись на рассылки российских "инфоромалов" или разного рода религиозных групп или тех же кандидатов в депутаты/кого-там-ещё-выбирают и так далее.

Ссылки:
[1] https://createsend.com/t/t-97F63A7D578A8F0B2540EF23F30FEDED
[2] https://political-emails.herokuapp.com/emails

#opendata #datasets #email #politicaljournalism #datajournalism
Закрывается QRI [1], а на qri.cloud более нельзя размещать свои датасеты. QRI - это один из стартапов, публичный каталог данных, за которым я давно слежу. Проект существовал с 2016 года и удивительно что его создатели так и не привлекли инвестиций [2]. QRI позволяли подготовить данные для публикации с помощью довольно удобного инструмента QRI Desktop [3] или утилиту командной строки [4].

Например, если сравнивать QRI с Dolthub, Splitgraph и с Data.world, другими общедоступными каталогами данных, то им удалось привлечь финансирование и они продолжают развиваться.
А автор QRI делает два пессимистичных вывода что:
а) Данные - это не код (этот тезис понятный, но дискуссионный).
б) Сложно конкурировать с Web2 компаниями на стеке Web3 (этот тезис я не до конца понимаю)

В QRI было опубликовано 3,447 датасетов общим объёмом 49.2 гигабайта. Что, скажем честно, немного. К примеру в Splitgraph агрегирует 26 тысяч датасетов [5], в основном с порталов открытых данных США и Великобритании.

В DataCrafter'е у нас 3,4 терабайта данных [6] и 5972 набора данных, что, на самом деле, искусственное ограничение текущей архитектуры. В отличие от других каталогов данных DataCrafter базируется на NoSQL движке MongoDB, я рассказывал об этом на Smart Data Conf в презентации [7] и это даёт одновременно большие плюсы потому что данные не только плоские, а в DataCrafter'е больше половины данных это сложные структуры данных, не табличные. А с другой стороны это же и создает недостатки поскольку:
а) Стоимость хранения данных выше
б) У MongoDB есть ограничения числа коллекций на один экземпляр СУБД.

В остальном DataCrafter похож на Splitgraph. Нет данных от пользователей, только агрегируемые извне, ре-структурируемые и отдаваемые через API.

Возвращаясь к QRI я, по прежнему, удивлён что авторы закрывают его, а не перезапускают. Каталоги данных и технологии работы с ними сейчас на взлёте. Вообще на рынке работы с данными я вижу два восходящих тренда:
1) Технологии и продукты интегрированные в Modern Data Stack. Не "одна платформа/один продукт для всего", а именно что создание +1 компонента из которого дата инженеры собирают стек данных компании.
2) Альтернативные источники данных - в этом случае это data as a product, когда компания собирает какие-либо уникальные данные необходимые рынку. Более всего alternative data развито сейчас в финансовой сфере, особенно в сфере. Самый известный продукт в этой области - Quandl, купленный Nasdaq и превращённый в Nasdaq Data Link [8]

Ссылки:
[1] https://qri.io/winding_down
[2] https://www.crunchbase.com/organization/qri
[3] https://github.com/qri-io/desktop
[4] https://github.com/qri-io/qri
[5] https://www.splitgraph.com/explore
[6] https://data.apicrafter.ru/about
[7] https://www.beautiful.ai/player/-MtnRreZQZbCZH_PbKLf
[8] https://data.nasdaq.com/

#data #datacatalogs #qri #dataproducts
Киберспортсмен должен быть быстрым, выносливым и скоординированным.

Минспорта выпустили приказ от 01.12.2021 № 938 "Об утверждении федерального стандарта спортивной подготовки по виду спорта "компьютерный спорт"
(Зарегистрирован 11.01.2022 № 66814) [1] об этом уже написал tjournal.ru и другие издания.

Честно говоря даже не знаю как это прокомментировать.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202201130010?index=15&rangeSize=1

#humour #minsport #cybersport
Хочется едко пошутить, что если в России начнут отключать интернет, то майнеры не пострадают, потому что майнинг запретили раньше. А если по существу, то много что у нас запрещено, это не делает это "много что" менее популярным. Перевод криптовалюты из "серой" зоны в "чёрную" ничего хорошего не несет. Как майнили так и будут майнить, как использовали так и будут использовать. Появятся более хитрые обменники которые позволят пополнять криптокошельки.
‼️ Центробанк предложил полностью запретить оборот и майнинг криптовалют в России.

Банк России предлагает ввести запрет на выпуск, обращение и обмен криптовалют, а также на организацию этих операций на территории России. Соответствующие предложения содержатся в докладе регулятора для общественных консультаций.

ЦБ выделяет множество рисков криптовалюты: ослабление рубля, проблемы с устойчивостью банков, возможность полной потери вложений криптоинвесторов, утрата суверенитета национальной валюты, поддержка преступников.

Чтобы этого не допустить, регулятор хочет ввести ответственность за платежи криптой, фактически запретить работу всех криптопроектов в России, запретить финансовым организациям вкладываться в криптовалюты и связанные с ними финансовые инструменты. Подробнее об опасениях и мерах из доклада ЦБ - в материале РБК.
Я таки написал большой лонгрид о том Почему невозможно хвалить Росстат [1] про то как Росстат публикует открытые данные, работает с данными и не только. Несмотря на формат лонгрида, я почти 100% охватил не все стороны работы Росстата, правда, подозреваю что те аспекты которые я упустил, картины не исправят. Но если Вы что-то знаете за границами описанного - пишите в личку или в чате @begtinchat
...
Среди многих российских органов власти Росстат (Федеральная служба государственной статистики) стоит особняком. Его основными задачами всегда было не оказание гражданам госуслуг и, в принципе, взаимодействие с гражданами, а производство данных собранных от граждан, бизнеса, всех сторон общества.

Функции статистических ведомств во всех странах, в этом смысле, похожи. Они проводят переписи, осуществляют опросы, собирают данные из альтернативных источников и по результатам публикуют статистические продукты в разных формах: данные, документы, аналитика, инфографика, результаты исследований и многое другое.

Поскольку статистические данные часто отражают состояние экономики в целом или отдельных её направлений, то и публикуемые Росстатом данные достаточно быстро распространяются СМИ, используются экономическими акторами для принятия решений и действий.

При этом в Росстате происходят изменения, создается Цифровая аналитическая платформа (ГИС ЦАП).
Я же хочу написать о том почему хвалить Росстат не то чтобы даже рано, а просто невозможно
...

Ссылки:
[1] https://begtin.substack.com/p/22

#opendata #data #datastrategy #rosstat
Евросоюз планирует создать собственную DNS инфраструктуру в блекджеком и лунным модулем с мощными функциями фильтрации. Об этом пишет The Record [1] со ссылкой на DNS4EU Infrastructure project [2], проекте информация о котором появилась на прошлой неделе.

В описании проекта, пункт 12:

12. Lawful filtering: Filtering of URLs leading to illegal content based on legal requirements applicable in the EU or in national jurisdictions (e.g. based on court orders), in full compliance with EU rules.

The proposal for the service infrastructure shall ensure a forward looking approach regarding technological innovation:


У Евросоюза, конечно, неповоротливая медленная бюрократия и немало гражданских организаций которые могут выступить против этой инициативы, но тенденция на лицо - расширение ограничений по доступу к интернет ресурсам не только в России, но и в таких межстрановых образованиях как Европейский союз.

Ссылки:
[1] https://therecord.media/eu-wants-to-build-its-own-dns-infrastructure-with-built-in-filtering-capabilities/
[2] https://ec.europa.eu/info/funding-tenders/opportunities/portal/screen/opportunities/topic-details/cef-dig-2021-cloud-dns-works

#privacy #internet #internetfiltering
По поводу моей последней публикации про DNS4EU Евросоюза [1], Михаил Климарев (@zatelecom) прокомментировал у себя в телеграм канале [2] о том что Да, это будет цензура. Если вы денег заплатите.

Но нет, не только если вы денег заплатите. Я ещё раз обращаю на пункт 12. Lawful filtering это не про добровольность и не про родительский контроль, это про фильтрацию в соответствии с регулированием в странах Евросоюза, решениями судов и не только. Он явно указан в этой инициативе и маловероятно что не будет применяться.

Другой вопрос что ограничения на использование альтернативных DNS серверов и сервисов в Евросоюзе не вводятся, во всяком случае пока. Обязательности использования этих серверов также нет. Во всяком случае на сегодняшний день.

Ссылки:
[1] https://t.me/begtin/3447
[2] https://t.me/zatelecom/20261

#privacy #eu #internet #internetfiltering
Свежий доклад омбудсмена Нового Южного Уэльса (территория Австралии) посвящённый machine technologies [1] машинным технологиям. Это то что в другой литературе называют искусственным интеллектом (arificial intelligence) и системами автоматических решений (automated decision-making).

Доклад весьма подробный с акцентами на том что:
1) Проекты по внедрению таких систем - это не ИТ проекты.
2) В команде внедрения обязательны юристы
3) Подробная документация на работу системы необходима
4) Тестирование и проверка обязательно необходимы
5) Прозрачность (transparency) и объяснимость (explainability) необходимы
6) Контроль за работой системы и обязательные требования.

Документ подробный, охватывает много вопросов, включая роль законодательной власти в этом процессе. А также на сайте опубликован его короткий пересказ для тех кому сложно прочитать его целиком [2]

Ссылки:
[1] https://www.ombo.nsw.gov.au/__data/assets/pdf_file/0005/123629/The-new-machinery-of-government-special-report_Front-section.pdf
[2] https://www.ombo.nsw.gov.au/news-and-publications/news/greater-transparency-needed-for-nsw-governments-use-of-machine-technology-in-decision-making

#privacy #ai #adm #machinetechnologies #nsw #australia
Медуза (СМИ признаное в РФ инагентом) пишет про то что в России засекретили данные об учредителях фонда предполагаемой дочери Путина [1]. А я не могу не напомнить что ещё в декабре писал [2] и в ноябре что у всех вновь зарегистрированных НКО в России в данных в ЕГРЮЛ не предоставляются сведения об учредителях.

Конечно, это явно не спроста, но это очень важные сведения. НКО являются хозяйствующими субъектами, они проходят кредитный скоринг и проверку контрагентов. Если по моей НКО эти сведения тоже будут недоступны, то банк не выдаст мне кредит, контрагенты откажутся заключать договора и тд. Отсутствие сведений об учредителях резко повышает риски любой работы с организацией.

Странно что об этом СМИ пишут только сейчас, видимо потому что выдался политический повод, а не экономический.

Ссылки:
[1] https://meduza.io/news/2022/01/21/v-rossii-zasekretili-dannye-o-vladeltsah-fonda-predpolagaemoy-docheri-putina
[2] https://t.me/begtin/3314

#opendata #data #ngo #companies
Forwarded from Инфокультура
Privacy Day 2022: новые правила в сборе биометрии в России и СНГ, распознавание лиц и цифровые следы школьников, блокировка Tor, казахские шатдауны, шпионское ПО и борьба с ним, актуальное в сфере Privacy Tech

28 января 2022 года, в международный день защиты персональных данных, наши партнеры и друзья из Роскомсвободы (@roskomsvoboda) совместно с Digital Rights Center и Privacy Accelerator проведут четвертую тематическую конференцию Privacy Day 2022.

Главная тема конференции 2022 года — сбор биометрических данных для бизнес-процессов, госуслуг и в образовательных учреждениях.

Программа Privacy Day 2022 поделена на несколько тематических блоков. Директор АНО «Инфокультура» Иван Бегтин выступит модератором секции «Биометрия и другие персональные данные в школах: в чем опасность единой базы данных о детях», в рамках которой эксперты обсудят такие вопросы, как использование персональных данных несовершеннолетних граждан, в т.ч. биометрических, а также риски их утечек и перспективы построения цифрового рейтинга.

Российская конференция о приватности и защите персональных данных — это одно из множества глобальных мероприятий, которые в этот день проводят специалисты и энтузиасты в области защиты данных по всему миру. День защиты данных отмечают с 2007 года. Под датой 28 января он закреплен в национальных календарях многих стран. Конференция в Москве призвана поддержать общемировое движение и дать российским специалистам площадку для дискуссий и нетворкинга.

Конференция пройдет онлайн 28 января. Прямая трансляция конференции бесплатна и доступна для всех пользователей.
Публиковать данные важно, ещё важнее публиковать их в форматах применяемых в нужной отрасли и пригодных для удобного использования потребителями.

Для этого существуют открытые стандарты и вот подборка каталогов таких стандартов:
- List of Metadata Standards [1] от Digital Curation Center, UK. Стандарты используемые исследователями для публикации и хранения научных данных.
- Open Standards for Data [2] - сайт про открытые стандарты от Open Data Institute. Хорошая стартовая страница и ресурс для поиска открытых стандартов
- Open Civic Data Standards [3] от НКО Azavea - каталог открытых стандартов с акцентами на гражданское/некоммерческое применение.
- FairSharing [4] большой, даже очень большой каталог стандартов, форматов, баз знаний и руководств по публикации научных данных. Одних только стандартов 1563, они хорошо прокаталогизированы и привязаны к предметным областям и даже странам. Можно найти стандарты в разработке которых участвовали и российские научные организации.
- List of standards to assess [5] хорошая подборка стандартов публикации данных собранная в виде Google таблицы
- Open Data Standards Directory [6] каталог стандартов открытых данных от консультантов из GovEx.
- Schema.org [7] - каталог форматов микроразметки веб-страниц.
- US Data Federation [8] каталог стандартов и инструментов проверки данных используемых в портале Data.gov, США.
- Data.gov Data Standards [9] ещё одна подборка стандартов рекомендуемых к использованию на портале Data.gov, США
- Open standards for government [10] подборка открытых стандартов по публикации открытых данных, одобренных пр-вом Великобритании.
- ONS Data Standards [11] стандарты публикации данных статистической службы Великобритании. Обратите внимание что это часть их стратегии работы с данными [12], весьма подробной и чёткой.

Ссылки;
[1] https://www.dcc.ac.uk/guidance/standards/metadata/list
[2] https://standards.theodi.org/
[3] https://azavea.gitbooks.io/open-data-standards/content/
[4] https://beta.fairsharing.org/
[5] https://docs.google.com/spreadsheets/d/1r7OByH4IeFHzot43nayjlplgEHHW91I4uBIUn59SKgU/edit#gid=0
[6] https://datastandards.directory/
[7] https://schema.org/
[8] https://federation.data.gov
[9] https://resources.data.gov/categories/data-standards/
[10] https://www.gov.uk/government/publications/open-standards-for-government
[11] https://www.ons.gov.uk/aboutus/transparencyandgovernance/datastrategy/datastandards
[12] https://www.ons.gov.uk/aboutus/transparencyandgovernance/datastrategy

#opendata #datastandards #data #datastrategy
Я ранее писал что закрывается QRI [1], один из стартапов создававших продукт в виде общедоступного каталога данных, в первую очередь открытых данных и данных публикуемых пользователями. Такой тип продуктов относится к open data discovery. В отличие от корпоративных каталогов данных которые реализуют задачу data discovery, находимости данных во внутрикорпоративной и около корпоративной среде, продукты по open data discovery предоставляют возможность поиска данных по которым предварительно собраны, либо их метаданные, либо метаданные и сам набор данных.

Однако, QRI далеко не единственный такой продукт, приведу примеры стартапов и других продуктов и проектов в этой области. О многих я уже писал ранее:
- Data.world [2] - стартап с акцентом на дата журналистику и визуализацию данных. Загрузили сотни тысяч наборов данных из порталов открытых данных. Интегрируется с десятками онлайн сервисов и продуктов. Сейчас уходят в корпоративный продукт с ценником в разбросе $50k-$150k, а также в облачный сервис для физ. лиц с оплатой по $12 в месяц. Общий объём привлечённых венчурных инвестиций $82,3M
- Quilt Data [3] авторы создали движок для публикации больших и очень больших данных. Как и другие похожие проекты собрали очень много очень крупных наборов открытых данных [4]. Отличие от Data.world и подобных в том что в Quilt наборы данных особо крупного размера, например, геномные данные или погодные данные или данные медицинских снимков. Общий объём 3.7 петабайта и 10.2 миллиарда объектов. Привлекли инвестиций на $4.2M
- Splitgraph [4] также агрегируют данные из открытых источников, в первую очередь из порталов открытых данных поддерживающих интерфейс экспорта из системы Socrata, это такой разработчик в США, автоматизировавший сотни если не тысячи порталов открытых данных, в первую очередь в США. Особенность Splitgraph в том что они агрегируют данные в СУБД и предоставляют прямой доступ к PostgreSQL. А также, как и многие другие, тот же data.world, предоставляют удобные инструменты для доступа к данным. Привлекли ангельские инвестиции, сумму не раскрывают.
- DoltHub [6] портал с попыткой перенести концепцию Git и идеологию Github'а на данные. Построен по модели хостинг платформы, похожей на Github. До определенного объема работа с сервисом бесплатна, начиная с определенного объёма данных надо платить деньги. Много краудсорсят и работают с сообществом, предусмотрели механизм вознаграждений для тех кто собирает данные и публикует на Dolthub'е. Привлекли $21M венчурных инвестиций.

Все эти стартапы агрегируют метаданные и данные, предоставляя более удобный доступ.
За пределами коммерческих стартапов существуют экспериментальные и научные проекты.
- Dataset search [7] от исследовательской группы в Google. Ищет по метаданным указанным через микроразметку Dataset из schema.org.
- Datacite. Find, access and reuse data [8] поиск по метаданным опубликованных научных данных получивших DOI от Datacite. Актуально для исследователей ищущих данные для своих работ и работающих в академической среде и с академическими источниками данных.
- Find Open Data [9] малоизвестный поисковик по открытым данным с открытым кодом. Похоже заброшен автором, поскольку код не обновлялся около 2-х лет. Автоматически индексировал данные из порталов на базе Socrata и CKAN.
- opendatasoft data hub [10] агрегатор данных от OpenDataSoft, крупнейших внедренцев порталов открытых данных в Евросоюзе, в первую очередь во Франции. Они агрегируют данные только из тех порталов которые сами же создали, поэтому там 15 тысяч наборов данных на французском языке и сильно меньше на других языках. За пользование порталом нет платы, он лишь дополняет бизнес модель компании по внедрению порталов открытых данных. OpenDataSoft привлекли $36.3M венчурных инвестиций.

Ссылки:
[1] https://t.me/begtin/3440
[2] https://data.world
[3] https://quiltdata.com/
[4] https://open.quiltdata.com/
[5] http://splitgraph.com
[6] https://dolthub.com/
[7] https://datasetsearch.research.google.com/
[8] https://search.datacite.org/
[9] https://findopendata.com/
[10] https://data.opendatasoft.com
Я регулярно пишу про порталы открытых данных, чаще в России чем в других странах. Буду постепенно это исправлять и сегодня про портал открытых данных Казахстана [1]. На портале опубликовано 3602 набора данных. Сам портал является какой-то внутренней разработкой, в нём не используется ни один из движков порталов открытых данных используемых в мире.

Особенность портала в том что при открытии любого набора данных во вкладке "Данные" или попытке скачать данные [2] открывается сообщение о необходимости авторизации на портале. Причём не просто зарегистрироваться с логином и паролем, а так чтобы у пользователя обязательно был бы код ИИН или БИН, чтобы он был гражданином Казахстана или управлял зарегистрированной в Казахстане организацией. Без этого не пройти регистрацию на idp.egov.kz [3]

Конечно это не открытые данные, портал превращён в закрытый национальный портал. При любой оценки международными экспертами в Global Data Barometer и других позиции Казахстана будут очень низкими потому что эксперты просто не получат доступ к данным.

Ну и сам такой подход с принудительной идентификацией и ограничением только для граждан Казахстана нарушает принцип доступности данных прописанный в Хартии открытых данных.

Другие особенности портала - API [4], возможность запросить данные [5] полезны, но также требуют авторизации. Кроме того, API, также собственного создания, отличается от наиболее часто предоставляемых API порталами открытых данных.

Также можно обратить внимание что ни у одного набора данных опубликованного на портале не указан его правовой статус. Нет ни ссылки на одну из открытых лицензий ODbL, Creative Commons, ни собственной разработанной лицении. Фактически можно говорить о том что юристы к созданию этого портала не привлекались, а правовой статус данных не определен.

Итого:
1) Правовой статус данных не определен
2) Данные доступны только после авторизации и только гражданам Казахстана.

Можно ли это исправить? Безусловно и довольно быстро. Достаточно лишь указать лицензии данным, например, СС-4.0 и отменить требования по обязательной авторизации и регистрации.

Ссылки:
[1] https://data.egov.kz
[2] https://data.egov.kz/datasets/view?index=prezidenttik_zhastar_kadr_reze45#dataTab
[3] https://idp.egov.kz/idp/register.jsp
[4] https://data.egov.kz/pages/samples
[5] https://data.egov.kz/proposals/actualize

#opendata #kazakhstan #dataportals
Один из больших рынков вокруг данных - это альтернативные данные (Alternative data), данные которые бизнес и инвесторы использует для принятия решений и доступные параллельно официальной статистике и "классическим" официальным источникам данных.

Среди проектов в этой области можно выделить продукты по отслеживанию смены руководства и ключевых сотрудников компаний.
- The Official Board [1] - около 80 тысяч компаний, большая часть в США и Европе, с доходами более $100M. Предоставляют доступ частный за 99 евро на 3 месяца, VIP 1999 евро на год и корпоративное API по запросу для автоматического отслеживания. Существуют с 2008 года, привлекли $150k инвестиций
- Craft [2] стартап с акцентом на проверку контрагентов, не в режиме проверки на комплаенс, а в режиме хотя бы базовой информации с акцентом на компании стартапы. Делают акцент на отслеживании цепочки поставок и также предоставляют сервис Key Executive Tracking с подпиской. Привлекли венчурных инвестиций на $10M
- BoardEx [3] закрытый продукт отслеживающий переходы руководителей, сделки, иную информацию о компаниях и руководителях. Обещают исторические данные за 20+ лет, основаны в 2000 году. Уже далеко не стартап, в 2018 году куплены Euromoney Institutional Investor за неназванную сумму. Продают данные многим стартапам, банкам, инвесторам и тд.
- The Org [4] совсем свежий стартап. Делают красивые графики структуры организации, с фотографиями и тд. Дают возможность владельцам организации заполнять о себе информацию и публиковать новости. Фактически, эдакий перезапуск каталогов компаний с акцентом на прозрачность. Основаны в 2017 г. Привлекли $39.6M инвестиций

А также существуют многие другие похожие компании с фокусом на сбор, переупаковку и продажу данных о структуре руководства, сотрудниках компаний и управлении контактами в B2B.

Есть ли стартапы на альтернативных данных в России? Если есть поделитесь ссылками в личку или в @begtinchat, сделаю их обзор.

Ссылки:
[1] https://www.theofficialboard.com
[2] https://craft.co
[3] https://www.boardex.com
[4] https://theorg.com

#data #alternativedata #startups #executives #contacts
Коммерсант пишет что В цифровую модель поверхности России на ближайшие годы вписывают четыре региона [1], Росреестр запускает единую цифровую платформу «Национальная система пространственных данных» [2] и там уже участвуют Краснодарский и Пермский края, Иркутская область и Республика Татарстан.

Новость, казалось бы, хорошая. Её портит то что упоминается в статье В частности, доступ к геопространственным данным цифровой платформы можно будет получить на портале госуслуг — «Роскадастр».

Доступ к данным через госуслуги - это плохая идея. И то что открытые геоданные нигде не упомянуты также не здорово. Геоданные одни из наиболее востребованных в мире, они должны быть общедоступны настолько насколько возможно, именно это даёт максимальный экономический эффект и приводит к созданию новых цифровых продуктов.

Ссылки:
[1] https://www.kommersant.ru/doc/5180820
[2] https://rosreestr.gov.ru/activity/gosudarstvennye-programmy/natsionalnaya-sistema-prostranstvennykh-dannykh/

#opendata #geo #geodata #rosreestr
Подборка свежих, новых или интересных open source инструментов по работе с данными.
- Tapestry Pipeline [1] - система управления данными с открытым кодом. Управления не в смысле management, а в смысле orchestration. Более точным переводом будет оркестровка, но по русски это звучит немного странно. Сам же движок. Выполняет те же задачи что и другие data orchestration frameworks [2] такие как Flyte, Prefect, Dagster и др. Интегрируется в dbt, Airbyte и другими инструментами.
- Prefect Orion [3] как пишут сами авторы the second-generation workflow orchestration engine. А то есть система управления потоками данных второго поколения. О нем же в блоге Prefect [4] с акцентом на то что можно не разделять обработку данных пачками и потоками.
- Prefect Artifact API [5] те же Prefect добавили Artifact API в последний open-source релиз. Это API для визуализации данных проходящих оркестровку и с демо использования Great Expectations как движка по контролю качества данных.
- Guardian [6] система управления доступом к базам данным и инструментам их обработки. Сейчас поддерживает Google BigQuery, Metabase, Airflow и облачные хранилища. Нет UI, но есть продвинутая командная строка и управление через yaml конфигурационные файлы. Проект делает команда ODPF (Open DataOps Foundation) из Индии и у них же большая подборка проектов на open source для разных аспектов работы с данными [7]
- Optimus [8] ещё один проект по оркестровке данных, от той же команды ODPF. Без UI, всё с командной строки. Сосредоточено вокруг Google Big Query, полезно тем кто создает продукты в этой среде. Но, находится в состоянии "глубокой разработки", API может часто меняться. Надо отдать должное, в ODPF любят и умеют документировать продукты.
- DataX [9] инструмент от команды Alibaba по синхронизации данных между разными СУБД, в том числе принципиально разными SQL и NoSQL. Такими как Postgres, Oracle, MongoDB, TSDB и другие. Почти всё на китайском языке. А также AddaX [10] построенный на DataX и чуть более развитый, как обещает автор. Тоже почти всё на китайском. Все учим китайский!

Ссылки:
[1] https://tapestry-pipeline.github.io
[2] https://www.moderndatastack.xyz/companies/Data-Orchestration
[3] https://orion-docs.prefect.io
[4] https://medium.com/the-prefect-blog/you-no-longer-need-two-separate-systems-for-batch-processing-and-streaming-88b3b9c1a203
[5] https://medium.com/the-prefect-blog/introducing-the-artifacts-api-b9e5972db043
[6] https://github.com/odpf/guardian
[7] https://github.com/odpf
[8] https://github.com/odpf/optimus
[9] https://github.com/alibaba/DataX
[10] https://github.com/wgzhao/Addax

#data #datatools #opensource #datapipelines #moderndatastack
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!

Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.

При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30

и многие другие.

А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.

Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекций в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).

Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.

Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker

#opendata #data #datasets #datacrafter #apicrafter #dataclassification