Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В конце декабря 2021 года в Европейском союзе вступило предварительное соглашение между Европейским советом и Европарламентом о применении Data Governance Act [1], закона разработанного ещё в 2020 году [2] и определяющего правила обмена данными в государственном и частном секторе.

Что интересно в этом соглашении, так это 3 направления развития работы с данными в ЕС:

✔️Promote reuse of public-sector data.
Распространение практик использование открытых государственных данных и поощрение этого использования, а также создание единого реестра всех данных государственного сектора, включая те данные которые ещё не являются общедоступными.

✔️Create a framework for data intermediation.
Поощрение обмена данными между компаниями для развития рынка данных. По сути это выстраивание отраслевых моделей поддержки компаний предоставляющих свои данные другим компаниям на рынке.

✔️Encourage data altruism for the common good.
Помогать компаниям и данным использовать персональные данные граждан которые те "жертвуют" на решение задач связанных с общественным благом.

А это регулирование является продолжением Европейской стратегии работы с данными [3] направленной на поощрение свободного обмена данными между компаниями, странами и иными пользователями данных в Европейском союзе.

Ссылки:
[1] https://www.consilium.europa.eu/en/press/press-releases/2021/11/30/promoting-data-sharing-presidency-reaches-deal-with-parliament-on-data-governance-act/
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52020PC0767
[3] https://ec.europa.eu/info/strategy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_en

#opendata #opengov #data #datastrategy
Для тех кто мог пропустить (я вот пропустил!) в ноябре вышел ещё один доклад Legal study on Government access to data in third countries [1] опубликованный European Data Protection Board (EDPB) и в нём отражено текущая ситуация с правами граждан и госполитикой по доступу к персональным данным в Китае, Индии и России.

Полезно почитать взгляд со стороны на российскую ситуацию и описывается она там довольно критично. Дословно: Finally, compared to the EU, Russian authorities take a significantly more negative approach to balancing fundamental rights in the digital sphere, putting protection of the State ahead of the interests and rights of data subjects.

Иначе говоря защита государства находится в большем приоритете чем права и интересы субъектов персональных данных.

Впрочем о России нам сложно узнать что-то новое, а вот почитать про подходы Китая и Индии точно стоит, там свои интересные особенности.

Ссылки:
[1] https://edpb.europa.eu/our-work-tools/our-documents/legal-study-external-provider/legal-study-government-access-data-third_en

#privacy #data #regulation
Я ранее писал про то что Open Knowledge Foundation пытаются переосмыслить свою стратегию по развитию открытости через публичные дискуссии с экспертами и стейкхолдерами [1] и они не единственные кто занимаются таким переосмысленнием. Например, Open Data Charter в декабре прошлого года опубликовали свою стратегию на 2022-2023 годы под названием Open data driving reform [2].

Они в своей миссии опеределяют открытость, с интересной оговоркой про защиту прав граждан
To make data open and freely available, while protecting the rights of people and communities. To see this shift help solve some of the most pressing challenges of our time, creating more just societies and innovative economies.

Что далее характерно всё идёт через 4 направления реформы:
- Data Rights - реализация прав на данные для граждан
- Democracy, transparency and anti-corruption - демократия, прозрачность и противодействие коррупции
- Gender Pay Equity - равенство в оплате через использование открытых данных
- Climate Action - климатические изменения и использование данных для этой цели

Если первые два очень понятны, то Gender Pay Equity и Climate Action выглядят как специально подобранные под доноров, поскольку, если объективно, обе они связаны с открытостью данных не более чем что-либо ещё, а вот международных фондов поддерживающих проекты в этой области довольно много.

Open Data Charter делает много полезного, но, честно говоря, их влияние на системную работу по открытым данным невелико. Может быть отсюда и столь странные попытки корректировки стратегии? Кто знает.

Основные смысловые центры сейчас - это Open Data Policy Lab [3] и The Open Data Institute [4], с фокусом на практику публикации и работы с открытыми данными и вот за их работой я лично слежу наиболее пристально, поскольку именно там обычно звучат и интересные оценки и появляются интересные исследования.

Ссылки:
[1] https://t.me/begtin/3409
[2] https://drive.google.com/file/d/1Ul3uSbNpdRLi3NrdXSvQu4-A4GAfMS-4/view
[3] https://opendatapolicylab.org/
[4] https://theodi.org/

#opendata #data #strategies
Хороший технический обзор [1] том почему вместо файлов в формате CSV лучше использовать формат Parquet [2] из экосистемы Apache Hadoop. Формат этот, в отличие от CSV, адаптирован изначально под инструменты вроде Pandas и для аналитики он значительно удобнее, к тому же, и на этом акцент в обзоре, он изначально обеспечивает сжатие данных до 4-х раз при этом сохраняя возможность их загрузки в pandas и другие аналитические инструменты.

Из достоинств:
- с этим форматом хорошо работают библиотека pandas, разные инструменты для экосистемы Apache Hadoop, его поддерживает PowerBI и Tableau
- лучшее сжатие данных, до 4-х раз меньше чем CSV
- ускоряет запросы при загрузке в pandas, поскольку изначально колоночный, а не построчный формат

Из недостатков:
- не подгружается в Excel стандартными средствами
- нет стандартных инструментов загрузки в СУБД (SQL или No SQL), в отличие от CSV
- нет инструментов а ля csvkit позволяющих гибко обрабатывать данные

Мы в DataCrafter'е в конце прошлого года добавили экспорт данных в форматах CSV, JSON lines и Parquet к большинству наборов данных. Можно посмотреть вот тут на примере Действующего справочника поставщиков лекарственных средств [3]. Ко всем данным, конечно, добавить его сложно поскольку некоторые данные у нас в каталоге - это много гигабайт и миллионы записей и они доступны только через API и через ZIP файлы с экспортом, но для всех таблиц с менее чем 100 тысячами записей такой экспорт работает, а данные актуализируются.

Parquet не единственный интересный формат для хранения данных и сжатие не единственный важный критерий для форматов данных. Есть полезные обзоры сравнения Parquet, Avro и CSV [4] и Parquet, Apache Orc [5], а также Paquet, Avro и Orc [6] и у каждого из них свои важные полезные особенности, например, Avro гораздо лучше адаптирован под изменение схем данных.

Но, Avro и Orc ещё хуже поддерживаются общедоступными аналитическими инструментами, а есть и другие форматы такие как Protocol Buffers, XML, JSON. Например, в этом обзоре сравнение их возможностей [7]

И тут я, конечно, не могу не обратить внимание что за пределами корпоративного сектора и Modern Data Stack эти форматы практически не используются. В большинстве порталов открытых данных используются обычно CSV, реже XML, реже JSON и ещё какое-то количество унаследованных форматов данных вроде MS Access или DBF.

Адаптация современных порталов открытых данных, да и вообще порталов с данными, например, статистическими и аналитическими - это доступность данных в том числе в аналитических форматах, удобных для быстрой загрузки в инструменты вроде Power BI, Tableau или в сервисы обработки данных (data pipelines, ETL, ELT и др) и многое другое.

Ссылки:
[1] https://towardsdatascience.com/csv-files-for-storage-no-thanks-theres-a-better-option-72c78a414d1d
[2] https://en.wikipedia.org/wiki/Apache_Parquet
[3] https://data.apicrafter.ru/packages/roszdravvendors
[4] https://medium.com/ssense-tech/csv-vs-parquet-vs-avro-choosing-the-right-tool-for-the-right-job-79c9f56914a8
[5] https://medium.com/@dhareshwarganesh/benchmarking-parquet-vs-orc-d52c39849aef
[6] https://oswinrh.medium.com/parquet-avro-or-orc-47b4802b4bcb
[7] https://www.adaltas.com/en/2020/07/23/benchmark-study-of-different-file-format/

#opendata #data #dataformats #datastandards #csv #avro #parquet #orc
В качестве воскресного чтения читаю Viral: The Search for the Origin of COVID-19 [1] о лабораторном происхождении COVID-19 за авторством исследователя Alina Chan [2] и журналиста Matt Ridley [3].

Об Алине Чан была в июне 2021 года статья в MIT Technology Review [4] о том как она расследовала лабораторное происхождение COVID-19 и была одним из тех кто добился что администрация Байдена начала официальное расследование.

Книга интересная, хорошо написана, читается как журналистское дата-расследование, можно сказать научная расследовательская журналистика, причём не в режиме теорий заговора, а вполне с критическим подходом анализа всех нестыковок.

Книгу читать я только начал, поэтому говорить о том правы ли авторы её или нет, я не готов, но само чтение интересное.

Ссылки:
[1] https://www.amazon.com/Viral-Search-COVID-19-Matt-Ridley-ebook/dp/B09794TRBB
[2] https://twitter.com/Ayjchan
[3] https://www.mattridley.co.uk/
[4] https://www.technologyreview.com/2021/06/25/1027140/lab-leak-alina-chan/

#investigations #covid19 #books
Вышло постановление Правительства РФ утверждающее положение Национального фонда алгоритмов и программ [1]. Там довольно много всего, например, Минцифры РФ должны разработать кучу методрекомендаций для ведения НФАП'а и ещё много чего.

Что интересного - есть про открытые данные: в) обеспечение в соответствии с настоящим Положением свободного доступа к сведениям об опубликованных в фонде объектах фонда, получивших регистрационный номер, в том числе в форме открытых данных, а также к государственной библиотеке типовых программных компонентов информационных систем.

Что удивительно - ничего нет про открытый код и открытые лицензии, вообще регламент доступа к публикуемому коду и права и ограничения на его повторное использование.

Я чуть позже ещё вернусь к анализу этого положения.

P.S. Обратите внимание что ФСО России наконец-то научились публиковать не только сканы документов [2], а сразу Текст в ИПС «Законодательство России» [1]. Как говорится, не прошло и 20 лет, а могло ведь и вообще никогда не произойти, но хвалить их, всё равно, не за что.

Ссылки:
[1] http://ips.pravo.gov.ru:8080/default.aspx?pn=0001202112270052
[2] http://publication.pravo.gov.ru/Document/View/0001202112270052

#opensource #opendata #code #government
Пока я продолжаю думать над большим текстом про качество и управление данными в государстве, я сформулирую краткий тезис на котором буду настаивать.

В современном государстве любой продукт создаваемый органами власти или госучреждениями - это или продукт в виде данных или продукт основанный на данных (data product).

Например, продуктом на данных являются (должны быть!):
- информационные системы (самое очевидное!)
- реестры и информационные ресурсы
- нормативные документы включая их проекты
- все без исключения отчеты
- аналитические / государственные доклады и любая аналитика, например, "мониторинг" чего бы то ни было
- сервисы для граждан
и многое другое

Собственно data-driven government - это когда внутренние процессы выстроены так что сбор данных, потоки данных, их обработка и хранение выстроены под создание этих продуктов.

Причём за каждым есть своя логика:
1. Нормативные документы должны быть подкреплены обоснованиями. Они могут быть превращены в executive papers/executive laws (исполнимые документы) как это происходит сейчас с научными работами.
2. Аналитические документы/доклады и госдоклады все построены вокруг сбора данных, просто очень архаичным образом как правило.
3. Реестры и информационные ресурсы де-факто - это всегда про сбор и представление данных для, как правило, неограниченного числа потребителей.
и так далее и многое другое.

Катастрофу [отсутствия] цифровой трансформации в Росстате можно понять именно по наличию перехода к подобным явно заявленным дата продуктам, а не к текущим публикациям статистических сборников в формах непригодных для современной аналитической работы. Также как и у других ведомств публикующим сейчас госдоклады с годовой задержкой (Минприроды) или Росгидромет выдающий из систем своих учреждений только ежегодную/ежемесячную аналитику в виде PDF отчетов, вместо данных чуть ли не реального времени. И так далее, и тому подобное.

#opendata #data #dataproducts #dataasaproduct
В рубрике интересное регулярное чтение:
- Every product will be data product [1] - статья о том что любой корпоративный продукт превращается в data product. Мои предыдущие мысли о том что любой госпродукт - это data product очень похожи [2]. Превращение / восприятие любого цифрового продукта как продукта на данных - это очень логично.
- dbd: new ELT tool that you’ll love [3] - автор пишет про свежесозданный инструмент dbd для задач ETL (Extract Transform Load) с примерами загрузки данных. Не то чтобы ETL инструментов было мало, в том числе с открытым кодом, но может пригодится и этот [4]. Инструмент совсем свежий, написан на Python и, похоже, рабочий.
- (P)TL, a new data engineering architecture [5] - автор пытается описать новую архитектуру работы с данными как Pushing Transform Load, где Pushing заменяет Extract и сводится к тому что "давайте вместо извлечения данных будем получать их в структурированном виде из потоковых источников вроде Kafka". Проблема в том что такой подход работает только в случае управляемых источников данных, причём скорее внутренних или очень зрелых внешних способных отдавать поток данных.
- The Modern Metadata Platform: What, Why, and How? [6] - видение современной платформы метаданных от Metaphor, стартапа, как уже понятно, декларирующего создание именно такой платформы. Интересно, по сути, описанием стратегии на то что платформы управления метаданными - это давно уже не только индексация таблиц, а систематизация баз данных, дашбордов, озёр данных, ETL, A/ML и многое другое. Metaphor делает та же команда что создала Datahub в Lyft [7] так что эти рассуждения достойны внимания.
- AutoDoc — a project to document automatically your data warehouse [8] - о том как один из продуктов каталогизации данных автоматически документирует данные из популярных источников. Они отслеживают когда пользователь подключает данные из одного из популярных источников вроде Salesforce, Facebook Ads, Google Ads, HubSpot и ещё нескольких десятков (всего 61) и автоматически добавляют документацию и метаданные которые заранее собраны и привязаны к полям/таблицам из этих источников. Интересный подход, в DataCrafter'е мы используем другой, кучу правил идентификации типов данных на основе их содержания [9], технологически это сложнее.
- The MAD Landscape 2021 — A Data Quality Perspective [10] - обзор стартапов по автоматическому мониторингу инфраструктуры данных и качества данных, data observability и data quality. Обзор интересный про 3 основных способа контроля качества данных: на основе правил, машинного обучения и статистики.

А в качестве завершения, как сформулировано в последней заметке Data is eating the world по аналогии с известной фразой Марка Андерсена Software is eating the world.

Ссылки:
[1] https://medium.com/kyligence/every-product-will-be-a-data-product-19e648f0333
[2] https://t.me/begtin/3423
[3] https://zsvoboda.medium.com/declarative-database-management-89d79e80d0cb
[4] https://github.com/zsvoboda/dbd
[5] https://adoreme.tech/p-tl-a-new-data-engineering-arhitecture-1dee8b7a84c0
[6] https://metaphor.io/blog/the-modern-metadata-platform
[7] https://engineering.linkedin.com/blog/2019/data-hub
[8] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[9] https://data.apicrafter.ru/class
[10] https://medium.com/validio/the-mad-landscape-2021-a-data-quality-perspective-e633f71c3eff

#dataquality #data #reading #dataengineering #metadata #dataproducts
О том как в России обстоит дело с открытыми данными, приведу пример в виде портала открытых данных Правительства Москвы data.mos.ru

Если зайти на портал то можно обратить внимание что там опубликовано 993 набора данных [1]. Причём новые данные публикуются, согласно цифрам на странице описания портала [2] в течение 2020 года было раскрыто 153 новых датасета и их общее количество достигло 1250. Куда делись 257 наборов данных непонятно, но предположим что где-то цифры не сходятся и ошиблись в подсчётах.

За 2021 год новые данные не публиковались, фильтр по статусу "Новые" [3], выдаёт пустой список, но существующие данные обновляются, если не все то многие. Например, Адресный реестр объектов недвижимости города Москвы [4] обновляется ежесуточно, автоматически, примерно с недельной задержкой. На 17-е января данные там на 12 января [4].

Другой раздел - новости, не обновлялись с декабря 2019 года [5], а план публикации открытых данных был по ссылке [6], но в 2020 году его просто удалили.

Итого:
- план публикации открытых данных удалён
- новости не обновляются с декабря 2019 г.
- новые данные не публикуются с 2020 г.
- как минимум часть текущих данных обновляется

Итого портал существует, в чём то обновляется, но с нулевым развитием и раскрытием чего-то нового. Можно сказать что он частично заморожен и существует по инерционному сценарию.

При этом если сравнить московский портал открытых данных с порталами открытых данных Нью-Йорка [7], Лондона [8], Парижа [9], Пекина [10] и десятков других крупнейших городов мира, то с точки зрения объёмов опубликованных данных московский портал всё ещё выглядит неплохо, а с точки зрения новых и актуальных данных стремительно устаревает.

При том что он создавался до федерального портала, у него есть разработанный стандарт публикации данных [11], что редкость и для России и в мире, а сами данные публиковались автоматизировано и доступны через API, тоже довольно неплохое.

Ссылки:
[1] https://data.mos.ru/opendata?categoryId=241&IsArchive=true&IsActual=true
[2] https://data.mos.ru/about
[3] https://data.mos.ru/opendata?categoryId=241&IsNew=true
[4] https://data.mos.ru/opendata/60562/passport?versionNumber=3&releaseNumber=698
[5] https://data.mos.ru/news
[6] http://data.mos.ru/about/publicationplan
[7] https://opendata.cityofnewyork.us/
[8] https://data.london.gov.uk/
[9] https://opendata.paris.fr
[10] http://data.beijing.gov.cn/
[11] https://data.mos.ru/about/standarts

#opendata #moscow #citydata
Кстати, в 16 декабря Правительство РФ приняло постановление № 2314 Об утверждении Правил размещения и обновления федеральными органами исполнительной власти, органами исполнительной власти субъектов Российской Федерации, органами местного самоуправления или уполномоченными ими организациями информации о состоянии окружающей среды (экологической информации) на официальных сайтах в информационно-телекоммуникационной сети "Интернет" или с помощью государственных и муниципальных информационных систем, в том числе содержания информации о состоянии окружающей среды (экологической информации) и формы ее размещения [1]

Там много разного про публикацию экологической информации в том числе 17-й пункт
17. Экологическая информация размещается в сети "Интернет" в форме открытых данных в случае, если экологическая информация включена в перечень общедоступной информации о деятельности федеральных государственных органов, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных государственных органов, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, перечень общедоступной информации о деятельности органов государственной власти субъектов Российской Федерации и органов местного самоуправления, созданной указанными органами или поступившей к ним при осуществлении полномочий по предметам ведения Российской Федерации и полномочий Российской Федерации по предметам совместного ведения Российской Федерации и субъектов Российской Федерации, переданных для осуществления органам государственной власти субъектов Российской Федерации и органам местного самоуправления, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, перечень общедоступной информации, содержащей сведения из информационных ресурсов, реестров, регистров, ведение которых осуществляют государственные органы, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственные им федеральные государственные органы, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, утвержденные распоряжением Правительства Российской Федерации от 10 июля 2013 г. № 1187-р.

Там же таблица с перечнем данных которые подлежат публикации.

Надо сказать что язык у этого постановления абсолютно нечеловеческий, читать его очень тяжело, но важно что общедоступных данных о качестве жизни будет больше и даже в форматах открытых данных.

Ссылки:
[1] http://government.ru/docs/all/138391/

#opendata #opengov #lifequality #ecodata
В Великобритании HM Treasury (Казначейство) выпустили книгу/руководство The Rose Book: Guidance on knowledge asset management in government [1], как видно из названия, про управление активами знаний. Где можно обратить внимание что это не только копирайты, патенты, базы данных и торговые марки, но и экспертиза (люди) вовлеченные в эти процессы.

Сама книга это продолжение публикации Getting smart about intellectual property and other intangibles in the public sector [2] 2018 года о том как устроено управление интеллектуальной собственность гос-ва сейчас и рекомендации по развитию.

Например, инвентацизацию активов знаний они включили в Национальную стратегию данных Великобритании.

Ссылки:
[1] https://www.gov.uk/government/publications/knowledge-asset-management-in-government
[2] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/752003/Getting_smart_about_intellectual_property_and_other_intangibles_in_the_public_sector_-_Budget_2018.pdf

#opendata #knowledge #uk
У Clickhouse [1], несомненно одной из лучших OLAP баз данных приспособленных для аналитики, появился довольно интересный конкурент StarRocks [2]. СУБД совместимая с MySQL по синтаксису и протоколу, основанная на Apache Doris [3], когда-то известной под именем Palo и переданная в проект Apache компанией Baidu. Команда StarRocks пишут что взяли код Apache Doris в начале 2020 года и основательно его переписали и дополнили так что теперь только 40% кода идентично оригинальному проекту.

У StarRocks много многообещающих функций, например, query federation для прямого доступа к данным в MySQL или ElasticSearch без импорта данных, а также высокая производительность всех запросов.

У них в блоге большой обзор сравнения с Clickhouse при миграции баз данных в Trips.com [4], главные аргументы перехода там в том что StarRocks обеспечивает более быстрое выполнение запросов и то что у Clickhouse усечённый SQL диалект. Поэтому по всем параметрам на StarRocks стоит обратить внимание, особенно когда текущий стек данных основан на MySQL.

Правда, здесь важно помнить что Clickhouse в конце 2021 года привлек финансирование в 250 миллионов долларов США [5] и активно развивается. С точки зрения зрелости продукта, он конечно гораздо более пригоден для промышленной эксплуатации.

Ссылки:
[1] https://clickhouse.com
[2] https://www.starrocks.com
[3] https://doris.apache.org
[4] https://starrocks.medium.com/trip-com-starrocks-efficiently-supports-high-concurrent-queries-dramatically-reduces-labor-and-1e1921dd6bf8
[5] https://clickhouse.com/blog/en/2021/clickhouse-raises-250m-series-b/

#databases #data #startups #olap
По поводу принуждения к сдаче биометрии для получения Госуслуг [1] лично я считаю всё это ошибкой и принуждение к сдаче биометрических данных особенно. Причём ошибка эта двойная.

Первая её часть в том что если подталкиваешь к чему-то граждан то важна просветительская кампания которой не было, нет и, похоже, не планируется. Потому что найдутся те кто дойдет до Конституционного суда если их принуждать сдавать биометрию.

А вторая часть этой ошибки в том что тезисы о том что биометрия обеспечивает лучшую защиту очень спорный. Утечка биометрических данных невосполнима, лицо, отпечатки пальцев, голос и многое другое - не поменять и кроме биометрии есть и другие пути идентифицировать граждан/пользователей.

Я вообще не понимаю зачем именно гос-во ввязалось в создание ЕБС, сама идея с постепенным принуждением будет вызывать раздражение у граждан. Уже вызывает, на самом то деле. Граждане всё больше напрягаются на любые требования по сбору их личных данных и текущий подход по сбору биометрии ошибочен.

Ссылки:
[1] https://www.kommersant.ru/doc/5171552

#biometrics #security #authentication #government
В качестве небольшого пред-анонса, где-то через 1-2 недели планируем обновление DataCrafter'а в виде доступного сервиса идентификации типов данных. Сейчас в DataCrafter'е 76399 полей данных из которых 9722 автоматически классифицированы по классам вот [1]. Пока это делалось внутренним движком обрабатывающим данные в таблицах MongoDB и работающем по базе частично закодированных правил. Этот же движок делался для автоматизации анализа качества датасетов.

Этот код сейчас отчуждается и активно тестируется.

А сами правила переносятся из кода в YAML формат. Сейчас это уже 67 правил из которых 40 про то как называются поля, 27 про то что в них содержится и ещё выявление дат делается хоть и 1 правилом, но по 312 шаблонам.

Вначале появится открытый сервис и API по такой классификации для CSV файлов и сейчас я думаю над тем стоит ли переводить его в open source.

Ссылки:
[1] https://data.apicrafter.ru/class

#openservices #datacrafter #apicrafter #data #dataclassification
Forwarded from APICrafter
В каталог DataCrafter'а добавлен открытый набор данных Реестр обязательных требований для организаций в городе Москве [1] полученный с сайта Открытый контроль (knd.mos.ru). Набор данных включает 87 тысяч записей, общим объёмом 470 МБ в формате JSONL и в 20 МБ в сжатом виде. Данные содержат обязательные требования предъявляемые организациям в зависимости от вида их деятельности.

Данные доступны через:
- в виде пакета данных (ZIP архив)
- в виде JSON lines файла экспорта
- через API платформы

Набор данных можно использовать, например, для создания сервиса определения перечня требований к организации по виду деятельности. На его основе можно создать специальный телеграм бот, мобильное приложение или веб интерфейс отличный от того что уже реализовано на портале Открытый контроль.

Ссылки:
[1] https://data.apicrafter.ru/packages/mosknd

#opendata #moscow #data #knd
У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].

Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.

Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.

Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture

#datascience #moderndatastack #data #dataproducts