Ivan Begtin

Все уже написали по поводу огромных оборотных штрафов наложенных на Google и Meta российскими судами [1]. Google (Alphabet) оштрафованы на 7.2 миллиарда рублей, а Facebook (Meta) на 2 миллиарда рублей.

Конечно, вся эта история про то "кто здесь власть". Big tech компании нарастили политического и социального влияния до того уровня который уже нельзя игнорировать. Давят на них не только российские власти, но и власти Китая, Индии, Турции да и многих других стран. И штрафы - это ещё не худший вариант подобного давления.

Например, в Индии, во время протестов фермеров власти угрожали арестом сотрудникам Facebook [2] если те не выдадут информацию о протестующих.

Но и оборотные штрафы - это жесткая форма переговоров с big tech. Важно лишь помнить что выкладывая карты на стол надо быть готовыми что корпорации могут на это не согласится. Если Meta уйдет, вернее не придёт (у них нет своего представительства) в Россию, то катастрофы не случится. А вот про Google важно помнить что это не только поиск, но и почта, экосистема Android, Google Cloud и ещё много чего.

Почтой на Google пользуются многочисленные российские университеты, госорганизации и просто коммерческие компании. Приложения для Android'а являются инструментом заработка многих компаний в России, не говоря уже о пользователях этой платформы и так далее.

Иначе говоря риски у Google (Alphabet) сейчас будет патовая ситуация где, с одной стороны, если они пойдут на требования российских властей, то их обвинят в цензуре, в том числе политической. А если не пойдут, то получат ещё несколько штрафов, усиление давления и возможно уйдут из России.

Лично я считаю что давление властей стран на big tech неизбежно, но неприятно что это происходит через задачи цензуры, а не защиты местного бизнеса и прав граждан. Конфликт властей Австралии с Google закончился тем что Google сдались на их условия. Но австралийские власти добивались компенсации местным новостным агентствам и добились этой цели. А в Турции штрафовали Гугл на 296 лир (36.6 миллионов долларов США) за доминирующее положение в поиске [3]

Ссылки:
[1] https://www.reuters.com/technology/russian-court-fines-alphabets-google-72-bln-roubles-2021-12-24/
[2] https://www.businessinsider.com/india-threatens-to-jail-facebook-twitter-workers-over-farmer-protests-2021-3
[3] https://www.reuters.com/technology/turkey-fines-google-abusing-dominant-position-2021-04-14/

#google #facebook #fines

Reuters

Russian court fines Alphabet's Google and Meta Platforms

A Moscow court on Friday said it was fining Alphabet's Google 7.2 billion roubles ($98 million) for what it said was a repeated failure to delete content Russia deems illegal, the first revenue-based fine of its kind in Russia.

2.5K viewsIvan Begtin, 11:48

Ivan Begtin

На днях прошла встреча Михаила Мишустина с новым составом экспертного совета при Пр-ве РФ [1]. Содержание встречи не так важно, куда интереснее изменение состава экспертного совета [2]. На этой встрече было 22 человека, можно ещё предположить что несколько человек не могли принять участие физически и то что ещё нет опубликованного финального состава совета.

Но выводы уже можно сделать:
- единственная женщина в составе - Елена Бунина из Яндекс'а, она же единственная глава частной компании
- она же единственный представитель ИТ компании
- вообще никого нет моложе 40 лет (поправьте меня если я неправ)
- почти все участники - опытные бюрократы-лоббисты
- сложно назвать экспертным совет из управленцев, даже весьма уважаемыми, даже если они управленцы от науки. В лучшем случае его участники обладают ресурсами для организации экспертной работы.

Я не берусь сказать стал ли новый совет лучше или хуже предыдущего. Предыдущий экспертный совет был большим, около 400 человек. Я также входил в их число и могу сказать что по узким задачам он работал, но не целиком, а отдельными группами экспертов.

Непонятно пока как новый совет будет работать, так что будем наблюдать.

Ссылки:
[1] http://government.ru/news/44189/
[2] http://static.government.ru/media/files/DZHYK7Z6uoSdyAUcsIsi68oLWCDZGfMW.pdf

#councils #government

government.ru

Встреча Михаила Мишустина с членами Экспертного совета при Правительстве

М.Мишустин: «Правительству очень важно получать обратную связь от людей, от бизнеса, от тех, кто в том числе и в Правительстве работал. Это нужно для принятия взвешенных и эффективных решений, которые будут учитывать все аспекты того или иного, непростого…

4.8K viewsIvan Begtin, 12:21

Ivan Begtin

Писать о том как журналисты искажают смысл оригинальных новостей уже стало чем-то обыденным. Кризис ли это журналистики в принципе или в отдельных изданиях, но не могу не обратить внимание на публикации с хлёсткими заголовками:
- ЕС потребовал от России многомиллиардную компенсацию за импортозамещение (РИА Новости) [1]
- За нормы ВТО: Евросоюз потребовал от России €290 млрд (Известия) [2]

При этом самая адекватная публикация была в РБК
- Евросоюз оценил потери из-за политики импортозамещения России в €290 млрд (РБК) [3]

Потому что в оригинальной новости на сайте ВТО [4] ничего нет про сумму которую Евросоюз требует, там речь идет о требовании отмены российской политики импортозамещения и оценки средств на которую эта политика распространялась, это те самые 290 миллиардов евро или 20% российского ВВП.

Собственно Блумберг писал об этом ещё 20 декабря [5], когда вышла новость на сайте ВТО.

Всё это не значит что на Россию не могут быть наложены штрафы, но это точно произойдет не в следующем году и точно не на сумму указанную Евросоюзом как объем средств дискриминируемых товаров. Но на политику импортозамещения в России может повлиять и пока нельзя предсказать как именно потому что это вопрос, в первую очередь, макрополитический и того что российские власти пошли по пути прописывания импортозамещения в нормативных документах, а это и есть предмет претензий Евросоюза.

P.S. Самое забавное в том что в России очень многие относятся к стратегии импортозамещения с большим скепсисом, особенно в ИТ, а вот в Евросоюзе, судя по претензиям переданным в ВТО, относятся очень серьёзно.

Ссылки:
[1] https://ria.ru/20211226/es-1765519939.html
[2] https://iz.ru/1269467/oksana-belkina/za-normy-vto-evrosoiuz-potreboval-ot-rossii-eu290-mlrd
[3] https://www.rbc.ru/rbcfreenews/61c7ec9a9a7947f012162062
[4] https://www.wto.org/english/news_e/news21_e/dsb_29nov21_e.htm
[5] https://www.bloomberg.com/news/articles/2021-12-20/wto-to-review-eu-dispute-over-russian-procurement-discrimination

#government #procurement #russia #eu #importsubstitution

РИА Новости

ЕС потребовал от России многомиллиардную компенсацию за импортозамещение

Евросоюз потребовал от России выплатить компенсацию в размере 290 миллиардов евро за "дискриминацию" европейских товаров с помощью политики импортозамещения,... РИА Новости, 26.12.2021

3.3K viewsIvan Begtin, 09:15

Ivan Begtin

Как меняется повестка открытости в мире? Начиная с открытых данных и продолжая открытыми знаниями и другими движениями открытости. Когда то в основе многих из этих движений было Open Knowledge Foundation (OKF), сейчас мир довольно сильно меняется. OKF решили провести более чем 100 дискуссий [1] с визионерами, инженерами, активистами, учёными и тд. о том как какие вызовы наиболее значимы и как видение и стратегия открытости должны измениться.

Хорошая цель и если Вам есть кого им порекомендовать, то это можно сделать с помощью специальной веб-формы [2].

А я не могу не напомнить что повестка открытости меняется не только в внутри Open Knowledge Foundation. Одно из важных изменений, например, в открытых данных - это то что называют 3-й волной открытых данных. Переход от Open Data by Default к Publish with the purpose [3] в стратегиях публикации данных органами власти.

Поэтому вопросы актуальные и желание OKF изменить стратегию к новой реальности тоже очень интересно.

Ссылки:
[1] https://blog.okfn.org/2022/01/10/100-conversations-to-inspire-our-new-direction/
[2] https://okfn.typeform.com/conversations
[3] https://opendatapolicylab.org/third-wave-of-open-data/

#opendata #opengov #openknowledge

1.9K viewsIvan Begtin, 06:32

Ivan Begtin

В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech

VentureBeat

30 startups that show how open source ate the world in 2021

A look at some of the open source startups that gained traction in 2021, revealing where the world is looking to leverage the power of OSS.

2.6K viewsIvan Begtin, 08:05

Ivan Begtin

Для тех кто ищет вдохновения и красивую инфографику, большая коллекция из 100 красивых и иноформативных визуализаций [1] от Observable

Визуализаций там много и многие из них очень даже неплохи. Например, World Grids [2] с разными формами отображения мира.

А мне лично нравится сама модель Observable в виде открытой воспроизводимой визуализации, единственный недостаток для пользователя это неотделимость от самой платформы, но с точки зрения создателей платформы - это, конечно, её преимущество.

Ссылки:
[1] https://observablehq.com/@tomlarkworthy/notebooks2021
[2] https://observablehq.com/@neocartocnrs/world-grids

#infographics #dataviz #vizualization

Observablehq

100 Beautiful and Informative Notebooks of 2021

It's the end of 2021, and I would like to reminisce about the amazing work that was produced on Observable over the last year. I have taken all the notebooks that were trending from the Top Trending Notebook Twitter Bot and picked 100 good ones. The broad…

1.9K viewsIvan Begtin, 12:07

Ivan Begtin

Оказывается в декабре у ОЭСР вышли два интересных доклада.

Первый Development Co-operation Report 2021 [1] со страновыми кейсами цифровой трансформации с акцентом на кооперации между странами. Как и во многих других их отчетах именно кейсы самое интересное. Например, разбор кейсов "Digital Citizenship or Digital Authoritarianism?" [2] о цифровой трансформации в африканских странах и о том, что действующие законы и иное регулирование не спасает от нарушения фундаментальных прав. Там есть и другие примеры, конечно же и всё, что описывается про африканские страны, справедливо и для других развивающихся и переходных стран.

Второй доклад Mapping data portability initiatives, opportunities and challenges [3] о регулировании прав доступа граждан к их данным. Множество примеров реализации этого права, причём с явными акцентами на финансовые услуги и права потребителей.

Здесь интересно описание регулирования с точки зрения подходов от самого базового с переносимостью данных через экспорт/импорт, до отраслевых протоколов передачи данных в реальном времени.

Ссылки:
[1] https://www.oecd-ilibrary.org/development/development-co-operation-report-2021_ce08832f-en
[2] https://www.oecd-ilibrary.org/sites/1b3dc767-en/index.html?itemId=/content/component/1b3dc767-en
[3] https://www.oecd.org/publications/mapping-data-portability-initiatives-opportunities-and-challenges-a6edfab2-en.htm

#data #digital #dataportability #regulation

www.oecd-ilibrary.org

Development Co-operation Report 2021

Digital transformation is revolutionising economies and societies with rapid technological advances in AI, robotics and the Internet of Things. Low and middle-income countries are struggling to gain a foothold in the global digital economy in the...

2.0K viewsIvan Begtin, 15:41

Ivan Begtin

Буквально пару недель назад мне выпала редкая возможность ненадолго отключиться от мирских дел и провести пару недель в госпитале с COVID-19. К счастью - эта жизненная передышка была непродолжительной, но дала время подумать и порефлексировать над происходящим с цифрой, данными, ну и многим другим что происходит в госинформатизации в России (Гостех, обучение чиновников цифре и многое другое). Даже несколько дней размышлений существенно обновляет картину поэтому я разбавлю и мои новостные публикации личными соображениями.

Поэтому я набросал в формате, скорее полукороткого текста [1] свои мысли по поводу госполитики работы с данными. А заодно и подумать дальше потому что кроме описанных проблем есть ещё немало других выпавших из почти всех публичных обсуждений.

Ссылки:
[1] https://begtin.substack.com/p/21

#opendata #data #government #policy

Substack

#21. Госполитика в работе с данными и то о чём молчат в публичных дискуссиях

Широка страна, а поговорить не с кем (с)

1.9K viewsIvan Begtin, 15:12

Ivan Begtin

ФНС России обновили и, я бы сказал, "поломали" свой аналитический портал analytic.nalog.ru [1].

Раньше на нём публиковались региональные налоговые паспорта, Excel файлы с подробной региональной ведомственной статистикой (у меня есть архив на руках) и немного цифр с визуализацией. Теперь много визуализации в стиле BI, но какого-то недоделанного BI без возможности выгрузки индикаторов, информации об актуализации и тд. А файлы налоговых паспортов регионов с сайта исчезли.

Если старый сайт был неудобен, то новый выглядит даже не недоделанным, а как-то совсем тяп-ляп, сделанным на коленках. В лучших традициях старая версия сайта исчезла, а до исчезновения в поисковиках не индексировалась, поскольку специально делалась неиндексируемой.

Для тех кому нужны архивы налоговых паспортов они есть в DataCrafter'е в открытом доступе [2]. Похоже надо усилить функцию DataCrafter'а по архивации данных.

Ссылки:
[1] https://analytic.nalog.ru
[2] https://data.apicrafter.ru/packages/regtaxpassports

#nalog #data #opendata

1.9K viewsIvan Begtin, edited 17:49

Ivan Begtin

Среди современного стека с данными отдельная тема, о которой я регулярно пишу, это продукты по data discovery, каталоги данных в современном стеке данных. О них было исследование Forrester Wave [1] в середине прошлого года и это такие продукты как Atlan, Alation, Collibra из коммерческих и продукты вроде Amundsen, Datahub и др. из недавно превращённых в открытые продукты с открытым кодом.

Так вот эти продукты переживают сейчас бум развития, инвестиций и пользовательского внимания, потому что уже многие крупные и средние компании накопили команды, наработки, данные и тд. а наведение в этом всём порядка оказывается большой задачей. Вернее задач там много, аналитические, задачи complience и тд.

Полезно посмотреть на два обзора и "каталога каталогов". Один от одного из сотрудников Atlan [2] со списком основных продуктов их конкурентов и кратким описанием каждого.

Другой от CastorDoc [3] с куда более детальным списком и сравнением по областям применения, стоимости и возможностям.

Сейчас это всё довольно сложные платформы, с разными акцентами на управлении метаданными. Лично приглядываюсь к ним потому что многие возможности такой платформы, но в формате открытого каталога, мы реализуем в DataCrafter'е. Например, автоматическая идентификация типов данных есть в Collibra, но пока мало где в других каталогах.

И я, конечно, не могу не обратить внимание насколько технологии Modern Data Stack оторваны от работы с открытыми данными и с исследовательскими данными. Чем больше я изучаю инструментарий технологический, логический и др. тем больше видна разница, между каталогами открытых данных и каталогами корпоративных метаданных. Я бы даже сказал что это разные миры которые практически не пересекаются по форматам данных, способам агрегации данных, способам доступа и так далее.

Ссылки:
[1] https://t.me/begtin/2978
[2] https://www.notion.so/atlanhq/The-Ultimate-Repository-of-Data-Discovery-Solutions-149b0ea2a2ed401d84f2b71681c5a369
[3] https://notion.castordoc.com/catalog-of-catalogs

#datadiscovery #metadata #metadatamanagement #datacatalogs

Ivan Begtin

Свежее исследование Forrester Wave со сравнением 12 облачных провайдеров управления данными: Aim, Alation, Ataccama, Collibra, Congruity360, data.world, erwin, Infogix, OneTrust, SAP, Solix, Syniti [1]

В лидерах они упоминают Colibra, Alation, Infogix, Atacamma.…

1.8K viewsIvan Begtin, 09:36

Ivan Begtin

Чтение плана законопроектной деятельности Правительства иногда приводит к весьма интересным находкам. Собственно сегодня он был опубликован [1] и там, например:
* пункт 21 - это создание специального регистратора доменных имён для органов власти и новые полномочия у Роскомнадзора по определению таких доменных имен. Отвечает за это Минцифра и как мне тут не напомнить что на общественных началах мы уже в @infoculture ведем реестр госдоменов.
* пункт 33 - создание ФГИС по племенному животноводству Минсельхозом РФ
* пункт 64 - предоставление полномочий Росфинмониторингу к данным о ЕГРЗ (системы регистрации браков, смерти, рождений и тд).
* пункт 75 - передача бухгалтерских данных в систему Электронный бюджет. Интересна какая их часть будет открыта?
* пункт 103 - реорганизация/изменения в ФИС ОКО (Федеральная информационная система оценки качества образования) Рособрнадзором. Опять же интересно что меняется

На что ещё стоит обратить внимание:
1. По сравнению с 2021 годом [2] число запланированных законопроектов сократилось со 153 до 127. А на 2020 год вообще в плане было 230 законопроектов [3], так что сокращение почти в 2 раза за 2 года.
2. С другой стороны это куда достовернее цифр в 49 законопроектов которые были запланированы ещё в 2019 году Пр-вом при Медведеве [4]
3. Сам документ очередной пример того как неудобно публикуются официальные документы. Это совершенно точно табличный документ размещённый как PDF файл, но это мелочи.

Самое интересное - создание регистратора имен для госсайтов и что же Минцифры России планируют подготовить в этом законопроекте и кого он охватит.

Ссылки:
[1] http://government.ru/news/44321/
[2] http://government.ru/news/41289/
[3] http://government.ru/activities/selection/302/38737/
[4] http://government.ru/activities/selection/676/35282/

#regulation #government #it #laws

government.ru

Утверждён план законопроектной деятельности Правительства на 2022 год

Распоряжение от 30 декабря 2021 года №3994-р

2.9K viewsIvan Begtin, edited 11:50

Ivan Begtin

В конце декабря 2021 года в Европейском союзе вступило предварительное соглашение между Европейским советом и Европарламентом о применении Data Governance Act [1], закона разработанного ещё в 2020 году [2] и определяющего правила обмена данными в государственном и частном секторе.

Что интересно в этом соглашении, так это 3 направления развития работы с данными в ЕС:

✔️Promote reuse of public-sector data.
Распространение практик использование открытых государственных данных и поощрение этого использования, а также создание единого реестра всех данных государственного сектора, включая те данные которые ещё не являются общедоступными.

✔️Create a framework for data intermediation.
Поощрение обмена данными между компаниями для развития рынка данных. По сути это выстраивание отраслевых моделей поддержки компаний предоставляющих свои данные другим компаниям на рынке.

✔️Encourage data altruism for the common good.
Помогать компаниям и данным использовать персональные данные граждан которые те "жертвуют" на решение задач связанных с общественным благом.

А это регулирование является продолжением Европейской стратегии работы с данными [3] направленной на поощрение свободного обмена данными между компаниями, странами и иными пользователями данных в Европейском союзе.

Ссылки:
[1] https://www.consilium.europa.eu/en/press/press-releases/2021/11/30/promoting-data-sharing-presidency-reaches-deal-with-parliament-on-data-governance-act/
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52020PC0767
[3] https://ec.europa.eu/info/strategy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_en

#opendata #opengov #data #datastrategy

European Council

Promoting data sharing: presidency reaches deal with Parliament on Data Governance Act

The Data Governance Act will set up robust mechanisms to facilitate the reuse of public-sector data, increase trust in data intermediation services and foster data altruism across the EU.

1.7K viewsIvan Begtin, 08:47

Ivan Begtin

Для тех кто мог пропустить (я вот пропустил!) в ноябре вышел ещё один доклад Legal study on Government access to data in third countries [1] опубликованный European Data Protection Board (EDPB) и в нём отражено текущая ситуация с правами граждан и госполитикой по доступу к персональным данным в Китае, Индии и России.

Полезно почитать взгляд со стороны на российскую ситуацию и описывается она там довольно критично. Дословно: Finally, compared to the EU, Russian authorities take a significantly more negative approach to balancing fundamental rights in the digital sphere, putting protection of the State ahead of the interests and rights of data subjects.

Иначе говоря защита государства находится в большем приоритете чем права и интересы субъектов персональных данных.

Впрочем о России нам сложно узнать что-то новое, а вот почитать про подходы Китая и Индии точно стоит, там свои интересные особенности.

Ссылки:
[1] https://edpb.europa.eu/our-work-tools/our-documents/legal-study-external-provider/legal-study-government-access-data-third_en

#privacy #data #regulation

1.8K viewsIvan Begtin, 15:57

Ivan Begtin

Я ранее писал про то что Open Knowledge Foundation пытаются переосмыслить свою стратегию по развитию открытости через публичные дискуссии с экспертами и стейкхолдерами [1] и они не единственные кто занимаются таким переосмысленнием. Например, Open Data Charter в декабре прошлого года опубликовали свою стратегию на 2022-2023 годы под названием Open data driving reform [2].

Они в своей миссии опеределяют открытость, с интересной оговоркой про защиту прав граждан
To make data open and freely available, while protecting the rights of people and communities. To see this shift help solve some of the most pressing challenges of our time, creating more just societies and innovative economies.

Что далее характерно всё идёт через 4 направления реформы:
- Data Rights - реализация прав на данные для граждан
- Democracy, transparency and anti-corruption - демократия, прозрачность и противодействие коррупции
- Gender Pay Equity - равенство в оплате через использование открытых данных
- Climate Action - климатические изменения и использование данных для этой цели

Если первые два очень понятны, то Gender Pay Equity и Climate Action выглядят как специально подобранные под доноров, поскольку, если объективно, обе они связаны с открытостью данных не более чем что-либо ещё, а вот международных фондов поддерживающих проекты в этой области довольно много.

Open Data Charter делает много полезного, но, честно говоря, их влияние на системную работу по открытым данным невелико. Может быть отсюда и столь странные попытки корректировки стратегии? Кто знает.

Основные смысловые центры сейчас - это Open Data Policy Lab [3] и The Open Data Institute [4], с фокусом на практику публикации и работы с открытыми данными и вот за их работой я лично слежу наиболее пристально, поскольку именно там обычно звучат и интересные оценки и появляются интересные исследования.

Ссылки:
[1] https://t.me/begtin/3409
[2] https://drive.google.com/file/d/1Ul3uSbNpdRLi3NrdXSvQu4-A4GAfMS-4/view
[3] https://opendatapolicylab.org/
[4] https://theodi.org/

#opendata #data #strategies

Ivan Begtin

1.6K viewsIvan Begtin, edited 13:45

Ivan Begtin

Хороший технический обзор [1] том почему вместо файлов в формате CSV лучше использовать формат Parquet [2] из экосистемы Apache Hadoop. Формат этот, в отличие от CSV, адаптирован изначально под инструменты вроде Pandas и для аналитики он значительно удобнее, к тому же, и на этом акцент в обзоре, он изначально обеспечивает сжатие данных до 4-х раз при этом сохраняя возможность их загрузки в pandas и другие аналитические инструменты.

Из достоинств:
- с этим форматом хорошо работают библиотека pandas, разные инструменты для экосистемы Apache Hadoop, его поддерживает PowerBI и Tableau
- лучшее сжатие данных, до 4-х раз меньше чем CSV
- ускоряет запросы при загрузке в pandas, поскольку изначально колоночный, а не построчный формат

Из недостатков:
- не подгружается в Excel стандартными средствами
- нет стандартных инструментов загрузки в СУБД (SQL или No SQL), в отличие от CSV
- нет инструментов а ля csvkit позволяющих гибко обрабатывать данные

Мы в DataCrafter'е в конце прошлого года добавили экспорт данных в форматах CSV, JSON lines и Parquet к большинству наборов данных. Можно посмотреть вот тут на примере Действующего справочника поставщиков лекарственных средств [3]. Ко всем данным, конечно, добавить его сложно поскольку некоторые данные у нас в каталоге - это много гигабайт и миллионы записей и они доступны только через API и через ZIP файлы с экспортом, но для всех таблиц с менее чем 100 тысячами записей такой экспорт работает, а данные актуализируются.

Parquet не единственный интересный формат для хранения данных и сжатие не единственный важный критерий для форматов данных. Есть полезные обзоры сравнения Parquet, Avro и CSV [4] и Parquet, Apache Orc [5], а также Paquet, Avro и Orc [6] и у каждого из них свои важные полезные особенности, например, Avro гораздо лучше адаптирован под изменение схем данных.

Но, Avro и Orc ещё хуже поддерживаются общедоступными аналитическими инструментами, а есть и другие форматы такие как Protocol Buffers, XML, JSON. Например, в этом обзоре сравнение их возможностей [7]

И тут я, конечно, не могу не обратить внимание что за пределами корпоративного сектора и Modern Data Stack эти форматы практически не используются. В большинстве порталов открытых данных используются обычно CSV, реже XML, реже JSON и ещё какое-то количество унаследованных форматов данных вроде MS Access или DBF.

Адаптация современных порталов открытых данных, да и вообще порталов с данными, например, статистическими и аналитическими - это доступность данных в том числе в аналитических форматах, удобных для быстрой загрузки в инструменты вроде Power BI, Tableau или в сервисы обработки данных (data pipelines, ETL, ELT и др) и многое другое.

Ссылки:
[1] https://towardsdatascience.com/csv-files-for-storage-no-thanks-theres-a-better-option-72c78a414d1d
[2] https://en.wikipedia.org/wiki/Apache_Parquet
[3] https://data.apicrafter.ru/packages/roszdravvendors
[4] https://medium.com/ssense-tech/csv-vs-parquet-vs-avro-choosing-the-right-tool-for-the-right-job-79c9f56914a8
[5] https://medium.com/@dhareshwarganesh/benchmarking-parquet-vs-orc-d52c39849aef
[6] https://oswinrh.medium.com/parquet-avro-or-orc-47b4802b4bcb
[7] https://www.adaltas.com/en/2020/07/23/benchmark-study-of-different-file-format/

#opendata #data #dataformats #datastandards #csv #avro #parquet #orc

Medium

CSV Files for Storage? No Thanks. There’s a Better Option

Saving data to CSV’s is costing you both money and disk space. It’s time to end it.

2.1K viewsIvan Begtin, 10:27

Ivan Begtin

В качестве воскресного чтения читаю Viral: The Search for the Origin of COVID-19 [1] о лабораторном происхождении COVID-19 за авторством исследователя Alina Chan [2] и журналиста Matt Ridley [3].

Об Алине Чан была в июне 2021 года статья в MIT Technology Review [4] о том как она расследовала лабораторное происхождение COVID-19 и была одним из тех кто добился что администрация Байдена начала официальное расследование.

Книга интересная, хорошо написана, читается как журналистское дата-расследование, можно сказать научная расследовательская журналистика, причём не в режиме теорий заговора, а вполне с критическим подходом анализа всех нестыковок.

Книгу читать я только начал, поэтому говорить о том правы ли авторы её или нет, я не готов, но само чтение интересное.

Ссылки:
[1] https://www.amazon.com/Viral-Search-COVID-19-Matt-Ridley-ebook/dp/B09794TRBB
[2] https://twitter.com/Ayjchan
[3] https://www.mattridley.co.uk/
[4] https://www.technologyreview.com/2021/06/25/1027140/lab-leak-alina-chan/

#investigations #covid19 #books

1.5K viewsIvan Begtin, 12:49

Ivan Begtin

Вышло постановление Правительства РФ утверждающее положение Национального фонда алгоритмов и программ [1]. Там довольно много всего, например, Минцифры РФ должны разработать кучу методрекомендаций для ведения НФАП'а и ещё много чего.

Что интересного - есть про открытые данные: в) обеспечение в соответствии с настоящим Положением свободного доступа к сведениям об опубликованных в фонде объектах фонда, получивших регистрационный номер, в том числе в форме открытых данных, а также к государственной библиотеке типовых программных компонентов информационных систем.

Что удивительно - ничего нет про открытый код и открытые лицензии, вообще регламент доступа к публикуемому коду и права и ограничения на его повторное использование.

Я чуть позже ещё вернусь к анализу этого положения.

P.S. Обратите внимание что ФСО России наконец-то научились публиковать не только сканы документов [2], а сразу Текст в ИПС «Законодательство России» [1]. Как говорится, не прошло и 20 лет, а могло ведь и вообще никогда не произойти, но хвалить их, всё равно, не за что.

Ссылки:
[1] http://ips.pravo.gov.ru:8080/default.aspx?pn=0001202112270052
[2] http://publication.pravo.gov.ru/Document/View/0001202112270052

#opensource #opendata #code #government

publication.pravo.gov.ru

Постановление Правительства Российской Федерации от 23.12.2021 № 2403 ∙ Официальное опубликование правовых актов

Постановление Правительства Российской Федерации от 23.12.2021 № 2403
"О повышении эффективности учета и использования программ для электронных вычислительных машин и баз данных, созданных или приобретенных с привлечением средств федерального бюджета или…

1.8K viewsIvan Begtin, 18:14

Ivan Begtin

Пока я продолжаю думать над большим текстом про качество и управление данными в государстве, я сформулирую краткий тезис на котором буду настаивать.

В современном государстве любой продукт создаваемый органами власти или госучреждениями - это или продукт в виде данных или продукт основанный на данных (data product).

Например, продуктом на данных являются (должны быть!):
- информационные системы (самое очевидное!)
- реестры и информационные ресурсы
- нормативные документы включая их проекты
- все без исключения отчеты
- аналитические / государственные доклады и любая аналитика, например, "мониторинг" чего бы то ни было
- сервисы для граждан
и многое другое

Собственно data-driven government - это когда внутренние процессы выстроены так что сбор данных, потоки данных, их обработка и хранение выстроены под создание этих продуктов.

Причём за каждым есть своя логика:
1. Нормативные документы должны быть подкреплены обоснованиями. Они могут быть превращены в executive papers/executive laws (исполнимые документы) как это происходит сейчас с научными работами.
2. Аналитические документы/доклады и госдоклады все построены вокруг сбора данных, просто очень архаичным образом как правило.
3. Реестры и информационные ресурсы де-факто - это всегда про сбор и представление данных для, как правило, неограниченного числа потребителей.
и так далее и многое другое.

Катастрофу [отсутствия] цифровой трансформации в Росстате можно понять именно по наличию перехода к подобным явно заявленным дата продуктам, а не к текущим публикациям статистических сборников в формах непригодных для современной аналитической работы. Также как и у других ведомств публикующим сейчас госдоклады с годовой задержкой (Минприроды) или Росгидромет выдающий из систем своих учреждений только ежегодную/ежемесячную аналитику в виде PDF отчетов, вместо данных чуть ли не реального времени. И так далее, и тому подобное.

#opendata #data #dataproducts #dataasaproduct

1.5K viewsIvan Begtin, 19:01

Ivan Begtin

В рубрике интересное регулярное чтение:
- Every product will be data product [1] - статья о том что любой корпоративный продукт превращается в data product. Мои предыдущие мысли о том что любой госпродукт - это data product очень похожи [2]. Превращение / восприятие любого цифрового продукта как продукта на данных - это очень логично.
- dbd: new ELT tool that you’ll love [3] - автор пишет про свежесозданный инструмент dbd для задач ETL (Extract Transform Load) с примерами загрузки данных. Не то чтобы ETL инструментов было мало, в том числе с открытым кодом, но может пригодится и этот [4]. Инструмент совсем свежий, написан на Python и, похоже, рабочий.
- (P)TL, a new data engineering architecture [5] - автор пытается описать новую архитектуру работы с данными как Pushing Transform Load, где Pushing заменяет Extract и сводится к тому что "давайте вместо извлечения данных будем получать их в структурированном виде из потоковых источников вроде Kafka". Проблема в том что такой подход работает только в случае управляемых источников данных, причём скорее внутренних или очень зрелых внешних способных отдавать поток данных.
- The Modern Metadata Platform: What, Why, and How? [6] - видение современной платформы метаданных от Metaphor, стартапа, как уже понятно, декларирующего создание именно такой платформы. Интересно, по сути, описанием стратегии на то что платформы управления метаданными - это давно уже не только индексация таблиц, а систематизация баз данных, дашбордов, озёр данных, ETL, A/ML и многое другое. Metaphor делает та же команда что создала Datahub в Lyft [7] так что эти рассуждения достойны внимания.
- AutoDoc — a project to document automatically your data warehouse [8] - о том как один из продуктов каталогизации данных автоматически документирует данные из популярных источников. Они отслеживают когда пользователь подключает данные из одного из популярных источников вроде Salesforce, Facebook Ads, Google Ads, HubSpot и ещё нескольких десятков (всего 61) и автоматически добавляют документацию и метаданные которые заранее собраны и привязаны к полям/таблицам из этих источников. Интересный подход, в DataCrafter'е мы используем другой, кучу правил идентификации типов данных на основе их содержания [9], технологически это сложнее.
- The MAD Landscape 2021 — A Data Quality Perspective [10] - обзор стартапов по автоматическому мониторингу инфраструктуры данных и качества данных, data observability и data quality. Обзор интересный про 3 основных способа контроля качества данных: на основе правил, машинного обучения и статистики.

А в качестве завершения, как сформулировано в последней заметке Data is eating the world по аналогии с известной фразой Марка Андерсена Software is eating the world.

Ссылки:
[1] https://medium.com/kyligence/every-product-will-be-a-data-product-19e648f0333
[2] https://t.me/begtin/3423
[3] https://zsvoboda.medium.com/declarative-database-management-89d79e80d0cb
[4] https://github.com/zsvoboda/dbd
[5] https://adoreme.tech/p-tl-a-new-data-engineering-arhitecture-1dee8b7a84c0
[6] https://metaphor.io/blog/the-modern-metadata-platform
[7] https://engineering.linkedin.com/blog/2019/data-hub
[8] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[9] https://data.apicrafter.ru/class
[10] https://medium.com/validio/the-mad-landscape-2021-a-data-quality-perspective-e633f71c3eff

#dataquality #data #reading #dataengineering #metadata #dataproducts

Medium

Every Product Will Be a Data Product

Why build a data product? Typical use cases of data product

1.6K viewsIvan Begtin, edited 06:21

Ivan Begtin

О том как в России обстоит дело с открытыми данными, приведу пример в виде портала открытых данных Правительства Москвы data.mos.ru

Если зайти на портал то можно обратить внимание что там опубликовано 993 набора данных [1]. Причём новые данные публикуются, согласно цифрам на странице описания портала [2] в течение 2020 года было раскрыто 153 новых датасета и их общее количество достигло 1250. Куда делись 257 наборов данных непонятно, но предположим что где-то цифры не сходятся и ошиблись в подсчётах.

За 2021 год новые данные не публиковались, фильтр по статусу "Новые" [3], выдаёт пустой список, но существующие данные обновляются, если не все то многие. Например, Адресный реестр объектов недвижимости города Москвы [4] обновляется ежесуточно, автоматически, примерно с недельной задержкой. На 17-е января данные там на 12 января [4].

Другой раздел - новости, не обновлялись с декабря 2019 года [5], а план публикации открытых данных был по ссылке [6], но в 2020 году его просто удалили.

Итого:
- план публикации открытых данных удалён
- новости не обновляются с декабря 2019 г.
- новые данные не публикуются с 2020 г.
- как минимум часть текущих данных обновляется

Итого портал существует, в чём то обновляется, но с нулевым развитием и раскрытием чего-то нового. Можно сказать что он частично заморожен и существует по инерционному сценарию.

При этом если сравнить московский портал открытых данных с порталами открытых данных Нью-Йорка [7], Лондона [8], Парижа [9], Пекина [10] и десятков других крупнейших городов мира, то с точки зрения объёмов опубликованных данных московский портал всё ещё выглядит неплохо, а с точки зрения новых и актуальных данных стремительно устаревает.

При том что он создавался до федерального портала, у него есть разработанный стандарт публикации данных [11], что редкость и для России и в мире, а сами данные публиковались автоматизировано и доступны через API, тоже довольно неплохое.

Ссылки:
[1] https://data.mos.ru/opendata?categoryId=241&IsArchive=true&IsActual=true
[2] https://data.mos.ru/about
[3] https://data.mos.ru/opendata?categoryId=241&IsNew=true
[4] https://data.mos.ru/opendata/60562/passport?versionNumber=3&releaseNumber=698
[5] https://data.mos.ru/news
[6] http://data.mos.ru/about/publicationplan
[7] https://opendata.cityofnewyork.us/
[8] https://data.london.gov.uk/
[9] https://opendata.paris.fr
[10] http://data.beijing.gov.cn/
[11] https://data.mos.ru/about/standarts

#opendata #moscow #citydata

Портал открытых данных Правительства Москвы

Наборы данных - Портал открытых данных Правительства Москвы

Портал открытых данных Правительства Москвы (data.mos.ru) был запущен 29 января 2013 года. В настоящее время на портале опубликовано более 1000 тематических наборов данных и справочников, в которых раскрыта информация более чем о 500 000 объектах городской…

1.5K viewsIvan Begtin, 08:52

Ivan Begtin

Кстати, в 16 декабря Правительство РФ приняло постановление № 2314 Об утверждении Правил размещения и обновления федеральными органами исполнительной власти, органами исполнительной власти субъектов Российской Федерации, органами местного самоуправления или уполномоченными ими организациями информации о состоянии окружающей среды (экологической информации) на официальных сайтах в информационно-телекоммуникационной сети "Интернет" или с помощью государственных и муниципальных информационных систем, в том числе содержания информации о состоянии окружающей среды (экологической информации) и формы ее размещения [1]

Там много разного про публикацию экологической информации в том числе 17-й пункт
17. Экологическая информация размещается в сети "Интернет" в форме открытых данных в случае, если экологическая информация включена в перечень общедоступной информации о деятельности федеральных государственных органов, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных государственных органов, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, перечень общедоступной информации о деятельности органов государственной власти субъектов Российской Федерации и органов местного самоуправления, созданной указанными органами или поступившей к ним при осуществлении полномочий по предметам ведения Российской Федерации и полномочий Российской Федерации по предметам совместного ведения Российской Федерации и субъектов Российской Федерации, переданных для осуществления органам государственной власти субъектов Российской Федерации и органам местного самоуправления, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, перечень общедоступной информации, содержащей сведения из информационных ресурсов, реестров, регистров, ведение которых осуществляют государственные органы, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственные им федеральные государственные органы, размещаемой в информационно-телекоммуникационной сети "Интернет" в форме открытых данных, утвержденные распоряжением Правительства Российской Федерации от 10 июля 2013 г. № 1187-р.

Там же таблица с перечнем данных которые подлежат публикации.

Надо сказать что язык у этого постановления абсолютно нечеловеческий, читать его очень тяжело, но важно что общедоступных данных о качестве жизни будет больше и даже в форматах открытых данных.

Ссылки:
[1] http://government.ru/docs/all/138391/

#opendata #opengov #lifequality #ecodata

1.6K viewsIvan Begtin, 16:31

About

Blog

Apps

Platform