Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Всё тот же федеральный портал открытых данных работает, по прежнему, нестабильно. Страницы наборов данных открываются довольно медленно, но дело не только в этом. Куда-то начисто исчезла вся статистика посещения [1] и не только.

Ссылки:
[1] https://data.gov.ru/site-usage

#opendata #russia #economygovru
Я как-то уже писал что в планах есть выложить ETL движок используемый в datacrafter'е. Это подзатянулось поскольку не так много людей сейчас у нас в команде заняты именно этим проектом, ETL движок я могу отнести к собственным pet проектам.

Его основная идея - это реализация ETL в связке с наиболее используемыми в России форматами открытых (и иных) данных. Это XML, CSV, JSON, JSONlines, в том числе случаи когда они в архивах, условно любого размера и с поддержкой NoSQL из коробки. Из-за этого NoSQL из коробки этот движок невозможно было реализовать на базе чего-то ещё вроде Meltano или Dagster․ Но готовность к отчуждаемости я, конечно, переоценил, доведение внутреннего кода до открытой промышленной платформы требует времени.

А вот так выглядит пример конфигурационного файла обработки одного из наборов данных ФНС РФ.
В первоисточнике данные лежат в XML файлах внутри ZIP и обработчик умеет делает непрерывную итерацию по записям с переключением файлов внутри архива.

#opensource #opendata
По поводу Указа Президента РФ N250 от 1 мая [1] с перечнем мер по информационной безопасности мне, конечно, тоже есть что сказать.

Во первых рынок инфобеза сейчас будет самый быстро растущий во всём ИТ секторе, даже маленькие ИТ компании в этой области будут иметь свой большой кусок хлеба. В этой отрасли сейчас, конечно, праздник без ярких положительных эмоций.

Во вторых, конечно, ИТ специалистов в этой области, ожидаемо, будет острый дефицит. Я даже не представляю себе (конечно представляю в каком органе власти) где наберут, например, замов руководителя по информационной безопасности. Более вероятный сценарий массового обучения текущих замов по чему-то там курсам по инфобезу. Будет как в анекдоте - "ещё и на голову фонарь повесят чтобы ночью косить (c)". Так и здесь, был зам по хоз части, а будет ещё и с функциями зама по инфобезу. К крупнейшим, конечно, будут прикомандированные сотрудники.

В третьих стоит ожидать перестройки всех бюджетов всех уровней начиная с федерального с расширением расходов на инфобез. За счёт бюджетов информатизации/автоматизации/цифровизации, конечно же. Поскольку расходы на цифровизацию были и с ощущением распила в некоторых случаях, но всё же бюджетом развития, то расходы на инфобез к развитию никакого отношения иметь не будут, только к ограничениям.

В четвертых я лично предсказываю в этом году начало тотальной инвентаризации государственных и муниципальных информационных систем именно с точки зрения инфобеза. Проблема в том что делать это некому, ни ФСТЭК, ни ФСБ, ни их подведы сами по себе это не потянут. Более вероятен сценарий поручения Пр-ва или Пр-та, на фед уровне Минцифра с розыгрышем крупного контракта, а на рег. уровне областные и республиканские администрации. Скорость этого будет напрямую зависеть от числа публичных взломов госинформсистем. Пока их было сильно меньше чем могло бы быть, либо мы о них не знаем, а они были, либо мы о них знаем, но всё равно публично все говорят что не знаем, не было, даже если было. В любом случае пока ярко светились только утечки и взломы только нескольких коммерческих провайдеров.

В пятых, явно будет какая-то большая административная реорганизация в этой области. Будут ли это новые полномочия у Минцифры, или новое супер-крупное-министерство информационной безопасности или ещё что-то и как-то, но это та область где критическая масса запроса на внутригосударственную реформу назревает. Я бы осторожно предположил появление в России новой спецслужбы по аналогии с NSA в которую перейдут многие полномочия. Но именно что осторожно, потому что не все ещё события предшествующие этому произошли и, в принципе, назрела новая адм. реформа Пр-ва.

В шестых, что-то мало новостей про Гостех. Живо оно ещё? Если да, то в нормативке почти не всплывает, хотя в нормативке по инфобезу оно должно было бы быть, а если нет, то хоть похороните официально и с почестями. Больше похоже что Гостех локализуют в виде нескольких информационных систем.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205010023

#policy #russia #it #security #regulation
indicator_38480.xls
1.3 MB
Специально для тех кто читает СМИ и телеграм каналы с цифрами уехавших из России, не читайте, считайте сами. В файле indicator_38480.xls статистика выезда поквартально с 1кв 2013 года по 1кв 2022 г. включительно.

Первоисточник ЕМИСС, индикатор Выезд граждан России [1]. Также многим будет интересен индикатор Въезд иностранных граждан в РФ [2]

Обратите внимание на формулировки, эти индикаторы не охватывают выезд иностранных граждан и въезд граждан РФ соответственно. Вот такие искажения в российской статистике.

Сопоставлять и визуализировать, я уверен, все умеют сами.

Ссылки:
[1] https://www.fedstat.ru/indicator/38480
[2] https://www.fedstat.ru/indicator/38479

#opendata #data #statistics
Официальные цифры по выезду россиян по странам по всем целям поездки. Предпоследняя колонка сравнение выезда 1кв 2019 года (последнего допандемийного) и 1кв 2022 года, это по март включительно.

Куда резкий всплеск поездок:
- Сейшелы 15994% (7564 в 1кв2022г. и 47 в 1кв2019г.).
- Саудовская Аравия
- Египет

Можно обратить внимание что цифры отъезда в Армению только на 28% более чем в 1кв 2019 г.

И так далее, каждый может найти нужные цифры самостоятельно из файла что я ранее публиковал на канале.

Напомню что это официальная статистика, она достоверна настолько насколько Вы доверяете тем кто её публикует.

#opendata #data #dataviz
Полезное чтение про работу с данными:
- Введение в NoSQL базы данных [1], в основном графовые базы
- Have you tried rubbing a database on it? [2] выступления о том как решать знакомые задачи через данные, некоторые идеи могут показаться странными и дикими, а кое что очень интересно.
- Beyond ELT: What Is a DataOps OS? [3] про DataOps от команды Meltano, вводный текст для незнакомых с понятием
- Review of Prefect for Data Engineers [4] сравнение Prefect и Dagster для обработки данных, автор отдает предпочтение Prefect.
- MLOps in 10 Minutes [5] для тех кто хочет погрузится в тему подготовки данных для data science. Подойдет дата-инженерам и дата-сайентистам и специалистам по ML


Ссылки:
[1] https://towardsdatascience.com/introduction-to-nosql-graph-databases-fb2feac7a36
[2] https://www.hytradboi.com/?42
[3] https://thenewstack.io/beyond-elt-what-is-a-dataops-os/
[4] https://www.confessionsofadataguy.com/review-of-prefect-for-data-engineers/
[5] https://datatalks.club/blog/mlops-10-minutes.html

#data #readings
Я всё хотел написать про ГИС "Экономика" которую Минэкономразвития РФ заказывает за 269 млн руб., конкурс объявлен ещё в апреле, сейчас сопоставляются заявки [1].

Кому-то может показаться что большие деньги, большая система, интересная задача. Кому-то что деньги потрачены ни на что и всё заранее поделено или заранее бессмысленно.

Я же отмечу те "нюансы" которые я вижу из чтения ТЗ и не только.

1. Это ТЗ на разработку аналитической системы, по сути и по описанию ближе всего к BI системе с особенностями восприятия и специфики понимания таких систем органами власти.
2. Есть как минимум две, а реально больше крупные ГИС с пересекающимися функциями. Это ГАС Управление и ЦАП (Цифровая аналитическая платформа) Росстата. Первая система существует давно и как раз проектировалась примерно в тех же целях что сейчас создаётся ГИС Экономика. Вторая всё ещё не запущено, публичных результатов пока нет. Почему не развивается одна из этих систем и создаётся новая - вот в чём вопрос.
3. Разработка систем подобного уровня должно, вначале, предварятся разработкой технического задания. ТЗ приложенное к конкурсу не выглядит как разработанное, в принципе, из ТЗ не ясно кто его автор, не ясна практика использования и тд.
4. В ГИС Экономика хотят перенести внутренние системы Минэкономразвития РФ, используется термин "инфраструктура системы". Например, туда собираются перенести систему управления проектами Минэкономразвития.
5. В ТЗ есть ссылки на документы которые невозможно найти в открытом доступе. Например, из текста "Подсистема управления корпоративной шиной обмена данными создана при исполнении государственного контракта от 09.10.2020 №ГК-105-АМ/Д34."․ Это внутренний номер госконтракта у Минэка, по нему невозможно найти его на сайте госзакупок, а в эту дату такого контракта точно у Минэка не было. Секретный контракт? Сумма меньше сумму запроса котировок? Недостоверная информация в ТЗ? Вопросов много

Если внимательно изучать ТЗ, то там есть много такого к чему будет много вопросов.

Но ключевое другое, ключевое то что работы по созданию таких систем состоят из довольно понятных крупных задач:
1. Разработка методологии - проведение одного или более НИР, определение задач, источников данных, типов показателей и тд., а по результатам разработка ТЗ.
2. Создание/выбор платформы - платформы для аналитики более универсальны или недостаточно готовы, но в любом случае почти никогда не делаются с нуля.
3. Сбор/приобретение данных - это, на самом деле, одна из сложнейших задач, как сформировать показатели на доступных данных и как получить данные которых сейчас может не быть
4. Построение аналитических панелей на основе методологии, платформы и данных.

Важно то что при разумном планировании каждая из этих задач - отчуждаема и задачи эти делают разные люди в параллельно или последовательно.

Ситуация с этим ТЗ такова что методологии за ним нет, приобретение данных описано невероятно скромно, только данные Роспатента, ФНС и Казначейства. Аналитические панели описаны без какого-либо пользовательского опыта, наборами функций.

Выводы у меня удручающие. Даже если там нет коррупции, то качество проектирования такое что смысл и назначение этой системы совершенно непонятны и, самое главное, к пониманию состояния экономики страны никого из нас не приблизит. Скорее станет именем нарицательным.
- Как там у нас с экономикой, также как с ГИС "Экономика", никак. (с)
- Какая Экономика такая экономика (с)

Ссылки:
[1] https://zakupki.gov.ru/epz/order/notice/ok20/view/common-info.html?regNumber=0173100008622000005

#government #russia #economy #it
Короткий обзор о том какие каталоги данных использовать в корпоративной среде Choosing a Data Catalog [1]. Неполный, не все решения и не все ситуации охватывает, не все кейсы применения, но полезный обозначая разницу между открытыми, закрытыми и иными решениями.

В ту же тему Open Data Discovery Specification: A Universal Standard for Metadata Collection [2] обзор стандарта описания метаданных в базах данных.

Ссылки:
[1] https://sarahsnewsletter.substack.com/p/choosing-a-data-catalog
[2] https://medium.com/opendatadiscovery/open-data-discovery-specification-a-universal-standard-for-metadata-collection-60425061112c

#opendata #data #datatools #readings
Полезное чтение про данные и не только
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [1] статья о языковой модели GLaM от Google. 1.2 триллиона параметров, в 7 раз больше чем GPT-3, потребовало 456 мегават в час для расчёта. внутри несколько экспертных моделей. В открытом доступе, вроде бы, пока ещё её нет.

- STEGO [2] новый алгоритм умеющий распознавать изображения без предварительной разметки человеком. Звучит просто, а в реальности это очень важный шаг в развитии компьютерного зрения. Близок час когда изображения размеченные компьютером будут использовать для тестирования людей, а не наоборот

- How AltStore is building a haven for forbidden iPhone apps [3] про AltStore, альтернативу Apple Store для тех приложений которые оттуда выгнали. В статье рассуждается о том что Apple будет сложно убрать функции позволяющие AltStore существовать и рассказывается как AltStore обходит ограничения необходимости подписывать приложения. Но приложениям компаний под санкциями это врядли поможет.

- The 2022 state of [software] engineering time [4] исследование того на что тратят время программисты. Про открытый код, на что уходит время при разработке, про выбор между офисом и удалёнкой и многое другое.

Ссылки:
[1] https://arxiv.org/abs/2112.06905
[2] https://news.mit.edu/2022/new-unsupervised-computer-vision-algorithm-stego-0421
[3] https://www.fastcompany.com/90749170/altstore-riley-testut-iphone-sideloading-app-store
[4] https://retool.com/reports/state-of-engineering-time-2022/

#data #readings #engineering #apple #ai
Новости по проекту Metacrafter по распознаванию семантических типов данных, напомню, это небольшой pet-проект по идентификации типов данных в наборах данных и в СУБД, необходимо, например, для идентификации чувствительных данных вроде персональных данных, лучшей навигации по данным, поиска и интеграции данных. Я писал об этом большой текст на английском [1] и регулярно пишу тут.

1. Я выложил извлечённые метаданные из каталогов данных data.gov.ru, socrata.com, data.opendatasoft.com и data.gov.ru в репозиторий на Github [2]. Каталоги разного качества, поэтому метаданные не лучше данных, но могут быть полезны тем кто интересуется этой темой.

2. Значительно обновился реестр, всего 168 типов данных и 43 дополнительных шаблона. У 55% есть ссылки на дополнительное описание, у 28% регулярное выражение, у 21% ссылки на свойства в Wikidata, у 32% примеры данного семантического типа.

3. Для того чтобы всё это вносить была создана схема для валидации YAML файлов шаблонов и добавлена команда validate к скрипту сборки реестра которая использует библиотеку Cerberus в Python для валидации. Всё это в репозитории metacrafter-registry [3]

4. В какой-то момент накопилась уже критическая масса в более чем 24 задачи [4] большая часть которых - это материалы для изучения по метаданным. Например, есть много идентификаторов в экосистеме GS1 [5], а персональные данные неплохо идентифицируются IBM Default Guardium Analyzer [6] и ещё многие другие. Это ещё раз подталкивает меня к мысли о том что почему-то никто не занимался этой темой серьёзно, в основном очень точечные решения. Даже исследований крайне мало.

5. Главная проблема с семантическими типами в том что при автоматическом распознавании очень много ошибочных срабатываний. Слишком многие справочные значения укладываются в 2-х или 3-х буквенные или численные коды которые пересекаются. Коды валют и коды стран, численные коды стран и численные коды единиц измерения и так далее. Поэтому реестр типов составить куда проще чем реализовать алгоритм понимающий контекст и выбирающий правильный семантический тип в этом контексте.

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter-datacatalogs-raw
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://github.com/apicrafter/metacrafter-registry/issues
[5] https://www.gs1.org/standards/barcodes/application-identifiers
[6] https://www.ibm.com/docs/en/sga?topic=sources-default-guardium-analyzer-patterns

#opendata #datatools #metadata
Тем временем в Китае армия роботов без участия человека построит дамбу [1], 180 метровая дамба будет построена с помощью экскаваторов, бульдозеров и другой строительной техники управляемой ИИ. Работа которая пока ещё остаётся людям - это добыча камня для строительства, эта работа пока ещё слишком сложна для автоматической работы.

Ссылки:
[1] https://www.asiaone.com/digital/army-robots-and-zero-human-workers-will-build-dam-china

#ai #construction #china
В каждой профессии есть большие вызовы, иногда кажущиеся смешными, иногда невозможными. Например, в генетике восстановление вымерших видов может показаться невозможным или чертовски сложным, но, тем не менее учёные всё ближе к этому подступают. В статье Why ‘De-Extinction’ Is Impossible (But Could Work Anyway) [1] о том почему "воскрешение" уже несуществующих видов возможно если доступен генетический материал, а иногда и другими способами.

Очень скоро спасение вымирающих животных может заключаться в в ускоренном создании банков генетических данных чтобы будущие поколения могли бы восстановить их популяции в будущем.

Ссылки:
[1] https://www.quantamagazine.org/why-de-extinction-is-impossible-but-could-work-anyway-20220509/

#data #genetics
Для тех кто любит сжатие данных также как это люблю я, подборка полезных ссылок:
- про сжатие CSV файла в 22 ГБ в 1.5 ГБ файла Parquet [1] включает преобразование структур данных, сжатие zstd внутри файла parquet и тд. Для сравнения оригинальный сжатый файл был около 12GB. Для работы на ноутбуках и десктопах может быть значимо.
- Bzip3 [2] автор позиционирует как замену Bzip2. Сжимает существенно лучше чем Bzip2, немного лучше чем Xz и 7Zip (LZMA2), при этом не существенно теряет в скорости. В общем надо измерять.
- PLZip [3] и LZTurbo [4] два особо быстрых декомпрессора для lzip и lz77 соответственно, важно когда скорость сжатия некритична, а скорость распаковки важна

Ссылки:
[1] https://medium.com/@deephavendatalabs/the-r-place-dataset-bf4b0d70ce72
[2] https://github.com/kspalaiologos/bzip3
[3] https://www.nongnu.org/lzip/plzip.html
[4] https://sites.google.com/site/powturbo/home

#compression #tools #opensource
Проекты по открытости в России стали редкостью, честно говоря и наша команда довольно давно не запускала новых, но всегда есть возможность рассказать о таких проектах в мире.

ParlTrack [1] европейский проект мониторинга избранных представителей (депутатов) Европарламента - это база из 4166 депутатов (705 действующих), 20,3 тысяч рассмотрений, 33,7 тысяч фактов голосования, и более 958+ тысяч поправок.

Все данные доступны как открытые данные под лицензией ODbL [2], весь исходный код доступен на github [3].

Проект не развивается активно уже примерно два года, но концептуально он таков каким должны быть все подобные проекты:
- интерфейс для пользователя
- открытые данные
- открытый код
- свободные лицензии

А наиболее интересный и живой сейчас проект мониторинга парламентов - это OpenParliament.tv [4] с аннотированными видео выступлений депутатов Бундестага.

В России последний раз попытки создать подобные проекты были с 2009 по 2013 годы.

Ссылки:
[1] https://parltrack.org/
[2] https://parltrack.org/dumps
[3] https://github.com/parltrack/parltrack/
[4] https://de.openparliament.tv/

#opendata
📌 Хакатон Роскомсвободы Demhack 4

Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.

Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.

Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.

На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.

🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
В качестве небольшого преданонса, я доделываю анализ организаций входящих в реестр аккредитованных ИТ компаний, это займёт ещё какое-то время, может быть пару дней, может быть неделю, но много чего интересного там находится уже сейчас.

Думаю насколько публичными делать эти "находки" - максимально подробно и передать журналистам или только самое "странное". Для этого сейчас размещу опрос и попрошу в нём проголосовать.

Проголосовать вот тут 👉 https://t.me/begtin/3845

#thoughts
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Уже сегодня в 17 ч. будут объявлены и опубликованы результаты первого Global Data Barometer, в рамках которого проводилась оценка наличия и доступности данных в разных странах мира.

Мне удалось уже второй раз выступить в роли Researcher for Russia (предыдущий опыт был в рамках последнего издания Open Data Barometer), а Иван Бегтин (@begtin) выступил в роли регионального координатора.

По моему мнению, Open Data Barometer, а затем и Global Data Barometer, - наиболее продуманный и аргументированный международный рейтинг открытости из всех существующих (хотя даже в его методике есть те моменты, над которыми можно было бы еще подумать). С нетерпением жду результатов.

Регистрация на онлайн-мероприятие доступна по ссылке: https://us02web.zoom.us/webinar/register/WN_ekQ916ehSE6eK2Bh5CuWuA?_x_zm_rtaid=2L-izqTjQo2KX-Fmfo6i3g.1652270487891.30704ad0b6fcc8ae84f621f2356db628&_x_zm_rhtaid=86