Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from APICrafter
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.


В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets
Закончилась конференция SmartData, я выступал на ней с докладом "Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам". Мою презентацию можно посмотреть онлайн [1] или скачать по ссылке [2].

Я рассказывал о том:
- какие каталоги данных бывают
- для чего мы создаём наш каталог
- какие проблемы с этим есть
- какая архитектура решения в итоге
- какие эксперименты проводились и какие инструменты с открытым кодом существуют
- какие планы развития

Про инструменты я рассказывал о таких утилитах как:
- mongo2md [3] - автодокументирование таблиц в MongoDB
- undatum [4] - утилита командной строки для обработки BSON и JSONl
- apiready [5] - утилита автосоздания API на основе датасета
- apibackuper [6] - утилита архивации данных из API
- qddate [7] - библиотека автоматической идентификации дат в любом написании

В целом же скажу так что несмотря на то что я много лет как организую проекты, выступаю, пишу статьи, доклады, что-то организую и в целом, в основе моего заработка не программирование, я стараюсь не терять технические навыки и программировать всегда когда только могу. И всегда приятно делать что-то полезное когда это удаётся!

Ссылки:
[1] https://www.beautiful.ai/player/-MlzucmDRg7kkp2Ax2yy
[2] https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch/
[3] https://github.com/datacoon/mongo2md
[4] https://github.com/datacoon/undatum
[5] https://github.com/ivbeg/apiready
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/ivbeg/qddate

#opensource #opendata #data #tools
О том как работает публикация нормативных документов на анти-примере. 11 октября ТАСС пишет [1] что Правительство РФ утвердило Единый план по достижению национальных целей развития России и ссылается официальный портал правовой информации где такое распоряжение, действительно, есть [2]... в виде одностраничного распоряжения к которому должен был быть приложен этот документ. Что в распоряжении и написано, "Утвердить представленный Минэкономразвития России ...".

Но вот маленький нюанс, сам документ в открытом доступе появился только, барабанная дробь, 14 октября в 18 часов и только на сайте Минэкономразвития, а это, на минуточку, самый главный ключевой документ определяющий жизнь страны на 9 лет вперед. Ну, как бы определяющий, на самом деле до следующего кабинета министров, если будет его ротация в очередной электоральный цикл.

По поводу распоряжения, вначале я думал что это в pravo.gov.ru такой "косяк", всё таки ненормально когда публикуется распоряжение с такой странной, неформальной, ссылкой без указания где, кем, в какой редакции и как подготовлен документ, где он размещен и, в целом, российская нормотворческая практика всегда предполагала публикацию всего НПА целиком. Чего только стоит публикация законов о бюджете в виде документов.

Поэтому я заглянул в систему регистрации НПА Минюста. Там этот документ тоже есть, тоже на одну страницу.
Почему всё выглядит так странно если не подозрительно?

Тут надо напомнить что документ готовился по поручению [4] Президента РФ и должен был быть закончен к 1 октября, но, хотя, в распоряжении Правительства РФ от 1 октября и говорится об утверждении документа Минэкономразвития, сам документ появился не раньше 8 октября, а финальная версия 14 октября. Хотя и на сайте Минэка указана дата 1 октября, это неправда. Внутри документа [5] в свойствах указаны 8 октября 2021 г. 15:36 как дата и время создания и 14 октября 2021 г. 14:30 как дата последней редакции.

Какой может быть причина почему единый план не был приложен к распоряжению Пр-ва РФ? Единственная причина которую я вижу - это то что он не был готов к 1 октября. Но так важно было формально "закрыть" поручение Президента РФ вовремя что в ТАСС вышла заметка, в pravo.gov.ru разместили распоряжение, а то что сам план был опубликован только 14 октября, так кто бы об этом вспомнил через много месяцев. Может ли быть какая-либо другая причина таких "казусов"? Не могу ничего такого представить.

Я даже не знаю как это всё комментировать.

Ссылки:
[1] https://tass.ru/ekonomika/12632805
[2] http://publication.pravo.gov.ru/Document/View/0001202110110015
[3] https://www.economy.gov.ru/material/dokumenty/edinyy_plan_po_dostizheniyu_nacionalnyh_celey_razvitiya_rossiyskoy_federacii_na_period_do_2024_goda_i_na_planovyy_period_do_2030_goda.html
[4] https://www.rbc.ru/rbcfreenews/610d379e9a79472f804922fc
[5] https://www.economy.gov.ru/material/file/ffccd6ed40dbd803eedd11bc8c9f7571/Plan_po_dostizheniyu_nacionalnyh_celey_razvitiya_do_2024g.pdf

#lawmaking #laws #legislation #documents #government
This media is not supported in your browser
VIEW IN TELEGRAM
Спасибо читателю моего канала, копирую видео из сообщения из чата

Увы, Росстат это какая-то боль, за данными на сайте совсем не следят. Не только в разделе открытых данных, а и вообще в остальных блоках тоже.

#opendata #data #stats #rosstat
По поводу технологии Facepay внедряемой в Московском метрополитене [1] позволяющей оплачивать по биометрии (лицу) после привязке изображения лица к банковской карте через мобильное приложение уже многие написали [2] [3].

В качестве контекста

Разработчики технологии - компания VisionLabs [4] с 2017 года на 25.07% принадлежит Сбербанку, учреждена ВИЖНЛАБС Б. В. Рег. No 69469830 (НИДЕРЛАНДЫ). Имеет несколько публичных госконтрактов [5] с ФНС и другими структурами, легче найти по наименованию производителя чем по поставщику, поскольку с 2018 г. не все поставщики по 223-ФЗ указываются.

В чём проблемы и особенности этого внедрения
1. В отличие от биометрии по отпечатку пальца или радужной оболочке глаза, биометрия по лицу - это технология двойного применения. Она может использоваться как для аутентификации, проверки на подтверждение личности для совершения действий, так и для идентификации определения человека в целях отслеживания его действий.
2. Если, в первом случае, её применение связано с защитой от того что кто-то может выдать себя за другого, то во втором случае - это вопрос точности определения человека, часто, без его априорного знания что за ним может вестись наблюдение.
3. Добровольная регистрация в таких система - это предоставление системе аутентификации качественных фотографий что, в дальнейшем, может использоваться и уже используется во многих странах и внедрениях для массовой идентификации граждан.
4. Иначе говоря, условно упрощая себе доступ к тем или иным объектам, через аутентификацию по лицу, это, одновременно, добровольное согласие на последующее безконтактное наблюдение.
5. В некоторых случаях внедрение таких технологий аутентификации оправдано, например, для контроля периметра режимного объекта: атомной электростанции, тюрьмы, секретной лаборатории, иных объектов подлежащих усиленной защите.
5. Для систем имеющих высокий трафик применение технологий аутентификации не всегда является оправданным. Если оно может применяться для работы с индивидуальными устройствами (компьютер, телефон, планшет, иногда банкомат) где нет требований к проходимости и скорости, то на загруженных транспортных линиях внедрение этих технологий может и должно проходить всеобъемлющее тестирование и сравнение.
6. В любом случае применение технологий распознавания по лицу даёт слишком много дополнительных сведений о человеке эксплуатирующей организации. В случае Московского метрополитена проблема не только в технологии, но и в инструментах её применения. Мобильное приложение через которое пользователь идентифицируется собирает сведения о его точной геолокации [6], что даёт оператору системы много каких данных помимо биометрии.
7. Всегда есть люди которым нечего терять, не задумывающиеся что помимо усиления слежки правоохранительных органов, есть работа частных детективов, корпоративная слежка за сотрудниками и сотрудниками конкурентов, напрямую криминальное использование данных и многое другое. Даже частные компании не могут платить своим настолько большие зарплаты сотрудникам с доступом к подобным данным чтобы отбить у них желание в злоупотреблении данными.

В итоге
1. Есть сомнения в оправданности применения этой технологии на высоконагруженных станциях метро.
2. Распознавание лиц - это технология двойного назначения, в данном случае у нас очередное нерегулируемое внедрение без нормативной защиты физ.лиц, информация о которых собирается.
3. Полное отсутствие регулирования в части применения этих технологий. Не хранения, а именно наличия ограничений в их применении. Сейчас можно говорить что нет органа власти, иного общественного образования защищающего права граждан в этой области.
В рубрике "как это у них", в Омане принято регулирование систем с искуственным интеллектом [1] в которых устанавливается:
- необходимость проводить оценку рисков при внедрении подобных систем (risk assesment)
- необходимость проверки отсутствия предубеждений у ИИ и раскрытие того как подобная система повлияет на тех кого она затрагивает
- необходимость запрашивать предварительное согласие у тех кого система ИИ затрагивает

Пока эти нормы не имеют обязательного статуса и оформлены как рекомендации Министерства транспорта, коммуникаций и информационных технологий Омана, распространяются только на государственные учреждения, органы власти и госкомпании. Также в нормах упоминается шесть принципов: инклюзивность, человеко-центричность, подочетность, честность, прозрачность и безопасность.

Продолжая тему Омана, у страны есть схожий с Россией тренд - рост числа участия государства в экономике. Как пишут WAF News Agency [2] по открытым источникам за последние 5 лет появилось 104 новых государственных предприятия, в основном через вхождение государства в значимые крупные отрасли: финансы, туризм, поставки продовольствия, энергетика, логистика.


Ссылки:
[1] https://opendata.om/2021/new-omani-government-policy-on-the-use-of-artificial-intelligence/
[2] https://bit.ly/3aQdSba

#ai #regulation #oman #government
В рубрике "как публиковать данные" стандарт раскрытия данных о городской инфраструктуре CityGML 3.0 [1], разработан Open Geospatial Consortium, доступен вместе с референсной реализацией [2] под лицензией MIT и используется для описания физических объектов в городском пространстве, например, домов, малых архитектурных форм и тд.

Пример применения - набор данных LoD3 Road Space Models [3] в котором описаны более 50 домов города Ингольстадт в Баварии (Германия). Набор данных смоделирован по результатам мобильного лазерного сканирования (MLS) и не просто даёт картинку здания/объекта, но и декомпозирует и определяет все его конструкционные элементы.



Ссылки:
[1] https://www.ogc.org/standards/citygml
[2] https://github.com/opengeospatial/CityGML-3.0Encodings
[3] https://github.com/savenow/lod3-road-space-models

#opendata #datasets #urban #data #germany
Forwarded from Roem.ru
Немного странно предупреждать об этом предпринимателей, но имейте в виду: Крипто Про CSP 4 в Windows 11 резко портит связность.

* Например, Outlook перестаёт подключаться к почтовым серверам Gmail, Яндекса и Mail.ru

* Нам рассказывают, что компы с Крипто Про не подключаются к серверам Discord и Steam (если предприниматель стильный, модный, современный и немного хипстер, конечно)

При этом новая версия Крипто Про (пятая) пока ещё в Release Candidate.

Так что если вы пользуетесь этим софтом — не обновляйтесь на Windows 11, подождите.
Свежая новость, в Аргентине украдены данные о 45 миллионах паспортов граждан [1] [2]. Взлом произошёл через VPN аккаунт Министерства здравоохранения страны и уже подтвержден Министерством внутренних дел. А сам хакер уже планирует продавать эти данные.

Честно говоря, сложно добавить к этой новости что-то кроме того что для особо крупных баз данных физ лиц нельзя использовать те же подходы что и для защиты данных меньшего объёма. Чем больше база - тем больше риск. И планы нашего правительства по ускорению создания Единого регистра населения, цифровым паспортам и тд. лично у меня вызывают очень большие опасения. Баз будет много, они будут дублировать друг друга и число людей имеющих к ним доступ растёт.

Последствия могут быть катастрофичными.

Ссылки:
[1] https://roem.ru/19-10-2021/287005/argentina-id-breach/
[2] https://therecord.media/hacker-steals-government-id-database-for-argentinas-entire-population/

#privacy #leaks #argentina
Сегодня в 15:00 я выступаю на Eurasian Data Protection Congress 2021 с докладом Слежка за гражданами через мобильные государственные приложения, а сам конгресс начнётся уже скоро, в 10:00 с трансляцией на сайте https://edpc.network

Будет много интересных спикеров, актуальных вопросов о приватности граждан, так что рекомендую даже тем кто пока ещё далек от тем приватности.

#privacy #events #surveillance
В рубрике интересных наборов данных, имена детей в Англии и Уэльсе начиная с 1996 по 2020 годы [1]. Публикуется офисом национальной статистики Великобритании, содержит сведения о более чем 16 тысячах мужских и 20 тысячах женских имён, по каждому имени есть статистика родившихся начиная с 1996 года по 2020 год, а также рейтинг имени по каждому году.

Ссылки:
[1] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/livebirths/datasets/babynamesinenglandandwalesfrom1996

#opendata #uk #names #datasets
В рубрике интересных наборов данных, опубликованные открытые данные о полётах во время пандемии Crowdsourced air traffic data from The OpenSky Network 2020 [1]. Данные представлены в виде архивированных csv файлов слепками с 2019 года, последнее обновление было в сентябре 2021 года.

Могут быть полезны исследователям изучающим последствия COVID-19 для экономики и дата-журналистам ищущим интересные данные для визуализации.

Ссылки:
[1] https://zenodo.org/record/5557026#.YW3qSxxn2Uk

#opendata #covid-19 #flights #datasets
Моя презентация с конгресса EDPC о слежке через государственные мобильные приложения [1].
В презентации всё сказанное не передашь, так что задавайте вопросы/комментируйте в чате

Ссылки:
[1] https://www.beautiful.ai/player/-MmSXg4uXGoxpIGjBlSc

#privacy
В рубрике "как это устроено у них" технологии в госсекторе

Технологии работы с контентом
-
Isomer - движок с открытым кодом по быстрому созданию контентных сайтов, создано в рамках Open Government Products подразделением GovTech Сингапура
- Federalist - платформа для создания сайтов в домене .gov в США, с открытым кодом, от команды 18F (подразделение разработки при агентстве GSA)

Официальные порталы для разработчиков правительств стран и органов власти
- Singapore Government Developer Portal - портал разработчиков с API и документацией по системам правительства Сингапура
- Canada API Store - каталог общедоступных API правительства Канады
- UK API Catalogue - каталог общедоступных правительства Великобритании
- API.GOV.AU - каталог общедоступных API правительства Австралии
- API SETU - каталог общедоступных API Министерства электроники и ИТ Индии
- API.GOUV.FR - портал с API органов власти Франции

Данные для массовой выгрузки
- Trove Bulk Download - слепки коллекций Австралийских национальных архивов, например, сканы газет с 1832 года. Публикуются через Cloudstor, специальный сервис хостинга данных/документов/иных информационных материалов для исследователей созданный консорциумом университетов и научных центров страны
- UNESCO Bulk Data Download Services (BDDS) - портал выгрузки индикаторов устойчивого развития ЮНЕСКО (на самом деле данные малого объёма)
- Eurostat Bulk Download - раздел массовой выгрузки всех показателей Евростата
- FAOSTAT Bulk Download - возможность получить все данные системы FAOSTAT от UN Food and Agriculture Organization

#government #data #api #cms
В рубрике "как это работает у них" Статистическое ведомство Канады создает базу всех зданий страны, The Open Database of Buildings (ODB) [1] в которую собирает данные с порталов открытых данных всех провинций страны.


На основе этой и других баз данных создают интегрированную базу данных зданий Integrated Canadian Building Footprints (ICBF) для которой:
- используют данные ODB
- раскрывают весь исходный код скриптов сбора и обработки данных [2]
- получают данные из OpenStreetMap (Geofabrik) [3]
- используют данные открытого набора данных Microsoft Canadian Building Footprints [4] открытого корпорацией Microsoft под свободной лицензией в 2018 году, выгружены из карт Bing
- используют файлы границ переписных участков [5] и границ территорий [6] подготовленных статведомством и раскрываемых как открытые данные

Ссылки:
[1] https://www.statcan.gc.ca/eng/lode/databases/odb
[2] https://github.com/CSBP-CPSE/ICBF-EIIC
[3] https://www.geofabrik.de/
[4] https://github.com/microsoft/CanadianBuildingFootprints
[5] https://www12.statcan.gc.ca/census-recensement/2011/geo/bound-limit/files-fichiers/2016/lcsd000b16a_e.zip
[6] http://www12.statcan.gc.ca/census-recensement/2011/geo/bound-limit/files-fichiers/2016/lpr_000a16a_e.zip

#opendata #statistics #datasets #opensource
В Великобритании энергокомпания UK Power Power Network открыли портал открытых данных [1] с 30 наборами данных о их деятельности и инфраструктуре. СМИ пишут [2] что они первая энергокомпания в Великобритании пошедшая на такой шаг. Данные, действительно, все машиночитаемы и, что подчеркивается, опубликованы под стандартной открытой лицензией CC-BY 4.0

Ссылки:
[1] https://ukpowernetworks.opendatasoft.com
[2] https://www.current-news.co.uk/news/ukpn-fostering-a-community-of-open-data-users-with-new-portal

#opendata #uk #energy #corporates
This media is not supported in your browser
VIEW IN TELEGRAM
Судебный департамент блокирует доступ к ряду информационных ресурсов не с российских IP адресов. Например, при заходе на раздел "Федеральные суды общей юрисдикции" или в поиск по судебным делам. Проверялось на VPN с серверами во Франции и в Эстонии.

Удивительного в этом ничего нет, во многих странах органы власти блокируют доступ для стран и больших макрорегионов. Например, портал data.gov в США не открывается с российских IP адресов и таких примеров много.

Но, конечно, в данном случае это странно поскольку участники судебных слушаний могут быть не только внутри страны, а блокировки запросов безальтернативны, не дают ответа на каком основании они производятся м что делать.

#internet #data #courts #access