Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике "как публиковать данные" стандарт раскрытия данных о городской инфраструктуре CityGML 3.0 [1], разработан Open Geospatial Consortium, доступен вместе с референсной реализацией [2] под лицензией MIT и используется для описания физических объектов в городском пространстве, например, домов, малых архитектурных форм и тд.

Пример применения - набор данных LoD3 Road Space Models [3] в котором описаны более 50 домов города Ингольстадт в Баварии (Германия). Набор данных смоделирован по результатам мобильного лазерного сканирования (MLS) и не просто даёт картинку здания/объекта, но и декомпозирует и определяет все его конструкционные элементы.



Ссылки:
[1] https://www.ogc.org/standards/citygml
[2] https://github.com/opengeospatial/CityGML-3.0Encodings
[3] https://github.com/savenow/lod3-road-space-models

#opendata #datasets #urban #data #germany
Forwarded from Roem.ru
Немного странно предупреждать об этом предпринимателей, но имейте в виду: Крипто Про CSP 4 в Windows 11 резко портит связность.

* Например, Outlook перестаёт подключаться к почтовым серверам Gmail, Яндекса и Mail.ru

* Нам рассказывают, что компы с Крипто Про не подключаются к серверам Discord и Steam (если предприниматель стильный, модный, современный и немного хипстер, конечно)

При этом новая версия Крипто Про (пятая) пока ещё в Release Candidate.

Так что если вы пользуетесь этим софтом — не обновляйтесь на Windows 11, подождите.
Свежая новость, в Аргентине украдены данные о 45 миллионах паспортов граждан [1] [2]. Взлом произошёл через VPN аккаунт Министерства здравоохранения страны и уже подтвержден Министерством внутренних дел. А сам хакер уже планирует продавать эти данные.

Честно говоря, сложно добавить к этой новости что-то кроме того что для особо крупных баз данных физ лиц нельзя использовать те же подходы что и для защиты данных меньшего объёма. Чем больше база - тем больше риск. И планы нашего правительства по ускорению создания Единого регистра населения, цифровым паспортам и тд. лично у меня вызывают очень большие опасения. Баз будет много, они будут дублировать друг друга и число людей имеющих к ним доступ растёт.

Последствия могут быть катастрофичными.

Ссылки:
[1] https://roem.ru/19-10-2021/287005/argentina-id-breach/
[2] https://therecord.media/hacker-steals-government-id-database-for-argentinas-entire-population/

#privacy #leaks #argentina
Сегодня в 15:00 я выступаю на Eurasian Data Protection Congress 2021 с докладом Слежка за гражданами через мобильные государственные приложения, а сам конгресс начнётся уже скоро, в 10:00 с трансляцией на сайте https://edpc.network

Будет много интересных спикеров, актуальных вопросов о приватности граждан, так что рекомендую даже тем кто пока ещё далек от тем приватности.

#privacy #events #surveillance
В рубрике интересных наборов данных, имена детей в Англии и Уэльсе начиная с 1996 по 2020 годы [1]. Публикуется офисом национальной статистики Великобритании, содержит сведения о более чем 16 тысячах мужских и 20 тысячах женских имён, по каждому имени есть статистика родившихся начиная с 1996 года по 2020 год, а также рейтинг имени по каждому году.

Ссылки:
[1] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/livebirths/datasets/babynamesinenglandandwalesfrom1996

#opendata #uk #names #datasets
В рубрике интересных наборов данных, опубликованные открытые данные о полётах во время пандемии Crowdsourced air traffic data from The OpenSky Network 2020 [1]. Данные представлены в виде архивированных csv файлов слепками с 2019 года, последнее обновление было в сентябре 2021 года.

Могут быть полезны исследователям изучающим последствия COVID-19 для экономики и дата-журналистам ищущим интересные данные для визуализации.

Ссылки:
[1] https://zenodo.org/record/5557026#.YW3qSxxn2Uk

#opendata #covid-19 #flights #datasets
Моя презентация с конгресса EDPC о слежке через государственные мобильные приложения [1].
В презентации всё сказанное не передашь, так что задавайте вопросы/комментируйте в чате

Ссылки:
[1] https://www.beautiful.ai/player/-MmSXg4uXGoxpIGjBlSc

#privacy
В рубрике "как это устроено у них" технологии в госсекторе

Технологии работы с контентом
-
Isomer - движок с открытым кодом по быстрому созданию контентных сайтов, создано в рамках Open Government Products подразделением GovTech Сингапура
- Federalist - платформа для создания сайтов в домене .gov в США, с открытым кодом, от команды 18F (подразделение разработки при агентстве GSA)

Официальные порталы для разработчиков правительств стран и органов власти
- Singapore Government Developer Portal - портал разработчиков с API и документацией по системам правительства Сингапура
- Canada API Store - каталог общедоступных API правительства Канады
- UK API Catalogue - каталог общедоступных правительства Великобритании
- API.GOV.AU - каталог общедоступных API правительства Австралии
- API SETU - каталог общедоступных API Министерства электроники и ИТ Индии
- API.GOUV.FR - портал с API органов власти Франции

Данные для массовой выгрузки
- Trove Bulk Download - слепки коллекций Австралийских национальных архивов, например, сканы газет с 1832 года. Публикуются через Cloudstor, специальный сервис хостинга данных/документов/иных информационных материалов для исследователей созданный консорциумом университетов и научных центров страны
- UNESCO Bulk Data Download Services (BDDS) - портал выгрузки индикаторов устойчивого развития ЮНЕСКО (на самом деле данные малого объёма)
- Eurostat Bulk Download - раздел массовой выгрузки всех показателей Евростата
- FAOSTAT Bulk Download - возможность получить все данные системы FAOSTAT от UN Food and Agriculture Organization

#government #data #api #cms
В рубрике "как это работает у них" Статистическое ведомство Канады создает базу всех зданий страны, The Open Database of Buildings (ODB) [1] в которую собирает данные с порталов открытых данных всех провинций страны.


На основе этой и других баз данных создают интегрированную базу данных зданий Integrated Canadian Building Footprints (ICBF) для которой:
- используют данные ODB
- раскрывают весь исходный код скриптов сбора и обработки данных [2]
- получают данные из OpenStreetMap (Geofabrik) [3]
- используют данные открытого набора данных Microsoft Canadian Building Footprints [4] открытого корпорацией Microsoft под свободной лицензией в 2018 году, выгружены из карт Bing
- используют файлы границ переписных участков [5] и границ территорий [6] подготовленных статведомством и раскрываемых как открытые данные

Ссылки:
[1] https://www.statcan.gc.ca/eng/lode/databases/odb
[2] https://github.com/CSBP-CPSE/ICBF-EIIC
[3] https://www.geofabrik.de/
[4] https://github.com/microsoft/CanadianBuildingFootprints
[5] https://www12.statcan.gc.ca/census-recensement/2011/geo/bound-limit/files-fichiers/2016/lcsd000b16a_e.zip
[6] http://www12.statcan.gc.ca/census-recensement/2011/geo/bound-limit/files-fichiers/2016/lpr_000a16a_e.zip

#opendata #statistics #datasets #opensource
В Великобритании энергокомпания UK Power Power Network открыли портал открытых данных [1] с 30 наборами данных о их деятельности и инфраструктуре. СМИ пишут [2] что они первая энергокомпания в Великобритании пошедшая на такой шаг. Данные, действительно, все машиночитаемы и, что подчеркивается, опубликованы под стандартной открытой лицензией CC-BY 4.0

Ссылки:
[1] https://ukpowernetworks.opendatasoft.com
[2] https://www.current-news.co.uk/news/ukpn-fostering-a-community-of-open-data-users-with-new-portal

#opendata #uk #energy #corporates
This media is not supported in your browser
VIEW IN TELEGRAM
Судебный департамент блокирует доступ к ряду информационных ресурсов не с российских IP адресов. Например, при заходе на раздел "Федеральные суды общей юрисдикции" или в поиск по судебным делам. Проверялось на VPN с серверами во Франции и в Эстонии.

Удивительного в этом ничего нет, во многих странах органы власти блокируют доступ для стран и больших макрорегионов. Например, портал data.gov в США не открывается с российских IP адресов и таких примеров много.

Но, конечно, в данном случае это странно поскольку участники судебных слушаний могут быть не только внутри страны, а блокировки запросов безальтернативны, не дают ответа на каком основании они производятся м что делать.

#internet #data #courts #access
Forwarded from prometa.pro книжки
А впервые я заинтересовалась всей темой ограниченных возможностей лет пятнадцать назад, когда мы разрабатывали официальный портал Минздравсоцразвития (сейчас это ведомство разделено на два отдельных министерства). Я тогда решила, что одной из ключевых особенностей портала должна будет стать его принципиальная доступность для слабовидящих и незрячих пользователей, и тут передо мной открылся новый мир - нашелся специальный международный стандарт доступности веб-информации WCAG, который обеспечивал нормальное отображение сделанного по стандарту сайта на устройствах и программах для слабовидящих и незрячих пользователей: на всех этих экранах и принтерах Брайля, в программах для озвучивания, просто настройках операционной системы, которые используются в таких случаях. Через пару лет эта тема стала ужасно модной, что хорошо, и какое-то время все нормальные госсайты и даже сайты крупных компаний стали делаться, если не по стандарту, то хотя бы с версиями для слабовидящих, хотя эту дурацкую версию тоже когда-то придумала я, как временный костыль, пока доверстывали в стандарт, а она прижилась. Понятно почему - соответствие стандарту снаружи не видно, а социально-ответственную кнопку видно. Но вообще эту версию любили и обычные сотрудники министерства, потому что она очень четкая была и без лишнего. Я тогда еще проводила семинары про доступность, встречалась с главой соответствующего подразделения консорциума W3C, когда она приезжала из США, брала экспертизу у Всероссийского общества слепых и много консультировалась с экспертами по доступности. Можно было бы гордиться, что принесли в страну такую важную практику, потому что мы реально были первыми, кто это начал делать, но сейчас тема доступности как-то подпомеркла. Что ужасно неправильно. Не знаю, что будет, если сейчас проверить ключевые сайты на соответствие WCAG.
Объясните мне, знающие люди, зачем часть сайтов и, может быть, инфраструктуры Мэрии Москвы находится за пределами РФ? Например, хостится на серверах Hetzner, Германия. Это такой хостер-дискаунтер, хороший в своём классе, но далёкий от России.

Вот примеры:
- inno.mos.ru - IP: 78.46.71.197 (открывается пустая страница)
- cgrt.mos.ru - IP: 176.9.230.170 (не открывается)
- gk.tech.mos.ru - IP: 138.201.197.43 (заглушка на немецком языке)
- aupd-test.mos.ru - IP: 95.216.13.234 (тестовая страница Московской электронной школы)
- new.dit.mos.ru - IP: 176.9.230.170 (не открывается)

Я, конечно, всё понимаю, немецкое качество и всё такое, но как так можно случайно сделать?

Это не единственный зарубежный хостер на который указывают домены в зане mos.ru и этот список не финальный. Читающим меня сотрудникам ДИТ Москвы я бы посоветовал проверить тщательно, потому что нельзя так делать.

#privacy #security #internet #moscow
Forwarded from APICrafter
В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей

Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.

На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч

Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.

#data #classifiers #moscow #catalogs #datacatalog
В качестве того как устроена работа порталов открытых данных, найду место не только для критики в адрес органов власти.

Например, московский портал data.mos.ru про данные из которого я совсем недавно писал как загруженные в DataCrafter. Из порталов открытых данных которые в России эксплуатируются, он один из наиболее живых, хотя там и не обновляли новости с 2019 года на самом портале.

Почему? Потому что это один из немногих порталов со структурированным хранилищем внутри. Данные хранятся изначально в СУБД в табличном и иерархическом виде, а во внешний контур отдаются слепками с текущей версии и возможностью получения их в XML/JSON/CSV форматах. Таких порталов данных в России создавалось немного, они дороже в ведении чем файлоcборники, в них ведутся метаданные к базам данных и, в принципе, с точки зрения управления данными, это более зрелые продукты.

К таким же можно отнести портал открытых данных Санкт-Петербурга data.gov.spb.ru, портал НСИ ФФОМС РФ nsi.ffoms.ru, портал открытых данных Минкультуры РФ opendata.mkrf.ru и ещё несколько десятков, а также некоторые отраслевые системы такие как ЕСИМО esimo.ru тоже, факту, являются порталами данных, со своими системами метаданных, правилами регистрации баз данных, экспортом наборов данных и так далее.

Когда-то, я помню, что московский портал data.mos.ru появился ещё до федерального data.gov.ru и сейчас в нём несколько десятков гигабайт данных. 4 ГБ последних версий и точно не скажу, но больше 15 ГБ архивных слепков наборов данных.

Главная же беда всех порталов открытых данных в России без исключения в низкой актуальности публикуемых данных. Данные обновляются редко, наиболее чувствительные данные не обновляются. Я могу сказать что сейчас в DataCrafter'е количественно больше данных из каталогов данных, они составляют около 90% всех наборов данных, а после загрузки запланированных на этот год каталогов их будет 99%. Но объёмно, в числе записей и в гигабайтах, основные данные - это данные из государственных информационных систем. Они составляют более 70% всех хранимых данных, не считая данных о госзакупках и юрлицах, которые ведутся у нас отдельно.

Поэтому каталог открытых данных у Москвы не так уж плох, но, конечно, и он может быть лучше, сильно лучше.

#opendata #datacatalogs #moscow #nsi
Forwarded from APICrafter
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей

В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.

#opendata #datacatalogs #medicine #data #datasets
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.

Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.

Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.

API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).

Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
О том когда открытые данные - это не открытые данные. Например, Фонд пространственных данных Санкт-Петербурга упоминает многочисленные данные в своем каталоге как открытые данные. Но, в понимании создателей фонда, открытые данные - это такие данные по которым плата не взимается, но всё равно надо заполнить заявку с заполнением всех своих паспортных данных, то зачем тебе данные нужны и ещё много чего.

То есть открытое в их понимании - это бесплатное. Что, конечно же, не синонимы, а называть открытыми данными такое некорректно.

#opendata #spb #geodata
Интересные стартапы анализа качества данных и качества потоков данных, развивающиеся в мире, но пока малоприменимые в России.

* Metaplane - позиционируют себя как Datadog для данных, позводяют отслеживать резкие изменения в потоках данных и предупреждать при их возникновении. Подключаются к облачным хранилищам и сервисам вроде Amazon Redshift, Snowflake, Google BigQuery, dbt, Looker. Публикуют полезный обзор State of data quality monitoring
* Anomalo - сервис мониторинга аномалий в данных, на текущий момент существует в виде концепта/прототипа/демо, обещают высокую автоматизацию, если даже не автоматическое выявление аномалий в потоках данных
* Data Fold - сервис каталогизации, систематизации данных и предупреждений при нарушениях в потоках данных. У них фокус на такое явление как data outages - задержки в поставках данных и оперативное реагирование. Сервисы с которыми интегрируются практически те же что и у Metaplane
* Databand - платформа для наблюдаемости данных, data observability, с большим списком интегрируемых сервисов и системами предупреждений при аномалиях

Почему практически все они малоприменимы в Росии? Такие платформы оказываются полезны только когда компания уже перенесла или переносит мощности по обработке данных в облака. Когда хранение данных уже вынесено из внутрикорпоративного контура, гораздо легче принимается решение о их внешнем мониторинге и обработке. В России этот тренд всё ещё не настолько проявляется, но постепенно он формируется.

#observability #data #dataquality