Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В 2019 году кто-то структурировал и визуализировал Библию, а мы ее случайно нашли в книжных магазинах Еревана. Уровень проработанности поражает. Вот бы и Закон о бюджете в таком же виде представляли (Бюджеты для граждан не предлагать, им пока до этого уровня далеко. Всем кроме Москвы)
В рубрике как это работает у них Геопортал Госкартгеофонда Республики Беларусь [1]. Создан на базе ПО с открытым кодом Geonetwork, включает как изображения карт, в основном ещё времен СССР, так и геосервисы для отображения. Геосервисы реализованы на базе ПО с открытым кодом Geoserver, например, http://gisserver.nca.by:8080/geoserver и https://meta.geo.by/geoserver и доступны для подключения WFS, WCS, WMS и др.

По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.

Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork

#opendata #geodata #belarus #datacatalogs
Amnesty International опубликовали в начале мая доклад Automated Aparteid [1] о том как в Восточном Иерусалиме и Хевроне они провели исследование и обнаружили огромное число камер и подтверждение слежки с их помощью. В докладе довольно много всего про масштаб цифрового наблюдения и отдельный акцент на почти полной непрозрачности всей этой деятельности. Доклад довольно резкий в отношении Израиля с другими акцентами чем привычные публикации про злоупотребление мониторингом камерами. Обычно все говорят о праве граждан на ограничение государства и корпораций в слежке за жителями и опрозрачивание работы систем слежки для граждан/налогоплательщиков, а здесь особая ситуация спорных территорий и слежки за гражданами другого государства. В мире таких прецедентов не так много, не так часто границы стран являются не только спорными, но и густо населены.

И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.

Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf

#surveillance #izrael #privacy
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла версия 1.0 корпоративного каталога данных Open Metadata [1] с открытым кодом. Продукт интересный, даёт уйму интересных возможностей для тех кто делает свои корпоративные каталоги данных и систематизирует внутренние ресурсы в виде данных. Я давно к нему присматриваюсь и, хотя пока ещё не смотрел версию 1.0, обязательно посмотрю. В том числе они заявляют автоматическое выявлении персональных данных (Auto PII Classification), а я продолжаю заниматься небольшим продуктом по идентификации семантических типов данных и персональные данные туда тоже входят.

Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.

Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.


Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916

#opensource #datacatalogs #metadata
В рубрике полезного чтения про данные, технологии и не только:
- Zero ELT could be the death of the Modern Data Stack [1] о том как вендоры крупнейших SaaS платформ могут в короткий срок убить всю экосистему Modern Data Stack реализовав достаточно простые инструмент для загрузки данных. Zero ETL - это, по сути, "убиение" ETL, например, в этот подход склоняются Amazon и Snowflake. Вообще процесс можно описать таким образом. Вначале появляется потребность в работе с данными в облачных сервисах, в первую очередь эта потребность у тех кто и так держит данные в облаках и многочисленными провайдерами разных сервисов, вроде платежных, и вынужден объединять данные. Потом появляются нишевые стартапы хорошо решающие конкретные задачи автоматизации работы с данными (всё как по учебнику), такие как Fivetran, Dbt, Hightouch и другие. Они оказываются основой Modern data stack, объединяющего понятия хорошо интегрированных сервисов работы с данными и, наконец, оказывается что клиентам управление сложностью возникшей конфигурации может быть более затратно, чем более простые инструменты, но интегрированные в платформу базового провайдера. Поэтому Zero ETL действительно имеет хорошие перспективы.

- We need to talk about Excel [2] автор и критикует и хвалит Excel и приводит в пример несколько стартапов которые не то чтобы его заменяют, но дают некоторые близкие возможности, при этом самому Excel как продукту до сих пор замены нет. Размышления вполне структурированы и аргументированы. Я лично когда думал про Excel понял что для меня всегда главной нелюбовью к нему был язык VBA. При том что когда-то, много лет назад, я на нём даже мог писать сложные макросы и отлаживать непростой код, тем не менее он до сих пор ощущается как крайне неудобный. Будь в MS Excel нативная поддержка, например, Python. Может быть когда-нибудь Microsoft поглотит PyXLL [3] и такая поддержка появится.

- Polars – Laziness and SQL Context. [4] автор пишет о том что Polars это не только более производительный инструмент для аналитики чем Pandas, но и обладает несколькими полезными функциями такими как ленивая загрузка файлов позволяющая обрабатывать файлы размером больше чем объём памяти и SQL контекст с помощью которого можно делать SQL запросы, например, к таким лениво загруженным файлам. Возможности полезные когда работаешь с данными относительно большого объёма.


Ссылки:
[1] https://medium.com/@hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d
[2] https://davidsj.substack.com/p/we-need-to-talk-about-excel
[3] https://www.pyxll.com
[4] https://www.confessionsofadataguy.com/polars-laziness-and-sql-context/

#data #datatools #readings #etl
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.

По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.

В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.

Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf

#openaccess #openscience #bulgaria #eu
В рубрике как это устроено у них общественный портал открытых данных Шотландии Open Data Scotland [1] создан сообществом активистов в Шотландии в рамках проекта OD_BODS и включает описание 1887 наборов данных собранных из пары десятков источников данных. Особенность Шотландии в том что региональные власти до сих пор не создали портал открытых данных при том что их много на муниципальном уровне, у отдельных органов власти и у местных университетов. Активисты решили сделать такой портал самостоятельно и, что интересно, не поленились написать сборщики данных (харвестеры) для почти всех порталов данных и собирают данные автоматически.

Из интересного, на портале реализован довольно полезный раздел аналитики [2].

Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.

Всё это о том что не надо ждать милости от природы когда власти вашей страны/региона/города решат создать портал открытых данных, его всегда можно создать самостоятельно. По крайней мере в тех странах где есть хоть какие-то данные.

Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland

#opendata #datasets #uk #scotland
В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.

Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.

Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.

Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.

Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования

Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings

#opendata #datasets #microsoft #geospatial
Я периодически читаю и слышу вопросы на тему где найти данные о xxx по стране yyy? В сообществах по открытым данным это самый частый вопрос, второй по частоте это где найти бесплатные данные о xxx ? Это когда автор вопроса данные уже нашёл, но платить не готов или не готов платить то за сколько данные продают самые очевидные продавцы.

Так вот про то где искать данные я уже неоднократно писал, например в рассылке в публикации Где искать данные?[1] и с тех пор список рекомендаций регулярно пополняется.

И вот ещё несколько таких пополнений:
- Geolode [2] открытый каталог открытых геоданных. Включает как ссылки на порталы геоданных, так и ссылки на конкретные большие базы георесурсов. Из плюсов - весь каталог машиночитаемый и все записи помечены темами и кодами местонахождения. Из минусов - многие записи устарели и описания имеющихся очень короткие. Тем не менее полезный инструмент когда Вы ищите геоданные привязанные к конкретной территории, можно найти очень неочевидные источники

- DataShades [3] каталог инсталляций портала открытых данных CKAN. CKAN не единственный, но самый популярный движок для открытых данных и в его инсталляциях в нужных странах можно найти довольно много интересного.

- Open Data Inception [4] большой каталог каталогов данных от OpenDataSoft. Они там, конечно, врут про 2600+ каталогов данных, там очень многие ссылки - это ссылки на законы, госполитику, отдельные датасеты и тд. Так что верить им нельзя, но есть и вполне полезные ссылки.

Эти ресурсы не являются поисковиками по данным, а скорее являются метакаталогами источников данных. Полезными при ручном поиске нужных данных в привязке к конкретным странам.


Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://geolode.org
[3] https://datashades.info
[4] https://opendatainception.io
[5] https://github.com/commondataio/dataportals-registry

#opendata #datadiscovery
Очень забавный по подаче проект карты Github'а [1] с визуализацией 400,000+ Github репозиториев.

Автор собрал базу в 350 миллионов лайков ("звездочек" в Github) и подсчитал коэффициент Жаккара для всех репозиториев и собрал кластеры репозиториев и далее оформил в интерактивную карту. Многие делали разные базы и визуализации Github, но вот эта, пожалуй, особенно неплоха.

Например, я там нашёл "полуостров открытого кода для публикации открытых данных" (CKAN, Dataverse и тд). Там видны довольно чёткие кластер по ИИ и данным и так далее.

Практического применения этому пока не видно, но как визуализация вполне неплохо.

Ссылки:
[1] https://anvaka.github.io/map-of-github/

#opensource #dataviz #github
Интересный текст Silicon Valley’s Civil War [1] от Nadia Asparouhova о контрэлите из Кремниевой долине. Контрэлита, в данном случае, это совокупный образ сверхбогатых техно-олигархов вроде Маска или Цукерберга провопоставляемых условно "классической элите", а в данном случае автор ещё и сопоставляет их с Давосским форумом, как совокупное представление элиты.

В тексте хорошие примеры очень быстрой реакции именно контрэлиты в лице Ryan Petersen из Flexport по личному анализу проблем с доставкой во время COVID-19 и про Patrick Collison, сооснователя Stripe, который в течение недели собрал и раздал грантов на $50 миллионов учёным исследующим COVID-19 и долго ожидающим начала финансирования от National Institute of Health в США.

Текст, кстати, во многом объясняющий столь контрастную реакцию на деятельность Элона Маска, он довольно яркий представитель контр-элиты. В статье есть также противопоставление поколенческое и, возможно, им же можно объяснить этот термин контр элит, но важное отличие именно представителей контр элиты в индивидуализме, собственном восприятии мира и готовностью менять мир.

В итоге текст интересный, как минимум дающий дополнительный взгляд на происходящее

Ссылки:
[1] https://www.tabletmag.com/sections/news/articles/silicon-valley-civil-war

#readings #tech
По поводу перевода сайтов российских госорганов в доменную зону .gov.ru я вначале с большим недоумением прочитал что российские СМИ вообще считают это инфоповодом и активно об этом пишут. Потом я вспомнил про те масштабные ротации и кризис в российских СМИ в последние годы и недоумение пропало, но ситуация от этого менее идиотской не стала.

Я много лет веду реестр всех российских госсайтов, его публичная часть в репозитории на Github [1] и есть ещё непубличная часть в таблице в Airtable и я слишком хорошо знаю сколько и какие домены госорганы используют в работе, где они хостятся и так далее.

Перевод сайтов сайтов в зону .gov.ru обсуждался ещё 10-15 лет назад, и не так давно, пару-тройку лет назад, предпринимались усилия по переносу многих сайтов госорганов, большую часть с той поры перенесли, но не все.

Перенос домена сайта госоргана в зону .gov.ru - это вопрос скорее эстетический, по принципу "почему у всех правильно, а тут нет?", меня тоже всегда раздражало что сайты многих госорганов и госинициатив надо искать. Неудобно же!

Но, тут важно помнить, что нахождение сайтов госорганов в одной доменной зоне может иметь всего два практических смысла:
1. Большее доверие сайтам госорганов в ситуации когда есть "сайты обманки" или каким-то образом возникали ситуации недоверия. Это не то чтобы часто является проблемой, но иногда важно.
2. Возможность архивации сайтов госорганов автоматизированными краулерами. Так, например, устроено в Великобритании, где Национальный архив архивирует все сайты в зоне .gov.uk каждый час. Это называется UK Government Web Archive [2] и такие же инициативы есть в десятках стран, во всех странах где есть думают о будущем, я бы сказал.

Про практический смысл, первый пункт в России не актуален, а второй до сих пор ни в какой форме не реализован. Я за все эти годы не увидел ни одной инициативы внутри российского государства по архивации хотя бы собственных принятых решений. Хочется иронично спросить, как же так, если за то что делаете не стыдно, то сохраняйте для потомков, а если так стыдно что не сохраняете, то может и не делать? Поэтому если кратко, все инициативы по архивации сайтов госорганов в России сейчас гражданские, вроде нашего Национального цифрового архива [3]

Остаётся эстетический смысл исключительно который выглядит так что кто-то хочет обсудить цвет двери которую уже сорвало с петель и порвало на части. Важно ли что эта дверь была зёленая? Может быть салатово-фиолетовой ей было бы быть лучше? Иначе говоря на фоне повсеместного постепенно закрытия госданных, исчезновение ключевой информации с сайтов госорганов, изначальная непрозрачность множества инициатив, де-факто разрушение российской журналистики и исчезновение возможности журналистам получать содержательные ответы от госорганов, и при этом говорить про госдомены в зоне .gov.ru ? Самое близкое к этому - это публичное рукоблудие. Общественное внимание привлекает, смысла не имеет, приличия тоже.

Лично мне нет никакой разницы находится ли сайт криминальной статистики crimestat.ru в зоне .gov.ru или нет если он более не обновляется. Нет разницы находится ли национальный портал открытых данных data.gov.ru в зоне .gov.ru или нет, если он закрыт, и судя по сумбурности представителей Минэка, надолго если не навсегда и так далее.

В истинном золоте блеска нет и двулично говорить о том что надо делать хоть что-то что можно в текущей ситуации. Просто не надо тратить время на эту ерунду. Я вот немного потратил его, о чём уже жалею, и написал про это всё и больше не буду.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] https://www.nationalarchives.gov.uk/webarchive/
[3] https://ruarxive.org

#government #transparency #websites #opendata #opengov
Forwarded from LegalTech
🇪🇺Европарламент принял поправки к закону об ИИ.

В Европарламенте приняли первые в истории правила для искусственного интеллекта. Правила придерживаются риск-ориентированного подхода, и устанавливают обязательства для поставщиков и пользователей в зависимости от уровня риска, который может генерировать ИИ.

Запреты установлены на следующие использование систем ИИ:

- Системы удаленной биометрической идентификации “в реальном времени” в общедоступных пространствах;
- Системы биометрической категоризации, использующие чувствительные характеристики (например, пол, раса, этническая принадлежность, статус гражданства, религия, политическая ориентация);
- Системы прогнозирования полицейской деятельности (на основе профилирования, местоположения или прошлого преступного поведения);
- Системы распознавания эмоций в правоохранительных органах, управлении границами, на рабочих местах и в учебных заведениях; и
- Неизбирательное удаление биометрических данных из социальных сетей или видеозаписей с камер видеонаблюдения для создания баз данных распознавания лиц (нарушение прав человека и права на неприкосновенность частной жизни).

Также правила предусматривают обязательства для поставщиков базовых моделей - таких как GPT, дополнительные требования прозрачности, в частности раскрытие того, что контент был сгенерирован ИИ.