Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ещё одна неприятная новость по открытости данных в России, с 1 января 2023 года Генеральная прокуратура перестала публиковать ежемесячную статистику преступности на портале crimestat.ru [1]. Официальная причина звучит так։ В связи с доработкой функциональности портала правовой статистики размещение статистических данных с 01.01.2023 приостановлено.

Но, при этом, дата продолжения публикация не обозначена, а других общедоступных ресурсов с хотя бы даже ежемесячным обновлением этой статистики - нет.

Для сравнения аналитика и статистика на сайте МВД всегда публиковалась в виде кратких сводок в формате PDF [2]. Причём это, конечно, не случайность, МВД вполне осознанно публиковали эти данные только в самом неудобном виде и их цифры могут (всегда?) отличаться от цифр на портале правовой статистики.

Ссылки։
[1] http://crimestat.ru
[2] https://мвд.рф/reports/item/35396677/

#opendata #datasets #closeddata #russia
Совсем свежий портал открытых данных публикуемых по стандарту Open Contracting - data.open-contracting.org [1]

Всего 103 набора данных о контрактах, закупках, планах закупок, документах к закупкам, этапах и изменениях.

Охватывает много стран, из стран постсоветского пространства это Эстония, Киргизия, Грузия, Молдавия, Латвия и Литва.

Интерфейс сайта на английском, испанском и что, немного, удивительно на русском языке. Странно также что нет данных из Украины, из системы Prozorro, как я помню это была одна из наиболее продвинутых систем по раскрытию данных в этом стандарте.

Для полного счастья не хватает только API к этому реестру, но и эти данные выглядят весьма неплохо для тематического структурированного каталога данных.

Ссылки։
[1] https://data.open-contracting.org/

#opendata #spending #contracts #datasets
В рубрике любопытных стартапов на данных и не только, Spellbook.legal [1] обещают ИИ помогающий составлять контракты, соглашения, NDA и другие юридические документы. Они не одни такие, таких стартапов сейчас всё больше. Они добывают в открытом доступе и другими способами базы таких документов и обучают ИИ писать по их подобию.

Я подозреваю что найдутся юристы кто возразит что ИИ может написать что угодно, но кому-то надо будет пойти в суд, заниматься досудебным разбирательством и тд. Поэтому всю работу корпоративных юристов это не убьёт, но может сильно сократить рынок внешних услуг написания таких текстов, и обрушить рынок труда начинающих юристов.

А что вы думаете от каких профессий нужно не то чтобы избавиться, но сильно автоматизировать и сократить?

Ссылки։
[1] https://www.spellbook.legal

#ai #legal #data #startups
Совсем забыл о том что ещё в прошлом году поучаствовал в выпуске об открытых исследовательских данных [1] подкаста «Всегда открыты» Управления научно-информационного развития и библиотечного обеспечения РАНХиГС.

Я, насколько мог, рассказывал о том как публикуются открытые научные данные в мире, какие есть проекты, какая создаётся инфраструктура, в мире конечно, не в России. Про открытость исследовательских данных я пишу тут регулярно, тема огромная, практически полностью выпавшая из российского "домена Наука" (даже язык не поворачивается назвать его госпроектом).

Ссылки։
[1] https://music.yandex.ru/album/23939131/track/110800285

#opendata #openaccess #openscience
В продолжение истории про Slack и о том что Slack добровольно урезал функциональность своего продукта российским НКО

Деятельность НКО и телекоммуникации были исключены из санкций США ещё в апреле [1], поэтому у Slack нет обязанности понижать или отключать рабочие пространства российских организаций. И действия, подобные тем, что они совершают, осудили эксперты ООН [2].

Организация Access Now [3] готова помочь российским НКО. Они уже помогают с восстановлением доступа к услугам Mailchimp. Но для разбирательства so Slack им нужно знать о как можно большем количестве случаев урезания функциональности или отключения рабочих пространств российским НКО.

Если вы представитель одной из пострадавших НКО и хотели бы восстановить утраченное и/или помочь в этом другим российским организациям, сообщите о своём случае на линию поддержки Access Now по адресу
accessnow.org/help-ru [4]

Спасибо Дмитрию Цветкову из российской организации НКО «Голоса за животных», за то что он заморочился этой темой и подготовил этот текст.

Лично я от себя добавлю что даже если ложки найти, осадок останется. Проще развернуть открытый код или создавать сообщества в Telegram/Matrix чем пользоваться Slack'ом, очень мало доверия им теперь. Но у каких-то организаций там были довольно большие сообщества и у них, можно сказать, выбора нет.

Ссылки։
[1] https://home.treasury.gov/news/press-releases/jy0722
[2] https://www.ohchr.org/en/press-releases/2022/07/russia-un-experts-condemn-civil-society-shutdown
[3] http://accessnow.org/
[4] http://accessnow.org/help-ru

#sanctions #russia #slack
Открытость - это не только данные, например, пишут что РЖД сжали все изображения в фотобанке у себя на сайте [1] до 800x533 и теперь журналисты не могут использовать оттуда изображения и вынуждены покупать другие в фотобанках или использовать какое-то одно постоянно. Вопрос тогда, а зачем РЖД фотобанк ведёт? А самое главное, почему вместо того чтобы публиковать изображения, например, под свободными лицензиями вроде Creative Commons, они наоборот превращают свою фотогалерею в бессмысленное явление на которое ещё и деньги тратят, как я полагаю. В фотобанке более 22 тысяч фотографий, так что это не маленькое изменение, а довольно существенное.

Не последний вопрос в том зачем они это делают. Это такая военная цензура по сокрытию информации об объектах критической инфраструктуры? Личная неприязнь к журналистам ? Глупость? Интенция продавать фотографии в будущем ? Как бы то ни было, идёт в копилку развития закрытости в России.

Ссылки։
[1] https://t.me/today1520/3978

#russia #closeddata #photo #rzd
В рубрике исчезающих открытых данных в России (теперь эта рубрика будет частой, читайте по тегу #closeddata) исчезнувшие данные по системообразующим предприятиям и по НКО наиболее пострадавшим при COVID-19.

Первый набор данных данных по системообразующим предприятиям был доступен на сайте данных Минэкономразвития РФ data.economy.gov.ru [1] до начала 2022 года, после чего исчез. А второй, по пострадавшим НКО исчез ещё в 2021 году [2].

А теперь при открытии главной страницы этого сайта открывается только набор данных с перечнем СО НКО [3].

Если по системообразующим предприятиям ещё что-то можно было предположить по санкциям, то второй датасет выглядит как заметание следов.

Я про данные российского Минэкономразвития писал ещё 2.5 года назад в колонке в РБК [3]. С той поры мало что поменялось, хотя нет, всё хуже и хуже у министерства с данными.

Ссылки։
[1] https://web.archive.org/web/20220205012417/https://data.economy.gov.ru/
[2] https://web.archive.org/web/20210908020047/https://data.economy.gov.ru/analytics/sonko-affected
[3] https://data.economy.gov.ru
[4] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

#opendata #closeddata #russia
Forwarded from Инфокультура
Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике»

Вы узнаете о реальных кейсах на данных телеком-оператора и открытых данных, а также о том, как их получать. Спикеры покажут, как делать карты в библиотеке Folium: от отрисовки базовых геометрий и создания слоев FeatureGroup — до работы с графами и гексами. Мастер-класс проведут:

- Артем Каледин, старший аналитик-разработчик математических моделей, команда Геоаналитики.
- Артем Смирнов, руководитель по анализу данных, лид чаптера аналитиков.

Мероприятие пройдет в рамках Дня открытых данных. Программы и форма регистрации доступны по ссылке: https://opendataday.ru/msk.

#ODD2023 #OpenDataDay #OpenData
Продолжая рубрику "закрытые данные в России", годовые отчёты государственного портового контроля РФ не публикуются Росморречфлотом начиная с 2020 года [1].

Эти отчеты не являлись открытыми данными, но они содержали статистические сведения и факты портового контроля, как правило публиковались в апреле следующего года.

Подскажу что в непубличной информационной системе ИЦГПК эти отчёты есть и их даже можно найти при желании. Хоть и система непубличная, но не настолько чтобы поисковики не индексировали некоторые файлы. Важнее что в соответствующем разделе на сайте Росморречфлота этих отчётов нет. И это при том что и без того это очень высокоуровневые агрегированные цифры, публикуемые в PDF, а даже не в машиночитаемом виде.

Ссылки։
[1] https://morflot.gov.ru/deyatelnost/napravleniya_deyatelnosti/morskoy_flot/gosudarstvennyiy_portovyiy_kontrol/godovyie_otchetyi_gpk_v_rf/

#opendata #closeddata #russia #transport
Я всё задаюсь вопросом можно ли хоть что-то хорошее сказать про российскую платформу ГосТех, но как-то не получается, и уже начинаю сомневаться что получится. Они анонсировали новый домен platform.gov.ru [1] который, по факту, является теперь сайтом ФКУ Гостех с раскрытием документов которые ФКУ должны публиковать, прошлый сайт ФКУ который был digitalcc.ru теперь перенаправляет на этот новый сайт. Но туда же теперь перенаправляет и ранее существовавшая документация на Platform V которая была по адресу platform.digital.gov.ru (теперь там ничего нет кроме перенаправления).

Иначе говоря вместе с анонсом нового сайта, заодно и снесли сайт с документацией. Теперь про "платформу Гостех" вообще ничего нет кроме маркетинговых и презентационных материалов.

При этом какие-то ошметки документации начали вносить на новый сайт, вроде описания компонента Platform V DataGrid, привожу скриншот и ссылку [2]. Не буду говорить как я его нашёл.

Если Всё так круто как об этом рассказывается публично, если столько охренительных примеров внедрения и спроектированных "доменов" (предметных областей), то почему всё настолько через жопу выглядит непривлекательно?

Ссылки։
[1] https://platform.gov.ru/
[2] https://platform.gov.ru/components/dannye/bystryj-start/

#government #govtech #techonology #russia
В качестве напоминания, через 3 дня будет проходить День открытых данных по всему миру [1], кое-где он проходит целую неделю, с 4-го по 10-е марта, но большинство сообществ проводит его один день. Команда Инфокультуры (@infoculture) возвращается к его проведению в Москве и на сайте Дня открытых данных в России opendataday.ru [2] можно узнать программу.

Я лично буду выступать на ODD с рассказом про datacatalogs.ru, нашем проекте по data discovery, инструментах обнаружения данных и их поиска. Расскажу также про другие системы поиска по данным.

Моя коллега по Инфокультуре, Ксения Орлова, расскажет про практику архивацию сайтов (и данных) в рамках проекта Национальный цифровой архив. Вообще важно помнить что цифровые архивы - это тоже открытые данные, я бы даже сказал что это в первую очередь открытые данные.

В этом году всё мероприятие будет проходить только онлайн, но хочется надеяться что это лишь повысит его доступность и возможность для участников смотреть трансляцию.
Будет много других интересных выступлений, о использовании данных для геоаналитике, корпоративной ответственности, в некоммерческом секторе и многом другом. Обязательно посмотрите программу на сайте.

Пока это первое мероприятие за полтора года по открытым данным которое мы проводим. День открытых данных в 2022 году, в России, мы не проводили.

Будут ли ещё мероприятия в России/по России/на российских открытых данных и связанных с открытыми данными в этом году ? Возможно. Как минимум по теме цифровой архивации есть желание провести онлайн и оффлайн мероприятие, с акцентом на архивацию цифрового контента и создание баз данных на основе архивов.

Пишите если будет интересные идеи того что сейчас можно делать публичного и открытого про открытые данные.

А пока я не могу не напомнить что День открытых данных - это не одна конференция, а сеть мероприятий по всему миру организуемых волонтерами. Ничто не ограничивает Вас провести митап в своем регионе, городе, университете, стране.

Ссылки։
[1] https://opendataday.org
[2] https://opendataday.ru

#opendata #opengov #events #data
В рубрике как это работает у них проект Data Mexico [1] по наглядному представлению экономической, социальной, демографической и иной статистики и данных о Мексике.

Проект сделан на том же техническом решении что и DataUSA, довольно давний проект сделанный компанией Deloitte, но в отличие от него Data Mexico сделан по заказу Правительства Мексики и эксплуатируется Secretaria de Economia (Секретариатом по экономике) страны.

Разработчики проекта компания DataWheel [2] сделала немало других проектов. Например, новый сайт Обсерватории экономической сложности [3] и Навигатор по промышленности Перу [4] и ещё довольно много всего.

Ссылки։
[1] https://datamexico.org
[2] https://www.datawheel.us/
[3] https://oec.world
[4] https://data-peru.itp.gob.pe/

#opendata #dataviz #mexico #data
Полезное чтение про данные, технологии и не только։
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости

- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]

- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.

- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.

- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.

- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in

- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in

Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com

#readings #openaccess #openscience #datatools #dataviz
На днях я думал что можно сделать в Армении хорошего по тем темам что я знаю хорошо. А это всё что связано с открытостью, данными, технологиями вокруг них и тд. Самое очевидное - в Армении нет портала открытых данных и его довольно несложно создать.

Однако беда в том что создать его быстро, а вот наполнить куда сложнее. В стране очень мало официальных материалов опубликованных под свободными лицензиями, значительно меньше данных в машиночитаемых формах. Например, у Минкультуры нет реестра всех музеев, а реестр их собственных музеев публикуют в формате ․docx. Много данных по налогам, компаниям, экономике, госфинансам и мало данных культуре, науке, языке и всему что касается digital humanities.
Хотя тема digital humanities здесь одна из самых значимых, как в поощрении изучения языка, так и во всём что касается культурного и исторического наследия.

А самое главное нет устойчивого сообщества, его надо собирать практически с нуля и такое ощущение что больше возможности собрать сообщество вокруг Армении, в том числе вовлечённых в
диаспорах, чем внутри. Но буду рад ошибиться, возможно я каких-то сообществ не знаю.

На базе исторических данных очень хорошо бы выглядели проекты по аналогии с Vici.org или Pleaiades (https://pleiades.stoa.org), но чтобы к ним прийти нужны данные и первый их каталог и портал.

В любом случае если такой портал делать нужна стратегия его устойчивости, нужен кто-то кто бы выступал дата стюардом и работа по data discovery, поиску данных на официальных и частных ресурсах. А сам портал надо проектировать сразу на армянском, русском, английском и французском языках.

Если Вы кого-то знаете владеющего։ армянским и русским языками или армянским и английским, а, в идеале, всеми тремя и готовым и с опытом работы с данными за небольшие, но не совсем на волонтерских началах выступить аналитиком на таком проекте - дайте мне знать. Это парт тайм работа, примерно на 3 месяца в начале, неважно в какой стране человек находится, главное интерес к теме.

#opendata #armenia #job
В рубрике как это устроено у них каталог геоданных Швейцарии [1] создан на базе открытого ПО Geonetwork [2], включает 12859 наборов геоданных в форматах DXF, Shapefile, GeoPackage, INTERLIS 2 и множеством вариантов экспорта метаданных.

Данные используются во множестве проектов связанных с данными геоданными в Швейцарии и в Европе, например, в официальной карте Швейцарии [3].

Таких государственных порталов геоданных в мире не так уж мало и чаще всего они построены именно на GeoNetwork

Ссылки։
[1] https://www.geocat.ch
[2] http://geonetwork-opensource.org/
[3] https://map.geo.admin.ch/


#opendata #opengov #switzerland #geodata
Я чуть было не пропустил, а тут интересный материал от фонда Mozilla под названием "Is it even legal?" (А это вообще легально?) [1] состоит из серии гайдов по странам о том как защищать свои права на обработку данных и бороться с тем что данные распространяются без Вашего согласия. Гайды привязаны к странам и сейчас по 4-м из них։ Кения, Германия, США и Индия. Каждый гайд - это очень продолжительный лонгрид помогающий ответить на вопрос "А как там у них?", а у них там есть сложные юридические конструкции и множество примеров когда рядовые граждане используют свои возможности.

#privacy #mozilla


Ссылки:
[1] https://foundation.mozilla.org/en/research/library/is-that-even-legal/builders-guide/
В рубрике как это устроено у них, портал по COVID-19 конфедеративного правительства Швейцарии [1]. Вся информация не только представлена в виде графиков и продолжает обновляться и по сей день, но и все данные опубликованы как открытые данные на портале открытых данных opendata.swiss [2] и в виде хорошо документированного API [3].

В общей сложности там несколько сотен мегабайт, может быть около гигабайта ежесуточной подробной статистики и иной информации.

Ссылки:
[1] https://www.covid19.admin.ch
[2] https://opendata.swiss/de/dataset/covid-19-schweiz
[3] https://www.covid19.admin.ch/api/data/documentation

#opendata #datasets #data #switzerland