Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Интересное чтение про данные, технологии и не только։
- iasql [1] инструмент с открытым кодом позволяющим из PostgreSQL работать с облачными аккаунтами как с базами данных. Забавная штука подпадающая под категорию продуктов "всё SQL", интересно они могут быть только с открытым кодом или кто-то найдёт им бизнес модель тоже?

- Introduction to Data-Centric AI [2] курс по дата-центричному ИИ, зайдёт для тех кто приходит к мысли что "наши данные для обучения ИИ дерьмо и с этим надо что-то делать", про то как разрабатывать алгоритмы от данных, а не от моделей.

- The State of Data Journalism 2023 [3] обзор состояния дата-журналистики в мире от Европейского центра журналистики. Не понимаю как они смогли сделать его таким скучным, но крупицы любопытного там тоже есть. Например, что большая часть дата-журналистов 35+, что женщины в дата-журналистике моложе мужчин, что большинство фрилансеры, что большинство самообучались, зарабатывают мало, большинство работают с открытыми данными и тд.

- SQLake [4] ещё один, на сей раз коммерческий, сервис в стиле "всё SQL", на сей раз с его помощью создаются трубы данных (data pipelines). Лично мне это кажется слегка извращённым, но любопытным как минимум. Кстати, это и часть ответа на вопрос монетизируется ли такой подход. Похоже на то что да.

- Catalog of ETL and EL-T tools [5] каталог ELT и ETL инструментов от стартапа Castor. Неплохой обзор для понимания этого рынка. Тоже стратегия, выносить внутреннюю аналитику рынка наружу как медийный бесплатный продукт, полезных ссылок там немало.

- JXC [6] структурный язык для разметки данных как развитие JSON. Выглядит интересно, хотя и не достиг даже версии 1.0. По моему опыту у JSON есть две системные проблемы։ отсутствие типа дата и время и отсутствие других типов данных. JXC частично это решает.

- tbls [7] утилита по документированию баз данных сразу в формате Github Markup. Написано на Go, с открытым кодом, выглядит любопытно, поддерживает и NoSQL тоже.


Ссылки:
[1] https://github.com/iasql/iasql
[2] https://dcai.csail.mit.edu/
[3] https://datajournalism.com/survey/2022/
[4] https://www.upsolver.com/
[5] https://notion.castordoc.com/catalog-of-etl-tools
[6] https://github.com/juddc/jxc
[7] https://github.com/k1LoW/tbls

#opensource #data #datatools #sql #ai #datajournalism
В Mozilla провели исследование приватности политик приватности мобильных приложений и сравнили с данными которые разработчики заполнили в формах в магазине приложений Google, это то что выводится как Google Data Safety labels [1].

Выводы абсолютно неутешительны, врут почти все, вот основные тезисы результатов։
- в примерно 80% рассмотренных приложений Mozilla нашли отличия между политиками приватности приложения и в той информации что была заполнена через Google’s Data Safety Form
- 16 из 40 приложений получили "Низкую" оценку, включая Minecraft, Twitter и Facebook
- 15 приложений получили среднюю оценку, "Требуются улучшения", включая YouTube, Google Maps, Gmail, WhatsApp Messenger и Instagram.
- только 6 из 40 приложений, или 15% получили оценку "Ok". Эти приложения։ Candy Crush Saga, Google Play Games, Subway Surfers, Stickman Legends Offline Games, Power Amp Full Version Unlocker и League of Stickman: 2020 Ninja.
- по трём приложениям UC Browser - Safe, Fast, Private; League of Stickman Acti и Terraria эту форму разработчики даже не заполняли

В Mozilla рекомендуют Google и Apple разработать универсальную форму для заполнения и опубликовать чёткие правила ответственности за нарушения разработчиками требований приватности.

Я бы был тут скептичен, поскольку достаточно очевидно что не так уж платформы заинтересованы в давлении на разработчиков приложений и в самоограничении собственных приложений.

Эти результаты могут, во первых дать пищу для возможных исков со стороны организаций защиты прав потребителей, поскольку здесь могут усмотреть случаи сознательного введения потребителей в заблуждение, а во вторых они демонстрируют весь спектр недостатков даже активного саморегулирования со стороны крупных платформ.

Даже когда саморегулирование не является декларативным, оно не даёт достаточной защиты потребителям/гражданам и я бы предполагал почти неизбежное ужесточение позиций регуляторов в Евросоюзе, США и ряде других стран (не в России) за предоставление недостоверной информации о реальном уровне приватности мобильных приложений.

Ссылки։
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/mozilla-study-data-privacy-labels-for-most-top-apps-in-google-play-store-are-false-or-misleading/

#privacy #mobileapps #tracking
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].

Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.

Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.

В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много

Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/

#opendata #czech #dataportals #linkeddata #datacatalogs #europe
Можно сказать что новая концепция оценки полезности госполитик по открытости данных - это AI-Ready Open Data [1] о чём пишут исследователи из Bipartisan Policy Center․ Если кратко, то это наличие стратегии по публикации данных которые учёные и дата-сайентисты могут использовать для обучения моделей искусственного интеллекта. Например, в задачах биомедицины, распознавания образов, предсказания погоды, поиска полезных ископаемых и ещё много чего другого.

Что важно, при публикации таких данных критерии качества (зрелости) несколько иные. Например, агентство метеорологии США определяет оптимальным уровнем доступность данных одновременно для выгрузки, через API, в облаке и в виде данных-как-сервис.

Для пользователей в этом случае важна не только доступность данных, но и качество и документация.

Ссылки։
[1] https://bipartisanpolicy.org/explainer/ai-ready-open-data/
[2] https://www.star.nesdis.noaa.gov/star/documents/meetings/2020AI/presentations/202010/20201022_Christensen.pdf

#opendata #data #ai #government
Полезное чтение про данные, технологи и не только։
- ODI Fellow Report: Data institutions in China [1] обзор институтов регулирования данных и открытых данных в Китае. Любопытно хотя бы самим фактом такого обзора

- Data Institutions Register [2] в продолжение к первой ссылке, реестр институтов регулирования данных в мире собранный на сайте Open Data Institute. Правда там явный перекос в сторону UK и US, остальные страны и международные институты охвачены очень фрагментарно

- Researchers will get access to TikTok data — pending company approval [3] в ТикТок открывают API, но не для всех, а только для исследователей которых в компании одобрят. Это, конечно, уже прогресс, по сравнению с тем что ранее ТикТок был одной из наиболее закрытых соцсетей

- Measuring everything [4] практическая статья о том что понятие корпорация основанная на данных означает измерять вообще всё. А далее уже отделять какие измерения полезны, а какие нет, какие пойдут в дело, а от каких можно отказаться.

Ссылки:
[1] https://www.theodi.org/article/odi-fellow-report-data-institutions-in-china/
[2] https://www.theodi.org/article/the-data-institutions-register/
[3] https://www.theverge.com/2023/2/21/23604737/tiktok-research-api-expansion-public-user-data-transparency
[4] https://eventuallycoding.com/en/2023/02/measuring-everything

#data #readings #opendata
Ещё одна неприятная новость по открытости данных в России, с 1 января 2023 года Генеральная прокуратура перестала публиковать ежемесячную статистику преступности на портале crimestat.ru [1]. Официальная причина звучит так։ В связи с доработкой функциональности портала правовой статистики размещение статистических данных с 01.01.2023 приостановлено.

Но, при этом, дата продолжения публикация не обозначена, а других общедоступных ресурсов с хотя бы даже ежемесячным обновлением этой статистики - нет.

Для сравнения аналитика и статистика на сайте МВД всегда публиковалась в виде кратких сводок в формате PDF [2]. Причём это, конечно, не случайность, МВД вполне осознанно публиковали эти данные только в самом неудобном виде и их цифры могут (всегда?) отличаться от цифр на портале правовой статистики.

Ссылки։
[1] http://crimestat.ru
[2] https://мвд.рф/reports/item/35396677/

#opendata #datasets #closeddata #russia
Совсем свежий портал открытых данных публикуемых по стандарту Open Contracting - data.open-contracting.org [1]

Всего 103 набора данных о контрактах, закупках, планах закупок, документах к закупкам, этапах и изменениях.

Охватывает много стран, из стран постсоветского пространства это Эстония, Киргизия, Грузия, Молдавия, Латвия и Литва.

Интерфейс сайта на английском, испанском и что, немного, удивительно на русском языке. Странно также что нет данных из Украины, из системы Prozorro, как я помню это была одна из наиболее продвинутых систем по раскрытию данных в этом стандарте.

Для полного счастья не хватает только API к этому реестру, но и эти данные выглядят весьма неплохо для тематического структурированного каталога данных.

Ссылки։
[1] https://data.open-contracting.org/

#opendata #spending #contracts #datasets
В рубрике любопытных стартапов на данных и не только, Spellbook.legal [1] обещают ИИ помогающий составлять контракты, соглашения, NDA и другие юридические документы. Они не одни такие, таких стартапов сейчас всё больше. Они добывают в открытом доступе и другими способами базы таких документов и обучают ИИ писать по их подобию.

Я подозреваю что найдутся юристы кто возразит что ИИ может написать что угодно, но кому-то надо будет пойти в суд, заниматься досудебным разбирательством и тд. Поэтому всю работу корпоративных юристов это не убьёт, но может сильно сократить рынок внешних услуг написания таких текстов, и обрушить рынок труда начинающих юристов.

А что вы думаете от каких профессий нужно не то чтобы избавиться, но сильно автоматизировать и сократить?

Ссылки։
[1] https://www.spellbook.legal

#ai #legal #data #startups
Совсем забыл о том что ещё в прошлом году поучаствовал в выпуске об открытых исследовательских данных [1] подкаста «Всегда открыты» Управления научно-информационного развития и библиотечного обеспечения РАНХиГС.

Я, насколько мог, рассказывал о том как публикуются открытые научные данные в мире, какие есть проекты, какая создаётся инфраструктура, в мире конечно, не в России. Про открытость исследовательских данных я пишу тут регулярно, тема огромная, практически полностью выпавшая из российского "домена Наука" (даже язык не поворачивается назвать его госпроектом).

Ссылки։
[1] https://music.yandex.ru/album/23939131/track/110800285

#opendata #openaccess #openscience
В продолжение истории про Slack и о том что Slack добровольно урезал функциональность своего продукта российским НКО

Деятельность НКО и телекоммуникации были исключены из санкций США ещё в апреле [1], поэтому у Slack нет обязанности понижать или отключать рабочие пространства российских организаций. И действия, подобные тем, что они совершают, осудили эксперты ООН [2].

Организация Access Now [3] готова помочь российским НКО. Они уже помогают с восстановлением доступа к услугам Mailchimp. Но для разбирательства so Slack им нужно знать о как можно большем количестве случаев урезания функциональности или отключения рабочих пространств российским НКО.

Если вы представитель одной из пострадавших НКО и хотели бы восстановить утраченное и/или помочь в этом другим российским организациям, сообщите о своём случае на линию поддержки Access Now по адресу
accessnow.org/help-ru [4]

Спасибо Дмитрию Цветкову из российской организации НКО «Голоса за животных», за то что он заморочился этой темой и подготовил этот текст.

Лично я от себя добавлю что даже если ложки найти, осадок останется. Проще развернуть открытый код или создавать сообщества в Telegram/Matrix чем пользоваться Slack'ом, очень мало доверия им теперь. Но у каких-то организаций там были довольно большие сообщества и у них, можно сказать, выбора нет.

Ссылки։
[1] https://home.treasury.gov/news/press-releases/jy0722
[2] https://www.ohchr.org/en/press-releases/2022/07/russia-un-experts-condemn-civil-society-shutdown
[3] http://accessnow.org/
[4] http://accessnow.org/help-ru

#sanctions #russia #slack
Открытость - это не только данные, например, пишут что РЖД сжали все изображения в фотобанке у себя на сайте [1] до 800x533 и теперь журналисты не могут использовать оттуда изображения и вынуждены покупать другие в фотобанках или использовать какое-то одно постоянно. Вопрос тогда, а зачем РЖД фотобанк ведёт? А самое главное, почему вместо того чтобы публиковать изображения, например, под свободными лицензиями вроде Creative Commons, они наоборот превращают свою фотогалерею в бессмысленное явление на которое ещё и деньги тратят, как я полагаю. В фотобанке более 22 тысяч фотографий, так что это не маленькое изменение, а довольно существенное.

Не последний вопрос в том зачем они это делают. Это такая военная цензура по сокрытию информации об объектах критической инфраструктуры? Личная неприязнь к журналистам ? Глупость? Интенция продавать фотографии в будущем ? Как бы то ни было, идёт в копилку развития закрытости в России.

Ссылки։
[1] https://t.me/today1520/3978

#russia #closeddata #photo #rzd
В рубрике исчезающих открытых данных в России (теперь эта рубрика будет частой, читайте по тегу #closeddata) исчезнувшие данные по системообразующим предприятиям и по НКО наиболее пострадавшим при COVID-19.

Первый набор данных данных по системообразующим предприятиям был доступен на сайте данных Минэкономразвития РФ data.economy.gov.ru [1] до начала 2022 года, после чего исчез. А второй, по пострадавшим НКО исчез ещё в 2021 году [2].

А теперь при открытии главной страницы этого сайта открывается только набор данных с перечнем СО НКО [3].

Если по системообразующим предприятиям ещё что-то можно было предположить по санкциям, то второй датасет выглядит как заметание следов.

Я про данные российского Минэкономразвития писал ещё 2.5 года назад в колонке в РБК [3]. С той поры мало что поменялось, хотя нет, всё хуже и хуже у министерства с данными.

Ссылки։
[1] https://web.archive.org/web/20220205012417/https://data.economy.gov.ru/
[2] https://web.archive.org/web/20210908020047/https://data.economy.gov.ru/analytics/sonko-affected
[3] https://data.economy.gov.ru
[4] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

#opendata #closeddata #russia
Forwarded from Инфокультура
Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике»

Вы узнаете о реальных кейсах на данных телеком-оператора и открытых данных, а также о том, как их получать. Спикеры покажут, как делать карты в библиотеке Folium: от отрисовки базовых геометрий и создания слоев FeatureGroup — до работы с графами и гексами. Мастер-класс проведут:

- Артем Каледин, старший аналитик-разработчик математических моделей, команда Геоаналитики.
- Артем Смирнов, руководитель по анализу данных, лид чаптера аналитиков.

Мероприятие пройдет в рамках Дня открытых данных. Программы и форма регистрации доступны по ссылке: https://opendataday.ru/msk.

#ODD2023 #OpenDataDay #OpenData
Продолжая рубрику "закрытые данные в России", годовые отчёты государственного портового контроля РФ не публикуются Росморречфлотом начиная с 2020 года [1].

Эти отчеты не являлись открытыми данными, но они содержали статистические сведения и факты портового контроля, как правило публиковались в апреле следующего года.

Подскажу что в непубличной информационной системе ИЦГПК эти отчёты есть и их даже можно найти при желании. Хоть и система непубличная, но не настолько чтобы поисковики не индексировали некоторые файлы. Важнее что в соответствующем разделе на сайте Росморречфлота этих отчётов нет. И это при том что и без того это очень высокоуровневые агрегированные цифры, публикуемые в PDF, а даже не в машиночитаемом виде.

Ссылки։
[1] https://morflot.gov.ru/deyatelnost/napravleniya_deyatelnosti/morskoy_flot/gosudarstvennyiy_portovyiy_kontrol/godovyie_otchetyi_gpk_v_rf/

#opendata #closeddata #russia #transport
Я всё задаюсь вопросом можно ли хоть что-то хорошее сказать про российскую платформу ГосТех, но как-то не получается, и уже начинаю сомневаться что получится. Они анонсировали новый домен platform.gov.ru [1] который, по факту, является теперь сайтом ФКУ Гостех с раскрытием документов которые ФКУ должны публиковать, прошлый сайт ФКУ который был digitalcc.ru теперь перенаправляет на этот новый сайт. Но туда же теперь перенаправляет и ранее существовавшая документация на Platform V которая была по адресу platform.digital.gov.ru (теперь там ничего нет кроме перенаправления).

Иначе говоря вместе с анонсом нового сайта, заодно и снесли сайт с документацией. Теперь про "платформу Гостех" вообще ничего нет кроме маркетинговых и презентационных материалов.

При этом какие-то ошметки документации начали вносить на новый сайт, вроде описания компонента Platform V DataGrid, привожу скриншот и ссылку [2]. Не буду говорить как я его нашёл.

Если Всё так круто как об этом рассказывается публично, если столько охренительных примеров внедрения и спроектированных "доменов" (предметных областей), то почему всё настолько через жопу выглядит непривлекательно?

Ссылки։
[1] https://platform.gov.ru/
[2] https://platform.gov.ru/components/dannye/bystryj-start/

#government #govtech #techonology #russia
В качестве напоминания, через 3 дня будет проходить День открытых данных по всему миру [1], кое-где он проходит целую неделю, с 4-го по 10-е марта, но большинство сообществ проводит его один день. Команда Инфокультуры (@infoculture) возвращается к его проведению в Москве и на сайте Дня открытых данных в России opendataday.ru [2] можно узнать программу.

Я лично буду выступать на ODD с рассказом про datacatalogs.ru, нашем проекте по data discovery, инструментах обнаружения данных и их поиска. Расскажу также про другие системы поиска по данным.

Моя коллега по Инфокультуре, Ксения Орлова, расскажет про практику архивацию сайтов (и данных) в рамках проекта Национальный цифровой архив. Вообще важно помнить что цифровые архивы - это тоже открытые данные, я бы даже сказал что это в первую очередь открытые данные.

В этом году всё мероприятие будет проходить только онлайн, но хочется надеяться что это лишь повысит его доступность и возможность для участников смотреть трансляцию.
Будет много других интересных выступлений, о использовании данных для геоаналитике, корпоративной ответственности, в некоммерческом секторе и многом другом. Обязательно посмотрите программу на сайте.

Пока это первое мероприятие за полтора года по открытым данным которое мы проводим. День открытых данных в 2022 году, в России, мы не проводили.

Будут ли ещё мероприятия в России/по России/на российских открытых данных и связанных с открытыми данными в этом году ? Возможно. Как минимум по теме цифровой архивации есть желание провести онлайн и оффлайн мероприятие, с акцентом на архивацию цифрового контента и создание баз данных на основе архивов.

Пишите если будет интересные идеи того что сейчас можно делать публичного и открытого про открытые данные.

А пока я не могу не напомнить что День открытых данных - это не одна конференция, а сеть мероприятий по всему миру организуемых волонтерами. Ничто не ограничивает Вас провести митап в своем регионе, городе, университете, стране.

Ссылки։
[1] https://opendataday.org
[2] https://opendataday.ru

#opendata #opengov #events #data
В рубрике как это работает у них проект Data Mexico [1] по наглядному представлению экономической, социальной, демографической и иной статистики и данных о Мексике.

Проект сделан на том же техническом решении что и DataUSA, довольно давний проект сделанный компанией Deloitte, но в отличие от него Data Mexico сделан по заказу Правительства Мексики и эксплуатируется Secretaria de Economia (Секретариатом по экономике) страны.

Разработчики проекта компания DataWheel [2] сделала немало других проектов. Например, новый сайт Обсерватории экономической сложности [3] и Навигатор по промышленности Перу [4] и ещё довольно много всего.

Ссылки։
[1] https://datamexico.org
[2] https://www.datawheel.us/
[3] https://oec.world
[4] https://data-peru.itp.gob.pe/

#opendata #dataviz #mexico #data