Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Приложение родительского контроля Life360 поймали на продаже данных 33 миллионов пользователей [1]. Вернее как поймали, об этом и раньше было известно что продажа данных - это часть их бизнес модели, но подробности не были доступны. А вот теперь мы можем узнать из откровений бывшего сотрудника что Life360 продавали данные таким агрегаторам перс. данных как X-Mode и Safegraph. В статье также упоминается что X-Mode продавали данные департаменту обороны США, а Safegraph продавли их Centers for Disease Control and Prevention (CDC), агентству США отслеживающему распространение COVID-19.


Ссылки:
[1] https://themarkup.org/privacy/2021/12/06/the-popular-family-safety-app-life360-is-selling-precise-location-data-on-its-tens-of-millions-of-user

#privacy #apps #mobile
А вот и первые современные медиа пишущие о цифровой архивации. В рассылке Сверхновой о том почему архивация сайтов важная и примеры того кто и как это делает [1]. Там же они упоминают мою инструкцию о том как архивировать сайты и я её напомню для тех кто мог пропустить [2].

Напомню также про другие мои тексты о цифровой архивации:
- The Bit list of Digitally endangered species [3]
- О архивации институтов развития [4]
- О сервисах веб-архивации [5]
- О исчезновении сайта установного суда Санкт-Петербурга [6]
- О подходах к цифровой архивации [7]
- О сравнении архивных копий веб-страниц [8]
- Рождённые в цифре. Цифровые архивы в новейшей истории [9]
- О Archives Unleashed Toolkit [10]

А также многом другом что можно найти у меня в телеграм канале по хэштегу #digitalpreservation

И, вновь, повторюсь что хорошо что о цифровых архивах начали писать журналисты. Это большой прогресс за прошедшие годы.

Ссылки:
[1] https://supernovamedia.substack.com/p/--e13
[2] https://begtin.substack.com/p/18
[3] https://t.me/begtin/3258
[4] https://t.me/begtin/3253
[5] https://t.me/begtin/3070
[6] https://t.me/begtin/3057
[7] https://t.me/begtin/2397
[8] https://t.me/begtin/2356
[9] https://begtin.substack.com/p/7-digital-born-
[10] https://t.me/begtin/2044

#digitalpreservation #webarchives #archives
Forwarded from Инфокультура
В каталог открытых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории

Генетические и биологические (зоологические и ботанические) коллекции Российской Федерации
Цель создания ресурса - разработка информационной системы по генетическим и биологическим (зоологическим и ботаническим) коллекциям РФ в виде общедоступного WEB - сервера, предназначенного для выполнения ключевых функций по проблеме инвентаризации и документирования генетических ресурсов в РФ и удовлетворения информационных потребностей федеральных органов власти, научного сообщества, международных и национальных общественных организаций.

Портал социологических данных РАНХиГС
"Портал социологических данных РАНХиГС — это большая тематическая информационная платформа, открытая база актуальных исследований, проводимых различными подразделениями Академии. Причем речь идет не только о социологических, но и о междисциплинарных проектах.

Фонд данных ДЗЗ
Геопортал Роскосмоса - ресурс, который сочетает в себе средство просмотра космических снимков земной поверхности и средство поиска/заказа данных из Федерального фонда данных ДЗЗ. Отдельным группам пользователей также предоставляется сервис заказа проведения космической съёмки российскими аппаратами ДЗЗ."

База социологических данных ВЦИОМ
Базы данных результатов социологических опросов ВЦИОМ. Включая базы данных Спутник, Архивариус и Roper

Каталог социальных исследований Евразийский монитор
Каталог результатов социологических исследований Евразийский монитор. Включает большое число исследований и данные в формате Microsoft Excel.

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём через в форму на сайте или на почту infoculture@infoculture.ru. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datacatalogs #datasets
Презентация исследователей Университета Саффолка о навыках работы с данными у... библиотекарей [1] и исследователей.

Да, это не ошибка, современная библиотека - это цифровая библиотека, не только с книгами, но и с другими "цифровыми артекфактами" включая данные и о роли Data Librarian я ранее писал. Не все понимают её необходимость, но это только пока ещё.

В исследовательской работе библиотекари данных - это люди умеющие курировать данные, управлять ими и проводить исследования. В некоторых областях деятельности такие роли уже есть, в каких-то появятся позже. А в данной презентации хороший обзор исследований в этой области и предложения по описанию навыков для этой роли.


Ссылки:
[1] https://zenodo.org/record/5155667

#data #dataskills #dataliteracy
В силу многих причин я, как и многие, смотрю на деятельность Правительства РФ обращая внимания на детали и нюансы.

Нюансы координационных и совещательных органов:
1. На сайте Пр-ва перестали обновляться новости по многим правительственным комиссиям. Например, Правительственная комиссия по модернизации экономики и инновационному развитию России, в разделе "Документы и события" последняя новость от 6 апреля 2020 г. [1], в то время как в разделе "Состав" упоминаются [2] 4 распоряжения Правительства РФ менявшие состав правкомиссии.
2. Подструктуры координационных органов не упоминаются на сайте Правительства РФ. Например. Рабочая группа по разработке и реализации НТИ при правительственной комиссии по модернизации экономики и инновационному развитию России упоминается в новостях СМИ и на сайте Минобрнауки РФ [3], но нигде нет её состава (логично в разделе правкомиссии на сайте Пр-ва РФ). Аналогичная ситуация с рабочей группой по инвестиционному развитию Правительственной комиссии по экономическому развитию и интеграции, она упоминается в новостях на сайте Пр-ва РФ, без каких-либо сведений о её составе и участниках совещаний [4]
3. Схожая ситуация с Государственной пограничной комиссией у которой состав уже менялся несколько раз, а новости и документы за 2015 год [5] и ещё со многими другими госкомиссиями, не буду перечислять все.
4. Комиссия по законопроектной деятельности с июля 2019 года перестала публиковать факты одобрения законопроектов [6]

Нюансы доступности документов
1. Среднее время задержки публикации документов на сайте Пр-ва РФ и портале официального опубликования publication.pravo.gov.ru составляет около 16 дней. На сайте Пр-ва РФ сейчас, 7 декабня, размещены НПА принятые 22 ноября [7], а на портале официального опубликования на 7 декабря. Так было и раньше и такое чувство что от смены правительства это не зависит, актуальных документов никогда нет на сайте Пр-ва.
2. На 7 декабря 2020 года Правительство приняло 3229 распоряжения, на 7 декабря 2021 года 3458 распоряжений. Итого прирост на 230 распоряжений в год. Прошлый состав Правительства при Д. Медведеве выдавал максимум до 2734 распоряжений за 2017 год.
3. В случае постановлений Правительства РФ в 2021 году на 7 декабря было принято 2195 постановлений, а в 2017 году на 7 декабря было принято 1489 постановления. Итого прирост на 33%.

Что-то ещё было, всё сразу не вспомню.

Ссылки:
[1] http://government.ru/department/491/events/
[2] http://government.ru/department/491/members/
[3] https://minobrnauki.gov.ru/press-center/news/?ELEMENT_ID=28416
[4] http://government.ru/news/41784/
[5] http://government.ru/department/443/events/
[6] http://government.ru/department/593/activities/
[7] http://government.ru/docs/all/

#transparency #openness #government
Свежая версия законопроекта о Национальной системе управления данными (НСУД) от Минэкономразвития [1] стала вызывать больше оптимизма чем пессимизма.

Из разумного:
- даны определения открытых данных, общедоступных данных
- НСУД сформулировано как "совокупность взаимосвязанных методологических, правовых, организационно-управленческих и информационно-технологических компонентов, обеспечивающих эффективное управление данными НСУД на федеральном, региональном и муниципальном уровне" что приближает НСУД к изначальной концеции управленческой модели, а не технической
- вводится понятие ИСПС (Информационная система публичного сектора) - информационная система, эксплуатацию которой обеспечивает орган или организация публичного сектора в целях выполнения, реализации и (или) предоставления государственной, муниципальной функции, полномочия и (или) услуги соответственно - объединяющая ГИС/ФГИС/ведомственные ИС (кстати тут надо будет ещё много нормативки поменять)
- вводятся обязательства у операторов ИСПС

Что недостаточно:
- определение открытых данных дано неточно: информация, предоставление доступа и использование которой обусловлено форматом ее представления, допускающим возможности реализации автоматической обработки, идентификации, преобразования - ключевое в открытости это отсутствие ограничений, а в этом определении это не указано. Хотя и есть уточнение в описаниие доступа к данным: 4) доступ категории «свободный доступ» предоставляется к открытым данным, обезличенным данным, свободно распространяемой информации, а также к иным общедоступным данным, содержащимся в информационных системах публичного сектора, и представляет собой реализацию прав на получение и использование данных НСУД без ограничений;
- не определена организационная рамка перевода данных из одного статуса доступа в другой
- нет четких требований по обязательному раскрытию и ведению реестра всех категорий видов данных

В любом случае это прогресс по сравнению с текущей ситуации.

А я не могу не напомнить о том что в России до сих пор нет Национальной стратегии в области данных и уже несколько лет нет целостной госполитики по открытости данных (планов по открытию данных органами власти).

Ссылки:
[1] https://regulation.gov.ru/projects#npa=115660

#opendata #data #nsud
Для тех кто интересуется вопросами комплаенса и соответствия сертификациям и требованиям, немного устаревший, но любопытный сервис Compliencerank [1] (ранее GDPR Tracker) состоящий из краудсорсинговой базы 15 тысяч сервисов, 60 сертификаций и других сведений и соответствии онлайн сервисов требованиям по защите информации.

Устаревший потому что не обновлялся 2 года, полезный, потому что полезный для потребителя и регуляторов. Но такие продукты некоммерческие по своей природе и этот тоже прожил недолго, при том что создатели его изначально небольшой стартап комплаенс платформы.

А вот проект Terms of Service. Didn't read [2] не так давно словно обрел второе дыхание и активно развивается. Я об этом писал относительно недавно. Авторы анализируют вручную условия использования онлайн платформ и сервисов и классифицируют положения требований по степени их опасности для пользователей.

Из российских сервисов там упомянуты: VK, Yandex, Odnoklassniki. Немного, но есть.

Я бы сказал что такие обзоры и аналитика нужны в России, но не могу так сказать потому что не вижу какой-то устойчивой модели их существования. Нужно, или много энтузиазма (длинного энтузиазма, что редкость), или системная работа встроенная в существующую постоянную активность.

Ссылки:
[1] https://compliancerank.com
[2] https://tosdr.org

#privacy #complience
Про блокировку Tor'а в России все уже написали, а я скажу так - это большая глупость блокировать инструменты для квалифицированных пользователей.

Во первых потому что для грамотного в ИТ человека найти зеркало Tor'а вообще проблемой не является.
Во вторых - это выставлять себя на посмешище. Почему? Смотри пункт 1.

Конечно, Tor, далеко не простой инструмент по модели его существования и несомненно им пользуются многие по настоящему незаконные деятели. Но тут не надо быть двуличными чтобы предполагать что эти деятели свернут свою активность если что-то запретить. Скорее запреты - это демонстрация неспособности спецслужб технически или оперативной работой выявлять криминальное использование таких технологий.

Поэтому, повторюсь и повторю неоднократно - единственный способ по настоящему блокировать доступ граждан к контенту - это контроль конечных устройств, компьютеров и мобильных телефонов. Этого пока нет, но учитывая тренд в сторону предустановки отечественного ПО - рано или поздно могут такие попытки начаться.

#privacy #security
Тот момент когда хочется написать "Набрали в Минфин СММщиков по объявлению" (с). На странице Минфина России в фэйсбуке [1] опубликовали графики с искажением профицита бюджета и расходов бюджета. В общем грубые визуальные ошибки. Но как пишет репостящее Минфин РФ Министерство финансов Республики Башкортостан - это "полезная информация". Критическое мышление не свойственно не только рядовым гражданам, но и сотрудникам Минфина РФ и других Минфинов, не так ли?;)


Спасибо @ahminfin за наводку.

[1] https://www.facebook.com/ruminfin/posts/4517873578281196

#курьёзы #visual #data #graphics #minfin #govfinances #ржачно
Для тех кто интересуется что там с открытыми данными "у них" свежий доклад Open Data Maturity 2021 [1] Европейского союза. Хорошая сравнительная аналитика госполитик, технологий и влияния на цифровые рынки в Евросоюзе.

В лидерах Франция и Ирландия, на последнем месте Грузия и Словакия.

Да, в рейтинге есть Грузия и Украина как кандидаты в ЕС, видимо.

В целом достаточно зрелая методика оценки, правильные акценты на регулировании и экономическом эффекте. По российским регионам такое можно было бы сделать, но нормативных полномочий у них маловато.

Что характерно - нет никаких количественных оценок числа опубликованных наборов данных и их объёма в терабайтах. А почему? А потому что это слишком легко поддаётся манипуляции.

Исследование полезное, рекомендую всем кто интересуется развитием открытости данных.

Ссылки:
[1] https://data.europa.eu/en/dashboard/2021

#opendata #europe #analytics
В The Markup статья о том как сервисы предупреждения и предсказания преступлений предубеждены против не-белого населения в США [1]. При этом есть объективная проблема реальной зависимости криминальной обстановки от этнического состава территорий и искажения алгоритмов по причине зависимости их от сведений о наблюдаемой преступности.

Поэтому анализ интересный, но объективная ситуация в том простых решений тут нет. Многие алгоритмы оперируют характеристиками привязанными к человеку с рождения и отказ от них может привести лишь к ухудшению их работы, а использование к цифррвым гетто.

Ссылки:
[1] https://themarkup.org/prediction-bias/2021/12/02/crime-prediction-software-promised-to-be-free-of-biases-new-data-shows-it-perpetuates-them

#ai #precrime
И с той поры я всё никак не соберусь опубликовать обновление того исследования. Сложно писать про такие утечки данных не нанеся вреда тем чьи данные публикуются
Forwarded from Об ЭП и УЦ
2,5 года назад Иван Бегтин опубликовал статью, в которой провел анализ реестров УЦ и пояснял выявленные утечки персональных данных тем, что есть "требования приказа N436 Минкомсвязи России, которые требуют безвозмездного предоставления информации из реестра выданных сертификатов по запросу пользователей публикуя информацию о каждом выданном сертификате".

30.11.2021 был опубликован приказ Минцифры России № 1138, который с 01.03.2022 заменит 436 приказ. Приказ новый, только противоречивая норма, согласно которой "АУЦ обязан предоставлять безвозмездно любому лицу по его обращению сведения, содержащиеся в реестре квалифицированных сертификатов, в том числе информацию об аннулировании сертификата", осталась.
В части 3 ст. 15 63-ФЗ говорится, что АУЦ обязан обеспечить любому лицу безвозмездный доступ с использованием информационно-телекоммуникационных сетей, в том числе сети "Интернет", к реестру квалифицированных сертификатов этого аккредитованного удостоверяющего центра в любое время в течение срока деятельности этого удостоверяющего центра, если иное не установлено федеральными законами или принимаемыми в соответствии с ними нормативными правовыми актами.

Наш канал считает, что сведения в реестре сертификатов являются защищаемыми, и данную часть 63-ФЗ нужно рассматриваться в совокупности с требования федеральных законов № 152-ФЗ и 149-ФЗ, т.к. "иное" и установлено данными федеральными законами.
Европейская комиссия утвердила решение о использовании открытых лицензии для публикации программного обеспечения разработанного на средства Европейского союза [1], в тексте решения можно обратить внимание на четкое определение и рекомендации относительно copyleft и permissive licenses. При этом решение о выборе лицензии лежит на агенстве раскрывающем код, по умолчанию - это EUPL (European Union Permissive License), но разрешены и другие варианты, какие - оговорено в решении Еврокомиссии.

Я же хочу обратить внимание что до принятие решения о европейская комиссия заказала исследование Open Source Study (полное название - The impact of open source software and hardware on technological independence, competitiveness and innovation in the EU economy) [3] проведенное Fraunhofer ISI и OpenForum Europe в 2019-2021 годах, финальный отчет был опубликован 6 сентября 2021 года.

Это большой документ, на 390 страниц, с подробным разбором того почему, как и зачем нужен открытый код, какие бизнес модели существуют, как устроено регулирование кода в странах ЕС, других странах и так далее. Полезное, детальное и взвешенное исследование с чёткими рекомендациями которые и были применены при принятии решения Еврокомиссией.

В России сейчас Минцифры России пытается активизировать работу над открытым кодом, что можно только приветствовать. Но что можно покритиковать - так отсутствие системных усилий в этой области. Без них шансы на успех невелики и всё может закончится как предыдущие попытки в этой области.

Системные усилия начинаются с аналогичного исследования, анализа экосистемы российского ПО с открытым кодом, регулирования в других странах, если и разработки отечественной лицензии, то с обоснованием её выбора, с разработки методики применения разных лицензией и многое другое. Европейский подход довольно медленный, но достаточно системный.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/ip_21_6649
[2] https://ec.europa.eu/transparency/documents-register/detail?ref=C(2021)8759&lang=en
[3] https://digital-strategy.ec.europa.eu/en/library/study-about-impact-open-source-software-and-hardware-technological-independence-competitiveness-and

#opensource #openness #openlicenses