Ivan Begtin – Telegram

Ivan Begtin

8.09K subscribers

1.63K photos

3 videos

100 files

4.34K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

8.09K subscribers

Национальная стратегия работы с данными (Datenstrategie der Bundesregierung) была принята в Германии решение Правительства, 21 января 2021 года [1].

О ней писали [2] Deuche Welle, с небольшим пессимизмом, о том можно ли действительно достичь всех заложенных туда целей и о ней же есть декомпозиция у Simmons+Simmons [3].

На что стоит обратить внимание:
- создание инструментов с открытым кодом для работы с данными в соответствии со стандартами;
- разработка стратегии открытых данных (на самом деле обновление имеющейся);
- реализация директив по открытости данных и доступа к информации с учётом новых законов регулирующих данные.

Там ещё много разного, но в целом стратегию можно сформулировать как:
- развивать открытость данных и кода
- создавать инфраструктуру для работы с данными
- формировать культуру работы с данными
- защищать приватность и персональные данные
- развивать искусственный интеллект
- распространять принципы обмена данными в коммерческом секторе

И ещё довольно много всего. Нельзя сказать чтобы там было что-то совсем неожиданное или странное, важнее что всё собрано в один документ и именно он определяет основные направления развития не работы с данными органов власти, но и регулирования данных в Германии.

Ссылки:
[1] https://www.auswaertiges-amt.de/blob/610644/49a58b5ecfd5a78862b051d94465afb6/gestaltungsmaechtekonzept-engl-data.pdf
[2] https://www.dw.com/en/germanys-new-data-strategy-may-come-too-late/a-56372247
[3] https://www.simmons-simmons.com/en/publications/ckkp9wcs816rl0941llo7rbl8/new-data-strategy-of-the-german-federal-government

#opendata #data #datastrategy #germany

1.4K viewsIvan Begtin, 06:40

Bertelsmann Stiftung опубликовали каталог с 11 тысяч наборов данных муниципалитетов Германии [1]. Это более 100 муниципалитетов, с данными самой разной тематики. Все данные агрегировались с порталов этих муниципалитетов, хорошо систематизированы и доступны как открытые данные. Сама работа велась в рамках проекта Smart Country [2] и это, конечно, не единственный подобный проект в мире по агрегации муниципальных/гиперлокальных данных.

Ссылки:
[1] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country/musterdatenkatalog
[2] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country

#opendata #germany

www.bertelsmann-stiftung.de

Kommunal. Digital. Vernetzt.: - Musterdatenkatalog für Kommunen

Welche offenen Daten werden von Kommunen in Deutschland veröffentlicht? Der Musterdatenkatalog verschafft einen Überblick.

1.3K viewsIvan Begtin, 11:11

Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].

На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.

А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].

Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.

Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.

Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.

Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org

#digital #archival #webarchive

National Archives

NARA Guidance on Managing Web Records

January 2005 (PDF version available ) Web site operations are an integral part of an agency's program. Managing web records properly is essential to effective web site operations, especially the

1.2K viewsIvan Begtin, edited 06:32

Я также читал эту концепцию и, при всех благих целях, она написана словно не про Россию. То что качество нормотворчества деградирует говорят уже давно не только люди снаружи гос-ва, но и внутри. Я скажу больше, во многих областях деятельности акторы, что негосудаственные, что государственные, живут исключительно в режиме антикзисного нормативного мониторинга. Цели пролоббировать лучшее регулирование уже не ставится, целью является "отбиться" от законопроекта или иного НПА, или хотя бы сгладить его последствия. На лучшее надежды мало, лишь бы хуже не стало (с).

А в остальном лично я тоже, за всё хорошее и против всего плохого, и если концепция машиночитаемого права пройдет, то хуже то точно не будет.

#regulation #laws

1.1K viewsIvan Begtin, 06:45

Forwarded from Комиссия по Регуляторике

Алгоритмы регуляторной политики?
💎 На рассмотрение Рабочей группы «Нормативное регулирование» АНО «Цифровая экономика», как указано на сайте Центра компетенций по данному направлению – Фонда «Сколково», 10 марта 2021 г. вынесена новая версия Концепции развития технологий машиночитаемого права.
💎 Да, внедрение "цифры" в процессы нормотворчества и правоприменения, а, значит, и регулирования в целом – процесс объективный и активно развивающийся. Но если посмотреть на данный проект с точки зрения ключевых инструментов регуляторной политики – обнаружится пара неприятных затыков.
👉 Во-1-х, сам нормотворческий процесс, а также последующую оценку (мониторинг) действующих норм авторы проекта излагают весьма выборочно. Возможности и перспективы автоматизации #ОРВ и #ОФВ, как ключевых институтов регуляторной политики, в проекте вообще не рассматриваются.
👉 Во-2-х, перспективы автоматизации #ФЭО, наоборот, слишком радужны. Авторы пишут, что будет осуществляться «автоматическая оценка влияния предлагаемых проектом нормативного правового акта мер на доходы и расходы бюджета, проверка предлагаемых финансово-экономическим обоснованием затрат или доходов на соответствие иным подобным показателям». Как это будет осуществляться в условиях, когда значительная часть ФЭО к проектам НПА в настоящее время, по сути, «пустышки», - из текста проекта не ясно. Да и в новом Реестре обязательных требований оценка затрат (издержек) на их исполнение пока указана лишь как возможная функция создаваемой информационной системы, а не необходимый атрибут каждого обязательного требования, включенного в Реестр.
#RegTech #Сколково #ЦЭ #регуляторика #SCM #МСИ #ОТ

1.1K viewsIvan Begtin, 06:45

Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex

1.2K viewsIvan Begtin, 11:21

О проблемах и особенностях открытости органов власти, по мелочам, продолжение. Всё то что вылезает когда регулярно изучаешь госсайты, но не входит в доклады:

1. Минпросвещения и Минпприроды не публикуют сведения о структуре органа власти. У Минпросвещения "страница обновляется" [1], у Минприроды просто нет информации в разделе "Структура" [2].
2. У Минприроды график приёма граждан не опубликован уже давно [3]
3. Нет единого портала нацпроектов в России. Есть только "куцый" раздел [4] на сайте Правительства РФ и отдельные сайты по отдельным нацпроектам [5] и другие медийные проекты вроде национальныепроекты.рф [6]. Зачем и почему так и почему нет единого портала раскрытия - непонятно.
4. Роснедра один из немногих ФОИВов публиковавших госзадания подведомственных учреждений. Но и они прекратили это делать в 2014 году [7]. Ещё один ФОИВ, Минстрой РФ прекратил публиковать госзадания в 2018, а отчёты по ним в 2017 годах [8]
5. Минприроды предоставляет карту пожаров не обновлявшуюся 3 недели [8] и с полным отсутствием ретроспективы. Данные доступны только на конкретную дату и с накопительным итогом с начала года. Довольно бессмысленно.
6. Во многих, возможно в большинстве ФОИВов, не указываются контакты руководителей департаментов в разделах "Структура". Часто не указываются даже рабочие телефоны.
7. Минтруд чуть ли не единственный ФОИВ публикующий подробные сведения о всех координационных и совещательных органах [10], включая их протоколы и положения.
8. И тот же Минтруд уже 4-й год не публикует доклады о результатах и основных направлениях деятельности [11]
9. А вот в Минтрансе РФ публикуют подробные сведения о подразделениях [12] включая контакты сотрудников
10. Реестры того же Минтранса это хороший пример того как не надо публиковать реестры. Например, реестр остановок публикуется без метаданных и без координат [13]

Список можно продолжать долго и это только просто про информацию на сайтах. Если смотреть на открытые данные, то будет куда больше таких нюансов.

Ссылки:
[1] https://edu.gov.ru/about/departments/
[2] http://www.mnr.gov.ru/about/#directors
[3] http://www.mnr.gov.ru/open_ministry/schedule/
[4] http://government.ru/rugovclassifier/section/2641/
[5] https://projectobrazovanie.ru/
[6] https://национальныепроекты.рф/
[7] https://www.rosnedra.gov.ru/category/191.html?mm=162&ml=263
[8] https://minstroyrf.gov.ru/about/organizations/gosdocs/
[9] http://mnr.gov.ru/activity/fire-map/
[10] https://mintrud.gov.ru/ministry/about/structure/advisory_coordinating
[11] https://mintrud.gov.ru/ministry/about/reports
[12] https://mintrans.gov.ru/ministry/structure
[13] https://mintrans.gov.ru/documents/8/11182?type=

#government #information #openness

1.3K viewsIvan Begtin, 14:21

Для тех кто интересуется о том как устроены приложения по мониторингу COVID-19 в других странах и какие есть методики их анализа и результаты можно узнать из декабрьского исследования Unmasked II [1] от Citizenlab посвящённого приложениям PeduliLindungi в Индонезии и приложений StaySafe PH и COVID-KAYA в Филлипинах.

По сравнению с другими исследованиями и анализом, авторы провели полноценный анализ безопасности приложений, разобрали код и даже смогли вытащить данные из базы Firebase которое филиппинское приложение использовало для отправки сведений о пользователях. В октябре 2020 года исследователи вначале нашли код аутенификации внутри запросов от приложения, а потом с его помощью вытащили из базы Firebase 190 тысяч записей с координатами филлипинских пользователей. Причём разработчик, судя по всему, так и не смог исправить эту ошибку до конца хотя и около месяца пытался это сделать (подробности в исследовании).

Мы в своём исследовании "Приватность государственных мобильных приложений в России" [2] сознательно не проводили такого анализа информационной безопасности, эта тема ближе к компаниям специализирующимся на проверках безопасности, пентестах и так далее. Но это совсем не значит что российские госприложения работающие с данными граждан сделаны так хорошо что там такие проблемы не могут быть.

Ссылки:
[1] https://citizenlab.ca/2020/12/unmasked-ii-an-analysis-of-indonesia-and-the-philippines-government-launched-covid-19-apps/
[2] https://privacygosmobapps.infoculture.ru/

#privacy #covid19 #security #leaks

The Citizen Lab

Unmasked II: An Analysis of Indonesia and the Philippines’ Government-launched COVID-19 Apps - The Citizen Lab

As part of the Citizen Lab's research into the security and privacy of applications, we report on issues we discovered with three COVID-related applications in Indonesia and the Philippines – PeduliLindungi, StaySafe PH, and COVID-KAYA.

1.3K viewsIvan Begtin, 06:14

Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.

На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].

В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.

По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.

Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207

#archival #webarchive #government #netprojects

национальныепроекты.рф

Национальные проекты России

Официальный информационный ресурс с планами развития страны на ближайшее будущее и мерами по улучшению качества жизни населения. Сайт создан при поддержке АНО «Национальные приоритеты».

1.2K viewsIvan Begtin, 08:47

Команда Википедии анонсировала Wikipedia Enterprise API [1], продукта для крупных корпораций по использованию данных Википедии.

Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API

В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].

Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.

Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal

#opendata #enterpise #wikipedia #API

Introducing the Wikimedia Enterprise API

Over the last 20 years the Wikimedia projects have grown into essential knowledge resources that are not just used by billions of people, but also by many commercial organizations that incorporate …

1.3K viewsIvan Begtin, 09:24

Калифорнийские регуляторы ввели ограничения (запреты) [1] на использование "теневых шаблонов" (dark patterns) ИТ компаниями для пользователей . Об этом пишет The Verge [2] и раскрывает подробности.

Регулирование охватывает не все, а только наиболее вредные dark patterns такие как:
- запрет на использование вводящей в заблуждение лексики с двумя отрицаниями (пример “Don’t Not Sell My Personal Information”)
- заставлять пользователей прокликиваться или выслушивать аргументы почему они не должны направлять запрос на выход из сервиса если они так решили
- заставлять пользовалей искать или скроллить через текст политики приватности или похожего документа чтобы найти механизм для выхода из сервиса (opt out)

Это не полный их список, но только примеры. Бизнес который будет пойман на таких dark patterns получит "уведомление о лечении" (notice to cure) и 30 дней на исправление.

Что тут скажешь, на фоне войны российского Роскомнадзора с Твиттером - это пример регулирования ИТ продуктов и сервисов который нашим регуляторам и не снился.

Ссылки:
[1] https://oag.ca.gov/news/press-releases/attorney-general-becerra-announces-approval-additional-regulations-empower-data
[2] https://www.theverge.com/2021/3/16/22333506/california-bans-dark-patterns-opt-out-selling-data

#privacy #darkpatterns

1.5K viewsIvan Begtin, 15:34

В рубрике интересные данные, очередной особенно большой набор данных Quotebank [1] состоит из цитат персон в англоязычной онлайн прессе с 2008 по 2020 годы включительно. Это 178 миллионов цитат извлечённых из 196 англоязычных новостных статей собранных из 377 тысяч доменов.

Общий объём данных - 190 гигабайт в сжатом виде (файлы .json.bz2), то есть после распаковки, от 1 до 3 терабайт. Авторы исследования всей командой из École polytechnique fédérale de Lausanne и опубликовали статью на основе этих данных Quotebank: A Corpus of Quotations from a Decade of News [2]

Жаль ничего подобного нет для русского языка.

Ссылки:
[1] https://zenodo.org/record/4277311#.YFI7TNxn2Uk
[2] https://dl.acm.org/doi/10.1145/3437963.3441760

#opendata #openaccess #bigdata #research #datasets

Quotebank: A Corpus of Quotations from a Decade of News

Introduction Quotebank is a dataset of 235 million unique, speaker-attributed quotations that were extracted from 196 million English news articles (127 million containing quotations) crawled from over 377 thousand web domains (15 thousand root domains) between…

1.3K viewsIvan Begtin, 17:36

Я не знаю как там нацпроект "Образование", но статистика ЕГЭ федеральная и региональная исчезала и продолжает исчезать. Федеральной статистики уже давно нет, во многих, возможно в большинстве, регионов нет и региональной, а там где есть то далеко не за все годы или же архивные данные удалили и заменили данными с меньшей детализацией.

Приведу лишь несколько примеров
1. Федеральная статистика по ЕГЭ не публикуется уже примерно с 2013 года. Сайт ege.edu.ru с прошлого года недоступен и теперь перенаправляет на раздел на сайте Рособрнадзора [1], где тоже нет даже самых базовых цифр. Когда-то я сохранял архивы за 2011-2012 годы на Хабе открытых данных [2], там можно посмотреть как эта статистика выглядела.
2. Пример региональной статистики. АУ УР "Региональный центр оценки качества образования" в Республике Удмуртия публикует статистические сведения по ЕГЭ/ГИА 2012 года [3]. Можно посмотреть эволюцию публикации данных. В 2012 году подробные данные с результатами до муниципальных районов, в 2013-2015 годах, динамика вместо подробностей, но всё ещё остаётся сводка по региону. Начиная с 2016 года публикуется только "куцый" документ "Динамика среднего балла по предметам ЕГЭ" в виде короткой таблички.
3. В некоторых регионах общедоступная аналитика и статистика полностью отсутствуют. Пример, Московская область. Пустой раздел статистики [4] и система аналитики по паролю [5]
4. В некоторых регионах, Санкт-Петербург, например, данные не публикуются, но публикуются сборники включающие сведения с детализацией до школ. [6]. Это не облегчает работу аналитиков и не помогает родителям учеников, но даёт хоть какие-то сведения.
5. В Воронежской области куда-то дели все стат сборники до 2019 года [7]. Это к вопросу о том почему необходимо архивировать госсайты

Но это всё примеры, а реальность такова что будь политика Рособрнадзора и теперь уже Минпросвещения в сторону открытости, то и региональные власти такие сведения бы не скрывали. А в ситуации когда у нас образование закрыто чуть ли не больше чем силовые органы, то и у граждан отношение к госполитике в этой области по умолчанию не доверительное.

Ссылки:
[1] http://obrnadzor.gov.ru/gia/gia-11/
[2] https://hubofdata.ru/dataset?tags=%D0%95%D0%93%D0%AD
[3] http://ege.ciur.ru/statistic/
[4] http://rcoi.net/dokumenty-gia-11.html
[5] http://analysis.rcoi.net
[6] https://rcokoit.ru/library.htm?mode=year&year=2020
[7] http://ege.36edu.ru/%D0%93%D0%98%D0%90-11-%D0%95%D0%93%D0%AD-%D0%93%D0%92%D0%AD/%D0%A1%D0%A2%D0%90%D0%A2%D0%98%D0%A1%D0%A2%D0%98%D0%9A%D0%90

#opendata #edu #statistics

ФЕДЕРАЛЬНАЯ СЛУЖБА ПО НАДЗОРУ В СФЕРЕ ОБРАЗОВАНИЯ И НАУКИ

ГИА-11 | ФЕДЕРАЛЬНАЯ СЛУЖБА ПО НАДЗОРУ В СФЕРЕ ОБРАЗОВАНИЯ И НАУКИ

Государственная итоговая аттестация по образовательным программам среднего общего образования (ГИА-11), завершающая освоение имеющих государственную аккредитацию основных образовательных программ среднего общего … Читать далее «ГИА-11»

1.3K viewsIvan Begtin, 06:10

В Великобритании собрали базу грантов для НКО в рамках программ связанных с COVID-19 [1]. Это 32 тысячи грантов, 24 тысячам получателей, от 115 грантодателей на общую сумму в 584 миллиона фунтов.

Всю эту работу осуществляет НКО 360 Giving [2], разработчики стандарта раскрытия сведений о грантах со стороны грантодающих организаций [3] и создавших сводную базу на более чем 461 тысячу грантов выданных в Великобритании.

Ссылки:
[1] https://covidtracker.threesixtygiving.org/
[2] https://www.threesixtygiving.org/
[3] https://www.threesixtygiving.org/support/standard/

#opendata #ngo #uk

360Giving - 360Giving

We are a charity that helps organisations publish open, standardised grants data, and supports people to use it to improve charitable giving.

1.3K viewsIvan Begtin, 06:55

Мне, честно говоря, порядком надоедает комментировать очередную инициативу регулирования со стороны Роскомнадзора. Вчерашняя новость о том что Роскомнадзор планирует собирать сведения о звонках граждан [1] как раз из таких. Если коротко - то это лечение настоящей проблемы негодными методами.

Методы борьбы с сим-картами предлагаются через то, чтобы ежесуточно операторы сдавали Роскомнадзору ежесуточно такие данные как:
- Ф.И.О. абонентов, их местах жительства, дате рождения, реквизитах документов, удостоверяющих личность. О пользователях корпоративных тарифов будут передаваться аналогичные сведения, а также наименование организации, сотрудниками которой они являются, с юридическими идентификаторами;
- номере телефона, который используют абоненты и пользователи, а также дату заключения, изменения или расторжения договора об оказании услуг связи;
- видах звонков, совершенных абонентом или пользователем корпоративных тарифов, а также номере вызывающего и вызываемого абонента, о дополнительном номере вызывающего абонента, о номере, на который осуществляется переадресация вызова. Также будут переданы данные об идентификаторе базовой станции вызывающего и вызываемого абонентов или пользователей корпоративных тарифов;
- факте передачи голоса, текстовых и мультимедийных сообщений, а также передачи данных, в том числе с использованием промышленных устройств, оборудования, датчиков, сенсоров и т.п.;
- используемом абонентами и пользователями корпоративных тарифов оборудовании, в том числе его идентификационный модуль, а также о замене оборудования и изменения информации в идентификационном модуле и др.

Что я могу тут сказать? Могу сказать сразу с трех точек зрения.
Общественная: это, безусловно, дополнительный инструмент слежки за гражданами поскольку даже сам факт обмена информацией между гражданами - это важные сведения, они дорого стоят для всех частных охранных агентств, очень активно применяются для слежки за конкурентами и со стороны государства для слежки за недовольными, оппозицией и так далее.

Коммерческая: обратите внимание что вся стратегия регулирования государства стремительно меняется вот уже несколько лет. Если ещё какое-то время назад она была по модели регуляторной: "на Вас кто-нибудь пожалуется и мы Вас за это накажем, а ещё будем Вас регулярно и больно проверять", то сейчас модель датацентричная в плохом смысле. Регулятор теперь не приходит регулировать, он говорит: "Данные сдавать сюда, я сам разберусь, сам если что и заблокирую, а Вы вот эту железку себе на $&* поставьте". Это, в принципе, конец цифровой экономике и скоро площадки по диалогу бизнеса-государства по этой теме превратятся из лоббистких в защитные, когда корпоративные лоббисты отслеживают новые лютые изменения в НПА и хоть как-то пытаются их смягчить. На самом деле уже почти все так и живут, ну, почти все, ещё есть попытки лоббировать интересы, а не только защищаться.

Государственная: это, безусловно, безнадзорное расширение полномочий отдельного органа исполнительной власти который постепенно превращается в аналог Росфинмониторинга для связи и Интернета. Кроме уже существующих правоохранительных органов появляется ещё один в лице Роскомнадзора имеющий доступ к данным которые могут использоваться, в том числе, для нарушения приватности государственных служащих других ветвей власти, к примеру. В принципе, непрерывное усиление отдельных ФОИВов и их полная безнадзорность и невыполнение ими самими надзорных функций - это плохой тренд для госуправления. Роскомнадзор, хреново, но умеет отслеживать нарушения у бизнеса и полностью игнорирует нарушения в других органах власти.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/17/03/2021/605206809a794702c7c67af8

#privacy #government #surveillance

Роскомнадзор потребует от операторов данные об абонентах и их разговорах

Для борьбы с серыми сим-картами Роскомнадзор хочет получать детальные сведения об абонентах, включая — кто кому звонил и с каких устройств. Масштаб запрашиваемой информации будет нарушать тайну

3.2K viewsIvan Begtin, 12:49

О том как публикуются большие наборы исследовательских данных не могу не помнить про каталог данных данных компании Amazon [1]. Все опубликованные там данные не их, а данные исследовательских центров. Их немного, всего 220 наборов данных. Они самым простецким образом описаны вместе с исходным кодом на Github'е [2], но их объёмы - это десятки, сотни терабайт. Это одни из крупнейших наборов данных, один из известнейших из них - это Common Crawl [3] открытый поисковый индекс с 50 миллиардами проиндексированных веб-страниц. Только за февраль/март 2021 года в их индекс добавилось 280 терабайт распакованных данных (примерно 80 терабайт в архиве) [4]

Почему Amazon создали такой реестр и в открытую раздают такие объёмы данных? Всё просто, для тех кто работает в их инфраструктуре доступ к этим данным значительно удобнее. А там такие объёмы что их бессмысленно скачивать себе локально, проще арендовать в инфраструктуре Amazon Web Services сервер и через него работать с этими данными. Лично я так и делал несколько лет назад когда работал с веб архивами и с Common Crawl в частности, было куда проще с инфраструктуры Amazon.

При этом их каталог стабильно растёт именно большими исследовательскими наборами данных и это одна из лучших коммерческих инициатив по обеспечению доступности исследовательских данных.

Ссылки:
[1] https://registry.opendata.aws/
[2] https://github.com/awslabs/open-data-registry/
[3] https://registry.opendata.aws/commoncrawl/
[4] https://commoncrawl.org/2021/03/february-march-2021-crawl-archive-now-available/

#opendata #datacatalogs #aws

GitHub - awslabs/open-data-registry: A registry of publicly available datasets on AWS

A registry of publicly available datasets on AWS. Contribute to awslabs/open-data-registry development by creating an account on GitHub.

1.4K viewsIvan Begtin, 18:55

Слегка отвлекаясь от темы ИТ, команда учёных научилась выращивать мышей в механических матках (mechanical womb) и вырастили таким образом 1000 мышиных эмбрионов [1]. Пока нерешённой проблемой остаётся подача кровя эмбрионам, но рано или поздно она может быть решена.

Те кто читал и помнят в серии книг Лоис Буджолд о Барраяре была технология маточных репликаторов [2]

Остаётся вопрос о том сколько лет пройдет пока эта технология появится? Судя по темпам развития науки, через 10-15 лет такая технология может перейти в стадию промышленной эксплуатации.

И как тогда изменятся социальные отношения и устройство общества?

Ссылки:
[1] https://finance.yahoo.com/news/weizmann-institute-of-science-mechanical-womb-215003047.html
[2] http://cyclowiki.org/wiki/%D0%9C%D0%B0%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D0%B9_%D1%80%D0%B5%D0%BF%D0%BB%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80

#tech

This mouse embryo grew in an artificial uterus

Researchers have managed to grow the embryo of a mammal inside an artificial womb for the first time.

1.4K viewsIvan Begtin, 19:24

В США Казначейство опубликовало набор данных о ежесуточных поступлениях в федеральный бюджет U.S. Government Revenue Collections [1]. Это данные начиная с октября 2004 года, обновляемые ежедневно и охватывающие 17 показателей за сутки включая сведения о суммах поступлений, тип поступления (электронно, по почте, через терминал) и других.

Если бы к этим данным ещё была декомпозиция по видам налогоплательщиков, видам налогов и неналоговых платежей - было бы ещё интереснее для анализа влияния COVID-19 и других глобальных и менее глобальных событий с точки зрения поступления средств на счета бюджета.

В целом же видно что казначейство США идёт по принципу что "лучше понемногу, но хорошего качества" и публикуют наборы данных с ежедневным и ежемесячным обновлением, с продуманными метаданными, документацией, удобным API и так далее. Что неплохо, но как-то уж очень медленно.

Ссылки:
[1] https://fiscaldata.treasury.gov/datasets/revenue-collections-management/u-s-government-revenue-collections

#opendata #usa #budgets

fiscaldata.treasury.gov

U.S. Government Revenue Collections | U.S. Treasury Fiscal Data

Data on the amounts of federal revenue collected monthly by the Fiscal Service, as well as the revenue collection channels used.

2.1K viewsIvan Begtin, 07:34

Написал в рассылку о том "Как реагировать на новое регулирование ИТ и цифры?" [1]. Формат не укладывается в короткие тексты в Telegram, напоминаю что я веду рассылку [2] где стараюсь регулярно рассылать лонгриды на то с чем сталкиваюсь.

Ссылки:
[1] https://begtin.substack.com/p/14
[2] https://begtin.substack.com

#laws #lawmaking #regulation

Ivan’s Begtin Newsletter on digital, open and preserved government

#14. Как реагировать на новое регулирование ИТ и цифры?

Новые законопроекты появляются постоянно, как отличать разумные от вредных?

1.4K viewsIvan Begtin, 08:38

Полиция Великобритании предупредила студентов страны что доступ к сайту Sci-Hub нелегален. Об этом пишут BBC в заметке Police warn students to avoid science website [1], причём на удивление в стиле российских СМИ, а то есть журналистики официальной реакции, а не инфоповода и без погружения в тему.

Пока же можно узнать что полиция ещё не привлекает студентов к ответственности, но предупреждает что это доступ к незаконному контенту (незаконной интеллектуальной собственности) и рекомендует университетам заблокировать доступ к Sci-Hub.

Но факт остаётся фактом, если бы Sci Hub не существовал, то и давление по поводу открытия научных статей на крупнейшие научные издательства было бы куда слабее. Многие в научной среде считают что модель научной публикации с последующим доступом к статьям за деньги себя исчерпала и Sci Hub - это скорее благо.

Ссылки:
[1] https://www.bbc.com/news/education-56462390

#research #openaccess

Police warn students to avoid science website

Universities are urged to block a science research website, which police say could put data at risk.

1.6K viewsIvan Begtin, 07:53