Ivan Begtin
8.09K subscribers
1.63K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Национальная стратегия работы с данными (Datenstrategie der Bundesregierung) была принята в Германии решение Правительства, 21 января 2021 года [1].

О ней писали [2] Deuche Welle, с небольшим пессимизмом, о том можно ли действительно достичь всех заложенных туда целей и о ней же есть декомпозиция у Simmons+Simmons [3].

На что стоит обратить внимание:
- создание инструментов с открытым кодом для работы с данными в соответствии со стандартами;
- разработка стратегии открытых данных (на самом деле обновление имеющейся);
- реализация директив по открытости данных и доступа к информации с учётом новых законов регулирующих данные.

Там ещё много разного, но в целом стратегию можно сформулировать как:
- развивать открытость данных и кода
- создавать инфраструктуру для работы с данными
- формировать культуру работы с данными
- защищать приватность и персональные данные
- развивать искусственный интеллект
- распространять принципы обмена данными в коммерческом секторе

И ещё довольно много всего. Нельзя сказать чтобы там было что-то совсем неожиданное или странное, важнее что всё собрано в один документ и именно он определяет основные направления развития не работы с данными органов власти, но и регулирования данных в Германии.

Ссылки:
[1] https://www.auswaertiges-amt.de/blob/610644/49a58b5ecfd5a78862b051d94465afb6/gestaltungsmaechtekonzept-engl-data.pdf
[2] https://www.dw.com/en/germanys-new-data-strategy-may-come-too-late/a-56372247
[3] https://www.simmons-simmons.com/en/publications/ckkp9wcs816rl0941llo7rbl8/new-data-strategy-of-the-german-federal-government

#opendata #data #datastrategy #germany
Bertelsmann Stiftung опубликовали каталог с 11 тысяч наборов данных муниципалитетов Германии [1]. Это более 100 муниципалитетов, с данными самой разной тематики. Все данные агрегировались с порталов этих муниципалитетов, хорошо систематизированы и доступны как открытые данные. Сама работа велась в рамках проекта Smart Country [2] и это, конечно, не единственный подобный проект в мире по агрегации муниципальных/гиперлокальных данных.

Ссылки:
[1] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country/musterdatenkatalog
[2] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country

#opendata #germany
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].

На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.

А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].

Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.

Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.

Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.

Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org

#digital #archival #webarchive
Я также читал эту концепцию и, при всех благих целях, она написана словно не про Россию. То что качество нормотворчества деградирует говорят уже давно не только люди снаружи гос-ва, но и внутри. Я скажу больше, во многих областях деятельности акторы, что негосудаственные, что государственные, живут исключительно в режиме антикзисного нормативного мониторинга. Цели пролоббировать лучшее регулирование уже не ставится, целью является "отбиться" от законопроекта или иного НПА, или хотя бы сгладить его последствия. На лучшее надежды мало, лишь бы хуже не стало (с).

А в остальном лично я тоже, за всё хорошее и против всего плохого, и если концепция машиночитаемого права пройдет, то хуже то точно не будет.

#regulation #laws
Алгоритмы регуляторной политики?
💎
На рассмотрение Рабочей группы «Нормативное регулирование» АНО «Цифровая экономика», как указано на сайте Центра компетенций по данному направлению – Фонда «Сколково», 10 марта 2021 г. вынесена новая версия Концепции развития технологий машиночитаемого права.
💎 Да, внедрение "цифры" в процессы нормотворчества и правоприменения, а, значит, и регулирования в целом – процесс объективный и активно развивающийся. Но если посмотреть на данный проект с точки зрения ключевых инструментов регуляторной политики – обнаружится пара неприятных затыков.
👉 Во-1-х, сам нормотворческий процесс, а также последующую оценку (мониторинг) действующих норм авторы проекта излагают весьма выборочно. Возможности и перспективы автоматизации #ОРВ и #ОФВ, как ключевых институтов регуляторной политики, в проекте вообще не рассматриваются.
👉 Во-2-х, перспективы автоматизации #ФЭО, наоборот, слишком радужны. Авторы пишут, что будет осуществляться «автоматическая оценка влияния предлагаемых проектом нормативного правового акта мер на доходы и расходы бюджета, проверка предлагаемых финансово-экономическим обоснованием затрат или доходов на соответствие иным подобным показателям». Как это будет осуществляться в условиях, когда значительная часть ФЭО к проектам НПА в настоящее время, по сути, «пустышки», - из текста проекта не ясно. Да и в новом Реестре обязательных требований оценка затрат (издержек) на их исполнение пока указана лишь как возможная функция создаваемой информационной системы, а не необходимый атрибут каждого обязательного требования, включенного в Реестр.
#RegTech #Сколково #ЦЭ #регуляторика #SCM #МСИ #ОТ
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
О проблемах и особенностях открытости органов власти, по мелочам, продолжение. Всё то что вылезает когда регулярно изучаешь госсайты, но не входит в доклады:

1. Минпросвещения и Минпприроды не публикуют сведения о структуре органа власти. У Минпросвещения "страница обновляется" [1], у Минприроды просто нет информации в разделе "Структура" [2].
2. У Минприроды график приёма граждан не опубликован уже давно [3]
3. Нет единого портала нацпроектов в России. Есть только "куцый" раздел [4] на сайте Правительства РФ и отдельные сайты по отдельным нацпроектам [5] и другие медийные проекты вроде национальныепроекты.рф [6]. Зачем и почему так и почему нет единого портала раскрытия - непонятно.
4. Роснедра один из немногих ФОИВов публиковавших госзадания подведомственных учреждений. Но и они прекратили это делать в 2014 году [7]. Ещё один ФОИВ, Минстрой РФ прекратил публиковать госзадания в 2018, а отчёты по ним в 2017 годах [8]
5. Минприроды предоставляет карту пожаров не обновлявшуюся 3 недели [8] и с полным отсутствием ретроспективы. Данные доступны только на конкретную дату и с накопительным итогом с начала года. Довольно бессмысленно.
6. Во многих, возможно в большинстве ФОИВов, не указываются контакты руководителей департаментов в разделах "Структура". Часто не указываются даже рабочие телефоны.
7. Минтруд чуть ли не единственный ФОИВ публикующий подробные сведения о всех координационных и совещательных органах [10], включая их протоколы и положения.
8. И тот же Минтруд уже 4-й год не публикует доклады о результатах и основных направлениях деятельности [11]
9. А вот в Минтрансе РФ публикуют подробные сведения о подразделениях [12] включая контакты сотрудников
10. Реестры того же Минтранса это хороший пример того как не надо публиковать реестры. Например, реестр остановок публикуется без метаданных и без координат [13]

Список можно продолжать долго и это только просто про информацию на сайтах. Если смотреть на открытые данные, то будет куда больше таких нюансов.

Ссылки:
[1] https://edu.gov.ru/about/departments/
[2] http://www.mnr.gov.ru/about/#directors
[3] http://www.mnr.gov.ru/open_ministry/schedule/
[4] http://government.ru/rugovclassifier/section/2641/
[5] https://projectobrazovanie.ru/
[6] https://национальныепроекты.рф/
[7] https://www.rosnedra.gov.ru/category/191.html?mm=162&ml=263
[8] https://minstroyrf.gov.ru/about/organizations/gosdocs/
[9] http://mnr.gov.ru/activity/fire-map/
[10] https://mintrud.gov.ru/ministry/about/structure/advisory_coordinating
[11] https://mintrud.gov.ru/ministry/about/reports
[12] https://mintrans.gov.ru/ministry/structure
[13] https://mintrans.gov.ru/documents/8/11182?type=

#government #information #openness
Для тех кто интересуется о том как устроены приложения по мониторингу COVID-19 в других странах и какие есть методики их анализа и результаты можно узнать из декабрьского исследования Unmasked II [1] от Citizenlab посвящённого приложениям PeduliLindungi в Индонезии и приложений StaySafe PH и COVID-KAYA в Филлипинах.

По сравнению с другими исследованиями и анализом, авторы провели полноценный анализ безопасности приложений, разобрали код и даже смогли вытащить данные из базы Firebase которое филиппинское приложение использовало для отправки сведений о пользователях. В октябре 2020 года исследователи вначале нашли код аутенификации внутри запросов от приложения, а потом с его помощью вытащили из базы Firebase 190 тысяч записей с координатами филлипинских пользователей. Причём разработчик, судя по всему, так и не смог исправить эту ошибку до конца хотя и около месяца пытался это сделать (подробности в исследовании).

Мы в своём исследовании "Приватность государственных мобильных приложений в России" [2] сознательно не проводили такого анализа информационной безопасности, эта тема ближе к компаниям специализирующимся на проверках безопасности, пентестах и так далее. Но это совсем не значит что российские госприложения работающие с данными граждан сделаны так хорошо что там такие проблемы не могут быть.

Ссылки:
[1] https://citizenlab.ca/2020/12/unmasked-ii-an-analysis-of-indonesia-and-the-philippines-government-launched-covid-19-apps/
[2] https://privacygosmobapps.infoculture.ru/

#privacy #covid19 #security #leaks
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.

На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].

В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.

По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.

Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207

#archival #webarchive #government #netprojects
Команда Википедии анонсировала Wikipedia Enterprise API [1], продукта для крупных корпораций по использованию данных Википедии.

Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API

В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].

Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.

Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal

#opendata #enterpise #wikipedia #API
Калифорнийские регуляторы ввели ограничения (запреты) [1] на использование "теневых шаблонов" (dark patterns) ИТ компаниями для пользователей . Об этом пишет The Verge [2] и раскрывает подробности.

Регулирование охватывает не все, а только наиболее вредные dark patterns такие как:
- запрет на использование вводящей в заблуждение лексики с двумя отрицаниями (пример “Don’t Not Sell My Personal Information”)
- заставлять пользователей прокликиваться или выслушивать аргументы почему они не должны направлять запрос на выход из сервиса если они так решили
- заставлять пользовалей искать или скроллить через текст политики приватности или похожего документа чтобы найти механизм для выхода из сервиса (opt out)

Это не полный их список, но только примеры. Бизнес который будет пойман на таких dark patterns получит "уведомление о лечении" (notice to cure) и 30 дней на исправление.

Что тут скажешь, на фоне войны российского Роскомнадзора с Твиттером - это пример регулирования ИТ продуктов и сервисов который нашим регуляторам и не снился.

Ссылки:
[1] https://oag.ca.gov/news/press-releases/attorney-general-becerra-announces-approval-additional-regulations-empower-data
[2] https://www.theverge.com/2021/3/16/22333506/california-bans-dark-patterns-opt-out-selling-data

#privacy #darkpatterns
В рубрике интересные данные, очередной особенно большой набор данных Quotebank [1] состоит из цитат персон в англоязычной онлайн прессе с 2008 по 2020 годы включительно. Это 178 миллионов цитат извлечённых из 196 англоязычных новостных статей собранных из 377 тысяч доменов.

Общий объём данных - 190 гигабайт в сжатом виде (файлы .json.bz2), то есть после распаковки, от 1 до 3 терабайт. Авторы исследования всей командой из École polytechnique fédérale de Lausanne и опубликовали статью на основе этих данных Quotebank: A Corpus of Quotations from a Decade of News [2]

Жаль ничего подобного нет для русского языка.

Ссылки:
[1] https://zenodo.org/record/4277311#.YFI7TNxn2Uk
[2] https://dl.acm.org/doi/10.1145/3437963.3441760

#opendata #openaccess #bigdata #research #datasets
Я не знаю как там нацпроект "Образование", но статистика ЕГЭ федеральная и региональная исчезала и продолжает исчезать. Федеральной статистики уже давно нет, во многих, возможно в большинстве, регионов нет и региональной, а там где есть то далеко не за все годы или же архивные данные удалили и заменили данными с меньшей детализацией.

Приведу лишь несколько примеров
1. Федеральная статистика по ЕГЭ не публикуется уже примерно с 2013 года. Сайт ege.edu.ru с прошлого года недоступен и теперь перенаправляет на раздел на сайте Рособрнадзора [1], где тоже нет даже самых базовых цифр. Когда-то я сохранял архивы за 2011-2012 годы на Хабе открытых данных [2], там можно посмотреть как эта статистика выглядела.
2. Пример региональной статистики. АУ УР "Региональный центр оценки качества образования" в Республике Удмуртия публикует статистические сведения по ЕГЭ/ГИА 2012 года [3]. Можно посмотреть эволюцию публикации данных. В 2012 году подробные данные с результатами до муниципальных районов, в 2013-2015 годах, динамика вместо подробностей, но всё ещё остаётся сводка по региону. Начиная с 2016 года публикуется только "куцый" документ "Динамика среднего балла по предметам ЕГЭ" в виде короткой таблички.
3. В некоторых регионах общедоступная аналитика и статистика полностью отсутствуют. Пример, Московская область. Пустой раздел статистики [4] и система аналитики по паролю [5]
4. В некоторых регионах, Санкт-Петербург, например, данные не публикуются, но публикуются сборники включающие сведения с детализацией до школ. [6]. Это не облегчает работу аналитиков и не помогает родителям учеников, но даёт хоть какие-то сведения.
5. В Воронежской области куда-то дели все стат сборники до 2019 года [7]. Это к вопросу о том почему необходимо архивировать госсайты

Но это всё примеры, а реальность такова что будь политика Рособрнадзора и теперь уже Минпросвещения в сторону открытости, то и региональные власти такие сведения бы не скрывали. А в ситуации когда у нас образование закрыто чуть ли не больше чем силовые органы, то и у граждан отношение к госполитике в этой области по умолчанию не доверительное.

Ссылки:
[1] http://obrnadzor.gov.ru/gia/gia-11/
[2] https://hubofdata.ru/dataset?tags=%D0%95%D0%93%D0%AD
[3] http://ege.ciur.ru/statistic/
[4] http://rcoi.net/dokumenty-gia-11.html
[5] http://analysis.rcoi.net
[6] https://rcokoit.ru/library.htm?mode=year&year=2020
[7] http://ege.36edu.ru/%D0%93%D0%98%D0%90-11-%D0%95%D0%93%D0%AD-%D0%93%D0%92%D0%AD/%D0%A1%D0%A2%D0%90%D0%A2%D0%98%D0%A1%D0%A2%D0%98%D0%9A%D0%90

#opendata #edu #statistics
В Великобритании собрали базу грантов для НКО в рамках программ связанных с COVID-19 [1]. Это 32 тысячи грантов, 24 тысячам получателей, от 115 грантодателей на общую сумму в 584 миллиона фунтов.

Всю эту работу осуществляет НКО 360 Giving [2], разработчики стандарта раскрытия сведений о грантах со стороны грантодающих организаций [3] и создавших сводную базу на более чем 461 тысячу грантов выданных в Великобритании.

Ссылки:
[1] https://covidtracker.threesixtygiving.org/
[2] https://www.threesixtygiving.org/
[3] https://www.threesixtygiving.org/support/standard/

#opendata #ngo #uk
Мне, честно говоря, порядком надоедает комментировать очередную инициативу регулирования со стороны Роскомнадзора. Вчерашняя новость о том что Роскомнадзор планирует собирать сведения о звонках граждан [1] как раз из таких. Если коротко - то это лечение настоящей проблемы негодными методами.

Методы борьбы с сим-картами предлагаются через то, чтобы ежесуточно операторы сдавали Роскомнадзору ежесуточно такие данные как:
- Ф.И.О. абонентов, их местах жительства, дате рождения, реквизитах документов, удостоверяющих личность. О пользователях корпоративных тарифов будут передаваться аналогичные сведения, а также наименование организации, сотрудниками которой они являются, с юридическими идентификаторами;
- номере телефона, который используют абоненты и пользователи, а также дату заключения, изменения или расторжения договора об оказании услуг связи;
- видах звонков, совершенных абонентом или пользователем корпоративных тарифов, а также номере вызывающего и вызываемого абонента, о дополнительном номере вызывающего абонента, о номере, на который осуществляется переадресация вызова. Также будут переданы данные об идентификаторе базовой станции вызывающего и вызываемого абонентов или пользователей корпоративных тарифов;
- факте передачи голоса, текстовых и мультимедийных сообщений, а также передачи данных, в том числе с использованием промышленных устройств, оборудования, датчиков, сенсоров и т.п.;
- используемом абонентами и пользователями корпоративных тарифов оборудовании, в том числе его идентификационный модуль, а также о замене оборудования и изменения информации в идентификационном модуле и др.

Что я могу тут сказать? Могу сказать сразу с трех точек зрения.
Общественная: это, безусловно, дополнительный инструмент слежки за гражданами поскольку даже сам факт обмена информацией между гражданами - это важные сведения, они дорого стоят для всех частных охранных агентств, очень активно применяются для слежки за конкурентами и со стороны государства для слежки за недовольными, оппозицией и так далее.

Коммерческая: обратите внимание что вся стратегия регулирования государства стремительно меняется вот уже несколько лет. Если ещё какое-то время назад она была по модели регуляторной: "на Вас кто-нибудь пожалуется и мы Вас за это накажем, а ещё будем Вас регулярно и больно проверять", то сейчас модель датацентричная в плохом смысле. Регулятор теперь не приходит регулировать, он говорит: "Данные сдавать сюда, я сам разберусь, сам если что и заблокирую, а Вы вот эту железку себе на $&* поставьте". Это, в принципе, конец цифровой экономике и скоро площадки по диалогу бизнеса-государства по этой теме превратятся из лоббистких в защитные, когда корпоративные лоббисты отслеживают новые лютые изменения в НПА и хоть как-то пытаются их смягчить. На самом деле уже почти все так и живут, ну, почти все, ещё есть попытки лоббировать интересы, а не только защищаться.

Государственная: это, безусловно, безнадзорное расширение полномочий отдельного органа исполнительной власти который постепенно превращается в аналог Росфинмониторинга для связи и Интернета. Кроме уже существующих правоохранительных органов появляется ещё один в лице Роскомнадзора имеющий доступ к данным которые могут использоваться, в том числе, для нарушения приватности государственных служащих других ветвей власти, к примеру. В принципе, непрерывное усиление отдельных ФОИВов и их полная безнадзорность и невыполнение ими самими надзорных функций - это плохой тренд для госуправления. Роскомнадзор, хреново, но умеет отслеживать нарушения у бизнеса и полностью игнорирует нарушения в других органах власти.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/17/03/2021/605206809a794702c7c67af8

#privacy #government #surveillance
О том как публикуются большие наборы исследовательских данных не могу не помнить про каталог данных данных компании Amazon [1]. Все опубликованные там данные не их, а данные исследовательских центров. Их немного, всего 220 наборов данных. Они самым простецким образом описаны вместе с исходным кодом на Github'е [2], но их объёмы - это десятки, сотни терабайт. Это одни из крупнейших наборов данных, один из известнейших из них - это Common Crawl [3] открытый поисковый индекс с 50 миллиардами проиндексированных веб-страниц. Только за февраль/март 2021 года в их индекс добавилось 280 терабайт распакованных данных (примерно 80 терабайт в архиве) [4]

Почему Amazon создали такой реестр и в открытую раздают такие объёмы данных? Всё просто, для тех кто работает в их инфраструктуре доступ к этим данным значительно удобнее. А там такие объёмы что их бессмысленно скачивать себе локально, проще арендовать в инфраструктуре Amazon Web Services сервер и через него работать с этими данными. Лично я так и делал несколько лет назад когда работал с веб архивами и с Common Crawl в частности, было куда проще с инфраструктуры Amazon.

При этом их каталог стабильно растёт именно большими исследовательскими наборами данных и это одна из лучших коммерческих инициатив по обеспечению доступности исследовательских данных.

Ссылки:
[1] https://registry.opendata.aws/
[2] https://github.com/awslabs/open-data-registry/
[3] https://registry.opendata.aws/commoncrawl/
[4] https://commoncrawl.org/2021/03/february-march-2021-crawl-archive-now-available/

#opendata #datacatalogs #aws
Слегка отвлекаясь от темы ИТ, команда учёных научилась выращивать мышей в механических матках (mechanical womb) и вырастили таким образом 1000 мышиных эмбрионов [1]. Пока нерешённой проблемой остаётся подача кровя эмбрионам, но рано или поздно она может быть решена.

Те кто читал и помнят в серии книг Лоис Буджолд о Барраяре была технология маточных репликаторов [2]

Остаётся вопрос о том сколько лет пройдет пока эта технология появится? Судя по темпам развития науки, через 10-15 лет такая технология может перейти в стадию промышленной эксплуатации.

И как тогда изменятся социальные отношения и устройство общества?

Ссылки:
[1] https://finance.yahoo.com/news/weizmann-institute-of-science-mechanical-womb-215003047.html
[2] http://cyclowiki.org/wiki/%D0%9C%D0%B0%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D0%B9_%D1%80%D0%B5%D0%BF%D0%BB%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80

#tech
В США Казначейство опубликовало набор данных о ежесуточных поступлениях в федеральный бюджет U.S. Government Revenue Collections [1]. Это данные начиная с октября 2004 года, обновляемые ежедневно и охватывающие 17 показателей за сутки включая сведения о суммах поступлений, тип поступления (электронно, по почте, через терминал) и других.

Если бы к этим данным ещё была декомпозиция по видам налогоплательщиков, видам налогов и неналоговых платежей - было бы ещё интереснее для анализа влияния COVID-19 и других глобальных и менее глобальных событий с точки зрения поступления средств на счета бюджета.

В целом же видно что казначейство США идёт по принципу что "лучше понемногу, но хорошего качества" и публикуют наборы данных с ежедневным и ежемесячным обновлением, с продуманными метаданными, документацией, удобным API и так далее. Что неплохо, но как-то уж очень медленно.

Ссылки:
[1] https://fiscaldata.treasury.gov/datasets/revenue-collections-management/u-s-government-revenue-collections

#opendata #usa #budgets
Написал в рассылку о том "Как реагировать на новое регулирование ИТ и цифры?" [1]. Формат не укладывается в короткие тексты в Telegram, напоминаю что я веду рассылку [2] где стараюсь регулярно рассылать лонгриды на то с чем сталкиваюсь.

Ссылки:
[1] https://begtin.substack.com/p/14
[2] https://begtin.substack.com

#laws #lawmaking #regulation
Полиция Великобритании предупредила студентов страны что доступ к сайту Sci-Hub нелегален. Об этом пишут BBC в заметке Police warn students to avoid science website [1], причём на удивление в стиле российских СМИ, а то есть журналистики официальной реакции, а не инфоповода и без погружения в тему.

Пока же можно узнать что полиция ещё не привлекает студентов к ответственности, но предупреждает что это доступ к незаконному контенту (незаконной интеллектуальной собственности) и рекомендует университетам заблокировать доступ к Sci-Hub.

Но факт остаётся фактом, если бы Sci Hub не существовал, то и давление по поводу открытия научных статей на крупнейшие научные издательства было бы куда слабее. Многие в научной среде считают что модель научной публикации с последующим доступом к статьям за деньги себя исчерпала и Sci Hub - это скорее благо.

Ссылки:
[1] https://www.bbc.com/news/education-56462390

#research #openaccess