Ivan Begtin

Читатели пишут, что Минцифры рассылает письмо ФОИВам и внебюджетным фондам о необходимости перехода на СМЭВ 3.0, при том, что этот переход должен был состояться ещё в 2017 году, что было зафиксировано протоколом правкомиссии 2016 года https://digital.gov.ru/uploaded/files/2752.pdf приложение 12 (начиная с 2018 страницы).

Что тут скажешь, 4 года прошло, "а воз и ныне там". Конечно, за это время министр связи, а теперь и цифры, сменился дважды, но это наглядный пример любых планов, которые формируются сейчас не только в ИТ, но и в нац. проектах и иных стратегических документах. Планы планами, а реальность реальностью.

И тут скромно хочется поинтересоваться какая будет судьба у НСУДа?;)

И, не могу не отметить, что рассылать документы с формами для заполнения сканированными PDF файлами плохой тон для любого органа власти, а для Минцифры особенно - потому что репутация цифрового министерства должна быть.

#digital #smev #documents

1.3K viewsIvan Begtin, 15:48

Ivan Begtin

Иногда полезно задавать вопросы у себя на канале, коллеги из Минцифры меня тоже читают и с их позволения публикую их ответ на вопрос "Что же там с НСУДом?"
—
1) Проекты изменений НПА (3 ПП) на согласовании в Аппарате Правительства. Ожидаем, что в марте будут приняты:
- ПП с положением о ЕИП НСУД
- ПП по включению ЕИП НСУД в Инфраструктуру электронного правительства
- ПП о включении типового ПО витрин в СМЭВ

2) 5 ведомственных витрин созданы, наполнены данными и находятся в стадии подключения к ЕПГУ и Цифровому профилю (ЕСИА), в апреле планируем запуск витрины МВД (Реестр транспортных средств), на ЕПГУ будут отражаться в режиме близком к онлайну соответствующие сведения

3) >60 ФОИВ и ГВФ описывают с ноября свои информационные ресурсы, информационные системы, наборы данных по поручению Д.Н.Чернышенко в ЕИП НСУД. До конца марта работа должна быть выполнена.

4) в ближайшие дни начнётся работа по описанию в ЕИП НСУД паспортов наборов данных для искусственного интеллекта, решили, что им тоже место в ЕИП

5) формируется план создания ведомственных витрин в 21-23 годах, получено более 900 предложений от ведомств по составу данных, которые необходимы им в оперативном режиме. обрабатываем и до конца марта представим в Правительство проект графика

6) в начале апреля представим версию ПО витрины с открытым исходным кодом и проект ООЛ - отечественной открытой лицензии, российским аналогом ASF2. Это ПО будет доступно как ФОИВам, так и рынку.
—
Чтож, хочется надеяться что НСУД не пойдет дорогой СМЭВа, благо осталось ждать совсем недолго.

#data #digital #minsvyaz

2.8K viewsIvan Begtin, 16:52

Ivan Begtin

13 латиноамериканских стран поменяли свои законы о госзакупках чтобы скрыть сведения о сделках о покупке вакцин. Всё это в расследовании [1] Red Palta (Латиноамериканская сеть журналистов по вопросам транспарентности и борьбы с коррупцией)

Вот так многие страны десятилетия идут в сторону прозрачности госрасходов, а потом во время пандемии всё это стремительно схлопывается. Потому что у пандемии относятся почти как к военному положению и потому что игра идёт по тем правилам кто сильнее. Когда крупный международный фарм. бизнес задаёт правила игры, то у правительств стран нет выбора (мало выбора) кроме как скрывать такие сделки. А скрывают их не столько от граждан, сколько от других стран чтобы те не знали реальных цен и им было бы сложнее торговаться.

Ссылки:
[1] https://www.redpalta.org/post/benefits-to-pharmaceutical-companies-in-the-purchase-of-vaccines/

#opendata #opengov #secrecy #covid19

www.redpalta.org

Latin American governments gave legal and tax benefits to pharmaceutical companies in vaccine purchases

One year after the first cases of coronavirus were identified in Latin America, an analysis into the legal measures published by governments finds that 13 Latin American countries changed their laws in order to purchase the Covid-19 vaccine between September…

2.2K viewsIvan Begtin, 17:13

Ivan Begtin

О том как регулируются закупки ИТ в других странах. В Австралии Digital Transformation Agency опубликовало Hosting Certification Framework [1] регулируются документ определяющий принципы сертификации хостинг провайдеров для государственных органов/государственных инициатив.

Сертификация предполагает наличие у хостинговых компаний одного из трех статусов:
- Несертифицированный
- Сертифицированный гарантирующий хостинг-провайдер
- Сертифицированный стратегический хостинг-провайдер

У каждого органа власти должна быть стратегия управления рисками в которой они определяют необходимый уровень сертификации.

Возможно ли подобное регулирование в России? Возможно было бы если бы закон о госзакупках таки решились переписать.

Ссылки:
[1] https://dta-www-drupal-20180130215411153400000001.s3.ap-southeast-2.amazonaws.com/s3fs-public/files/digital-identity/New%20Accreditation%20Templates/Hosting%20Certification%20Framework%20-%20March%202021.v2.pdf

#it #regulation

1.4K viewsIvan Begtin, 17:41

Ivan Begtin

Национальная стратегия работы с данными (Datenstrategie der Bundesregierung) была принята в Германии решение Правительства, 21 января 2021 года [1].

О ней писали [2] Deuche Welle, с небольшим пессимизмом, о том можно ли действительно достичь всех заложенных туда целей и о ней же есть декомпозиция у Simmons+Simmons [3].

На что стоит обратить внимание:
- создание инструментов с открытым кодом для работы с данными в соответствии со стандартами;
- разработка стратегии открытых данных (на самом деле обновление имеющейся);
- реализация директив по открытости данных и доступа к информации с учётом новых законов регулирующих данные.

Там ещё много разного, но в целом стратегию можно сформулировать как:
- развивать открытость данных и кода
- создавать инфраструктуру для работы с данными
- формировать культуру работы с данными
- защищать приватность и персональные данные
- развивать искусственный интеллект
- распространять принципы обмена данными в коммерческом секторе

И ещё довольно много всего. Нельзя сказать чтобы там было что-то совсем неожиданное или странное, важнее что всё собрано в один документ и именно он определяет основные направления развития не работы с данными органов власти, но и регулирования данных в Германии.

Ссылки:
[1] https://www.auswaertiges-amt.de/blob/610644/49a58b5ecfd5a78862b051d94465afb6/gestaltungsmaechtekonzept-engl-data.pdf
[2] https://www.dw.com/en/germanys-new-data-strategy-may-come-too-late/a-56372247
[3] https://www.simmons-simmons.com/en/publications/ckkp9wcs816rl0941llo7rbl8/new-data-strategy-of-the-german-federal-government

#opendata #data #datastrategy #germany

1.4K viewsIvan Begtin, 06:40

Ivan Begtin

Bertelsmann Stiftung опубликовали каталог с 11 тысяч наборов данных муниципалитетов Германии [1]. Это более 100 муниципалитетов, с данными самой разной тематики. Все данные агрегировались с порталов этих муниципалитетов, хорошо систематизированы и доступны как открытые данные. Сама работа велась в рамках проекта Smart Country [2] и это, конечно, не единственный подобный проект в мире по агрегации муниципальных/гиперлокальных данных.

Ссылки:
[1] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country/musterdatenkatalog
[2] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country

#opendata #germany

www.bertelsmann-stiftung.de

Kommunal. Digital. Vernetzt.: - Musterdatenkatalog für Kommunen

Welche offenen Daten werden von Kommunen in Deutschland veröffentlicht? Der Musterdatenkatalog verschafft einen Überblick.

1.3K viewsIvan Begtin, 11:11

Ivan Begtin

Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].

На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.

А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].

Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.

Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.

Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.

Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org

#digital #archival #webarchive

National Archives

NARA Guidance on Managing Web Records

January 2005 (PDF version available ) Web site operations are an integral part of an agency's program. Managing web records properly is essential to effective web site operations, especially the

1.2K viewsIvan Begtin, edited 06:32

Ivan Begtin

Я также читал эту концепцию и, при всех благих целях, она написана словно не про Россию. То что качество нормотворчества деградирует говорят уже давно не только люди снаружи гос-ва, но и внутри. Я скажу больше, во многих областях деятельности акторы, что негосудаственные, что государственные, живут исключительно в режиме антикзисного нормативного мониторинга. Цели пролоббировать лучшее регулирование уже не ставится, целью является "отбиться" от законопроекта или иного НПА, или хотя бы сгладить его последствия. На лучшее надежды мало, лишь бы хуже не стало (с).

А в остальном лично я тоже, за всё хорошее и против всего плохого, и если концепция машиночитаемого права пройдет, то хуже то точно не будет.

#regulation #laws

1.1K viewsIvan Begtin, 06:45

Ivan Begtin

Forwarded from Комиссия по Регуляторике

Алгоритмы регуляторной политики?
💎 На рассмотрение Рабочей группы «Нормативное регулирование» АНО «Цифровая экономика», как указано на сайте Центра компетенций по данному направлению – Фонда «Сколково», 10 марта 2021 г. вынесена новая версия Концепции развития технологий машиночитаемого права.
💎 Да, внедрение "цифры" в процессы нормотворчества и правоприменения, а, значит, и регулирования в целом – процесс объективный и активно развивающийся. Но если посмотреть на данный проект с точки зрения ключевых инструментов регуляторной политики – обнаружится пара неприятных затыков.
👉 Во-1-х, сам нормотворческий процесс, а также последующую оценку (мониторинг) действующих норм авторы проекта излагают весьма выборочно. Возможности и перспективы автоматизации #ОРВ и #ОФВ, как ключевых институтов регуляторной политики, в проекте вообще не рассматриваются.
👉 Во-2-х, перспективы автоматизации #ФЭО, наоборот, слишком радужны. Авторы пишут, что будет осуществляться «автоматическая оценка влияния предлагаемых проектом нормативного правового акта мер на доходы и расходы бюджета, проверка предлагаемых финансово-экономическим обоснованием затрат или доходов на соответствие иным подобным показателям». Как это будет осуществляться в условиях, когда значительная часть ФЭО к проектам НПА в настоящее время, по сути, «пустышки», - из текста проекта не ясно. Да и в новом Реестре обязательных требований оценка затрат (издержек) на их исполнение пока указана лишь как возможная функция создаваемой информационной системы, а не необходимый атрибут каждого обязательного требования, включенного в Реестр.
#RegTech #Сколково #ЦЭ #регуляторика #SCM #МСИ #ОТ

1.1K viewsIvan Begtin, 06:45

Ivan Begtin

Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex

1.2K viewsIvan Begtin, 11:21

Ivan Begtin

О проблемах и особенностях открытости органов власти, по мелочам, продолжение. Всё то что вылезает когда регулярно изучаешь госсайты, но не входит в доклады:

1. Минпросвещения и Минпприроды не публикуют сведения о структуре органа власти. У Минпросвещения "страница обновляется" [1], у Минприроды просто нет информации в разделе "Структура" [2].
2. У Минприроды график приёма граждан не опубликован уже давно [3]
3. Нет единого портала нацпроектов в России. Есть только "куцый" раздел [4] на сайте Правительства РФ и отдельные сайты по отдельным нацпроектам [5] и другие медийные проекты вроде национальныепроекты.рф [6]. Зачем и почему так и почему нет единого портала раскрытия - непонятно.
4. Роснедра один из немногих ФОИВов публиковавших госзадания подведомственных учреждений. Но и они прекратили это делать в 2014 году [7]. Ещё один ФОИВ, Минстрой РФ прекратил публиковать госзадания в 2018, а отчёты по ним в 2017 годах [8]
5. Минприроды предоставляет карту пожаров не обновлявшуюся 3 недели [8] и с полным отсутствием ретроспективы. Данные доступны только на конкретную дату и с накопительным итогом с начала года. Довольно бессмысленно.
6. Во многих, возможно в большинстве ФОИВов, не указываются контакты руководителей департаментов в разделах "Структура". Часто не указываются даже рабочие телефоны.
7. Минтруд чуть ли не единственный ФОИВ публикующий подробные сведения о всех координационных и совещательных органах [10], включая их протоколы и положения.
8. И тот же Минтруд уже 4-й год не публикует доклады о результатах и основных направлениях деятельности [11]
9. А вот в Минтрансе РФ публикуют подробные сведения о подразделениях [12] включая контакты сотрудников
10. Реестры того же Минтранса это хороший пример того как не надо публиковать реестры. Например, реестр остановок публикуется без метаданных и без координат [13]

Список можно продолжать долго и это только просто про информацию на сайтах. Если смотреть на открытые данные, то будет куда больше таких нюансов.

Ссылки:
[1] https://edu.gov.ru/about/departments/
[2] http://www.mnr.gov.ru/about/#directors
[3] http://www.mnr.gov.ru/open_ministry/schedule/
[4] http://government.ru/rugovclassifier/section/2641/
[5] https://projectobrazovanie.ru/
[6] https://национальныепроекты.рф/
[7] https://www.rosnedra.gov.ru/category/191.html?mm=162&ml=263
[8] https://minstroyrf.gov.ru/about/organizations/gosdocs/
[9] http://mnr.gov.ru/activity/fire-map/
[10] https://mintrud.gov.ru/ministry/about/structure/advisory_coordinating
[11] https://mintrud.gov.ru/ministry/about/reports
[12] https://mintrans.gov.ru/ministry/structure
[13] https://mintrans.gov.ru/documents/8/11182?type=

#government #information #openness

1.3K viewsIvan Begtin, 14:21

Ivan Begtin

Для тех кто интересуется о том как устроены приложения по мониторингу COVID-19 в других странах и какие есть методики их анализа и результаты можно узнать из декабрьского исследования Unmasked II [1] от Citizenlab посвящённого приложениям PeduliLindungi в Индонезии и приложений StaySafe PH и COVID-KAYA в Филлипинах.

По сравнению с другими исследованиями и анализом, авторы провели полноценный анализ безопасности приложений, разобрали код и даже смогли вытащить данные из базы Firebase которое филиппинское приложение использовало для отправки сведений о пользователях. В октябре 2020 года исследователи вначале нашли код аутенификации внутри запросов от приложения, а потом с его помощью вытащили из базы Firebase 190 тысяч записей с координатами филлипинских пользователей. Причём разработчик, судя по всему, так и не смог исправить эту ошибку до конца хотя и около месяца пытался это сделать (подробности в исследовании).

Мы в своём исследовании "Приватность государственных мобильных приложений в России" [2] сознательно не проводили такого анализа информационной безопасности, эта тема ближе к компаниям специализирующимся на проверках безопасности, пентестах и так далее. Но это совсем не значит что российские госприложения работающие с данными граждан сделаны так хорошо что там такие проблемы не могут быть.

Ссылки:
[1] https://citizenlab.ca/2020/12/unmasked-ii-an-analysis-of-indonesia-and-the-philippines-government-launched-covid-19-apps/
[2] https://privacygosmobapps.infoculture.ru/

#privacy #covid19 #security #leaks

The Citizen Lab

Unmasked II: An Analysis of Indonesia and the Philippines’ Government-launched COVID-19 Apps - The Citizen Lab

As part of the Citizen Lab's research into the security and privacy of applications, we report on issues we discovered with three COVID-related applications in Indonesia and the Philippines – PeduliLindungi, StaySafe PH, and COVID-KAYA.

1.3K viewsIvan Begtin, 06:14

Ivan Begtin

Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.

На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].

В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.

По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.

Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207

#archival #webarchive #government #netprojects

национальныепроекты.рф

Национальные проекты России

Официальный информационный ресурс с планами развития страны на ближайшее будущее и мерами по улучшению качества жизни населения. Сайт создан при поддержке АНО «Национальные приоритеты».

1.2K viewsIvan Begtin, 08:47

Ivan Begtin

Команда Википедии анонсировала Wikipedia Enterprise API [1], продукта для крупных корпораций по использованию данных Википедии.

Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API

В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].

Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.

Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal

#opendata #enterpise #wikipedia #API

Diff

Introducing the Wikimedia Enterprise API

Over the last 20 years the Wikimedia projects have grown into essential knowledge resources that are not just used by billions of people, but also by many commercial organizations that incorporate …

1.3K viewsIvan Begtin, 09:24

Ivan Begtin

Калифорнийские регуляторы ввели ограничения (запреты) [1] на использование "теневых шаблонов" (dark patterns) ИТ компаниями для пользователей . Об этом пишет The Verge [2] и раскрывает подробности.

Регулирование охватывает не все, а только наиболее вредные dark patterns такие как:
- запрет на использование вводящей в заблуждение лексики с двумя отрицаниями (пример “Don’t Not Sell My Personal Information”)
- заставлять пользователей прокликиваться или выслушивать аргументы почему они не должны направлять запрос на выход из сервиса если они так решили
- заставлять пользовалей искать или скроллить через текст политики приватности или похожего документа чтобы найти механизм для выхода из сервиса (opt out)

Это не полный их список, но только примеры. Бизнес который будет пойман на таких dark patterns получит "уведомление о лечении" (notice to cure) и 30 дней на исправление.

Что тут скажешь, на фоне войны российского Роскомнадзора с Твиттером - это пример регулирования ИТ продуктов и сервисов который нашим регуляторам и не снился.

Ссылки:
[1] https://oag.ca.gov/news/press-releases/attorney-general-becerra-announces-approval-additional-regulations-empower-data
[2] https://www.theverge.com/2021/3/16/22333506/california-bans-dark-patterns-opt-out-selling-data

#privacy #darkpatterns

1.5K viewsIvan Begtin, 15:34

Ivan Begtin

В рубрике интересные данные, очередной особенно большой набор данных Quotebank [1] состоит из цитат персон в англоязычной онлайн прессе с 2008 по 2020 годы включительно. Это 178 миллионов цитат извлечённых из 196 англоязычных новостных статей собранных из 377 тысяч доменов.

Общий объём данных - 190 гигабайт в сжатом виде (файлы .json.bz2), то есть после распаковки, от 1 до 3 терабайт. Авторы исследования всей командой из École polytechnique fédérale de Lausanne и опубликовали статью на основе этих данных Quotebank: A Corpus of Quotations from a Decade of News [2]

Жаль ничего подобного нет для русского языка.

Ссылки:
[1] https://zenodo.org/record/4277311#.YFI7TNxn2Uk
[2] https://dl.acm.org/doi/10.1145/3437963.3441760

#opendata #openaccess #bigdata #research #datasets

Zenodo

Quotebank: A Corpus of Quotations from a Decade of News

Introduction Quotebank is a dataset of 235 million unique, speaker-attributed quotations that were extracted from 196 million English news articles (127 million containing quotations) crawled from over 377 thousand web domains (15 thousand root domains) between…

1.3K viewsIvan Begtin, 17:36

Ivan Begtin

Я не знаю как там нацпроект "Образование", но статистика ЕГЭ федеральная и региональная исчезала и продолжает исчезать. Федеральной статистики уже давно нет, во многих, возможно в большинстве, регионов нет и региональной, а там где есть то далеко не за все годы или же архивные данные удалили и заменили данными с меньшей детализацией.

Приведу лишь несколько примеров
1. Федеральная статистика по ЕГЭ не публикуется уже примерно с 2013 года. Сайт ege.edu.ru с прошлого года недоступен и теперь перенаправляет на раздел на сайте Рособрнадзора [1], где тоже нет даже самых базовых цифр. Когда-то я сохранял архивы за 2011-2012 годы на Хабе открытых данных [2], там можно посмотреть как эта статистика выглядела.
2. Пример региональной статистики. АУ УР "Региональный центр оценки качества образования" в Республике Удмуртия публикует статистические сведения по ЕГЭ/ГИА 2012 года [3]. Можно посмотреть эволюцию публикации данных. В 2012 году подробные данные с результатами до муниципальных районов, в 2013-2015 годах, динамика вместо подробностей, но всё ещё остаётся сводка по региону. Начиная с 2016 года публикуется только "куцый" документ "Динамика среднего балла по предметам ЕГЭ" в виде короткой таблички.
3. В некоторых регионах общедоступная аналитика и статистика полностью отсутствуют. Пример, Московская область. Пустой раздел статистики [4] и система аналитики по паролю [5]
4. В некоторых регионах, Санкт-Петербург, например, данные не публикуются, но публикуются сборники включающие сведения с детализацией до школ. [6]. Это не облегчает работу аналитиков и не помогает родителям учеников, но даёт хоть какие-то сведения.
5. В Воронежской области куда-то дели все стат сборники до 2019 года [7]. Это к вопросу о том почему необходимо архивировать госсайты

Но это всё примеры, а реальность такова что будь политика Рособрнадзора и теперь уже Минпросвещения в сторону открытости, то и региональные власти такие сведения бы не скрывали. А в ситуации когда у нас образование закрыто чуть ли не больше чем силовые органы, то и у граждан отношение к госполитике в этой области по умолчанию не доверительное.

Ссылки:
[1] http://obrnadzor.gov.ru/gia/gia-11/
[2] https://hubofdata.ru/dataset?tags=%D0%95%D0%93%D0%AD
[3] http://ege.ciur.ru/statistic/
[4] http://rcoi.net/dokumenty-gia-11.html
[5] http://analysis.rcoi.net
[6] https://rcokoit.ru/library.htm?mode=year&year=2020
[7] http://ege.36edu.ru/%D0%93%D0%98%D0%90-11-%D0%95%D0%93%D0%AD-%D0%93%D0%92%D0%AD/%D0%A1%D0%A2%D0%90%D0%A2%D0%98%D0%A1%D0%A2%D0%98%D0%9A%D0%90

#opendata #edu #statistics

ФЕДЕРАЛЬНАЯ СЛУЖБА ПО НАДЗОРУ В СФЕРЕ ОБРАЗОВАНИЯ И НАУКИ

ГИА-11 | ФЕДЕРАЛЬНАЯ СЛУЖБА ПО НАДЗОРУ В СФЕРЕ ОБРАЗОВАНИЯ И НАУКИ

Государственная итоговая аттестация по образовательным программам среднего общего образования (ГИА-11), завершающая освоение имеющих государственную аккредитацию основных образовательных программ среднего общего … Читать далее «ГИА-11»

1.3K viewsIvan Begtin, 06:10

Ivan Begtin

В Великобритании собрали базу грантов для НКО в рамках программ связанных с COVID-19 [1]. Это 32 тысячи грантов, 24 тысячам получателей, от 115 грантодателей на общую сумму в 584 миллиона фунтов.

Всю эту работу осуществляет НКО 360 Giving [2], разработчики стандарта раскрытия сведений о грантах со стороны грантодающих организаций [3] и создавших сводную базу на более чем 461 тысячу грантов выданных в Великобритании.

Ссылки:
[1] https://covidtracker.threesixtygiving.org/
[2] https://www.threesixtygiving.org/
[3] https://www.threesixtygiving.org/support/standard/

#opendata #ngo #uk

360Giving

360Giving - 360Giving

We are a charity that helps organisations publish open, standardised grants data, and supports people to use it to improve charitable giving.

1.3K viewsIvan Begtin, 06:55

Ivan Begtin

Мне, честно говоря, порядком надоедает комментировать очередную инициативу регулирования со стороны Роскомнадзора. Вчерашняя новость о том что Роскомнадзор планирует собирать сведения о звонках граждан [1] как раз из таких. Если коротко - то это лечение настоящей проблемы негодными методами.

Методы борьбы с сим-картами предлагаются через то, чтобы ежесуточно операторы сдавали Роскомнадзору ежесуточно такие данные как:
- Ф.И.О. абонентов, их местах жительства, дате рождения, реквизитах документов, удостоверяющих личность. О пользователях корпоративных тарифов будут передаваться аналогичные сведения, а также наименование организации, сотрудниками которой они являются, с юридическими идентификаторами;
- номере телефона, который используют абоненты и пользователи, а также дату заключения, изменения или расторжения договора об оказании услуг связи;
- видах звонков, совершенных абонентом или пользователем корпоративных тарифов, а также номере вызывающего и вызываемого абонента, о дополнительном номере вызывающего абонента, о номере, на который осуществляется переадресация вызова. Также будут переданы данные об идентификаторе базовой станции вызывающего и вызываемого абонентов или пользователей корпоративных тарифов;
- факте передачи голоса, текстовых и мультимедийных сообщений, а также передачи данных, в том числе с использованием промышленных устройств, оборудования, датчиков, сенсоров и т.п.;
- используемом абонентами и пользователями корпоративных тарифов оборудовании, в том числе его идентификационный модуль, а также о замене оборудования и изменения информации в идентификационном модуле и др.

Что я могу тут сказать? Могу сказать сразу с трех точек зрения.
Общественная: это, безусловно, дополнительный инструмент слежки за гражданами поскольку даже сам факт обмена информацией между гражданами - это важные сведения, они дорого стоят для всех частных охранных агентств, очень активно применяются для слежки за конкурентами и со стороны государства для слежки за недовольными, оппозицией и так далее.

Коммерческая: обратите внимание что вся стратегия регулирования государства стремительно меняется вот уже несколько лет. Если ещё какое-то время назад она была по модели регуляторной: "на Вас кто-нибудь пожалуется и мы Вас за это накажем, а ещё будем Вас регулярно и больно проверять", то сейчас модель датацентричная в плохом смысле. Регулятор теперь не приходит регулировать, он говорит: "Данные сдавать сюда, я сам разберусь, сам если что и заблокирую, а Вы вот эту железку себе на $&* поставьте". Это, в принципе, конец цифровой экономике и скоро площадки по диалогу бизнеса-государства по этой теме превратятся из лоббистких в защитные, когда корпоративные лоббисты отслеживают новые лютые изменения в НПА и хоть как-то пытаются их смягчить. На самом деле уже почти все так и живут, ну, почти все, ещё есть попытки лоббировать интересы, а не только защищаться.

Государственная: это, безусловно, безнадзорное расширение полномочий отдельного органа исполнительной власти который постепенно превращается в аналог Росфинмониторинга для связи и Интернета. Кроме уже существующих правоохранительных органов появляется ещё один в лице Роскомнадзора имеющий доступ к данным которые могут использоваться, в том числе, для нарушения приватности государственных служащих других ветвей власти, к примеру. В принципе, непрерывное усиление отдельных ФОИВов и их полная безнадзорность и невыполнение ими самими надзорных функций - это плохой тренд для госуправления. Роскомнадзор, хреново, но умеет отслеживать нарушения у бизнеса и полностью игнорирует нарушения в других органах власти.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/17/03/2021/605206809a794702c7c67af8

#privacy #government #surveillance

РБК

Роскомнадзор потребует от операторов данные об абонентах и их разговорах

Для борьбы с серыми сим-картами Роскомнадзор хочет получать детальные сведения об абонентах, включая — кто кому звонил и с каких устройств. Масштаб запрашиваемой информации будет нарушать тайну

3.2K viewsIvan Begtin, 12:49

Ivan Begtin

О том как публикуются большие наборы исследовательских данных не могу не помнить про каталог данных данных компании Amazon [1]. Все опубликованные там данные не их, а данные исследовательских центров. Их немного, всего 220 наборов данных. Они самым простецким образом описаны вместе с исходным кодом на Github'е [2], но их объёмы - это десятки, сотни терабайт. Это одни из крупнейших наборов данных, один из известнейших из них - это Common Crawl [3] открытый поисковый индекс с 50 миллиардами проиндексированных веб-страниц. Только за февраль/март 2021 года в их индекс добавилось 280 терабайт распакованных данных (примерно 80 терабайт в архиве) [4]

Почему Amazon создали такой реестр и в открытую раздают такие объёмы данных? Всё просто, для тех кто работает в их инфраструктуре доступ к этим данным значительно удобнее. А там такие объёмы что их бессмысленно скачивать себе локально, проще арендовать в инфраструктуре Amazon Web Services сервер и через него работать с этими данными. Лично я так и делал несколько лет назад когда работал с веб архивами и с Common Crawl в частности, было куда проще с инфраструктуры Amazon.

При этом их каталог стабильно растёт именно большими исследовательскими наборами данных и это одна из лучших коммерческих инициатив по обеспечению доступности исследовательских данных.

Ссылки:
[1] https://registry.opendata.aws/
[2] https://github.com/awslabs/open-data-registry/
[3] https://registry.opendata.aws/commoncrawl/
[4] https://commoncrawl.org/2021/03/february-march-2021-crawl-archive-now-available/

#opendata #datacatalogs #aws

GitHub

GitHub - awslabs/open-data-registry: A registry of publicly available datasets on AWS

A registry of publicly available datasets on AWS. Contribute to awslabs/open-data-registry development by creating an account on GitHub.

1.4K viewsIvan Begtin, 18:55

About

Blog

Apps

Platform