Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Депфин Москвы обновил портал "Открытого бюджета г. Москвы" (https://budget.mos.ru). У портала теперь полностью обновленный интерфейс (к которому нужно привыкнуть) и содержание.

Из явных нововведений:
- раздел "Открытость" и подраздел "Открытые данные". Но, например, последние наборы данных были загружены в середине октября. То есть, бюджета на этот год в формате открытых данных на портале нет;

- раздел "Госпрограммы". Было бы здорово добавить обновленные и архивные паспорта госпрограмм (по случайно выбранной госпрограмме на сайте нашла Постановления от 2011 года) и регпрограмм и выводить контракты по госпрограммам (взять их можно, например, из API проекта СП РФ "Госрасходы");

- раздел "Обучающий сервис" с 9 текстовыми уроками по бюджетной грамотности для граждан;

- раздел "Внутригородские МО" с базовой информацией о доходах/расходах муниципалитетов и возможностью скачать информацию в удобном для пользователя формате (сейчас данные представлены до разделов/подразделов, хотелось бы большую детализацию);

- можно посмотреть исполнение бюджета Москвы (план и факт) на интересующую дату, и скачать показатели в формате xls (правда, отображаются и скачиваются данные только за одну выбранную дату);

- странно, что на сайте не представлены нацпроекты.

Приятно, что Депфин Москвы переработал портал и расширил возможности по выгрузке той информации, которая отображается на страницах, но хотелось бы все представленные на сайте данные скачивать и в формате открытых данных, т.к. на страницах отображаются урезанные сведения.

Не хватает, например, машиночитаемых датасетов по бюджету на этот и предыдущие годы, датасетов по исполнению бюджета Москвы, датасетов с бюджетами МО (или хотя бы с теми сведениями, которые представлены на сайте).
The GovLab выпустили The Third Wave ofOpen Data Toolkit [1] гайд советов как внедрять подходы 3-й волны открытых данных. Полезный документ, концептуально раскладывающий основные шаги верхнеуровневой стратегии, а сам документ написан так чтобы на него было бы удобнее ссылаться при разработке национальных стратегий работы с данными.

Лично я читаю подобные документы уже давно со специальной табличкой куда вношу новые термины и определения от данных. В этот раз это:
- data sharing ecosystems
- data education programs
- data processing environment
- data infrastructure literacy

Все новые термины теперь уже 3-х составные, а всего у меня накопилось 175 терминов из документов самых разных консультантов и официальных стратегий.

Ссылки:
[1] http://files.thegovlab.org/The-Third-Wave-of-Open-Data-Toolkit.pdf

#opendata #data
В Arstechnica две заметки о том как Роскомнадзор блокировал Twitter в России [1] [2] в них, в том числе, независимое подтверждение что это ошибка в регулярном выражение при блокировке по подстроке "t.co", поскольку аналитики из Kentik [3] (компания специализирующаяся на сетевом мониторинге) обнаружили заметное падение трафика в сети Ростелекома [4].

О ситуации также пишет NYT [5] и тоже делают акцент что Минцифра опровергала связь недоступности госсайтов и блокировок Twitter'а в самом Twitter аккаунте министерства.

В целом очень жаль что мало то немногое за что позитивно относятся к России в других странах - это антиковидная вакцина, а над действиями Роскомнадзора разьве что не смеются.

Ссылки:
[1] https://arstechnica.com/gadgets/2021/03/a-russian-isp-confirms-roskomnadzors-twitter-blocking-blooper/
[2] https://arstechnica.com/information-technology/2021/03/russian-attempt-to-throttle-twitter-appears-to-backfire/
[3] https://www.kentik.com
[4] https://cdn.arstechnica.net/wp-content/uploads/2021/03/kentik-russia-throttling-twitter.png
[5] https://www.nytimes.com/2021/03/10/world/europe/russia-twitter.html

#regulation #internet
Собственно стало происходить то что я предсказывал, основное применение данных собираемых государством в ФНС и не только - это деньги. Коммерсант пишет про адресность выплат по бедности [1] как инициативу Минтруда по корректировке выплат тем у кого сочтут "избыточность имущества". Декларируемая цель благая, давайте не будем помогать тем кто богатый (на самом деле это обычно люди со средними доходами), а самым бедным увеличим выплаты вдвое.

Я не буду говорить хорошо это или плохо, я могу лишь сказать что фискальное применение собираемых государством данных является сейчас основным. Причины этого и в текущем составе Правительства и в том что экономика таких инициатив (ФЭО), как правило, сходится.

Чем это окажется на практике? Снижение межбюджетных трансфертов в субъекты федерации, уменьшение фактически перечисляемых средств жителям субъектов федерации. Может ли это отразится на ВРП регионов и экономике в отдельных поселениях и городах? Может.

Ссылки:
[1] https://www.kommersant.ru/doc/4723190

#data #taxes #payments #mintrud
Читатели пишут, что Минцифры рассылает письмо ФОИВам и внебюджетным фондам о необходимости перехода на СМЭВ 3.0, при том, что этот переход должен был состояться ещё в 2017 году, что было зафиксировано протоколом правкомиссии 2016 года https://digital.gov.ru/uploaded/files/2752.pdf приложение 12 (начиная с 2018 страницы).

Что тут скажешь, 4 года прошло, "а воз и ныне там". Конечно, за это время министр связи, а теперь и цифры, сменился дважды, но это наглядный пример любых планов, которые формируются сейчас не только в ИТ, но и в нац. проектах и иных стратегических документах. Планы планами, а реальность реальностью.

И тут скромно хочется поинтересоваться какая будет судьба у НСУДа?;)

И, не могу не отметить, что рассылать документы с формами для заполнения сканированными PDF файлами плохой тон для любого органа власти, а для Минцифры особенно - потому что репутация цифрового министерства должна быть.

#digital #smev #documents
Иногда полезно задавать вопросы у себя на канале, коллеги из Минцифры меня тоже читают и с их позволения публикую их ответ на вопрос "Что же там с НСУДом?"

1) Проекты изменений НПА (3 ПП) на согласовании в Аппарате Правительства. Ожидаем, что в марте будут приняты:
- ПП с положением о ЕИП НСУД
- ПП по включению ЕИП НСУД в Инфраструктуру электронного правительства
- ПП о включении типового ПО витрин в СМЭВ

2) 5 ведомственных витрин созданы, наполнены данными и находятся в стадии подключения к ЕПГУ и Цифровому профилю (ЕСИА), в апреле планируем запуск витрины МВД (Реестр транспортных средств), на ЕПГУ будут отражаться в режиме близком к онлайну соответствующие сведения

3) >60 ФОИВ и ГВФ описывают с ноября свои информационные ресурсы, информационные системы, наборы данных по поручению Д.Н.Чернышенко в ЕИП НСУД. До конца марта работа должна быть выполнена.

4) в ближайшие дни начнётся работа по описанию в ЕИП НСУД паспортов наборов данных для искусственного интеллекта, решили, что им тоже место в ЕИП

5) формируется план создания ведомственных витрин в 21-23 годах, получено более 900 предложений от ведомств по составу данных, которые необходимы им в оперативном режиме. обрабатываем и до конца марта представим в Правительство проект графика

6) в начале апреля представим версию ПО витрины с открытым исходным кодом и проект ООЛ - отечественной открытой лицензии, российским аналогом ASF2. Это ПО будет доступно как ФОИВам, так и рынку.

Чтож, хочется надеяться что НСУД не пойдет дорогой СМЭВа, благо осталось ждать совсем недолго.

#data #digital #minsvyaz
13 латиноамериканских стран поменяли свои законы о госзакупках чтобы скрыть сведения о сделках о покупке вакцин. Всё это в расследовании [1] Red Palta (Латиноамериканская сеть журналистов по вопросам транспарентности и борьбы с коррупцией)

Вот так многие страны десятилетия идут в сторону прозрачности госрасходов, а потом во время пандемии всё это стремительно схлопывается. Потому что у пандемии относятся почти как к военному положению и потому что игра идёт по тем правилам кто сильнее. Когда крупный международный фарм. бизнес задаёт правила игры, то у правительств стран нет выбора (мало выбора) кроме как скрывать такие сделки. А скрывают их не столько от граждан, сколько от других стран чтобы те не знали реальных цен и им было бы сложнее торговаться.

Ссылки:
[1] https://www.redpalta.org/post/benefits-to-pharmaceutical-companies-in-the-purchase-of-vaccines/

#opendata #opengov #secrecy #covid19
О том как регулируются закупки ИТ в других странах. В Австралии Digital Transformation Agency опубликовало Hosting Certification Framework [1] регулируются документ определяющий принципы сертификации хостинг провайдеров для государственных органов/государственных инициатив.

Сертификация предполагает наличие у хостинговых компаний одного из трех статусов:
- Несертифицированный
- Сертифицированный гарантирующий хостинг-провайдер
- Сертифицированный стратегический хостинг-провайдер

У каждого органа власти должна быть стратегия управления рисками в которой они определяют необходимый уровень сертификации.

Возможно ли подобное регулирование в России? Возможно было бы если бы закон о госзакупках таки решились переписать.

Ссылки:
[1] https://dta-www-drupal-20180130215411153400000001.s3.ap-southeast-2.amazonaws.com/s3fs-public/files/digital-identity/New%20Accreditation%20Templates/Hosting%20Certification%20Framework%20-%20March%202021.v2.pdf

#it #regulation
Национальная стратегия работы с данными (Datenstrategie der Bundesregierung) была принята в Германии решение Правительства, 21 января 2021 года [1].

О ней писали [2] Deuche Welle, с небольшим пессимизмом, о том можно ли действительно достичь всех заложенных туда целей и о ней же есть декомпозиция у Simmons+Simmons [3].

На что стоит обратить внимание:
- создание инструментов с открытым кодом для работы с данными в соответствии со стандартами;
- разработка стратегии открытых данных (на самом деле обновление имеющейся);
- реализация директив по открытости данных и доступа к информации с учётом новых законов регулирующих данные.

Там ещё много разного, но в целом стратегию можно сформулировать как:
- развивать открытость данных и кода
- создавать инфраструктуру для работы с данными
- формировать культуру работы с данными
- защищать приватность и персональные данные
- развивать искусственный интеллект
- распространять принципы обмена данными в коммерческом секторе

И ещё довольно много всего. Нельзя сказать чтобы там было что-то совсем неожиданное или странное, важнее что всё собрано в один документ и именно он определяет основные направления развития не работы с данными органов власти, но и регулирования данных в Германии.

Ссылки:
[1] https://www.auswaertiges-amt.de/blob/610644/49a58b5ecfd5a78862b051d94465afb6/gestaltungsmaechtekonzept-engl-data.pdf
[2] https://www.dw.com/en/germanys-new-data-strategy-may-come-too-late/a-56372247
[3] https://www.simmons-simmons.com/en/publications/ckkp9wcs816rl0941llo7rbl8/new-data-strategy-of-the-german-federal-government

#opendata #data #datastrategy #germany
Bertelsmann Stiftung опубликовали каталог с 11 тысяч наборов данных муниципалитетов Германии [1]. Это более 100 муниципалитетов, с данными самой разной тематики. Все данные агрегировались с порталов этих муниципалитетов, хорошо систематизированы и доступны как открытые данные. Сама работа велась в рамках проекта Smart Country [2] и это, конечно, не единственный подобный проект в мире по агрегации муниципальных/гиперлокальных данных.

Ссылки:
[1] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country/musterdatenkatalog
[2] https://www.bertelsmann-stiftung.de/de/unsere-projekte/smart-country

#opendata #germany
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].

На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.

А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].

Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.

Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.

Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.

Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org

#digital #archival #webarchive
Я также читал эту концепцию и, при всех благих целях, она написана словно не про Россию. То что качество нормотворчества деградирует говорят уже давно не только люди снаружи гос-ва, но и внутри. Я скажу больше, во многих областях деятельности акторы, что негосудаственные, что государственные, живут исключительно в режиме антикзисного нормативного мониторинга. Цели пролоббировать лучшее регулирование уже не ставится, целью является "отбиться" от законопроекта или иного НПА, или хотя бы сгладить его последствия. На лучшее надежды мало, лишь бы хуже не стало (с).

А в остальном лично я тоже, за всё хорошее и против всего плохого, и если концепция машиночитаемого права пройдет, то хуже то точно не будет.

#regulation #laws
Алгоритмы регуляторной политики?
💎
На рассмотрение Рабочей группы «Нормативное регулирование» АНО «Цифровая экономика», как указано на сайте Центра компетенций по данному направлению – Фонда «Сколково», 10 марта 2021 г. вынесена новая версия Концепции развития технологий машиночитаемого права.
💎 Да, внедрение "цифры" в процессы нормотворчества и правоприменения, а, значит, и регулирования в целом – процесс объективный и активно развивающийся. Но если посмотреть на данный проект с точки зрения ключевых инструментов регуляторной политики – обнаружится пара неприятных затыков.
👉 Во-1-х, сам нормотворческий процесс, а также последующую оценку (мониторинг) действующих норм авторы проекта излагают весьма выборочно. Возможности и перспективы автоматизации #ОРВ и #ОФВ, как ключевых институтов регуляторной политики, в проекте вообще не рассматриваются.
👉 Во-2-х, перспективы автоматизации #ФЭО, наоборот, слишком радужны. Авторы пишут, что будет осуществляться «автоматическая оценка влияния предлагаемых проектом нормативного правового акта мер на доходы и расходы бюджета, проверка предлагаемых финансово-экономическим обоснованием затрат или доходов на соответствие иным подобным показателям». Как это будет осуществляться в условиях, когда значительная часть ФЭО к проектам НПА в настоящее время, по сути, «пустышки», - из текста проекта не ясно. Да и в новом Реестре обязательных требований оценка затрат (издержек) на их исполнение пока указана лишь как возможная функция создаваемой информационной системы, а не необходимый атрибут каждого обязательного требования, включенного в Реестр.
#RegTech #Сколково #ЦЭ #регуляторика #SCM #МСИ #ОТ
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
О проблемах и особенностях открытости органов власти, по мелочам, продолжение. Всё то что вылезает когда регулярно изучаешь госсайты, но не входит в доклады:

1. Минпросвещения и Минпприроды не публикуют сведения о структуре органа власти. У Минпросвещения "страница обновляется" [1], у Минприроды просто нет информации в разделе "Структура" [2].
2. У Минприроды график приёма граждан не опубликован уже давно [3]
3. Нет единого портала нацпроектов в России. Есть только "куцый" раздел [4] на сайте Правительства РФ и отдельные сайты по отдельным нацпроектам [5] и другие медийные проекты вроде национальныепроекты.рф [6]. Зачем и почему так и почему нет единого портала раскрытия - непонятно.
4. Роснедра один из немногих ФОИВов публиковавших госзадания подведомственных учреждений. Но и они прекратили это делать в 2014 году [7]. Ещё один ФОИВ, Минстрой РФ прекратил публиковать госзадания в 2018, а отчёты по ним в 2017 годах [8]
5. Минприроды предоставляет карту пожаров не обновлявшуюся 3 недели [8] и с полным отсутствием ретроспективы. Данные доступны только на конкретную дату и с накопительным итогом с начала года. Довольно бессмысленно.
6. Во многих, возможно в большинстве ФОИВов, не указываются контакты руководителей департаментов в разделах "Структура". Часто не указываются даже рабочие телефоны.
7. Минтруд чуть ли не единственный ФОИВ публикующий подробные сведения о всех координационных и совещательных органах [10], включая их протоколы и положения.
8. И тот же Минтруд уже 4-й год не публикует доклады о результатах и основных направлениях деятельности [11]
9. А вот в Минтрансе РФ публикуют подробные сведения о подразделениях [12] включая контакты сотрудников
10. Реестры того же Минтранса это хороший пример того как не надо публиковать реестры. Например, реестр остановок публикуется без метаданных и без координат [13]

Список можно продолжать долго и это только просто про информацию на сайтах. Если смотреть на открытые данные, то будет куда больше таких нюансов.

Ссылки:
[1] https://edu.gov.ru/about/departments/
[2] http://www.mnr.gov.ru/about/#directors
[3] http://www.mnr.gov.ru/open_ministry/schedule/
[4] http://government.ru/rugovclassifier/section/2641/
[5] https://projectobrazovanie.ru/
[6] https://национальныепроекты.рф/
[7] https://www.rosnedra.gov.ru/category/191.html?mm=162&ml=263
[8] https://minstroyrf.gov.ru/about/organizations/gosdocs/
[9] http://mnr.gov.ru/activity/fire-map/
[10] https://mintrud.gov.ru/ministry/about/structure/advisory_coordinating
[11] https://mintrud.gov.ru/ministry/about/reports
[12] https://mintrans.gov.ru/ministry/structure
[13] https://mintrans.gov.ru/documents/8/11182?type=

#government #information #openness
Для тех кто интересуется о том как устроены приложения по мониторингу COVID-19 в других странах и какие есть методики их анализа и результаты можно узнать из декабрьского исследования Unmasked II [1] от Citizenlab посвящённого приложениям PeduliLindungi в Индонезии и приложений StaySafe PH и COVID-KAYA в Филлипинах.

По сравнению с другими исследованиями и анализом, авторы провели полноценный анализ безопасности приложений, разобрали код и даже смогли вытащить данные из базы Firebase которое филиппинское приложение использовало для отправки сведений о пользователях. В октябре 2020 года исследователи вначале нашли код аутенификации внутри запросов от приложения, а потом с его помощью вытащили из базы Firebase 190 тысяч записей с координатами филлипинских пользователей. Причём разработчик, судя по всему, так и не смог исправить эту ошибку до конца хотя и около месяца пытался это сделать (подробности в исследовании).

Мы в своём исследовании "Приватность государственных мобильных приложений в России" [2] сознательно не проводили такого анализа информационной безопасности, эта тема ближе к компаниям специализирующимся на проверках безопасности, пентестах и так далее. Но это совсем не значит что российские госприложения работающие с данными граждан сделаны так хорошо что там такие проблемы не могут быть.

Ссылки:
[1] https://citizenlab.ca/2020/12/unmasked-ii-an-analysis-of-indonesia-and-the-philippines-government-launched-covid-19-apps/
[2] https://privacygosmobapps.infoculture.ru/

#privacy #covid19 #security #leaks
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.

На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].

В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.

По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.

Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207

#archival #webarchive #government #netprojects
Команда Википедии анонсировала Wikipedia Enterprise API [1], продукта для крупных корпораций по использованию данных Википедии.

Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API

В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].

Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.

Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal

#opendata #enterpise #wikipedia #API
Калифорнийские регуляторы ввели ограничения (запреты) [1] на использование "теневых шаблонов" (dark patterns) ИТ компаниями для пользователей . Об этом пишет The Verge [2] и раскрывает подробности.

Регулирование охватывает не все, а только наиболее вредные dark patterns такие как:
- запрет на использование вводящей в заблуждение лексики с двумя отрицаниями (пример “Don’t Not Sell My Personal Information”)
- заставлять пользователей прокликиваться или выслушивать аргументы почему они не должны направлять запрос на выход из сервиса если они так решили
- заставлять пользовалей искать или скроллить через текст политики приватности или похожего документа чтобы найти механизм для выхода из сервиса (opt out)

Это не полный их список, но только примеры. Бизнес который будет пойман на таких dark patterns получит "уведомление о лечении" (notice to cure) и 30 дней на исправление.

Что тут скажешь, на фоне войны российского Роскомнадзора с Твиттером - это пример регулирования ИТ продуктов и сервисов который нашим регуляторам и не снился.

Ссылки:
[1] https://oag.ca.gov/news/press-releases/attorney-general-becerra-announces-approval-additional-regulations-empower-data
[2] https://www.theverge.com/2021/3/16/22333506/california-bans-dark-patterns-opt-out-selling-data

#privacy #darkpatterns
В рубрике интересные данные, очередной особенно большой набор данных Quotebank [1] состоит из цитат персон в англоязычной онлайн прессе с 2008 по 2020 годы включительно. Это 178 миллионов цитат извлечённых из 196 англоязычных новостных статей собранных из 377 тысяч доменов.

Общий объём данных - 190 гигабайт в сжатом виде (файлы .json.bz2), то есть после распаковки, от 1 до 3 терабайт. Авторы исследования всей командой из École polytechnique fédérale de Lausanne и опубликовали статью на основе этих данных Quotebank: A Corpus of Quotations from a Decade of News [2]

Жаль ничего подобного нет для русского языка.

Ссылки:
[1] https://zenodo.org/record/4277311#.YFI7TNxn2Uk
[2] https://dl.acm.org/doi/10.1145/3437963.3441760

#opendata #openaccess #bigdata #research #datasets