Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Правительство РФ утвердило список из 28 приложений обязательных к предустановке с 1 апреля 2021 года [1].

Список включает:
- 16 приложений для смартфонов из которых 16 для Android и 14 для iPhone
- 1 приложение для Windows - пакет МойОфис
- 11 приложений для "умных" телевизоров

На что стоит обратить внимание:
- 4 приложения Яндекса и 7 приложений от Mail.ru и компаний входящих в Mail.ru Group
- 2 госприложения от структур подчинённых федеральному правительству, для смартфонов: Госуслуги и AppList.ru. Для телевизоров приложения Wink от Ростелекома и Смотрим от ФГУП ВГТРК
- судя по описанию AppList.ru - это аггрегатор для доступа к социальным ресурсам, сервисное приложение, возможно аналог AppStore или Google Play, хотя и до конца непонятно, пока его нет в открытом доступе.

Что остаётся за кадром:
- В регулировании пока нет упоминания будут ли приложения неудаляемыми, а если будут удаляемыми, то можно ли это будет сделать одной кнопкой или потребуется удалять каждое
- Что, в итоге, с политикой Apple по поводу предустановки приложений. Это вопрос уже не регулирования, а готовности компании это регулирование выполнять и процедур выполнения.
- ничего нет про региональный контур, мобильные приложения имеющие привязку к субъектам федерации, то же Пр-во Москвы полным ходом разрабатывает свой набор мобильных приложений.

P.S.
Небольшое отступление
Не могу не отметить что до сих пор, несмотря на то что уже 2021 год, цифровизация и всё такое, документы Правительства сначала доступны сканами, и только через недели в виде текстов. На сайте Правительства документы публикуются с задержкой в 3 недели, последние публиковались 19 декабря, а в системе НПА Минюста России в 2 недели, последние документы публиковались 23 декабря. Только на publication.pravo.gov.ru они публикуются относительно оперативно, но исключительно в отсканированном виде с неприличным названием "документы для качественной печати". Очень хочется надеяться что так будет не всегда.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202101060012?index=0&rangeSize=1

#government #apps #regulation
Ультиматум от WhatsApp "Либо делишься данными с Facebook, либо перестаёшь пользоваться приложением" в Arstechnica статья о том что WhatsApp поменяли правила использования [1]. С рекомендациями о том что пора переходить на другие мессенжеры, например, Signal.

Не отвлекаясь от темы WhatsApp'а, как нельзя кстати, новость на BBC о том что в спецбатальоне МВД собирали данные о передвижении Президента РФ именно через WhatsApp [2]. В данном случае не хочется даже иронизировать, потому что слов нет.


Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/whatsapp-users-must-share-their-data-with-facebook-or-stop-using-the-app/
[2] https://www.bbc.com/russian/news-55496368

#whatsapp
Короткое, 15-страничное, исследование о децентрализованной модели публикации данных вышло в декабре прошлого года от Open Data Institute [1]. Исследование о том как устроена публикация данных в рамках "инициатив по децентрализованной публикации данных" которые расшифровываются как соответствующие следующим критериям:
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении

Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.

Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.

Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/

#opendata
Стартап Deliveroo проиграл суд трём профсоюзам в Италии [1]. В основе обвинения лежит алгоритмическая дискриминация самозанятых (self-employed) работников в Deliveroo и нарушение местных законов из-за несоблюдения условий труда. Обвинения включали то что алгоритмы нагружающие курьеров не учитывали что они имеют право болеть или же их право на забастовку.

Мой комментарий
Возможны ли подобные ситуации у российских сервисов доставки? Лично я сомневаюсь, российские профсоюзы не являются активным политическом/общественным игроком, а есть ли они у курьеров - большой вопрос. Важно то что критерием юридической оценки роботизированных систем является то кто является их владельцем и выгодоприобретателем и отмазка "Это не мы, а алгоритм и мы тут не при чём, не работает". Впрочем, всё европейское регулирование движется в сторону ответственности разработчиков и эксплуатантов алгоритмов.

Ссылки:
[1] https://techcrunch.com/2021/01/04/italian-court-rules-against-discriminatory-deliveroo-rider-ranking-algorithm/

#ai #court #legislation #italy
Команда Jupyter выпустили новую версию Jupyter Lab 3.0 [1], системы для ведения научных блокнотов дата сайентистами по всему миру.

Из полезных изменений:
- визуальный дебаггер
- поддержка упрощённого интерфейса
- table of contents по умолчанию
- улучшенная работа с расширениями


В целом ощущение что всё больше движение в сторону executive papers, по крайней мере, в части подключения table of contents по умолчанию.

Лично я ещё не успел оценить все возможности по достоинству, но активно использую.

#datascience #tools
Незаслуженно упущенный мной из внимания доклад Public Provider versus Big Brother [1] о госполитике на основе современных технологий сбора данных. Подготовлен OPSI (Observatory of Public Service Information), структурой при ОЭСР и MBRCGI (Mohammed Bin Rashid Centre for Government Innovation) центром инноваций в госуправлении Саудовской Аравии.

Доклад, как можно догадаться из его названия, посвящён теме того как государства используют биометрию и сбор данных, для создания новых сервисов или же для систем слежки нового поколения. При том что я лично не восторге текстов и докладов публикуемых ОЭСР, в данном случае, он весьма лаконично и хорошо оформлен, с чёткими, хотя и очевидными рекомендациями, которые, если их перевести, выглядят так:
1. Активно занимайтесь вопросами, поднятыми этими технологиями.
2. Уделяйте приоритетное внимание завоеванию доверия со стороны общественности, чтобы успешно внедрять услуги, использующие эти технологии.
3. Работайте совместно не взирая на национальные границы, чтобы понять ограничения, подводные камни и возможности этих технологий.

Впрочем, в подобных международных докладах всегда самое интересное - это собранные со всего мира кейсы.
Например, такие как:
- сбор данных мобильных операторов в Чили для повышения безопасности женщин в общественном транспорте (Чили)
- системы идентификации по лицу для госуслуг и банковских сервисов (Сингапур)
- выработка политики сбора биометрии для гуманитарной помощи (Международный Красный Крест)
- проект HOPE по сбору гиперлокальных данных по качеству воздуха (Финляндия, Хельсинки)
- отправка дронов для снятия видео с мест происшествий/инцидентов (США, полиция Сан-Диего)

Про многие применения я лично, честно говоря, не знал и тем больше люблю читать про те примеры о которых ничего не знаю.

Ссылки:
[1] https://trends.oecd-opsi.org/trend-reports/public-provider-versus-big-brother

#data #privacy #government #policy
Amazon в след за Google и Apple добивают социальную сеть Parler куда мигрировал Трамп после блокировки в Twitter, Facebook и Instagram. Об этом пишут сейчас практически все СМИ в США, Arstechnica[1], NYT [2] и многие другие. Фактически Amazon поставили Parler ультиматум и нет гарантии что новый хостинг куда Parler может мигрировать не предъявит аналогичных требований.

Только Electronic Frontier Foundation пишут о том что права человека первичны [3], впрочем борьба с цензурой интернет платформ - это достаточно давняя их позиция.

Это, конечно, очень важная ситуация резкой политизации компании Кремниевой долины и технологических компаний. Список "сетевых цензоров" теперь состоит как минимум в виде Apple, Google и Amazon. Причём, если первые просто отрезают компании/сервисы от своей экосистемы, то Amazon не даёт другого выбора кроме поиска другого провайдера.

Честно говоря интересно что будет дальше. Поступят ли также облачные CDN вроде Cloudflare? Поступит ли также AT&T фильтруя трафик к сайтам со сторонниками Трампа? Иначе говоря, есть ли пределы подобной технологической цензуре.


Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/amazon-cuts-off-parlers-web-hosting-following-apple-google-bans/
[2] https://www.nytimes.com/2021/01/09/technology/apple-google-parler.html
[3] https://www.eff.org/deeplinks/2021/01/eff-response-social-media-companies-decision-block-president-trumps-accounts

#censorship #politics #trump
Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.

Прежде чем продолжить надо дать два определения:

стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.

стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.

И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.

Подробнее в посте на Substack https://begtin.substack.com/p/11

#data #standards #regulation
Мэрия Москвы в лице ДИТ Москвы запланировала собирать больше данных о жителях города через создание новой системы сбора и хранения персональных данных. Об этом пишет Коммерсант [1] с указанием закупки на 185 миллионов рублей по инициативе властей города.

Более широкая картина
Система будет называться «Централизованное ведение профиля заявителя» (ГИС ЦВПЗ) и она очень похожа на аналогичную федеральную инициативу цифрового профиля который делают Минцифры РФ и ЦБ РФ. Интересно как в будущем эти системы будут интегрированы и будут ли, в принципе, власти Москвы склонны к созданию собственной, полузамкнутой экосистемы. Интересно также на основании каких соглашений с ФОИВами будут собираться сведения из федеральных баз данных, будут ли меняться федеральные законы и ещё много разных вопросов касательно среды в которой всё это происходит.

Последствия
Ключевое последствие - усиление Мэрии Москвы (ДИТ Москвы) на "административном рынке" слежки за гражданами. Москва не только крупнейший город страны и здесь не только около 80% денег банковской системы и все федеральные органы власти, но и крупнейший транспортный хаб.

Мои личные комментарии
Если сделать небольшое дополнение в политике регистрации сведений и на портале госуслуг Москвы могут обязать регистрироваться не только москвичей, но и всех тех кто пользуется московской транспортной инфраструктурой, участвует в госторгах, арендует помещения, снимает жильё и так далее. Иначе говоря значительная доля экономически активного населения уже находится под непрерывной слежкой и эта слежка будет всё полнее и шире.

Да, можно использовать собираемые данные для выдачи целевых субсидий, а можно использовать и для целевой модели выдачи льгот и лишения их десятков тысяч граждан которые власти города могут счесть "достаточно богатыми" чтобы их получать.

Ссылки:
[1] https://www.kommersant.ru/doc/4639641

#moscow #privacy
Несколько лет назад мы создавали сообщество по открытым данным Open Data Russia [1] в Slack'е, но потом оно пришло в заброшенное состояние поскольку Slack ещё нужно было устанавливать, а Telegram стоял у всех и активная жизнь есть в телеграм чате Open Data RU [2].

У Slack'а есть недостатки, хуже с уведомлениями, не такой продвинутый мобильный клиент, но есть и плюсы в том что можно подключать боты как часть сообщества, например, туда транслируются новости с Medium, можно использовать как файловый архив и разного рода тематические каналы.

Тем не менее в Slack было не меньше 250 человек и восстанавливать ли или инет Slack сообщество? Вот в чём вопрос и опрос который можно пройти Slack'е [3] если Вы в нём когда-либо участвовали или зарегистрировавшись там по ссылке [4]

[1] https://opendatarussia.slack.com/
[2] https://t.me/opendatarussiachat
[3] https://opendatarussia.slack.com/archives/C0LBML4QL/p1610486538000300
[4] https://join.slack.com/t/opendatarussia/shared_invite/zt-3ootkyya-2k~w9urfomWp~aE4MjqgWg

#opendata #community
Нужно ли оживлять наше сообщество Open Data Russia в Slack ?
anonymous poll

Нет, хватает сообщества в Telegram – 99
👍👍👍👍👍👍👍 76%

Нет, непонятно зачем это всё – 25
👍👍 19%

Да, давно пора – 6
▫️ 5%

👥 130 people voted so far.
В качестве примера государственных _недокументированных_ API, активист в США несколько лет собирает и публикует список всех доступных государственных серверов геоданных в США и Канаде [1] включающий более 3500 сервисов недокументированного API, не присутствующего, например, в каталог API на портале API портала data.gov [2].

Но, поскольку API у ArcGIS весьма стандартизованное, то это позволяет создавать сервисы с его использованием.
Я скажу что в России также множество госресурсов онлайн с недокументированным API на получение данных. Мой внутренний каталог включает около 40 таких ресурсов только на федеральном уровне, а по субъектам федерации их будет ещё много больше. Это и про сервера с ArcGIS тоже.

Ссылки:
[1] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
[2] https://api.data.gov

#opendata #data #API
Sci-hub, крупнейшая онлайн база научных публикаций, обзавёлся доменным именем в системе Handshake.org [1] устойчивой к цензурным ограничениям и разделегированию доменов.

Здесь я также порекомендую сервис NextDNS [2] для всех кто хочет обеспечить свою приватность не только от гос-ва, торговцев копирайтом, но и работодателей и провайдеров. А также YogaDNS [3] как бесплатный продвинутый DNS клиент для Windows

Ссылки:
[1] https://handshake.org
[2] https://www.namebase.io/
[3] https://www.yogadns.com/

#privacy
Один из тех, к сожалению, не редких случаев когда мой запас ненормативной лексики недостаточен чтобы выразить всё что я думаю по поводу хранения бумажных документов.

Я скажу кратко, Росархив не должен регулировать хранение документов. Росархив в текущем виде - это госкорпорация по управлению имуществом исторических государственных архивов. К сожалению, всё их регулирование документов, их хранения, распространения и так далее, застряло в этой парадигме.

Самое разумное что можно сделать - это:
- забрать у Росархива все полномочия по регулированию
- передать их полномочиия Минцифре РФ (да, не идеально, но лучше чем то что есть) или Минкультуры РФ (не идеально по другому, но тоже лучше чем есть), а лучше разделить между ними
- переподчинить все исторические архивы Минкультуры РФ
- ликвидировать Росархив как орган власти, главное чтобы их здание, памятник архитектуры не пострадало (шутка, пусть страдает!)

Далее здесь был призыв к юридически значимому нормативному легализованному насилию в адрес Росархива, но он был вырезан внутренней самоцензурой.

#archives
2021-01-12_project_perechen-paper.pdf
135.9 KB
Рубрика "Циничная бумагизация"
Ну вот, собственно, и finita la. Цифровая трансформация закончилась. Всем спасибо! Все свободны!
Пришел лесник и разогнал всех нахрен Пришел Росархив и выдал рекомендации по вечному хранению документов в бумажной форме. Найдите в этом перечне то, с чем вы ежедневно работаете и что можно хранить в электронном виде. Если найдете - Росархиву не говорите! А то он внесет это в перечень.
Пока это проект. Но это пока
Forwarded from Инфокультура
Минэкономразвития совместно со Счетной палатой, Ассоциацией участников рынка данных и АНО «Информационная культура» приглашают экспертов, разработчиков, предпринимателей и других пользователей открытых данных принять участие в опросе по формированию перечня востребованных государственных данных и дать обратную связь по опыту работы с открытыми данными.

➡️Присоединиться к опросу: https://forms.gle/uwbsakcSKBEmi9ia6

По итогам опроса в рамках межведомственной рабочей группы будет организована работа с органами власти по раскрытию востребованных данных. Новые датасеты будут доступны на федеральном портале открытых данных data.gov.ru.

Повышение качества открытых данных и непрерывное взаимодействие с их потребителями будут способствовать появлению новых ИТ-решений и сервисов на общедоступных государственных данных.
В догонку про геоданные и их доступность, Максим Дубинин из NextGIS поделился статистикой их проекта [1] облачного, не государственного, сервиса российского происхождения и международной аудиторией:
- 2.1 млн скачиваний клиента для QGIS, 0.7 за последний год
- 1800+ сервисов
- 1000 авторов сервисов из 50 стран.

Максим был одним из основателей ГИС Лаборатории [2], одного их первых сообществ по открытым геоданным в России. А NextGIS - это пример коммерческого проекта на открытых данных и с открытым кодом для общественной пользы.


Ссылки:
[1] https://www.facebook.com/maxim.dubinin/posts/10111830597349957
[2] https://gis-lab.info/

#opendata #tech #opensource
Германские исследователи Corinna Kroeber и Tobias Remschel собрали набор данных всех публикаций Германского парламента (Бундестага) с 1949 по 2017 годы и опубликовали в формате удобном для последующей текстовой обработки языком R - " Every single word - A new dataset including all parliamentary materials published in Germany " [1]. Объём набора данных в сжатом виде около 1.2 гигабайт и более 131 тысячи документов включающих текст, даты, сведения об авторах и тд.

Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].

Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.

Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.

Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.

Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.

Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN

#opendata #data #politicalscience #science #datascience
Lichess [1], бесплатный сервер с открытым кодом для игры в шахматы, основан в 2010 году французским программистом Тибо Дюплесси [2] предоставляет открытые данные по всем играм начиная с января 2013 года [3].

Открытые данные объёмом 434 гигабайта в сжатом виде охватывают 1.7 миллиарда партий. Данные можно скачать напрямую файлами или через торрент, они представлены в PGN формате [4], стандарте публикации шахматных записей ещё с 1993 года.

А в декабре к этим данным добавились данные шахматных паззлов [5], пока небольшого объёма.

Все данные доступны под лицензией Creative Commons Zero.

И, вдогонку, для тех кто интересуется шахматами, существует также, база PGNMentor с играми крупнейших игроков и с крупнейших турниров [6] с охватом, как минимум, с 1886 года.

Ссылки:
[1] https://lichess.org/about
[2] https://ru.wikipedia.org/wiki/Lichess
[3] https://database.lichess.org/
[4] https://en.wikipedia.org/wiki/Portable_Game_Notation
[5] https://lichess.org/blog/X-S6gRUAAGjNX4ki/new-puzzles-are-here
[6] http://www.pgnmentor.com/files.html

#opendata #chess