Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Мэрия Москвы в лице ДИТ Москвы запланировала собирать больше данных о жителях города через создание новой системы сбора и хранения персональных данных. Об этом пишет Коммерсант [1] с указанием закупки на 185 миллионов рублей по инициативе властей города.

Более широкая картина
Система будет называться «Централизованное ведение профиля заявителя» (ГИС ЦВПЗ) и она очень похожа на аналогичную федеральную инициативу цифрового профиля который делают Минцифры РФ и ЦБ РФ. Интересно как в будущем эти системы будут интегрированы и будут ли, в принципе, власти Москвы склонны к созданию собственной, полузамкнутой экосистемы. Интересно также на основании каких соглашений с ФОИВами будут собираться сведения из федеральных баз данных, будут ли меняться федеральные законы и ещё много разных вопросов касательно среды в которой всё это происходит.

Последствия
Ключевое последствие - усиление Мэрии Москвы (ДИТ Москвы) на "административном рынке" слежки за гражданами. Москва не только крупнейший город страны и здесь не только около 80% денег банковской системы и все федеральные органы власти, но и крупнейший транспортный хаб.

Мои личные комментарии
Если сделать небольшое дополнение в политике регистрации сведений и на портале госуслуг Москвы могут обязать регистрироваться не только москвичей, но и всех тех кто пользуется московской транспортной инфраструктурой, участвует в госторгах, арендует помещения, снимает жильё и так далее. Иначе говоря значительная доля экономически активного населения уже находится под непрерывной слежкой и эта слежка будет всё полнее и шире.

Да, можно использовать собираемые данные для выдачи целевых субсидий, а можно использовать и для целевой модели выдачи льгот и лишения их десятков тысяч граждан которые власти города могут счесть "достаточно богатыми" чтобы их получать.

Ссылки:
[1] https://www.kommersant.ru/doc/4639641

#moscow #privacy
Несколько лет назад мы создавали сообщество по открытым данным Open Data Russia [1] в Slack'е, но потом оно пришло в заброшенное состояние поскольку Slack ещё нужно было устанавливать, а Telegram стоял у всех и активная жизнь есть в телеграм чате Open Data RU [2].

У Slack'а есть недостатки, хуже с уведомлениями, не такой продвинутый мобильный клиент, но есть и плюсы в том что можно подключать боты как часть сообщества, например, туда транслируются новости с Medium, можно использовать как файловый архив и разного рода тематические каналы.

Тем не менее в Slack было не меньше 250 человек и восстанавливать ли или инет Slack сообщество? Вот в чём вопрос и опрос который можно пройти Slack'е [3] если Вы в нём когда-либо участвовали или зарегистрировавшись там по ссылке [4]

[1] https://opendatarussia.slack.com/
[2] https://t.me/opendatarussiachat
[3] https://opendatarussia.slack.com/archives/C0LBML4QL/p1610486538000300
[4] https://join.slack.com/t/opendatarussia/shared_invite/zt-3ootkyya-2k~w9urfomWp~aE4MjqgWg

#opendata #community
Нужно ли оживлять наше сообщество Open Data Russia в Slack ?
anonymous poll

Нет, хватает сообщества в Telegram – 99
👍👍👍👍👍👍👍 76%

Нет, непонятно зачем это всё – 25
👍👍 19%

Да, давно пора – 6
▫️ 5%

👥 130 people voted so far.
В качестве примера государственных _недокументированных_ API, активист в США несколько лет собирает и публикует список всех доступных государственных серверов геоданных в США и Канаде [1] включающий более 3500 сервисов недокументированного API, не присутствующего, например, в каталог API на портале API портала data.gov [2].

Но, поскольку API у ArcGIS весьма стандартизованное, то это позволяет создавать сервисы с его использованием.
Я скажу что в России также множество госресурсов онлайн с недокументированным API на получение данных. Мой внутренний каталог включает около 40 таких ресурсов только на федеральном уровне, а по субъектам федерации их будет ещё много больше. Это и про сервера с ArcGIS тоже.

Ссылки:
[1] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
[2] https://api.data.gov

#opendata #data #API
Sci-hub, крупнейшая онлайн база научных публикаций, обзавёлся доменным именем в системе Handshake.org [1] устойчивой к цензурным ограничениям и разделегированию доменов.

Здесь я также порекомендую сервис NextDNS [2] для всех кто хочет обеспечить свою приватность не только от гос-ва, торговцев копирайтом, но и работодателей и провайдеров. А также YogaDNS [3] как бесплатный продвинутый DNS клиент для Windows

Ссылки:
[1] https://handshake.org
[2] https://www.namebase.io/
[3] https://www.yogadns.com/

#privacy
Один из тех, к сожалению, не редких случаев когда мой запас ненормативной лексики недостаточен чтобы выразить всё что я думаю по поводу хранения бумажных документов.

Я скажу кратко, Росархив не должен регулировать хранение документов. Росархив в текущем виде - это госкорпорация по управлению имуществом исторических государственных архивов. К сожалению, всё их регулирование документов, их хранения, распространения и так далее, застряло в этой парадигме.

Самое разумное что можно сделать - это:
- забрать у Росархива все полномочия по регулированию
- передать их полномочиия Минцифре РФ (да, не идеально, но лучше чем то что есть) или Минкультуры РФ (не идеально по другому, но тоже лучше чем есть), а лучше разделить между ними
- переподчинить все исторические архивы Минкультуры РФ
- ликвидировать Росархив как орган власти, главное чтобы их здание, памятник архитектуры не пострадало (шутка, пусть страдает!)

Далее здесь был призыв к юридически значимому нормативному легализованному насилию в адрес Росархива, но он был вырезан внутренней самоцензурой.

#archives
2021-01-12_project_perechen-paper.pdf
135.9 KB
Рубрика "Циничная бумагизация"
Ну вот, собственно, и finita la. Цифровая трансформация закончилась. Всем спасибо! Все свободны!
Пришел лесник и разогнал всех нахрен Пришел Росархив и выдал рекомендации по вечному хранению документов в бумажной форме. Найдите в этом перечне то, с чем вы ежедневно работаете и что можно хранить в электронном виде. Если найдете - Росархиву не говорите! А то он внесет это в перечень.
Пока это проект. Но это пока
Forwarded from Инфокультура
Минэкономразвития совместно со Счетной палатой, Ассоциацией участников рынка данных и АНО «Информационная культура» приглашают экспертов, разработчиков, предпринимателей и других пользователей открытых данных принять участие в опросе по формированию перечня востребованных государственных данных и дать обратную связь по опыту работы с открытыми данными.

➡️Присоединиться к опросу: https://forms.gle/uwbsakcSKBEmi9ia6

По итогам опроса в рамках межведомственной рабочей группы будет организована работа с органами власти по раскрытию востребованных данных. Новые датасеты будут доступны на федеральном портале открытых данных data.gov.ru.

Повышение качества открытых данных и непрерывное взаимодействие с их потребителями будут способствовать появлению новых ИТ-решений и сервисов на общедоступных государственных данных.
В догонку про геоданные и их доступность, Максим Дубинин из NextGIS поделился статистикой их проекта [1] облачного, не государственного, сервиса российского происхождения и международной аудиторией:
- 2.1 млн скачиваний клиента для QGIS, 0.7 за последний год
- 1800+ сервисов
- 1000 авторов сервисов из 50 стран.

Максим был одним из основателей ГИС Лаборатории [2], одного их первых сообществ по открытым геоданным в России. А NextGIS - это пример коммерческого проекта на открытых данных и с открытым кодом для общественной пользы.


Ссылки:
[1] https://www.facebook.com/maxim.dubinin/posts/10111830597349957
[2] https://gis-lab.info/

#opendata #tech #opensource
Германские исследователи Corinna Kroeber и Tobias Remschel собрали набор данных всех публикаций Германского парламента (Бундестага) с 1949 по 2017 годы и опубликовали в формате удобном для последующей текстовой обработки языком R - " Every single word - A new dataset including all parliamentary materials published in Germany " [1]. Объём набора данных в сжатом виде около 1.2 гигабайт и более 131 тысячи документов включающих текст, даты, сведения об авторах и тд.

Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].

Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.

Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.

Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.

Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.

Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN

#opendata #data #politicalscience #science #datascience
Lichess [1], бесплатный сервер с открытым кодом для игры в шахматы, основан в 2010 году французским программистом Тибо Дюплесси [2] предоставляет открытые данные по всем играм начиная с января 2013 года [3].

Открытые данные объёмом 434 гигабайта в сжатом виде охватывают 1.7 миллиарда партий. Данные можно скачать напрямую файлами или через торрент, они представлены в PGN формате [4], стандарте публикации шахматных записей ещё с 1993 года.

А в декабре к этим данным добавились данные шахматных паззлов [5], пока небольшого объёма.

Все данные доступны под лицензией Creative Commons Zero.

И, вдогонку, для тех кто интересуется шахматами, существует также, база PGNMentor с играми крупнейших игроков и с крупнейших турниров [6] с охватом, как минимум, с 1886 года.

Ссылки:
[1] https://lichess.org/about
[2] https://ru.wikipedia.org/wiki/Lichess
[3] https://database.lichess.org/
[4] https://en.wikipedia.org/wiki/Portable_Game_Notation
[5] https://lichess.org/blog/X-S6gRUAAGjNX4ki/new-puzzles-are-here
[6] http://www.pgnmentor.com/files.html

#opendata #chess
С 9 января в США наблюдается резкий всплеск популярности альтернативных мессенжеров и соцсетей. Помимо Telegram'а, это ещё и Signal, CloutHub, MeWe и Rumble.

Источник: Axios (http://axios.com), данные из Apptopia (http://apptopia.com)

#mobile
Archive Team, команда которая архивирует умирающие проекты, оказалась в центре внимания после того как они запустили процесс архивации Partler'а [1].

Впрочем публичная позиция Archive Team в том что архивируется только общедоступное, а взломанный контент из Parler они не используют [2]

Лично я считаю что архивы вне политики, какой бы ни был контент, он должен быть сохранён.

Ссылки:
[1] https://www.vice.com/en/article/n7vqew/the-hacker-who-archived-parler-explains-how-she-did-it-and-what-comes-next
[2] https://twitter.com/archiveteam/status/1349054073589420036

#opendata #data #archives
Продолжаю читать книгу Nadia Engball Working in Public: The Making and Maintenance of Open Source Software [1] и среди многих интересных вопросов которые которые она упоминает:
- зависимость миллионов проектов, от нескольких которыми управляет всего несколько десятков человек. Пример npm - c 3 500 000 зависимыми проектами и командой разработки из 35 человек.
- то что открытый код - это экономика внимания (attention economy), но это не про внимание клиента (customer attention), а внимания авторов проекта (maintainers attention).
- важный фактор усталости open source разработчиков не от открытости, а от необходимости участия в обсуждениях (participatory), поэтому часто важно делать общедоступным контент, но ограничивать коммуникации комфортным кругом обсуждения.

И, чуть ли не самое главная тема, любого открытого проекта - это tragedy of public good. Когда если что-то бесплатно, то оно немедленно сверхиспользуется.

Я знаю немало проектов по открытости которые на открывают код или данные или другие наработки зная что кто-то будет, либо сверхиспользовать их результаты, либо изначально обладает низкой этикой и большими ресурсами, финансовыми или административными, и открытые наработки использует исключительно в свою пользу, без пользы сообществу.

Много такого наблюдаю вокруг. Помню что Ричард Столлман ещё несколько лет назад говорил и писал об использовании инструментов GNU в облачных сервисах, при этом без раскрытия кода этих сервисов (явный кивок в сторону Google и др.). Или когда Wikipedia используется всеми дата-корпорациями в своих контентных, исследовательских и иных проектах, но финансируют её очень немногие и финансирования всегда недостаточно.

Таких кейсов очень много и они, часто, имеют отраслевую/предметную специфику. Когда понятно что в какой-то области любые проекты по открытости будут быстро "каннибализированы", то и оказывается что там есть коммерческие проекты и дефицит открытых.

С открытыми данными отдельная история в том что они не укладываются бизнес модели и модели существования сообществ открытого кода. Если открытый код - это сборка инструментов, то открытые данные - это топливо.

Это можно сравнить как если Вы выпиливаете деревянные игрушки, то:
- открытый код - это инструкции как делать бесплатно инструменты не покупая их в магазине
- открытые данные - это бесплатные пиломатериалы.

Хотя это и не совсем корректно, поскольку данные не являются исчерпаемым ресурсом, тем не менее отличие от исходного кода существенно с точки зрения существования сообществ, устойчивых бизнес моделей и тд.

Беда многих сообществ открытого кода по всему миру была в том что без институционализации выжили немногие. Часть активистов были поглощены цифровыми командами государства (digital teams, data teams) такими как 18F, AlphaGov, TeamDigitale по разным странам (не стоит их путать с отечественными "командами цифровой трансформации", ничего общего между ними нет). Другая часть активистов ушли в коммерческий или долгосрочные международные проекты изменяющиеся в сторону проектов на данных.

И модель устойчивости существования открытых данных как сообщества сообществ до сих пор не найдена.

Эта рефлексия по поводу открытости есть у всех. Внутри нашей команды мы тоже часто думаем над тем что можно и нельзя открывать, что можно делать общественным проектом, а что нельзя делать потому что одним из ключевых вопросов возникает вопрос: "Вот мы опубликуем вот этот код/данные, но ты же понимаешь что ими просто воспользуются вот эти ... или вот эти ... и нам даже спасибо не скажут". В нашем отечестве это важный вопрос, отражающийся на качестве любой профессиональной работы. Отсев профанации на институциональном уровне не происходит или происходит так что лучше бы не происходил.

Как бы то ни было, опыт сообществ открытого кода важен для понимания что происходит в других сообществах открытости.

Ссылки:
[1] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33

#OpenData #opensource #books
Что читать, на кого подписаться в телеграм, я порекомендую несколько каналов и сообществ, не стесняйтесь присылать дополнения если есть что-то важное.

Данные и технологии
- @data_csv - блог о журналистике данных
- @data_events - о мероприятиях про данные онлайн
- @data_publication - дата-сторителлинг и журналистика данных
- @infoculture - официальный канал АНО Инфокультура, о данных, приватности, проектах на открытых данных
- @roskomsvoboda - Роскомсвобода, регулярные публикации о приватности
- @urbandata - канал о данных в городском отражении
- @zatelecom - Михаил Климарев с регулярными новостями и мнением о телекоме
- @Persdata - канал с новостями персональные данные

Государство
- @begtin - мой канал где я пишу про технологии, данные, цифровизацию и наборы данных
- @auditgov - официальный телеграм канал Счетной палаты
- @CynExp - канал "Координация профанации", нелицеприятно о цифровой трансформации
- @drussia - канал издания Цифровая Россия
- @ahminfin - канал Ольги Пархимович об открытых государственных финансовых данных

Бизнес
- @businesssecrets - канал Секрет Фирмы, среди публикаций много о том что касается цифрового бизнеса
- @CNewsDaily - канал CNews, трансляция новостей с их сайта
- @tadviser - канал издания TAdvizer, чаще про ИТ бизнес около гос-ва

Чаты и дискуссии
- @opendatarussia - чат по открытым данным в России
- @gislab - чат про открытые геоданные
- @begtinchat - чат к этому каналу, обсуждение открытых данных, госполитики и тд.

Зарубежное
- @bloomberg - канал Bloomberg на английском языке

За рамками привычных тем
- @fond_khamovniki - канал Фонда Хамовники со ссылками на публикации и анонсами о том как устроена Россия на самом деле

#lists
Честно говоря только в виде исключения, надеюсь, которое больше повторяться не будет, я дам ссылку на интервью Игоря Ашманова от 14 января в газете Завтра [1] из которого можно сделать много разных выводов, главный из которых, лоббирование "чебурнета" (вспоминаем 147-ю серию Масяни [2], замкнутой на себя росссийской сети).

Многое можно сказать про прозвучавшие там тезисы. Я сформулирую три ключевых:
1. Мир движется не по спирали и "ретрофутуристика" российского ИТ через рефлексию несбывшегося в СССР вызывает только улыбку. Не только Россия, весь мир существует в с очень сильной степенью связности которая только нарастает.
2. Утверждать что зарубежные решения в России внедрялись только через взятки, это, мягко говоря, лукавство. Во первых потому как, если говорить на чистоту, то весь интеграторский бизнес в России коррупционен, это, как бы, "условие входа на рынок". А во вторых технологическая зрелость, поддержка и ещё много чего в российских продуктах много лет оставляли желать лучшего.
3. Красивые картины великого российского будущего без зарубежных сервисов разбивается в то что на это нужна политическая воля такого масштаба которого у нас в стране нет, не было и не ожидается. Если даже полиция сопровождающая кортеж президента координируется через WhatsApp, то о чём мы говорим?

Мне ещё много что есть сказать по этому поводу, но я сдержусь, напомню лишь что Игорь Ашманов был доверенным лицом Президента РФ на выборах 2018 года и входит в совет по правам человека сейчас. Несмотря на то что он не является лицом принимающим решения в нашем государстве, недооценивать его разрушительные усилия не стоит.

Если кто-то хочет обсудить подробнее, приглашаю в чат @begtinchat

Ссылки:
[1] https://zavtra.ru/blogs/tcifrovaya_bitva_nachalas_
[2] https://www.youtube.com/watch?v=F4HvmHdtpiw

#it #russia #freakmonitor
Где искать данные исследователям?

- Mendeley Data - поисковик агрегатор по 26.9 миллионам наборов данных для исследователей от Elsevier, также отдают весь реестр по спецификации OAI-PMH
- DataCite Search - поиск по наборам данных публикуемых с DOI DataCite, около 8 миллионов наборов данных
- Dimensions Datasets - база Dimensions.ai, более 8 миллионов наборов данных проиндексированных CrossRef и упоминаемых в научных публикациях
- Google Dataset Search - поиск по наборам данных Google, использует поиск по объектам размеченным на страницах как Schema.org Dataset, много мусорных результатов из-за SEO оптимизаторов
- Re3Data - каталог научных репозиториев для данных по всему миру
- OpenAIRE - европейская система поиска по результатам научных исследований, включая исследовательские данные
- Dataverse - более 67 инсталляций ПО Dataverse используемых как научные репозитории для данных ведущими университетами по всему миру

Главный залог существования поиска по научным данным - это доступность данных академических центров в форматах пригодных для повторного использования и документирование метаданных, в первую очередь, в формате OAI-PHM

#opendata #researchdata
Интересные наборы данных по всему миру:

- Не только в России проходят киберучения, есть жанр игр кибернетической безопасности. Например, кибернетические игры CyberCzech проходят в Чехии [1].
По их итогам появляются публикации включающие данные о сетевом трафике и логах [2]. В мире, не в России, довольно часто подобные данные публикуются вместе с научными статьями по итогам учений.

- Коллекция геоданных о 3-й французской республике (1870–1940) [3], 16 наборов данных с объектами и границами территорий.

- Данные системы World Factbook [4] были преобразованы энтузиастом в JSON формат удобный для быстрого использования [5].

- База переворотов Coup D'état Project (CDP) [6], в Университете Иллинойса, включает набор данных о более чем 900 переворотах [7]

Ссылки:
[1] https://csirt.muni.cz/projects/cyber-czech
[2] https://www.sciencedirect.com/science/article/pii/S2352340920306788
[3] https://dataverse.harvard.edu/dataverse/TRF-GIS
[4] https://www.cia.gov/library/publications/the-world-factbook/
[5] https://github.com/factbook/factbook.json
[6] https://clinecenter.illinois.edu/project/research-themes/democracy-and-development/coup-detat-project-cdp
[7] https://databank.illinois.edu/datasets/IDB-0433268

#datasets
Согласие без власти ведет к неравенству.

Не все знают, поэтому важно напомнить что Убунту - это не только дистрибутив Linux, но и африканская философская концепция [1]
Человек с убунту открыт и доступен для других, принимает других людей, не видит для себя опасности в том, что другие талантливы и добры, поскольку он твёрдо уверен в себе, понимая, что является частью большего целого, и, наоборот, человек с убунту угнетён, когда других оскорбляют или унижают, пытают или угнетают.

В публикации From Rationality to Relationality "Ubuntu as an Ethical & Human Rights Framework for Artificial Intelligence Governance" [2] автор Sabelo Mhlambi предлагает применить философию Убунту к регулированию искусственного интеллекта и автоматизированных алгоритмов.

Это текст для чтения, перечитывания и размышления, я всячески рекомендую его тем кто задумывается о природе этического регулирования ИИ.

Читая этот и другие тексты о этике ИИ я могу лишь в очередной раз посетовать дефициту этой темы в содержательном дискурсе по этой проблеме в России.

А один из тезисов статьи я бы вынес в отдельную большую тему для обсуждения: Согласие без власти ведет к неравенству.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Убунту_(идеология)
[2] https://carrcenter.hks.harvard.edu/files/cchr/files/ccdp_2020-009_sabelo_b.pdf

#ai #regulation #discussion #papers #ubuntu
Малоизвестный, но существующий, проект OpenDRI по открытости данных в области изменения климата и природных катастроф [1]. С довольно сильным фокусом в сторону открытости городов и их планирования [2], включая проект Open Cities Africa [3] по сбору городских данных африканских крупнейших игроков.

А кроме того у OpenDRI есть индекс открытости данных [4] где ничего нет о России, но есть многое о других странах. Видно что этот индекс всё ещё в активной разработке и незавершён, хотя ему и несколько лет, но помнить о нём немаловажно, тем более что российское МЧС сложно назвать открытым ведомством да и данные по изменению климата официальные органы власти в России не то чтобы не публикуют, но системно этого не делают.

Я отмечу что многие международные проекты шаг за шагом преобразуют свои индексы и создают новые индексы сравнений стран по открытости данных и этому можно только порадоваться.

Ссылки:
[1] https://opendri.org/
[2] https://opendri.org/resource/planning-an-open-cities-mapping-project/
[3] https://opencitiesproject.org/
[4] https://index.opendri.org

#opendata #hazards #opendri