Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Про электронные повестки в России я буду краток.

– Однако, мистер Дент, маршрут был выставлен для всеобщего ознакомления в местном бюро планирования и висел там девять месяцев.
– Ага, как только я узнал, то сразу же помчался прямо в бюро. Это было вчера в полдень. Вы ведь не особенно утруждали себя предупреждениями? Я имею в виду: никому ни слова, ни одной душе, правда?
– Но маршрут был обнародован для…
– Обнародован? В конце концов мне пришлось спуститься в подвал, чтобы отыскать его!
– Верно, там у нас находится отдел информации.
– С фонариком!
– Наверное, света не было.
– И ступенек тоже!
– Но послушайте, вы ведь нашли план!
– Да, – сказал Артур,
– нашел. На дне запертого шкафа в заколоченном туалете. А на двери табличка висела: «Осторожно, леопард!»

Адам Дуглас, "Автостопом по галактике", 1979 г.

А в остальном меня вот уже второй день журналисты осаждают вопросами реально ли сделать такую информационную систему в короткие сроки. Лично у меня никакого желания комментировать по этой теме нет. И не только потому что и так всем всё понятно (с), но и предмета обсуждения нет. Автоматизация решений законов сложна тогда когда эти законы долго пишут, интенсивно обсуждают, принимают как сочетание тяжелых компромиссов, а архитекторы и инженеры реализуют проклиная этих юристов за то что они напридумывали всякого невозможного. А тут всё предельно просто, если приняли за пару дней то и изменить могут также, в любой момент. Вопроса возможности-невозможности тут не стоит, внутри государства достаточно команд способных реализовать такие проекты и даже если текущую команду Минцифры расформируют за сопротивление Гостеху (в чём они молодцы), а кого-то из вице-премьеров отправят куда-нибудь в новую/старую госкорпорацию, а Грефа назначат вице-премьером по Гостеху (большая зелёная танцующая шутка), то даже в этом случае такую систему смогут сделать. Даже на таком унылом стеке как Гостех, даже если не очень стараться.

Технологии довольно давно позволяют построить системы любой степени людоедскости, Российское государство в его текущей инкарнации тут догоняющий игрок, но темп взят хороший, а марафон долгий.

#government #regulation #laws
По поводу российского государственного портала открытых данных data.gov.ru который недавно был закрыт Минэкономразвития [1] и как пишет Ольга Пархимович у себя в канале там ещё и чудеса с обратной связью с представителями этого министерства [2], так вот ещё до появления госпортала открытых данных мы командой Инфокультуры делали портал hubofdata.ru [3] куда загружали данные которые госорганы "забывали" опубликовать как открытые и который подзабросили когда российские госорганы начали создавать свои порталы открытых данных, поскольку было, какое-то время, впечатление что данные госорганы будут публиковать.

Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.

Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.

В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могут сжечь любое количество потратить 50 миллионов рублей в довесок к уже потраченным без гарантии результата. Объяснить из чего складывается разница? Из того что порталы открытых данных во всём мире делают на готовых опенсорс решениях, чаще всего на CKAN, реже на DKAN, uData, Dataverse, а для геоданных Geonetwork. Развертывание любого из них в разы дешевле и практичнее разработки с нуля, если только нет плана по созданию мегафич из-за которых опенсорс продукты не подходят. А разработка с нуля на Гостехе - это удовольствие не для слабонервных, учитывая что там никаких готовых решений. Нельзя вот так просто взять и развернуть готовое решение из коробки и неизвестно можно ли будет когда-либо. Например, Datacrafter делался не на CKAN'е потому что в нём внутри структурированное NoSQL хранилище, разметчик семантических типов данных и экспорт всех данных в parquet по умолчанию. CKAN этого не умеет, пока что.

Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.

Ссылки:
[1] https://t.me/begtin/4714
[2] https://t.me/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] https://t.me/begtin/4764

#opendata #russia #opengov #dataportals
В рубрике интересных наборов данных World Bank’s Open Night Lights [1] коллекция снимков ночной Земли на которой можно увидеть распределение обитаемой зоны человечества по интенсивности искусственного света. Особенность этого набора данных в том что он доступен как общедоступный набор данных на Amazon AWS [2] и через Stac Server [3] по спецификации STAC [4]

Данные в форматах GeoTIFF и, что немаловажно, это очень подробное и буквально с азов руководство по тому как с этими данными работать [1].

В 2020 году пара исследователей из Университета Мичигана публиковали код который анализировал эти снимки и позволял оценить уровень доступа к электричеству по странам New Methods to Estimate Electricity Access Using Nightly VIIRS Satellite Imagery [5]

На основе этих данных уже написано некоторое количество статей [6], например, по отслеживанию экономической активности при COVID-19 в Морокко и предсказанию бедности по общедоступным данным.

И это ещё далеко не самое интересное что можно делать на основе спутниковых снимков для создания альтернативных данных.

Ссылки:
[1] https://worldbank.github.io/OpenNightLights/welcome.html
[2] https://registry.opendata.aws/wb-light-every-night/
[3] https://stacindex.org/catalogs/world-bank-light-every-night#/
[4] https://stacspec.org
[5] https://github.com/zachokeeffe/nightlight_electrification
[6] https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=%22OpenNightLights%22&btnG=

#opendata #datasets #remotesensing #geospatial
В рубрике полезных наборов данных по России, общедоступные точки подключения к ArcGIS государственных и научных порталов:
- https://agoracle.asutk.ru/arcgis/rest/services
- http://apieatlas.mos.ru/arcgis/rest/services
- https://geoportal.gcras.ru/arcgis/rest/services
- https://gisn.kgilc.ru:6443/arcgis/rest/services
- https://gisnao.ru/arcgis/rest/services/
- http://gis.rkomi.ru/arcgis/rest/services/
- https://karta.yanao.ru/arcgisserver/rest/services
- https://lgtgis.aari.ru/arcgis/rest/services
- http://map.govvrn.ru/arcgis/rest/services
- http://maps1.dvinaland.ru/arcgis/rest/services
- https://meteo-dv.ru/arcgis/rest/services/
- https://portal.shipsea.ru/arcgis/rest/services

У ArcGIS серверов нет указания на лицензии и право повторного использования данных, поэтому используйте на свой страх и риск. Большая часть этих порталов упомянуто в каталоге каталогов datacatalogs.ru и уже в расширённом объёме они будут в проекте Common Data Index

#opendata #datasets #geospatial #geodata #data #arcgis
В рассылке AlgorithmWatch рассуждения [1] их репортёра Николя Кайзера-Бриля о том как Twitter опубликовал открытый код ранее. Ключевой вывод - большей открытости раскрытие именно этого кода не даёт, больше пользы от поста в блоге Twitter о том как устроены алгоритмы [2]. Я не до конца с ним согласен, всё таки я ближе к технологическим компаниям по складу ума, но, действительно, прозрачность складывается не только их кода.

Интересно и другое, он рассказывает про примеры раскрытия кода по запросу. Для тех кто не знает, в Европейском союзе действует Digital Services Act (DSA) [3] который позволяет исследователям запрашивать данные в целях общественного интереса у очень больших платформ. И уже была история когда французская организация CNAF отвечающая за государственное соцобеспечение по такому запросу опубликовала 7 миллионов строк кода, без сопровождающей документации и на запросы журналистов делали вид что документации не существует [4].

Всё это к тому что почувствуйте разницу в проблемах. В каких-то странах проблема в том что раскрывается слишком много кода и без документации, а в других что просто ничего не раскрывается. Первый вариант тоже не очень, но второй совсем плохой.

Ещё из полезного чтения:
- В Ирландии правительство пытается протащить быстрым образом закон разрешающий полиции использовать технологии распознавания лиц, но часть парламента сопротивляется [5]
- Во Франции служба аудиторов проверяет расходы в 3 миллиарда евро на стратегию Франции в области ИИ и выяснили что деньги тратили на короткие проекты, вместо долгосрочных [6] таких как образовательные программы
- В Швейцарии, в Лозанне местные власти запретили использовать распознавание лиц в общественных местах [7]

И, наконец, новости из Африки.

О том как Зимбабве строят государство тотальной слежки [8], на больших китайских кредитах, китайских технологиях и тд. Если кратко, то быстро и эффективно внедряют всё что возможно чтобы отслеживать всех без исключения и быстро разбираться со всеми кто имеет признаки оппозиционной деятельности.

А знаете почему Россия не Зимбабве? Потому что в России есть свои технологические компании по массовой слежки и достаточно денег чтобы не брать китайские кредиты.

Кстати, не могу не напомнить про проект по отслеживанию китайских технологических компаний в мире Mapping China’s Tech Giants [9] который делают в The Australian Strategic Policy Institute и собирают данные по всем известным китайским технологическим проектам в мире. Там есть наглядная карта, каждый может найти свою страну.

Они же анонсировали проект Critical Technology Tracker [10], я о нём расскажу через какое-то время. Он может быть даже поинтереснее мониторинга только Китая.

Ссылки:
[1] https://r.algorithmwatch.org/nl3/HCBGLxy-H3KfnMpjebKRLw
[2] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:L:2022:277:FULL&from=EN&pk_campaign=todays_OJ&pk_source=EURLEX&pk_medium=TW&pk_keyword=Digital%20service%20act&pk_content=Regulation%20
[4] https://www.nextinpact.com/article/28136/106298-les-allocations-familales-nous-ouvrent-code-source-leur-calculateur-daides
[5] https://www.irishtimes.com/crime-law/2023/04/06/oireachtas-committee-wants-to-scrutinise-use-of-facial-recognition-technology-by-gardai/
[6] https://www.nextinpact.com/article/71408/la-strategie-nationale-recherche-en-ia-passee-au-crible-cour-comptes
[7] https://algorithmwatch.ch/fr/lausanne-interdit-reconnaissance-faciale-lespace-public/
[8] https://globalvoices.org/2023/01/10/how-zimbabwe-is-building-a-big-brother-surveillance-state/
[9] https://chinatechmap.aspi.org.au
[10] https://techtracker.aspi.org.au

#privacy #zimbabwe #china #ai #ethics #twitter
В качестве регулярных напоминаний о чём я здесь пишу, для свежеподписавшихся.

Я регулярно пишу про технологии, работу с данными, открытые данные, приватность, цифровые архивы, научную инфраструктуру и использование технологий в гос-ве и крупных корпорациях. Пишу как про очень практические и технологические вещи, так и про госполитику в этой области, регуляторные аспекты, научные исследования, аналитику и так далее. Поэтому читать этот канал может быть не всегда просто для тех кто интересуется только технологиями и их применением и для тех кто наоборот интересуется регулированием и исследованиями.

Для больших текстов пишу в рассылку на Substack https://begtin.substack.com
Для текстов на английском пишу в блоге в Medium https://medium.com/@ibegtin

Я возглавляю российскую НКО Инфокультура @infoculture, от которой мы создаём такие технологические проекты как:
- Национальный цифровой архив https://ruarxive.org (подписывайтесь на @ruarxive)
- Каталог каталогов данных https://datacatalogs.ru
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Простой русский язык https://plainrussian.ru
- Хаб открытых данных https://hubofdata.ru
и другие.

Вернее пока ещё можем создавать, учитывая что происходит в стране с другими НКО, неизвестно сколь долго это будет возможно.

Последняя моя аффиляция с государством была в создании проекта Госрасходы spending.gov.ru в Счетной палате РФ и закончилась его запуском, в СП РФ проект всё ещё существует и развивается. Вот уже более 3 лет как занимаюсь только коммерческими и общественными проектами, консалтингом и преподаванием.

Регулярно пишу про свои пэт проекты https://github.com/ivbeg, до сих пор много пишу кода и стараюсь делать руками.

Всё это к тому что подписываясь на этот канал не удивляйтесь текстам по всем этим темам и если Вы подписывались в ожидании текстов по общеполитическим вопросам, то их тут крайне мало, а если интересуетесь технологиями в перечисленных направлениях - то надеюсь Вам будет интересно!

#opendata #about