Ivan Begtin
8K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Sky News пишут о том что Open Government Partnership утверждает что Великобритания провалила обещания по открытости которые давала в своём плане открытости [1]

Даже не знаю как прокомментировать. UK была основателем Open Government Partnership и это довольно серьёзно если даже они не держат своих добровольных обещаний. Впрочем в статье немало о том что Brexit плохо повлиял на политику в Великобритании и эта ситуация одно из его последствий.

Ссылки:
[1] https://news.sky.com/story/uk-government-censured-for-a-lack-of-transparency-and-accountability-12234248

#opengov #uk
О том как устроены большие международные исследовательские проекты на данных и данные в определённых областях. International Soil Reference and Information Centre (ISRIC) [1] появился в 1964 году в виде Международного музея почвы в Утрехте, Голландия. В 1984 году был переименован в текущее название, в 2011 году получили статус WDC-Soils в международном проекте ISC World Data System.

Организация собирает данные о состоянии почвы, публикует их на специальном хабе данных ISRIC Data Hub [2] и создаёт интерактивные проекты такие как Soils Revealed [3], Soilgrids [4] и многочисленные проекты связанные со сбором и анализом сведений о состоянии почв в Евросоюзе, африканских и других странах. Данные по России в их наборах данных и интерактивных картах тоже есть.

На что можно обратить внимание.
- для публикации данных они используют каталог данных/цифровых геообъектов geonetworks [5] - это специальный open source инструмент позволяющий работать с геоданными и отображать их удобным образом;
- они одни из авторов Гармонизированной мировой базы почв версия 1.2 [6] публикуемой ФАО (агенство при ООН).

В России, кстати, также есть ИС ПГБД (Информационная система «Почвенно-географическая база данных России») [7] созданная Почвенным дата-центром МГУ имени М.В. Ломоносова, там даже есть некоторое количество карт, но ни о какой доступности наборов данных/баз данных и речи нет. Как и большая часть других результатов научной работы в России эти данные не публикуются и уж точно не публикуются под открытыми лицензиями.

Правда российские данные и данные других стран публикуются в международных проектах, например, около десятка российских исследовательских организаций предоставляют данные для проекта ФАО Global Soil Organic Carbon Map [8].

Российские научные данные имеют ту большую местную особенность что не собираются даже органами власти субъектов федерации и на федеральном уровне. В результате отечественный портал data.gov.ru "забит административными данными", небольшими и довольно бессмысленными. Для сравнения, большая часть данных на американском портале data.gov - это именно научные данные. Поиск по "soil" (почва) [9] выдаёт там более 5360 наборов данных.

Всё это я хочу завершить тезисами:
1. Очень часто доступные данные о России надо искать вне России, в международных проектах/банках данных. Их, обычно, хорошо знают специалисты и гораздо хуже те кто не знает где их искать.
2. Инвентаризация государственных информационных систем в России полностью игнорирует программные комплексы и базы данных созданные в исследовательских центрах.

Ссылки:
[1] https://www.isric.org/about
[2] https://data.isric.org/geonetwork/srv/rus/catalog.search#/home
[3] https://soilsrevealed.org
[4] https://soilgrids.org/
[5] https://github.com/geonetwork/core-geonetwork
[6] http://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/
[7] https://soil-db.ru/
[8] http://54.229.242.119/GSOCmap/
[9] https://catalog.data.gov/dataset?q=soil&sort=score+desc%2C+name+asc

#science #opendata #openaccess #soil #russia
CNews пишут о том что МВД проектирует новый мегаЦОД за 7 миллиардов рублей [1] который будет создан в Москве, на ул. Поморская, 50. Там много вопросов про стоимость работы, обоснование почему так устроено ценообразование на ПИРы, не сомневаюсь что журналисты за этим контрактом пристально будут следить. Я хочу на примере этого контракта поднять 3, на мой взгляд, самые ключевые проблемы / характеристики госИТ в России в последние годы.

1. Делать всё самим.
Фактически, вместо того чтобы вводить стандарты и требования к аттестации коммерческих ЦОДов для нужд госорганов все они "ломанулись" делать собственные ЦОДы. Причины этого понятны: нажористость маржинальность строительных контрактов выше чем ИТ, возможностей освоения бюджетных средств больше и многие интеграторы, или получили строительные лицензии, или отпочковали дочерние компании уже давно.

2. Централизация инфраструктуры в Москве.
Кроме того что органы власти делают всё больше собственной инфраструктуры она ещё и концентрируется в Москве и подмосковье. И то что МВД свой ЦОД строит в Москве тоже показательно. Почему так происходит? Отчасти из-за сверхконцентрации бизнеса в Москве, отчасти из-за простоты найма квалифицированных специалистов, а отчасти от того что местным лоббистам проще и быстрее договариваться о проектах именно здесь.

3. Централизация полномочий в федеральных ГИС
Такой активный рост в создании всеобъемлющих информационных систем - это также история про централизацию, но централизацию власти. Если внимательно вчитаться в концепции и НПА по этим ФГИС то быстро выяснится что каждая из систем делает региональные и муниципальные власти более зависимыми от федеральной или лишает их полномочий или делает их более управляемыми. Это то явление которое я называю техноунитаризацией, когда формально есть разграничение полномочий, но через внедрение информационных систем, фактически, одни ветви и уровни власти начинют зависеть от других.

У всех трёх явлений есть несколько важных последствий:
1. Снижение качества госинформатизации поскольку по-факту конкуренции и сравнения качества не происходит. Федеральная власть практически никогда не берёт лучшие региональные практики, а субъектам федерации не дают бесплатных решений, а только некоторые навязанные общие ФГИС.

2. Значительное повышение критичности любой техногенной катастрофы в Москве. Можно без шуток говорить о том что отключение электричества в Москве на месяц развалит страну. Помимо сверхконцентрации денег, в Москве теперь ещё и сверхконцентрация данных и критической невосстановимой ИТ инфраструктуры. Я вот ничего не слышал про то чтобы хоть кто-то из создателей ЦОДов в Москве и подмосковье всерьёз задумался о полноценном георезервировании и проводил бы соответствующие учения.

3. Сверхконцентрация данных в одном месте - это ещё и вопрос власти другого рода. Если все данные на каждого жителя региона хранятся только в Москве, то это ещё и контроль центробежности. В случае любых сепаратистских настроений получить данные уже не получится. Есть ли такая логика у тех кто целенаправленно создаёт ЦОДы именно в Москве? Я не знаю, но допускаю.

Ссылки:
[1] https://www.cnews.ru/news/top/2020-04-29_mvd_proektiruet_megatsod

#government #it #data
Я редко пишу про этот проект Инфокультуры, потому что он не про данные, он про понятность. Много лет назад моим увлечением была оценка сложности текстов, и как-то я потратил несколько месяцев жизни на то, чтобы адаптировать 5 формул оценки читабельности английского языка для русского языка. Во всех формулах использовались те или иные метрики и коэффициенты: среднее число слов в предложении, среднее число слогов в слове и тд. Вот их-то я и адаптировал для русского языка.

И вот уже много лет существует проект "Простой русский язык" http://plainrussian.ru, где можно проверить любой текст (например, новости на сайте Казначейства или Правительства РФ), а также использовать API для проверки.

Это, действительно, очень простой, бесплатный, открытый сервис, доступный каждому.

Если есть идеи и предложения, что хотелось бы в нём увидеть дополнительно, не стесняйтесь, пишите мне.

#API #plainlanguage
В рубрике интересные наборы данных, все официальные рассылки членов конгресса и сената США за последние 10 лет обновляемые в реальном времени [1]. Данные представлены в виде поиска и, довольно нестандартно, в виде экземпляра базы данных Kibana [2] в открытом доступе.

Всего там 130 тысяч сообщений

Для тех кто интересуется российско-американскими отношениями, там можно искать по слову "Russia". Для тех кто смотрит на эту базу как пример, это хороший проект по сбору официальных госданных в один набор данных. Впрочем жанр рассылок в России не принят, я не знаю ни одного депутата который бы такое практиковал.

Ссылки:
[1] https://www.dcinbox.com/
[2] http://data.dcinbox.com/app/kibana#/discover?_g=()&_a=(columns:!(_source),index:'4c918f00-3ec4-11e8-84ed-5320ec3a205a',interval:auto,query:(language:lucene,query:''),sort:!(_score,desc))

#opendata #datasets
Сколько НПА принимают наши органы власти? В августе прошлого года я уже писал [1] про базу Lawstats [2] которую я в свободное время веду на data.world.

И я тогда ещё писал прогноз о количестве новых НПА мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ

Пора проверить этот прогноз:
- Постановления Правительства (ПП): в 2020 году - 2469 против 1960 в 2019 году. Разница в 509, а то есть рост +25,97%. Я почти угадал!
- Распоряжения Правительства (РП): в 2020 году - 3710 против 3273 в 2019 году. Разница в 437, а то есть рост +13,36% но менее прогнозируемых мной 4000 РП, хотя и близко
- Указы Президента РФ (УП): в 2020 году - 822 против 604 в 2019 году. Разница 218, а то есть рост +36,09%. Это просто таки чудо, но даже больше чем я предполагал
- Федеральные законы (ФЗ): в 2020 году 543 - против 444 в 2019 году. Разница в 99, а то есть рост +22,3% . Я прогнозировал 600 ФЗ, но увы, не дотянули наши законодатели и пока не побит рекорд 2018 года в 572 принятых законов.

У меня руки не дошли (с) посмотреть ещё и на НПА ФОИВов, ну да кто-то рано или поздно и без меня подсчитает статистику.

Что-то я всем этим, конечно, хочу сказать, но главную мысль которую я хочу донести в том что когда мы наконец-то прекратим быть петроимперией/нефтяной сверхдержавой, то пора уже поручить экспортному центру научиться торговать интеллектуальным трудом нормотворцев по созданию регуляторных документов на заказ.

Ссылки:
[1] https://t.me/begtin/2067
[2] https://data.world/infoculture/lawstats

#opendata #opengov #lawstats #laws #regulations #lawmaking
Завтра в 11:00 начнётся День открытых данных. На всякий случай советую зарегистрироваться заранее, лучше сегодня, чтобы точно не пропустить письмо со ссылкой на трансляцию и активно поучаствовать. [1]

В этом году мы впервые проводим День открытых данных онлайн, он претерпел много изменений, мы пригласили много зарубежных спикеров и будет секция на английском языке. Запросов на участие в секциях в этом году было значительно больше чем у нас возможности организовать мероприятия. Поэтому если всё пройдет как запланировано мы следующий день открытых данных проведем в виде Недели открытых данных (прям как это делают сейчас в Нью-Йорке), а также придумаем формат большого числа промежуточных мероприятий.

Могу сказать что вебинары которые шли с 1 марта уже очень удались. Напоминаю, обязательно зарегистрируйтесь заранее!

Ссылки:
[1] https://opendataday.ru/msk

#opendata #odd2021
Forwarded from Инфокультура
Программа Дня открытых данных 2021!

11:00 - 11:15 Открытие
11:15 - 12:15 Дискуссия. Бизнес на открытости: зачем заниматься открытым кодом и открытыми данными
12:20 - 13:20 Дискуссия. Как инструменты оценки влияют на открытость государства?
13:25 - 14:25 Дискуссия. Доступность данных о госфинансах
14:30 - 15:30 Дискуссия. Данные переписи населения 2021: приватность vs польза для общества
15:35 - 15:55 Представление проекта Каталога образовательных материалов по открытости, инструментам и данным
16:00 - 17:00 Выступления. Что происходит с тематикой открытости в мире?
Сессия пройдет на английском языке с синхронным переводом (трансляция перевода https://youtu.be/9-xEv6P0zQI).
17:00 - 17:10 Закрытие. Подведение итогов с модераторами дискуссий

Подробная программа на сайте https://opendataday.ru/msk#program

Скоро начинаем 😉 Подключайтесь к трансляции! https://youtu.be/K9OqCigs5qw
Ко дню открытых данных завершилось голосование по Moscow Dataviz Awards 2021 [1] это ежегодная международная премия за достижения в области инфографики, визуализации данных и дата-арта.

Посмотрите на победителей, достойны не только они, но и огромное число других заявок. Лично я особенно рад что эта премия стала международной, много заявок было и из других стран.

О победителях подробнее в блоге Максима Осовского в Facebook [2]

Ссылки:
[1] https://moscowdatavizawards.com
[2] https://www.facebook.com/osovskiy/posts/10221955712660074

#opendata #dataviz #datajournalism #moscow #awards
Forwarded from Инфокультура
Подключайтесь к дискуссии «Доступность данных о госфинансах».

Доступность данных о госфинансах зависит, прежде всего, от открытости, формата представления и качества этих данных, а также от того, насколько эти данные понятны обычным гражданам, не обладающим экспертными знаниями. На дискуссии мы обсудим, какие проекты помогают сделать данные о госфинансах более доступными, с какими проблемами сталкиваются команды проектов, эксперты и пользователи открытых данных, какие шаги может предпринять сообщество, чтобы эти проблемы преодолеть.

Спикеры:
— Альберт Бертяков, аналитик проекта «Госрасходы» Счетной палаты РФ
— Александр Левашов, главный редактор TAdviser.ru
— Наталия Лукьянова, начальник отдела по обеспечению открытости бюджета Комитета финансов Санкт-Петербурга
— Ольга Панчихина, заместитель начальника Инспекции по аудиту национальных проектов, Счетная палата РФ

Модератор: Ольга Пархимович, руководитель разработки проекта «Госрасходы».

https://youtu.be/K9OqCigs5qw
Forwarded from Инфокультура
Подключайтесь к международной сессии Дня открытых данных. Обсуждаем, что происходит с тематикой открытости в мире.

Движение за открытые данные переживает заметную трансформацию — мир переходит к «третьей волне» открытых данных. Если на предыдущем этапе преобладала концепция «открытости по умолчанию», которая вызывала много споров и возражений, то сейчас становится все более очевидной необходимость публикации данных для решения конкретных задач. Недостаточно просто публиковать данные, важно осознавать, какую реальную пользу эти данные могут принести обществу.

Мы пригласили представителей международных проектов, чтобы обсудить мировой опыт, который накоплен за эти годы.

Спикеры:
— Джереми Роллисон, Senior Director European Government Affairs Microsoft;
— Годфри Такавараша, Data Manager at Humanitarian Data Exchange;
— Саркис Дарбинян, управляющий партнёр Digital Rights Center;
— Иван Бегтин, директор АНО «Информационная культура»

Трансляция: https://youtu.be/K9OqCigs5qw
Перевод: https://youtu.be/9-xEv6P0zQI
Ко дню открытых данных я хотел доделать маленькое исследование с которым возился я лично, но, и тематика ODD в этом году была про другое и менять не хотелось, и доделать его я не успел до полноценного исследования.

Это исследование по открытости нормативной деятельности ФОИВов на примере министерств.
В его основе заложены следующие тезисы:
- находится номер самого последнего приказа ФОИВа за год
- находится общее число опубликованных приказов ФОИВа за год
- их соотношение - это уровень "нормативной открытости"

После первого захода получились вот такие картинки графики и таблица. Если на них посмотреть то видно что открыт реально только Минфин России.

Но должна быть объективная причина объясняющая малое число опубликованных приказов имеющих статус НПА других ФОИВов. Возможно дело в том что локальные нормативные акты и приказы как НПА имеют одну и ту же сквозную нумерацию, возможно не всё есть на pravo.gov.ru и раскрывается на сайте ФОИВа, а возможно просто много ДСП приказов.

#unfinished #legal #npa
Почти год назад я "ругался" про то что принятие списка социально-значимых сайтов - это первый шаг к фильтрации Рунета по белым спискам [1] и вот новость, именно такая фильтрация будет в российских школах [2]. Какой итоговый список сайтов будет использоваться не указано, но то что будет уже кажется очевидным.

Что дальше, регистрация и верификация сайтов и мобильных приложений через Госуслуги? Переход к разрешительной модели существования Рунета?

Ссылки:
[1] https://t.me/begtin/1854
[2] https://www.rbc.ru/society/05/03/2021/604292479a79473ba3dec11c
Сегодня и следующие 12 дней начинается MozFest [1] большая онлайн конференция/фестиваль/серия мероприятий где, в том числе затрагиваеются такие темы как AI, открытость, децентрализация, управление данными и многое другое. А также большое число интерактивных сессий программирования онлайн.

Весь тайминг адаптирован под восточное побережье США поэтому в Москве он выглядит как серии сессий с 16:30 до 1:30

Участие стоит небольшой денежки, организаторы рекомендуют потратить $45, но Вы сами можете выбрать сумму.

Ссылки:
[1] https://www.mozillafestival.org

#openness #open #mozilla #data #events
Predikon [1] швейцарский исследовательский проект по предсказанию итоговов выборов на основе поступающих данных голосования. Есть примеры законопроектов принятие которых они предсказали с точностью до 1%. В 2020 году опубликовали несколько научных статей [2], используют новое API Швейцарского статического агентства.

У этой же команды другой любопытный проект Kickoff.ai [3] про предсказание футбольных матчей.

Ссылки:
[1] https://www.predikon.ch/en/
[2] https://www.predikon.ch/en/about
[3] http://kickoff.ai/

#ai #predictions #data #opendata