Ivan Begtin
7.97K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В Евросоюзе опубликовали черновик закона (регуляторного документа) по раскрытию особо ценных наборов данных для бизнеса и исследователей [1].

Опубликовали черновик ещё в конце мая и до 21 июня собирали обратную связь, которую, тоже будет полезно почитать чтобы знать позицию организаций в ЕС [2].

Также стоит обратить внимание на то какие данные определяются сейчас как особо ценные:
1) geospatial;
2) earth observation and environment;
3) meteorological;
4) statistics;
5) companies and company ownership;
6) mobility.

В обратной связи многие пишут что список неполон и нужны данные относящиеся к качеству жизни, например, статистика преступности.

А вот раскрытие данных о компаниях и их владельцах может повлиять на рынок проверки контрагентов и усилить конкуренцию.

Ссылки:
[1] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets_en
[2] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets/feedback_en?p_id=30829659

#opendata #eu #regulation #laws
Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings
В блоге статистического ведомства ООН о том как государства получают доступ к данным частных компаний [1] с акцентом на свежее регулирование Евросоюза The Data Act [2].

Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.

Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.

Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.

Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.

Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.


Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data

#data #datasharing #legislation #laws #eu
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.

К нему же презентация с фактами по каждой стране [2].

Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.

Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733

#opengovernment #opengov #eu #policy #government
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.

Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги

Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.

Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022

#opendata #government #eu #opengov #digital #economy
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].

Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.

Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.

Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.me/begtin/4382
[3] https://openownership.org

#opendata #opengov #transparency #eu
Top400 A top-down crime prevention strategy in Amsterdam, система предупреждения преступлений в Нидерландах, впервые начатая в 2011 году под названием Top600 и переименованная в Top400 в 2016 году. Основная идея в том чтобы снижать число преступлений через вмешательство в жизнь тех кто наиболее вероятно совершит преступление. Иначе говоря, это обычно то что называется профилактикой преступлений среди лиц ведущих антиобщественный образ жизни.

В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.

Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.

Для попадания туда есть два пути.

Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет

Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией

К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.

Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.

Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.

Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf

#predictivepolicing #netherlands #privacy #eu
В рубрике интересных и актуальных наборов данных, ежесуточные данные по импорту природного газа странами Евросоюза [1] публикуются исследователями из Bruegel [2] на основе данных портала прозрачности [3] от European Network of Transmission System Operators for Gas [4].
Также исследователи агрегируют данные по заполненности европейских хранилищ газа [5] природного газа. Эти данные доступны для выгрузки в CSV, JSON и XLSX и через API. Данные, также, ежесуточные.



Ссылки։
[1] https://www.bruegel.org/dataset/european-natural-gas-imports
[2] https://www.bruegel.org/
[3] https://transparency.entsog.eu/
[4] https://www.entsog.eu/
[5] https://agsi.gie.eu/

#opendata #dataset #data #eu #gas