Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Публикация данных о COVID-19 во Франции - 77 баз данных и 121 пример их использования в открытых проектах [1] на официальном портале data.gouv.fr.

Что дополнительно стоит отметить про французский опыт в открытых данных:
- их портал data.gouv.fr работает на их ПО udata [2] с открытым кодом, используется, похоже, мало где за пределами Франции
- у них опубликовано более 2447 примеров использования открытых данных [3], включая: 1132 визуализации, 667 приложений, 278 публикаций в блогах, 168 статей в СМИ и 131 API https://github.com/opendatateam/udata/
- всего 65 тысяч пользователей, 35 тысяч наборов данных с 195 тысячами ресурсов (файлов, ссылок и тд). [4]

Ссылки:
[1] https://www.data.gouv.fr/fr/search/?tag=covid19
[2] https://github.com/opendatateam/udata/
[3] https://www.data.gouv.fr/fr/reuses/
[4] https://www.data.gouv.fr/fr/dashboard/

#france #opendata
Éric Bothorel, депутат Национального собрания Франции, представил результат полугодовой работы по формированию единой госполитики в области данных. В докладе Pour une politique publique de la donnée [1] описаны ключевые подходы, текущая практика, результаты консультаций и много иных полезных материалов и рекомендаций.

Вся работа над докладом шла в публичном режиме, материалы публиковались на посвящённом ему сайте [2], а сама работа шла по прямому поручению премьер-министра Франции.

В докладе очень много всего и про открытые данные, и про открытый код, и сам он хорошо оформлен и структурирован, единственное что усложняет - это французский язык поскольку, на английском доклада этого нет. Признаться читать тексты на французском требует куда больше усилий чем на английском или испанском, но возможно именно этот доклад стоит того чтобы в него вчитаться.

Ссылки:
[1] https://acteurspublics.fr/upload/media/default/0001/32/602a4ef6c2a2d5b0231eb08706a240503fe08a1b.pdf
[2] https://www.mission-open-data.fr/

#opendata #france
Во Франции есть специальный чиновник, которого у нас бы назвали "уполномоченным по цифровым отношениям", а там называют "послом по цифровым отношениям" (Ambassadeur français pour le numérique)

Помимо прочей пользы этот посол ведёт проект по мониторингу условий использования крупнейших сетевых сервисов [1] таких как Google, Facebook, Twitter и ещё десятков. Все накопленные условия использования анализируются, обрабатываются и выкладываются как открытые данные в формате markdown [2]

В основе проекта данные накопленные в проекте TOSBack [3] который прекратил своё существование в 2018 году.

Также исследователи анализируют сложность и многие другие параметры этих документов [4], как ни смотри набор данных полезный для исследователей.

И, конечно, исходный код проектов посла доступен на Github [5], а сам он сотрудник Министерства иностранных дел Франции [6]

Ссылки:
[1] https://disinfo.quaidorsay.fr/en/cgus
[2] https://github.com/ambanum/CGUs-versions/releases
[3] https://tosback.org/
[4] https://disinfo.quaidorsay.fr/en/cgus/experiments
[5] https://github.com/ambanum
[6] https://en.wikipedia.org/wiki/Henri_Verdier

#france #digital #opendata
Фабрика законов (La fabrique de la loi) [1] французский проект по мониторингу и визуализации производства законов французским парламентом. Самое интересное в проекте в том что они разбирают всё прохождение от законопроекта до закона, принятые/непринятые поправки, изменения в тексте и ещё многое другое. Для стран с активной парламентской жизнью такой проект очень нагляден. Правда, в данном случае, он скорее ближе к академической работе, чем к общественной или применимой лоббистами или в госуправлении. В нем нет призывов к действию или инструментов отслеживания рисков или вовлеченных сторон. Все это впрочем не отменяет его ценности и возможности развиваться в любом направлении.

Авторы проекта Regards Citoyens [2] создатели многих проектов по открытости государства и данных во Франции, включая мониторинг парламентариев NosDéputés [3] и Sciences Pro Medialab [4] междисциплинарной лабораторией исследующей влияние роли цифровых технологий на общество.

У проекта открытое API и открытые данные [5] и открытый код [6].

Ссылки:
[1] https://www.lafabriquedelaloi.fr/
[2] https://www.regardscitoyens.org
[3] https://www.nosdeputes.fr/
[4] https://medialab.sciencespo.fr/
[5] https://www.lafabriquedelaloi.fr/api/
[6] https://github.com/regardscitoyens/the-law-factory

#opendata #opengov #lawmaking #france #legaltech
Во Франции Государственный совет (Conseil d’État) открыл свой портал открытых данных [1]. Куда уже выложили его решения, к 31 марта 2022 года выложат решения апелляционных судов, а к 30 июня 2022 года решения административных судов. Объём данных обещает быть большим, всё опубликовано под французской свободной лицензией созданной Etalab [2]

Ссылки:
[1] https://opendata.conseil-etat.fr/
[2] https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf

#opendata #france
В рубрике "как это работает у них" портал открытых данных Министерства экономики Франции data.economie.gouv.fr [1]. На портале опубликовано 418 наборов данных 21 подразделения министерства.

Качественные особенности портала:
- все данные можно скачать в CSV, Excel и JSON форматах
- данные включающие даты, можно скачать в формате iCalendar (.ical)
- данные включающие геоданные можно скачать в форматах GeoJSON, SHP и KML
- ко всем данным и каталогу вцелом есть API
- содержание каталога можно скачать в CSV/Excel/RDF форматах.

Некоторые данные весьма большого объёма, например, 265 тысяч записей [2] из системы регистрации жалоб на бизнес SignalConso [3]

Ссылки:
[1] https://data.economie.gouv.fr
[2] https://data.economie.gouv.fr/explore/dataset/signalconso/information/
[3] https://signal.conso.gouv.fr/

#opendata #france #data #economics
В рубрике как это устроено у них, портал открытых данных Франции data.gouv.fr [1]

Включает более 40 тысяч наборов данных, в основном в форматах CSV, JSON и форматах геоданных GML, GeoJSON, Shape

Создан и поддерживается Etalab, подразделением их межминистерского управления по цифре. Работает на платформе udata [3] каталоге данных созданном специально под этот портал.

Важные особенности:
- большой раздел примеров использования данных [4] более 3000 примеров
- данные публикуют не только госорганы [5] но и предприятия и НКО

Ссылки:
[1] https://data.gouv.fr
[2] https://etalab.gouv.fr
[3] https://github.com/etalab/udata
[4] https://www.data.gouv.fr/fr/reuses/
[5] https://www.data.gouv.fr/fr/organizations/izivia/

#opendata #france #bestpractices
В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.

На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!

Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.

Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore

#opendata #france #transport #datasets
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.

На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.

Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.


Ссылки:
[1] http://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/

#opendata #datasets #france #parliaments #opengov
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.

Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/

#opendata #france #datasets
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.

Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.

Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.

Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.

Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala

#opensource #france
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.

DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.

Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.

Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf

#opendata #dataset #economy #france #indicators
Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.

Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.

Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.

Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.

В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.

Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.

Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn

#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.

Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]

Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html

#opendata #datasets #digitalhumanities #france #dataviz
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.

Вот 7 наиболее приоритетных, в моём вольном переводе:

1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.

По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.

Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france

#opendata #ai #france #strategies #reports #readings
В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.

Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.

Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.

#opendata #datasets #france #transport
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai