Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Не все знают про то что существует не только много стандартов раскрытия информации в форматах открытых данных, но и стандартов организации процесса их сбора и взаимодействия. Самый известный в мире и неизвестный в России это стандарт IATI по раскрытию международной помощи, в основном развитыми странами в адрес развивающихся. А также есть стандарт раскрытия данных о лоббистах Lobbying Transparency. http://lobbyingtransparency.net/standards/ Почему его нет в России? Глобальный ответ в том что в России сжимается доля среднего класса который мог бы понять что это и зачем это нужно. Более точечный ответ в том что отсутствие закона о лоббизме помогает создаёт большой пласт "soft lobbyists" вокруг разного рода координационных структур при Правительстве и отдельных госорганов. И не только, конфликты интересов внутри государства в России учитываются и публикуются очень плохо. #opendata #opengov #transparency #standards
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards
Government Digital Service в Великобритании опубликовали серию стандартов по работе с государственными данными и API [1] и отдельно открытые стандарты по описанию метаданных для наборов данных и табличных файлов и описания самих табличных файлов [2]. Большая часть рекомендаций касается использования стандарта Dublin Core для ведения метаданных, стандарта OpenAPI для проектирования и документирования API.

Все они связаны с появлением Open Standards Board [3] состоящем из знаковых лиц с большим опытом работы с данными,в том числе за пределами Великобритании [4], можно сказать что это реформа в области стандартизации работы с данными в госсекторе. Кроме того есть ряд рассматриваемых сейчас стандартов обмена информацией [5]. Можно обратить внимание что при написании стандартов прямо указывается что аудитория их использования - это data scientist'ы и те кто публикуют госданные [6]. А также много интересных идей и обсуждений непосредственно в Github репозитории открытых стандартов [7] включая стандартизацию печати документов, наличия у каждого госдокумента уникального идентификатора и так далее.

Лично я не могу не отметить лаконичность описания каждого стандарта, формата, рекомендации. Это совершенно несопоставимо с чтением всего что касается стандартизации на международном уровне или у нас в стране (да и ещё много где).

Ссылки:
[1] https://www.gov.uk/guidance/gds-api-technical-and-data-standards
[2] https://www.gov.uk/government/publications/recommended-open-standards-for-government
[3] https://www.gov.uk/guidance/choosing-open-standards-for-government
[4] https://www.gov.uk/government/groups/open-standards-board
[5] https://www.gov.uk/government/publications/open-standards-for-government
[6] https://www.gov.uk/government/publications/open-standards-for-government/country-codes
[7] https://github.com/alphagov/open-standards/issues

#data #standards
Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.

Прежде чем продолжить надо дать два определения:

стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.

стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.

И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.

Подробнее в посте на Substack https://begtin.substack.com/p/11

#data #standards #regulation