Не все знают про то что существует не только много стандартов раскрытия информации в форматах открытых данных, но и стандартов организации процесса их сбора и взаимодействия. Самый известный в мире и неизвестный в России это стандарт IATI по раскрытию международной помощи, в основном развитыми странами в адрес развивающихся. А также есть стандарт раскрытия данных о лоббистах Lobbying Transparency. http://lobbyingtransparency.net/standards/ Почему его нет в России? Глобальный ответ в том что в России сжимается доля среднего класса который мог бы понять что это и зачем это нужно. Более точечный ответ в том что отсутствие закона о лоббизме помогает создаёт большой пласт "soft lobbyists" вокруг разного рода координационных структур при Правительстве и отдельных госорганов. И не только, конфликты интересов внутри государства в России учитываются и публикуются очень плохо. #opendata #opengov #transparency #standards
lobbyingtransparency.net
Standards
The International Standards for Lobbying Regulation are the result of two years of collaborative work with civil society led by Transparency International, Access Info Europe, Sunlight Foundation and Open Knowledge International. This initiative is unique…
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.
ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.
Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.
К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].
У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]
Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).
Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.
Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/
#opendata #data #standards
ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.
Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.
К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].
У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]
Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).
Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.
Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/
#opendata #data #standards
Government Digital Service в Великобритании опубликовали серию стандартов по работе с государственными данными и API [1] и отдельно открытые стандарты по описанию метаданных для наборов данных и табличных файлов и описания самих табличных файлов [2]. Большая часть рекомендаций касается использования стандарта Dublin Core для ведения метаданных, стандарта OpenAPI для проектирования и документирования API.
Все они связаны с появлением Open Standards Board [3] состоящем из знаковых лиц с большим опытом работы с данными,в том числе за пределами Великобритании [4], можно сказать что это реформа в области стандартизации работы с данными в госсекторе. Кроме того есть ряд рассматриваемых сейчас стандартов обмена информацией [5]. Можно обратить внимание что при написании стандартов прямо указывается что аудитория их использования - это data scientist'ы и те кто публикуют госданные [6]. А также много интересных идей и обсуждений непосредственно в Github репозитории открытых стандартов [7] включая стандартизацию печати документов, наличия у каждого госдокумента уникального идентификатора и так далее.
Лично я не могу не отметить лаконичность описания каждого стандарта, формата, рекомендации. Это совершенно несопоставимо с чтением всего что касается стандартизации на международном уровне или у нас в стране (да и ещё много где).
Ссылки:
[1] https://www.gov.uk/guidance/gds-api-technical-and-data-standards
[2] https://www.gov.uk/government/publications/recommended-open-standards-for-government
[3] https://www.gov.uk/guidance/choosing-open-standards-for-government
[4] https://www.gov.uk/government/groups/open-standards-board
[5] https://www.gov.uk/government/publications/open-standards-for-government
[6] https://www.gov.uk/government/publications/open-standards-for-government/country-codes
[7] https://github.com/alphagov/open-standards/issues
#data #standards
Все они связаны с появлением Open Standards Board [3] состоящем из знаковых лиц с большим опытом работы с данными,в том числе за пределами Великобритании [4], можно сказать что это реформа в области стандартизации работы с данными в госсекторе. Кроме того есть ряд рассматриваемых сейчас стандартов обмена информацией [5]. Можно обратить внимание что при написании стандартов прямо указывается что аудитория их использования - это data scientist'ы и те кто публикуют госданные [6]. А также много интересных идей и обсуждений непосредственно в Github репозитории открытых стандартов [7] включая стандартизацию печати документов, наличия у каждого госдокумента уникального идентификатора и так далее.
Лично я не могу не отметить лаконичность описания каждого стандарта, формата, рекомендации. Это совершенно несопоставимо с чтением всего что касается стандартизации на международном уровне или у нас в стране (да и ещё много где).
Ссылки:
[1] https://www.gov.uk/guidance/gds-api-technical-and-data-standards
[2] https://www.gov.uk/government/publications/recommended-open-standards-for-government
[3] https://www.gov.uk/guidance/choosing-open-standards-for-government
[4] https://www.gov.uk/government/groups/open-standards-board
[5] https://www.gov.uk/government/publications/open-standards-for-government
[6] https://www.gov.uk/government/publications/open-standards-for-government/country-codes
[7] https://github.com/alphagov/open-standards/issues
#data #standards
GOV.UK
API technical and data standards
Design, build and operate APIs in a consistent way
Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.
Прежде чем продолжить надо дать два определения:
стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.
стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.
И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.
Подробнее в посте на Substack https://begtin.substack.com/p/11
#data #standards #regulation
Прежде чем продолжить надо дать два определения:
стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.
стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.
И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.
Подробнее в посте на Substack https://begtin.substack.com/p/11
#data #standards #regulation
Ivan’s Begtin Newsletter on digital, open and preserved government
#11. Стандарты работы с данными
Хрун-Варвар согласно стандартам Пупземелья считался чуть ли не академиком, поскольку умел думать, не шевеля при этом губами. (с) Цвет волшебства