В рубрике интересных наборов данных, набор данных по использованию земли в Европейском союзе начиная с 2000 года по 2019 [1], а также визуальное представление этих данных в проекте The Open-Earth-Monitor Cyberinfrastructure [2]
Этот проект, как и многие другие геоданные с высокой детализацией, создаются в рамках исследовательской программы ЕС консорциумом университетов, исследовательских групп и частных компаний. Кроме него стоит посмотреть на другие значимые наборы геоданных публикуемые OpenGeoHub [3].
В очень хорошем смысле можно позавидовать их команде, создающей огромные наборы данных в хорошем качестве и за государственный счёт (научных программ ЕС и глобальных институтов).
Ссылки:
[1] https://opengeohub.org/datasets/high-resolution-annual-continental-european-land-use-land-cover-data-since-2000/
[2] https://ecodatacube.eu
[3] https://opengeohub.org
#opendata #datasets #geodata #europe
Этот проект, как и многие другие геоданные с высокой детализацией, создаются в рамках исследовательской программы ЕС консорциумом университетов, исследовательских групп и частных компаний. Кроме него стоит посмотреть на другие значимые наборы геоданных публикуемые OpenGeoHub [3].
В очень хорошем смысле можно позавидовать их команде, создающей огромные наборы данных в хорошем качестве и за государственный счёт (научных программ ЕС и глобальных институтов).
Ссылки:
[1] https://opengeohub.org/datasets/high-resolution-annual-continental-european-land-use-land-cover-data-since-2000/
[2] https://ecodatacube.eu
[3] https://opengeohub.org
#opendata #datasets #geodata #europe
Вышел свежий доклад ЮНЕСКО Open data for AI: what now? [1] посвящённый, как вы догадались, открытым данным для ИИ. Доклад короткий, на 64 страницы, но весьма интересный по содержанию, как с обзором текущих инициатив по открытости данных, так и развития их использования для создания ИИ инструментов и с учётом имеющихся рисков и ограничений.
Перечень действий и рекомендаций там довольно универсальный для публикации открытых данных, к ним лишь добавился акцент на данных высокого качества и по публикации данных AI-Ready (готовых для ИИ).
В целом, мне нравится этот документ, он чётко про открытость данных, с набором конкретных рекомендаций которые, я не сомневаюсь, будут применяться многими развивающимися странами. Для правительств стран раздумывающих о перезапуске повестки открытых данных - это важный ориентир для публикации данных в привязке к ИИ.
Ссылки:
[1] https://unesdoc.unesco.org/ark:/48223/pf0000385841
#opendata #unesco #documents #readings
Перечень действий и рекомендаций там довольно универсальный для публикации открытых данных, к ним лишь добавился акцент на данных высокого качества и по публикации данных AI-Ready (готовых для ИИ).
В целом, мне нравится этот документ, он чётко про открытость данных, с набором конкретных рекомендаций которые, я не сомневаюсь, будут применяться многими развивающимися странами. Для правительств стран раздумывающих о перезапуске повестки открытых данных - это важный ориентир для публикации данных в привязке к ИИ.
Ссылки:
[1] https://unesdoc.unesco.org/ark:/48223/pf0000385841
#opendata #unesco #documents #readings
Ещё один интересный документ-доклад OECD Government at a Glance 2023 [1]. Как очевидно из названия документ от ОЭСР и посвящён эффективности и деятельности входящих в ОЭСР стран и ряда стран кандидатов. В докладе много цифр и фактов про государственное управление разделённых по главам доверия к демократии, цифровое правительство, открытые госданные, бюджетирование, система госзакупок и так далее. Для тех кто интересуется как развиваются все эти темы в развитых странах это будет полезное чтение. Для облегчения его я могу порекомендовать сразу скачать доклад в PDF [2], поскольку онлайн версия там не самая удобная. А также посмотреть конкретные цифры на портале статистики ОЭСР [3], правда портал ОЭСР прямые ссылки на статразделы не поддерживает, поэтому там надо искать нужные данные в разделе Public Sector, Taxation and Market Regulation.
Этот доклад ОЭСР публикуют раз в 2 года и последний был в 2021 году. Тогда ещё были данные по России, которые собирались несмотря на заморозку в 2014 году вступления России в ОЭСР. В 2023 году данных по России уже нет совсем, все упоминания России только в контексте военного конфликта, роста инфляции, роста цен на продовольствие и так далее.
Ссылки:
[1] https://www.oecd-ilibrary.org/governance/government-at-a-glance-2023_3d5c5d31-en
[2] https://www.oecd-ilibrary.org/deliver/3d5c5d31-en.pdf?itemId=%2Fcontent%2Fpublication%2F3d5c5d31-en&mimeType=pdf
[3] https://stats.oecd.org/
#opendata #oecd #digitalgovernment #government #readings
Этот доклад ОЭСР публикуют раз в 2 года и последний был в 2021 году. Тогда ещё были данные по России, которые собирались несмотря на заморозку в 2014 году вступления России в ОЭСР. В 2023 году данных по России уже нет совсем, все упоминания России только в контексте военного конфликта, роста инфляции, роста цен на продовольствие и так далее.
Ссылки:
[1] https://www.oecd-ilibrary.org/governance/government-at-a-glance-2023_3d5c5d31-en
[2] https://www.oecd-ilibrary.org/deliver/3d5c5d31-en.pdf?itemId=%2Fcontent%2Fpublication%2F3d5c5d31-en&mimeType=pdf
[3] https://stats.oecd.org/
#opendata #oecd #digitalgovernment #government #readings
Когда-то одним из наиболее удобных инструментов для ведения заметок был Evernote, продукт одноимённого стартапа которые почти идеально для 2004 года, года его запуска, синхронизировался с устройствами и долгие годы был любим многими пользователями. Я лично пользовался им около 7 лет, скажу тогда это был очень удобный инструмент. Потом пришло много инструментов ему на замену, от личных wiki, до продуктов вроде Notion, Obsidian, Roam и ещё многих других.
В декабре 2022 года Evernote купила европейская компания Binding Spoons, в феврале 2023 года они уволили там 129 сотрудников, а 10 июля анонсировали полное увольнение офиса в США [1] и что разработка вестись будет теперь только в Европе. Правда непонятно кем учитывая что разработчики были в США, но, тем не менее, происходящее уже свершившийся факт.
Что использовать ему на замену?
Лично я исхожу из следующего подхода:
- результаты изучения, чтения чего-то и размышлений, которые могут быть публичными, для этого использую этот телеграм канал
- личные заметки в Joplin, Notion или Obsidian. Я лично предпочитаю Notion, но не претендую что это лучший вариант для всех
- рабочие заметки в Markdown и в Git когда это возможно
Ссылки:
[1] https://arstechnica.com/gadgets/2023/07/evernote-the-memory-app-people-forgot-about-lays-off-entire-us-staff/
#evernote #startups #notetaking
В декабре 2022 года Evernote купила европейская компания Binding Spoons, в феврале 2023 года они уволили там 129 сотрудников, а 10 июля анонсировали полное увольнение офиса в США [1] и что разработка вестись будет теперь только в Европе. Правда непонятно кем учитывая что разработчики были в США, но, тем не менее, происходящее уже свершившийся факт.
Что использовать ему на замену?
Лично я исхожу из следующего подхода:
- результаты изучения, чтения чего-то и размышлений, которые могут быть публичными, для этого использую этот телеграм канал
- личные заметки в Joplin, Notion или Obsidian. Я лично предпочитаю Notion, но не претендую что это лучший вариант для всех
- рабочие заметки в Markdown и в Git когда это возможно
Ссылки:
[1] https://arstechnica.com/gadgets/2023/07/evernote-the-memory-app-people-forgot-about-lays-off-entire-us-staff/
#evernote #startups #notetaking
Ars Technica
Evernote, the memory app people forgot about, lays off entire US staff
Launched in 2004, the company once sought to be the world's brain dump.
Я, кстати, не могу не отметить что в реестре порталов с данными Common Data Index уже больше порталов данных стран постсоветского пространства чем в datacatalogs.ru. Например, в реестре 37 порталов с данными в Республике Казахстан [1] из которых, правда, 33 являются геопорталами, по большей части на базе ArcGIS. Данные оттуда вполне можно получить, главные ограничения юридические поскольку в ArcGIS не вносят информацию о лицензиях/правах на данные. Впрочем я уже неоднократно писал [2] что с открытыми данными в Казахстане проблема другого рода, по факту data.egov.kz порталом открытых данных не является и его создатели всячески препятствуют использованию этих данных. Зачем они так делают я недоумеваю, странно что негосударственный портал открытых данных Казахстана ещё никто не создал.
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://t.me/begtin/4626
#opendata #data #kazakhstan
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://t.me/begtin/4626
#opendata #data #kazakhstan
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
Практически незаметно прошла новость о том что администрация Байдена вернулась к практике публикации информации о посетителях Белого дома [1]. Эта практика была среди инициатив Барака Обамы, но после того как президентом США стал Дональд Трамп эти данные не публиковали. И вот в мае 2023 года данные вновь публикуются. Больших данных там нет, всего лишь 514 тысяч записей логов о посетителях [2], тем не менее это важная практика для обеспечения прозрачности исполнительной власти в целом и лоббизма в частности.
Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/
#opendata #datasets #data #usa
Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/
#opendata #datasets #data #usa
The White House
Biden-Harris Administration Reinstates Visitor Log Policy, Will Be First Administration to Post Records from First Full Year in Office
Today the Biden-Harris Administration posted visitor logs from January 2021. The Biden-Harris Administration will be the first administration to post visitor logs from its first full year in office. Visitor log disclosures will occur on a monthly basis.…
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
S2Geometry
S2 Geometry
The s2geometry.io website
В рубрике как это работает у них, портал открытых данных Таиланда data.go.th [1] малоизвестный за пределами англо-читающей среды поскольку, как и в большинстве азиатских стран, почти все материалы на нём и о нём на тайском языке.
Портал включает 9 732 набора данных, сделан на движке управления открытыми данными с открытым кодом CKAN и был бы в целом не очень примечателен если бы не системный подход. Вся инициатива по открытости в Таиланде чётко систематизирована, задокументирована, описана с процессной точки зрения и внедряется как полноценная государственная информационная система, а не какой-то побочный и ненужный продукт. На специальном сайте [2] описано всё что должны делать органы власти по развертыванию своих каталогов данных и публикации наборов данных, что, также, находится на контроле и мониторится.
Кроме того тайские власти разработали инструкцию по публикации метаданных the Data Description Standards or Metadata for Government Data Sets. [3] и даже разработали и опубликовали ПО нескольких расширений для CKAN ckanext-thai_gdc,
ckanext-gdc_agency и др. [4] для публикации их метаданных правильным образом, для учёта, анализа, отслеживания использования данных и так далее.
Ссылки:
[1] https://data.go.th/en/
[2] https://gdhelppage.nso.go.th
[3] https://www.dga.or.th/wp-content/uploads/2021/03/Final_GD-Catalog-Guideline-v.1.0_16032564-3.pdf
[4] https://gitlab.nectec.or.th/opend/installing-ckan/-/blob/master/README.md
#opendata #datasets #thailand #datacatalogs #ckan
Портал включает 9 732 набора данных, сделан на движке управления открытыми данными с открытым кодом CKAN и был бы в целом не очень примечателен если бы не системный подход. Вся инициатива по открытости в Таиланде чётко систематизирована, задокументирована, описана с процессной точки зрения и внедряется как полноценная государственная информационная система, а не какой-то побочный и ненужный продукт. На специальном сайте [2] описано всё что должны делать органы власти по развертыванию своих каталогов данных и публикации наборов данных, что, также, находится на контроле и мониторится.
Кроме того тайские власти разработали инструкцию по публикации метаданных the Data Description Standards or Metadata for Government Data Sets. [3] и даже разработали и опубликовали ПО нескольких расширений для CKAN ckanext-thai_gdc,
ckanext-gdc_agency и др. [4] для публикации их метаданных правильным образом, для учёта, анализа, отслеживания использования данных и так далее.
Ссылки:
[1] https://data.go.th/en/
[2] https://gdhelppage.nso.go.th
[3] https://www.dga.or.th/wp-content/uploads/2021/03/Final_GD-Catalog-Guideline-v.1.0_16032564-3.pdf
[4] https://gitlab.nectec.or.th/opend/installing-ckan/-/blob/master/README.md
#opendata #datasets #thailand #datacatalogs #ckan
Мне бы хотелось что-то сказать про хоть что-то позитивное в части доступности данных в России, но из речи Путина на конференции по Квантовым вычислениям и из анонса Национального проекта "Экономика данных" [1] у меня весьма удручённое впечатление. В выступлении ничего не прозвучало про открытость государства, доступность данных, регулирование в сторону открытости, зато много что звучало про "суверенность" данных, технологий и тд. Слова открытость и прозрачность в последние годы начисто пропали из речей федеральных политиков, в этом смысле ничего не поменялось, лишь подтвердилось.
Что можно сказать:
1. Явный акцент на экономику данных без открытости - это "игра" в сторону крупных корпораций собирающих данные и договаривающихся с гос-вом по использованию персональных данных граждан и наоборот всё больший сбор информации о гражданах государством через корпорации. Помяните моё слово, так и будет в ближайшие годы.
2. То же самое с квантовыми вычислениями. Это не про малый и средний бизнес, а про российские аналоги Дзайбацу (полу-семейных финансово-промышленных конгломератов).
3. В чём будет "суверенность" работы с данными можно предполагать в раздаче особо крупных субсидий на строительство и развитие ЦОДов и российских систем хранения данных, потому что без них всё это, скажем так, не полетит.
4. Про суверенные протоколы и стандарты я бы много чего сказал, но ограничусь тем что более менее неплохо переводили международные стандарты. Разработка своих стандартов, серьёзно? Кем? Впрочем пока даже непонятно о чём речь.
5. Развитые страны достаточно давно уже стремительно уходят от риторики экономики данных и переходят к риторике защиты прав граждан от злоупотребления их персональными данными и к открытости данных государств и корпораций для общественного блага и решения глобальных проблем. Пожалуй, худшее что было в это речи, то что ничего подобного не упоминалось. Есть много международных инициатив data for good, ai for good и тд.
Итого, это была речь не для граждан и не для малого среднего бизнеса, а для бизнес-крупняка, финансово-промышленных конгломератов, о том что государство делает специальный национальный проект чтобы "дружить" с ними ещё лучше и больше.
Как-то так.
Ссылки:
[1] https://t.me/mintsifry/1908
#data #russia #regulation #thoughts
Что можно сказать:
1. Явный акцент на экономику данных без открытости - это "игра" в сторону крупных корпораций собирающих данные и договаривающихся с гос-вом по использованию персональных данных граждан и наоборот всё больший сбор информации о гражданах государством через корпорации. Помяните моё слово, так и будет в ближайшие годы.
2. То же самое с квантовыми вычислениями. Это не про малый и средний бизнес, а про российские аналоги Дзайбацу (полу-семейных финансово-промышленных конгломератов).
3. В чём будет "суверенность" работы с данными можно предполагать в раздаче особо крупных субсидий на строительство и развитие ЦОДов и российских систем хранения данных, потому что без них всё это, скажем так, не полетит.
4. Про суверенные протоколы и стандарты я бы много чего сказал, но ограничусь тем что более менее неплохо переводили международные стандарты. Разработка своих стандартов, серьёзно? Кем? Впрочем пока даже непонятно о чём речь.
5. Развитые страны достаточно давно уже стремительно уходят от риторики экономики данных и переходят к риторике защиты прав граждан от злоупотребления их персональными данными и к открытости данных государств и корпораций для общественного блага и решения глобальных проблем. Пожалуй, худшее что было в это речи, то что ничего подобного не упоминалось. Есть много международных инициатив data for good, ai for good и тд.
Итого, это была речь не для граждан и не для малого среднего бизнеса, а для бизнес-крупняка, финансово-промышленных конгломератов, о том что государство делает специальный национальный проект чтобы "дружить" с ними ещё лучше и больше.
Как-то так.
Ссылки:
[1] https://t.me/mintsifry/1908
#data #russia #regulation #thoughts
Telegram
Минцифры России
🌐 В России появится новый нацпроект — «Экономика данных»
Национальный проект «Экономика данных» подготовят в течение года. Он будет рассчитан до 2030 года. Об этом сообщил Президент России Владимир Путин в ходе пленарного заседания форума будущих технологий…
Национальный проект «Экономика данных» подготовят в течение года. Он будет рассчитан до 2030 года. Об этом сообщил Президент России Владимир Путин в ходе пленарного заседания форума будущих технологий…
В продолжение про Национальный проект "Экономика данных" я не могу не напомнить про мой текст 2019 года Национальные проекты или бег по кругу [1] о том что что с точки зрения прозрачности государства и открытости расходов и результатов хуже нацпроектов только последующие за ними "инициативы социально-экономического развития". В 2021 году я обновлял таблицу сравнения разных госинициатив за последние 20 лет и из этой таблицы всё довольно очевидно.
Также в 2019 году я публиковал колонку в РБК Информационный барьер: как нацпроекты сделали бюджет менее прозрачным [2] в котором есть ещё и некоторые "технические нюансы" изменений в бюджетной росписи и отчетности сделавшие процесс ещё менее открытым.
Если кратко, то так:
1. Все отчетные сведения по формированию и исполнению нацпроектов закрыты для граждан в отличие от того что когда-то было для ФЦП, Госпрограмм и тд.
2. Почти вся публичная активность вокруг нац. проектов - PR. Содержания там минимум.
3. До закрытия реестра субсидий хотя бы частично информацию можно было собирать оттуда и из реестра госконтрактов. Сейчас только из реестра госконтрактов, в ограниченном объёме потому что не всё там контракты
4. Это не ошибка, не недосмотр, а целенаправленная политика по снижению прозрачности Правительства РФ в целом.
5. Говорить про эффективность нац проектов бессмысленно, до тех пор пока внутренние системы сбора показателей не будут раскрыты.
Ссылки:
[1] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#government #spending #russia
Также в 2019 году я публиковал колонку в РБК Информационный барьер: как нацпроекты сделали бюджет менее прозрачным [2] в котором есть ещё и некоторые "технические нюансы" изменений в бюджетной росписи и отчетности сделавшие процесс ещё менее открытым.
Если кратко, то так:
1. Все отчетные сведения по формированию и исполнению нацпроектов закрыты для граждан в отличие от того что когда-то было для ФЦП, Госпрограмм и тд.
2. Почти вся публичная активность вокруг нац. проектов - PR. Содержания там минимум.
3. До закрытия реестра субсидий хотя бы частично информацию можно было собирать оттуда и из реестра госконтрактов. Сейчас только из реестра госконтрактов, в ограниченном объёме потому что не всё там контракты
4. Это не ошибка, не недосмотр, а целенаправленная политика по снижению прозрачности Правительства РФ в целом.
5. Говорить про эффективность нац проектов бессмысленно, до тех пор пока внутренние системы сбора показателей не будут раскрыты.
Ссылки:
[1] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#government #spending #russia
Я как и почти все регулярно смотрю социальную фантастику вроде Черного зеркала и вижу много интересных тем будущего, но также вижу и дефицит сюжетов связанных с изменением технологий и отношения общества к ним, в попытке продумать альтернативы я сделал следующие наброски сеттингов будущего в которые можно поместить сюжеты.
Аккредитованный программист
Мир в котором произошли несколько масштабных катастроф из-за ошибок программистов. Все цифровые компании подлежат обязательной аккредитации, проверкам и аудиту. Программисты приравнены к врачам, должны проходить обязательное обучение, аналог ординатуры, допуски к работе над проектами по категориям. Программные ошибки могут быть основанием для привлечения к уголовной ответственности. Любое неаккредитованное программирование преследуется.
Авторов больше нет
Мир в котором авторское право запрещено как и любая форма владения интеллектуальной собственностью. Признаётся только имущественное право на физические объекты и запрещено владеть правами на книги, фильмы, программы, тексты статей и тд. Все произведения кроме опасных принадлежат человечеству, а опасные принадлежат государствам. Сюжет может быть построен на нищенствующих писателях и фотографах и на том что корпорации создают сверхзащищённые хранилища результатов разработок и придумывают как делать продукты чтобы никто не смог их воспроизвести.
Учёт виртуальных убийц
Государства всерьёз начинают бороться с насилием в компьютерных играх, вводятся обязательные требования по идентификации игроков для любых игр и обязательном предоставлении информации о том сколько игрок тратит времени на игру, Информацию игрового профиля могут получить правоохранительные органы для профилактики, проверить работодатели при трудоустройстве и в других ситуациях. Сюжет может быть построен на полицейском обходе игроков компьютерных игр и задержании за "виртуальные убийства".
#thoughts
Аккредитованный программист
Мир в котором произошли несколько масштабных катастроф из-за ошибок программистов. Все цифровые компании подлежат обязательной аккредитации, проверкам и аудиту. Программисты приравнены к врачам, должны проходить обязательное обучение, аналог ординатуры, допуски к работе над проектами по категориям. Программные ошибки могут быть основанием для привлечения к уголовной ответственности. Любое неаккредитованное программирование преследуется.
Авторов больше нет
Мир в котором авторское право запрещено как и любая форма владения интеллектуальной собственностью. Признаётся только имущественное право на физические объекты и запрещено владеть правами на книги, фильмы, программы, тексты статей и тд. Все произведения кроме опасных принадлежат человечеству, а опасные принадлежат государствам. Сюжет может быть построен на нищенствующих писателях и фотографах и на том что корпорации создают сверхзащищённые хранилища результатов разработок и придумывают как делать продукты чтобы никто не смог их воспроизвести.
Учёт виртуальных убийц
Государства всерьёз начинают бороться с насилием в компьютерных играх, вводятся обязательные требования по идентификации игроков для любых игр и обязательном предоставлении информации о том сколько игрок тратит времени на игру, Информацию игрового профиля могут получить правоохранительные органы для профилактики, проверить работодатели при трудоустройстве и в других ситуациях. Сюжет может быть построен на полицейском обходе игроков компьютерных игр и задержании за "виртуальные убийства".
#thoughts
Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России.
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.
В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.
Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.
В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,
Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.
А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".
Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.
В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.
И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.
Ссылки:
[1] https://t.me/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13
#opendata #openresearch #openaccess #russia #datasets
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.
В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.
Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.
В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,
Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.
А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".
Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.
В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.
И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.
Ссылки:
[1] https://t.me/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13
#opendata #openresearch #openaccess #russia #datasets
В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на базе ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом [3].
Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl
#opendata #datasets #openaccess #openresearch #poland
Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl
#opendata #datasets #openaccess #openresearch #poland
В рубрике интересного чтения про данные и ИИ:
- X.AI [1] свежеаносированный стартап Элона Маска по ИИ. Главным образом пока можно судить по составу команды, состав выглядит впечатляюще, посмотрим какие будут результаты. Об этом многие уже написали, так что я не буду вдаваться в подробности, подождём результаты.
- Голливудские актёры бастуют против применения образов созданных ИИ [2] по моему их применение неизбежно, посмотрим как долго продлится это противостояние.
- LINCE-ZERO [3] свежая языковая модель для испанского языка. Создано стартапом Clibrain, Лицензия Apache 2.0
- OpenMetadata 1.1 [4] новая версия корпоративного каталога данных, из интересного поддержка MongoDB. Надо посмотреть насколько там всё хорошо с этим.
- VulcanSQL [5] фреймворк по превращению SQL запросов в API. Интересная штука, полезная для многих задач
Ссылки:
[1] https://x.ai
[2] https://www.bbc.com/news/entertainment-arts-66196357
[3] https://huggingface.co/clibrain/lince-zero
[4] https://blog.open-metadata.org/openmetadata-1-1-0-release-97c1fb603bcf
[5] https://github.com/Canner/vulcan-sql
#data #datatools #ai #opensource
- X.AI [1] свежеаносированный стартап Элона Маска по ИИ. Главным образом пока можно судить по составу команды, состав выглядит впечатляюще, посмотрим какие будут результаты. Об этом многие уже написали, так что я не буду вдаваться в подробности, подождём результаты.
- Голливудские актёры бастуют против применения образов созданных ИИ [2] по моему их применение неизбежно, посмотрим как долго продлится это противостояние.
- LINCE-ZERO [3] свежая языковая модель для испанского языка. Создано стартапом Clibrain, Лицензия Apache 2.0
- OpenMetadata 1.1 [4] новая версия корпоративного каталога данных, из интересного поддержка MongoDB. Надо посмотреть насколько там всё хорошо с этим.
- VulcanSQL [5] фреймворк по превращению SQL запросов в API. Интересная штука, полезная для многих задач
Ссылки:
[1] https://x.ai
[2] https://www.bbc.com/news/entertainment-arts-66196357
[3] https://huggingface.co/clibrain/lince-zero
[4] https://blog.open-metadata.org/openmetadata-1-1-0-release-97c1fb603bcf
[5] https://github.com/Canner/vulcan-sql
#data #datatools #ai #opensource
x.ai
xAI
xAI is an AI company with the mission of advancing scientific discovery and gaining a deeper understanding of our universe. Our first product is Grok - a conversational AI.
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].
В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.
Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.
Для университетов у которых есть такие системы, публикация данных является частью таких систем.
Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.
Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].
Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.
Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.
И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].
Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/
#openaccess #openresearch #opendata #research
В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.
Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.
Для университетов у которых есть такие системы, публикация данных является частью таких систем.
Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.
Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].
Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.
Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.
И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].
Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/
#openaccess #openresearch #opendata #research
Wikipedia
Current research information system
A current research information system (CRIS) is a database or other information system to store, manage and exchange contextual metadata for the research activity funded by a research funder or conducted at a research-performing organisation (or aggregation…
Я, кстати, не забыл про обещание вернуться к лонгридам и по результатам голосования [1] ближайшей темой напишу про Data discovery в корпоративном секторе, скорее всего до конца недели.
Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением,
Ссылки:
[1] https://begtin.substack.com/p/fde
#readings #blogging #data
Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением,
Ссылки:
[1] https://begtin.substack.com/p/fde
#readings #blogging #data
Substack
Возвращение к лонгридам и выбор тем
Я довольно давно не писал в рассылку, короткие тексты в телеграм канале, лично мне, всегда давались гораздо легче чем регуляные тексты большого/среднего размера. Тем не менее, они тоже необходимы и какое-то количество черновых текстов я заготовил достаточно…
На чём сделать акцент в рассказе про Data discovery в корпоративном секторе? (можно несколько ответов)
Anonymous Poll
51%
Зачем всё это нужно, как обосновывать и делать
38%
Подходы, ограничения, сложности проблемы
31%
Поиск внешних данных для бизнеса.
31%
Отличия между data discovery в бизнесе и государстве. Почему это не одно и то же
47%
Обзор технических инструментов внутренней инвентаризации данных
1%
Что-то другое, напишу в чате к каналу
В рубрике "как это устроено у них" Oskari [1] продукт с открытым кодом по созданию геопорталов на базе существующих геоданных/геокаталогов, например, каталогов созданных в рамках инициативы INSPIRE.
Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии.
Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo.
На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже.
Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв.
Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру.
Ссылки:
[1] https://www.oskari.org
[2] https://wiki.osgeo.org/wiki/Oskari_Incubation_Status
[3] https://www.oskari.org/gallery
#opensource #geospatial #geodata #data #finland
Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии.
Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo.
На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже.
Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв.
Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру.
Ссылки:
[1] https://www.oskari.org
[2] https://wiki.osgeo.org/wiki/Oskari_Incubation_Status
[3] https://www.oskari.org/gallery
#opensource #geospatial #geodata #data #finland