Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В качестве обзора проектов основанных или основывающих среду работы с данными, система NARCIS (Нарцис/Наркис) в Нидерландах [1] существует с 2004 года и объединяет данные практически всех исследовательских центров страны.

Система изначально создавалась как система доступа к научным публикациям, сейчас является системой доступа к данным по результатам исследований.

Основная задача NARCIS - в предоставления доступа к исследованиям, данным по их результатам.

В экосистеме данных в Нидерландах, она обеспечивает возможности поиска и доступа, а вся экосистема состоит из 3-х основных сервисов:
- DataverseNL - публикация данных исследований
- EASY - сервис архивации исследований по их итогам
- NARCIS - поиск и доступ к данным в разрозненных репозиториях

В системе сейчас:
- 2 925 организаций
- 66 173 исследователей
- 71 750 научных исследований
- 266 947 наборов данных
- 2 097 121 публикаций

Проект является продуктом DANS (data archival and networked services) [2], они же создавали около 20 проектов по публикации научных данных в Евросоюзе [3].

Ссылки:
[1] https://www.narcis.nl/?Language=en
[2] https://dans.knaw.nl/en
[3] https://dans.knaw.nl/en/projects

#data #science #opendata
Одно из наиболее перспективных научных направлений сейчас - это автоматизация науки. Роботы пока ещё не заменяют учёных в части размышлений и гипотез, но уже заменяют научный/лабораторный персонал. Видео лаборатории где роботы выполняют самостоятельную работу и проводят эксперименты [1]. Всё это происходит в лаборатории компьютерной биологии при университете Карнеги-Меллон [2]
где действует программа Masters of Science in Automated Science: Biological Experimentation (MSAS)

Именно таким можно представить себе будущее биоисследований, фармацевтики и агрокультуры. Таким же будет и во многих других областях. Это и есть практическое применение интернета вещей, искусственного интеллекта и будущего практической исследовательской работы.

Ссылки:
[1] https://www.youtube.com/watch?v=L1UgdoP2aeg
[2] http://msas.cbd.cmu.edu/

#ai #automation #science
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata
Германские исследователи Corinna Kroeber и Tobias Remschel собрали набор данных всех публикаций Германского парламента (Бундестага) с 1949 по 2017 годы и опубликовали в формате удобном для последующей текстовой обработки языком R - " Every single word - A new dataset including all parliamentary materials published in Germany " [1]. Объём набора данных в сжатом виде около 1.2 гигабайт и более 131 тысячи документов включающих текст, даты, сведения об авторах и тд.

Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].

Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.

Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.

Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.

Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.

Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN

#opendata #data #politicalscience #science #datascience
О том как устроены большие международные исследовательские проекты на данных и данные в определённых областях. International Soil Reference and Information Centre (ISRIC) [1] появился в 1964 году в виде Международного музея почвы в Утрехте, Голландия. В 1984 году был переименован в текущее название, в 2011 году получили статус WDC-Soils в международном проекте ISC World Data System.

Организация собирает данные о состоянии почвы, публикует их на специальном хабе данных ISRIC Data Hub [2] и создаёт интерактивные проекты такие как Soils Revealed [3], Soilgrids [4] и многочисленные проекты связанные со сбором и анализом сведений о состоянии почв в Евросоюзе, африканских и других странах. Данные по России в их наборах данных и интерактивных картах тоже есть.

На что можно обратить внимание.
- для публикации данных они используют каталог данных/цифровых геообъектов geonetworks [5] - это специальный open source инструмент позволяющий работать с геоданными и отображать их удобным образом;
- они одни из авторов Гармонизированной мировой базы почв версия 1.2 [6] публикуемой ФАО (агенство при ООН).

В России, кстати, также есть ИС ПГБД (Информационная система «Почвенно-географическая база данных России») [7] созданная Почвенным дата-центром МГУ имени М.В. Ломоносова, там даже есть некоторое количество карт, но ни о какой доступности наборов данных/баз данных и речи нет. Как и большая часть других результатов научной работы в России эти данные не публикуются и уж точно не публикуются под открытыми лицензиями.

Правда российские данные и данные других стран публикуются в международных проектах, например, около десятка российских исследовательских организаций предоставляют данные для проекта ФАО Global Soil Organic Carbon Map [8].

Российские научные данные имеют ту большую местную особенность что не собираются даже органами власти субъектов федерации и на федеральном уровне. В результате отечественный портал data.gov.ru "забит административными данными", небольшими и довольно бессмысленными. Для сравнения, большая часть данных на американском портале data.gov - это именно научные данные. Поиск по "soil" (почва) [9] выдаёт там более 5360 наборов данных.

Всё это я хочу завершить тезисами:
1. Очень часто доступные данные о России надо искать вне России, в международных проектах/банках данных. Их, обычно, хорошо знают специалисты и гораздо хуже те кто не знает где их искать.
2. Инвентаризация государственных информационных систем в России полностью игнорирует программные комплексы и базы данных созданные в исследовательских центрах.

Ссылки:
[1] https://www.isric.org/about
[2] https://data.isric.org/geonetwork/srv/rus/catalog.search#/home
[3] https://soilsrevealed.org
[4] https://soilgrids.org/
[5] https://github.com/geonetwork/core-geonetwork
[6] http://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/
[7] https://soil-db.ru/
[8] http://54.229.242.119/GSOCmap/
[9] https://catalog.data.gov/dataset?q=soil&sort=score+desc%2C+name+asc

#science #opendata #openaccess #soil #russia
В США агенство EPA обновило проект Airnow [1] проект по мониторингу качества воздуха и добавили туда 10 тысяч сенсоров которые поддерживаются гражданами [2] через краудсорсинг в проекте PurpleAir. Эти сенсоры EPA раздавало и раздает библиотекам, сообществам и многим другим [3] и всё это часть того что называется гражданской наукой (citizen science) где рядовые граждане могут принимать участие в идущих исследованиях. В США гражданская наука уже давно институционализирована в рамках инициативы CitizenScience.gov [4] в виде каталога из 491 проекта в которых можно принять участие. А сам каталог и инициативы идут под эгидой Crowdsourcing and Citizen Science Act [5], они разрешены и поощеряются.

Ссылки:
[1] https://www.airnow.gov
[2] https://gcn.com/articles/2021/08/04/airnow-smoke-data.aspx
[3] https://www.epa.gov/air-sensor-toolbox/air-sensor-loan-programs
[4] https://www.citizenscience.gov
[5] http://uscode.house.gov/view.xhtml?req=granuleid:USC-prelim-title15-section3724)&num=0&edition=prelim

#citizenscience #science #airquality #fires
В научной библиотеке БНТУ хороший обзор проектов по открытым научным данным [1] и там же обзоры открытых образовательных ресурсов, открытой науки, открытого доступа, открытой научной коммуникации.

Я добавлю что концепция открытых данных приходила в мир 3 путями.
Первый - это общественные и политические активисты и журналисты.
Второй - естественное развитие использование данных в госуправлении.
Третье - развитие идей открытости науки и открытости данных как их продолжения.

Многие крупнейшие порталы открытых данных в мире - это, де факто, крупнейшие порталы научных данных. Так устроен портал открытых данных федерального правительства США data.gov, так устроены многие другие страновые порталы в мире, научные организации раскрывают на них данные в первую очередь.

В основе движения открытости данных в науке можно определить Пантонские принципы [2], FAIR Data [3] и множество близких по смыслу инициатив. Сейчас в мире они уже потеряли эффект новизны потому что стали общепринятой нормой. Исследователи по всему миру публикуют данные на европейской платформе Zenodo [4] и многочисленных иных платформах по открытости науки.

Ссылки:
[1] https://library.bntu.by/otkrytye-nauchnye-dannye
[2] https://en.wikipedia.org/wiki/Panton_Principles
[3] https://en.wikipedia.org/wiki/FAIR_data
[4] https://zenodo.org

#opendata #opensciencedata #science