Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Научный центр больших данных в биологии EMBL-EBI (EMBL’s European Bioinformatics Institute ) [1] опубликовали большой доклад (impact report) о том как собираемые, поддерживаемые и раскрываемые ими базы данных помогают в исследованиях [2].

Если вкратце:
- около 450-500 тысяч пользователей
- интервью с пользователями говорит о том что для большинства из них недоступность данных EBI сильно повлияет на их исследования
- прямой возврат инвестиций 2.2 млрд фунтов - это сумма которую пришлось бы потратить ученым на покупку данных которые они получают бесплатно
- и там же ещё много разных оценок ROI, финансового влияния и эффекта от их работы. И раньше не было в этом сомнений, а здесь ещё и всё подкреплено цифрами.

Для тех кто не знает, EMBL-EBI поддерживают более 40 открытых баз данных / наборов данных по теме биологии [3] откуда ученые не только берут данные, но и куда сдают результаты своих исследований.

Биоинформатика одна из многих областей где эффект от открытости данных и доступности их в большом объёме хорошо измерим, здесь можно напомнить о большом европейском проекте Elixir [4] где такая работа происходит на общеевропейском уровне и о том что системная работа по созданию исследовательской инфраструктуры приводит к доступности одних из наиболее крупных баз данных в мире именно в области биологии.

Ссылки:
[1] https://www.ebi.ac.uk
[2] https://www.embl.org/documents/document/embl-ebi-impact-report-2021/
[3] https://www.ebi.ac.uk/services/all
[4] https://elixir-europe.org/

#opendata #biology #europe
В рубрике открытых данных о которых почти никто не знает. Один из малоизвестных типов каталогов данных за пределами профессионального сообщества - это IPT: The Integrated Publishing Toolkit [1] специально ПО используемое ботаниками, биологами для публикации открытых наборов данных интегрированных в международный проект GBIF (Global Core Biodata Resource).

В России есть множество инсталляций IPT, например, от Зоологического института в СПб [2] и Югорского госуниверситета [3]. Его инсталляции есть даже в Иране [4], а все данные из IPT агрегируются в поиск GBIF где уже более 85 тысяч наборов данных

Некоторые инсталляции IPT по странам находятся в других странах. Например, IPT по Армении [5], поэтому поиск по наборам данных помогает найти данные даже по тем странам где инсталляции IPT формально отсутствуют.

Все данные публикуются под свободными лицензиями, как правило CC-BY

Всё это о том что значительная часть открытых данных в мире находится не на поверхности, неизвестна широкой публики и имеет, преимущественно, узкоотраслевое применение.

Но они есть и их очень много.

Ссылки:
[1] https://www.gbif.org/ipt
[2] http://ipt.zin.ru:8080/ipt/
[3] http://ipt.ugrasu.ru:8080/
[4] http://217.11.23.22/ipt/
[5] https://www.gbif.org/dataset/search
[6] https://armenia.ipt.gbif.no/

#opendata #openaccess #openscience #biology #plants
В рубрике интересных наборов данных сайт-сообщество iNaturalist [1] изначально созданный как неофициальное сообщество наблюдение за животными и растениями и идентификацией их экспертами/участниками сообщества, далее взятый под опеку Калифорнийской академией наук и развиваемый в тесной интеграцией с другими большими проектами по систематизаций флоры и фауны, такими как GBIF.

В iNaturalists участники публикуют фотографии/наблюдения животных в естественной среде, всего размещено более 147 миллионов наблюдений от 2.7 миллионов наблюдателей, а также зарегистрировано 432 тысячи видов животных и 316 тысяч экспертов.

У проекта есть открытое API [2], а также слепок данных по 66 миллионам наблюдений опубликованный на GBIF [3] (на GBIF попадает не всё, а только наблюдения подтвержденные экспертами).

Это большой некоммерческий научный проект который можно отнести к гражданской науке и который охватывает практически весь мир. В нём можно найти экспертов и наблюдателей и результаты наблюдения из практически всех, даже очень малых или очень бедных стран

Ссылки:
[1] https://www.inaturalist.org
[2] https://api.inaturalist.org/v1/docs/
[3] https://www.gbif.org/dataset/50c9509d-22c7-4a22-a47d-8c48425ef4a7

#opendata #datasets #biology