Выше квартилей

Сегодня международный день архивов, значит, самое время рассказать о базе публикаций от команды, возможно, главного из них — Internet Archive.

Проект FATCAT в полной мере отражает суть архивной деятельности — сохранение знания на все времена, в данном случае — знания о публикациях. Для нас с вами важен еще и второй принцип Internet Archive, распространяющийся на FATCAT — сделать все знания человечества доступными всем жителям Земли, разумеется, бесплатно.

FATCAT — открытая база метаданных научных публикаций наподобие OpenAlex, но с важными отличиями: каждая публикация (work) представлена всеми версиями, которые называются релизами (release). Остальные сущности — container (например, журнал или сервер препринтов), creator (автор, редактор, переводчик), file set (датасеты и сопроводительные материалы) и т.д., организаций, издателей, грантов среди них нет. Также система хранит в Internet Archive полные тексты публикаций, где это позволяется лицензией, и призывает всех пользователей указывать ссылки на полные тексты/данные для вечного хранения.

Вот как это выглядит на примере статьи одного из авторов нашего канала.

Конечно, система пока не может обеспечить качество авторских профилей, сопоставимое с коммерческими базами, учет цитирований там тоже в стадии становления, но совокупный объем данных, уже сохраненных в проекте, огромен: 131 миллион works, из которых 38 миллионов доступны в полном тексте, данные о 195 тысячах журналов и других изданий и многое другое. Все это собирается и обогащается из CrossRef, PubMed Central, CORE, Wikidata, ORCID, DOAJ, Норвежского списка журналов и других компонентов глобальной инфраструктуры открытой науки.

FATCAT имеет руководство и полноценный общедоступный API, отметим, порог входа там повыше, чем у CrossRef и OpenAlex, но сам доступ совершенно открыт, поэтому система активно используется множеством сторонних проектов. Идентификаторы FATCAT интегрированы во множество проектов в рамках открытой науки, в том числе в белый список журналов Российского центра научной информации.

Несмотря на скудные возможности некоммерческой команды, проект быстро развивается. Так, на его основе появился сервис, который многим будет интереснее, чем API и метаданные:
Internet Archive Scholar, реализующий полнотекстовой (sic!) поиск по 25 миллионам публикаций начиная с XVIII века.

#архив #открытыйдоступ

2.2K views14:00

About

Blog

Apps

Platform