Выше квартилей

Насколько Crossref может быть полезен как инструмент библиографического поиска в сфере искусства и гуманитарных наук, попробовали выяснить коллеги из Барселонского университета.

Scopus и Web of Science традиционно критикуются за ограниченность в плане отслеживания исследований в отдельных дисциплинах. Недавнее сравнение этих коммерческих продуктов с открытыми базами данных от наших коллег, показало, что в некоторых аспектах качество находящихся в свободном доступе метаданных оказывается ничуть не хуже, чем метаданные Scopus/WoS. Авторы рассматриваемого нами сегодня исследования попытались пойти дальше и провести схожий анализ в сфере искусства и гуманитарных наук. Ключевая идея работы связана с поиском ответа на вопрос, помогает ли охват CrossRef (данные А.В. Лутая и Е.Э. Любушко на общем массиве были не во всех случаях в пользу данного продукта) отслеживать литературу по искусству и гуманитарным наукам, учитывая, что в этих областях как правило присутствует национальная и региональная направленность и ориентация на внутреннюю аудиторию?

Чтобы ответить на этот вопрос, авторы проанализировали охваты журналов в ERIH PLUS (European Reference Index for the Humanities), который содержит библиографическую информацию об академических журналах в области социальных и гуманитарных наук. На момент сбора данных, февраль 2022 года, в ERIH PLUS было включено 10 213 журналов. И также создали выборку статей по искусству и гуманитарным наукам, опубликованных в 2020 году, чтобы определить, в какой степени метаданные присутствуют в отдельных случаях (подробнее о выборке в препринте).

Что получили в итоге:

• В Scopus было проиндексировано 49% журналов, перечисленных в ERIH PLUS, а Crossref — 80%. Scopus представил широкий охват журналов, опубликованных в Северной Америке (86% журналов, перечисленных в ERIH PLUS), Океании (86%), Северной Европе (85%) и Западной Европе (74%). Crossref, как и Scopus, охватывает журналы ERIH PLUS, опубликованные в Северной Америке (94%), Северной Европе (94%), Океании (88%) и Западной Европе (86%). Охват также был широк для Азии (80%), Латинской Америки и Карибского бассейна (76%) и Восточной Европы (73%). Регионами с наименьшим охватом были Южная Европа (66%) и Африка (56%), хотя в обоих случаях охват был выше, чем у Scopus.

• Что касается метаданных, то журналы, издаваемые в Латинской Америке и Карибском бассейне (86%), Южной Европе (83%) и Восточной Европе (75%), чаще всего размещали аннотации к своим статьям. Издатели из Северной Европы чаще всего депонировали ORCID (78%) и аффилиации (67%), в то время как издатели из Латинской Америки и Карибского бассейна, как правило, депонировали ORCID (77%), но не аффилиации (11%). Информацию о финансировании чаще всего депонировали журналы, издаваемые в Северной Европе (62%) и, в меньшей степени, в Северной Америке (51%).

• Большинство статей по искусству и гуманитарным наукам, проиндексированных в Scopus в 2020 году, были также представлены в Crossref, причем охват варьировался от 86% для статей на польском языке до 99% для статей на английском языке, который был самым распространенным языком в выборке. Единственным крупным исключением были статьи на итальянском языке: лишь четверть (27%) статей, проиндексированных в Scopus, были представлены в Crossref. Большинство статей на португальском (81%), испанском (71%) и польском (68%) имели аннотацию, тогда как для статей на английском языке этот процент снизился до 31%. Напротив, 88% статей на английском и 45% статей на португальском языке включали ссылки. 35% статей на английском языке включали информацию о финансировании, но на других языках эта информация появлялась очень редко.

Это исследование показывает, что Crossref индексирует больше источников, чем Scopus, и включает дополнительные журналы из Восточной и Южной Европы и Глобального Юга. Crossref представляет собой перспективный инструмент библиографического поиска в области искусств и гуманитарных наук, но нуждается в улучшении в отношении уровня заполнения метаданных.

#обзор #журналы #crossref #открытыйдоступ

2.5K views15:05

Выше квартилей

Ученые в Твиттере: открытые данные

Сегодня мы к вам снова с постом про открытые данные, на этот раз нашли любопытное исследование о представленности ученых в Twitter.

В препринте представлен новый и простой подход для сопоставления авторов из OpenAlex с пользователями Twitter, идентифицированными в Crossref Event Data. OpenAlex или Crossref Event Data дают возможность определить ученых в социальных сетях, используя только открытые данные. Подход, заявленный в исследовании, позволяет сопоставить около 500 000 ученых с их аккаунтами в Twitter с высокой точностью.

Социальные медиа очень важны для взаимодействия между академическим и неакадемическим миром. Исследователи, предположительно, чаще публикуют в Twitter научные публикации, чем «неисследователи». Коллеги собрали для своей выборки ученых в Twitter, которые твитнули (хотя бы один раз) одну из своих публикаций (записанных в Crossref Event Data). Причем брали как исследователей, которые самостоятельно указали Twitter в своем профиле ORCID, так и сопоставляли аккаунты Twitter и авторов в OpenAlex по комбинации из фамилии, инициалов, первого имени, профессиональных титулов (Dr., Ph.D., MD).

Авторы использовали дамп данных Crossref Event Data за январь 2022 года, содержащий более 60 миллионов твитов от 5 288 867 уникальных аккаунтов Twitter, которые содержат DOI статей, упомянутых в этом твите. Эта база включает 4,7 миллиона уникальных DOI.

Среди представленных в Twitter ученых большинство из них публиковали ссылки на статьи, связанные с медициной, биологией, психологией, в меньшинстве были философия, математика и инженерия. По представленности среди стран лидируют англоязычные ученые (США, Великобритания, Австралия, Канада).

Набор данных открыт и может помочь взаимодействию ученых в Twitter.

#обзор #открытыйдоступ #OpenAlex #crossref #twitter

2.0K views13:00

Выше квартилей

День программиста: в России и наукометрии

Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.

Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.

Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.

Python:

- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.

- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.

- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.

- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).

- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.

R:

- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.

- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.

- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.

Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).

P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.

#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R

1.7K views12:00

Страница Google Colab

About

Blog

Apps

Platform