День программиста: в России и наукометрии
Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.
Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.
Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.
Python:
- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.
- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.
- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.
- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).
- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.
R:
- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.
- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.
- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.
Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).
P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.
#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R
Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.
Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.
Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.
Python:
- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.
- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.
- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.
- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).
- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.
R:
- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.
- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.
- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.
Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).
P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.
#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R