Выше квартилей
2.62K subscribers
101 photos
1 video
1 file
277 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
​​День программиста: в России и наукометрии

Сегодня, в 256-й день года, в России отмечается День программиста. Этот профессиональный праздник, установленный Указом Президента, отмечается с 2009 года.

Программирование и IT-разработки являются неотъемлемой составляющей современной жизни, и с каждым годом ценность и востребованность IT-сферы только возрастает. Наукометрию (наравне с другими научными областями) отмеченные тренды также не обходят стороной. Сегодня уже сложно представить себе ученого, всерьез занимающегося научными разработками, без базовых навыков работы с данными и программными средствами.

Так, практически все крупные наукометрические базы данных сегодня имеют API, для работы с которым официальными держателями и энтузиастами разрабатываются пакеты и библиотеки на языках программирования. Мы собрали подборку ссылок на библиотеки наиболее распространенных баз и языков, для некоторых из которых приводятся также примеры кода. Предлагаем ознакомиться со страницей на Google Colab, а ниже приводим общий список библиотек. Описание основных функций и ссылки на скачивание пакетов можно найти на соответствующих страницах.

Python:

- pyalex, diophila, OpenAlexAPI - официальные библиотеки для доступа к API OpenAlex. OpenAlex отличается очень понятным и подробно описанным API, на самом сайте приведены примеры кода для работы с базой как раз на языке Python.

- crossrefapi и habanero - две наиболее актуальные библиотеки для работы с API CrossRef. Оба пакета регулярно обновляются, а разработчики доступны на GitHub и откликаются на обратную связь. Существует также официальная библиотека crossref_commons_py от CrossRef, однако за последний год она не обновлялась, и, вероятно, разработка временно приостановлена.

- fatcat-openapi-client - библиотека для доступа к Fatcat, автоматически сгенерированная OpenAPI Generator. Fatcat - дочерний проект Internet Archive, позволяющий осуществлять поиск библиографической информации по данным The Wayback Machine, среди общих материалов из коллекций archive.org и не только. Fatcat изначально ориентирован на работу через API.

- pyBibX - новая библиотека, ориентированная на работу с 3 базами (Scopus, Web of Science и PubMed). Позволяет проводить базовый разведывательный анализ набора публикаций. Пакет отличают широкие встроенные возможности визуализации (в нашем коде приводим только некоторые примеры).

- pySciSci - еще одна новая библиотека, в основе которой принцип построения "науки о науке" (Science of Science). Позволяет работать с большими датасетами (включая дампы Microsoft Academic Graph), рассчитывать метрики и проводить сетевой анализ. Уже в скором времени может стать одним из ключевых инструментов в области, в особенности если верить амбициозным планам разработчиков, с которыми можно ознакомиться в недавней статье.

R:

- openalexR - классический и наиболее простой в освоении пакет для работы с API OpenAlex в R. Имеет важную функцию oa_snowball, которая позволяет искать литературу методом “снежного кома”.

- rcrossref - пакет для работы с API CrossRef. Как и openalexR, входит в экосистему rOpenSci - большого проекта по обеспечению свободного и удобного доступа к научным данным в самых разнообразных областях.

- bibliometrix - пакет для работы с уже загруженными датасетами из Scopus, WoS, Dimensions, PubMed и Cochrane. Позволяет легко преобразовать json/xml в привычный формат датафрейма в R.

Отдельно стоит упомянуть более редкие пакеты для работы с Crossref - crossref (Javascript), serrano (Ruby), crossref-rs (rust) и pitaya (Julia).

P.S. Мы намеренно не упомянули широко известные библиотеки для работы с API Scopus, WoS и Dimensions, поскольку доступ к базам на данный момент затруднен. Готового решения нет и для eLibrary: API продолжает оставаться закрытым, а разработка библиотеки (на Python) приостановлена. Что же касается Google Scholar, то он не имеет официального API, а единственный автоматизированный путь получения данных - парсинг, сопряженный с рисками блокировки.

#API #GitHub #OpenAlex #CrossRef #FatCat #Python #R
Международный день распространения информации о болезни Альцгеймера

21 сентября во всем мире отмечается Международный день распространения информации о болезни Альцгеймера. Это нейродегенеративное заболевание является наиболее распространенным вариантом деменции (на его долю приходится около 60% случаев). Сейчас в мире насчитывается более 55 млн пациентов с этим диагнозом, и согласно прогнозу ВОЗ это число будет удваиваться каждые 20 лет.

Симптомы болезни Альцгеймера были впервые подробно описаны в 1907 году. С тех пор ведутся активные исследования по поиску возможных механизмов развития болезни, ее профилактики и лечения. Тем не менее ясности в отношении причин развития болезни и способов ее лечения все еще нет, равно как и нет лекарств с доказанной эффективностью.

Общественные затраты на поиск решений по преодолению последствий болезни Альцгеймера и деменции составляют существенную часть расходов систем здравоохранения. На исследовательскую работу в этой сфере выделяются также значительные суммы. Однако именно в случае с болезнью Альцгеймера несоблюдение академической этики стало началом большого скандала, о котором мы сегодня решили напомнить нашим читателям.

В 2006 году в Nature вышла статья, посвященная роли специфического белка Aβ*56 в ходе развития болезни Альцгеймера, за авторством Сильвена Лесне (Sylvain Lesné) и его коллег. Она завоевала популярность и в течение долгого времени оставалась наиболее авторитетной и влиятельной в этой области. Однако в 2022 году нейробиолог Мэтью Шрэг предоставил в NIH отчет, в котором выразил сомнения по поводу достоверности изображений, приводящихся в статье Лесне. Science опубликовал расследование научного журналиста Чарльза Пиллера, посвященное этому исследованию, что привело к настоящей буре в научных кругах. В итоге Nature добавили к статье предупреждение о том, что в настоящий момент проводят собственное расследование, а читателям рекомендуется с осторожностью относиться к содержимому статьи. Заметим, что за год, прошедший с начала скандала, статья так и не была отозвана ни редакцией, ни самими авторами.

Многие научные журналисты писали впоследствии о том, что сфальсифицированные результаты предопределили дальнейшие шаги в области и являлись сдерживающим фактором для проверки других гипотез. Мы решили посмотреть, насколько разветвленной оказалась сеть цитирований в рамках данного подхода. Для этого построили карту цитирований по ключевому слову “amyloid-β protein” в VOSviewer на базе OpenAlex для визуализации взаимосвязей между статьями. Отмеченное исследование (см. sylvain lesné (2006)) действительно оказалось в эпицентре научной дискуссии: в общей сложности статья 2006 года была процитирована более 2500 раз, а совокупно со связанными исследованиями публикационный граф разрастается до 27,5 тысяч наименований.

При этом заметим, что общая гипотеза, протестированная в том числе и в данной статье, всё еще является наиболее конструктивной. Надеемся, что внимательное и добросовестное отношение к проведению экспериментов и публикации результатов исследований поможет специалистам продвинуться в поисках эффективной терапии болезни Альцгеймера в ближайшие годы, особенно с учетом пристального внимания научных журналистов к данной теме.

#обзор #OpenAlex #VOSViewer #болезньальцгеймера
Международный день всеобщего доступа к информации

Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.

Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.

В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.

Вот еще несколько авторских выводов:

• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.

На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.

От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.

P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.

#датасеты #открытыеданные #OpenAlex
Сравнение некрологов, индексируемых в Web of Science и OpenAlex

Продолжая затронутую в предыдущем посте тему, мы решили подробнее посмотреть на биографии и некрологи, посвященные выдающимся исследователям. Подобный жанр относительно редко встречается в научных журналах: например, в статье, посвященной анализу биографических статей в WoS, говорится, что таких публикаций меньше 2% от общего числа индексируемых текстов. В это число также входят статьи, традиционно не относящиеся к жанру биографии (стенограммы лекций, обзорные материалы и т. п.).

В ходе анализа статей в хронологической выборке с 1945 по 2014 годы (всего рассмотренно 190 350 статей) авторы пришли к выводу о наличии определенных тенденций, касающихся гендерного и предметного распределения проанализированных данных.

Так, например, установлено, что 78,0% статей написаны о мужчинах, 15,8% — о женщинах, а в 6,1% случаев (11 689 статей) пол человека, которому посвящалась публикация, не был распознан. Пол автора статьи чаще всего не был связан с полом описываемого ученого: среди авторов и мужчины, и женщины в одинаковой степени писали чаще о мужчинах. Наибольшая доля статей о женщинах относилась к области искусств и гуманитарных наук (почти 24%), социальных наук (более 18%) и междисциплинарных наук (более 17%). Самая низкая доля была в науках о жизни и биомедицине (14%), а также в области технологий и физических наук (обе области — чуть больше 12%).

Несмотря на то, что научные статьи в областях естественных и биомедицинских наук обычно цитируются чаще, чем, например, в социальных науках, наибольшее среднее число цитирований биографических статей было обнаружено именно в области социальных наук.

С 2007 года происходит уменьшение количества биографических статей. Эту тенденцию можно объяснить развитием интернета и переходу от традиционных биографических статей к персональным веб-страницам организаций.

В нашем посте мы хотели бы обратить внимание на самую распространенную подкатегорию биографических статей — некрологи, которые составляют около 61% от общего числа таких статей. При этом более 45% из них были связаны с естественными науками, а гендерное распределение в этой категории примерно такое же, как и в обычных биографических статьях: 77% некрологов посвящены мужчинам, 15% — женщинам.

В OpenAlex в отличие от Web of Science нет отдельного типа публикации «biographical item», однако «biography» присутствует в списке концептов. Мы проанализировали более 100 тысяч публикаций, относящихся к этой категории, и отобрали среди них те, в заголовке которых указаны годы жизни деятеля, которому посвящена публикация. На основании этих данных, а также данных Web of Science по предметным областям журналов, мы построили диаграмму, на которой отображается медианное количество прожитых лет, а также квартильные значения по этому показателю по каждой из 6 областей ОЭСР. Средний возраст по всем областям — 63,9 лет.

#некрологи #webofscience #openalex