Выше квартилей
2.73K subscribers
110 photos
1 video
1 file
302 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
Новое в руководстве: коллекция датасетов

В рамках нашего онлайн-руководства по наукометрии начали собирать коллекцию актуальных наукометрических датасетов — общедоступных и легальных. Сотни миллионов авторов и публикаций, тематики, цитирования, аннотации, журналы, финансирование, полные тексты — всё это доступно для скачивания, обработки, исследования и интеграции.

Уже сейчас при наличии навыков работы с данными любой желающий может собрать себе из этих данных хоть в PostgreSQL, хоть в BigQuery такую карту науки, что по охвату опередит Web of Science и Scopus, а сложные аналитические запросы типа «выдай и ранжируй всех авторов статей про пингвинов вместе со всеми их метриками и ссылками на полные тексты их публикаций в открытом доступе, а также всё то же самое для всех ссылающихся на них авторов из Антарктиды» будут выполняться легко, просто и бесплатно. Конечно, после настройки и отладки. Для удобства приводим примеры данных для ключевых датасетов.

Пока собрали датасеты по публикациям, авторам и организациям, в планах — источники (журналы), тематики, каналы финансирования и полные тексты. Всегда рады советам и рекомендациям.

#руководство #новости #датасеты #открытыйдоступ #бесплатнодляавторов
Международный день всеобщего доступа к информации

Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.

Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.

В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.

Вот еще несколько авторских выводов:

• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.

На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.

От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.

P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.

#датасеты #открытыеданные #OpenAlex
Рост числа гиперпродуктивных авторов в РФ

Недавнее письмо Иоаннидиса в Nature (ставшее закономерным продолжением работы 2018 г.), о росте числа гиперпродуктивных авторов привлекло широкое внимание. Россия относится к числу стран с максимальным приростом таких исследователей: если в работе 2018 г. упоминался только известный специалист по рентгеноструктурному анализу М.Ю. Антипин, умерший еще в 2013 г., то в версии этого года гиперпродуктивных авторов из России уже 10. Одно из очевидных объяснений, упоминаемых Иоаннидисом с соавторами — формалистские схемы оценки научной активности по числу публикаций. Такие схемы весьма распространены в странах с аномальным ростом числа гиперпродуктивных ученых.

Мы решили дополнить данные коллег по похожей методике, также воспользовавшись базой Scopus, и делимся датасетом наиболее продуктивных авторов публикаций с российской аффилиацией и с некоторыми дополнительными фильтрами:

- во-первых, считалось общее число публикаций у автора с 2015 до 2022 г. (данные собраны в январе 2023 г. и могут быть несколько ниже актуальных на сегодня);
- во-вторых, отсекались авторы из мегаколлабораций (>100 соавторов в среднем), а для остальных приводилось среднее число соавторов, число публикаций в разбивке по типам (для РФ важны труды конференций), средний уровень журнальных публикаций по Норвежскому национальному списку (1 — нормальный журнал, 2 — ведущий, 0 — неучитываемый), а также общее число цитирований учтенных публикаций. Последняя метрика дается сугубо справочно: абсолютное число цитирований нельзя использовать для сравнения ученых из разных областей с публикациями разных лет.

Также в датасете приводятся основные тематики работ, наиболее значимые источники (журналы и т.д.) и последние аффилиации (в разрезе организаций и стран), среднее число аффилиаций у автора и среднее число российских аффилиаций. Набор данных позволяет использовать для сравнения различные индикаторы, что согласуется с современными принципами применения наукометрии.

В качестве порога установлено число публикаций — не менее 200 за 2015-2022 гг. Таких авторов нашлось 124. Все они относятся к области естественных, точных или медицинских наук. 30 авторов имеют более 300 работ, 8 — более 400. 89 ученых работают в области химии, физики и материаловедения.

Отметим, что в списке немало крупных руководителей и главных редакторов журналов, а среди наиболее популярных журналов достаточно много платных, с облегченным рецензированием; кроме того, немало и авторов, предпочитающих конференции. Многие авторы в качестве основного места работы указывают иностранные организации, и, по предварительной информации, резко снизили сотрудничество с РФ после 2022 г., а увеличение числа публикаций за счет конференций осложнилось и отчасти потеряло актуальность в связи с действующим мораторием на показатели наличия публикаций в МНБД. С учетом всего вышеперечисленного, в обозримом будущем число гиперпродуктивных авторов вряд ли будет расти.

#датасеты #scopus #гиперпродуктивность