Выше квартилей
2.74K subscribers
110 photos
1 video
1 file
304 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
Сравнение качества метаданных в БД CrossRef, Lens, OpenAlex, Scopus, Semantic Scholar, Web of Science Core Collection

Сейчас часто говорят о необходимости перехода на другие базы данных, помимо Scopus и Web of Science. Какие есть альтернативы? Недавно вышла статья Лутая и Любушко, в которой проведен сравнительный анализ качества метаданных научных публикаций в БД Scopus, Web of Science, CrossRef, Lens, Semantic Scholar и OpenAlex. Речь пойдет про отличия работы механизмов баз данных: почему не все данные в разных базах совпадают, отличается количество авторов и их имена и т.д. Подробнее про источники данных для анализа и ограничения читайте в самой статье.

На протяжении последних десятилетий Scopus и Web of Science считались золотым стандартом качества метаданных. Но с появлением новых открытых инструментов для поиска научных публикаций (Dimensions, Semantic Scholar, Lens, SciLit и OpenAlex) наукометристы могут охватывать гораздо большее количество публикаций.

Особенно важны для аналитики следующие метаданные: информация об авторах исследования и их месте работы, списки пристатейной литературы и цитирующих статей, информация о финансировании исследований.

Из Scopus, Wеb of Science Core Collection и CrossRef были выделены публикации с участием российских авторов, присутствующие во всех 3-х БД. Из полученного списка случайным образом сформировали 4 выборки по 15000 уникальных (по DOI) документов, опубликованных в 2021, 2020, 2019 и 2016-2018 годах.

Приводим некоторые из наблюдений статьи:

1. Отличия в написании имен авторов статьи и их количества в разных БД могут быть вызваны следующими причинами: использование названия команды исследователей вместо индивидуальных имен, включение фамилий авторов на кириллице и латинице, удвоение фамилий, разрыв составных фамилий по дефису, включение расширенного состава исследовательских групп в список авторов, включение аффилиаций в перечень имен.

2. Некоторые издатели чаще других допускают ошибки в оформлении метаданных статей. Для некоторых российских издательств (Consillium Medicum, the Russian Academy of Sciences, Tomsk State University, Ural Federal University) доля ошибок действительно высока. Из зарубежных издательств наибольший уровень различий наблюдался для Oxford University Press (5.0%), American Astronomical Society (3.8%).

3. Благодаря инициативе по открытию списков литературы, издатели начали переводить списки литературы в БД CrossRef в формат открытой лицензии. Однако, на январь 2022 не все крупные издатели перевели в открытый формат списки пристатейной литературы.

4. Суммарное количество источников в списках литературы в БД Scopus – 2213075, CrossRef– 2048947 и Web of Science Core Collection – 2194431. Во всех подгруппах (по году публикации) суммарное количество цитирований в Web of Science Core Collection меньше, чем в других БД. CrossRef опережает Web of Science Core Collection, но уступает Scopus. Количество цитирований в Lens, Semantic Scholar и OpenAlex приблизительно одинаково и больше наблюдаемого для Scopus.

6. Частота упоминаний аффилиаций в CrossRef растет от группы статей 2016-2018 годов к группе статей 2021 года, но пока на исследуемом массиве статей составляет лишь 20%. В Semantic Scholar аффилиации появляются лишь эпизодически.

7. Некоторые поля метаданных (о месте работы авторов, о финансировании, реферат) до сих пор заполнены в недостаточной степени, чтобы представить конкуренцию Scopus и Web of Science Core Collection для решения задач учета и мониторинга.

Из иллюстраций привели в пример информацию о количестве цитирований и попарное сравнение баз данных.

#обзор #инфографика #базыданных
Россию отключили от Web of Science — старейшей и наиболее авторитетной библиометрической базы мира. Задолго до того, как она превратилась, по мнению некоторых, в «квартильный» инструмент для оценки научной деятельности, WoS, или, как ее тогда называли, Science Citation Index, стала главным источником зарождающейся советской школы наукометристов. Так, без SCI не было бы и работ Василия Налимова, давших миру сам термин «наукометрия» (рекомендуем статью основателя SCI Юджина Гарфильда о Налимове).

Сейчас кажется актуальной самая первая советская работа про SCI — вышедшая в 1967 году статья Руджеро Гиляревского с соавторами (кстати, Руджеро Сергеевич, сотрудничавший и с НУИ ВШЭ, до сих пор жив и здравствует).

Приведем лишь несколько пассажей:

«В нашей стране работа с указателями цитированной литературы должна развертываться в двух направлениях. Во-первых, необходимо использовать американский SCI для информирования советских ученых — академиков и руководителей проблемных советов и научно-исследовательских институтов АН СССР и т.д., а также для анализа структуры фронта научных исследований. Во-вторых, необходимо приступить к составлению собственного указателя цитированной литературы... После создания советского указателя цитированной литературы можно было бы договориться об обмене магнитными лентами с фирмой Institute for Scientific Information, возглавляемой Ю.Гарфилдом».

«Сейчас обсуждается вопрос о создании при ВИНИТИ специальной информационной группы для работы с указателями цитированной литературы. Эта группа могла бы выполнять следующие задачи:
1) производить библиографический поиск по таким разделам науки, за развитием которых трудно следить по реферативным журналам... Одновременно с выдачей библиографий можно проводить тщательный количественный анализ этого процесса, т.е. сравнительную оценку скорости проникновения математических методов по разным странам;
2) следить за возникновением, расцветом и упадком отдельных научных школ и направлений путем наблюдения за степенью цитируемости публикаций отдельных научных коллективов;
3) определять уровень запаздывания в преемственности идей по распределению цитируемых работ по годам;
4) выдавать справки о цитируемости публикации отдельных ученых по их запросам. Как говорилось, это позволит установить систему обратной связи между автором и творчески активными читателями.
В заключение необходимо подчеркнуть, что указатель цитированной литературы было бы неправильно рассматривать только как информационно-поисковую систему. Такой указатель явится также очень ценным инструментом для изучения структуры исследовательского фронта науки и для объективной оценки эффективности научных исследований. В частности, уже по материалам первого года можно было бы дать обоснованную оценку значимости советских журналов и научных школ».

#wos #базыданных #новости
Как с помощью библиометрии найти потенциально талантливых молодых людей в области естественных наук и наук о жизни?

Сегодня научно-исследовательские институты и университеты используют различные подходы к поиску перспективных молодых ученых. Есть множество процедур по отбору ученых на стипендии, позиции постдоков и т.д. В большинстве случаев учитывается не только экспертная оценка, но и библиометрические показатели. В основе подхода к выявлению молодых талантливых ученых, представленных в этом исследовании, лежат данные Scopus, позволяющие измерять индивидуальную производительность и выявлять таланты по всему миру на различных этапах карьеры.

Исходный набор данных для исследования был ограничен 1999-2020 годами и типами документов (статьи, обзоры и сборники трудов). В общей сложности — 45 709 395 публикаций. В качестве дополнительного источника использовали информацию о публикациях и грантах из Dimensions. В роли потенциально талантливых молодых ученых выступают авторы, которые к настоящему моменту провели в академической среде около десяти лет.

Для отбора использовались три показателя:

• количество статей в журналах с высоким нормализованным импакт-фактором (показатель Q1),
• общее количество статей (показатель O),
• количество статей, где автор выступал контактным лицом (показатель С).

По мнению авторов, эти показатели зарекомендовали себя в предыдущих исследованиях (см. обзор литературы) в качестве хороших предикторов успеха в науке. Авторы протестировали различные комбинации показателей для выявления талантливых ученых и обнаружили, что наиболее благоприятные результаты дает комбинация OxQ1: общее количество статей и количество статей в журналах с высоким нормализованным импакт-фактором. На этой основе создали базу данных потенциально талантливых ученых, которые опубликовали свою первую работу в период с 2007 по 2011 год и входят в топ-1% по показателям O и Q1 по крайней мере в одной широкой области классификатора ASJC.

Набор данных можно скачать бесплатно. Он содержит 46 200 потенциально талантливых ученых. Некоторые из них представлены в более чем одной широкой области ASJC. Результаты показывают, что наименьший процент молодых потенциально талантливых ученых был обнаружен в областях ветеринарии и иммунологии и микробиологии, а наибольший — в физике и астрономии, что может напрямую отражать специфику данных областей.

#обзор #scopus #базыданных
Представляем свежий дайджест научных событий за последний месяц. Для удобства читателей мы разделили его на рубрики.

Научная политика

- Европейская организация по ядерным исследованиям (ЦЕРН) приняла решение не продлевать соглашение об участии российских научных организаций. Это означает также приостановку совместной работы не только на Большом адронном коллайдере, но и по другим крупным проектам. Срок действия этого соглашения истекает 30 ноября 2024 года.

- Академик А. Р. Хохлов пишет, что деятельность компании Pleiades, которая на протяжении 30 лет обеспечивала перевод статей из российских журналов на английский язык, а также размещение этих статей на платформе издательства Springer, с 2024 года будет осуществляться в РФ через дочернюю сербскую компанию «Pleiades Resources Beograd». Приостановка сотрудничества с Pleiades чревата прекращением индексации журналов международными базами данных.

Базы данных

- Иван Бегтин анонсировал запуск новой платформы для поиска данных — Dateno. Это поисковик, который уже содержит 10 млн наборов данных из 4900 каталогов всего мира. До конца 2024 года разработчики проекта планируют добавить открытый API и увеличить наборы данных до 30 млн.

- Компания OurResearch сообщает о получении гранта в размере $7,5 млн от благотворительного фонда Arcadia на развитие OpenAlex и создание устойчивого и полностью открытого индекса мировой исследовательской экосистемы.

- Коллеги из телеграм-канала “Научные журналы и базы данных” выпустили подробный пост о последнем обновлении Google Scholar для работы с pdf-документами.

Научная этика

- В Scolary Kitchen снова подняли тему использования ИИ в написании научных статей. Озабоченность связана с недавно обнаруженными двумя публикациями Elsevier, в которых содержались такие фразы как: «Конечно, вот возможное введение к вашей теме:…» и «Мне очень жаль, но у меня нет доступа к информации в реальном времени или к данным, касающимся конкретного пациента, поскольку я являюсь языковой моделью».

- В Science вышла статья о Фонде научной честности, который готов оказывать поддержку ученым, отстаивающим чистоту результатов исследований.

- Департамент науки Китая провёл крупную проверку отозванных научных публикаций. В статье-комментарии к событию отмечено, что проведённый аудит подтверждает растущее внимание к ретракции результатов исследований.

- В Times вышли статья и видеообзор на тему разоблачения фальсифицированных исследований рака, опубликованных ведущим ученым Колумбийского университета.

#дайджест #базыданных #новости #открытыйдоступ #OpenAlex #международноесотрудничество #искуственныйинтеллект
Представляем свежий дайджест научных событий за последний месяц.

Редакторская политика

- В Nature вышла заметка об исследовании, подтверждающем эффективность внедрения стандартизированных рецензий на статьи. По результатам внедрения таких рецензий в 23 журналах издательства Elsevier редактор журнала Research Integrity and Peer Review делает вывод, что рецензенты, руководствуясь одними и теми же вопросами, чаще дают схожие первоначальные рекомендации относительно необходимости отклонения или принятия поступивших рукописей.

Научная политика

- На Scholarly Kitchen вышел обзор обновленной политики Фонда Билла и Мелинды Гейтс (Bill & Melinda Gates Foundation) в отношении открытого доступа в 2025 году. Вопреки ожиданиям, сложившимся на основании заявлений команды Фонда, политику Фонда затронут лишь некоторые незначительные изменения. Так, например, теперь в открытом доступе обязательно должны быть размещены препринт финансируемого исследования и текст статьи. В 2021 году это требование распространялось только на статьи.

Научная этика

- Лесли Макинтош, основательница Ripeta (компания, занимающаяся вопросами повышения качества и честности исследований), вице-президент Digital Science, предложила ввести новую область наукометрии — судебную наукометрию (Forensic Scientometrics (FoSci), что позволит выделить в отдельную категорию деятельность энтузиастов-расследователей, выступающих за соблюдение принципов академической честности.

- Сервис Turnitin отмечает первую годовщину создания ИИ-детектора письменных работ. За это время сервис обработал 200 миллионов работ, из которых 22 миллиона имеют не менее 20% содержания, написанного при помощи ИИ, а 6 миллионов — не менее 80%. С момента запуска сервис был признан инновационным решением в области образовательных технологий, поддерживающим академическую честность.

Базы данных

- Обновились показатели SJR для источников, входящих в Scopus. По традиции мы рассмотрели изменение позиций российских журналов в одном из постов.

- Вчера OpenAlex провел вебинар по работе с данными базы с привлечением Python. Код с использованием стандартных библиотек, а также видео можно найти по ссылке.

#дайджест #базыданных #новости #OpenAlex #искуственныйинтеллект
Дайджест: май 2024

Представляем свежий дайджест научных событий за последний месяц.

Научные события

- 30-31 мая проходит первая виртуальная конференция OpenAlex. Пользователи и разработчики делились опытом и планами на будущее. Презентации и запись можно будет найти на сайте и на YouTube-канале OurResearch (а мы скоро выпустим обзор по итогам).
- Объявлена тема Peer Review Week 2024: «Инновации и технологии в рецензировании». Об этом на Scholarly Kitchen написали организаторы события. К участию приглашаются все, кто так или иначе связан с процессом рецензирования. Судя по прошлому году, стоит ожидать вебинаров, хакатонов, онлайн-конференций, открытых дискуссий и не только.

Редакторская политика

- В Scientometrics вышла статья, анализирующая, влияет ли текст грантовой заявки на итог ее рассмотрения. Оказалось, что оценка заявки очень мало зависит от самого текста — если эксперты видят только короткую аннотацию, то их вердикт почти не меняется.
- Как мы (и некоторые наши коллеги) упоминали ранее, в этом месяце издательство Wiley анонсировало закрытие 19 журналов, что стало прямым следствием массового отзыва статей. Список журналов, которые прекратят выпускаться, можно найти на сайте Hindawi.
- IOP Publishing провели опрос насчет эффективности внедрения инструментов ИИ в процесс рецензирования. В опросе приняли более 3000 ученых. Согласно результатам, лишь 29% из опрошенных ученых считают, что внедрение ИИ окажет положительный эффект, 35% респондентов выказали негативное отношение к ИИ, а 36% убеждены, что внедрение ИИ не окажет никакого эффекта.

Базы данных

- В Quantitative Science Studies опубликовано достаточно подробное сравнение метаданных в восьми открытых библиометрических базах: Crossref, Dimensions, Google Scholar, Microsoft Academic, OpenAlex, Scilit, Semantic Scholar и The Lens. Авторы исследования показывают, что сторонние базы данных (Dimensions, OpenAlex, Scilit и The Lens) имеют более высокое количество и качество метаданных, чем академические поисковые системы (Google Scholar, Microsoft Academic и Semantic Scholar).
- Clarivate анонсировала новый продукт — Web of Science Research Intelligence. Судя по рекламному описанию, это инструмент для создания дэшбордов с интегрированным ИИ и рекомендательной системой.

Наука в России

- Число высокоцитируемых (по данным Clarivate) ученых из РФ сократилось до восьми, сообщает Институт статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ.
- Коллеги из НЖБД подвели предварительный итог по количеству публикаций российских авторов в Scopus — их чуть больше 88 тысяч. С 2021 года их количество незначительно снижалось, при том, что количество российских журналов в Scopus за последние пять лет заметно увеличилось.
- 6 мая был утвержден перечень поручений Президента по итогам мероприятий к 300-летию РАН, а 8 мая вышел указ, в котором заявлено создание отечественной системы мониторинга публикаций в области социальных и гуманитарных наук, причем эта система должна быть независимой от зарубежных рейтингов показателей (п. 11, пп. “в”).
- Определены победители десятого конкурса программы мегагрантов: восемь проектов под руководством ведущих ученых и два проекта молодых перспективных ученых. Со списком можно ознакомиться на сайте Минобрнауки РФ.
- Электронная библиотека eLibrary добавила сервис поиска близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ. Система автоматически подбирает документы, максимально близкие по тематической направленности. Поиск реализован на странице с описанием публикации (пункт «Найти близкие по тематике публикации» в панели «Инструменты»).

#дайджест #новости #редакторскаяполитика #базыданных #наукавроссии #OpenAlex #искуственныйинтеллект
​​Дайджест: июнь 2024

Первый летний месяц в мире науки традиционно тихий. Тем не менее, за июнь произошел ряд интересных событий, и мы представляем свежий дайджест.

Научные публикации

- Подошла к концу история с амилоидной гипотезой возникновения болезни Альцгеймера (мы писали о ней ранее). Карен Эш, соавтор-корреспондент и коллега Сильвена Лесне, согласилась с необходимостью ретракции статьи 2006 года, и 24 июня статья была отозвана.
- На конференции FAccT’2024 была представлена работа А. Лизенфельда и М. Дингеманса, в которой анализируется, насколько генеративные ИИ с открытым исходным кодом действительно открыты (на самом деле не очень).

Редакторская политика

- На конференции Clarivate Ignite 2024, проходившей в Сан-Диего, США, представили IP Collaboration Hub. Новое решение позволит управлять всем процессом подачи и рассмотрения заявок на патенты и товарные знаки за рубежом с помощью единого механизма учета заявок.
- Кроме того, Web of Science запустили систему Research Horizon Navigator — новый модуль с поддержкой ИИ в InCites Benchmarking & Analytics. Он призван помогать быстро находить новые темы, возникающие в научном сообществе в области интересов конкретного исследователя или института.
- Система Problematic Paper Screener (PPS), используемая для обнаружения признаков плагиата в научных публикациях, теперь может распознавать так называемые «искаженные аббревиатуры» — довольно явный признак того, что статья была написана при помощи ИИ.

Базы данных

- В Scientometrics вышла статья о разработке и применении нового библиометрического пакета для R — biblioverlap. Сам пакет доступен в репозитории CRAN. Предлагаем читателям пробовать и делиться своими впечатлениями (мы тоже скоро планируем).
- Появился список Altmetrics 500. Туда входят статьи, которые привлекли наибольшее внимание в Интернете в 2023 году: в новостях, цитатах, Википедии и X/Twitter.

Университетские рейтинги

- 30 мая вышел новый выпуск международного рейтинга университетов RUR. Всего в этом году в рейтинге 131 российский вуз, но в первую сотню попал только МГУ.
- 19 июня на XII ежегодном форуме ведущих вузов «Будущее высшей школы» был представлен рейтинг лучших российских вузов RAEX-100. В топ-3 — МГУ, Бауманка и МФТИ.
- 25 июня был опубликован свежий рейтинг USNews, в котором рассматривается 2250 вузов из более чем 100 стран. Из России в рейтинге 42 вуза, на первом месте по стране — Южно-Уральский государственный университет.

Наука в мире

- Планируемые изменения в системе Research Excellence Framework (Великобритания) вызывают у научных администаторов опасения: если учитывать в REF результаты работы сотрудников, работающих всего на 0,2 ставки (FTE), то университеты могут начать фиктивно нанимать сильных ученых для повышения своих показателей.

Наука в России

- ТюмГУ вслед за САФУ и МГПУ утвердил право студентов использовать генеративный ИИ при написании ВКР.
- Федеральная антимонопольная служба оштрафовала Яндекс за распостранение рекламы сервиса по написанию рефератов, курсовых и дипломных работ.
- Опубликован список победителей в конкурсе на “президентскую мегастипендию для аспирантов” в размере 75 тыс. рублей. Мы поздравляем победителей!
- Указом Президента РФ от 18.06.24 были утверждены обновленные а) приоритетные направления научно-тенхологического развития и б) перечень важнейших наукоемких технологий.

И бонусная новость: фармацевтическая компания «Ланцет» подала иск с требованием прекратить правовую охрану товарного знака The Lancet (и не только). Дело зарегистрировано под номером №СИП-589/2024, к участию привлекли и Роспатент. Пока что суд вынес определение об оставлении искового заявления без движения, но мы будем с интересом наблюдать за развитием событий.

#дайджест #новости #редакторскаяполитика #базыданных #наукавроссии #искуственныйинтеллект #рейтинги
Дайджест: июль 2024

Представляем свежий дайджест научных событий за последний месяц.

Научные статьи

В Scientometrics вышло исследование классики библиометрического цитирования — какие старые публикации в этой области по-прежнему высоко цитируются.

Китайские ученые проанализировали, насколько оценки рецензентов соответствуют последующим цитированиям статей. Выяснилось, что корреляция невелика.

Journal of Informetrics опубликовал статью, посвященную новому подходу к вычислению расстояний между исследовательскими дисциплинами. Подход основан на изучении исследовательских коллабораций и измерении схожести публикаций.

В Quantitative Science Studies предлагается новый способ подсчета импакт-фактора для более точной оценки влияния и видимости научных журналов и публикаций.

Редакторская политика

Национальная организация по информационным стандартам (NISO) выпустила рекомендации по информированию об отзывах статей и публикации «выражений обеспокоенности» в связи (например) с сомнительной методологией.

А ODI (Open Discovery Initiative), основанная NISO, опубликовала лучшие практики внедрения предварительно индексированных поисковых инструментов. Вендоры отреагировали в основном положительно.

На Scholarly Kitchen вышло интервью с Ричардом Джефферсоном, основателем библиометрической платформы The Lens. Интересный рассказ о том, как была задумана и реализована The Lens, и какие вызовы стоят перед ней сейчас.

Одна из самых интересных новостей, на наш взгляд, касается Informa, материнской компании академического издательства Taylor & Francis. Она заключила с Microsoft соглашение о доступе к данным для обучения искусственного интеллекта. Многие исследователи, публикующиеся в издательстве, считают это сомнительным решением — во-первых, потому, что авторов об этом никто не предупреждал, а во-вторых, потому, что это создает тревожный прецедент и подчеркивает и без того «хищническую» природу академических публикаций.

Базы данных

Ежегодный отчет также выпустил Springer Nature. Помимо прочего, он показывает рост числа исследований в открытом доступе.

Издательство De Gruyter Brill объявило, что в 2025 году сделает 37 дополнительных журналов доступными бесплатно через свою модель Subscribe to Open (S2O).

ОЭСР переводит материалы и сервисы своей электронной библиотеки в открытый доступ.

Наука в мире

Исследователи MIT представили GenSQL, генеративный ИИ для баз данных на основе SQL, который может делать прогнозы, обнаруживать аномалии, угадывать пропущенные значения, исправлять ошибки или генерировать синтетические данные.

1-3 июля в Вашингтоне состоялась ежегодная конференция ICSSI (International Conference on Science and Innovation). К сожалению, архивов прошлых конференций на сайте нет, но мы будем надеяться на публикацию материалов конференции в будущих сборниках.

Наука в России

Альянс в сфере искусственного интеллекта выпустил новый рейтинг вузов России, готовящих специалистов по ИИ. Всего в рейтинг входит 207 университетов из 69 регионов страны.

В соответствии с приказом МинОбра, с 26 июля вносятся изменения в правилах формирования перечня рецензируемых научных изданий ВАК.

Академик Хохлов пишет об РЦНИ: на платформе начали появляться первые (январские) выпуски некоторых журналов РАН за 2024 год.

В НИУ ВШЭ разрабатывают технологию идентификации текстов, сгенерированных ИИ любого типа.

#дайджест #новости #редакторскаяполитика #базыданных #наукавроссии #искуственныйинтеллект