Сравнение качества метаданных в БД CrossRef, Lens, OpenAlex, Scopus, Semantic Scholar, Web of Science Core Collection
Сейчас часто говорят о необходимости перехода на другие базы данных, помимо Scopus и Web of Science. Какие есть альтернативы? Недавно вышла статья Лутая и Любушко, в которой проведен сравнительный анализ качества метаданных научных публикаций в БД Scopus, Web of Science, CrossRef, Lens, Semantic Scholar и OpenAlex. Речь пойдет про отличия работы механизмов баз данных: почему не все данные в разных базах совпадают, отличается количество авторов и их имена и т.д. Подробнее про источники данных для анализа и ограничения читайте в самой статье.
На протяжении последних десятилетий Scopus и Web of Science считались золотым стандартом качества метаданных. Но с появлением новых открытых инструментов для поиска научных публикаций (Dimensions, Semantic Scholar, Lens, SciLit и OpenAlex) наукометристы могут охватывать гораздо большее количество публикаций.
Особенно важны для аналитики следующие метаданные: информация об авторах исследования и их месте работы, списки пристатейной литературы и цитирующих статей, информация о финансировании исследований.
Из Scopus, Wеb of Science Core Collection и CrossRef были выделены публикации с участием российских авторов, присутствующие во всех 3-х БД. Из полученного списка случайным образом сформировали 4 выборки по 15000 уникальных (по DOI) документов, опубликованных в 2021, 2020, 2019 и 2016-2018 годах.
Приводим некоторые из наблюдений статьи:
1. Отличия в написании имен авторов статьи и их количества в разных БД могут быть вызваны следующими причинами: использование названия команды исследователей вместо индивидуальных имен, включение фамилий авторов на кириллице и латинице, удвоение фамилий, разрыв составных фамилий по дефису, включение расширенного состава исследовательских групп в список авторов, включение аффилиаций в перечень имен.
2. Некоторые издатели чаще других допускают ошибки в оформлении метаданных статей. Для некоторых российских издательств (Consillium Medicum, the Russian Academy of Sciences, Tomsk State University, Ural Federal University) доля ошибок действительно высока. Из зарубежных издательств наибольший уровень различий наблюдался для Oxford University Press (5.0%), American Astronomical Society (3.8%).
3. Благодаря инициативе по открытию списков литературы, издатели начали переводить списки литературы в БД CrossRef в формат открытой лицензии. Однако, на январь 2022 не все крупные издатели перевели в открытый формат списки пристатейной литературы.
4. Суммарное количество источников в списках литературы в БД Scopus – 2213075, CrossRef– 2048947 и Web of Science Core Collection – 2194431. Во всех подгруппах (по году публикации) суммарное количество цитирований в Web of Science Core Collection меньше, чем в других БД. CrossRef опережает Web of Science Core Collection, но уступает Scopus. Количество цитирований в Lens, Semantic Scholar и OpenAlex приблизительно одинаково и больше наблюдаемого для Scopus.
6. Частота упоминаний аффилиаций в CrossRef растет от группы статей 2016-2018 годов к группе статей 2021 года, но пока на исследуемом массиве статей составляет лишь 20%. В Semantic Scholar аффилиации появляются лишь эпизодически.
7. Некоторые поля метаданных (о месте работы авторов, о финансировании, реферат) до сих пор заполнены в недостаточной степени, чтобы представить конкуренцию Scopus и Web of Science Core Collection для решения задач учета и мониторинга.
Из иллюстраций привели в пример информацию о количестве цитирований и попарное сравнение баз данных.
#обзор #инфографика #базыданных
Сейчас часто говорят о необходимости перехода на другие базы данных, помимо Scopus и Web of Science. Какие есть альтернативы? Недавно вышла статья Лутая и Любушко, в которой проведен сравнительный анализ качества метаданных научных публикаций в БД Scopus, Web of Science, CrossRef, Lens, Semantic Scholar и OpenAlex. Речь пойдет про отличия работы механизмов баз данных: почему не все данные в разных базах совпадают, отличается количество авторов и их имена и т.д. Подробнее про источники данных для анализа и ограничения читайте в самой статье.
На протяжении последних десятилетий Scopus и Web of Science считались золотым стандартом качества метаданных. Но с появлением новых открытых инструментов для поиска научных публикаций (Dimensions, Semantic Scholar, Lens, SciLit и OpenAlex) наукометристы могут охватывать гораздо большее количество публикаций.
Особенно важны для аналитики следующие метаданные: информация об авторах исследования и их месте работы, списки пристатейной литературы и цитирующих статей, информация о финансировании исследований.
Из Scopus, Wеb of Science Core Collection и CrossRef были выделены публикации с участием российских авторов, присутствующие во всех 3-х БД. Из полученного списка случайным образом сформировали 4 выборки по 15000 уникальных (по DOI) документов, опубликованных в 2021, 2020, 2019 и 2016-2018 годах.
Приводим некоторые из наблюдений статьи:
1. Отличия в написании имен авторов статьи и их количества в разных БД могут быть вызваны следующими причинами: использование названия команды исследователей вместо индивидуальных имен, включение фамилий авторов на кириллице и латинице, удвоение фамилий, разрыв составных фамилий по дефису, включение расширенного состава исследовательских групп в список авторов, включение аффилиаций в перечень имен.
2. Некоторые издатели чаще других допускают ошибки в оформлении метаданных статей. Для некоторых российских издательств (Consillium Medicum, the Russian Academy of Sciences, Tomsk State University, Ural Federal University) доля ошибок действительно высока. Из зарубежных издательств наибольший уровень различий наблюдался для Oxford University Press (5.0%), American Astronomical Society (3.8%).
3. Благодаря инициативе по открытию списков литературы, издатели начали переводить списки литературы в БД CrossRef в формат открытой лицензии. Однако, на январь 2022 не все крупные издатели перевели в открытый формат списки пристатейной литературы.
4. Суммарное количество источников в списках литературы в БД Scopus – 2213075, CrossRef– 2048947 и Web of Science Core Collection – 2194431. Во всех подгруппах (по году публикации) суммарное количество цитирований в Web of Science Core Collection меньше, чем в других БД. CrossRef опережает Web of Science Core Collection, но уступает Scopus. Количество цитирований в Lens, Semantic Scholar и OpenAlex приблизительно одинаково и больше наблюдаемого для Scopus.
6. Частота упоминаний аффилиаций в CrossRef растет от группы статей 2016-2018 годов к группе статей 2021 года, но пока на исследуемом массиве статей составляет лишь 20%. В Semantic Scholar аффилиации появляются лишь эпизодически.
7. Некоторые поля метаданных (о месте работы авторов, о финансировании, реферат) до сих пор заполнены в недостаточной степени, чтобы представить конкуренцию Scopus и Web of Science Core Collection для решения задач учета и мониторинга.
Из иллюстраций привели в пример информацию о количестве цитирований и попарное сравнение баз данных.
#обзор #инфографика #базыданных
Россию отключили от Web of Science — старейшей и наиболее авторитетной библиометрической базы мира. Задолго до того, как она превратилась, по мнению некоторых, в «квартильный» инструмент для оценки научной деятельности, WoS, или, как ее тогда называли, Science Citation Index, стала главным источником зарождающейся советской школы наукометристов. Так, без SCI не было бы и работ Василия Налимова, давших миру сам термин «наукометрия» (рекомендуем статью основателя SCI Юджина Гарфильда о Налимове).
Сейчас кажется актуальной самая первая советская работа про SCI — вышедшая в 1967 году статья Руджеро Гиляревского с соавторами (кстати, Руджеро Сергеевич, сотрудничавший и с НУИ ВШЭ, до сих пор жив и здравствует).
Приведем лишь несколько пассажей:
«В нашей стране работа с указателями цитированной литературы должна развертываться в двух направлениях. Во-первых, необходимо использовать американский SCI для информирования советских ученых — академиков и руководителей проблемных советов и научно-исследовательских институтов АН СССР и т.д., а также для анализа структуры фронта научных исследований. Во-вторых, необходимо приступить к составлению собственного указателя цитированной литературы... После создания советского указателя цитированной литературы можно было бы договориться об обмене магнитными лентами с фирмой Institute for Scientific Information, возглавляемой Ю.Гарфилдом».
«Сейчас обсуждается вопрос о создании при ВИНИТИ специальной информационной группы для работы с указателями цитированной литературы. Эта группа могла бы выполнять следующие задачи:
1) производить библиографический поиск по таким разделам науки, за развитием которых трудно следить по реферативным журналам... Одновременно с выдачей библиографий можно проводить тщательный количественный анализ этого процесса, т.е. сравнительную оценку скорости проникновения математических методов по разным странам;
2) следить за возникновением, расцветом и упадком отдельных научных школ и направлений путем наблюдения за степенью цитируемости публикаций отдельных научных коллективов;
3) определять уровень запаздывания в преемственности идей по распределению цитируемых работ по годам;
4) выдавать справки о цитируемости публикации отдельных ученых по их запросам. Как говорилось, это позволит установить систему обратной связи между автором и творчески активными читателями.
В заключение необходимо подчеркнуть, что указатель цитированной литературы было бы неправильно рассматривать только как информационно-поисковую систему. Такой указатель явится также очень ценным инструментом для изучения структуры исследовательского фронта науки и для объективной оценки эффективности научных исследований. В частности, уже по материалам первого года можно было бы дать обоснованную оценку значимости советских журналов и научных школ».
#wos #базыданных #новости
Сейчас кажется актуальной самая первая советская работа про SCI — вышедшая в 1967 году статья Руджеро Гиляревского с соавторами (кстати, Руджеро Сергеевич, сотрудничавший и с НУИ ВШЭ, до сих пор жив и здравствует).
Приведем лишь несколько пассажей:
«В нашей стране работа с указателями цитированной литературы должна развертываться в двух направлениях. Во-первых, необходимо использовать американский SCI для информирования советских ученых — академиков и руководителей проблемных советов и научно-исследовательских институтов АН СССР и т.д., а также для анализа структуры фронта научных исследований. Во-вторых, необходимо приступить к составлению собственного указателя цитированной литературы... После создания советского указателя цитированной литературы можно было бы договориться об обмене магнитными лентами с фирмой Institute for Scientific Information, возглавляемой Ю.Гарфилдом».
«Сейчас обсуждается вопрос о создании при ВИНИТИ специальной информационной группы для работы с указателями цитированной литературы. Эта группа могла бы выполнять следующие задачи:
1) производить библиографический поиск по таким разделам науки, за развитием которых трудно следить по реферативным журналам... Одновременно с выдачей библиографий можно проводить тщательный количественный анализ этого процесса, т.е. сравнительную оценку скорости проникновения математических методов по разным странам;
2) следить за возникновением, расцветом и упадком отдельных научных школ и направлений путем наблюдения за степенью цитируемости публикаций отдельных научных коллективов;
3) определять уровень запаздывания в преемственности идей по распределению цитируемых работ по годам;
4) выдавать справки о цитируемости публикации отдельных ученых по их запросам. Как говорилось, это позволит установить систему обратной связи между автором и творчески активными читателями.
В заключение необходимо подчеркнуть, что указатель цитированной литературы было бы неправильно рассматривать только как информационно-поисковую систему. Такой указатель явится также очень ценным инструментом для изучения структуры исследовательского фронта науки и для объективной оценки эффективности научных исследований. В частности, уже по материалам первого года можно было бы дать обоснованную оценку значимости советских журналов и научных школ».
#wos #базыданных #новости
Как с помощью библиометрии найти потенциально талантливых молодых людей в области естественных наук и наук о жизни?
Сегодня научно-исследовательские институты и университеты используют различные подходы к поиску перспективных молодых ученых. Есть множество процедур по отбору ученых на стипендии, позиции постдоков и т.д. В большинстве случаев учитывается не только экспертная оценка, но и библиометрические показатели. В основе подхода к выявлению молодых талантливых ученых, представленных в этом исследовании, лежат данные Scopus, позволяющие измерять индивидуальную производительность и выявлять таланты по всему миру на различных этапах карьеры.
Исходный набор данных для исследования был ограничен 1999-2020 годами и типами документов (статьи, обзоры и сборники трудов). В общей сложности — 45 709 395 публикаций. В качестве дополнительного источника использовали информацию о публикациях и грантах из Dimensions. В роли потенциально талантливых молодых ученых выступают авторы, которые к настоящему моменту провели в академической среде около десяти лет.
Для отбора использовались три показателя:
• количество статей в журналах с высоким нормализованным импакт-фактором (показатель Q1),
• общее количество статей (показатель O),
• количество статей, где автор выступал контактным лицом (показатель С).
По мнению авторов, эти показатели зарекомендовали себя в предыдущих исследованиях (см. обзор литературы) в качестве хороших предикторов успеха в науке. Авторы протестировали различные комбинации показателей для выявления талантливых ученых и обнаружили, что наиболее благоприятные результаты дает комбинация OxQ1: общее количество статей и количество статей в журналах с высоким нормализованным импакт-фактором. На этой основе создали базу данных потенциально талантливых ученых, которые опубликовали свою первую работу в период с 2007 по 2011 год и входят в топ-1% по показателям O и Q1 по крайней мере в одной широкой области классификатора ASJC.
Набор данных можно скачать бесплатно. Он содержит 46 200 потенциально талантливых ученых. Некоторые из них представлены в более чем одной широкой области ASJC. Результаты показывают, что наименьший процент молодых потенциально талантливых ученых был обнаружен в областях ветеринарии и иммунологии и микробиологии, а наибольший — в физике и астрономии, что может напрямую отражать специфику данных областей.
#обзор #scopus #базыданных
Сегодня научно-исследовательские институты и университеты используют различные подходы к поиску перспективных молодых ученых. Есть множество процедур по отбору ученых на стипендии, позиции постдоков и т.д. В большинстве случаев учитывается не только экспертная оценка, но и библиометрические показатели. В основе подхода к выявлению молодых талантливых ученых, представленных в этом исследовании, лежат данные Scopus, позволяющие измерять индивидуальную производительность и выявлять таланты по всему миру на различных этапах карьеры.
Исходный набор данных для исследования был ограничен 1999-2020 годами и типами документов (статьи, обзоры и сборники трудов). В общей сложности — 45 709 395 публикаций. В качестве дополнительного источника использовали информацию о публикациях и грантах из Dimensions. В роли потенциально талантливых молодых ученых выступают авторы, которые к настоящему моменту провели в академической среде около десяти лет.
Для отбора использовались три показателя:
• количество статей в журналах с высоким нормализованным импакт-фактором (показатель Q1),
• общее количество статей (показатель O),
• количество статей, где автор выступал контактным лицом (показатель С).
По мнению авторов, эти показатели зарекомендовали себя в предыдущих исследованиях (см. обзор литературы) в качестве хороших предикторов успеха в науке. Авторы протестировали различные комбинации показателей для выявления талантливых ученых и обнаружили, что наиболее благоприятные результаты дает комбинация OxQ1: общее количество статей и количество статей в журналах с высоким нормализованным импакт-фактором. На этой основе создали базу данных потенциально талантливых ученых, которые опубликовали свою первую работу в период с 2007 по 2011 год и входят в топ-1% по показателям O и Q1 по крайней мере в одной широкой области классификатора ASJC.
Набор данных можно скачать бесплатно. Он содержит 46 200 потенциально талантливых ученых. Некоторые из них представлены в более чем одной широкой области ASJC. Результаты показывают, что наименьший процент молодых потенциально талантливых ученых был обнаружен в областях ветеринарии и иммунологии и микробиологии, а наибольший — в физике и астрономии, что может напрямую отражать специфику данных областей.
#обзор #scopus #базыданных
Представляем свежий дайджест научных событий за последний месяц. Для удобства читателей мы разделили его на рубрики.
Научная политика
- Европейская организация по ядерным исследованиям (ЦЕРН) приняла решение не продлевать соглашение об участии российских научных организаций. Это означает также приостановку совместной работы не только на Большом адронном коллайдере, но и по другим крупным проектам. Срок действия этого соглашения истекает 30 ноября 2024 года.
- Академик А. Р. Хохлов пишет, что деятельность компании Pleiades, которая на протяжении 30 лет обеспечивала перевод статей из российских журналов на английский язык, а также размещение этих статей на платформе издательства Springer, с 2024 года будет осуществляться в РФ через дочернюю сербскую компанию «Pleiades Resources Beograd». Приостановка сотрудничества с Pleiades чревата прекращением индексации журналов международными базами данных.
Базы данных
- Иван Бегтин анонсировал запуск новой платформы для поиска данных — Dateno. Это поисковик, который уже содержит 10 млн наборов данных из 4900 каталогов всего мира. До конца 2024 года разработчики проекта планируют добавить открытый API и увеличить наборы данных до 30 млн.
- Компания OurResearch сообщает о получении гранта в размере $7,5 млн от благотворительного фонда Arcadia на развитие OpenAlex и создание устойчивого и полностью открытого индекса мировой исследовательской экосистемы.
- Коллеги из телеграм-канала “Научные журналы и базы данных” выпустили подробный пост о последнем обновлении Google Scholar для работы с pdf-документами.
Научная этика
- В Scolary Kitchen снова подняли тему использования ИИ в написании научных статей. Озабоченность связана с недавно обнаруженными двумя публикациями Elsevier, в которых содержались такие фразы как: «Конечно, вот возможное введение к вашей теме:…» и «Мне очень жаль, но у меня нет доступа к информации в реальном времени или к данным, касающимся конкретного пациента, поскольку я являюсь языковой моделью».
- В Science вышла статья о Фонде научной честности, который готов оказывать поддержку ученым, отстаивающим чистоту результатов исследований.
- Департамент науки Китая провёл крупную проверку отозванных научных публикаций. В статье-комментарии к событию отмечено, что проведённый аудит подтверждает растущее внимание к ретракции результатов исследований.
- В Times вышли статья и видеообзор на тему разоблачения фальсифицированных исследований рака, опубликованных ведущим ученым Колумбийского университета.
#дайджест #базыданных #новости #открытыйдоступ #OpenAlex #международноесотрудничество #искуственныйинтеллект
Научная политика
- Европейская организация по ядерным исследованиям (ЦЕРН) приняла решение не продлевать соглашение об участии российских научных организаций. Это означает также приостановку совместной работы не только на Большом адронном коллайдере, но и по другим крупным проектам. Срок действия этого соглашения истекает 30 ноября 2024 года.
- Академик А. Р. Хохлов пишет, что деятельность компании Pleiades, которая на протяжении 30 лет обеспечивала перевод статей из российских журналов на английский язык, а также размещение этих статей на платформе издательства Springer, с 2024 года будет осуществляться в РФ через дочернюю сербскую компанию «Pleiades Resources Beograd». Приостановка сотрудничества с Pleiades чревата прекращением индексации журналов международными базами данных.
Базы данных
- Иван Бегтин анонсировал запуск новой платформы для поиска данных — Dateno. Это поисковик, который уже содержит 10 млн наборов данных из 4900 каталогов всего мира. До конца 2024 года разработчики проекта планируют добавить открытый API и увеличить наборы данных до 30 млн.
- Компания OurResearch сообщает о получении гранта в размере $7,5 млн от благотворительного фонда Arcadia на развитие OpenAlex и создание устойчивого и полностью открытого индекса мировой исследовательской экосистемы.
- Коллеги из телеграм-канала “Научные журналы и базы данных” выпустили подробный пост о последнем обновлении Google Scholar для работы с pdf-документами.
Научная этика
- В Scolary Kitchen снова подняли тему использования ИИ в написании научных статей. Озабоченность связана с недавно обнаруженными двумя публикациями Elsevier, в которых содержались такие фразы как: «Конечно, вот возможное введение к вашей теме:…» и «Мне очень жаль, но у меня нет доступа к информации в реальном времени или к данным, касающимся конкретного пациента, поскольку я являюсь языковой моделью».
- В Science вышла статья о Фонде научной честности, который готов оказывать поддержку ученым, отстаивающим чистоту результатов исследований.
- Департамент науки Китая провёл крупную проверку отозванных научных публикаций. В статье-комментарии к событию отмечено, что проведённый аудит подтверждает растущее внимание к ретракции результатов исследований.
- В Times вышли статья и видеообзор на тему разоблачения фальсифицированных исследований рака, опубликованных ведущим ученым Колумбийского университета.
#дайджест #базыданных #новости #открытыйдоступ #OpenAlex #международноесотрудничество #искуственныйинтеллект
Представляем свежий дайджест научных событий за последний месяц.
Редакторская политика
- В Nature вышла заметка об исследовании, подтверждающем эффективность внедрения стандартизированных рецензий на статьи. По результатам внедрения таких рецензий в 23 журналах издательства Elsevier редактор журнала Research Integrity and Peer Review делает вывод, что рецензенты, руководствуясь одними и теми же вопросами, чаще дают схожие первоначальные рекомендации относительно необходимости отклонения или принятия поступивших рукописей.
Научная политика
- На Scholarly Kitchen вышел обзор обновленной политики Фонда Билла и Мелинды Гейтс (Bill & Melinda Gates Foundation) в отношении открытого доступа в 2025 году. Вопреки ожиданиям, сложившимся на основании заявлений команды Фонда, политику Фонда затронут лишь некоторые незначительные изменения. Так, например, теперь в открытом доступе обязательно должны быть размещены препринт финансируемого исследования и текст статьи. В 2021 году это требование распространялось только на статьи.
Научная этика
- Лесли Макинтош, основательница Ripeta (компания, занимающаяся вопросами повышения качества и честности исследований), вице-президент Digital Science, предложила ввести новую область наукометрии — судебную наукометрию (Forensic Scientometrics (FoSci), что позволит выделить в отдельную категорию деятельность энтузиастов-расследователей, выступающих за соблюдение принципов академической честности.
- Сервис Turnitin отмечает первую годовщину создания ИИ-детектора письменных работ. За это время сервис обработал 200 миллионов работ, из которых 22 миллиона имеют не менее 20% содержания, написанного при помощи ИИ, а 6 миллионов — не менее 80%. С момента запуска сервис был признан инновационным решением в области образовательных технологий, поддерживающим академическую честность.
Базы данных
- Обновились показатели SJR для источников, входящих в Scopus. По традиции мы рассмотрели изменение позиций российских журналов в одном из постов.
- Вчера OpenAlex провел вебинар по работе с данными базы с привлечением Python. Код с использованием стандартных библиотек, а также видео можно найти по ссылке.
#дайджест #базыданных #новости #OpenAlex #искуственныйинтеллект
Редакторская политика
- В Nature вышла заметка об исследовании, подтверждающем эффективность внедрения стандартизированных рецензий на статьи. По результатам внедрения таких рецензий в 23 журналах издательства Elsevier редактор журнала Research Integrity and Peer Review делает вывод, что рецензенты, руководствуясь одними и теми же вопросами, чаще дают схожие первоначальные рекомендации относительно необходимости отклонения или принятия поступивших рукописей.
Научная политика
- На Scholarly Kitchen вышел обзор обновленной политики Фонда Билла и Мелинды Гейтс (Bill & Melinda Gates Foundation) в отношении открытого доступа в 2025 году. Вопреки ожиданиям, сложившимся на основании заявлений команды Фонда, политику Фонда затронут лишь некоторые незначительные изменения. Так, например, теперь в открытом доступе обязательно должны быть размещены препринт финансируемого исследования и текст статьи. В 2021 году это требование распространялось только на статьи.
Научная этика
- Лесли Макинтош, основательница Ripeta (компания, занимающаяся вопросами повышения качества и честности исследований), вице-президент Digital Science, предложила ввести новую область наукометрии — судебную наукометрию (Forensic Scientometrics (FoSci), что позволит выделить в отдельную категорию деятельность энтузиастов-расследователей, выступающих за соблюдение принципов академической честности.
- Сервис Turnitin отмечает первую годовщину создания ИИ-детектора письменных работ. За это время сервис обработал 200 миллионов работ, из которых 22 миллиона имеют не менее 20% содержания, написанного при помощи ИИ, а 6 миллионов — не менее 80%. С момента запуска сервис был признан инновационным решением в области образовательных технологий, поддерживающим академическую честность.
Базы данных
- Обновились показатели SJR для источников, входящих в Scopus. По традиции мы рассмотрели изменение позиций российских журналов в одном из постов.
- Вчера OpenAlex провел вебинар по работе с данными базы с привлечением Python. Код с использованием стандартных библиотек, а также видео можно найти по ссылке.
#дайджест #базыданных #новости #OpenAlex #искуственныйинтеллект