Выше квартилей
2.73K subscribers
110 photos
1 video
1 file
301 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
Сравнение некрологов, индексируемых в Web of Science и OpenAlex

Продолжая затронутую в предыдущем посте тему, мы решили подробнее посмотреть на биографии и некрологи, посвященные выдающимся исследователям. Подобный жанр относительно редко встречается в научных журналах: например, в статье, посвященной анализу биографических статей в WoS, говорится, что таких публикаций меньше 2% от общего числа индексируемых текстов. В это число также входят статьи, традиционно не относящиеся к жанру биографии (стенограммы лекций, обзорные материалы и т. п.).

В ходе анализа статей в хронологической выборке с 1945 по 2014 годы (всего рассмотренно 190 350 статей) авторы пришли к выводу о наличии определенных тенденций, касающихся гендерного и предметного распределения проанализированных данных.

Так, например, установлено, что 78,0% статей написаны о мужчинах, 15,8% — о женщинах, а в 6,1% случаев (11 689 статей) пол человека, которому посвящалась публикация, не был распознан. Пол автора статьи чаще всего не был связан с полом описываемого ученого: среди авторов и мужчины, и женщины в одинаковой степени писали чаще о мужчинах. Наибольшая доля статей о женщинах относилась к области искусств и гуманитарных наук (почти 24%), социальных наук (более 18%) и междисциплинарных наук (более 17%). Самая низкая доля была в науках о жизни и биомедицине (14%), а также в области технологий и физических наук (обе области — чуть больше 12%).

Несмотря на то, что научные статьи в областях естественных и биомедицинских наук обычно цитируются чаще, чем, например, в социальных науках, наибольшее среднее число цитирований биографических статей было обнаружено именно в области социальных наук.

С 2007 года происходит уменьшение количества биографических статей. Эту тенденцию можно объяснить развитием интернета и переходу от традиционных биографических статей к персональным веб-страницам организаций.

В нашем посте мы хотели бы обратить внимание на самую распространенную подкатегорию биографических статей — некрологи, которые составляют около 61% от общего числа таких статей. При этом более 45% из них были связаны с естественными науками, а гендерное распределение в этой категории примерно такое же, как и в обычных биографических статьях: 77% некрологов посвящены мужчинам, 15% — женщинам.

В OpenAlex в отличие от Web of Science нет отдельного типа публикации «biographical item», однако «biography» присутствует в списке концептов. Мы проанализировали более 100 тысяч публикаций, относящихся к этой категории, и отобрали среди них те, в заголовке которых указаны годы жизни деятеля, которому посвящена публикация. На основании этих данных, а также данных Web of Science по предметным областям журналов, мы построили диаграмму, на которой отображается медианное количество прожитых лет, а также квартильные значения по этому показателю по каждой из 6 областей ОЭСР. Средний возраст по всем областям — 63,9 лет.

#некрологи #webofscience #openalex
​​Алгоритмы анализа междисциплинарных исследований 

Количественный анализ междисциплинарных исследований имеет значение при оценке степени интеграции различных гипотез, концепций, теорий и методов из двух и более областей специализированного знания.

Одним из наиболее дискуссионных подходов к изучению междисциплинарности исследований является анализ списка источников публикаций. При таком подходе список источников классифицируется по дисциплинам. Как правило, исследователи используют тематические классификаторы (например, предметные категории Web of Science) или распределяют источники по предметным категориям журналов. Такой подход базируется на информации о сходстве или «когнитивной дистанции», т.е. интеграция идей из двух схожих областей будет оказывать меньшее влияние на степень междисциплинарности, чем интеграция из двух несхожих.

Для измерения междисциплинарности публикаций ученые используют показатель разнообразия Стирлинга и/или его усовершенствованные версии. Согласно его концепции, измерение разнообразия опирается на сумму трёх основных факторов:

• Разнообразие (variety) «Разнообразие — это количество категорий, по которым распределены элементы системы и ответ на вопрос: «Сколько у нас типов вещей?».
• Баланс (balance). «Чем более равномерен баланс, тем больше разнообразие».
• Несоответствие (disparity). «Это ответ на вопрос: «Насколько отличаются друг от друга типы вещей, которые у нас есть?» (Stirling A. A, 2007)

Прежде чем приступать к анализу разнообразия и баланса, мы решили проанализировать соответствие предметных областей Citation Topic (Web of Science) и OA concepts (OpenAlex). Список Citation Topic разделяется на макро-, мезо- и микро-уровень. Микро-уровень, который мы решили рассматривать, насчитывает 2488 областей — это, пожалуй, один из самых подробных классификаторов после списка концепций OpenAlex, который содержит более 65 тысяч предметных областей пяти различных уровней. Однако только для 1871 микро-области (75%) Citation Topic нашлось достаточно точное соответствие из списка концепций OpenAlex.

Напомним, что концепции OpenAlex присваиваются публикациям автоматически на основании названия журнала, заголовка и аннотации статьи. Каждой публикации присваивается несколько концепций, а для каждой концепции указывается балл связи (score) от 0 до 1, который свидетельствует о том, с какой вероятностью статья относится к указанной предметной области.

Для анализа был взят набор из всех российских публикаций за 2023 год. В Web of Science их количество составило 40 126, в OpenAlex — 109 420. Было решено найти пересечение по DOI, и объем итогового массива составил 32 355 публикаций. Для этих публикаций были добавлены Citation Topic Micro и все концепции OA с баллом связи. Оказалось, что для большей части (26 854, или 83%) предметные области по этим классификаторам вообще не пересекаются. Результаты по оставшимся оказались, как и ожидалось, достаточно неплохими: медианное значение балла связи составило 0,65.

Итак, несмотря на то, что 75% Citation Topic Micro имеют одно или даже несколько соответствий среди концепций OpenAlex, на реальном массиве данных всего 17% статей имеют частичное совпадение в классификации.

Таким образом, применение разных типов распределения на предметные категории (Citation topics — алгоритм Лейдена, OpenAlex — Microsoft Academic Graph) будет значительно отражаться на результатах количественной оценки междисциплинарности.

#webofscience #openalex #citationtopic #междисциплинарность
​​Российской академии наук 300 лет!

Сегодня отмечается День российской науки, празднование которого приурочено к дате основания Петербургской академии наук, учрежденной по распоряжению императора Петра I указом правительствующего Сената от 28 января (8 февраля по новому стилю) 1724 г.

В пункте 4443 полного собрания законов Российской империи указано, что Академии наук были разделены на 3 класса:
1) математический (теоретическая математика, механика, астрономия, география, навигация);
2) физический (теоретическая и экспериментальной физика, химия, анатомия, ботаника);
3) гуманитарный («красноречие и древности», «история древняя и новая», право, политика и этика).

В 1917 году Петербургская академия наук была переименована в Российскую академию наук, в 1925 получила название Академии наук СССР, а в 1991 восстановила предыдущее название.

РАН издает множество научных журналов. Старейший из тех, что издается по сей день, — «Известия Российской академии наук. Серия литературы и языка» — был основан в 1852 году.

На сегодняшний день РАН лидирует среди российских организаций в Web of Science почти по всем показателям. С 1980 по 2022 гг. в базе WoS проиндексировано более 760 тысяч публикаций, процитированных более 8 миллионов раз, из них почти 200 тысяч написано в соавторстве с иностранными учеными, а более 100 тысяч — опубликованы в журналах Q1. Среди научных областей однозначно ведущую позицию занимает физика — по этому направлению ученые РАН опубликовали более 500 тысяч работ. Второе место занимает инженерия, а третье - естествознание (до 1993 года естествознание опережало инженерию).

На диаграмме представлено распределение количества публикаций ученых из РАН по годам и областям науки.

Мы желаем Российской академии наук экспоненциального роста во всех областях и сердечно поздравляем с юбилеем!

#деньроссийскойнауки #РАН #webofscience
​​Олигополия журналов открытого доступа

В последние десятилетия академические библиотеки столкнулись с кризисом, связанным с увеличением стоимости на подписки журналов. Исследователи объясняют возникшую проблему олигополией нескольких ведущих коммерческих издательств, которые использовали стратегии дифференциации продуктов и ценообразования, чтобы манипулировать рынком подписок на научные журналы.

В сравнении с традиционным подходом к публикациям, модель публикаций открытого доступа позволяет издателям получать доход в процессе производства, а не в процессе продаж, что не только минимизирует производственные расходы и финансовые потери от непроданных копий, но и снижает порог входа на рынок. Несмотря на ощутимые преимущества такого подхода, малоизвестные издательства всё еще не могут конкурировать с крупными.

Так, известное издательство ничем не рискует при выпуске нового журнала, так как он будет ассоциироваться с высоким качеством и престижностью, также крупные издательства могут взимать более высокую плату за обработку публикаций за счет бренда и отсутствия фиксированных цен на рынке и предлагать гибридный открытый доступ, позволяющий получать доход от одной и той же статьи дважды (т.е. оплату за подписку и за обработку публикации).

Помимо прочего, ключевым фактором, по мнению авторов статьи, является подсчет статей, индексируемых крупномасштабными библиометрическими базами данных (охватывающим журналы коммерческих издательств), который создает сильный стимул для исследователей публиковаться именно в них (молодым исследователям это нужно для продвижения по карьерной лестнице, а состоявшимся — для подтверждения грантов) что, в свою очередь, усиливает контроль коммерческих издателей над научным сообществом.

В 2020 году на издательском рынке открытого доступа было опубликовано в общей сложности 640 169 статей, индексирующихся в Web of Science (WoS). Доход от сборов за обработку статей (APC) составил 1 254 775 669 долларов, при этом на долю восьми крупнейших издательств открытого доступа (MDPI, Springer-Nature, Elsevier, Wiley, Frontiers, PLOS, Hindawi, Taylor & Francis) пришлось почти 70,63% общего дохода, несмотря на то, что они производят всего 30,92% продукции на рынке. При этом число издателей открытого доступа резко выросло с 1368 (2008 г.) до 8442 в (2020 г.).

Сложившаяся ситуация давно вызывала волнения в научном сообществе. Так, в 2012 году кампания Сost of Knowledge, запущенная кембриджским математиком Тимоти Гауэрсом, просила исследователей протестовать против бизнес-модели Elsevier путем полного бойкотирования ее журналов. Несколько университетских библиотек, в том числе крупных и известных университетов, такие как Калифорнийский университет и Гарвард, также вели активные переговоры с крупными коммерческими издателями и грозили бойкотом. Констанцский университет просто отменил все подписки Elsevier, поскольку не мог и не хотел идти в ногу с агрессивной ценовой политикой компании (рост стоимости на подписки на 30% с 2010 по 2015 год) (Larivière, Haustein, Mongeon, 2015). На графике в статье приводится изменение средней стоимости публикации Gold OA у Elsevier и других ведущих издательств.

Таким образом, несмотря на то, что модель публикаций открытого доступа рассматривалась изначально в том числе как решение проблемы олигополии научных издательств, со временем соотношение издательств этой модели на рынке само стало напоминать олигополию.

#открытыйдоступ #webofscience #elsevier #обзор
О «спящих красавицах» или эффекте статей-бустеров

У научных публикаций есть стандартный паттерн цитируемости: постепенное возрастание числа цитирований в течение нескольких лет, а после пика — медленное снижение. В ряде научных областей, а также при отсутствии устаревания содержания статьи, уровень цитируемости выходит на плато. Наконец, для фундаментальных публикаций, ставших классическими в своей области, цитируемость со временем может снова постепенно возрастать.

Еще в 2004 г. ван Раан описал феномен «спящих красавиц» — статей, которые в течение долгого периода остаются незамеченными, а затем вдруг привлекают повышенное внимание благодаря одной или нескольким цитированиям. Он предложил три характеристики для таких статей: глубина «сна», продолжительность «сна» и интенсивность «пробуждения», а также выявил лидера по этим показателям и предложил метод предсказания «пробуждения».

С повышением качества метаданных в международных библиометрических базах к описанной проблеме выработался новый подход, позволяющий не только найти «пробуждающие» статьи, но и выявить общие темы, то есть выяснить, в каком направлении развивается научная мысль в данной сфере. Так, в недавней публикации в Scientometrics описывалось неожиданное изменение профиля цитируемости статьи о квантовом эффекте Холла (за эту работу Клаус фон Клитцинг получил Нобелевскую премию по физике в 1985 году). Статья фон Клитцинга, опубликованная в 1980 г., вышла на плато цитируемости (порядка 70) в 1990 г., а в 2021 г. достигла нового пика популярности — ее процитировали почти 300 раз. Это привлекло внимание авторов, которые решили найти причины возрождения интереса к описываемой проблеме. Для этого они использовали данные Web of Science и метод RPYS-CO (Reference Publication Year Spectroscopy based on co-cited papers), который позволяет выявить истоки и отследить историю разработки какой-либо научной темы.

Выяснилось, что наиболее вероятными статьями-«бустерами» (или, по ван Раану, «принцами»), которые снова привлекли внимание к классической публикации фон Клитцига, стали пять публикаций, вышедших с 2005 по 2010 г., и все они посвящены одной из тем, которые затрагивались в изначальном исследовании (а именно — топологическим изоляторам). Описанный метод можно применять для анализа других случаев нестандартного профиля цитируемости.

#webofscience #цитируемость #обзор
​​Сравнение методов расчета высокоцитируемых публикаций

Подсчет статей, которые выделяются за счет аномально высокого количества полученных цитирований, являются объектом изучения экспертов, занимающимися количественным анализом науки.

Очевидная необъективность и отсутствие точных методов, которые используются для составления «рейтингов» высокоцитируемых публикаций, заставляют исследователей искать новые подходы для их усовершенствования. Наиболее распространенным из различных критериев такой оценки является определение высокоцитируемых статей как статей, находящихся в первом процентиле (верхний 1%) числа цитирований, с чем связано два неразрешенных вопроса:

· как составить список наиболее цитируемых статей, ранжированных в порядке убывания (или возрастания), в зависимости от метода?

· как преобразовать это порядковое распределение в процентили, пригодные для сравнения публикаций в разных предметных областях?

Используемые для решения этих вопросов методы на данный момент имеют определенные недостатки. Но всё же общее мнение исследователей сводится к тому, что независимо от того, как рассчитывается рейтинг, необходимо учитывать практику публикаций и цитирования каждой научной специальности, чтобы уменьшить влияние асимметрии науки. Недавнее введение в Web of Science процентиля предметных категорий для журналов, перечисленных в Journal Citation Reports (JCR), является подтверждением такого консенсуса.

В 2022 году был предложен новый подход — метод Вагнер, который, в отличие от распространенных, не учитывает год выхода и тип публикации, а также направленность журнала. В апрельской статье Quantative Science Studies авторы проанализировали эффективность предложенного подхода путем его сопоставления с более привычным (в основе которого лежит метод InCites, схожий с методами Лейденского рейтинга и SCImago Journal Rank).

Исследование показало, что при использовании метода Вагнер статистическое предпочтение отдается публикациям из Китая, Японии, Южной Кореи и Сингапура, а также Саудовской Аравии и Швейцарии. В отличие от InCites, он отводит меньшую долю другим странам и регионам, таким как Австралия, Канада, Европейский союз, Великобритания, Бразилия и Южная Африка.

Анализ по дисциплинам (см. график) объясняет этот перекос: страны, в которых более развиты инженерные науки, более широко представлены в новом подходе. С другой стороны, страны со значительной долей публикаций фундаментальных исследований, исследований в области социальных и гуманитарных наук представлены недостаточно по сравнению с данными, полученными при помощи метода InCites.

Согласно результатам исследования, выбор метода расчета перцентилей влияет на долю представленности стран и дисциплин: по мнению авторов, метод Вагнер существенно искажает результаты, а «верность традиционным методам», применяемым для составления рейтинга высокоцитируемых статей, абсолютно оправдана.

#обзор #HCP #webofscience #рейтинги
​​Самоцитирования журналов: тематический, страновой и квартильный разрезы

Постепенно возвращаясь к академическому ритму после летних каникул, мы решили обратить внимание наших подписчиков на динамику самоцитирований журналов, индексирующихся в Web of Science.

В онлайн-руководстве вопрос самоцитирований рассматривается как с точки зрения отдельного автора, так и с позиции журнального самоцитирования. Основная проблема самоцитирований в последнем случае — это искажение информации об истинной видимости журнальных статей академическим сообществом, что снижает надежность метрик, рассчитываемых на основе цитируемости (в том числе и широко используемых квартилей, являющихся побочным продуктом статистического подхода). Последние работы в области наукометрии (Bennett H., Singh B. & Slattery F.: 2024; Fiorillo. L.: 2024) показывают, что интерес к оценке самоцитирований не только сохраняется, но и является драйвером для описания тех изменений, которые претерпевают отдельные научные области.

Наша сегодняшняя аналитика продолжает заданное направление и построена на данных по источникам WoS за 2021-2023 гг. На диаграмме можно увидеть области, в которых наиболее часто встречается самоцитирование: в основном это узкие специфические области литературы (в частности, славянская литература — в среднем более 50% самоцитирований) и физики (физика полей и частиц, астрофизика, физика плазмы — 25-30%) Если говорить о странах-издателях журналов, то наибольшее количество самоцитирований встречается в журналах стран Африки и СНГ.

С квартилем журнала доля самоцитирований коррелирует слабо, но устойчиво — медианное значение составляет от 7,2% в журналах Q1 до 11,3% в Q4. Наблюдается и зависимость от коллекции, в которую входит журнал: меньше всего прибегают к самоцитированию авторы журналов из коллекции SCIE (Science Citation Index Expanded, 7,3%), за ней следует SSCI (Social Sciences Citation Index, 9,3%). У коллекций ESCI (Emerging Sources Citation Index) и AHCI (Arts & Humanities Citation Index) показатели самоцитирования выше — 10,2% и 11,1% соответственно.

#аналитика #самоцитирование #webofscience #руководство
​​Анализ цитирований в российских публикациях в Web of Science

В последнем выпуске Journal of Scientometric Research в соавторстве с Дарьей Мальцевой (ВШЭ) вышла статья, посвященная библиометрическому анализу российской науки на базе 1,38 млн публикаций российских (со)авторов.

В основе работы — использование метода спектроскопии года публикации цитируемых работ (RPYS — Reference Publication Year Spectroscopy), разработанного в 2013 Вернером Марксом. Этот метод, как правило, применяется для более ограниченных датасетов (например, для публикаций одного исследователя, журнала или научной дисциплины). Для обработки миллионов записей данных метод был масштабирован авторами исследования с использованием СУБД, что позволило проанализировать исторические корни российской науки.

В качестве исходных данных был взят массив статей, индексированных в WoS до мая 2022 года, у которых хотя бы один из авторов имеет российскую аффилиацию, в виде текстовых файлов. Почти все статьи приходятся на период с 1992 по 2022 гг, до 1992 публикаций крайне мало. Общее количество ссылок в описанном массиве — более 32 млн, при этом 1,66 млн ведут на статьи, входящие в исходный датасет.

Согласно результатам исследования:

🔹 Количество ссылок в статьях заметно возросло с течением времени: если в 1992 г. в публикации приводилось в среднем 15 ссылок, то в 2022 г. их было 47.
🔹 Один из основных объектов анализа — разница в «возрасте» между статьей и публикациями, которая она цитирует. Подавляющее большинство ссылок приходится на группу 20+ лет — это означает, что российская наука в значительной степени опиралась на более «старые» фундаментальные исследования.
🔹 Общий средний возраст цитируемых статей составил 14,5 лет, и в рассматриваемый период (с 1992 по 2022) он увеличился примерно на 14%. Следует отметить и динамику: так, средний возраст достигает пика (15,5 лет) в 2014 г., а затем снижается. Таким образом, авторы публикаций, написанных после 2014 года, начинают чаще цитировать более «свежие» статьи.

Если говорить о научных журналах, то во все периоды чаще всего цитировались Physical Review Letters, Physical Review B, Physical Review D, The Astrophysical Journal, The Journal of Chemical Physics и Journal of the American Chemical Society, а также Nature и Science. До 2000 года в топ-10 входили также «Доклады Академии Наук СССР», но после 2000-х цитировать их практически перестали.

Так или иначе, подавляющее число цитирований приходится на долю естественных наук, что отмечают и сами авторы.

#обзор #цитирования #RPYS #WebofScience