Выше квартилей
2.73K subscribers
110 photos
1 video
1 file
302 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
Всемирный день искусства сквозь призму наукометрии и креативной карьеры

Архитектура, кинематограф, танец, изобразительное искусство, литература, музыка, фотография, театр — на все эти направления искусства мы сегодня решили взглянуть с помощью наукометрии. Мы проанализировали статьи из базы данных OpenAlex, которым был присвоен хотя бы один concept из специально составленных по каждой тематике списков. Количество статей варьировалось от 7600 (по архитектуре) до 175000 (по литературе). В общей сложности под результат запроса попали 412000 статей.

Мы также использовали аннотации к статьям, чтобы определить, какие словосочетания встречаются в статьях чаще других. В аннотациях мы выделили ряд биграмм и 1000 наиболее часто встречающихся по каждой тематике изобразили на картинках к посту.

Говоря об исследованиях в области искусства, нельзя не затронуть вопрос о том, как ученому и художнику представить свои достижения. На прошлой неделе прошел круглый стол «Помогающие инициативы для развития креативной карьеры», с материалами которого рекомендуем вам ознакомиться. К дискуссии были приглашены представители «помогающих инициатив», которые работают с карьерным развитием в сложных сегментах — художественном (искусство, литература, хореография) и научном.

Круглый стол прошел в рамках конференции «Теории и практики искусства и дизайна: социокультурные, экономические и политические контексты», ассоциированном мероприятии XXIV Ясинской конференции.

#OpenAlex #открытыйдоступ #инфографика
26 апреля в 16:00 вебинар с Алексеем Лутаем: «Наукометрия на открытых данных, или “жизнь после»

Продолжаем открытое профессиональное обсуждение важных тем с ведущими российскими наукометристами. Пригласили выступить Алексея Лутая (РЦНИ), модератор — Иван Стерлигов. Вебинар будет посвящен открытым библиографическим базам данных и качеству содержащихся в них метаданных.

Уход с российского рынка Web of Science и Scopus и последовавший за этим мораторий на учет публикационных показателей создали предпосылки для переоценки влияния наукометрии на развитие отечественной науки. Хаотичное создание новых баз данных, метрик и ГОСТов отвлекает внимание от необходимости обсуждения основополагающих вопросов, ответы на которые необходимо дать с позиции приобретенного опыта:
• какие из наукометрических практик действительно полезны для развития науки, а какие бессмысленны или, хуже того, попросту вредны?
• какие меры необходимо предпринять для создания и долгосрочного развития лучших практик?

Ответ на эти вопросы невозможен без глубокого анализа данных, обсуждения их качества и доступности. Что у нас есть прямо сейчас, а что мы сможем иметь через год?

Приглашаем на вебинар всех желающих. Трансляция будет здесь. Записи предыдущих вебинаров на нашем сайте и youtube-канале.

#анонс
#вебинары #scopus #wos
Представленность исследований на китайском языке

Говоря о представленности исследований на разных языках, мы уже писали про многоязычие в научной коммуникации на примере Хельсинкской инициативы и языковое разнообразие научных публикаций на примере хэндбука по социальным наукам, а еще про национальные предпочтения книг в открытом доступе. Результаты исследований показывают глобальный интерес к книгам с региональной направленностью. Большинство читателей, скорее, скачают либо неанглоязычную книгу, либо, если книга написана на английском, тематически актуальную для контекста страны читателя. Тем не менее, согласно данным по социальным наукам, 65% исследователей в начале карьеры (до 10 лет с момента получения PhD) публиковали работы на двух или более языках, в то время как среди исследователей со стажем более 11 лет публиковались на двух или более языках 61,5%. Среди женщин на двух или более языках публиковались 56,9%, а среди мужчин — 52%. Но национальные языки остаются актуальными как для областей STEM, так и для SSH.

Также мы уже затрагивали тему вклада китайских ученых в мировую науку. Так, например, в Китае самое большое количество студентов бакалавриата и магистратуры в области естественных и технических наук в мире. И описывали подход Китая к составлению белых и черных списков журналов.

Теперь мы решили провести свое языковое мини-исследование, приуроченное ко дню китайского языка. В базе данных Scopus за 2018-2022 годы числится 507,5 тысяч публикаций на китайском языке, что составляет чуть более 3% от общего числа публикаций этого периода. Больше всего публикаций в области инженерных наук — 186 тысяч за 5 лет (36%), медицины — 103 тысячи (20%), далее идут работы по физике и астрономии — 67 тысяч (13%) и примерно такое же количество публикаций в области материаловедения. Интересно то, что исследования в области инженерии в Китае (или написанные на китайском языке) значительно популярнее, чем инженерные исследования в целом по миру (22%).

Также мы посмотрели, сколько статей российских авторов (имеющих или имевших аффилиацию с российским вузом) написаны на китайском языке. Их оказалось всего 161 (из 507,5 тысяч), и по большей части это авторы китайского происхождения, работающие или работавшие в российских организациях.

#обзор #scopus #китай
Вчера прошел вебинар, на котором Алексей Лутай (РЦНИ) рассказывал об открытых библиографических базах данных и качестве содержащихся в них метаданных. Запись вебинара и презентация доступны на на нашем сайте и youtube-канале.
Может ли ChatGPT усилить эффект Матфея: на примере наук об окружающей среде

Коллеги провели исследование о том, какие статьи и журналы в области экологии чаще всего цитирует ChatGPT.

Авторы исследования попросили GPT:

• определить десять наиболее значимых субдисциплин в области науки об окружающей среде;
• подготовить научную обзорную статью по каждой субдисциплине, включив в нее 25 ссылок.

Далее авторы проанализировали эти ссылки (количество ссылок, дата публикации и журнал).

В ходе работы выяснили, что GPT, как правило:

• ссылается на высокоцитируемые публикации в области науки об окружающей среде с медианным числом цитирований 1184,5;
• отдает предпочтение более старым публикациям, средний год публикации — 2010;
• преимущественно ссылается на авторитетные журналы в этой области, причем самым цитируемым журналом в GPT является Nature;
• полагается исключительно на данные о количестве цитирований из Google Scholar, а не использует информацию о цитировании из других научных баз данных, таких как Web of Science или Scopus.

#обзор #цитирование #искусственныйинтеллект
​​Новое в руководстве: раздел про OpenAlex

В онлайн-руководство добавлен раздел про OpenAlex — новую, свободную и открытую базу метаданных, за пару лет ставшую очень популярной. Это получилось за счет опоры на данные закрытого в прошлом году Microsoft Academic, творчески пополняемые и интегрируемые из десятка других источников. OpenAlex уже используется и в академической наукометрии, и как основа для новых научных поисковиков и других сервисов (Litmaps, Inciteful и т.д.).

Для России после отключения Web of Science и Scopus эта база наряду с Semantic Scholar, Lens и Dimensions стала особенно актуальна. Ее отличают бесплатность и максимально свободная лицензия, хороший и подробно документированный API. При этом по ряду аспектов она пока существенно отстает от классических баз, на что мы обращаем особое внимание.

#руководство #OpenAlex #открытыйдоступ
​​SJR 2022: что изменилось для российских журналов

В начале месяца обновились данные по показателю SJR для журналов, входящих в Scopus. Всего в обновленный список вошло 27955 изданий (годом ранее — 28306 журналов). В целом, тренд на сокращение рейтингового списка сохраняется с 2017 года.

Как и в прошлом году мы решили посмотреть на изменение позиций для журналов из России. Всего таких изданий в списке 507 — на 3 больше, чем в прошлом году. Большинство журналов Q1 по максимальному квартилю сохранили свои позиции (35 из 53). Сразу 7 журналов без квартиля по итогам прошлого года попали в Q1 сейчас, но в целом доля верхних квартилей изменилась незначительно. Журналы без квартиля в прошлом году в основном попали в 4 квартиль (41 из 76).

Для наглядности вновь подготовили sankey-диаграмму, которая отражает «миграцию» журналов. Кроме того, к ней прилагается таблица с указанием квартилей журналов в 2021 и 2022 году, в которой можно отфильтровать представленные на диаграмме случаи.

#scopus #sjr #квартили #россия #журналы #инфографика
​​Что пишут о ChatGPT в Scopus и Web of Science

Из-за популярности чат-ботов и ChatGPT растет количество исследований, посвященных им. Одно из них представляет собой анализ литературы по чат-ботам и комплексный обзор научных документов по ChatGPT и фокусируется только на публикациях, индексируемых в Scopus и Web of Science.

Авторы выбрали Scopus и Web of Science, поскольку обе эти базы включают наиболее важные журналы по информатике, статистике, инженерии и математике. На первом этапе был проведен библиометрический анализ всей опубликованной литературы, включая статьи, главы книг, доклады конференций и обзоры по чатботам из баз данных Scopus (5839) и WoS (2531) за период с 1998 по 2023 год. Углубленный анализ, сосредоточенный на источниках, странах, влиянии авторов и ключевых словах, показал, что ChatGPT является мейнстримом в рамках анализа чат-ботов. На втором этапе был проведен библиометрический анализ публикаций ChatGPT, и 45 опубликованных исследований были тщательно проанализированы на предмет использованных методов, новизны и выводов. Ключевые области интересов, выявленные в ходе исследования, можно разделить на три группы: искусственный интеллект и связанные с ним технологии, разработка и оценка разговорных агентов, а также цифровые технологии и психическое здоровье.

Основные выводы:

1️⃣ Исследования чат-ботов вызывают интерес у исследователей по всему миру, в них принимают участие ученые из более чем половины стран мира. Исследования ChatGPT уже проводились в 46 странах.

2️⃣ США занимают первое место по количеству публикаций, связанных как с чат-ботами, так и с ChatGPT. Далее идут Германия и Великобритания. Они входят в первую группу стран, выпускающих публикации по чат-ботам в Scopus, и занимают второе и третье места по количеству публикаций по ChatGPT, соответственно.

3️⃣ Психическое здоровье становится все более популярной областью исследований при анализе чат-ботов, разрабатываемых в области охраны здоровья. Исследователи отмечают, чат-боты расширяют возможности реализации когнитивно-поведенческой терапии.

4️⃣ В исследованиях, связанных с ChatGPT, популярная область — здравоохранение. Исследователи изучают потенциал ChatGPT для предоставления персонализированных рекомендаций по лечению, облегчения удаленного мониторинга пациентов и помощи медицинским работникам в принятии решений.

В заключении авторы отмечают, что ChatGPT выступает ключевым направлением в исследованиях чат-ботов, при этом текущая литература в основном сосредоточена на его возможностях и ограничениях в таких областях, как исследовательская этика, медицина и социальные науки.

#обзор #искусственныйинтеллект #chatgpt #wos #scopus
​​«Ночь музеев» в фокусе наукометрии

Ни для кого не секрет, что музеи и другие культурные объекты принимают активное участие в научно-исследовательской деятельности. На их базе изучаются археологические находки, памятники природы, предметы искусства, особенности геологии, культуры и истории различных регионов. В преддверии «Ночи музеев» мы подготовили информацию о научной активности пятнадцати российских музеев, галерей и национальных парков, профили которых есть в OpenAlex.

🏺Всего в базе OpenAlex было найдено 1057 статей, принадлежащих 568 авторам. Выделили 144 тематики различных уровней, по каждой из которых было не менее 3 публикаций.
🏺Больше всего в базе публикаций с аффилиацией Музея антропологии и этнографии (Кунсткамеры) в Санкт-Петербурге (702). За ним следует Государственный Эрмитаж (656) и Геологический музей им. Вернадского (340).
🏺Топ-3 тематики по числу публикаций для музеев — археология, геология и география. На четвертом месте искусство, далее радиоуглеродное датирование и другие узкопроофильные темы.
🏺Для национальных парков наиболее популярные темы — экология, экосистемы и изменение климата.

На диаграмме представлены наиболее популярные тематики и количество статей в них по каждой из рассмотренных организаций. Повышение качества метаданных в открытых базах данных позволит в будущем детальнее смотреть на профили музеев в разрезе наукометрии.

#открытыйдоступ #OpenAlex #музеи
Как с помощью библиометрии найти потенциально талантливых молодых людей в области естественных наук и наук о жизни?

Сегодня научно-исследовательские институты и университеты используют различные подходы к поиску перспективных молодых ученых. Есть множество процедур по отбору ученых на стипендии, позиции постдоков и т.д. В большинстве случаев учитывается не только экспертная оценка, но и библиометрические показатели. В основе подхода к выявлению молодых талантливых ученых, представленных в этом исследовании, лежат данные Scopus, позволяющие измерять индивидуальную производительность и выявлять таланты по всему миру на различных этапах карьеры.

Исходный набор данных для исследования был ограничен 1999-2020 годами и типами документов (статьи, обзоры и сборники трудов). В общей сложности — 45 709 395 публикаций. В качестве дополнительного источника использовали информацию о публикациях и грантах из Dimensions. В роли потенциально талантливых молодых ученых выступают авторы, которые к настоящему моменту провели в академической среде около десяти лет.

Для отбора использовались три показателя:

• количество статей в журналах с высоким нормализованным импакт-фактором (показатель Q1),
• общее количество статей (показатель O),
• количество статей, где автор выступал контактным лицом (показатель С).

По мнению авторов, эти показатели зарекомендовали себя в предыдущих исследованиях (см. обзор литературы) в качестве хороших предикторов успеха в науке. Авторы протестировали различные комбинации показателей для выявления талантливых ученых и обнаружили, что наиболее благоприятные результаты дает комбинация OxQ1: общее количество статей и количество статей в журналах с высоким нормализованным импакт-фактором. На этой основе создали базу данных потенциально талантливых ученых, которые опубликовали свою первую работу в период с 2007 по 2011 год и входят в топ-1% по показателям O и Q1 по крайней мере в одной широкой области классификатора ASJC.

Набор данных можно скачать бесплатно. Он содержит 46 200 потенциально талантливых ученых. Некоторые из них представлены в более чем одной широкой области ASJC. Результаты показывают, что наименьший процент молодых потенциально талантливых ученых был обнаружен в областях ветеринарии и иммунологии и микробиологии, а наибольший — в физике и астрономии, что может напрямую отражать специфику данных областей.

#обзор #scopus #базыданных
Соответствие журналов Белого списка квартилям журналов в Scopus и WoS

На страничке Белого списка (далее БС) появились уровни журналов. На представленных ниже картинках мы построили связь между старыми квартилями по двум базам и новыми уровнями.
В целом можно сказать, что уровни БС примерно соответствуют квартилям Scopus. Тогда как журналы WoS входят в основном в первые 3 уровня, а первый уровень БС соответствует 1-2 квартилю WoS.

#журналы #белыйсписок #scopus #wos #россия
​​Общероссийский день библиотек

Сегодня отмечается Общероссийский день библиотек. В этот день в 1795 году была основана Императорская публичная библиотека (сегодня — Российская национальная библиотека). Объем фонда этой библиотеки с тех пор вырос с 300 тысяч до 40 миллионов экземпляров. Что можно сказать о российских библиотеках сегодня?

По данным Министерства культуры в России на конец 2022 года насчитывалось 40906 библиотек с общим фондом хранения более 800 миллионов документов. Российская государственная библиотека с 48 млн документов занимает 5 место в мире по объему библиотечного фонда, а упоминавшаяся выше Российская национальная библиотека — 7 место.

Специалисты по библиотечному делу работают сегодня с каталогами, базами данных и автоматизированными библиотечно-информационными системами, которые отслеживают приобретение и обращение фондов и периодики. Всего таких систем порядка 16, причем одни из самых популярных (Alma, Aleph, Virtua и др.) принадлежат дочерним подразделениям компании Clarivate, оператору Web of Science. В России, наравне с Virtua, распространены национальные системы ИРБИС, РУСЛАН, а также внутренние разработки некоторых библиотек.

Сами по себе исследования в области библиотечно-информационного дела хотя и не являются ведущим направлением научной работы, все же производятся на базе библиотек и профильных учебных заведений. Исследуются, например, функции библиотек в наукометрии, особенности локальной библиографии, история и направления развития библиотек. На графике приведены наиболее активные организации, публикующие работы в области библиотечно-информационного дела, и количество их статей по этой теме, индексируемых в открытой базе OpenAlex.

#открытыйдоступ #OpenAlex #библиотеки
​​Цитирования и качество исследований: есть ли взаимосвязь?

Мы уже писали про анализ использования импакт-фактора в оценке исследований от британских коллег (там же мы кратко рассказали о программе UK Research Excellence Framework). Авторы того исследования обнаружили очень слабую положительную корреляцию между экспертными оценками статей и импакт-факторами журналов. Статья, о которой мы расскажем сегодня, является ответвлением исследования, проведенного в 2021 году в рамках подготовки к REF2028, и посвящена анализу взаимосвязи цитирований и качества исследований.

Ценность цитирований для оценки качества исследований нередко становится предметом научных споров. Безусловно, не всегда ясно, что именно подразумевают под качеством исследований, но обычно его рассматривают с точки зрения методологической строгости, новизны/оригинальности и влияния на науку или общество. Авторы называют свою статью первой крупномасштабной общенаучной академической оценкой взаимосвязи качества исследований и цитирований, сопоставляя данные для 87739 журнальных статей по 34 укрупненным предметным группам (UoA). Эти два показателя положительно коррелируют во всех академических областях, отражая в целом линейные отношения во всех областях.

Основные выводы, к которым авторы приходят:

• Статьи с большим количеством цитирований, как правило, более высокого качества во всех областях науки. Положительные корреляции наблюдаются даже в большинстве областей искусства и гуманитарных наук (включая Music, Drama, Dance, and Performing Arts; Studies in Creative Arts and Writing; Arts and Humanities), хотя сила этих связей значительно варьируется (см. скриншот).

• Высокое цитирование не гарантирует однозначное высокое качество исследований в какой-либо области.

• Положительная связь между исследованиями качества и цитируемости относительно универсальны.

К ограничениям данного исследования можно отнести тот факт, что все отобранные журнальные статьи публиковались сотрудниками британских университетов, и взаимосвязь между цитированием и качеством может быть иной в других странах. К тому же нормализация поля ограничена схемами Scopus и Dimensions, а сами статьи выбираются авторами самостоятельно и в большинстве случаев представляют лучшие по их мнению работы.

Таким образом, несмотря на то, что цитирование, нормализованное по соответствующим областям, положительно коррелирует с качеством исследований во всех областях, оно никогда не отражает значимость исследования в полной мере, даже при переходе к высокоцитируемым публикациям.

#обзор #цитирование #журналы #экспертнаяоценка
День русского языка: Пушкин в научных статьях

Сегодня, в День русского языка, в Вышке будут объявлены победители Конкурса лучших русскоязычных научных и научно-популярных работ работников НИУ ВШЭ. В этом году конкурс проводится уже в третий раз, в нем представлено 259 работ по двум номинациям: научной и научно-популярной.

Учреждение Дня русского языка приурочено ко дню рождения великого русского поэта Александра Сергеевича Пушкина, отмечаемого ежегодного 6 июня. Чтобы проследить влияние поэта на исследователей и их работы, мы проанализировали статьи из базы данных OpenAlex, у которых в заголовке присутствует слово «Пушкин». Всего таких статей было 1806. Из аннотаций к ним, переведенным на русский язык, составили облако слов. Самыми часто встречающимися словами были названия его произведений: Евгений Онегин, Борис Годунов, Медный всадник, а также другие русские писатели и поэты, на многих из которых творчество Александра Сергеевича оказало непосредственное влияние, — Анна Ахматова, Борис Пастернак, Владимир Набоков, Иосиф Бродский. Конечно, встречается и профессиональная лексика таких областей, как культурология и филология: культурный код, интертекстуальный анализ, критический прием. Интересно, что среди слов-ассоциаций выделяются также дополненная реальность и итальянское кино.

#вышка #инфографика #открытыйдоступ #OpenAlex #Пушкин
Сегодня международный день архивов, значит, самое время рассказать о базе публикаций от команды, возможно, главного из них — Internet Archive.

Проект FATCAT в полной мере отражает суть архивной деятельности — сохранение знания на все времена, в данном случае — знания о публикациях. Для нас с вами важен еще и второй принцип Internet Archive, распространяющийся на FATCAT — сделать все знания человечества доступными всем жителям Земли, разумеется, бесплатно.

FATCAT — открытая база метаданных научных публикаций наподобие OpenAlex, но с важными отличиями: каждая публикация (work) представлена всеми версиями, которые называются релизами (release). Остальные сущности — container (например, журнал или сервер препринтов), creator (автор, редактор, переводчик), file set (датасеты и сопроводительные материалы) и т.д., организаций, издателей, грантов среди них нет. Также система хранит в Internet Archive полные тексты публикаций, где это позволяется лицензией, и призывает всех пользователей указывать ссылки на полные тексты/данные для вечного хранения.

Вот как это выглядит на примере статьи одного из авторов нашего канала.

Конечно, система пока не может обеспечить качество авторских профилей, сопоставимое с коммерческими базами, учет цитирований там тоже в стадии становления, но совокупный объем данных, уже сохраненных в проекте, огромен: 131 миллион works, из которых 38 миллионов доступны в полном тексте, данные о 195 тысячах журналов и других изданий и многое другое. Все это собирается и обогащается из CrossRef, PubMed Central, CORE, Wikidata, ORCID, DOAJ, Норвежского списка журналов и других компонентов глобальной инфраструктуры открытой науки.

FATCAT имеет руководство и полноценный общедоступный API, отметим, порог входа там повыше, чем у CrossRef и OpenAlex, но сам доступ совершенно открыт, поэтому система активно используется множеством сторонних проектов. Идентификаторы FATCAT интегрированы во множество проектов в рамках открытой науки, в том числе в белый список журналов Российского центра научной информации.

Несмотря на скудные возможности некоммерческой команды, проект быстро развивается. Так, на его основе появился сервис, который многим будет интереснее, чем API и метаданные:
Internet Archive Scholar, реализующий полнотекстовой (sic!) поиск по 25 миллионам публикаций начиная с XVIII века.

#архив #открытыйдоступ
​​Сегодняшний пост посвящен тому, как выделять тематические кластеры методами, не основанными на цитированиях самих публикаций. Эти подходы тестируются на массиве 13817 публикаций НИУ ВШЭ в Scopus за 2019-2023 годы.

В качестве кластеров можно использовать:
1️⃣ Авторские ключевые слова. Хорошо описывают содержание и хорошо работают как лейблы кластеров, но есть не у всех публикаций и требуют внешние метрики качества. Кластеризация через совместную встречаемость.
2️⃣ Журналы. Узкоспециализированные журналы «ловят» тематики гораздо лучше AI, но чем шире тематика издания, тем ниже ценность метода. Можно кластеризовать журналы в группы наукометрическими (ссылки и пересечения в списках литературы) и лингвистическими (совпадение ключевых слов, схожесть аннотаций и названий) методами. Важное достоинство — журнал с репутацией/цитируемостью позволяет оценить средний уровень свежих работ.
3️⃣ Автоматически выделенные ключевые слова и прочие методы, основанные на программном анализе текстов (аннотаций и названий). Сложны для интерпретации и фильтрации по релевантности. Важно, что есть открытый набор из ~60 тысяч тематик/кластеров/ключевых слов, выделенный алгоритмически в OpenAlex/Wikidata, что позволяет сравнивать полученные кластеры с общемировыми трендами.

Для измерения и сопоставления кластеров можно использовать:
• журналы (уровни в экспертных списках и метрики),
• цитирования (требуют нормализации по тематике, году и типу публикации, лаг накопления),
• средние годы выпуска для оценки роста/затухания,
• международное соавторство (рекомендуется нормализация по тематикам).

Самые часто встречающиеся ключевые слова для НИУ ВШЭ: covid-19, machine learning, higher education, culture, deep learning, china, education, innovation, subjective well-being, human capital, blockchain.

На графике представлена визуализация авторских ключевых слов, кластеризация на основе совместной встречаемости. Если сравнивать первые 50 кластеров, которые встречаются по наиболее частому ключевому слову, то по среднему возрасту они практически не отличаются, зато отличаются по среднему уровню журналов.

#инструменты #университеты #scopus #вышка