Выше квартилей
2.74K subscribers
110 photos
1 video
1 file
303 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: scientometrics@hse.ru
Download Telegram
Научное влияние или личная выгода: зачем цитируют?

Недавно вышла статья «Как статус исследовательских работ влияет на то, как их читают и цитируют», основанная на опросе ряда авторов, для того чтобы оценить, насколько содержательно повлияли на их исследования ссылки и цитирования из других работ. Данные были собраны в 2018 году с помощью персонализированного опроса Qualtrics среди случайно выбранных авторов статей, опубликованных в 2015 году в WOS. Были получены заполненные анкеты от 9380 респондентов, предоставивших данные по 17 154 ссылкам в 15 предметных областях. Про методы анализа данных подробнее в самой статье.

Основные выводы статьи:
• Более половины ссылок на научные статьи отражают незначительное или полное отсутствие научного влияния на цитирующих их авторов.
Цитирование уже высоко цитируемых работ в 2-3 раза чаще отражает существенное научное влияние.
Цитирование изменяет восприятие качества: при низком количестве цитирований статьи кажутся менее качественными. Такие статьи читаются более поверхностно и обнаруживаются на более поздних этапах работы над статьей.

Некоторые исследователи ищут статьи для поддержки какого-то конкретного аргумента в своей собственной работе, другие —те, из которых можно почерпнуть идеи, которые повлияют на их текущую или будущую работу. Авторы утверждают, что первых цитирований и ссылок сравнительно больше. Например, иногда ссылка на признанного эксперта в определенной области используется для легитимации вклада самого цитирующего.

Действительно, ссылки имеют ряд функций, а их авторы — массу мотивов, и смешивать их в одном показателе может казаться грубым упрощением. О том, какую можно выделить типологию цитирований с точки зрения содержательных мотивов, мы написали в нашем руководстве.

#обзор #цитирование #руководство
Так ли хороши инструменты по рекомендациям цитирований?

Резюмируем заметку, посвященную обзору последних научных работ по теме автоматических рекомендаций.

Для облегчения учета и сбора цитирований были разработаны такие инструменты, как Mendeley, Zotero и EndNote. Вслед за этим появились инструменты составления карт литературы, помогающие в поиске литературы, такие как LitMaps, Citation Gecko, Inciteful и Connected Papers. Эти инструменты работают на основе алгоритмов совместного цитирования и библиографической связи. Совсем недавно были разработаны инструменты по рекомендациям цитирования, такие как Citeomatic и Specter. Эти инструменты призваны помочь авторам цитировать литературу на этапе написания своего исследовательского проекта. Принцип работы таких сервисов строится на том, что они находят подходящую литературу на основе ввода фрагмента текста, а затем подбирают соответствующие цитаты.

При этом чаще всего, используя программу, которая автоматически выбирает литературу для поддержки тезисов исследования, авторы не читают и даже не просматривают документы, которые они находят. И ни редакция, ни рецензенты обычно не проверяют публикации на точность и достоверность цитирований, полагаясь полностью на добросовестность автора.

Таким образом, среди основных минусов использования таких программ:

1. Ленивое цитирование: если для поиска релевантной литературы используется фрагмент текста, то алгоритм будет стремиться найти лишь ту литературу, которая подтверждает авторские слова.
2. Предвзятость утверждения: алгоритмы подтверждают тезисы авторов, игнорируют противоречивую литературу и фокусируются на аналогичных исследованиях в определенной области или сообществе. То есть заведомо усиливают существующие предубеждения относительно темы исследования.
3. Новый эффект Матфея: алгоритмы этих инструментов основаны на текущей и прошлой практике цитирования и выдают наиболее «популярные» результаты, а не наиболее релевантные или точные.
4. Отсутствие прозрачности: существует риск того, что хорошо обеспеченные ресурсами издатели, журналы и частные лица используют алгоритм, чтобы привлечь внимание к своим собственным статьям.

Несмотря на привлекательность и удобство инструментов рекомендаций по цитированию, авторам следует проявлять осторожность при их использовании. Поиск литературы перед разработкой научного проекта является частью исследовательского процесса, а попытка найти цитаты для поддержки утверждений и выводов уже готового исследовательского проекта говорит о небрежности и, в отдельных случаях, о недобросовестности исследователя. Такая практика перекладывает бремя проверки достоверности литературного обзора на читателя.

#цитирование #инструменты #статьи #обзор
Так ли хороши стандартные сетевые показатели для ранжирования журналов?

Журнальные рейтинги, основанные на сетевых методах ранжирования, сильно отличаются от тех, что основаны на данных цитирования. Про сетевые методы можно почитать в нашем руководстве. Коллеги провели исследование (корректность полученных данных все еще в процессе обсуждения научным сообществом) на базе PageRank и показали, что стандартный подход к сетевому моделированию данных о цитировании на уровне журналов (т.е. проекция цитирования статей на журналы) вводит «фиктивные отношения» между журналами. Авторы использовали для анализа MEDLINE, крупнейший набор библиометрических данных в области медицинских наук с открытым доступом.

Импакт-фактор и h-индекс являются одними из наиболее широко используемых показателей для оценки журналов. Эти показатели являются локальными в том смысле, что они основаны на количестве ссылок, полученных конкретной статьей, автором или журналом за определенный период. С использованием данных о цитировании и сетевого анализа были разработаны более сложные показатели: Eigenfactor и SCImago Journal Rank. Эти показатели опираются на нелокальную информацию, тем самым придавая больший вес ссылкам на хорошо цитируемые статьи.

Основные проблемы при использовании цитирования для наукометрического анализа заключаются в том, что практика цитирования в научных областях разная, и публикации все чаще пишутся несколькими соавторами, а соавторство и количество цитирований взаимосвязаны. Плюс ко всему редакторские предубеждения связаны с социальными факторами (предыдущее соавторство/вознаграждение за цитирование и т.д.). Основная проблема при использовании сетевого анализа — важность правильного соотнесения единицы и цели анализа с соответствующим сетевым представлением. Это справедливо и в том случае, когда сетевые показатели применяются для ранжирования журналов по цитируемости статей.

Сосредоточив внимание на мерах влияния журналов, авторы показали, как наивное сочетание этих методов может привести к ошибочным или даже неверным результатам. В частности, авторы утверждают, что стандартная проекция цитирования статей на журналы может привести к появлению несуществующих связей, так называемому «фиктивному влиянию».

Такое «фиктивное влияние» не является безобидным эффектом при составлении рейтингов журналов. Результаты анализа данных о цитировании из MEDLINE показывают, что даже несмотря на то, что одни и те же журналы входят в верхние строчки рейтингов, они занимают разные позиции при использовании различных подходов ранжирования. В целом, результаты исследования показывают, что «фиктивное влияние» существенно влияет на надежность PageRank как способа ранжирования журналов.

Предложение коллег сводиться к тому, чтобы не концентрироваться на отдельных ссылках на цитаты, а рассматривать последовательные ссылки между статьями для получения путей цитирования.

Также чтобы преодолеть проблему «фиктивного влияния», возможным решением являются сети более высокого порядка. Однако разработка адекватных наукометрических показателей — очень сложная задача. Например, Лейденский манифест предлагает искать баланс между сложностью индикаторов и прозрачностью их расчетов. Использование известных сетевых мер может повысить их прозрачность; в то же время дополнительная сложность сетей высшего порядка может замаскировать их смысл. Следовательно, жизнеспособность этих методов будет зависеть от предполагаемого использования.

#обзор #журналы #цитирование #сетевойанализ
Влияние топовых ученых на научную новизну, или как независимые исследователи создают научные инновации

Степень доверия к наиболее успешным ученым высока, собственно, как и ценность их наставничества для молодых ученых. Как правило, вторые, сотрудничающие с ведущими учеными на ранних этапах своей карьеры, имеют больше шансов быть процитированными и в дальнейшем. Но встает вопрос о том, насколько инновационны совместные работы топовых ученых и молодых ученых.

Чтобы исследовать влияние топовых ученых (топ-1% по индексу Хирша) на академическую продуктивность и инновации, коллеги проанализировали корпус работ Американского физического общества (среди авторов, впервые опубликовавших свои работы в 1970 году или позже). Выяснили, что те, кто сотрудничает с топовыми учеными и цитирует их, чаще публикуются и цитируются сами, а также создают более разнообразные по содержанию работы. Тем не менее их работы не более инновационны, чем работы остальных ученых (тех, кто не пишет в соавторстве с топами), а если исключить работы, написанные в соавторстве с топ-учеными, то количество публикаций и цитирований вовсе не отличается от остальных работ коллег.

Исследователи выяснили, что работам топовых ученых присуща высокая новизна, они вдохновляют своих последователей и соавторов, при этом сдерживая их инновационный потенциал. Молодые исследователи, которые создают инновационный контент без преимущества раннего сотрудничества с топовыми учеными, продолжают создавать такой контент на протяжении всей своей карьеры. А те исследователи, которые сильно вдохновляются работой с топовым учеными, не привносят достаточно новизны в коллективную работу в дальнейшем.

Также обнаружили здесь и эффект Матфея: ученые, часто цитирующие топов, получают большее количество цитирований при сотрудничестве с топом, чем без него. Хотя сотрудничество с успешными учеными может стимулировать карьерный рост, такие коллаборации могут подавлять инновационные идеи и не являются лучшим показателем долгосрочного успеха независимой карьеры.

Из выводов коллег: исследователи, которые оказываются под наименьшим влиянием топовых ученых на ранних этапах развития научной карьеры, в среднем внедряют больше инноваций и, соответственно, имеют более высокие показатели цитируемости.

#обзор #соавторство #цитирование
Как академическая мобильность и научные коллаборации влияют на цитирование публикаций — в исследовании коллег.

Международное сотрудничество является важной составляющей науки в современном мире, поскольку способствует обмену идеями, приводящими зачастую к научным прорывам. Важность поддержки международных коллабораций имеет и чисто практический результат — такие исследования привлекают к себе больше внимания и лучше цитируются.

В рассматриваемой работе отмечается, что «мобильные» исследователи, работавшие более чем в одной стране в течение своей карьеры, имели значительный прирост цитируемости по сравнению с теми, у кого такого опыта не было. Важным фактором, способствующим развитию сотрудничества, является простота авиапутешествий — возможность перемещаться между двумя городами влияет на вероятность сотрудничества и уменьшает влияние больших расстояний. Также связь университетов через авиатранспортную сеть является важным показателем роста рейтинга университетов. А рейтинг университета тесно связан с цитируемостью публикаций его сотрудников.

В исследовании коллеги использовали авиатранспортную сеть для количественной оценки географического разнообразия в научных коллаборациях, фокусируясь на установлении связи между географическим разнообразием соавторов и количеством цитирований конкретной статьи.

Основные выводы, к которым пришли коллеги:
• географическое разнообразие коллабораций приводит к увеличению цитирований работ;
• при этом работы наиболее привычных в географическом отношении коллабораций (например, ближайшие друг к другу города) и очень отдаленных друг от друга с точки зрения географической близости, напротив, цитируются не так активно;
• в коллаборациях существует разрыв между Севером и Югом: 94% совместных исследований приходится на исследователей с глобального севера.

#обзор #соавторство #цитирование
Может ли ChatGPT усилить эффект Матфея: на примере наук об окружающей среде

Коллеги провели исследование о том, какие статьи и журналы в области экологии чаще всего цитирует ChatGPT.

Авторы исследования попросили GPT:

• определить десять наиболее значимых субдисциплин в области науки об окружающей среде;
• подготовить научную обзорную статью по каждой субдисциплине, включив в нее 25 ссылок.

Далее авторы проанализировали эти ссылки (количество ссылок, дата публикации и журнал).

В ходе работы выяснили, что GPT, как правило:

• ссылается на высокоцитируемые публикации в области науки об окружающей среде с медианным числом цитирований 1184,5;
• отдает предпочтение более старым публикациям, средний год публикации — 2010;
• преимущественно ссылается на авторитетные журналы в этой области, причем самым цитируемым журналом в GPT является Nature;
• полагается исключительно на данные о количестве цитирований из Google Scholar, а не использует информацию о цитировании из других научных баз данных, таких как Web of Science или Scopus.

#обзор #цитирование #искусственныйинтеллект
​​Цитирования и качество исследований: есть ли взаимосвязь?

Мы уже писали про анализ использования импакт-фактора в оценке исследований от британских коллег (там же мы кратко рассказали о программе UK Research Excellence Framework). Авторы того исследования обнаружили очень слабую положительную корреляцию между экспертными оценками статей и импакт-факторами журналов. Статья, о которой мы расскажем сегодня, является ответвлением исследования, проведенного в 2021 году в рамках подготовки к REF2028, и посвящена анализу взаимосвязи цитирований и качества исследований.

Ценность цитирований для оценки качества исследований нередко становится предметом научных споров. Безусловно, не всегда ясно, что именно подразумевают под качеством исследований, но обычно его рассматривают с точки зрения методологической строгости, новизны/оригинальности и влияния на науку или общество. Авторы называют свою статью первой крупномасштабной общенаучной академической оценкой взаимосвязи качества исследований и цитирований, сопоставляя данные для 87739 журнальных статей по 34 укрупненным предметным группам (UoA). Эти два показателя положительно коррелируют во всех академических областях, отражая в целом линейные отношения во всех областях.

Основные выводы, к которым авторы приходят:

• Статьи с большим количеством цитирований, как правило, более высокого качества во всех областях науки. Положительные корреляции наблюдаются даже в большинстве областей искусства и гуманитарных наук (включая Music, Drama, Dance, and Performing Arts; Studies in Creative Arts and Writing; Arts and Humanities), хотя сила этих связей значительно варьируется (см. скриншот).

• Высокое цитирование не гарантирует однозначное высокое качество исследований в какой-либо области.

• Положительная связь между исследованиями качества и цитируемости относительно универсальны.

К ограничениям данного исследования можно отнести тот факт, что все отобранные журнальные статьи публиковались сотрудниками британских университетов, и взаимосвязь между цитированием и качеством может быть иной в других странах. К тому же нормализация поля ограничена схемами Scopus и Dimensions, а сами статьи выбираются авторами самостоятельно и в большинстве случаев представляют лучшие по их мнению работы.

Таким образом, несмотря на то, что цитирование, нормализованное по соответствующим областям, положительно коррелирует с качеством исследований во всех областях, оно никогда не отражает значимость исследования в полной мере, даже при переходе к высокоцитируемым публикациям.

#обзор #цитирование #журналы #экспертнаяоценка
Нецитируемые статьи в структуре научной коммуникации

В майском выпуске Journal of Informetrics вышла статья наших коллег из Вышки о нецитируемых статьях. В рамках исследования они выдвинули тезис о том, что нецитируемые публикации являются основой для построения особой формы научной коммуникации. Коллеги утверждают, что списки ссылок нецитируемых статей образуют динамическую систему, частично ответственную за перераспределение научного потенциала других публикаций в области.

В рамках исследования авторы обращались к базе данных INSPIRE, содержащей информацию о более чем 1,4 миллионах публикаций по физике высоких энергий. Окончательная выборка охватывает 729515 статей, опубликованных с 1970 по 2015 год.

Нецитируемые публикации обычно включают документы, которые по ряду причин не вписываются в стандарты современных баз данных. Часто к ним относятся статьи из журналов на иностранных языках, отличных от английского, книги и краткие сообщения, редакционные статьи. Сравнительное исследование языковых областей двух ведущих библиометрических баз данных показало, что 92,64% публикаций Scopus были на английском языке, а соответствующая доля в Web of Science составила 95,37%.

Кроме того, импакт-фактор журнала значительно коррелирует с коэффициентом нецитируемости. Например, в журналах первого квартиля (JCR Q1) коэффициент нецитируемости статей и обзоров составляет 1,7%, тогда как в журналах четвертого квартиля (JCR Q4) этот показатель уже равен 27,4%.

Сохраняются различия в нецитируемости и между дисциплинами. Как правило, самый высокий коэффициент нецитируемости наблюдается в гуманитарных науках.

Нужно учитывать и тот факт, что на некоторые открытия ссылаются без явного цитирования. В библиометрии это явление называется «вытеснение путем инкорпорации» (OBI — obliteration by incorporation): превращение определенных идей в универсально разделяемые без последующего цитирования. Такой тип цитирования не может быть извлечен из списков цитируемых ссылок. Для его обнаружения требуется полнотекстовый анализ. Вся эти схемы цитирования порождают нецитируемость.

Данные, полученные в ходе исследования, доказывают также, что высокоцитируемые статьи не являются прямыми противоположностями нецитируемых. Нецитируемые работы — это не ошибка исторического развития науки, а естественный результат непоследовательности и перекоса распределения вкладов в науку.

#обзор #вышка #цитирование
​​Нецитируемые статьи и их влияние на концентрацию цитирования

В продолжение поста про нецитируемые публикации в структуре научной коммуникации сегодня расскажем об исследовании влияния нецитируемых статей на концентрацию цитирования. Анализ коллег основан на метаданных о публикациях, извлеченных из основной коллекции WoS, охватывающей публикации с 1980 по 2020 год.

Для составления показателей концентрации коллеги используют два подхода: подход на основе цитирования и подход на основе ссылок. Подходы на основе цитирования и на основе ссылок различаются в отношении к статьям без ссылок. В подходе, основанном на цитировании, статьи без ссылок естественно включаются, поскольку процесс поиска данных начинается со всех статей, опубликованных в данном году. И наоборот, подход, основанный на ссылках, естественно исключает статьи без цитирования, поскольку анализ фокусируется на ссылках, сделанных в данном году. Кроме того, важно отметить, что количество нецитируемых статей имеет тенденцию к снижению с течением времени. Например, если рассматривать десятилетний период цитирования, то доля статей без ссылок снизилась с 34% в 1980 году до 11% в 2010 году среди всех статей в базе данных WoS, исключая самоцитирование.

Анализ показал, что наиболее надежным методом для анализа концентрации цитирования во времени является подход, основанный на цитировании, с учетом нецитируемых статей, с нормализацией по полю и году, а также с фиксированным временным окном. Необходимо также учитывать расширение библиометрических баз данных и эволюцию самоцитирования. Результаты этого метода показывают последовательное снижение концентрации цитирования.

Также было обнаружено, что различные регионы играют разную роль в своем вкладе в нецитируемость. Снижение относительной цитируемости статей Северной Америки и увеличение участия Европы и Азии влияет на структуру цитирования. В то время как Северная Америка по-прежнему составляет большую часть 1% самых цитируемых статей и производит много ссылок, которые получают эти статьи, ее роль среди статей, цитируемых только один раз, значительно ниже.

Выводы, сделанные в этой статье, подчеркивают важность учета нецитируемых статей и их потенциальное влияние на концентрацию цитирования.

#обзор #цитирование #wos
И снова про Twitter: если вашу работу твитнули, какова вероятность, что ее процитируют?

В статье анализируется открытая база данных ученых в Twitter, о которой мы уже рассказывали ранее, а также отдельные твиты, содержащие ссылки на научные работы (Crossref Event Data 2023). Примерно 6,4 миллиона твитов, сделанных исследователями в этом наборе данных за 2017-2019 годы, были связаны с чуть более чем 1 миллионом отдельных DOI, найденных в таблице работ OpenAlex. Из 5 307 769 твитов, содержащих ссылки на журнальные статьи, 768 710 соответствовали ссылкам на работы, авторами которых был тот же пользователь Twitter, что составляет 14,5%.

Пользователи Twitter чаще цитируют :
• работы, связанные с их учебным заведением,
• работы, соавторами которых они являются,
• работы, имеющие непосредственное отношение к их собственным исследованиям,
• работы, опубликованные в журналах, в которых они тоже публиковались.

Из интересного:
• по мере развития карьеры и увеличения количества публикаций исследователи реже цитируют свои твиты,
• тематическое сходство твита с собственным исследованием и областью изучения оказывает большое влияние на связь между твитом и его последующим цитированием,
• чем больше работ исследователи публикуют в Twitter, тем меньше вероятность их цитирования,
• ученые, цитирующие свои собственные работы, могут показать, как Twitter может использоваться в качестве платформы для повышения узнаваемости собственной научной деятельности, утверждения себя в качестве эксперта в какой-либо области или расширения своего социального капитала .

#обзор #цитирование #twitter
«Призрак бродит по… журналам»: о последствиях использования GPT-моделей в качестве академического инструмента

ChatGPT от OpenAI, запущенный в конце ноября 2022, в последнее время находит всё больше применений в академической среде, о чем мы уже писали ранее. Он способен автоматизировать повторяющиеся задачи: например, генерировать код (правда не всегда актуальный для текущих версий пакетов), обобщать данные из нескольких научных статей, неплохо справляться с переводом текстов и даже перефразировать целые абзацы для большего соответствия академическому стилю. Однако у всего этого есть обратная сторона: во-первых, чат-боты, стремясь понравиться, зачастую выдают ложные факты за действительные, а во-вторых — могут недобросовестно использоваться самими авторами.

В недавней заметке в Scientometrics описывается одно из обнаруженных ограничений ChatGPT — склонность генерировать «призрачные» научные ссылки. Когда у чат-бота запрашивают библиографические ссылки по конкретной теме, он предоставляет правдоподобные результаты — это могут быть реальные названия статей, а в качестве источника публикации указываются названия ведущих журналов. Однако на практике выясняется, что таких статей никогда не существовало. Такие ссылки, сгенерированные при участии недобросовестных авторов, могут в конечном итоге попадать в научные публикации, особенно в тех издательствах, где процессы рецензирования слабы или вообще отсутствуют. Реальные же ссылки от GPT-моделей, вероятнее всего, усиливают эффект Матфея, о котором мы упоминали в одном из наших предыдущих постов.

Выявление таких «призрачных» ссылок — настоящий вызов для научного сообщества. Безусловно, полностью сгенерированная библиография вызовет вопросы у любого профессионала в области, однако отдельные аргументы, написанные при помощи GPT-моделей и ссылающиеся на несуществующие работы, могут с некоторой вероятностью тиражироваться в других исследованиях.

Мы же решили проверить описанный эффект сразу на трех моделях — ChatGPT, YandexGPT2 и GigaChat. Результаты вы можете видеть на скриншотах. Как и ожидалось, наиболее правдоподобные цитаты выдает ChatGPT. YandexGPT2 оказывается не менее изобретателен в создании новых публикаций: забывает о страницах, но упоминает реальных людей в качестве соавторов. А вот от GigaChat удается получить только библиографические сведения о журнале, без имен авторов и названия статей (вероятно, в данном случае использовались другие источники данных для обучения моделей).

#обзор #цитирование #искусственныйинтеллект #GPT
Проблемное цитирование непреднамеренная ошибка или лень?

В декабре вышла статья о последствиях преднамеренной лени в отношении цитирования. Авторы рассмотрели кейс с цитатой, приведенной известным поведенческим экономистом Джорджем Левенштейном. Он неправильно указал авторство цитаты, что оставило большой «радиоактивный след»: с легкой руки авторитетного ученого неверное авторство цитаты закрепилось и периодически возобновлялось в последующих работах его читателей. Кроме того, исследования показывают, что авторам свойственно ссылаться на высокоцитируемые статьи, даже если они подверглись серьезной и обоснованной критике.

Это лишь частный эпизод, который иллюстрирует проявление более общего феномена, который принято называть «problematic citation behavior».

Проблемное цитирование может быть двух видов:

а) Неточное цитирование (ошибки возникают из-за небрежного указания выходных данных цитируемой статьи),
б) Заимствованное цитирование (некритичное копирование цитат из вторичных источников).

Если неточное цитирование является результатом простой оплошности, то заимствованное цитирование отличается преднамеренным уклонением от добросовестной работы с источниками и производит ложное впечатление о том, что автор действительно ознакомился с цитируемой работой: известно, что высокое количество цитирований создает у читателя ощущение глубокого погружения автора в изучаемый вопрос.

Причины проблемного цитирования могут быть самыми разными. Например, нехватка времени в условиях “publish-or-perish”, излишнее доверие вторичным источникам, отсутствие доступа к требуемой публикации и, наконец, самые банальные — лень или недобросовестность ученого.
Заметим, что неточные ссылки затрудняют читательский поиск и доступ к работам и нарушают связь между оригинальной работой и исследованиями, которые на нее ссылаются, в результате чего автоматизированные индексы цитирования и базы данных, включая Scopus и Web of Science, пропускают или неправильно классифицируют ссылки на свои индексируемые публикации.

Мы рекомендуем всем читателям внимательно перепроверять цитаты из вторичных источников и ответственно относиться к оформлению собственных работ.

#обзор #цитирование #научнаяэтика
Чат-боты: цитировать или не цитировать? 

Растущий интерес к использованию искусственного интеллекта (ИИ) в написании научных работ и ряд скандалов, связанных с его недобросовестным применением в академической сфере, провоцируют острую дискуссию. Летисия Антунес Ногейра (Leticia Antunes Nogueira), руководитель проекта по искусственному интеллекту, и Ян Уве Рейн (Jan Ove Rein), библиотекарь-исследователь, оба — сотрудники NTNU опубликовали заметку (ч. 1, ч. 2), в которой сосредоточились на критике концепции цитирования языковых моделей в научных публикациях.

В заметке авторы сузили фокус до двух моделей (ChatGPT от OpenAI или Claude от Anthropic), так как предполагают, что пользователи, которые работают с инструментами, применяющими возможности GenAI в сочетании с другими системами (например, Perplexity и Scopus AI), будут ссылаться на оригинальные источники.

В политике ведущих мировых издательств и академических организаций существует общее мнение насчет того, что чат-боты не отвечают минимальным требованиям к авторству, однако вопрос о том, можно ли (и следует ли) цитировать чат-боты в качестве источников, остается открытым.

Сторонники цитирования сообщений чат-ботов отмечают, что цитирование необходимо как минимум по двум причинам:
· признание чужого вклада и влияния идей;
· раскрытие источников информации.

Эти два, казалось бы, простых аспекта связаны с некоторыми противоречиями.
Противники цитирования (и иногда использования) чат-ботов подчеркивают, что результаты, полученные с использованием ИИ, преимущественно невозможно отследить, воспроизвести или проверить. В дополнение к этим ощутимым аргументам, исследователи акцентируют внимание на нескольких этических аспектах:

🔹Ответственность авторов
Языковая модель не может нести ответственность за утверждения, включенные в публикацию от её «лица». Одно дело цитировать организацию (например, доклад ООН), и совсем другое — чат-бота. Организации состоят из людей и поэтому несут ответственность за предоставляемую информацию, чат-бот или его разработчики нести такую ответственность не могут.

🔹Загрязнение информационной среды
Упоминание чат-ботов в источниках ведет к загрязнению информационных экосистем. Если для обучения больших языковых моделей использовать данные, сгенерированные ИИ (т. е. тексты из Интернета, академические тексты и т. д.), это приведет к ухудшению качества моделей.

🔹ИИ — не истина в последней инстанции
Чат-боты не создавались как инструменты для информационных целей. Неопределенность в отношении качества их ответов обусловлена назначением и структурой чат-ботов, а не степенью технологической зрелости. Большие языковые модели (LLM) основаны на моделях использования языка, а не на информации, и вероятностны по своему принципу работы, а это означает, что некорректный результат в таком случае — особенность, а не ошибка.

APA рекомендует цитировать текст, полученный от чат-бота, как результат работы алгоритма: а именно, ссылаться на автора алгоритма в списке источников. Дело в том, что результаты «переписки» с ChatGPT невозможно воспроизвести. Сейчас в APA такие данные часто цитируются как личная переписка, но это не совсем корректно, потому что сгенерированный текст не исходит от чьей-либо личности. В то же время ICMJE и Elsevier занимают однозначную позицию и рекомендуют авторам не ссылаться на чат-боты.

Появление чат-ботов бросает вызов устоявшимся представлениям об источниках, информации и знании, которые совсем недавно считались само собой разумеющимися. Тем не менее, в эпоху искусственного интеллекта обеспечение целостности информационной экосистемы требует все больших усилий. По мнению авторов, поскольку связность и смыслы в любом случае находятся «в глазах смотрящего», наборы слов, полученные в результате вероятностных вычислений, нельзя назвать ни источниками, ни информацией, ни знаниями. Текст, генерируемый чат-ботами — скорее, воплощение отсутствия информации.

#ChatGPT #ИИ #искусственныйинтеллект #цитирование
​​Коротко и ясно: зависит ли цитируемость статьи от длины заголовка?

Большинство исследователей настаивают на том, что заголовки опубликованных работ должны быть относительно краткими, так как заголовки — это первая, а иногда и единственная информация, которую читатель получает из публикации.

Результаты опроса (впрочем, довольно старого), в котором приняли участие более 5000 человек, показали, что читатель научных журналов просматривает в среднем 1142 заголовка, 204 аннотации и 97 статей в год. Растущий поток информации и повышающаяся конкуренция в академической среде приводят к тому, что читателю, вероятнее всего, проще откинуть статью с витиеватым заголовком, не вникая в ее содержание (не случайно некоторые научные журналы ограничивают количество слов в заголовках). Как мы недавно видели, короткий и броский заголовок действительно может привлечь внимание.

С другой стороны, согласно теории поисковой оптимизации (SEO), длинный заголовок может помочь в поиске статьи по ключевым словам, благодаря чему статья привлекает больше внимания, и, соответственно, чаще цитируется. Исследователи Шанхайского университета финансов и экономики (SUFE) называют это информативным эффектом (informative effect), а факторы, подтверждающие положительную корреляцию между короткими заголовками и цитированием статей, — эффектом лаконичности (succinct effect).

На основе выборки из более чем 300 000 статей SSCI по экономике с 1956 по 2012 год они определили, что статьи с короткими названиями лучше цитировались в период, когда поиск литературы не был так тесно связан с цифровыми технологиями (1956–2000 годы), а уже с 2001 года наблюдается рост цитируемости статей с длинными заголовками.

Здесь необходимо отметить несколько аспектов. Во-первых, сами авторы стали использовать больше слов в заголовке (см. график). В частности, в 2010–2012 годах в заголовке в среднем было 10,4 слова, что на 33% больше, чем 7,8 слов в 1956–1958 годах.

Согласно исследованию, в XXI веке количество цитирований статьи должно возрастать на 0,60% с каждым дополнительным словом, добавленным в название статьи. Следует отметить, что, помимо длины заголовка, в исследовании были учтены другие факторы, которые могут влиять на количество цитирований:

💠 Количество страниц в статье. Статьи тоже стали длиннее, а такие статьи, согласно некоторым исследованиям, чаще цитируют.
💠 Число соавторов. Было обнаружено, что чем больше соавторов, тем больше цитирований, так как статья привлекает больше внимания.
💠 Количество ссылок в работе. Чем больше в статье ссылок на предыдущие работы, тем больше доверия она вызывает. Также обширный список источников связан с формой взаимного альтруизма — «Я цитирую вас, а вы цитируете меня».
💠 Алфавитный порядок авторов. Первого автора из списка чаще цитируют и упоминают.
💠 Порядок статьи в выпуске. Первые статьи в выпуске, как правило, больше скачивают и цитируют.

На данном этапе развития науки почти весь поиск литературы осуществляется в онлайн-базах данных, причем многие поиски ограничиваются ключевыми словами. По мнению авторов исследования, статьи с краткими названиями были более привлекательны в предыдущие десятилетия, но с развитием интернета информативный эффект начал превосходить эффект лаконичности. Исследователям не стоит жалеть время на выбор заголовка публикации, так как число статей и журналов, к которым можно получить онлайн-доступ, постоянно растет. А мы планируем вскоре вернуться к этой теме со своим исследованием, чтобы слегка освежить данные, полученные в оригинальной статье.

#цитирование #SSCI #обзор