Международный день всеобщего доступа к информации
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Zenodo
Dataset Citation and Re-use Data
This dataset includes processed citation data for datasets recorded in OpenAlex as of May 2022. It identifies self-citations to these datasets at the individual, institutional, and country level, and includes domain classifications of the citing works using…
Дайджест: февраль 2024
Представляем второй дайджест новостей в сфере научной политики и наукометрии от команды нашего канала:
1. Пожалуй, главной новостью для отечественной науки за прошедший месяц стали события, связанные с празднованием юбилея РАН, о котором мы упоминали в одном из наших прошлых постов. В рамках торжественных мероприятий было объявлено, что ВАК, РЦНИ и издательство “Наука” перейдут в подчинение Российской академии наук. На время переходного периода не беремся давать оценок проводимой реформе, но в том, что она затронет действующие принципы реализации научной политики можно практически не сомневаться. С интересом будем наблюдать за этими изменениями!
2. В Science вышла статья о новых способах накрутки цитирований. Авторы, упомянутые в статье, проанализировали методы, которые используют недобросовестные исследователи для повышения h-индекса. В этих целях от имени вымышленного ученого ими были опубликованы написанные ChatGPT 20 статей, с которыми они проделали ряд агрессивных манипуляций (покупка цитирований, чрезмерное самоцитирование и т.д.), что позволило вымышленному ученому подняться на 36 место в рейтинге самых цитируемых исследователей в своей области. Заметку прокомментировал академик А. Хохлов в своём телеграм-канале.
3. В Scholary Kitchen вышла статья независимого исследователя, призывающая критически относиться к мировому рейтингу 2% самых влиятельных ученых мира. Акира Абу проанализировал наиболее распространённые ошибки рейтинга Стэнфордского университета на основе данных Scopus. Согласно его наблюдениям в список ошибочно входит целый ряд авторов: ученые якобы ведущие публикационную активность с XIX века по сегодняшний день; авторы с сомнительной публикационной активностью (более 200 публикаций в год, включая материалы, которые не имеют отношения к науке (новости, редакторские заметки)) и т. д. Исследователь утверждает, что факт составления таких рейтингов является контрпродуктивным и потенциально может стимулировать ученых прибегать к манипуляциям ради получения более высокого места в рейтинге и соответствующего статуса.
4. Nature Human Behavior в сотрудничестве с Институтом репликации будет поощрять воспроизведение результатов статей, опубликованных в журнале с 2023 года. Повторные исследования будут проводиться как на оригинальных, так и на новых наборах данных. Целью инициативы является повышение доверия к опубликованным статьям, а также улучшение качества и точности результатов исследований.
5. В Journal of Infometrics вышла статья об эффективности открытых данных в контексте эпидемий. Ученые проанализировали скорость распространения научной информации с момента вспышки Эболы в 1976 году до пандемии COVID-19. Так, например, средний временной разрыв между сбором данных и их публичным распространением за обозначенный период сократился на 99,56 %: с 626,94 дней для Эболы до 2,76 дней для COVID-19. Ученые подчеркивают, что эпидемии служат лакмусовой бумажкой эффективности открытых данных в реагировании на серьезные кризисы в области здравоохранения.
6. В Quantitative Science Studies вышла статья об OpenCitations Meta — новой базе метаданных научных публикаций, включающий данные из Crossref, DataCite (представившей недавно собственный корпус цитирования, на что обращают внимание коллеги) и PubMed. Он использует технологии Semantic Web и присваивает новые глобальные постоянные идентификаторы (PID), а автоматизированная обработка в соответствии с моделью данных OpenCitations обеспечивает прозрачность и целостность данных, что не имеет, по заявлению авторов, аналогов в других библиографических базах данных. Доступен через различные интерфейсы, включая SPARQL и API REST. Появление очередной инициативы вновь демонстрирует интересует к реализации принципов открытой науки.
#дайджест #открытыеданные #воспроизводимость #hиндекс
Представляем второй дайджест новостей в сфере научной политики и наукометрии от команды нашего канала:
1. Пожалуй, главной новостью для отечественной науки за прошедший месяц стали события, связанные с празднованием юбилея РАН, о котором мы упоминали в одном из наших прошлых постов. В рамках торжественных мероприятий было объявлено, что ВАК, РЦНИ и издательство “Наука” перейдут в подчинение Российской академии наук. На время переходного периода не беремся давать оценок проводимой реформе, но в том, что она затронет действующие принципы реализации научной политики можно практически не сомневаться. С интересом будем наблюдать за этими изменениями!
2. В Science вышла статья о новых способах накрутки цитирований. Авторы, упомянутые в статье, проанализировали методы, которые используют недобросовестные исследователи для повышения h-индекса. В этих целях от имени вымышленного ученого ими были опубликованы написанные ChatGPT 20 статей, с которыми они проделали ряд агрессивных манипуляций (покупка цитирований, чрезмерное самоцитирование и т.д.), что позволило вымышленному ученому подняться на 36 место в рейтинге самых цитируемых исследователей в своей области. Заметку прокомментировал академик А. Хохлов в своём телеграм-канале.
3. В Scholary Kitchen вышла статья независимого исследователя, призывающая критически относиться к мировому рейтингу 2% самых влиятельных ученых мира. Акира Абу проанализировал наиболее распространённые ошибки рейтинга Стэнфордского университета на основе данных Scopus. Согласно его наблюдениям в список ошибочно входит целый ряд авторов: ученые якобы ведущие публикационную активность с XIX века по сегодняшний день; авторы с сомнительной публикационной активностью (более 200 публикаций в год, включая материалы, которые не имеют отношения к науке (новости, редакторские заметки)) и т. д. Исследователь утверждает, что факт составления таких рейтингов является контрпродуктивным и потенциально может стимулировать ученых прибегать к манипуляциям ради получения более высокого места в рейтинге и соответствующего статуса.
4. Nature Human Behavior в сотрудничестве с Институтом репликации будет поощрять воспроизведение результатов статей, опубликованных в журнале с 2023 года. Повторные исследования будут проводиться как на оригинальных, так и на новых наборах данных. Целью инициативы является повышение доверия к опубликованным статьям, а также улучшение качества и точности результатов исследований.
5. В Journal of Infometrics вышла статья об эффективности открытых данных в контексте эпидемий. Ученые проанализировали скорость распространения научной информации с момента вспышки Эболы в 1976 году до пандемии COVID-19. Так, например, средний временной разрыв между сбором данных и их публичным распространением за обозначенный период сократился на 99,56 %: с 626,94 дней для Эболы до 2,76 дней для COVID-19. Ученые подчеркивают, что эпидемии служат лакмусовой бумажкой эффективности открытых данных в реагировании на серьезные кризисы в области здравоохранения.
6. В Quantitative Science Studies вышла статья об OpenCitations Meta — новой базе метаданных научных публикаций, включающий данные из Crossref, DataCite (представившей недавно собственный корпус цитирования, на что обращают внимание коллеги) и PubMed. Он использует технологии Semantic Web и присваивает новые глобальные постоянные идентификаторы (PID), а автоматизированная обработка в соответствии с моделью данных OpenCitations обеспечивает прозрачность и целостность данных, что не имеет, по заявлению авторов, аналогов в других библиографических базах данных. Доступен через различные интерфейсы, включая SPARQL и API REST. Появление очередной инициативы вновь демонстрирует интересует к реализации принципов открытой науки.
#дайджест #открытыеданные #воспроизводимость #hиндекс