Международный день всеобщего доступа к информации
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Zenodo
Dataset Citation and Re-use Data
This dataset includes processed citation data for datasets recorded in OpenAlex as of May 2022. It identifies self-citations to these datasets at the individual, institutional, and country level, and includes domain classifications of the citing works using…
Дайджест: февраль 2024
Представляем второй дайджест новостей в сфере научной политики и наукометрии от команды нашего канала:
1. Пожалуй, главной новостью для отечественной науки за прошедший месяц стали события, связанные с празднованием юбилея РАН, о котором мы упоминали в одном из наших прошлых постов. В рамках торжественных мероприятий было объявлено, что ВАК, РЦНИ и издательство “Наука” перейдут в подчинение Российской академии наук. На время переходного периода не беремся давать оценок проводимой реформе, но в том, что она затронет действующие принципы реализации научной политики можно практически не сомневаться. С интересом будем наблюдать за этими изменениями!
2. В Science вышла статья о новых способах накрутки цитирований. Авторы, упомянутые в статье, проанализировали методы, которые используют недобросовестные исследователи для повышения h-индекса. В этих целях от имени вымышленного ученого ими были опубликованы написанные ChatGPT 20 статей, с которыми они проделали ряд агрессивных манипуляций (покупка цитирований, чрезмерное самоцитирование и т.д.), что позволило вымышленному ученому подняться на 36 место в рейтинге самых цитируемых исследователей в своей области. Заметку прокомментировал академик А. Хохлов в своём телеграм-канале.
3. В Scholary Kitchen вышла статья независимого исследователя, призывающая критически относиться к мировому рейтингу 2% самых влиятельных ученых мира. Акира Абу проанализировал наиболее распространённые ошибки рейтинга Стэнфордского университета на основе данных Scopus. Согласно его наблюдениям в список ошибочно входит целый ряд авторов: ученые якобы ведущие публикационную активность с XIX века по сегодняшний день; авторы с сомнительной публикационной активностью (более 200 публикаций в год, включая материалы, которые не имеют отношения к науке (новости, редакторские заметки)) и т. д. Исследователь утверждает, что факт составления таких рейтингов является контрпродуктивным и потенциально может стимулировать ученых прибегать к манипуляциям ради получения более высокого места в рейтинге и соответствующего статуса.
4. Nature Human Behavior в сотрудничестве с Институтом репликации будет поощрять воспроизведение результатов статей, опубликованных в журнале с 2023 года. Повторные исследования будут проводиться как на оригинальных, так и на новых наборах данных. Целью инициативы является повышение доверия к опубликованным статьям, а также улучшение качества и точности результатов исследований.
5. В Journal of Infometrics вышла статья об эффективности открытых данных в контексте эпидемий. Ученые проанализировали скорость распространения научной информации с момента вспышки Эболы в 1976 году до пандемии COVID-19. Так, например, средний временной разрыв между сбором данных и их публичным распространением за обозначенный период сократился на 99,56 %: с 626,94 дней для Эболы до 2,76 дней для COVID-19. Ученые подчеркивают, что эпидемии служат лакмусовой бумажкой эффективности открытых данных в реагировании на серьезные кризисы в области здравоохранения.
6. В Quantitative Science Studies вышла статья об OpenCitations Meta — новой базе метаданных научных публикаций, включающий данные из Crossref, DataCite (представившей недавно собственный корпус цитирования, на что обращают внимание коллеги) и PubMed. Он использует технологии Semantic Web и присваивает новые глобальные постоянные идентификаторы (PID), а автоматизированная обработка в соответствии с моделью данных OpenCitations обеспечивает прозрачность и целостность данных, что не имеет, по заявлению авторов, аналогов в других библиографических базах данных. Доступен через различные интерфейсы, включая SPARQL и API REST. Появление очередной инициативы вновь демонстрирует интересует к реализации принципов открытой науки.
#дайджест #открытыеданные #воспроизводимость #hиндекс
Представляем второй дайджест новостей в сфере научной политики и наукометрии от команды нашего канала:
1. Пожалуй, главной новостью для отечественной науки за прошедший месяц стали события, связанные с празднованием юбилея РАН, о котором мы упоминали в одном из наших прошлых постов. В рамках торжественных мероприятий было объявлено, что ВАК, РЦНИ и издательство “Наука” перейдут в подчинение Российской академии наук. На время переходного периода не беремся давать оценок проводимой реформе, но в том, что она затронет действующие принципы реализации научной политики можно практически не сомневаться. С интересом будем наблюдать за этими изменениями!
2. В Science вышла статья о новых способах накрутки цитирований. Авторы, упомянутые в статье, проанализировали методы, которые используют недобросовестные исследователи для повышения h-индекса. В этих целях от имени вымышленного ученого ими были опубликованы написанные ChatGPT 20 статей, с которыми они проделали ряд агрессивных манипуляций (покупка цитирований, чрезмерное самоцитирование и т.д.), что позволило вымышленному ученому подняться на 36 место в рейтинге самых цитируемых исследователей в своей области. Заметку прокомментировал академик А. Хохлов в своём телеграм-канале.
3. В Scholary Kitchen вышла статья независимого исследователя, призывающая критически относиться к мировому рейтингу 2% самых влиятельных ученых мира. Акира Абу проанализировал наиболее распространённые ошибки рейтинга Стэнфордского университета на основе данных Scopus. Согласно его наблюдениям в список ошибочно входит целый ряд авторов: ученые якобы ведущие публикационную активность с XIX века по сегодняшний день; авторы с сомнительной публикационной активностью (более 200 публикаций в год, включая материалы, которые не имеют отношения к науке (новости, редакторские заметки)) и т. д. Исследователь утверждает, что факт составления таких рейтингов является контрпродуктивным и потенциально может стимулировать ученых прибегать к манипуляциям ради получения более высокого места в рейтинге и соответствующего статуса.
4. Nature Human Behavior в сотрудничестве с Институтом репликации будет поощрять воспроизведение результатов статей, опубликованных в журнале с 2023 года. Повторные исследования будут проводиться как на оригинальных, так и на новых наборах данных. Целью инициативы является повышение доверия к опубликованным статьям, а также улучшение качества и точности результатов исследований.
5. В Journal of Infometrics вышла статья об эффективности открытых данных в контексте эпидемий. Ученые проанализировали скорость распространения научной информации с момента вспышки Эболы в 1976 году до пандемии COVID-19. Так, например, средний временной разрыв между сбором данных и их публичным распространением за обозначенный период сократился на 99,56 %: с 626,94 дней для Эболы до 2,76 дней для COVID-19. Ученые подчеркивают, что эпидемии служат лакмусовой бумажкой эффективности открытых данных в реагировании на серьезные кризисы в области здравоохранения.
6. В Quantitative Science Studies вышла статья об OpenCitations Meta — новой базе метаданных научных публикаций, включающий данные из Crossref, DataCite (представившей недавно собственный корпус цитирования, на что обращают внимание коллеги) и PubMed. Он использует технологии Semantic Web и присваивает новые глобальные постоянные идентификаторы (PID), а автоматизированная обработка в соответствии с моделью данных OpenCitations обеспечивает прозрачность и целостность данных, что не имеет, по заявлению авторов, аналогов в других библиографических базах данных. Доступен через различные интерфейсы, включая SPARQL и API REST. Появление очередной инициативы вновь демонстрирует интересует к реализации принципов открытой науки.
#дайджест #открытыеданные #воспроизводимость #hиндекс
Оценка экономической ценности открытого доступа: взгляд пользователей
Общественное мнение относительно преимуществ и недостатков открытого доступа к исследовательским данным нередко балансирует между полярными точками зрения. С одной стороны, инвестиции в открытый доступ могут восприниматься как напрасные расходы, а сама дискуссия о его важности может смещать фокус с поддержки исследований на развитие инфраструктуры для распространения научного знания. С другой стороны, поддержка открытого доступа воспринимается многими как естественный способ ускорения научного прогресса, что в свою очередь влияет на реализацию различных проектов и повышает ценность таких инвестиций. Именно поэтому в последнее время интерес к оценке открытого доступа расширяется не только с точки зрения наукометрического анализа, но и с позиции измерения экономического эффекта отдачи.
Исследователи из Оксфордского центра биомедицинских исследований и Национальной научной библиотекой Китая, в недавно опубликованной в Research Evaluation работе выяснили, как сами потребители открытого доступа (обычные пользователи, не издательства и компании) оценивают его экономическую пользу.
Опираясь на метод условной оценки (Contingent Valuation Method), ученые проанализировали пользовательские стратегии взаимодействия с бесплатной платформой открытых данных Национального центра данных фундаментальной науки (NBSDC, Китай).
Результаты опроса (всего 322 участника) помогли прояснить пользовательскую вовлеченность в среду БД на разных уровнях (цели и частота посещений, значимость площадки). Все опрашиваемые так или иначе были вовлечены в академическую сферу и занимались исследованиями и/или преподаванием, большинство (74 %) было связано с научно-исследовательскими учреждениями, остальные — с университетами.
В общей сложности 85 % респондентов указали, что экономическая выгода, создаваемая для них платформой, является «значимой» или «очень значимой», 12 % оценили её как «нейтральную», а 1 % как «низкую».
Перейдя к измерениям экономической «стоимости» платформы открытого доступа, исследователи определили, что основные возможные источники ее ценообразования (т.е. то, за что пользователь может потенциально заплатить) — это:
•просмотры (чтение статей, посещение сайта);
•запросы доступа;
•загрузки;
•периодическая подписка (ежемесячная и ежегодная).
Пользователям было предложено оценить эти критерии как со стороны предоставляемой личной экономической выгоды, так и со стороны готовности за эту выгоду платить.
Согласно результатам, наиболее ценным для пользователей оказались просмотры (33 %), затем загрузка данных (16 %) и запросы к ним (13 %). Кроме того, предпочтение было отдано годовой подписке (25 %), а не ежемесячной (14 %). Однако когда речь зашла о реальной готовности платить за использование данных, на первое место вышли загрузки (27 %), а не просмотры (15 %) и запросы (11 %), а вот отношение к годовой (36 %) и ежемесячной (11 %) подпискам приблизительно соответствовало первоначальной оценке ценности подобного вида доступа.
На основе ответов авторы определили стоимость за просмотр, загрузку, запрос и подписку на данные. Исходя из общего количества просмотров на площадке (по состоянию на 2023 год — 33 млн), стоимость NBSDC составила около 165 млн юаней (более 23 млн долларов), а готовность пользователей платить — порядка 66 млн юаней (9 млн долларов).
Таким образом, пользовательское желание платить оказалось приблизительно в 2,5 раза ниже, чем пользовательская оценка значимости открытого доступа. Тем не менее полученный результат, по мнению авторов, является важным аргументом в пользу дальнейшего развития открытого доступа и непосредственно влияет на реализацию стратегий научной политики. Открытый доступ обладает не только неосязаемой научной, но и существенной экономической ценностью, что может послужить дальнейшим стимулом для его поддержки и развития во многих странах, включая Россию.
#OpenAccess #Открытыеданные #обзор #экономическаяоценкаданных
Общественное мнение относительно преимуществ и недостатков открытого доступа к исследовательским данным нередко балансирует между полярными точками зрения. С одной стороны, инвестиции в открытый доступ могут восприниматься как напрасные расходы, а сама дискуссия о его важности может смещать фокус с поддержки исследований на развитие инфраструктуры для распространения научного знания. С другой стороны, поддержка открытого доступа воспринимается многими как естественный способ ускорения научного прогресса, что в свою очередь влияет на реализацию различных проектов и повышает ценность таких инвестиций. Именно поэтому в последнее время интерес к оценке открытого доступа расширяется не только с точки зрения наукометрического анализа, но и с позиции измерения экономического эффекта отдачи.
Исследователи из Оксфордского центра биомедицинских исследований и Национальной научной библиотекой Китая, в недавно опубликованной в Research Evaluation работе выяснили, как сами потребители открытого доступа (обычные пользователи, не издательства и компании) оценивают его экономическую пользу.
Опираясь на метод условной оценки (Contingent Valuation Method), ученые проанализировали пользовательские стратегии взаимодействия с бесплатной платформой открытых данных Национального центра данных фундаментальной науки (NBSDC, Китай).
Результаты опроса (всего 322 участника) помогли прояснить пользовательскую вовлеченность в среду БД на разных уровнях (цели и частота посещений, значимость площадки). Все опрашиваемые так или иначе были вовлечены в академическую сферу и занимались исследованиями и/или преподаванием, большинство (74 %) было связано с научно-исследовательскими учреждениями, остальные — с университетами.
В общей сложности 85 % респондентов указали, что экономическая выгода, создаваемая для них платформой, является «значимой» или «очень значимой», 12 % оценили её как «нейтральную», а 1 % как «низкую».
Перейдя к измерениям экономической «стоимости» платформы открытого доступа, исследователи определили, что основные возможные источники ее ценообразования (т.е. то, за что пользователь может потенциально заплатить) — это:
•просмотры (чтение статей, посещение сайта);
•запросы доступа;
•загрузки;
•периодическая подписка (ежемесячная и ежегодная).
Пользователям было предложено оценить эти критерии как со стороны предоставляемой личной экономической выгоды, так и со стороны готовности за эту выгоду платить.
Согласно результатам, наиболее ценным для пользователей оказались просмотры (33 %), затем загрузка данных (16 %) и запросы к ним (13 %). Кроме того, предпочтение было отдано годовой подписке (25 %), а не ежемесячной (14 %). Однако когда речь зашла о реальной готовности платить за использование данных, на первое место вышли загрузки (27 %), а не просмотры (15 %) и запросы (11 %), а вот отношение к годовой (36 %) и ежемесячной (11 %) подпискам приблизительно соответствовало первоначальной оценке ценности подобного вида доступа.
На основе ответов авторы определили стоимость за просмотр, загрузку, запрос и подписку на данные. Исходя из общего количества просмотров на площадке (по состоянию на 2023 год — 33 млн), стоимость NBSDC составила около 165 млн юаней (более 23 млн долларов), а готовность пользователей платить — порядка 66 млн юаней (9 млн долларов).
Таким образом, пользовательское желание платить оказалось приблизительно в 2,5 раза ниже, чем пользовательская оценка значимости открытого доступа. Тем не менее полученный результат, по мнению авторов, является важным аргументом в пользу дальнейшего развития открытого доступа и непосредственно влияет на реализацию стратегий научной политики. Открытый доступ обладает не только неосязаемой научной, но и существенной экономической ценностью, что может послужить дальнейшим стимулом для его поддержки и развития во многих странах, включая Россию.
#OpenAccess #Открытыеданные #обзор #экономическаяоценкаданных