Международный день всеобщего доступа к информации
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Zenodo
Dataset Citation and Re-use Data
This dataset includes processed citation data for datasets recorded in OpenAlex as of May 2022. It identifies self-citations to these datasets at the individual, institutional, and country level, and includes domain classifications of the citing works using…
Дайджест: февраль 2024
Представляем второй дайджест новостей в сфере научной политики и наукометрии от команды нашего канала:
1. Пожалуй, главной новостью для отечественной науки за прошедший месяц стали события, связанные с празднованием юбилея РАН, о котором мы упоминали в одном из наших прошлых постов. В рамках торжественных мероприятий было объявлено, что ВАК, РЦНИ и издательство “Наука” перейдут в подчинение Российской академии наук. На время переходного периода не беремся давать оценок проводимой реформе, но в том, что она затронет действующие принципы реализации научной политики можно практически не сомневаться. С интересом будем наблюдать за этими изменениями!
2. В Science вышла статья о новых способах накрутки цитирований. Авторы, упомянутые в статье, проанализировали методы, которые используют недобросовестные исследователи для повышения h-индекса. В этих целях от имени вымышленного ученого ими были опубликованы написанные ChatGPT 20 статей, с которыми они проделали ряд агрессивных манипуляций (покупка цитирований, чрезмерное самоцитирование и т.д.), что позволило вымышленному ученому подняться на 36 место в рейтинге самых цитируемых исследователей в своей области. Заметку прокомментировал академик А. Хохлов в своём телеграм-канале.
3. В Scholary Kitchen вышла статья независимого исследователя, призывающая критически относиться к мировому рейтингу 2% самых влиятельных ученых мира. Акира Абу проанализировал наиболее распространённые ошибки рейтинга Стэнфордского университета на основе данных Scopus. Согласно его наблюдениям в список ошибочно входит целый ряд авторов: ученые якобы ведущие публикационную активность с XIX века по сегодняшний день; авторы с сомнительной публикационной активностью (более 200 публикаций в год, включая материалы, которые не имеют отношения к науке (новости, редакторские заметки)) и т. д. Исследователь утверждает, что факт составления таких рейтингов является контрпродуктивным и потенциально может стимулировать ученых прибегать к манипуляциям ради получения более высокого места в рейтинге и соответствующего статуса.
4. Nature Human Behavior в сотрудничестве с Институтом репликации будет поощрять воспроизведение результатов статей, опубликованных в журнале с 2023 года. Повторные исследования будут проводиться как на оригинальных, так и на новых наборах данных. Целью инициативы является повышение доверия к опубликованным статьям, а также улучшение качества и точности результатов исследований.
5. В Journal of Infometrics вышла статья об эффективности открытых данных в контексте эпидемий. Ученые проанализировали скорость распространения научной информации с момента вспышки Эболы в 1976 году до пандемии COVID-19. Так, например, средний временной разрыв между сбором данных и их публичным распространением за обозначенный период сократился на 99,56 %: с 626,94 дней для Эболы до 2,76 дней для COVID-19. Ученые подчеркивают, что эпидемии служат лакмусовой бумажкой эффективности открытых данных в реагировании на серьезные кризисы в области здравоохранения.
6. В Quantitative Science Studies вышла статья об OpenCitations Meta — новой базе метаданных научных публикаций, включающий данные из Crossref, DataCite (представившей недавно собственный корпус цитирования, на что обращают внимание коллеги) и PubMed. Он использует технологии Semantic Web и присваивает новые глобальные постоянные идентификаторы (PID), а автоматизированная обработка в соответствии с моделью данных OpenCitations обеспечивает прозрачность и целостность данных, что не имеет, по заявлению авторов, аналогов в других библиографических базах данных. Доступен через различные интерфейсы, включая SPARQL и API REST. Появление очередной инициативы вновь демонстрирует интересует к реализации принципов открытой науки.
#дайджест #открытыеданные #воспроизводимость #hиндекс
Представляем второй дайджест новостей в сфере научной политики и наукометрии от команды нашего канала:
1. Пожалуй, главной новостью для отечественной науки за прошедший месяц стали события, связанные с празднованием юбилея РАН, о котором мы упоминали в одном из наших прошлых постов. В рамках торжественных мероприятий было объявлено, что ВАК, РЦНИ и издательство “Наука” перейдут в подчинение Российской академии наук. На время переходного периода не беремся давать оценок проводимой реформе, но в том, что она затронет действующие принципы реализации научной политики можно практически не сомневаться. С интересом будем наблюдать за этими изменениями!
2. В Science вышла статья о новых способах накрутки цитирований. Авторы, упомянутые в статье, проанализировали методы, которые используют недобросовестные исследователи для повышения h-индекса. В этих целях от имени вымышленного ученого ими были опубликованы написанные ChatGPT 20 статей, с которыми они проделали ряд агрессивных манипуляций (покупка цитирований, чрезмерное самоцитирование и т.д.), что позволило вымышленному ученому подняться на 36 место в рейтинге самых цитируемых исследователей в своей области. Заметку прокомментировал академик А. Хохлов в своём телеграм-канале.
3. В Scholary Kitchen вышла статья независимого исследователя, призывающая критически относиться к мировому рейтингу 2% самых влиятельных ученых мира. Акира Абу проанализировал наиболее распространённые ошибки рейтинга Стэнфордского университета на основе данных Scopus. Согласно его наблюдениям в список ошибочно входит целый ряд авторов: ученые якобы ведущие публикационную активность с XIX века по сегодняшний день; авторы с сомнительной публикационной активностью (более 200 публикаций в год, включая материалы, которые не имеют отношения к науке (новости, редакторские заметки)) и т. д. Исследователь утверждает, что факт составления таких рейтингов является контрпродуктивным и потенциально может стимулировать ученых прибегать к манипуляциям ради получения более высокого места в рейтинге и соответствующего статуса.
4. Nature Human Behavior в сотрудничестве с Институтом репликации будет поощрять воспроизведение результатов статей, опубликованных в журнале с 2023 года. Повторные исследования будут проводиться как на оригинальных, так и на новых наборах данных. Целью инициативы является повышение доверия к опубликованным статьям, а также улучшение качества и точности результатов исследований.
5. В Journal of Infometrics вышла статья об эффективности открытых данных в контексте эпидемий. Ученые проанализировали скорость распространения научной информации с момента вспышки Эболы в 1976 году до пандемии COVID-19. Так, например, средний временной разрыв между сбором данных и их публичным распространением за обозначенный период сократился на 99,56 %: с 626,94 дней для Эболы до 2,76 дней для COVID-19. Ученые подчеркивают, что эпидемии служат лакмусовой бумажкой эффективности открытых данных в реагировании на серьезные кризисы в области здравоохранения.
6. В Quantitative Science Studies вышла статья об OpenCitations Meta — новой базе метаданных научных публикаций, включающий данные из Crossref, DataCite (представившей недавно собственный корпус цитирования, на что обращают внимание коллеги) и PubMed. Он использует технологии Semantic Web и присваивает новые глобальные постоянные идентификаторы (PID), а автоматизированная обработка в соответствии с моделью данных OpenCitations обеспечивает прозрачность и целостность данных, что не имеет, по заявлению авторов, аналогов в других библиографических базах данных. Доступен через различные интерфейсы, включая SPARQL и API REST. Появление очередной инициативы вновь демонстрирует интересует к реализации принципов открытой науки.
#дайджест #открытыеданные #воспроизводимость #hиндекс
Оценка экономической ценности открытого доступа: взгляд пользователей
Общественное мнение относительно преимуществ и недостатков открытого доступа к исследовательским данным нередко балансирует между полярными точками зрения. С одной стороны, инвестиции в открытый доступ могут восприниматься как напрасные расходы, а сама дискуссия о его важности может смещать фокус с поддержки исследований на развитие инфраструктуры для распространения научного знания. С другой стороны, поддержка открытого доступа воспринимается многими как естественный способ ускорения научного прогресса, что в свою очередь влияет на реализацию различных проектов и повышает ценность таких инвестиций. Именно поэтому в последнее время интерес к оценке открытого доступа расширяется не только с точки зрения наукометрического анализа, но и с позиции измерения экономического эффекта отдачи.
Исследователи из Оксфордского центра биомедицинских исследований и Национальной научной библиотекой Китая, в недавно опубликованной в Research Evaluation работе выяснили, как сами потребители открытого доступа (обычные пользователи, не издательства и компании) оценивают его экономическую пользу.
Опираясь на метод условной оценки (Contingent Valuation Method), ученые проанализировали пользовательские стратегии взаимодействия с бесплатной платформой открытых данных Национального центра данных фундаментальной науки (NBSDC, Китай).
Результаты опроса (всего 322 участника) помогли прояснить пользовательскую вовлеченность в среду БД на разных уровнях (цели и частота посещений, значимость площадки). Все опрашиваемые так или иначе были вовлечены в академическую сферу и занимались исследованиями и/или преподаванием, большинство (74 %) было связано с научно-исследовательскими учреждениями, остальные — с университетами.
В общей сложности 85 % респондентов указали, что экономическая выгода, создаваемая для них платформой, является «значимой» или «очень значимой», 12 % оценили её как «нейтральную», а 1 % как «низкую».
Перейдя к измерениям экономической «стоимости» платформы открытого доступа, исследователи определили, что основные возможные источники ее ценообразования (т.е. то, за что пользователь может потенциально заплатить) — это:
•просмотры (чтение статей, посещение сайта);
•запросы доступа;
•загрузки;
•периодическая подписка (ежемесячная и ежегодная).
Пользователям было предложено оценить эти критерии как со стороны предоставляемой личной экономической выгоды, так и со стороны готовности за эту выгоду платить.
Согласно результатам, наиболее ценным для пользователей оказались просмотры (33 %), затем загрузка данных (16 %) и запросы к ним (13 %). Кроме того, предпочтение было отдано годовой подписке (25 %), а не ежемесячной (14 %). Однако когда речь зашла о реальной готовности платить за использование данных, на первое место вышли загрузки (27 %), а не просмотры (15 %) и запросы (11 %), а вот отношение к годовой (36 %) и ежемесячной (11 %) подпискам приблизительно соответствовало первоначальной оценке ценности подобного вида доступа.
На основе ответов авторы определили стоимость за просмотр, загрузку, запрос и подписку на данные. Исходя из общего количества просмотров на площадке (по состоянию на 2023 год — 33 млн), стоимость NBSDC составила около 165 млн юаней (более 23 млн долларов), а готовность пользователей платить — порядка 66 млн юаней (9 млн долларов).
Таким образом, пользовательское желание платить оказалось приблизительно в 2,5 раза ниже, чем пользовательская оценка значимости открытого доступа. Тем не менее полученный результат, по мнению авторов, является важным аргументом в пользу дальнейшего развития открытого доступа и непосредственно влияет на реализацию стратегий научной политики. Открытый доступ обладает не только неосязаемой научной, но и существенной экономической ценностью, что может послужить дальнейшим стимулом для его поддержки и развития во многих странах, включая Россию.
#OpenAccess #Открытыеданные #обзор #экономическаяоценкаданных
Общественное мнение относительно преимуществ и недостатков открытого доступа к исследовательским данным нередко балансирует между полярными точками зрения. С одной стороны, инвестиции в открытый доступ могут восприниматься как напрасные расходы, а сама дискуссия о его важности может смещать фокус с поддержки исследований на развитие инфраструктуры для распространения научного знания. С другой стороны, поддержка открытого доступа воспринимается многими как естественный способ ускорения научного прогресса, что в свою очередь влияет на реализацию различных проектов и повышает ценность таких инвестиций. Именно поэтому в последнее время интерес к оценке открытого доступа расширяется не только с точки зрения наукометрического анализа, но и с позиции измерения экономического эффекта отдачи.
Исследователи из Оксфордского центра биомедицинских исследований и Национальной научной библиотекой Китая, в недавно опубликованной в Research Evaluation работе выяснили, как сами потребители открытого доступа (обычные пользователи, не издательства и компании) оценивают его экономическую пользу.
Опираясь на метод условной оценки (Contingent Valuation Method), ученые проанализировали пользовательские стратегии взаимодействия с бесплатной платформой открытых данных Национального центра данных фундаментальной науки (NBSDC, Китай).
Результаты опроса (всего 322 участника) помогли прояснить пользовательскую вовлеченность в среду БД на разных уровнях (цели и частота посещений, значимость площадки). Все опрашиваемые так или иначе были вовлечены в академическую сферу и занимались исследованиями и/или преподаванием, большинство (74 %) было связано с научно-исследовательскими учреждениями, остальные — с университетами.
В общей сложности 85 % респондентов указали, что экономическая выгода, создаваемая для них платформой, является «значимой» или «очень значимой», 12 % оценили её как «нейтральную», а 1 % как «низкую».
Перейдя к измерениям экономической «стоимости» платформы открытого доступа, исследователи определили, что основные возможные источники ее ценообразования (т.е. то, за что пользователь может потенциально заплатить) — это:
•просмотры (чтение статей, посещение сайта);
•запросы доступа;
•загрузки;
•периодическая подписка (ежемесячная и ежегодная).
Пользователям было предложено оценить эти критерии как со стороны предоставляемой личной экономической выгоды, так и со стороны готовности за эту выгоду платить.
Согласно результатам, наиболее ценным для пользователей оказались просмотры (33 %), затем загрузка данных (16 %) и запросы к ним (13 %). Кроме того, предпочтение было отдано годовой подписке (25 %), а не ежемесячной (14 %). Однако когда речь зашла о реальной готовности платить за использование данных, на первое место вышли загрузки (27 %), а не просмотры (15 %) и запросы (11 %), а вот отношение к годовой (36 %) и ежемесячной (11 %) подпискам приблизительно соответствовало первоначальной оценке ценности подобного вида доступа.
На основе ответов авторы определили стоимость за просмотр, загрузку, запрос и подписку на данные. Исходя из общего количества просмотров на площадке (по состоянию на 2023 год — 33 млн), стоимость NBSDC составила около 165 млн юаней (более 23 млн долларов), а готовность пользователей платить — порядка 66 млн юаней (9 млн долларов).
Таким образом, пользовательское желание платить оказалось приблизительно в 2,5 раза ниже, чем пользовательская оценка значимости открытого доступа. Тем не менее полученный результат, по мнению авторов, является важным аргументом в пользу дальнейшего развития открытого доступа и непосредственно влияет на реализацию стратегий научной политики. Открытый доступ обладает не только неосязаемой научной, но и существенной экономической ценностью, что может послужить дальнейшим стимулом для его поддержки и развития во многих странах, включая Россию.
#OpenAccess #Открытыеданные #обзор #экономическаяоценкаданных
Dateno: первые опыты
Современная наука во многом построена на больших массивах данных, доступ к которым можно получить через репозитории, однако инструментов, позволяющих осуществлять поиск сразу по нескольким из них не так много. Так, Google Dataset Search выглядит подходящим инструментом, но исследователи, для которых предметом изучения являются сами данные, сталкиваются с ограничениями по автоматизации их получения.
Мы давно обратили внимание на проект Dateno (команда под руководством Ивана Бегтина), о котором упоминали в мартовском дайджесте. На сегодняшний день Dateno содержит информацию о 19 миллионах датасетов, но самое главное - имеет достаточно понятный и удобный API-интерфейс, с которым мы и решили, наконец, попробовать поработать.
Простая инструкция с примером очень хорошо описана в телеграм-канале И. Бегтина: пользователь регистрируется, получает токен, а дальше применение API возможно как напрямую из браузерной строки, так и через консольный инструмент, скрипт Python/R и т.д.
Зарегистрировавшись, мы сразу запросили данные о датасетах, в заголовке которых есть слово "scientometric*". Таких нашлось 92. Всего включено 35 параметров, в том числе данные о самих датасетах (название, ссылка, тематика, описание, формат и др.) и об источниках этих датасетов (название и тип каталога, название и тип его владельца, страна, язык и прочее).
Конкретно по нашей тематике данные размечены не полностью — например, лицензия указана всего для 10 датасетов из 92, тематика — для 16, а макрорегион — для 33. Подавляющее большинство наборов данных (56) принадлежит Европейскому Союзу, а вот в США их всего 17. Самые распространенные форматы .tsv и .txt (по 13). Датасетов в формате .json, к нашему удивлению, всего 2.
В целом, Dateno оказался действительно удобным инструментом, как с точки зрения технической доступности (открытый API есть у немногих репозиториев), так и с точки зрения покрытия данных. Предлагаем поделиться своим опытом использования Dateno в комментариях.
#dateno #датасеты #открытыеданные
Современная наука во многом построена на больших массивах данных, доступ к которым можно получить через репозитории, однако инструментов, позволяющих осуществлять поиск сразу по нескольким из них не так много. Так, Google Dataset Search выглядит подходящим инструментом, но исследователи, для которых предметом изучения являются сами данные, сталкиваются с ограничениями по автоматизации их получения.
Мы давно обратили внимание на проект Dateno (команда под руководством Ивана Бегтина), о котором упоминали в мартовском дайджесте. На сегодняшний день Dateno содержит информацию о 19 миллионах датасетов, но самое главное - имеет достаточно понятный и удобный API-интерфейс, с которым мы и решили, наконец, попробовать поработать.
Простая инструкция с примером очень хорошо описана в телеграм-канале И. Бегтина: пользователь регистрируется, получает токен, а дальше применение API возможно как напрямую из браузерной строки, так и через консольный инструмент, скрипт Python/R и т.д.
Зарегистрировавшись, мы сразу запросили данные о датасетах, в заголовке которых есть слово "scientometric*". Таких нашлось 92. Всего включено 35 параметров, в том числе данные о самих датасетах (название, ссылка, тематика, описание, формат и др.) и об источниках этих датасетов (название и тип каталога, название и тип его владельца, страна, язык и прочее).
Конкретно по нашей тематике данные размечены не полностью — например, лицензия указана всего для 10 датасетов из 92, тематика — для 16, а макрорегион — для 33. Подавляющее большинство наборов данных (56) принадлежит Европейскому Союзу, а вот в США их всего 17. Самые распространенные форматы .tsv и .txt (по 13). Датасетов в формате .json, к нашему удивлению, всего 2.
В целом, Dateno оказался действительно удобным инструментом, как с точки зрения технической доступности (открытый API есть у немногих репозиториев), так и с точки зрения покрытия данных. Предлагаем поделиться своим опытом использования Dateno в комментариях.
#dateno #датасеты #открытыеданные