Новое в руководстве: коллекция датасетов
В рамках нашего онлайн-руководства по наукометрии начали собирать коллекцию актуальных наукометрических датасетов — общедоступных и легальных. Сотни миллионов авторов и публикаций, тематики, цитирования, аннотации, журналы, финансирование, полные тексты — всё это доступно для скачивания, обработки, исследования и интеграции.
Уже сейчас при наличии навыков работы с данными любой желающий может собрать себе из этих данных хоть в PostgreSQL, хоть в BigQuery такую карту науки, что по охвату опередит Web of Science и Scopus, а сложные аналитические запросы типа «выдай и ранжируй всех авторов статей про пингвинов вместе со всеми их метриками и ссылками на полные тексты их публикаций в открытом доступе, а также всё то же самое для всех ссылающихся на них авторов из Антарктиды» будут выполняться легко, просто и бесплатно. Конечно, после настройки и отладки. Для удобства приводим примеры данных для ключевых датасетов.
Пока собрали датасеты по публикациям, авторам и организациям, в планах — источники (журналы), тематики, каналы финансирования и полные тексты. Всегда рады советам и рекомендациям.
#руководство #новости #датасеты #открытыйдоступ #бесплатнодляавторов
В рамках нашего онлайн-руководства по наукометрии начали собирать коллекцию актуальных наукометрических датасетов — общедоступных и легальных. Сотни миллионов авторов и публикаций, тематики, цитирования, аннотации, журналы, финансирование, полные тексты — всё это доступно для скачивания, обработки, исследования и интеграции.
Уже сейчас при наличии навыков работы с данными любой желающий может собрать себе из этих данных хоть в PostgreSQL, хоть в BigQuery такую карту науки, что по охвату опередит Web of Science и Scopus, а сложные аналитические запросы типа «выдай и ранжируй всех авторов статей про пингвинов вместе со всеми их метриками и ссылками на полные тексты их публикаций в открытом доступе, а также всё то же самое для всех ссылающихся на них авторов из Антарктиды» будут выполняться легко, просто и бесплатно. Конечно, после настройки и отладки. Для удобства приводим примеры данных для ключевых датасетов.
Пока собрали датасеты по публикациям, авторам и организациям, в планах — источники (журналы), тематики, каналы финансирования и полные тексты. Всегда рады советам и рекомендациям.
#руководство #новости #датасеты #открытыйдоступ #бесплатнодляавторов
Международный день всеобщего доступа к информации
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Доступность данных и информации — один из ключевых приоритетов повышения качества жизни, создающий очевидные преимущества для созидательного развития всего человечества. Этот принцип четко фиксируется в 19 статье Всеобщей декларации прав человека: человек обладает свободой искать, получать и распространять информацию. Ежегодным напоминанием значимости приведенного тезиса является учрежденный по инициативе ЮНЕСКО Международный день всеобщего доступа к информации, отмечаемый сегодня, 28 сентября.
Сегодня датасеты (наборы данных) стали неотъемлемой составляющей нашей жизни, в том числе и научной. Научные датасеты создаются как отдельными исследователями, так и целыми научными коллективами, а иногда источником служат данные коммерческих компаний. Набор собираемых данных поистине широк: начиная от результатов социологических опросов и заканчивая наборами последовательности генов.
В недавнем исследовании на основе данных OpenAlex канадские ученые решили проверить, насколько ценными для проведения повторных исследований оказываются собираемые в ходе исследований данные. Они выяснили, что 90% датасетов в дальнейшем не цитируются, а среди оставшихся большинство цитируется только один раз (чаще всего — самими создателями набора данных). Тем не менее существуют распространенные датасеты, использующиеся для работ, которые тематически могут быть не связаны друг с другом: так, около 130 датасетов цитировались более 100 раз.
Вот еще несколько авторских выводов:
• Наиболее активно датасеты распространяются в медицинской среде — 43% от общего количества проанализированных датасетов посвящены Health Science, а среднее количество цитат — 11,0 (при общем среднем 7,71).
• Больше всего датасетов создают ученые США, Великобритании и Германии — в общей сложности почти 70% от общего числа, причем более 50% приходится на долю США.
• Используют же готовые датасеты чаще всего в Великобритании, Германии и Австралии, причем Австралия ненамного, но все же опережает США по количеству цитат без учета самоцитирований.
На приведенной схеме отображено межинституциональное взаимодействие по повторному использованию готовых данных.
От себя заметим, что в исследовании не упоминается, какое количество статей, датасеты которых цитируются, сами при этом находится в открытом доступе. Мы решили проанализировать это по авторским материалам. Оказалось, что в 91% случаев источники по данным OpenAlex имеют статус «Closed» (можно предположить, что в данном случае процент некорректных метаданных может вносить значимый вклад в полученный результат, а отдельные статьи могут все же находиться в статусе “Open Access”), в 3% случаев источники имеют «гибридный» статус, и только оставшиеся 6% случаев — примеры, когда публикации источников находятся в открытом доступе. Повышение прозрачности в данном аспекте является немаловажным шагом для повышения открытости, видимости собранных данных и их повторного использования для тестирования нового набора гипотез.
P.S. Также хотим напомнить, что в руководстве есть подробный раздел с открытыми наборами данных, которые представляют интерес для всех, кто интересуется наукометрией.
#датасеты #открытыеданные #OpenAlex
Zenodo
Dataset Citation and Re-use Data
This dataset includes processed citation data for datasets recorded in OpenAlex as of May 2022. It identifies self-citations to these datasets at the individual, institutional, and country level, and includes domain classifications of the citing works using…
Рост числа гиперпродуктивных авторов в РФ
Недавнее письмо Иоаннидиса в Nature (ставшее закономерным продолжением работы 2018 г.), о росте числа гиперпродуктивных авторов привлекло широкое внимание. Россия относится к числу стран с максимальным приростом таких исследователей: если в работе 2018 г. упоминался только известный специалист по рентгеноструктурному анализу М.Ю. Антипин, умерший еще в 2013 г., то в версии этого года гиперпродуктивных авторов из России уже 10. Одно из очевидных объяснений, упоминаемых Иоаннидисом с соавторами — формалистские схемы оценки научной активности по числу публикаций. Такие схемы весьма распространены в странах с аномальным ростом числа гиперпродуктивных ученых.
Мы решили дополнить данные коллег по похожей методике, также воспользовавшись базой Scopus, и делимся датасетом наиболее продуктивных авторов публикаций с российской аффилиацией и с некоторыми дополнительными фильтрами:
- во-первых, считалось общее число публикаций у автора с 2015 до 2022 г. (данные собраны в январе 2023 г. и могут быть несколько ниже актуальных на сегодня);
- во-вторых, отсекались авторы из мегаколлабораций (>100 соавторов в среднем), а для остальных приводилось среднее число соавторов, число публикаций в разбивке по типам (для РФ важны труды конференций), средний уровень журнальных публикаций по Норвежскому национальному списку (1 — нормальный журнал, 2 — ведущий, 0 — неучитываемый), а также общее число цитирований учтенных публикаций. Последняя метрика дается сугубо справочно: абсолютное число цитирований нельзя использовать для сравнения ученых из разных областей с публикациями разных лет.
Также в датасете приводятся основные тематики работ, наиболее значимые источники (журналы и т.д.) и последние аффилиации (в разрезе организаций и стран), среднее число аффилиаций у автора и среднее число российских аффилиаций. Набор данных позволяет использовать для сравнения различные индикаторы, что согласуется с современными принципами применения наукометрии.
В качестве порога установлено число публикаций — не менее 200 за 2015-2022 гг. Таких авторов нашлось 124. Все они относятся к области естественных, точных или медицинских наук. 30 авторов имеют более 300 работ, 8 — более 400. 89 ученых работают в области химии, физики и материаловедения.
Отметим, что в списке немало крупных руководителей и главных редакторов журналов, а среди наиболее популярных журналов достаточно много платных, с облегченным рецензированием; кроме того, немало и авторов, предпочитающих конференции. Многие авторы в качестве основного места работы указывают иностранные организации, и, по предварительной информации, резко снизили сотрудничество с РФ после 2022 г., а увеличение числа публикаций за счет конференций осложнилось и отчасти потеряло актуальность в связи с действующим мораторием на показатели наличия публикаций в МНБД. С учетом всего вышеперечисленного, в обозримом будущем число гиперпродуктивных авторов вряд ли будет расти.
#датасеты #scopus #гиперпродуктивность
Недавнее письмо Иоаннидиса в Nature (ставшее закономерным продолжением работы 2018 г.), о росте числа гиперпродуктивных авторов привлекло широкое внимание. Россия относится к числу стран с максимальным приростом таких исследователей: если в работе 2018 г. упоминался только известный специалист по рентгеноструктурному анализу М.Ю. Антипин, умерший еще в 2013 г., то в версии этого года гиперпродуктивных авторов из России уже 10. Одно из очевидных объяснений, упоминаемых Иоаннидисом с соавторами — формалистские схемы оценки научной активности по числу публикаций. Такие схемы весьма распространены в странах с аномальным ростом числа гиперпродуктивных ученых.
Мы решили дополнить данные коллег по похожей методике, также воспользовавшись базой Scopus, и делимся датасетом наиболее продуктивных авторов публикаций с российской аффилиацией и с некоторыми дополнительными фильтрами:
- во-первых, считалось общее число публикаций у автора с 2015 до 2022 г. (данные собраны в январе 2023 г. и могут быть несколько ниже актуальных на сегодня);
- во-вторых, отсекались авторы из мегаколлабораций (>100 соавторов в среднем), а для остальных приводилось среднее число соавторов, число публикаций в разбивке по типам (для РФ важны труды конференций), средний уровень журнальных публикаций по Норвежскому национальному списку (1 — нормальный журнал, 2 — ведущий, 0 — неучитываемый), а также общее число цитирований учтенных публикаций. Последняя метрика дается сугубо справочно: абсолютное число цитирований нельзя использовать для сравнения ученых из разных областей с публикациями разных лет.
Также в датасете приводятся основные тематики работ, наиболее значимые источники (журналы и т.д.) и последние аффилиации (в разрезе организаций и стран), среднее число аффилиаций у автора и среднее число российских аффилиаций. Набор данных позволяет использовать для сравнения различные индикаторы, что согласуется с современными принципами применения наукометрии.
В качестве порога установлено число публикаций — не менее 200 за 2015-2022 гг. Таких авторов нашлось 124. Все они относятся к области естественных, точных или медицинских наук. 30 авторов имеют более 300 работ, 8 — более 400. 89 ученых работают в области химии, физики и материаловедения.
Отметим, что в списке немало крупных руководителей и главных редакторов журналов, а среди наиболее популярных журналов достаточно много платных, с облегченным рецензированием; кроме того, немало и авторов, предпочитающих конференции. Многие авторы в качестве основного места работы указывают иностранные организации, и, по предварительной информации, резко снизили сотрудничество с РФ после 2022 г., а увеличение числа публикаций за счет конференций осложнилось и отчасти потеряло актуальность в связи с действующим мораторием на показатели наличия публикаций в МНБД. С учетом всего вышеперечисленного, в обозримом будущем число гиперпродуктивных авторов вряд ли будет расти.
#датасеты #scopus #гиперпродуктивность
bioRxiv
Evolving patterns of extremely productive publishing behavior across science
We aimed to evaluate how many authors are extremely productive and how their presence across countries and scientific fields has changed during 2000-2022. Extremely productive (EP) authors were defined as those with >60 full papers (articles, reviews, conference…
Dateno: первые опыты
Современная наука во многом построена на больших массивах данных, доступ к которым можно получить через репозитории, однако инструментов, позволяющих осуществлять поиск сразу по нескольким из них не так много. Так, Google Dataset Search выглядит подходящим инструментом, но исследователи, для которых предметом изучения являются сами данные, сталкиваются с ограничениями по автоматизации их получения.
Мы давно обратили внимание на проект Dateno (команда под руководством Ивана Бегтина), о котором упоминали в мартовском дайджесте. На сегодняшний день Dateno содержит информацию о 19 миллионах датасетов, но самое главное - имеет достаточно понятный и удобный API-интерфейс, с которым мы и решили, наконец, попробовать поработать.
Простая инструкция с примером очень хорошо описана в телеграм-канале И. Бегтина: пользователь регистрируется, получает токен, а дальше применение API возможно как напрямую из браузерной строки, так и через консольный инструмент, скрипт Python/R и т.д.
Зарегистрировавшись, мы сразу запросили данные о датасетах, в заголовке которых есть слово "scientometric*". Таких нашлось 92. Всего включено 35 параметров, в том числе данные о самих датасетах (название, ссылка, тематика, описание, формат и др.) и об источниках этих датасетов (название и тип каталога, название и тип его владельца, страна, язык и прочее).
Конкретно по нашей тематике данные размечены не полностью — например, лицензия указана всего для 10 датасетов из 92, тематика — для 16, а макрорегион — для 33. Подавляющее большинство наборов данных (56) принадлежит Европейскому Союзу, а вот в США их всего 17. Самые распространенные форматы .tsv и .txt (по 13). Датасетов в формате .json, к нашему удивлению, всего 2.
В целом, Dateno оказался действительно удобным инструментом, как с точки зрения технической доступности (открытый API есть у немногих репозиториев), так и с точки зрения покрытия данных. Предлагаем поделиться своим опытом использования Dateno в комментариях.
#dateno #датасеты #открытыеданные
Современная наука во многом построена на больших массивах данных, доступ к которым можно получить через репозитории, однако инструментов, позволяющих осуществлять поиск сразу по нескольким из них не так много. Так, Google Dataset Search выглядит подходящим инструментом, но исследователи, для которых предметом изучения являются сами данные, сталкиваются с ограничениями по автоматизации их получения.
Мы давно обратили внимание на проект Dateno (команда под руководством Ивана Бегтина), о котором упоминали в мартовском дайджесте. На сегодняшний день Dateno содержит информацию о 19 миллионах датасетов, но самое главное - имеет достаточно понятный и удобный API-интерфейс, с которым мы и решили, наконец, попробовать поработать.
Простая инструкция с примером очень хорошо описана в телеграм-канале И. Бегтина: пользователь регистрируется, получает токен, а дальше применение API возможно как напрямую из браузерной строки, так и через консольный инструмент, скрипт Python/R и т.д.
Зарегистрировавшись, мы сразу запросили данные о датасетах, в заголовке которых есть слово "scientometric*". Таких нашлось 92. Всего включено 35 параметров, в том числе данные о самих датасетах (название, ссылка, тематика, описание, формат и др.) и об источниках этих датасетов (название и тип каталога, название и тип его владельца, страна, язык и прочее).
Конкретно по нашей тематике данные размечены не полностью — например, лицензия указана всего для 10 датасетов из 92, тематика — для 16, а макрорегион — для 33. Подавляющее большинство наборов данных (56) принадлежит Европейскому Союзу, а вот в США их всего 17. Самые распространенные форматы .tsv и .txt (по 13). Датасетов в формате .json, к нашему удивлению, всего 2.
В целом, Dateno оказался действительно удобным инструментом, как с точки зрения технической доступности (открытый API есть у немногих репозиториев), так и с точки зрения покрытия данных. Предлагаем поделиться своим опытом использования Dateno в комментариях.
#dateno #датасеты #открытыеданные