Германские исследователи Corinna Kroeber и Tobias Remschel собрали набор данных всех публикаций Германского парламента (Бундестага) с 1949 по 2017 годы и опубликовали в формате удобном для последующей текстовой обработки языком R - " Every single word - A new dataset including all parliamentary materials published in Germany " [1]. Объём набора данных в сжатом виде около 1.2 гигабайт и более 131 тысячи документов включающих текст, даты, сведения об авторах и тд.
Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].
Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.
Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.
Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.
Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.
Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN
#opendata #data #politicalscience #science #datascience
Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].
Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.
Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.
Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.
Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.
Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN
#opendata #data #politicalscience #science #datascience
corinna-kroebers Webseite!
Corinna Kroeber
Assistant Professor
Регулярная подборка ссылок по работе с данными, открытости и приватности
На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.
Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python
Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.
GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.
Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.
GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]
Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/
#data #dataengineering #datascience #privacy #opendata
На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.
Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python
Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.
GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.
Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.
GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]
Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/
#data #dataengineering #datascience #privacy #opendata
Mihaileric
We Don't Need Data Scientists, We Need Data Engineers
After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.
Для тех кто работает с данными и хочет разнообразить свой опыт, среди многих инструментов для работы с данными применяют не только Python и, например, для Jupyter Notebook существует множество ядер на других языках, позволяющих делать исполняемые публикации с помощью любимых, а не общепринятых языков программирования.
- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin
существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других
На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.
#datascience #jupiter #tools #overview
- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin
существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других
На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.
#datascience #jupiter #tools #overview
GitHub
GitHub - JuliaLang/IJulia.jl: Julia kernel for Jupyter
Julia kernel for Jupyter. Contribute to JuliaLang/IJulia.jl development by creating an account on GitHub.
Фонд Chan-Zukerberg Initiative [1] выдал грант на 190 тысяч долларов проекту Galaxy [2]. Galaxy - это платформа интенсивной работы с данными используемая, в первую очередь, для биомедицинских расчетов с 250 тысячами пользователей по всему миру, большой коллекцией больших данных и значительным числом инструментов для работы с ними [3]
В мире есть более 163 сред и инсталляций для развертывания или использования общедоступных проектов на базе Galaxy [4]. Некоторые только для внутреннего пользования, другие, как австралийский [5] поддерживаются национальным исследовательским агентством Австралии и общедоступны.
У Galaxy полностью открытый код [6] и сам проект создавался под data intesive science и пример того что часто исследователям нужны не просто данные, а сложные комплексные расширяемые среды где кроме данных есть ещё и инструменты работы с ними с учётом их специфики
Ссылки:
[1] https://chanzuckerberg.com/
[2] https://ardc.edu.au/news/chan-zuckerberg-initiative-injects-funds-into-galaxy-platform-for-biomedical-research/
[3] https://usegalaxy.org/
[4] https://galaxyproject.org/use/
[5] https://usegalaxy.org.au
[6] https://github.com/galaxyproject
#data #datascience
В мире есть более 163 сред и инсталляций для развертывания или использования общедоступных проектов на базе Galaxy [4]. Некоторые только для внутреннего пользования, другие, как австралийский [5] поддерживаются национальным исследовательским агентством Австралии и общедоступны.
У Galaxy полностью открытый код [6] и сам проект создавался под data intesive science и пример того что часто исследователям нужны не просто данные, а сложные комплексные расширяемые среды где кроме данных есть ещё и инструменты работы с ними с учётом их специфики
Ссылки:
[1] https://chanzuckerberg.com/
[2] https://ardc.edu.au/news/chan-zuckerberg-initiative-injects-funds-into-galaxy-platform-for-biomedical-research/
[3] https://usegalaxy.org/
[4] https://galaxyproject.org/use/
[5] https://usegalaxy.org.au
[6] https://github.com/galaxyproject
#data #datascience
Chan Zuckerberg Initiative
We’re working to build a more inclusive, just and healthy future for everyone.
Современный отраслевой портал данных выглядит как Allen Brain Map Data Portal [1] и включает не только возможность скачать данные и просмотреть их наглядно, но открытый код в виде SDK, а также документацию, API, научные статьи с результатами и ещё многое другое имеющее отраслевую специфику, в данном случае, в области изучения мозга.
Ссылки:
[1] https://portal.brain-map.org/
#opendata #datascience
Ссылки:
[1] https://portal.brain-map.org/
#opendata #datascience
Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.
Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul
#opendata #datasets #data #datascience
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.
Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul
#opendata #datasets #data #datascience
Medium
Why So Many Data Scientists Quit Good Jobs at Great Companies
A look at why the ‘sexiest job of the 21st century’ has lost its appeal
Для тех кто интересуется "гражданской наукой" (citizen science) и данными - проект BirdNet [1] лаборатории орнитологии Корнелла в виде мобильного приложения куда каждый может загрузить часть птичьей песни для немедленной идентификации кто же её поёт.
У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.
Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET
#opensource #datascience #citizenscience
У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.
Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET
#opensource #datascience #citizenscience
GitHub
GitHub - kahst/BirdNET: Soundscape analysis with BirdNET.
Soundscape analysis with BirdNET. Contribute to kahst/BirdNET development by creating an account on GitHub.
Forwarded from APICrafter
Обновления в каталоге APICrafter
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv