#ml #datasets #openregistry #python
Бывает, для академических целей срочно нужны датасеты )
В таких случаях можно поискать в Registry of Open Data on AWS. 400+ датасетов (табличные, тексты, изображения) хостятся на s3. Есть описания, зачастую примеры использования на Питоне. Акустика, космос, медицина, отзывы, карты, разметки, всё, что душе угодно )
https://registry.opendata.aws/
Бывает, для академических целей срочно нужны датасеты )
В таких случаях можно поискать в Registry of Open Data on AWS. 400+ датасетов (табличные, тексты, изображения) хостятся на s3. Есть описания, зачастую примеры использования на Питоне. Акустика, космос, медицина, отзывы, карты, разметки, всё, что душе угодно )
https://registry.opendata.aws/
#datasets
"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».
Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.
Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."
https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri
"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».
Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.
Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."
https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri
3DNews - Daily Digital Digest
«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом
Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным…
👍1
#datasets #astronomy
"Это первый релиз каталога COSMOS по наблюдениям с телескопа «Уэбб». Исследование охватывает 0,54 градуса неба с помощью NIRCam (камеры для получения изображений в ближнем инфракрасном диапазоне) — это «примерно площадь трёх полных лун», и 0,2 квадратных градуса с помощью MIRI (камеры для получения изображений в среднем инфракрасном диапазоне)."
Зайдите. Это прекрасно.
https://3dnews.ru/1124250/vselennaya-bez-registratsii-i-sms-v-otkritiy-dostup-vilogeno-15-tbayt-fotografiy-kosmosa-ot-dgeymsa-uebba
"Это первый релиз каталога COSMOS по наблюдениям с телескопа «Уэбб». Исследование охватывает 0,54 градуса неба с помощью NIRCam (камеры для получения изображений в ближнем инфракрасном диапазоне) — это «примерно площадь трёх полных лун», и 0,2 квадратных градуса с помощью MIRI (камеры для получения изображений в среднем инфракрасном диапазоне)."
Зайдите. Это прекрасно.
https://3dnews.ru/1124250/vselennaya-bez-registratsii-i-sms-v-otkritiy-dostup-vilogeno-15-tbayt-fotografiy-kosmosa-ot-dgeymsa-uebba
3DNews - Daily Digital Digest
Вселенная без регистрации и СМС: в открытый доступ выложено 1,5 Тбайт фотографий космоса от «Джеймса Уэбба»
Коллаборация Cosmic Evolution Survey (COSMOS) выложила в открытый доступ наиболее полный на сегодняшний день обзор Вселенной с помощью приборов космической инфракрасной обсерватории имени Джеймса Уэбба.