Aspiring Data Science
373 subscribers
425 photos
11 videos
10 files
1.87K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#ml #datasets #openregistry #python

Бывает, для академических целей срочно нужны датасеты )
В таких случаях можно поискать в Registry of Open Data on AWS. 400+ датасетов (табличные, тексты, изображения) хостятся на s3. Есть описания, зачастую примеры использования на Питоне. Акустика, космос, медицина, отзывы, карты, разметки, всё, что душе угодно )

https://registry.opendata.aws/
#datasets

"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."

https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri
👍1
#datasets #astronomy

"Это первый релиз каталога COSMOS по наблюдениям с телескопа «Уэбб». Исследование охватывает 0,54 градуса неба с помощью NIRCam (камеры для получения изображений в ближнем инфракрасном диапазоне) — это «примерно площадь трёх полных лун», и 0,2 квадратных градуса с помощью MIRI (камеры для получения изображений в среднем инфракрасном диапазоне)."

Зайдите. Это прекрасно.

https://3dnews.ru/1124250/vselennaya-bez-registratsii-i-sms-v-otkritiy-dostup-vilogeno-15-tbayt-fotografiy-kosmosa-ot-dgeymsa-uebba