Хабр / ML & AI

[Перевод] Уроки, извлеченные из масштабирования до многотерабайтных датасетов

В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.

Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи. Читать далее

#датасеты #big_data #joblib #машинное_обучение #параллелизация #spark #dask #виртуализация #инстансы #виртуальная_машина | @habr_ai

28 views11:34