Хабр / ML & AI

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей. Читать далее

#common_crawl #apache_spark #language_model | @habr_ai

Хабр

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Современные большие языковые модели (LLMs) — такие как GPT, DeepSeek, LLaMA и другие обучаются на огромных объёмах текстов из интернета, чтобы охватить всю широту естественного языка. Один из ключевых...

62 views21:33

Хабр / ML & AI

Машинное обучение в Apache Spark с помощью MLlib

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она содержит реализации различных алгоритмов машинного обучения и может использоваться во всех языках программирования, поддерживаемых фреймворком Spark.

В этой статье мы покажем вам, как использовать этой библиотекой в своих программах, и дадим некоторые рекомендации по ее применению. Читать далее

#mllib #apache_spark #распределённые_вычисления #логистическая_регрессия #обработка_больших_данных | @habr_ai

Хабр

Машинное обучение в Apache Spark с помощью MLlib

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. В ее состав входят различные алгоритмы машинного...

74 views18:46

About

Blog

Apps

Platform