Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей
Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей. Читать далее
#common_crawl #apache_spark #language_model | @habr_ai
Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей. Читать далее
#common_crawl #apache_spark #language_model | @habr_ai
Хабр
Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей
Современные большие языковые модели (LLMs) — такие как GPT, DeepSeek, LLaMA и другие обучаются на огромных объёмах текстов из интернета, чтобы охватить всю широту естественного языка. Один из ключевых...
Машинное обучение в Apache Spark с помощью MLlib
Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она содержит реализации различных алгоритмов машинного обучения и может использоваться во всех языках программирования, поддерживаемых фреймворком Spark.
В этой статье мы покажем вам, как использовать этой библиотекой в своих программах, и дадим некоторые рекомендации по ее применению. Читать далее
#mllib #apache_spark #распределённые_вычисления #логистическая_регрессия #обработка_больших_данных | @habr_ai
Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она содержит реализации различных алгоритмов машинного обучения и может использоваться во всех языках программирования, поддерживаемых фреймворком Spark.
В этой статье мы покажем вам, как использовать этой библиотекой в своих программах, и дадим некоторые рекомендации по ее применению. Читать далее
#mllib #apache_spark #распределённые_вычисления #логистическая_регрессия #обработка_больших_данных | @habr_ai
Хабр
Машинное обучение в Apache Spark с помощью MLlib
Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. В ее состав входят различные алгоритмы машинного...