Хабр / ML & AI
481 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding.В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению. Читать далее

#собеседование_в_it #data_science #подготовка_к_собеседованию #data_scientist #машинное_обучение #курсы #книги #материалы #ресурсы #kaggle | @habr_ai
Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом. Читать далее

#data_science #generative_models #data_scientist #data_engineering | @habr_ai
Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.

Читать далее

#spark #bigdata #data_engineering #data_scientist #hadoop #apache #trino #impala #hive #s3 | @habr_ai
Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии

Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям!

Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.

В этой части разберем: основы машинного обучения, переобучение и кросс-валидация, линейные модели, метрики классификации и регрессии. Узнать вопросы и ответы на них

#ml #data_science #data_scientist #machinelearning #собеседование #машинное_обучение #наука_о_данных #метрики #линейные_модели #ml_engineer | @habr_ai