Фича стор, CLTV и как построить много моделей в короткий срок
#почитать
⏱ Читать статью
#почитать
В рознице Альфа-Банка на февраль 2024 года больше десятка млн активных клиентов, но я уже не успеваю следить за этим числом, потому что оно очень быстро растёт. И CLTV (Customer LifeTime Value) — это один из инструментов, который позволит увеличивать это количество. В статье я расскажу, что такое CLTV, как от бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Большой гайд по Apache Spark для самых маленьких (с картинками)
#почитать
Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объемов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.
⏱ Читать статью
#почитать
Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объемов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2
Большой гайд по резюме для Data Scientist
#почитать
CV – это формализованный процесс, который является первым шагом в поиске работы, но возможно он существенно повлияет на Ваш Job Offer. Поэтому сохраняя честность, по поводу своей реальной работы и результатов, не следует быть скромными. Важно указывать реальный опыт в ИТ, количество лет опыта, включая победы в олимпиадах и опыт, который был в юности. Будьте честны и достаточно смелы.
⏱ Читать статью
#почитать
CV – это формализованный процесс, который является первым шагом в поиске работы, но возможно он существенно повлияет на Ваш Job Offer. Поэтому сохраняя честность, по поводу своей реальной работы и результатов, не следует быть скромными. Важно указывать реальный опыт в ИТ, количество лет опыта, включая победы в олимпиадах и опыт, который был в юности. Будьте честны и достаточно смелы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
ML-детекция дефектов дорожного покрытия
#почитать
⏱ Читать статью
#почитать
В этой статье мы рассмотрим дорожное покрытие, а именно – задачу детекции его дефектов без необходимости разметки данных. Разметка сама по себе отнимает много ресурсов у компаний, а уж разметка облака точек... можете себе представить трудоемкость и затратность денежных ресурсов.
Я расскажу о том, как мы использовали данные с LiDAR, применяли различные алгоритмы для обработки и анализа информации и какие результаты удалось достичь. Задача была нетривиальная для нашей команды так как никто не работал с облаком точек до этого и ожидали мы классические данные видеопотока, но заказчик смог удивить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Расчет рентабельности инвестиций и другие задачи дата-сайентиста
#почитать
⏱ Читать статью
#почитать
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Машинное обучение - это мост между бизнесом и Data Science. Быстрое объяснение теории, задач и процессов
#почитать
⏱ Читать статью
#почитать
Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🐛 SQL для тестировщика — канал для развития одного из обязательных навыков QA-инженера. Публикуем обучающие видео и много-много задач и тестов для тренировки.
Чем мы отличаемся от остальных:
— грамотные редактора (работающие разработчики и QA, создатели канала Тестировщик от бога и портала testengineer.ru);
— качественное оформление;
— уникальные материалы (некоторые материалы мы пишем и переводим сами);
Подписывайтесь на наш канал по SQL.
Чем мы отличаемся от остальных:
— грамотные редактора (работающие разработчики и QA, создатели канала Тестировщик от бога и портала testengineer.ru);
— качественное оформление;
— уникальные материалы (некоторые материалы мы пишем и переводим сами);
Подписывайтесь на наш канал по SQL.
Telegram
SQL для тестировщика
Прокачиваем SQL — must have skill для хорошего тестировщика.
От создателей @godoftesting
По всем вопросам: @anothertechrock
От создателей @godoftesting
По всем вопросам: @anothertechrock
👍4
Рассказываем про KAN (Kolmogorov-Arnold Networks)
#почитать
⏱ Читать статью
#почитать
Эволюция архитектуры нейронных сетей уходит корнями в фундаментальные работы, заложенные в 1940-х годах Уорреном Маккаллохом и Уолтером Питcом, которые предложили концепцию искусственных нейронов и их взаимосвязь.
Однако значительные прорывы произошли только в 1980-х годах с разработкой алгоритмов обратного распространения ошибки: алгоритм Геоффри Хинтона и других – все это позволило создавать более глубокие нейронные сети и улучшить методы обучения.
В это время появились классические архитектуры, многослойные перцептроны (MLP, и сверточные нейронные сети (CNN).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Какие инструменты для визуализации данных нужны дата-аналитику
#почитать
Собрали подборку инструментов для визуализации данных из сложных таблиц в читабельные дашборды.
⏱ Читать статью
#почитать
Собрали подборку инструментов для визуализации данных из сложных таблиц в читабельные дашборды.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
▫️Business Data Engineer в Т-Банк (eng: B1+, office, office, fulltime)
▫️Junior Data Scientist (Стажер) в Центр Финансовых Технологий (eng: B1+, office, flexible)
▫️Junior Data Scientist в Ооо Гибрид (eng: B1+, remote, office/remote, fulltime, 80000 RuR)
P.S. вакансии junior-специалистов закрываются довольно быстро, поэтому на момент просмотра они могут быть уже неактуальны
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Градиентный бустинг (XGBoosting) на пальцах
#почитать
⏱ Читать статью
#почитать
Если брать определение из словарика, то градиентный бустинг - модель машинного обучения, решающая задачи классификации и регрессии. Она состоит из ансамбля более слабых моделей (чаще всего дерево решений) и учится последовательно на ошибках предыдущей модели.
Но здесь я хочу упростить все сложные статьи с кучей математических терминов, коих в интернете немало, поэтому просто предлагаю разобрать это определение бустинга простыми словами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Пятничное. Создаем цифровых двойников Ленина и Николая Второго
#почитать
⏱ Читать статью
#почитать
Идея этого эксперимента возникла во время изучения возможностей сервиса HeyGen. Казалось, что задумка проста и гениальна. Мне, как любителю истории, очень хотелось узнать ответы на целый ряд вопросов непосредственно из уст Императора. Но, забегая вперед, скажу, что трудности возникли, причем в очень неожиданном месте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Команда AI VK ищет ML-разработчика для развития системы рекомендаций и поиска контента 🔥
Какие задачи предлагают:
- улучшение базового качества рекомендаций,
- запуск новых сценариев музыкальных рекомендаций для платформы VK Музыка,
- анализ статистики потребления контента, проведение А/B тестов, а также взаимодействие со смежными командами.
Требуется опыт промышленного применения ML, глубокое понимание алгоритмов классического ML (LogReg, MF, CatBoost, etc..) и навык работы с большими данными (MapReduce/Spark). Отдельный плюс — знание Java и опыт в построении рекомендательных систем.
Узнать подробности можно по ссылке, а, чтобы откликнуться — пишите в ЛС в tg https://t.me/ellinatsyra.
Какие задачи предлагают:
- улучшение базового качества рекомендаций,
- запуск новых сценариев музыкальных рекомендаций для платформы VK Музыка,
- анализ статистики потребления контента, проведение А/B тестов, а также взаимодействие со смежными командами.
Требуется опыт промышленного применения ML, глубокое понимание алгоритмов классического ML (LogReg, MF, CatBoost, etc..) и навык работы с большими данными (MapReduce/Spark). Отдельный плюс — знание Java и опыт в построении рекомендательных систем.
Узнать подробности можно по ссылке, а, чтобы откликнуться — пишите в ЛС в tg https://t.me/ellinatsyra.
🔥7
Метрики в ИИ. Регрессия. MSE, RMSE, MAE, R-квадрат, MAPE
#почитать
⏱ Читать статью
#почитать
Задача регрессии в машинном обучении — это тип обучения в ИИ, когда модель обучается на данных с непрерывным значением, чтобы предсказывать его на основе одного или нескольких входных параметров. Отличие регрессии от задач классификации заключается в том, что регрессия предсказывает непрерывные значения (например, цену на дом, температуру, количество продаж), в то время как классификация предсказывает категориальные метки (например, да/нет, красный/синий/зеленый).
То есть задача регрессии предсказывает какую-то цифру, а задача классификации - это как выбор в тесте из нескольких вариантов ответа.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1
Максимально точное увеличение разрешения изображений: билинейная аппроксимация
#почитать
⏱ Читать статью
#почитать
Это вторая статья из этого цикла, и, как говорилось в первой – интерполяция категорически не подходит для этой задачи, так как нарушает условие среднего (соответствующие пиксели получившегося изображения в среднем должны быть пикселем исходного).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Streamlit для Data Science
#почитать
⏱ Читать
#почитать
Для создания веб-приложений ты скорее всего использовал бы такие Python фреймворки, как Django или Flask. Но крутая кривая обучения этим фреймворкам и большие временные затраты на имплементацию таких приложений являются серьезным препятствием. Streamlit делает создание приложений настолько простым, насколько просто писать скрипты на Python.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Перспективы профессии Data Science: ликбез для джунов
#почитать
Дата-аналитики анализируют исторические данные. Результат их работы — выводы, отчёты, документация. В дата-анализе есть много направлений. Например, системные аналитики могут участвовать в построении инструментов для хранения данных, бизнес-аналитики общаются с заказчиками и формируют бизнес-требования, выстраивают бизнес-процессы.
Часто аналитики решают аd-hoc задачи — это задачи, которые не входят в повседневные обязанности аналитика. Например, если в данных выявили аномалию, дата-аналитику могут срочно поручить разобраться с этой проблемой.
Аналитику не нужно разбираться в работе алгоритмов и предиктивных моделей, поэтому порог входа в профессию ниже.
Дата-сайентисты специализируются на построении моделей и прогнозировании. Основной результат их работы — это модели машинного обучения. В зависимости от задач и типов данных дата-сайентисты могут строить как линейные модели или модели на «деревьях решений» для табличных данных, так и модели нейронных сетей для работы с изображениями, видео, текстами и так далее.
Чтобы работать дата-сайентистом, специалисту нужна неплохая математическая и алгоритмическая база. Работодатели ценят кандидатов с техническим образованием, а самые сильные спецы на рынке — это, как правило, выпускники МФТИ, НИУ ВШЭ И МГУ.
⏱ Читать
#почитать
Дата-аналитики анализируют исторические данные. Результат их работы — выводы, отчёты, документация. В дата-анализе есть много направлений. Например, системные аналитики могут участвовать в построении инструментов для хранения данных, бизнес-аналитики общаются с заказчиками и формируют бизнес-требования, выстраивают бизнес-процессы.
Часто аналитики решают аd-hoc задачи — это задачи, которые не входят в повседневные обязанности аналитика. Например, если в данных выявили аномалию, дата-аналитику могут срочно поручить разобраться с этой проблемой.
Аналитику не нужно разбираться в работе алгоритмов и предиктивных моделей, поэтому порог входа в профессию ниже.
Дата-сайентисты специализируются на построении моделей и прогнозировании. Основной результат их работы — это модели машинного обучения. В зависимости от задач и типов данных дата-сайентисты могут строить как линейные модели или модели на «деревьях решений» для табличных данных, так и модели нейронных сетей для работы с изображениями, видео, текстами и так далее.
Чтобы работать дата-сайентистом, специалисту нужна неплохая математическая и алгоритмическая база. Работодатели ценят кандидатов с техническим образованием, а самые сильные спецы на рынке — это, как правило, выпускники МФТИ, НИУ ВШЭ И МГУ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Материалы для подготовки к собеседованию. Дизайн систем машинного обучения
#почитать
- Книги
- Курсы
- Шаблоны
- Блоги
⏱ Посмотреть
#почитать
- Книги
- Курсы
- Шаблоны
- Блоги
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👌1