Data Scientist | IT

Фича стор, CLTV и как построить много моделей в короткий срок

#почитать

В рознице Альфа-Банка на февраль 2024 года больше десятка млн активных клиентов, но я уже не успеваю следить за этим числом, потому что оно очень быстро растёт. И CLTV (Customer LifeTime Value) — это один из инструментов, который позволит увеличивать это количество. В статье я расскажу, что такое CLTV, как от бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

353 views10:52

Data Scientist | IT

Большой гайд по Apache Spark для самых маленьких (с картинками)

#почитать

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объемов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍2

375 views10:56

Data Scientist | IT

Большой гайд по резюме для Data Scientist

#почитать

CV – это формализованный процесс, который является первым шагом в поиске работы, но возможно он существенно повлияет на Ваш Job Offer. Поэтому сохраняя честность, по поводу своей реальной работы и результатов, не следует быть скромными. Важно указывать реальный опыт в ИТ, количество лет опыта, включая победы в олимпиадах и опыт, который был в юности. Будьте честны и достаточно смелы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

369 views10:59

Data Scientist | IT

🔤

🌌

🔤

🔤 — канал с PM юмором

➡️ Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

😁7

339 views07:07

Data Scientist | IT

ML-детекция дефектов дорожного покрытия

#почитать

В этой статье мы рассмотрим дорожное покрытие, а именно – задачу детекции его дефектов без необходимости разметки данных. Разметка сама по себе отнимает много ресурсов у компаний, а уж разметка облака точек... можете себе представить трудоемкость и затратность денежных ресурсов.

Я расскажу о том, как мы использовали данные с LiDAR, применяли различные алгоритмы для обработки и анализа информации и какие результаты удалось достичь. Задача была нетривиальная для нашей команды так как никто не работал с облаком точек до этого и ожидали мы классические данные видеопотока, но заказчик смог удивить.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

400 views11:33

Data Scientist | IT

Расчет рентабельности инвестиций и другие задачи дата-сайентиста

#почитать

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

378 views10:21

Data Scientist | IT

Машинное обучение - это мост между бизнесом и Data Science. Быстрое объяснение теории, задач и процессов

#почитать

Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

345 views05:12

Data Scientist | IT

🐛 SQL для тестировщика — канал для развития одного из обязательных навыков QA-инженера. Публикуем обучающие видео и много-много задач и тестов для тренировки.

Чем мы отличаемся от остальных:
— грамотные редактора (работающие разработчики и QA, создатели канала Тестировщик от бога и портала testengineer.ru);
— качественное оформление;
— уникальные материалы (некоторые материалы мы пишем и переводим сами);

Подписывайтесь на наш канал по SQL.

SQL для тестировщика

Прокачиваем SQL — must have skill для хорошего тестировщика.

От создателей @godoftesting

По всем вопросам: @anothertechrock

👍4

355 views07:32

Data Scientist | IT

Рассказываем про KAN (Kolmogorov-Arnold Networks)

#почитать

Эволюция архитектуры нейронных сетей уходит корнями в фундаментальные работы, заложенные в 1940-х годах Уорреном Маккаллохом и Уолтером Питcом, которые предложили концепцию искусственных нейронов и их взаимосвязь.

Однако значительные прорывы произошли только в 1980-х годах с разработкой алгоритмов обратного распространения ошибки: алгоритм Геоффри Хинтона и других – все это позволило создавать более глубокие нейронные сети и улучшить методы обучения.

В это время появились классические архитектуры, многослойные перцептроны (MLP, и сверточные нейронные сети (CNN).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

369 views05:06

Data Scientist | IT

Какие инструменты для визуализации данных нужны дата-аналитику

#почитать

Собрали подборку инструментов для визуализации данных из сложных таблиц в читабельные дашборды.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

385 views10:58

Data Scientist | IT

🟡 3 стажировки для начинающих дата-сайентистов (по состоянию на 11.07)

▫️Business Data Engineer в Т-Банк (eng: B1+, office, office, fulltime)

▫️Junior Data Scientist (Стажер) в Центр Финансовых Технологий (eng: B1+, office, flexible)

▫️Junior Data Scientist в Ооо Гибрид (eng: B1+, remote, office/remote, fulltime, 80000 RuR)

P.S. вакансии junior-специалистов закрываются довольно быстро, поэтому на момент просмотра они могут быть уже неактуальны

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

376 views05:03

Data Scientist | IT

Градиентный бустинг (XGBoosting) на пальцах

#почитать

Если брать определение из словарика, то градиентный бустинг - модель машинного обучения, решающая задачи классификации и регрессии. Она состоит из ансамбля более слабых моделей (чаще всего дерево решений) и учится последовательно на ошибках предыдущей модели.

Но здесь я хочу упростить все сложные статьи с кучей математических терминов, коих в интернете немало, поэтому просто предлагаю разобрать это определение бустинга простыми словами.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

412 views10:33

Data Scientist | IT

Пятничное. Создаем цифровых двойников Ленина и Николая Второго

#почитать

Идея этого эксперимента возникла во время изучения возможностей сервиса HeyGen. Казалось, что задумка проста и гениальна. Мне, как любителю истории, очень хотелось узнать ответы на целый ряд вопросов непосредственно из уст Императора. Но, забегая вперед, скажу, что трудности возникли, причем в очень неожиданном месте.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

380 views10:54

Data Scientist | IT

Команда AI VK ищет ML-разработчика для развития системы рекомендаций и поиска контента 🔥

Какие задачи предлагают:
- улучшение базового качества рекомендаций,
- запуск новых сценариев музыкальных рекомендаций для платформы VK Музыка,
- анализ статистики потребления контента, проведение А/B тестов, а также взаимодействие со смежными командами.

Требуется опыт промышленного применения ML, глубокое понимание алгоритмов классического ML (LogReg, MF, CatBoost, etc..) и навык работы с большими данными (MapReduce/Spark). Отдельный плюс — знание Java и опыт в построении рекомендательных систем.

Узнать подробности можно по ссылке, а, чтобы откликнуться — пишите в ЛС в tg https://t.me/ellinatsyra.

🔥7

401 views13:27

Data Scientist | IT

Метрики в ИИ. Регрессия. MSE, RMSE, MAE, R-квадрат, MAPE

#почитать

Задача регрессии в машинном обучении — это тип обучения в ИИ, когда модель обучается на данных с непрерывным значением, чтобы предсказывать его на основе одного или нескольких входных параметров. Отличие регрессии от задач классификации заключается в том, что регрессия предсказывает непрерывные значения (например, цену на дом, температуру, количество продаж), в то время как классификация предсказывает категориальные метки (например, да/нет, красный/синий/зеленый).

То есть задача регрессии предсказывает какую-то цифру, а задача классификации - это как выбор в тесте из нескольких вариантов ответа.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤1

394 views05:06

Data Scientist | IT

Максимально точное увеличение разрешения изображений: билинейная аппроксимация

#почитать

Это вторая статья из этого цикла, и, как говорилось в первой – интерполяция категорически не подходит для этой задачи, так как нарушает условие среднего (соответствующие пиксели получившегося изображения в среднем должны быть пикселем исходного).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

419 views05:10

Data Scientist | IT

Streamlit для Data Science

#почитать

Для создания веб-приложений ты скорее всего использовал бы такие Python фреймворки, как Django или Flask. Но крутая кривая обучения этим фреймворкам и большие временные затраты на имплементацию таких приложений являются серьезным препятствием. Streamlit делает создание приложений настолько простым, насколько просто писать скрипты на Python.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

386 views10:55

Data Scientist | IT

Перспективы профессии Data Science: ликбез для джунов

#почитать

Дата-аналитики анализируют исторические данные. Результат их работы — выводы, отчёты, документация. В дата-анализе есть много направлений. Например, системные аналитики могут участвовать в построении инструментов для хранения данных, бизнес-аналитики общаются с заказчиками и формируют бизнес-требования, выстраивают бизнес-процессы.

Часто аналитики решают аd-hoc задачи — это задачи, которые не входят в повседневные обязанности аналитика. Например, если в данных выявили аномалию, дата-аналитику могут срочно поручить разобраться с этой проблемой.

Аналитику не нужно разбираться в работе алгоритмов и предиктивных моделей, поэтому порог входа в профессию ниже.

Дата-сайентисты специализируются на построении моделей и прогнозировании. Основной результат их работы — это модели машинного обучения. В зависимости от задач и типов данных дата-сайентисты могут строить как линейные модели или модели на «деревьях решений» для табличных данных, так и модели нейронных сетей для работы с изображениями, видео, текстами и так далее.

Чтобы работать дата-сайентистом, специалисту нужна неплохая математическая и алгоритмическая база. Работодатели ценят кандидатов с техническим образованием, а самые сильные спецы на рынке — это, как правило, выпускники МФТИ, НИУ ВШЭ И МГУ.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

386 views10:40

Data Scientist | IT

Материалы для подготовки к собеседованию. Дизайн систем машинного обучения

#почитать

- Книги
- Курсы
- Шаблоны
- Блоги

⏱

Посмотреть

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👌1

324 views10:42

Data Scientist | IT

Расширенные функции Apache Flink

#почитать

Что такое rich-функции в Apache Flink, зачем они нужны, чем отличаются от обыкновенных UDF и как с ними работать: простой пример на PyFlink с запуском в Google Colab.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

298 views05:06

Data Scientist | IT

Реактивно быстрое введение в машинное обучение для чайников

#почитать