Forwarded from Data&Knowledge
Learning Machine Learning

Итак, мы начинаем наше путешествие в мир машинного обучения. Формат обучения будет такой. В первый день я даю ссылки на материалы и задачи. А через дней несколько делюсь своим конспектом и решением. Задать вопросы можно в чатах тг или в комментариях.

Чат в тг по python: https://t.me/learnpythonforfun_chat
Чат в тг по данным: https://t.me/datascienceforfun_chat
Forwarded from Data&Knowledge
Learning Machine Learning. Линейная регрессия.

Наша первая тема - один из самых простых и самых важных алгоритмов машинного обучения. Через несколько дней я выложу свой конспект, а пока - материалы:

Объяснение: https://www.youtube.com/watch?v=_PlC8Niun7U
Задача: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices

Примеры решения можно найти во вкладке Code по запросу Linear regression. И там надо будет разбираться 🙈

#LearningMachineLearning2025 #LearningMachineLearning
Буду рад вопросам и ответам в комментариях.
Forwarded from Data&Knowledge
Практика по линейной регрессии.

Я вам тут накидал небольшой ноутбук, чтобы было легче начать анализировать. Если вы посмотрели видео из прошлого поста, то у вас начнут появляться вопросы. Ответы на некоторые из них можно найти в книжке "Введение в статистическое обучение с примерами на языке Python" от
Гарет Джеймс и др. Я нашел её здесь: https://annas-archive.org/md5/e9d11665dbd051585a2eff1f58407de5

Задача: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices

Мой ноутбук: https://colab.research.google.com/drive/1yPCY4O6fLEXsjzJ02Vj6oc3mBLsaPk2y?usp=sharing
Forwarded from Data&Knowledge
Learning Machine Learning. Регрессия с регуляризацией (Ridge, Lasso).

Первая и вторая темы нашего прохождения сильно связаны между собой. На этой неделе мы начинаем изучать регрессию с регуляризацией.

Короткое объяснение: https://www.youtube.com/watch?v=C98SRCZfgkk
Задача все та же: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices
Теперь необходимо посмотреть, как регулризация влияет на получаемое решение.

Буду рад вопросам и ответам в комментариях.

#LearningMachineLearning2025 #LearningMachineLearning
Предлагаю начать вместе читать System Design от Алекса Сюй. Это книга позволит вам понять, как устроены онлайн-сервисы, а в последующем позволит и пройти интервью.

Предлагаю каждому выбрать гипотетический онлайн-сервис (конкурент тик-тока, онлайн дилер и т.д.) и пытаться применить принципы из книжки. Предлагаю в конце недели, после очередной главы, обсуждать реализацию принципов в своем проекте.

В этот раз читаем первую главу. Обсудим её в эти выходные.

П.С. Книжку придется самим найти в Интернете.
👍41
Вебинар по первой главе System design

В эту субботу в 11.00 по Москве мы запустим вебинар, в котором обсудим материалы первой главы.
Ссылка: https://telemost.yandex.ru/j/79925380906890
1
Читаем System design. Главы 2 и 3.

План на эту неделю: читаем главы 2 и 3, а в выходные проведем вебинар, где попытаемся сделать создать архитектуру небольшого сервиса.

Название книги: System Design. Подготовка к сложному интервью. Алекс Сюй.
Вебинар по второй и третьей главам System design

В эту субботу в 11.00 по Москве мы запустим вебинар, в котором обсудим материалы второй и третьей глав.

Ссылка на видеовстречу: https://telemost.yandex.ru/j/67915886560670
Вебинар по второй и третьей главам System design

Через пару минут начинаем.

Ссылка на видеовстречу: https://telemost.yandex.ru/j/67915886560670
Итоги 2025 года

В общем, год для меня выдался тяжелым. Я хочу поблагодарить всех, кто участвовал в обсуждениях в тг, участвовал в вебинарах, в обсуждениях книг и мини-курса по статистике. Ничего не обещаю на следующий год, потому что сам буду занят поиском работы 😀

Удачи всем нам в новом 2026 году!
14
Готовимся к собесам.

Всем привет! У меня небольшая новость: мы меняем формат. Дело в том, что я должен найти работу до конца года в Германии (где я сейчас и нахожусь), а это значит, что мне предстоит повторить много разных тем. А вместе это делать точно веселее.

Вводные данные:
Я получил PhD в области человеко-машинного взаимодействия, знаю базовую статистику, умею проводить эксперименты с пользователями и немного программировать.

Куда подаваться:
Мне интересны позиции аналитика данных, исследователя рынка и пользователей. В общем, то, где надо анализировать поведение людей и принимать решения на основе данных.

Что мы будем делать:
Я планирую, что материалы будут появляться самые разные. Мы будем изучать основные инструменты, понятия, метрики, нырнем немного в область UX исследований, повторим python и sql. Если всё пойдет по плану, добавлю материалы по NLP, машинному обучению и байесовской статистике. И, конечно, буду делиться свежим опытом прохождения собеседований.

В общем, будет интересно :D
🔥224
Looker Studio

В эту неделю мы изучаем Google Looker Studio. Эта утилита позволяет создавать очень гибкие дашборды. Кроме этого, платная версия имеет свой язык запросов LookML, который отличен от традиционного SQL. Вот небольшое видео, иллюстрирующее возможности Looker Studio.
https://www.youtube.com/watch?v=5NNMzBKEFCg
3
Пробуем Looker Studio

Чтобы попробовать Looker Studio, можно импортировать этот набор данных:
https://docs.google.com/spreadsheets/d/1sns7is56QWKMO3XGy40b92xs0I_RY4bC4I6aqeqkCV4/edit?usp=sharing
И поиграть с ним! Обратите внимание, что в этом файле есть несколько рабочих листов - на каждом свой датасет.
Сам я набросал простенький репорт для датасета Top movies 2019:
https://lookerstudio.google.com/reporting/8c93559c-b62c-4f7c-940a-8a8f5d923d8a
1
Tableau

Последний инструмент, с которым мы познакомимся для визуальной аналитики данных - это табло. Ничего более свежего на русском языке не нашел, поэтому, если есть хорошие видео по теме, кидайте их в комментарии.
https://www.youtube.com/watch?v=gcRKayBhHAQ
🤔1
А/Б-тестирование

Один из важных инструментов проверки гипотез для исследователя пользователей - А/Б-тестирование. Этот инструмент позволяет понять, принесет ли изменение, которое мы хотим внедрить, положительный эффект. В ходе такого тестирования мы выделяем две группы пользователей: одной даем старую версию продукта, другой — новую. Для каждой группы вычисляем некоторую метрику (удобство использования, число переходов по ссылке, конверсия в покупку) и статистически проверяем, принесло ли наше изменение положительный эффект. Если эффект положительный, то внедряем эту фичу для всех пользователей.
Однако, у А/Б-тестирования есть несколько тонких моментов. Вот плейлист с неплохим объяснением от ВШЭ:
https://www.youtube.com/watch?v=D81kNptqPiw&list=PLCf-cQCe1FRx6vgs5NHWKzOL5RSyWiiuW
Метрики: CAC (Customer Acquisition Cost)

Это метрика, которая описывает, сколько денег бизнес тратит на маркетинг и продажи, чтобы получить нового покупателя. Переводится с английского как «стоимость привлечения клиента». Очевидно, что нам хотелось бы привлекать клиентов за меньшие деньги, поэтому это одна из начимых метрик.

Ознакомиться с примерами можно по следующим ссылкам:
https://www.bitrix24.ru/journal/cac/
https://www.carrotquest.io/blog/customer-acquisition-cost/
Метрики: ROAS, ROI, ROMI

Для того, чтобы измерить эффективность рекламной кампании или работы отдела маркетинга, можно использовать перечисленные метрики. На картинке — небольшая шпаргалка. А подробнее можно почитать тут:
https://timeweb.com/ru/blog/authors/ajshe/articles/chto-takoe-roas-formula-rascheta-i-primery/
https://www.carrotquest.io/blog/formula-roi/
https://www.carrotquest.io/blog/romi/
https://yandex.ru/adv/edu/materials/romi
Интересно, что разные источники определяют ROMI слегка по-разному. Буду рад, если кто-то с опытом раскажет о ROMI подробнее в комментариях.
🔥2
Метрики: LTV

LTV (Lifetime Value) — метрика, которая показывает, сколько прибыли приносит компании клиент за определенный промежуток времени. Очевидно, что мы хотим увеличить этот показатель.

В этой статье описывается в общих словах, что же это такое:
https://practicum.yandex.ru/blog/chto-takoe-ltv-v-marketinge/

А в этой даётся пара дополнительных формул для расчета:
https://romi.center/ru/learning/glossary/ltv/