Сегодня был хороший вопрос на стриме и я обещал сделать подборку. Я люблю своих подписчиков
📇 Оффтоп, но по теме: где брать данные? Подборка лучших датасетов для практики
Титаник вы уже, надеюсь, «спасли» (или утопили). Чтобы не заскучать, держите пак проверенных датасетов. Разделил их по типам задач, чтобы вы качали разные скиллы‼️ ‼️
💡 Микро-совет: не пытайтесь сделать всё сразу.
1. Возьмите House Prices.
2. Сделайте ноутбук с анализом данных.
3. Обучите простой RandomForest.
4. Выложите на GitHub.
Это уже будет проектом, который не стыдно показать.
#Datasets #Kaggle #MachineLearning #Practice #PetProject #Roadmap
Титаник вы уже, надеюсь, «спасли» (или утопили). Чтобы не заскучать, держите пак проверенных датасетов. Разделил их по типам задач, чтобы вы качали разные скиллы
🏠 1. House Prices (регрессия)
Классика, которая приходит на смену Титанику. Задача: предсказать стоимость дома по его характеристикам (площадь, район, год постройки). Зачем: это Регрессия (предсказываем число, а не класс). Тут много пропусков, много текстовых признаков, которые надо кодировать. Отличный полигон для Feature Engineering.
💳 2. Credit Card Fraud Detection (аномалии)
Суровый финтех. Реальные транзакции европейских карт. Задача: понять, какая транзакция мошенническая. Зачем: главный урок здесь - дисбаланс классов (Imbalanced Data). Мошенников всего 0.17%. Если модель просто скажет "Все честные", она будет права на 99.83%, но пропустит всех воров. Тут вы научитесь работать с метриками (Recall) и сэмплированием.
👕 3. Fashion MNIST (картинки / Computer Vision)
Надоело смотреть на цифры (обычный MNIST)? Давайте смотреть на одежду. Задача: классифицировать 70,000 картинок одежды (футболки, кроссовки, сумки). Зачем: "Hello World" для нейросетей. Идеально, чтобы написать свою первую простую сетку на PyTorch.
📩 4. SMS Spam Collection (текст / NLP)
Ваш входной билет в обработку естественного языка. Задача: определить, является смска спамом или нормальным сообщением. Зачем: базовая работа с текстом. Токенизация (разбиение на слова), мешок слов (Bag of Words), TF-IDF.
🍷 5. Wine Quality (мультиклассовая классификация)
Для ценителей. Задача: предсказать оценку качества вина по химическому составу (кислотность, сахар, pH). Зачем: анализ корреляций (что влияет на вкус?) и работа с мультиклассовой классификацией (оценок может быть много: 3, 4, 5... 8).
🎮 6. Pokemon (для души / EDA)
Просто веселый датасет. Задача: кто победит в битве? Или предсказать, является ли покемон "Легендарным". Зачем: идеально для EDA (разведочного анализа) и красивых графиков. Характеристики (атака, защита, скорость) очень наглядны. Самый интересный вариант для обучения :)
1. Возьмите House Prices.
2. Сделайте ноутбук с анализом данных.
3. Обучите простой RandomForest.
4. Выложите на GitHub.
Это уже будет проектом, который не стыдно показать.
#Datasets #Kaggle #MachineLearning #Practice #PetProject #Roadmap
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40❤23⚡4❤🔥3👏2
📱Tik-Tok-live.
Так что ищите по @magerdev1/magerdev в соц-сетях, если что. Хотел magercode, но в ТГ уже занято было.
Рабочая почта осталась та же, magerkopython@gmail.com.
Освободилось 1 место на менторство - человек отказался из-за личных обстоятельств. Можете написать, условия были тут. На этой неделе проводят оптику и ставят стабилизатор - начинаем.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍13👀6😈1
Это можно было и нужно было растянуть на два поста, но что же...
🧠 Level 4: Deep Learning. Магия нейросетей
Здесь начинается тот самый AI, о котором пишут в новостях. Ключевое отличие от Classic ML: в классике вы вручную придумываете признаки (фичи), а в Deep Learning сеть сама учится выделять важное (грани, текстуры, "усы кота", интонацию голоса).
⛏ 1. Фреймворк: PyTorch
⚙️ 2. Архитектуры (зоопарк моделей)
Нейросети разные - важно понимать, "какую доставать под задачу":
💡 Практический совет: не геройствуйте с нуля. В 90% задач быстрее и лучше стартовать с pre-trained модели (transfer learning), чем обучать "с нуля".
🔗 3. Training Best Practices (то, что реально решает)
💻 4. Железо (GPU)
На CPU нейросети учатся очень медленно - почти всегда нужна GPU.
Нет своей карты - используем облака:
- Google Colab - часто дает доступ к GPU бесплатно (тип зависит от нагрузки).
- Kaggle Notebooks - тоже дают GPU бесплатно, но есть лимиты по времени/ресурсам.
💎 Золотые ресурсы
5.⚡️ План действий (мини-проект на 1-2 вечера)
После базы PyTorch у вас два сильных направления:
- CV (Computer Vision)
- NLP (текст/LLM)
🚀 В следующем посте - финальный этап, о котором часто молчат курсы: MLOps & Deploy.
Как сделать так, чтобы модель стала сервисом, а не файликом на диске.
#Roadmap #DeepLearning #PyTorch #NeuralNetworks #AI #FastAI #Transformers
Здесь начинается тот самый AI, о котором пишут в новостях. Ключевое отличие от Classic ML: в классике вы вручную придумываете признаки (фичи), а в Deep Learning сеть сама учится выделять важное (грани, текстуры, "усы кота", интонацию голоса).
Забудьте (пока что) про TensorFlow/Keras. PyTorch - индустриальный стандарт для обучения нейросетей: гибкий, "питоничный", удобный для исследований и продакшена.
Что учить:
1) Tensor'ы и операции (torch.Tensor).
2) Autograd (автоматические градиенты).
3) torch.nn (слои и модели) + torch.nn.functional.
4) DataLoader / Dataset (батчи, shuffle, пайплайн данных).
5) Тренировочный цикл: forward -> loss -> backward -> step.
Нейросети разные - важно понимать, "какую доставать под задачу":
1) MLP (полносвязные сети)
- База для простых табличных/векторных задач, но слабее для изображений/аудио.
2) CNN (сверточные сети) - короли Computer Vision
- Как работают: "скользят" окном по картинке, учатся находить грани -> текстуры -> части объектов.
- Задачи: классификация, детекция (YOLO и аналоги), сегментация.
3) RNN / LSTM / GRU - последовательности
- Временные ряды, текст, сигналы. Держат контекст прошлого (но сегодня часто уступают трансформерам).
4) Transformers - современный стандарт NLP и не только
- На трансформерах построены BERT и GPT.
- Что учить: Attention (внимание) - сердце современного DL.
💡 Практический совет: не геройствуйте с нуля. В 90% задач быстрее и лучше стартовать с pre-trained модели (transfer learning), чем обучать "с нуля".
Обучить модель - это только начало. Важно уметь делать это правильно:
1) Loss/метрика под задачу (и не путать их).
2) Регуляризация: dropout, weight decay.
3) Оптимизаторы: Adam/AdamW, SGD; learning rate scheduler.
4) Early stopping и сохранение чекпойнтов.
5) Reproducibility: seed'ы, фиксируем версии библиотек.
6) Mixed precision (AMP) - ускоряет обучение на GPU почти "бесплатно".
7) Нормализация и аугментации данных (особенно для CV).
На CPU нейросети учатся очень медленно - почти всегда нужна GPU.
Нет своей карты - используем облака:
- Google Colab - часто дает доступ к GPU бесплатно (тип зависит от нагрузки).
- Kaggle Notebooks - тоже дают GPU бесплатно, но есть лимиты по времени/ресурсам.
1) [EN] Fast.ai - Practical Deep Learning for Coders
- Автор: Джереми Ховард.
- Подход: "сверху-вниз". На первом уроке вы уже обучаете модель, а потом разбираете детали.
2) [EN] DeepLearning.AI (Andrew Ng) - академическая база
- "Deep Learning Specialization" на Coursera (или лекции на YouTube).
- Если хотите понимать математику и принципы - это сюда.
3) [DOCS] PyTorch Blitz - официальный туториал (не зайдите в Танки!!!)
- Пройти обязательно, чтобы понять синтаксис.
4) [EN] Hugging Face Course - современная практика Transformers
- Полезно, если идете в NLP/LLM.
5.
1) Открываем Google Colab или Kaggle Notebook.
2) Берем простую CV-задачу: классификация (например, "хот-дог / не хот-дог").
3) Делаем transfer learning:
- берем pre-trained модель (например, ResNet),
- заменяем "голову" под свои классы,
- обучаем 3-5 эпох.
4) Считаем метрики на валидации:
- accuracy + confusion matrix,
- при дисбалансе - F1/ROC-AUC.
5) Сохраняем модель (torch.save) и пишем маленький inference-скрипт: вход -> предсказание.
После базы PyTorch у вас два сильных направления:
- CV (Computer Vision)
- NLP (текст/LLM)
Как сделать так, чтобы модель стала сервисом, а не файликом на диске.
#Roadmap #DeepLearning #PyTorch #NeuralNetworks #AI #FastAI #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32❤12❤🔥6🤯3👍1💅1
Нашёл (украл) способ сделать тексты ChatGPT ( и с другими LLM тоже работает) более живыми: берём список “признаков машинного письма” из Википедии и просим модель их избегать - результат сразу выглядит человечнее. Рефераты, эссе, конспекты - все должно быть краше.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤155👍16❤🔥14🔥7😁5😈1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣88❤29🔥7☃6❤🔥2👍2
Финиш, братья. Тут получится найти ресурсы по Docker и FastAPI, прямиком с прошлого Roadmap. Прочитаете этот шаг, узнаете - "зачем?".
🔥 Level 5: MLOps & Engineering. Выводим в прод
Жестокая правда: модель в Jupyter Notebook никому не нужна. Бизнес не запускает .ipynb. Бизнесу нужен сервис, который 24/7 принимает данные и отдает прогноз.
Если вы отдаете заказчику ноутбук - вы любитель.
Если вы отдаете Docker-контейнер с API - вы профи.
🐳 1. Docker (контейнеризация)
📇 2. API (FastAPI)
👨💻 3. MLOps (порядок в хаосе)
💎 Золотые ресурсы
👍 Гранд-финал: идеальный Pet-Project (который реально продает вас)
Поздравляю. Мы прошли весь путь: от базы ML до вывода модели в прод.
Теперь Roadmap у вас перед глазами. Осталось только начать делать...
#Roadmap #MLOps #Docker #FastAPI #Deploy #Career #DataScience
Жестокая правда: модель в Jupyter Notebook никому не нужна. Бизнес не запускает .ipynb. Бизнесу нужен сервис, который 24/7 принимает данные и отдает прогноз.
Если вы отдаете заказчику ноутбук - вы любитель.
Если вы отдаете Docker-контейнер с API - вы профи.
Чтобы не было истории: "у меня на ноуте работает, а на сервере упало". Docker упаковывает код, зависимости и версии Python в изолированную среду - и это гарантированно одинаково запускается везде.
Что учить:
1) Dockerfile (как собрать образ).
2) docker build / docker run.
3) Порты и переменные окружения (ENV).
4) Volumes (если нужно сохранять файлы/модели).
5) Docker Compose - запуск "все одной командой", если у вас API + БД + трекинг.
Золотое правило: любой проект должен подниматься одной командой.
Модель должна общаться с миром через HTTP-запросы.
FastAPI - современный стандарт: быстрый, удобный, с автогенерацией документации (Swagger/OpenAPI).
Задача:
1) Сделать эндпоинт /predict:
- принимает JSON с признаками,
- валидирует вход (Pydantic),
- возвращает JSON с предсказанием.
2) Отдельно: /health (проверка, что сервис жив).
3) Версионирование: /v1/predict - пригодится в проде.
Плюс для демо/портфолио:
- Streamlit - быстро собрать веб-интерфейс без HTML/CSS.
В реальности вы обучаете десятки/сотни моделей. Без системы вы утонете.
Что реально нужно:
1) Трекинг экспериментов: MLflow
- гиперпараметры, метрики, артефакты, модель-реестр.
2) Версионирование данных/моделей: DVC
- Git для кода, DVC для данных и моделей (без мусора в репозитории).
3) Пайплайны и расписание: Airflow / Prefect
- чтобы обучение/обновление моделей запускалось по расписанию или по событию.
4) Качество и контроль:
- тесты (pytest) для препроцессинга и инференса,
- линтеры/форматтеры (ruff/black), pre-commit,
- CI/CD (GitHub Actions): прогнать тесты и собрать Docker-образ автоматически.
5) Мониторинг в проде (часто забывают, а это важно):
- логирование запросов/ошибок,
- мониторинг метрик (latency, error rate),
- контроль data drift / model drift (хотя бы базово).
1) [EN] Made With ML (Goku Mohandas)
- Лучший бесплатный курс по MLOps: от идеи до деплоя.
- Там есть все: тесты, линтеры, CI/CD, Feature Store, деплой.
2) [DOCS] FastAPI Tutorial
- Документация написана как учебник.
3) [DOCS] MLflow Docs
- Быстрый старт трекинга и registry моделей.
4) [DOCS] DVC Docs
- Версионирование данных и воспроизводимые пайплайны.
Чтобы вас взяли на работу, в резюме должна быть ссылка на GitHub с проектом, где есть ВСЕ:
1) Код
- чистый, разбитый на модули (без "лапши" в ноутбуке),
- конфиги (yaml/toml), понятная структура папок.
2) ML
- обучение + валидация,
- сохранение модели,
- воспроизводимость (фиксированные версии зависимостей).
3) API
- FastAPI сервис: /predict, /health,
- валидация входа, понятные ошибки.
4) Docker
- Dockerfile + (желательно) docker-compose.yml,
- запуск одной командой.
5) README.md
- что это, зачем, как запустить,
- пример запроса (curl) и пример ответа,
- как обучить модель заново.
Сделаете такой проект - вы автоматически в топ-10% кандидатов на Junior позицию.
Поздравляю. Мы прошли весь путь: от базы ML до вывода модели в прод.
Теперь Roadmap у вас перед глазами. Осталось только начать делать...
#Roadmap #MLOps #Docker #FastAPI #Deploy #Career #DataScience
Please open Telegram to view this post
VIEW IN TELEGRAM
❤84👍11👀9❤🔥4🔥4
Цель - повысить качество контента в TikTokи попробовать выйти на YouTube с гайдами.
Наберусь наглости и скажу: если у кого-то есть желание вложиться/поддержать - буду рад. Я стараюсь не наполнять канал (тут и в ТТ) сомнительной рекламой, максимум тематической и полезной (и то редко). Это, конечно, мое решение, но я надеюсь, вы его поддержите.
- банка со сбором (гривны);
- донаты в рублях;
- USDT TRC-20:
TWvHdZf5qE3HRLgHtRoeNs53w9mtawHWAA- Ton:
UQBVe8phnNFJPWkIyIGN_Oo1L2zsWB8LeW1D8xskEucv8UNsСпасибо за внимание, сори, что с утра побеспокоил. Я сам ещё сплю, а сообщение - на авто-отправке.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤127🔥27👍17🥴3👾3🥰1
Чтобы не собирать инструменты по кусочкам из твитов и случайных репо, знаю и даю вам отличную опорную точку:
- быстро ориентироваться в экосистеме и собирать стек под задачу;
- сравнивать подходы “по слоям” (обучение → приложение → качество/мониторинг);
- держать общую “карту инструментов” для команды и онбординга.
Что дальше делать - еще не решил. Либо полезные инструменты постить, либо делать очередной Roadmap, по С++ или full-stack.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍10🎉6🍓4👀4🔥1
0. Фундамент.
1. Превращаем Python в инструмент
2. Math Core. Математика без фанатизма
3. Classic ML. Деньги делаются здесь
4. Deep Learning. Магия нейросетей
5. MLOps & Engineering. Выводим в прод
#Roadmap #AI #ML #DataScience #Python
Please open Telegram to view this post
VIEW IN TELEGRAM
❤88👍18🎉8🔥6💅2🍓1
Там куча запускаемых шаблонов/демо: RAG, AI agents, multi-agent, MCP, voice-агенты - можно клонировать и сразу смотреть, как это собрано в коде. И есть полная русская локализация!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥29❤13✍8👍3🎉2🍓1
Please open Telegram to view this post
VIEW IN TELEGRAM
😭203😢23❤9💔6❤🔥2😁1
Вы донатили, за это спасибо. Но в реальности, не смогли даже перешагнуть 100$, что меня, если честно, чуть удивило. Возможно, я переоценил свой вклад в контент и т.д. Учитывая, что этих шекелей мне не хватило бы даже на половину микрофона, который я хочу, не говоря о карте захвата/камере. Стало понятно, что пока в контент мне вкладываться смысла нет, ибо выхлопа в ближайшее время не будет. Поэтому, решил отдать средства вам, но в другой форме.
1. 🍽 FoodApp - умный трекер питания
Сфотографируй еду - ИИ распознает блюдо и посчитает калории, белки, жиры и углеводы. Веди дневник питания, отслеживай воду, следи за прогрессом к своим целям.
• 📸 AI-анализ блюд по фото;
• 🎯 Персональные цели КБЖУ;
• 📊 Статистика и графики;
• 💧 Трекер воды.
Ну и, что не плохо - может присылать напоминания дважды в день о том, что нужно поесть/выпить воды. Можно менять свой вес, цель по массе и т.д., все будет пересчитываться. Еду можно добавлять картинкой или вручную вносить данные/удалять свайпом, добавлять эти записи в свой дневник, смотреть статистику за день, неделю, месяц.
👉 @magerdevfood_bot
2. 🔮 DevTarot - таро для программистов
Уникальное приложение, которое даёт мистические предсказания специально для разработчиков. Выбери категорию (карьера, код, дебаг, soft skills), ответь на вопросы - и получи персональное толкование от ИИ :D
Такое, это для разрядки и чтобы вы в ТикТоках не спрашивали у меня совместимость с языком/направлением. Вот, сами можете посмотреть.
👉 @magerdevtar_bot
Еще раз спасибо тем, кто закинул, что мог!
P.S. я очень надеюсь, что там без багов, ибо я просто задеплоил, не проверял особо.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤106🔥14👍11👀6❤🔥1🍓1
В доках описал, как это работает, чтобы могли повторить или сделать лучше. Стек: Python + OpenCV + MediaPipe + Pygame
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43❤27👍8😁2🆒2👎1
1) Сделать возможность подвязки "подопечный-тренер", чтобы тренер мог заходить и смотреть питание своих подопечных.
2) Сделать возможность вводить название продукта и грамовку, чтобы нейронка просто добавляла это в рацион без фото.
3) В инфо добавить опциональную информацию об обьемах: руки, бедра, талия, грудные, ягодицы.
4) Добавить "Частые продукты", чтобы по 10 раз одно и то же не вводить каждый день.
5) Предложение - чем добрать нутриенты в конце дня (опция).
Что, как идеи? Сейчас прям не сделаю - я без "рук" (света). Но на днях будет мак
Еще есть реалистичные предложения?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤73👍9👏6🔥3💅1💘1
Написал утилиту для автоматической обрезки тишины в видео.
Что умеет
- находит и удаляет тишину в начале/конце видео;
- вырезает длинные паузы между словами;
- склеивает несколько видео в один файл;
- drag & drop, пакетная обработка.
Стек: Python + PyQt6 + FFmpeg. Это нужно было мне, мб кому-то тоже понадобится.
GitHub: github.com/Magerko/SilenceCutter
Please open Telegram to view this post
VIEW IN TELEGRAM
❤101🎉12🤝7❤🔥4👍2👀2
1) Замеры тела: отслеживай прогресс не только по весу! Записывай замеры: руки, грудь, талия, бёдра, ягодицы. История изменений всегда под рукой.
2) Дневник тренировок: планируй тренировки на неделю вперёд. Записывай упражнения, подходы, веса - всё в одном месте. Удобный календарь по дням.
3) Система тренер-клиент
Ты тренер? Добавляй клиентов по их ID и следи за их прогрессом:
- Питание и КБЖУ за день
- Замеры тела
- Заметки о тренировках
- Давай клиентам имена и смотри/редактируй их заметки о тренировках.
4) AI-подсказки. Не знаешь что съесть? AI проанализирует твой оставшийся КБЖУ и подскажет конкретные продукты с порциями, чтобы добить норму белка или закрыть калории.
5) Избранное и история:
- Сохраняй любимые блюда в избранное
- Быстрый доступ к частым приёмам пищи
- Поиск по истории - найди что ел раньше
5) Три способа добавить еду, теперь руками пишете только название/ингредиенты.
- фото - AI распознает блюдо
- текст - напиши "куриная грудка 200г"
- рецепт - введи ингредиенты с весами.
Хорошего опыта использования
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤132🔥33🎉12👍4💋2🕊1