This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤92❤🔥18🤩11👍5🔥4🌚3
Продолжаем большую серию постов-роадмапов. Прежде чем углубляться в нейронки и алгоритмы, нужно четко разделить понятия. Часто их смешивают, но разница есть.
📌 Кто есть кто?
- Data Science (DS): это про инсайты. Наука о данных. Специалист берет сырые данные, чистит их, анализирует и отвечает бизнесу на вопрос: "Что произошло и почему?". Здесь много статистики, гипотез и визуализации.
- Machine Learning (ML): это про прогнозы. Подраздел ИИ. Задача - не просто проанализировать данные, а построить модель, которая на их основе предскажет будущее (например, цену квартиры или спрос на товар).
- Artificial Intelligence (AI): это про имитацию интеллекта. Самое широкое понятие. Включает в себя ML, компьютерное зрение (CV), обработку естественного языка (NLP/LLM). Цель - заставить машину решать задачи так, как это делает человек.
Мы живем в эпоху Big Data. Компании собирают терабайты информации, но сами по себе данные - "мертвый груз". Бизнес платит огромные деньги тем, кто может превратить эти данные в:
- деньги (рекомендательные системы);
- экономию (прогнозирование поломок оборудования);
- автоматизацию (чат-боты, генерация контента).
Нельзя заниматься AI, не понимая ML. Нельзя строить ML-модели, не умея работать с данными (DS). До уровня Junior+ обучение идет по единому треку. Фундамент для всех трех направлений один:
- язык: Python (стандарт индустрии);
- математика: линейная алгебра, матанализ, тервер и статистика. Без этого вы будете просто "запускателем кода", не понимающим, что происходит "под капотом";
- работа с данными: SQL и библиотеки Pandas/NumPy.
В следующих постах разберем каждый этап Roadmap детально, для начала - будет сама карта.
P.S. с этого дня добавим хештеги, дабы вам легче было в навигацию.
#Roadmap #AI #ML #DataScience #Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64❤42👏11🍓5👍3❤🔥2
Есть и второй вариант - не покупайте курсы "Python за 3 дня". Учитесь у лучших вузов мира бесплатно.
Коротко:
- о чем: переменные, функции, ООП, регулярные выражения, тесты;
- зачем: это даст правильную культуру написания кода. Лучший вход в язык;
- сложность: 4/10.
Соедините со Stepik'ом и получите офигенный фундамент. Там - слушаете, а там - интерактив с прикладным применением полученной теории.
- курс CS50P (Python) на YouTube;
- официальный сайт курса - тут самая актуальная версия, доступ к облачной IDE и грейдеру заданий.
Нюанс - на английском. Но сейчас существует столько сервисов по синхронному переводу и все настолько просто, что это уже как буд-то не преграда, да?
#CS50 #Python #Roadmap
Please open Telegram to view this post
VIEW IN TELEGRAM
❤86👍21❤🔥13💅4🔥2😱2
🧱 Level 0: Фундамент. Без чего код писать рано
Тут как и в вебе, начнем с базы. Нужно научиться жить в среде разработки. Если вы пропустите этот этап, вы сломаетесь на первой же попытке развернуть проект не на своем домашнем ноутбуке.
🐧 1. Linux & Terminal (Bash)
🐙 2. Git & GitHub/GitLab
🛠 3. Окружение (IDE & Environment)
Писать код в Блокноте нельзя (а хочется?)...
🇬🇧 4. Технический Английский (и это - важно!)
Жестокая правда: все лучшие статьи, документации (PyTorch, Pandas) и решения ошибок (StackOverflow) - на английском. Без него вы всегда будете отставать на 2-3 года от индустрии.
Кстати, сайты где учить/практиковать все из перечисленного, есть тут, в родмапе по web. Не стал дублировать.
#Roadmap #Git #Linux #Basics #StartIT #AI #ML #DataScience #Python
Тут как и в вебе, начнем с базы. Нужно научиться жить в среде разработки. Если вы пропустите этот этап, вы сломаетесь на первой же попытке развернуть проект не на своем домашнем ноутбуке.
🐧 1. Linux & Terminal (Bash)
В мире DS и ML царит Linux. Все вычисления происходят на удаленных серверах. Там нет "Рабочего стола" и мышки. Там есть Терминал. Что нужно уметь:
- навигация по файлам без Проводника (cd, ls, mkdir, rm);
- работа с правами доступа (chmod, chown);
- SSH: умение подключиться к удаленному серверу;
- базовый скриптинг: написать простой .sh скрипт для автоматизации рутины.
🐙 2. Git & GitHub/GitLab
Код без версионирования - это мусор. Вы будете ломать модели, удалять нужные файлы и путаться в версиях "final_v2_new_last.py". Что нужно уметь:
- git init, add, commit, push, pull - как "Отче наш" (сори, я хз какая у вас вера, я то сам ни во что не верю... );
- понимание веток (branch) и слияний (merge);
- .gitignore - чтобы не заливать в репозиторий мусор и пароли.
🛠 3. Окружение (IDE & Environment)
Писать код в Блокноте нельзя (а хочется?)...
1) VS Code: золотой стандарт редактора кода сейчас. Нужно уметь ставить плагины, дебажить код (debugger), работать с терминалом внутри IDE;
2) Jupyter Notebook: специфическая среда для DS. Интерактивный код. Знать горячие клавиши и как не "убить" ядро;
3) Virtual Environments (venv/conda): изоляция проектов. Умение создать окружение, где библиотеки одного проекта не ломают другой.
🇬🇧 4. Технический Английский (и это - важно!)
Жестокая правда: все лучшие статьи, документации (PyTorch, Pandas) и решения ошибок (StackOverflow) - на английском. Без него вы всегда будете отставать на 2-3 года от индустрии.
Кстати, сайты где учить/практиковать все из перечисленного, есть тут, в родмапе по web. Не стал дублировать.
#Roadmap #Git #Linux #Basics #StartIT #AI #ML #DataScience #Python
👍56❤36❤🔥8🔥3👎1💅1
🛠 Level 1: Data Stack. Превращаем Python в инструмент
Если вы смотрели прошлую карту, то эта будет в корне отличаться. И так, чистый Python в ML используется редко. Мы не пишем пузырьковую сортировку руками. Мы используем специализированные библиотеки, написанные на C/C++, где Python выступает лишь как "пульт управления". На этом этапе ваша задача - освоить "Data Stack".
🗄 1. SQL (Язык данных)
🐼 2. Pandas & NumPy (ваши руки)
📊 3. Визуализация (ваши глаза)
🎯 Итоговый проект этапа (EDA)
1. Регистрируемся на Kaggle.
2. Скачиваем легендарный датасет Titanic.
3. Открываем Jupyter Notebook и делаем EDA (Exploratory Data Analysis):
- загружаем данные через Pandas;
- ищем пропуски (где нет возраста?) и заполняем их средним/медианой;
- строим графики через Seaborn: кто выживал чаще - мужчины или женщины? Богатые или бедные?.
Как только вы почувствуете себя уверенно в Pandas - можно переходить к математике и самим моделям. Это и будет следующим этапом - математика!
#Roadmap #SQL #Pandas #DataScience #Kaggle
Если вы смотрели прошлую карту, то эта будет в корне отличаться. И так, чистый Python в ML используется редко. Мы не пишем пузырьковую сортировку руками. Мы используем специализированные библиотеки, написанные на C/C++, где Python выступает лишь как "пульт управления". На этом этапе ваша задача - освоить "Data Stack".
🗄 1. SQL (Язык данных)
В реальных проектах CSV-файлы - редкость. Данные живут в базах. Вы должны уметь их достать сами, а не ждать выгрузку от инженеров.
Что нужно знать (Hard Skills):
- база: SELECT, WHERE, GROUP BY, HAVING;
- JOINS: Понимать физику процессов INNER, LEFT, CROSS (и как не уронить сервер случайным декартовым произведением);
- Window Functions: ROW_NUMBER, RANK, LAG/LEAD, OVER (PARTITION BY ...). Это спрашивают на каждом собеседовании.
💎 Где учить:
Дополню ресурсы, которые давал в ВЕБе:
1) Интерактивный тренажер по SQL (Stepik) (бесплатно). Лучшая практика для старта. Пишете код - получаете результат.
2) sql-ex - дизайн из 2000-х, но задачи мощнейшие. Если пройдете "Рейтинговый этап" - вы готовы к работе. Это для практики.
🐼 2. Pandas & NumPy (ваши руки)
Это 90% работы Data Scientist'а. Сбор, чистка, агрегация данных.
- NumPy: математическое ядро. Главное: понять концепцию векторизации. Забудьте про циклы for при работе с массивами чисел. Векторные операции в NumPy работают в 100 раз быстрее.
- Pandas: Excel на стероидах. Главное: DataFrame, чтение форматов (csv, json, sql), работа с пропусками (fillna), сводные таблицы (pivot_table), слияние (merge/concat).
💎 Где учить:
- Kaggle Learn (бесплатно). Идеально сжатые микро-курсы с практикой в браузере. Проходим разделы Pandas и Data Cleaning;
- Open Data Science. "Библия" нашего комьюнити. Читаем Тему 1 (Pandas).
📊 3. Визуализация (ваши глаза)
Таблицы с цифрами нечитаемы. Вы должны уметь находить закономерности и выбросы глазами.
Что учить:
- Matplotlib: базовый, низкоуровневый инструмент. Нужно понимать, как настроить оси, размеры и сохранить график;
- Seaborn: надстройка для статистики. Учимся строить heatmap (корреляции), boxplot (выбросы) и pairplot.
💎 Где учить:
1) The Python Graph Gallery. Не учите код наизусть. Просто знайте, какие графики существуют, и берите готовые сниппеты отсюда.
🎯 Итоговый проект этапа (EDA)
1. Регистрируемся на Kaggle.
2. Скачиваем легендарный датасет Titanic.
3. Открываем Jupyter Notebook и делаем EDA (Exploratory Data Analysis):
- загружаем данные через Pandas;
- ищем пропуски (где нет возраста?) и заполняем их средним/медианой;
- строим графики через Seaborn: кто выживал чаще - мужчины или женщины? Богатые или бедные?.
Как только вы почувствуете себя уверенно в Pandas - можно переходить к математике и самим моделям. Это и будет следующим этапом - математика!
#Roadmap #SQL #Pandas #DataScience #Kaggle
❤76👍12👀4🔥2❤🔥1💅1
🤡 Ахаха, вы уже видели новый, "сверх быстрый" и "точный" переводчик от OpenAI на базе ChatGPT?
За эти технологии мы отказываемся от DDR5 ОЗУ и новых видеокарт!
Кстати, там Nvidia сильно ограничила/практически прекратила выпуск 5060 TI на 16 Гб и 5070TI на 16 Гб. А вместо, будут выпускать 3060 из 2021 года по завышенному прайсу.
Прогресс... Хочу чуть позже расписать свои мысли по этому поводу.
За эти технологии мы отказываемся от DDR5 ОЗУ и новых видеокарт!
Кстати, там Nvidia сильно ограничила/практически прекратила выпуск 5060 TI на 16 Гб и 5070TI на 16 Гб. А вместо, будут выпускать 3060 из 2021 года по завышенному прайсу.
Прогресс... Хочу чуть позже расписать свои мысли по этому поводу.
😢113🤣78❤27👍6❤🔥2🤗1
🧠 Level 2: Math Core. Математика без фанатизма
Популярно говорить, что для ML нужна математика, но многие воспринимают это, как буд-то нужна докторская степень. Это не так. Но и думать, что «Python всё сделает сам» - ошибка. Вам не придется брать тройные интегралы на листочке. Но вы обязаны понимать физический смысл операций, чтобы отвечать на вопросы: "Почему модель не учится?" и "Почему предсказание именно такое?".
Учим ровно столько, сколько нужно для практики.
📐 1. Линейная алгебра - это двигатель
📉 2. Матанализ
🎲 3. Теория вероятностей и Статистика
📚 Книги (золотой фонд)
🎯 Итог этапа: не пытайтесь выучить всё сразу!
1) Посмотрите видео 3Blue1Brown за пару вечеров, чтобы мозг начал "видеть" векторы и градиенты.
2) Пройдите курс Карпова по статистике (это займет время, но оно того стоит).
Дальше - самое интересное. Мы начинаем строить модели. Следующий уровень: Classic Machine Learning.
Популярно говорить, что для ML нужна математика, но многие воспринимают это, как буд-то нужна докторская степень. Это не так. Но и думать, что «Python всё сделает сам» - ошибка. Вам не придется брать тройные интегралы на листочке. Но вы обязаны понимать физический смысл операций, чтобы отвечать на вопросы: "Почему модель не учится?" и "Почему предсказание именно такое?".
Учим ровно столько, сколько нужно для практики.
📐 1. Линейная алгебра - это двигатель
Любая нейросеть - это перемножение матриц. Любая картинка или текст для компьютера - это вектор (набор чисел). Что нужно понимать:
- векторы и матрицы: операции с ними (сложение, умножение);
- dot product (скалярное произведение): фундамент всего. Мера схожести двух векторов;
- размерности: если вы пытаетесь умножить матрицу 3x5 на 2x5 и не понимаете, почему код падает с ошибкой Shape mismatch - вам сюда.
💎 Где учить:
- 3Blue1Brown на YouTube. Конечно, желательно в ВУЗе, но все же. Шедевр. Не формулы, а визуализация. Смотреть плейлист "Essence of linear algebra". Есть озвучки на русском. Это лучшее, что создало человечество для понимания линала.
📉 2. Матанализ
Модель учится методом «градиентного спуска». Она ищет минимум ошибки. Что нужно понимать:
- производная: скорость изменения функции;
- градиент: в какую сторону нужно «подкрутить» веса нейросети, чтобы ошибка стала меньше;
- Chain Rule (цепное правило): основа метода Backpropagation (обратного распространения ошибки).
💎 Где учить:
- канал тот же, что и в прошлом этапе, плейлист "Essence of calculus". Снова - смотрим ради визуального понимания сути градиента.
🎲 3. Теория вероятностей и Статистика
Самая важная часть для Data Science. Данные всегда зашумлены. Вы должны отличать закономерность от случайности. Что нужно понимать:
- распределения: нормальное (Гауссово) распределение. Правило 3-х сигм;
- метрики: среднее, медиана, мода, стандартное отклонение. Почему средняя зарплата по стране - плохой показатель (нужна медиана);
- проверка гипотез: A/B тесты, p-value, статистическая значимость.
💎 Где учить:
- Stepik: Основы статистики (Анатолий Карпов). Абсолютная легенда. Курс бесплатный, веселый и очень качественный. Проходить обязательно Часть 1 и Часть 2.
📚 Книги (золотой фонд)
Если любите читать, а не смотреть видео:
1) "Грокаем глубокое обучение" (Grokking Deep Learning). Эндрю Траск. Математика объясняется на пальцах, параллельно вы пишете нейросеть с нуля на чистом Python (без библиотек). Лучшая книга для связки "Математика + Код".
2) "Статистика и котики". Владимир Савельев. Очень смешная и простая книга про сложные вещи.
🎯 Итог этапа: не пытайтесь выучить всё сразу!
1) Посмотрите видео 3Blue1Brown за пару вечеров, чтобы мозг начал "видеть" векторы и градиенты.
2) Пройдите курс Карпова по статистике (это займет время, но оно того стоит).
Дальше - самое интересное. Мы начинаем строить модели. Следующий уровень: Classic Machine Learning.
❤74🔥10👍5❤🔥3👏2😁1
Media is too big
VIEW IN TELEGRAM
ИИ-модели для OnlyFans, Telegram и личных брендов: общение, контент, автопродажи, масштаб без участия человека.
В моём Telegram — как создавать такие модели, где их продавать и как на этом зарабатывать сейчас, пока рынок не перегрет.
Подписывайся, если хочешь войти первым, а не догонять потом.
Вход по кнопке: ЖМИ СЮДА
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40💅18😁12🤷♂11🤯8👍2
Продолжим карту по ML
🤖 Level 3: Classic ML. Деньги делаются здесь
Ваш главный инструмент здесь - библиотека Scikit-Learn (sklearn)
🛠 1. Алгоритмы
🎯 2. Метрики и Валидация
🧹 3. Feature Engineering
💯 Золотые ресурсы к этому разделу!
⚡️ План действий (пэт-проект!)
Возвращаемся к датасету Titanic на Kaggle, но теперь серьезно:
1. Превращаем пол (Male/Female) в цифры.
2. Заполняем пропуски в возрасте не просто средним, а в зависимости от класса каюты.
3. Обучаем RandomForestClassifier из sklearn.
4. Считаем метрику ROC-AUC.
5. Делаем "Submit" на Kaggle и смотрим свое место в рейтинге.
Освоите бустинги (CatBoost/XGBoost) - вы уже полезны бизнесу. А вот теперь, когда база готова, можно переходить к магии - Deep Learning.
#Roadmap #MachineLearning #ScikitLearn #CatBoost #DataScience
Ваш главный инструмент здесь - библиотека Scikit-Learn (sklearn)
🛠 1. Алгоритмы
Не нужно знать формулы наизусть, но нужно понимать физический смысл: "когда и какой алгоритм применять".
1) База - это линейная/логистическая регрессия: простые, быстрые, интерпретируемые. С них всегда начинают решение задачи, чтобы задать планку качества.
2) Деревья решений : алгоритм, который задает вопросы ("Зарплата больше 100к? -> Да/Нет").
3) Ансамбли (ensembles) - короли таблиц:
- Random Forest: куча деревьев, которые голосуют :D;
- Gradient Boosting (CatBoost, XGBoost, LightGBM): золотой стандарт индустрии. Самые мощные алгоритмы для табличных данных. Совет: В СНГ особенно любят CatBoost от Яндекс, но Украины это не касается.
🎯 2. Метрики и Валидация
Обучить модель (model.fit) - это 5% работы. Главное - понять и оценить, работает ли она так, как нужно нам.
1) Train/Test Split: никогда не проверяйте модель на тех данных, на которых она училась. Это самообман.
2) Cross-Validation: продвинутый способ проверки на разных кусках данных.
3) Метрики (Classification):
- забудьте про Accuracy (точность). Если у вас 95% здоровых людей и 5% больных, модель тупо предскажет всем "Здоров" и получит 95% accuracy. Но она бесполезна;
- учим Precision, Recall, F1-score, ROC-AUC.
4) Метрики (Regression): MAE, MSE, RMSE.
🧹 3. Feature Engineering
Алгоритм не умнее данных, которые вы в него подали.
1) Encoding: как превратить текст "Мужчина/Женщина" в цифры 0 и 1 (One-Hot Encoding, Label Encoding).
2) Scaling: почему для некоторых алгоритмов зарплату 100 000 и возраст 25 нужно привести к одному масштабу (StandardScaler).
1. [RU/EN] ODS: mlcourse.ai (Open Data Science) - это лучший курс в интернете по классическому ML. Без шуток.
- Автор: Юрий Кашницкий.
- Что делать: пройти темы с 3 по 10. Там вы научитесь всему: от деревьев до градиентного бустинга. Там жесткие домашки и отличные статьи.
2. "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" (Aurélien Géron) - книга, библия прикладного ML.Читаем первую половину книги (Part 1). Там минимум воды и максимум рабочего кода. Есть перевод на русский ("Прикладное машинное обучение..."). Тот редкий случай, когда в частном варианте могу порекомендовать книгу!).
3. Scikit-Learn User Guide. У этой библиотеки гениальная документация, очень похожа структурно на FastAPIшную. Это практически учебник.
Возвращаемся к датасету Titanic на Kaggle, но теперь серьезно:
1. Превращаем пол (Male/Female) в цифры.
2. Заполняем пропуски в возрасте не просто средним, а в зависимости от класса каюты.
3. Обучаем RandomForestClassifier из sklearn.
4. Считаем метрику ROC-AUC.
5. Делаем "Submit" на Kaggle и смотрим свое место в рейтинге.
Освоите бустинги (CatBoost/XGBoost) - вы уже полезны бизнесу. А вот теперь, когда база готова, можно переходить к магии - Deep Learning.
#Roadmap #MachineLearning #ScikitLearn #CatBoost #DataScience
Please open Telegram to view this post
VIEW IN TELEGRAM
❤59👍11🔥8🎉2⚡1😎1
Сегодня был хороший вопрос на стриме и я обещал сделать подборку. Я люблю своих подписчиков
📇 Оффтоп, но по теме: где брать данные? Подборка лучших датасетов для практики
Титаник вы уже, надеюсь, «спасли» (или утопили). Чтобы не заскучать, держите пак проверенных датасетов. Разделил их по типам задач, чтобы вы качали разные скиллы‼️ ‼️
💡 Микро-совет: не пытайтесь сделать всё сразу.
1. Возьмите House Prices.
2. Сделайте ноутбук с анализом данных.
3. Обучите простой RandomForest.
4. Выложите на GitHub.
Это уже будет проектом, который не стыдно показать.
#Datasets #Kaggle #MachineLearning #Practice #PetProject #Roadmap
Титаник вы уже, надеюсь, «спасли» (или утопили). Чтобы не заскучать, держите пак проверенных датасетов. Разделил их по типам задач, чтобы вы качали разные скиллы
🏠 1. House Prices (регрессия)
Классика, которая приходит на смену Титанику. Задача: предсказать стоимость дома по его характеристикам (площадь, район, год постройки). Зачем: это Регрессия (предсказываем число, а не класс). Тут много пропусков, много текстовых признаков, которые надо кодировать. Отличный полигон для Feature Engineering.
💳 2. Credit Card Fraud Detection (аномалии)
Суровый финтех. Реальные транзакции европейских карт. Задача: понять, какая транзакция мошенническая. Зачем: главный урок здесь - дисбаланс классов (Imbalanced Data). Мошенников всего 0.17%. Если модель просто скажет "Все честные", она будет права на 99.83%, но пропустит всех воров. Тут вы научитесь работать с метриками (Recall) и сэмплированием.
👕 3. Fashion MNIST (картинки / Computer Vision)
Надоело смотреть на цифры (обычный MNIST)? Давайте смотреть на одежду. Задача: классифицировать 70,000 картинок одежды (футболки, кроссовки, сумки). Зачем: "Hello World" для нейросетей. Идеально, чтобы написать свою первую простую сетку на PyTorch.
📩 4. SMS Spam Collection (текст / NLP)
Ваш входной билет в обработку естественного языка. Задача: определить, является смска спамом или нормальным сообщением. Зачем: базовая работа с текстом. Токенизация (разбиение на слова), мешок слов (Bag of Words), TF-IDF.
🍷 5. Wine Quality (мультиклассовая классификация)
Для ценителей. Задача: предсказать оценку качества вина по химическому составу (кислотность, сахар, pH). Зачем: анализ корреляций (что влияет на вкус?) и работа с мультиклассовой классификацией (оценок может быть много: 3, 4, 5... 8).
🎮 6. Pokemon (для души / EDA)
Просто веселый датасет. Задача: кто победит в битве? Или предсказать, является ли покемон "Легендарным". Зачем: идеально для EDA (разведочного анализа) и красивых графиков. Характеристики (атака, защита, скорость) очень наглядны. Самый интересный вариант для обучения :)
1. Возьмите House Prices.
2. Сделайте ноутбук с анализом данных.
3. Обучите простой RandomForest.
4. Выложите на GitHub.
Это уже будет проектом, который не стыдно показать.
#Datasets #Kaggle #MachineLearning #Practice #PetProject #Roadmap
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40❤23⚡4❤🔥3👏2
📱Tik-Tok-live.
Так что ищите по @magerdev1/magerdev в соц-сетях, если что. Хотел magercode, но в ТГ уже занято было.
Рабочая почта осталась та же, magerkopython@gmail.com.
Освободилось 1 место на менторство - человек отказался из-за личных обстоятельств. Можете написать, условия были тут. На этой неделе проводят оптику и ставят стабилизатор - начинаем.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍13👀6😈1
Это можно было и нужно было растянуть на два поста, но что же...
🧠 Level 4: Deep Learning. Магия нейросетей
Здесь начинается тот самый AI, о котором пишут в новостях. Ключевое отличие от Classic ML: в классике вы вручную придумываете признаки (фичи), а в Deep Learning сеть сама учится выделять важное (грани, текстуры, "усы кота", интонацию голоса).
⛏ 1. Фреймворк: PyTorch
⚙️ 2. Архитектуры (зоопарк моделей)
Нейросети разные - важно понимать, "какую доставать под задачу":
💡 Практический совет: не геройствуйте с нуля. В 90% задач быстрее и лучше стартовать с pre-trained модели (transfer learning), чем обучать "с нуля".
🔗 3. Training Best Practices (то, что реально решает)
💻 4. Железо (GPU)
На CPU нейросети учатся очень медленно - почти всегда нужна GPU.
Нет своей карты - используем облака:
- Google Colab - часто дает доступ к GPU бесплатно (тип зависит от нагрузки).
- Kaggle Notebooks - тоже дают GPU бесплатно, но есть лимиты по времени/ресурсам.
💎 Золотые ресурсы
5.⚡️ План действий (мини-проект на 1-2 вечера)
После базы PyTorch у вас два сильных направления:
- CV (Computer Vision)
- NLP (текст/LLM)
🚀 В следующем посте - финальный этап, о котором часто молчат курсы: MLOps & Deploy.
Как сделать так, чтобы модель стала сервисом, а не файликом на диске.
#Roadmap #DeepLearning #PyTorch #NeuralNetworks #AI #FastAI #Transformers
Здесь начинается тот самый AI, о котором пишут в новостях. Ключевое отличие от Classic ML: в классике вы вручную придумываете признаки (фичи), а в Deep Learning сеть сама учится выделять важное (грани, текстуры, "усы кота", интонацию голоса).
Забудьте (пока что) про TensorFlow/Keras. PyTorch - индустриальный стандарт для обучения нейросетей: гибкий, "питоничный", удобный для исследований и продакшена.
Что учить:
1) Tensor'ы и операции (torch.Tensor).
2) Autograd (автоматические градиенты).
3) torch.nn (слои и модели) + torch.nn.functional.
4) DataLoader / Dataset (батчи, shuffle, пайплайн данных).
5) Тренировочный цикл: forward -> loss -> backward -> step.
Нейросети разные - важно понимать, "какую доставать под задачу":
1) MLP (полносвязные сети)
- База для простых табличных/векторных задач, но слабее для изображений/аудио.
2) CNN (сверточные сети) - короли Computer Vision
- Как работают: "скользят" окном по картинке, учатся находить грани -> текстуры -> части объектов.
- Задачи: классификация, детекция (YOLO и аналоги), сегментация.
3) RNN / LSTM / GRU - последовательности
- Временные ряды, текст, сигналы. Держат контекст прошлого (но сегодня часто уступают трансформерам).
4) Transformers - современный стандарт NLP и не только
- На трансформерах построены BERT и GPT.
- Что учить: Attention (внимание) - сердце современного DL.
💡 Практический совет: не геройствуйте с нуля. В 90% задач быстрее и лучше стартовать с pre-trained модели (transfer learning), чем обучать "с нуля".
Обучить модель - это только начало. Важно уметь делать это правильно:
1) Loss/метрика под задачу (и не путать их).
2) Регуляризация: dropout, weight decay.
3) Оптимизаторы: Adam/AdamW, SGD; learning rate scheduler.
4) Early stopping и сохранение чекпойнтов.
5) Reproducibility: seed'ы, фиксируем версии библиотек.
6) Mixed precision (AMP) - ускоряет обучение на GPU почти "бесплатно".
7) Нормализация и аугментации данных (особенно для CV).
На CPU нейросети учатся очень медленно - почти всегда нужна GPU.
Нет своей карты - используем облака:
- Google Colab - часто дает доступ к GPU бесплатно (тип зависит от нагрузки).
- Kaggle Notebooks - тоже дают GPU бесплатно, но есть лимиты по времени/ресурсам.
1) [EN] Fast.ai - Practical Deep Learning for Coders
- Автор: Джереми Ховард.
- Подход: "сверху-вниз". На первом уроке вы уже обучаете модель, а потом разбираете детали.
2) [EN] DeepLearning.AI (Andrew Ng) - академическая база
- "Deep Learning Specialization" на Coursera (или лекции на YouTube).
- Если хотите понимать математику и принципы - это сюда.
3) [DOCS] PyTorch Blitz - официальный туториал (не зайдите в Танки!!!)
- Пройти обязательно, чтобы понять синтаксис.
4) [EN] Hugging Face Course - современная практика Transformers
- Полезно, если идете в NLP/LLM.
5.
1) Открываем Google Colab или Kaggle Notebook.
2) Берем простую CV-задачу: классификация (например, "хот-дог / не хот-дог").
3) Делаем transfer learning:
- берем pre-trained модель (например, ResNet),
- заменяем "голову" под свои классы,
- обучаем 3-5 эпох.
4) Считаем метрики на валидации:
- accuracy + confusion matrix,
- при дисбалансе - F1/ROC-AUC.
5) Сохраняем модель (torch.save) и пишем маленький inference-скрипт: вход -> предсказание.
После базы PyTorch у вас два сильных направления:
- CV (Computer Vision)
- NLP (текст/LLM)
Как сделать так, чтобы модель стала сервисом, а не файликом на диске.
#Roadmap #DeepLearning #PyTorch #NeuralNetworks #AI #FastAI #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32❤12❤🔥6🤯3👍1💅1
Нашёл (украл) способ сделать тексты ChatGPT ( и с другими LLM тоже работает) более живыми: берём список “признаков машинного письма” из Википедии и просим модель их избегать - результат сразу выглядит человечнее. Рефераты, эссе, конспекты - все должно быть краше.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤155👍16❤🔥14🔥7😁5😈1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣88❤29🔥7☃6❤🔥2👍2
Финиш, братья. Тут получится найти ресурсы по Docker и FastAPI, прямиком с прошлого Roadmap. Прочитаете этот шаг, узнаете - "зачем?".
🔥 Level 5: MLOps & Engineering. Выводим в прод
Жестокая правда: модель в Jupyter Notebook никому не нужна. Бизнес не запускает .ipynb. Бизнесу нужен сервис, который 24/7 принимает данные и отдает прогноз.
Если вы отдаете заказчику ноутбук - вы любитель.
Если вы отдаете Docker-контейнер с API - вы профи.
🐳 1. Docker (контейнеризация)
📇 2. API (FastAPI)
👨💻 3. MLOps (порядок в хаосе)
💎 Золотые ресурсы
👍 Гранд-финал: идеальный Pet-Project (который реально продает вас)
Поздравляю. Мы прошли весь путь: от базы ML до вывода модели в прод.
Теперь Roadmap у вас перед глазами. Осталось только начать делать...
#Roadmap #MLOps #Docker #FastAPI #Deploy #Career #DataScience
Жестокая правда: модель в Jupyter Notebook никому не нужна. Бизнес не запускает .ipynb. Бизнесу нужен сервис, который 24/7 принимает данные и отдает прогноз.
Если вы отдаете заказчику ноутбук - вы любитель.
Если вы отдаете Docker-контейнер с API - вы профи.
Чтобы не было истории: "у меня на ноуте работает, а на сервере упало". Docker упаковывает код, зависимости и версии Python в изолированную среду - и это гарантированно одинаково запускается везде.
Что учить:
1) Dockerfile (как собрать образ).
2) docker build / docker run.
3) Порты и переменные окружения (ENV).
4) Volumes (если нужно сохранять файлы/модели).
5) Docker Compose - запуск "все одной командой", если у вас API + БД + трекинг.
Золотое правило: любой проект должен подниматься одной командой.
Модель должна общаться с миром через HTTP-запросы.
FastAPI - современный стандарт: быстрый, удобный, с автогенерацией документации (Swagger/OpenAPI).
Задача:
1) Сделать эндпоинт /predict:
- принимает JSON с признаками,
- валидирует вход (Pydantic),
- возвращает JSON с предсказанием.
2) Отдельно: /health (проверка, что сервис жив).
3) Версионирование: /v1/predict - пригодится в проде.
Плюс для демо/портфолио:
- Streamlit - быстро собрать веб-интерфейс без HTML/CSS.
В реальности вы обучаете десятки/сотни моделей. Без системы вы утонете.
Что реально нужно:
1) Трекинг экспериментов: MLflow
- гиперпараметры, метрики, артефакты, модель-реестр.
2) Версионирование данных/моделей: DVC
- Git для кода, DVC для данных и моделей (без мусора в репозитории).
3) Пайплайны и расписание: Airflow / Prefect
- чтобы обучение/обновление моделей запускалось по расписанию или по событию.
4) Качество и контроль:
- тесты (pytest) для препроцессинга и инференса,
- линтеры/форматтеры (ruff/black), pre-commit,
- CI/CD (GitHub Actions): прогнать тесты и собрать Docker-образ автоматически.
5) Мониторинг в проде (часто забывают, а это важно):
- логирование запросов/ошибок,
- мониторинг метрик (latency, error rate),
- контроль data drift / model drift (хотя бы базово).
1) [EN] Made With ML (Goku Mohandas)
- Лучший бесплатный курс по MLOps: от идеи до деплоя.
- Там есть все: тесты, линтеры, CI/CD, Feature Store, деплой.
2) [DOCS] FastAPI Tutorial
- Документация написана как учебник.
3) [DOCS] MLflow Docs
- Быстрый старт трекинга и registry моделей.
4) [DOCS] DVC Docs
- Версионирование данных и воспроизводимые пайплайны.
Чтобы вас взяли на работу, в резюме должна быть ссылка на GitHub с проектом, где есть ВСЕ:
1) Код
- чистый, разбитый на модули (без "лапши" в ноутбуке),
- конфиги (yaml/toml), понятная структура папок.
2) ML
- обучение + валидация,
- сохранение модели,
- воспроизводимость (фиксированные версии зависимостей).
3) API
- FastAPI сервис: /predict, /health,
- валидация входа, понятные ошибки.
4) Docker
- Dockerfile + (желательно) docker-compose.yml,
- запуск одной командой.
5) README.md
- что это, зачем, как запустить,
- пример запроса (curl) и пример ответа,
- как обучить модель заново.
Сделаете такой проект - вы автоматически в топ-10% кандидатов на Junior позицию.
Поздравляю. Мы прошли весь путь: от базы ML до вывода модели в прод.
Теперь Roadmap у вас перед глазами. Осталось только начать делать...
#Roadmap #MLOps #Docker #FastAPI #Deploy #Career #DataScience
Please open Telegram to view this post
VIEW IN TELEGRAM
❤84👍11👀9❤🔥4🔥4
Цель - повысить качество контента в TikTokи попробовать выйти на YouTube с гайдами.
Наберусь наглости и скажу: если у кого-то есть желание вложиться/поддержать - буду рад. Я стараюсь не наполнять канал (тут и в ТТ) сомнительной рекламой, максимум тематической и полезной (и то редко). Это, конечно, мое решение, но я надеюсь, вы его поддержите.
- банка со сбором (гривны);
- донаты в рублях;
- USDT TRC-20:
TWvHdZf5qE3HRLgHtRoeNs53w9mtawHWAA- Ton:
UQBVe8phnNFJPWkIyIGN_Oo1L2zsWB8LeW1D8xskEucv8UNsСпасибо за внимание, сори, что с утра побеспокоил. Я сам ещё сплю, а сообщение - на авто-отправке.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤127🔥27👍17🥴3👾3🥰1
Чтобы не собирать инструменты по кусочкам из твитов и случайных репо, знаю и даю вам отличную опорную точку:
- быстро ориентироваться в экосистеме и собирать стек под задачу;
- сравнивать подходы “по слоям” (обучение → приложение → качество/мониторинг);
- держать общую “карту инструментов” для команды и онбординга.
Что дальше делать - еще не решил. Либо полезные инструменты постить, либо делать очередной Roadmap, по С++ или full-stack.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍10🎉6🍓4👀4🔥1
0. Фундамент.
1. Превращаем Python в инструмент
2. Math Core. Математика без фанатизма
3. Classic ML. Деньги делаются здесь
4. Deep Learning. Магия нейросетей
5. MLOps & Engineering. Выводим в прод
#Roadmap #AI #ML #DataScience #Python
Please open Telegram to view this post
VIEW IN TELEGRAM
❤88👍18🎉8🔥6💅2🍓1
Там куча запускаемых шаблонов/демо: RAG, AI agents, multi-agent, MCP, voice-агенты - можно клонировать и сразу смотреть, как это собрано в коде. И есть полная русская локализация!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥29❤13✍8👍3🎉2🍓1
Please open Telegram to view this post
VIEW IN TELEGRAM
😭203😢23❤9💔6❤🔥2😁1
Вы донатили, за это спасибо. Но в реальности, не смогли даже перешагнуть 100$, что меня, если честно, чуть удивило. Возможно, я переоценил свой вклад в контент и т.д. Учитывая, что этих шекелей мне не хватило бы даже на половину микрофона, который я хочу, не говоря о карте захвата/камере. Стало понятно, что пока в контент мне вкладываться смысла нет, ибо выхлопа в ближайшее время не будет. Поэтому, решил отдать средства вам, но в другой форме.
1. 🍽 FoodApp - умный трекер питания
Сфотографируй еду - ИИ распознает блюдо и посчитает калории, белки, жиры и углеводы. Веди дневник питания, отслеживай воду, следи за прогрессом к своим целям.
• 📸 AI-анализ блюд по фото;
• 🎯 Персональные цели КБЖУ;
• 📊 Статистика и графики;
• 💧 Трекер воды.
Ну и, что не плохо - может присылать напоминания дважды в день о том, что нужно поесть/выпить воды. Можно менять свой вес, цель по массе и т.д., все будет пересчитываться. Еду можно добавлять картинкой или вручную вносить данные/удалять свайпом, добавлять эти записи в свой дневник, смотреть статистику за день, неделю, месяц.
👉 @magerdevfood_bot
2. 🔮 DevTarot - таро для программистов
Уникальное приложение, которое даёт мистические предсказания специально для разработчиков. Выбери категорию (карьера, код, дебаг, soft skills), ответь на вопросы - и получи персональное толкование от ИИ :D
Такое, это для разрядки и чтобы вы в ТикТоках не спрашивали у меня совместимость с языком/направлением. Вот, сами можете посмотреть.
👉 @magerdevtar_bot
Еще раз спасибо тем, кто закинул, что мог!
P.S. я очень надеюсь, что там без багов, ибо я просто задеплоил, не проверял особо.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤106🔥14👍11👀6❤🔥1🍓1