Data Flow | AI & Автоматизация | Stas Gasilovskii
314 subscribers
52 photos
8 videos
67 links
Здесь про AI и автоматизацию.

dm: @stas_gi
Download Telegram
🔛 С чего начать путь в ML #MLSTART

Когда только начинаешь разбираться в машинке, самое сложное - не утонуть в количестве курсов и туториалов.

Я сам через это проходил. В итоге понял, что лучше всего заходит один хороший, системный курс, где теория и практика идут рядом.

🎓 Курс Юрия Кашницкого - mlcourse.ai - это классика. Мне он очень помог. Там спокойно и по делу объясняются базовые вещи: от регрессии и классификации до бустингов и ансамблей.

Есть домашки — они помогают лучше разобраться в теме и закрепить материал. Плюс материалы есть на русском и на английском (на Хабре и на YouTube), так что кому интересно - можно сразу на английском проходить.

Иногда пересматриваю перед собесами — помогает освежить знания.

💡 И ещё совет: загляни на ODS.ai
Это известное ML-коммьюнити, где проходят курсы, челленджи и просто можно познакомиться с ребятами, кто тоже учится.

Так через совместную работу над проектами в ходе онлайн-курсов ты сможешь обрести полезные связи и влиться в сообщество.

💬 В общем, если только начинаешь, лучше не распыляться - возьми что-то одно, пройди до конца, сделай домашки и смело задавай вопросы в сообществе.

С этим уже можно уверенно идти дальше.

P.S.
Если знаешь еще крутые курсы и материалы, полезные на старте - делись в комментариях!

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥642
🔑 Kaggle - лучший тренажёр для ML #MLSTART

Когда немного освоился с базой, самое время переходить к практике. И вот тут Kaggle - просто золото.

Это площадка, где можно решать реальные задачи машинного обучения. Там куча соревнований, от простых до продвинутых, плюс огромное количество открытых ноутбуков, где можно подсмотреть, как думают другие.

🥇 Kaggle поможет тебе прокачать навыки, связанные с
- выбором подхода к задаче,
- анализом и предобработкой данных,
- выбором метрик,
- подбором и улучшением моделей.

Над задачами можно работать не только в одиночку, но и в команде - такой опыт прокачает тебе еще сильнее 💪 Команду можно найти в тематических чатах (например, тут).

Чтобы быстрее выбиться в топ на leaderboard, рекомендую пройти курс по соревновательному Data Science - тут максимальный фокус на практику и подходы, которые работают.

Кстати, живые хакатоны тоже тема. Крупные компании, некоммерческие организации и даже правительство регулярно устраивают хакатоны и дают актуальные ML задачки из своей практики. Иногда, если круто показать себя на таком хакатоне, то можно не только деньги, но и оффер получить 😉

Как их найти? -> Просто подпишись на крупные ML-паблики в телеге + гугли. Все в открытом доступе!

💡 Если не хочется сразу врываться в соревнования - просто скачай датасеты и попробуй решить что-то самостоятельно. Это тоже отличная практика.

С Kaggle можно начать собирать первые проекты для портфолио, а вместе с этим - повышать уверенность в своих силах ↗️

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
🤓 Математика под капотом #MLSTART

Многие стараются сразу перейти к моделям и кодингу, но в какой-то момент всё равно упираешься в то, что без математики дальше не продвинешься.

Не обязательно уходить в теорию с головой, но понимать, почему что-то работает - важно. Понимание принципов работы ML-алгоритмов поможет тебе точечно подбирать нужные инструменты под задачу, а не "стрелять из пушки по воробьям".

📖 Освежить теорию мне лично помогает воркбук от Яндекса. Это аккуратный, структурный разбор базовых концепций машинного обучения. Типы задач и моделей, обучение и переобучение, регуляризация, метрики и фукнции потерь - все есть.

🎓 Если захочется копнуть глубже - есть курс “Математические основы машинного обучения” от Воронцова (МФТИ): там еще больше линейной алгебры, теории вероятностей, оптимизации - одним слово, база. Очень много математики, но если разобраться и понять, то можно натренировать сильную интуицию, которая пригодиться в решении ML-задач.

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52
🧠 От классики к нейросетям #MLSTART

Когда появляется базовое понимание концепций машинного обучения, хочется всё систематизировать: какие вообще бывают задачи, какие под них модели использовать, и как это всё связано между собой.

🔹 На старте стоит разобраться с основными типами задач:

- Классификация - когда нужно определить категорию (например, спам / не спам).
- Регрессия - когда предсказываем числовое значение (например, цену квартиры).
- Кластеризация - когда данных много, но нет меток, и данные нужно как-то группировать.

🔹 Затем логично перейти к ключевым моделям: линейные, деревья, ансамбли. Тут важно не просто “знать названия”, а понимать, в каких случаях каждая из них лучше всего работает, как обучается, какие данные принимает на вход, а также какие сильные и слабые стороны имеет.

📈 Когда этот этап пройден - можно спокойно двигаться к нейронным сетям.

Тут начинается самое интересное: как строится сеть, как она обучается, какие бывают архитектуры, и почему трансформеры стали так популярны.

💡 На самом деле нейронки — это не “что-то отдельное”, а просто логичное продолжение базовых алгоритмов машинного обучения.

Такой постепенный переход - от классики к современным архитектурам - помогает не потеряться и осознанно подойти к следующей теме: LLM (Большие языковые модели).

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52
🤯 Как работают LLM под капотом #MLSTART

Когда впервые сталкиваешься с большими языковыми моделями, кажется, что внутри какая-то магия. 🪄

Но на деле всё куда проще (и интереснее). Если очень упростить, то можно сказать, что LLM - просто предсказывает следующий символ или слово.

Она “смотрит” на контекст, оценивает вероятности всех возможных продолжений и выбирает наиболее подходящее. То есть, в основе - обычная многоклассовая классификация, только на гигантском масштабе.

🎞 Чтобы наглядно это увидеть, есть два шикарных ресурса:

- 3Blue1Brown - визуально объясняет, как работают нейронные сети. После его видео многие вещи становятся буквально очевидными.

- Андрей Карпатый - бывший разработчик OpenAI, разбирает, как собрать GPT с нуля. Без лишней воды, очень системно. Он шаг за шагом показывает, как строится языковая модель и почему она делает то, что делает.

💬 Эти два плейлиста реально помогают сложить в голове пазл: от нейронок - к трансформерам, а от них - к пониманию LLM.

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥4
⚙️ Поиграться с моделями: Groq, OpenRouter и другие #MLSTART

Когда начинаешь разбираться, как работают LLM, сразу хочется попробовать всё это в деле - “пощупать” модели своими руками, сравнить качество генерации, посмотреть как те или иные параметры влияют на ответ LLM.

Сейчас для этого есть куча удобных площадок и API, где можно тестировать разные модели, не поднимая инфраструктуру.

Вот несколько сервисов 👇

- Groq — классный сервис, но требует VPN. Можно запускать open-source модели бесплатно, лимитов хватает, чтобы спокойно поиграться и потестить идеи.

- OpenRouter - альтернатива без VPN. Там тоже есть бесплатные модели (лимитов чуть меньше), но интерфейс удобный, и можно быстро сравнивать разные LLM.

- Replicate и Together.ai - больше про продакшн и эксперименты. Эти сервисы платные, требуют зарубежную карту, но у них огромный “зоопарк” моделей, не только LLM: есть модели для изображений, аудио и видео

💡 Такие инструменты полезны, чтобы быстро проверить гипотезу, понять, как модель реагирует на разные промпты, и не тратить время на развёртывание локальной среды.

Если хочешь хочется поскорее потестить разные LLM-модельки - эти playground-площадки отличное место, чтобы начать.

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
🤗 Hugging Face - кладезь моделей #MLSTART

Если Groq и OpenRouter - это площадки, где можно протестировать модели, то Hugging Face - это уже целая экосистема. Там собрано всё: модели, датасеты, пайплайны, демки и даже туториалы по обучению.

💫 Самое крутое - Hugging Face можно рассматривать как GitHub для ML. Каждый разработчик может выложить туда свою модель, а ты - взять, протестировать или дообучить под свою задачу.

Например, у ребят из Vikhrmodels есть несколько отличных русскоязычных моделей. Я сам использовал Vikhr-Nemo-12B-Instruct-R-21-09-24 - она довольно уверенно справляется с задачами на русском языке. Правда, она может быть тяжеловата для обычного ПК, так что может понадобиться квантизация.

Из других опенсорсных вариантов неплохо себя показывает Qwen - неплохое качество генерации, есть "легкие" версии, так что можно позапускать у себя на компьютере.

Кстати, для локального запуска LLM сразу с интерфейсом чата существует множество сервисов. Мой фаворит - LM Studio.

⚡️ Если хочешь поэкспериментировать с локальными моделями или попробовать свои силы в fine-tuning - welcome to Hugging Face!

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍1👏1
💬 Сила комьюнити #MLSTART

Когда начинаешь изучать ML и LLM, легко почувствовать себя в вакууме - вокруг куча инфы, но непонятно, куда двигаться дальше и с кем обсудить вопросы. Вот тут как раз и выручает комьюнити.

🦜 ODS.ai - отличное русскоязычное сообщество. Там проходят соревнования, курсы, митапы, а главное - всегда можно задать вопрос и получить ответ от практиков. Многие ребята, кто сейчас работают в топовых ML-командах, когда-то начинали именно там.

💬 Вот еще пара сообществ, где можно задать вопросы, обсудить идеи и найти единомышленников:
- Natural Language Processing - большое русскоязычное NLP-сообщество. Там обсуждают всё: от обучения моделей до построение пайплайнов и продакшн-задач.
- LLM under the hood - авторский канал про продукты на базе LLM. Автор делится продакшн-кейсами и идеями вроде SGR-подхода (Schema-Guided Reasoning) для повышения точности работы агентов. Есть также чат, где ребята активно обсуждают свои проекты и делятся опытом.

💡 Если ты только начинаешь - обязательно подключайся к таким сообществам.

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42
🧰 Как уже сегодня собрать своего первого ИИ-ассистента? #MLSTART

Если не хочется сразу погружаться в код, но хочется что-то сделать руками - тебе подойдут no-code инструменты. С их помощью можно собрать работающего LLM-агента буквально за вечер.

Вот пара сервисов, которые точно заслуживают твоего внимания 👇

- Flowise - визуальный конструктор LLM-агентов. Можно соединять модели, промпты, базы данных и API прямо в браузере. Отличный способ понять логику пайплайнов без кода и собрать своего первого агента уже этим вечером.
- n8n - мощный инструмент для автоматизации. С его помощью можно, например, сделать цепочку: Telegram-бот → LLM → Google Sheets → Telegram-бот = и всё это без единой строчки кода (бесплатный доступ к Enterprise-серверу n8n можно получить здесь).

А если захочется углубиться - обрати внимание на LangChain и LangGraph. Это уже code-фреймворки, но они лежат в основе большинства LLM-продуктов, и понимание их логики сильно прокачивает.

⚡️ No-code инструменты - отличный способ быстро собрать свой первый прототип и "пощупать", как это всё работает "вживую".

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Теперь и ChatGPT стал амбассадором нашего курса. Приятно)

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥81😱1
Друзья развернули Enterprise лицензию n8n на своём сервере и дают бесплатный доступ. Если хочется быстро собрать какую-нибудь автоматизацию под свои задачи и не заморачиваться пока с селфхостингом - welcome. Говорят, что доступы пока ещё есть в наличии.

Сам тоже пользуюсь, кайфово 👍

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥63🤝2👍1
🕗 Осталось меньше 4 часов

Чёрная пятница подходит к концу, и уже 1 декабря стоимость курса ИИ агенты и автоматизация с n8n будет повышена.

Коммьюнити вокруг этого курса растет невероятным темпами: сейчас уже более 800 студентов осваивают навык автоматизации вместе с нами. Наблюдать результаты студентов - отдельный вид удовольствия.

Уже спустя месяц ребята с нуля собирают крупные автоматизации, такие как:
- Интеграции с CRM и умные чатботы, которые автоматизируют общение с клиентами
- Контент-заводы, которые берут на себя создание и публикацию контента в соцсетях
- RAG системы, которые отвечают на вопросы с использованием своей базы документов
И это лишь малая часть. О кейсах еще обязательно расскажу, но чуть позже.

Сейчас хочу лишь сказать - если вы планировали освоить создание агентов и автоматизаций, то лучшее время начать - сейчас.

На следующей неделе уже соберете свою первую автоматизацию, а до конца месяца - сможете решить реальную рабочую задачу, ради которой пришли на курс.

Самое крутое, что бонусом вы получаете доступ к серверу n8n с Enterprise-подпиской (оригинальная стоимость примерно 700 000 рублей). Не нужно будет возиться с настройкой окружения - с первых же уроков можно творить.

Плюс все студенты получают бесплатные токены на gpt, так что сразу можно эксперементировать с ИИ агентами.

И кстати, скидка уже автоматически применена на странице курса😉

Успевай!

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍2❤‍🔥1👌1
🕶 Fine-tuning и RAG: нужно ли дообучать модели? #MLSTART

Когда начинаешь работать с моделями, часто хочется их "допилить под себя" - чтобы понимали контекст проекта, говорили в нужном тоне, лучше решали конкретные задачи. Первое, что приходит в голову - дообучить модель. Но это не всегда лучший (и точно не первый) шаг.

🍭 Fine-tuning - это мощно. Но при этом и сильно дорого: нужны данные, вычислительные ресурсы и время. Поэтому обычно к нему прибегают, когда уже опробованы все другие способы.

А вот что точно стоит попробовать вначале 👇

- Few-shot prompting - когда ты показываешь модели несколько примеров правильных ответов прямо в промпте. Это помогает направить её стиль и логику без дополнительного обучения.
- RAG (Retrieval-Augmented Generation) - подход, при котором модель "обогащается" нужными знаниями из внешних источников (например, базы документов или вики).
- SGR (Schema-Guided Reasoning) - относительно свежий подход: структурировать ответы моделей, чтобы их формат был более детерминированным и предсказуемым.

💡 Иногда даже простая настройка температуры (параметра "творчества") решает половину проблем:
- Меньше температура → более точные и стабильные ответы
- Выше → больше вариативности и креатива

Если же хочется поэкспериментировать с fine-tuning, можно брать лёгкие модели (например, Qwen-8B или Mistral) и обучать их на узких задачах. Большое количество уже готовых датасетов можно найти на HuggingFace.

Но чаще всего бывает достаточно просто поработать с промптами, контекстом и гиперпараметрами.

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2❤‍🔥11
🛒 Объединили все 3 наших хита в один пакет

Если вы давно тут и все не решались познакомиться с моей командой крутых авторов, то вот шанс, забирайте сразу весь пакет 🍖

💻 Пакет из 3-х курсов по цене двух, чтобы быстро, но плотно нырнуть в сферу AI инженерии.

🍭 И сверху еще скидка 50% по промокоду FIFTY2START до конца дня в честь публикации

✍️ Внутри пакета три курса (смотри второй скрин)

Посмотреть и забрать можно тут 👉 три курса
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21❤‍🔥1👍1
💻 Где запускать модели, если дома нет мощного GPU? #MLSTART

Не у всех есть дома RTX 4090 (и это нормально 😄). Но это вообще не повод откладывать эксперименты с ML и LLM. На старте почти всё можно делать в облаке - быстро, дёшево (иногда бесплатно) и без боли с настройкой окружения.

Вот два варианта, которыми я сам пользовался 👇

🏟 Kaggle Notebooks

Kaggle - это не только соревнования, но и удобная среда для запуска ноутбуков с GPU.

Что здесь хорошего:
- Бесплатный доступ к GPU (обычно T4 / P100, с лимитами по времени)
- Уже настроенное окружение: PyTorch, TensorFlow, Hugging Face - всё из коробки
- Огромное количество публичных ноутбуков - можно смотреть, как другие решают задачи

Отличный вариант, если хочется поучиться ML, попробовать fine-tuning лёгких моделей или поиграться с датасетами и baseline-решениями.

🚀 Google Colab

Google Colab - классика, с которой начинали (и продолжают начинать) очень многие.

Плюсы:
- Бесплатные GPU и TPU (сессионно, с ограничениями)
- Легко подключать Google Drive для данных и моделей
- Огромное количество туториалов и примеров

Если захочется больше стабильности и ресурсов - есть платные тарифы (Colab Pro / Pro+), но на старте бесплатной версии более чем достаточно.

💡 Что важно понимать: лимиты есть везде, сессии могут обрываться, GPU могут быть недоступны. Для обучения огромных моделей этого не хватит - но для обучения небольших моделей, экспериментов и прототипов это вообще не проблема.

Большинство задач на старте - это не "обучить 70B модель", а понять пайплайн и механику. Kaggle и Colab закрывают 80% учебных и экспериментальных задач и позволяют спокойно двигаться дальше.

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2🔥211👍1
🤖 ИИ-ассистент на Avito: как заменить менеджера в пиковые часы

Если думаешь, что ИИ-агенты - это что-то далекое и абстрактное, вот реальный кейс с цифрами от одного из наших студентов. Магазин одежды на Avito с оборотом 3 млн рублей в месяц внедрил ИИ-ассистента для обработки заявок - и результаты впечатляют.

💡 Что такое ИИ-агент?
Это программа, которая может самостоятельно думать, принимать решения и выполнять задачи. В отличие от обычной языковой модели, ИИ-агент имеет доступ к вспомогательным инструментам и способен ими осознанно пользоваться.

В этом кейсе ИИ-агент:
- Читает сообщения клиентов
- Понимает их вопросы (размеры, доставка, цена)
- Ищет нужную информацию в базе из ~500 товаров
- Генерирует ответ на основе данных бизнеса
- Отправляет ответ в Авито

🎯 Задача
Менеджер не успевал обрабатывать 30-40 заявок в час в пиковое время. Если не ответить быстро - клиент уходит. Нужно было освободить менеджера от рутины и взять обработку заявок на автоматизацию.

⚙️ Как это работает
Webhook от Авито → Преобразование сообщения → Загрузка данных из БД → Проверка токена → Фильтр (только от клиентов) → AI генерирует ответ → Отправка обратно в Авито.

Но была проблема: клиент пишет 3 сообщения подряд за 10 секунд - ассистент отвечает 3 раза. Выглядит странно + лишние затраты на токены.

Решение: внедрение Redis, который объединяет все сообщения клиента в течение нескольких секунд в единое сообщение - и ассистент отвечает один раз, но сразу на все вопросы.


📊 Результаты
- Время ответа 5-15 минут -> 1-5 секунд
- 5-10 заявок/час -> 30-40+ заявок/час
- Менеджер: 10ч в день -> ИИ-агент: 24/7
- 50.000₽ в месяц -> 10.000₽ в месяц


За 4 недели тестирования заявки "без ответа" исчезли при сохранении конверсии в оплату. Количество оплат даже немного выросло за счет полной переработки спроса.

🔧 Бонус-фича
Когда клиенту пишут с предложением сотрудничества или нестандартными вопросами - ассистент перенаправляет диалог владельцу через уведомление в Telegram.

⚡️ Человек не убирается полностью из процесса - он просто усиливается автоматизацией. Контроль сохраняется, но пиковые нагрузки теперь не проблема.

😎 Хочешь собирать такие же автоматизации? Приходи к нам на курс.

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥52👍1
🧑‍🎓 GPT Week от Яндекса: как обучают и дообучают GPT #MLSTART

Если хочется разобраться, что реально происходит под капотом больших языковых моделей - от pretrain до fine-tuning - у Яндекса был крутой интенсив GPT Week.

Я сам посмотрел примерно половину. Честно скажу - местами довольно сложно. Но зато там много действительно полезного контента, особенно если уже есть база по ML и нейросетям.

💡Что там разбирают:
- Как обучаются большие языковые модели
- Этапы pretrain и fine-tuning
- С какими ограничениями и компромиссами сталкиваются на практике

📺 Записи всех занятий можно найти в плейлисте.

А если хочется не просто смотреть, а разбираться руками - есть ноутбуки к семинарам:
- Семинар 1
- Семинар 2
- Семинар 4

Ещё есть дайджест интенсива - кратко и по делу.

⚡️ GPT Week - это уже следующий уровень после "вката". Когда хочется понять не только как пользоваться моделями, но и что реально происходит внутри - от обучения до дообучения.

Если какие-то лекции покажутся сложными - это нормально. Даже выборочный просмотр даёт хорошее представление о том, насколько LLM - это инженерно сложные системы.

На этом серия про старт в ML и LLM логично завершается. Надеюсь, она поможет вам быстрее выстроить путь и избежать лишней каши в голове 🙂

Вернуться к оглавлению

👩‍💻 Data Flow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5🔥3💯1