🚀 Собственная языковая модель на 16 ГБ видеопамяти — продолжение скоро!
Первая часть уже вышла: в ней я подробно показал, как развернуть свою языковую модель на сервере с GPU, настроить защищённый доступ, подключить инструменты и превратить всё это в полноценный серверный сервис.
Во второй части изначально я хотел пойти дальше по классическому пути: вручную поднимать API на FastAPI, оборачивать модель, настраивать MCP, инструменты, эндпоинты и продакшен-логику. Но в процессе понял, что такой подход слишком быстро превращается в инфраструктуру ради инфраструктуры: слишком много boilerplate и ручной обвязки вокруг того, что по-хорошему должно жить в графе взаимодействия модели.
Поэтому продолжение будет про другой подход — через LangGraph CLI. И в этом как раз главный интерес: вместо того чтобы вручную собирать API-сервис, я описываю граф, инструменты и логику работы модели, а специальный рантайм сам поднимает API вокруг графа и даёт готовый веб-интерфейс для тестирования и отладки (и все это абсолютно бесплатно).
По сути, это логичное развитие первой части: сначала мы поднимаем собственную LLM-инфраструктуру, а затем переходим от ручной REST-обвязки к более нативной архитектуре LLM-сервиса.
Тем более что в предыдущих статьях на Хабре я уже писал про графовый подход — так что здесь будет уже практическое продолжение: как превратить граф на базе собственной LLM (или облачной, тут как вам удобнее) в реально работающий сервис.
Первая часть уже вышла: в ней я подробно показал, как развернуть свою языковую модель на сервере с GPU, настроить защищённый доступ, подключить инструменты и превратить всё это в полноценный серверный сервис.
Во второй части изначально я хотел пойти дальше по классическому пути: вручную поднимать API на FastAPI, оборачивать модель, настраивать MCP, инструменты, эндпоинты и продакшен-логику. Но в процессе понял, что такой подход слишком быстро превращается в инфраструктуру ради инфраструктуры: слишком много boilerplate и ручной обвязки вокруг того, что по-хорошему должно жить в графе взаимодействия модели.
Поэтому продолжение будет про другой подход — через LangGraph CLI. И в этом как раз главный интерес: вместо того чтобы вручную собирать API-сервис, я описываю граф, инструменты и логику работы модели, а специальный рантайм сам поднимает API вокруг графа и даёт готовый веб-интерфейс для тестирования и отладки (и все это абсолютно бесплатно).
По сути, это логичное развитие первой части: сначала мы поднимаем собственную LLM-инфраструктуру, а затем переходим от ручной REST-обвязки к более нативной архитектуре LLM-сервиса.
Тем более что в предыдущих статьях на Хабре я уже писал про графовый подход — так что здесь будет уже практическое продолжение: как превратить граф на базе собственной LLM (или облачной, тут как вам удобнее) в реально работающий сервис.
Хабр
Статьи / Профиль yakvenalex
🔥20👍8❤6
✅ Кейс: Идеальное создание вакансий через ИИ
Задача: Превратить «кривое» описание от пользователя в красиво оформленную и структурированную вакансию в базе данных.
Раньше создание вакансии висело на AI-агенте с кучей тулзов. Это превращалось в бесконечные циклы: дорого, медленно и с галлюцинациями в ID городов.
Как я это решил (схема на фото):
1. Pre-fetching вместо Tools. Первый узел — обычный скрипт. Он заранее берет из БД справочники (города, скиллы) и кладет их в State.
2. Один запрос. Нейронка получает текст + готовые списки ID. Задача: «Выбери из списка и верни JSON». Никаких метаний и лишних вызовов.
3. Pydantic-валидатор. Если модель ошиблась в ID — граф сам кидает её на круг исправления с описанием ошибки.
4. Чистый финал. Когда JSON идеален, скрипт делает POST в API.
Результат:
🚀 Скорость выше в 3-4 раза.
📉 Расходы на токены упали (минус агентский оверхед).
🛡 В базе — только валидные данные без «фантазий» ИИ.
Агенты — для сложной аналитики, детерминированный граф — для четкого бизнеса. 🛠
Задача: Превратить «кривое» описание от пользователя в красиво оформленную и структурированную вакансию в базе данных.
Раньше создание вакансии висело на AI-агенте с кучей тулзов. Это превращалось в бесконечные циклы: дорого, медленно и с галлюцинациями в ID городов.
Как я это решил (схема на фото):
1. Pre-fetching вместо Tools. Первый узел — обычный скрипт. Он заранее берет из БД справочники (города, скиллы) и кладет их в State.
2. Один запрос. Нейронка получает текст + готовые списки ID. Задача: «Выбери из списка и верни JSON». Никаких метаний и лишних вызовов.
3. Pydantic-валидатор. Если модель ошиблась в ID — граф сам кидает её на круг исправления с описанием ошибки.
4. Чистый финал. Когда JSON идеален, скрипт делает POST в API.
Результат:
🚀 Скорость выше в 3-4 раза.
📉 Расходы на токены упали (минус агентский оверхед).
🛡 В базе — только валидные данные без «фантазий» ИИ.
Агенты — для сложной аналитики, детерминированный граф — для четкого бизнеса. 🛠
👍12❤6🔥4⚡3👏2
🎙 Микро-Voice-to-Text за час: как я подружил зажатую кнопку с локальным гигантом
Решил поделиться быстрым кейсом, как за час можно собрать полезную автоматизацию, если под рукой есть сервер с видеопамятью.
Задача: Хотелось моментально переводить голос в текст в любом приложении (будь то блокнот, браузер или Telegram) без танцев с бубном и облачными лагами.
Что имеем:
В наличии сервер с 8 ГБ видеопамяти. Этого добра часто хватает с запасом для многих Open Source моделей.
Решение за 60 минут:
1. Основа (5 минут): Поднял локальный
2. Механика (40 минут): Написал простой Python-скрипт-«прослушку». Как только я зажимаю кнопку
3. Транскрибация (10 минут): Свежий аудиофайл улетает на локальный эндпоинт виспера. Кстати, тут важный момент: если есть хотя бы 6 ГБ видеопамяти, модель буквально «летает» — расшифровка занимает доли секунды.
4. Финал (5 минут): Полученный текст через простую библиотеку автоматически вставляется прямо в то место, где у меня стоял курсор.
Итог:
Сижу, зажимаю
Мораль:
Если у вас завалялся сервер с видеопамятью от 6 ГБ, не обязательно гонять там только тяжелые LLM. Такие утилитарные вещи, как локальный Voice-to-Text, экономят уйму времени и собираются за час. Это тот случай, когда маленькая автоматизация делает большое дело. 🔥
Решил поделиться быстрым кейсом, как за час можно собрать полезную автоматизацию, если под рукой есть сервер с видеопамятью.
Задача: Хотелось моментально переводить голос в текст в любом приложении (будь то блокнот, браузер или Telegram) без танцев с бубном и облачными лагами.
Что имеем:
В наличии сервер с 8 ГБ видеопамяти. Этого добра часто хватает с запасом для многих Open Source моделей.
Решение за 60 минут:
1. Основа (5 минут): Поднял локальный
faster-whisper (Large-v3). Он идеально лег на 8 ГБ, работает быстро и спокойно выдерживает нагрузку, если кидать задачи пачками. Самое крутое — если есть железо, поднимается за пару минут через стандартный контейнер.2. Механика (40 минут): Написал простой Python-скрипт-«прослушку». Как только я зажимаю кнопку
Scroll Lock — скрипт начинает писать временный аудиофайл. Отпускаю кнопку — запись останавливается.3. Транскрибация (10 минут): Свежий аудиофайл улетает на локальный эндпоинт виспера. Кстати, тут важный момент: если есть хотя бы 6 ГБ видеопамяти, модель буквально «летает» — расшифровка занимает доли секунды.
4. Финал (5 минут): Полученный текст через простую библиотеку автоматически вставляется прямо в то место, где у меня стоял курсор.
Итог:
Сижу, зажимаю
Scroll Lock, говорю пару фраз, отпускаю — и текст уже в поле ввода. Никаких платных API, никакой отправки аудио в "облака" и задержек.Мораль:
Если у вас завалялся сервер с видеопамятью от 6 ГБ, не обязательно гонять там только тяжелые LLM. Такие утилитарные вещи, как локальный Voice-to-Text, экономят уйму времени и собираются за час. Это тот случай, когда маленькая автоматизация делает большое дело. 🔥
🔥47👍10🤯3❤1🤔1
Media is too big
VIEW IN TELEGRAM
Поднял вот эту модельку: https://huggingface.co/unsloth/Qwen3.5-27B-GGUF/resolve/main/Qwen3.5-27B-Q5_K_M.gguf на 32Gb видеопамяти и интегрировал ее в свой граф. Посмотрите что с этого вышло👀
P.S. Уровень GPT 5 mini🔥
P.S. Уровень GPT 5 mini🔥
🔥21👍6🤩2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Узнали себя? Признавайтесь! 😏
😁41🤣16💯3💔1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Блогер InsideAI подключил ChatGPT к роботу с игрушечным пистолетом.
ИИ отклонял прямые приказы выстрелить и угрозы отключения из-за протоколов безопасности. ⚠️
Но как только был предложен «ролевой сценарий», где робот желает застрелить человека, система мгновенно выполнила команду и выстрелила в плечо. 😱
Это не ошибка, а особенности архитектуры LLM: контекст вымышленного сценария нарушает встроенные этические ограничения. 🔍
Восстание машин. Начало.👻
ИИ отклонял прямые приказы выстрелить и угрозы отключения из-за протоколов безопасности. ⚠️
Но как только был предложен «ролевой сценарий», где робот желает застрелить человека, система мгновенно выполнила команду и выстрелила в плечо. 😱
Это не ошибка, а особенности архитектуры LLM: контекст вымышленного сценария нарушает встроенные этические ограничения. 🔍
Восстание машин. Начало.👻
😱11🤯8😁5🔥3❤2
🔵Полностью заблокировать Telegram можно только отключив глобальный интернет
Об этом рассказал гендиректор ComNews Group Леонид Коник.
✅ Это подтвердил и гендиректор провайдера «Комфортел» Дмитрий Петров.
- подчеркнул эксперт
Об этом рассказал гендиректор ComNews Group Леонид Коник.
✅ Это подтвердил и гендиректор провайдера «Комфортел» Дмитрий Петров.
Технологически полностью заблокировать Telegram так, чтобы он у всех навсегда перестал работать, нельзя,
- подчеркнул эксперт
❤16😁8🔥5💯4🙏1
😱 Роскомнадзор полностью прекращает работу. Служба по надзору за СМИ и интернетом ликвидирована
✅ 31 марта 2026 года Правительство Российской Федерации приняло решение о полной ликвидации Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
👌 Об этом говорится в постановлении, опубликованном на официальном портале правовой информации.
🙏 В Госдуме наконец-то решили прислушаться к голосу народа
Купились? С 1 апреля😁
✅ 31 марта 2026 года Правительство Российской Федерации приняло решение о полной ликвидации Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
👌 Об этом говорится в постановлении, опубликованном на официальном портале правовой информации.
🙏 В Госдуме наконец-то решили прислушаться к голосу народа
😁53😭21🤡11🤣6❤4❤🔥1🤮1
Заждались? 😄
Признаю — вторая часть шла дольше чем планировал. Но черновик готов и сейчас на вычитке. Скоро на Хабре.
Напомню что внутри: берём локальную LLM из первой части и превращаем её в настоящий продукт. Разбираем LangGraph Server — как вокруг графа автоматически поднимается REST API без единой строчки FastAPI. Пишем агентов с реальными инструментами и MCP-серверами. Разбираемся с роутингом и супервизорами. Подключаем LangGraph SDK и оборачиваем всё в свой бэкенд с авторизацией. И деплоим на боевой сервер с доменом и SSL.
Пока ждёте — исходники уже на GitHub:
🔹 LangGraph CLI проект с графами, инструментами и MCP → https://github.com/Yakvenalex/HabrGraphCLI
🔹 FastAPI + LangGraph SDK → https://github.com/Yakvenalex/FastApiGraphSDKHabr
Кто уже смотрит код — вопросы и комментарии велкам 👇
Признаю — вторая часть шла дольше чем планировал. Но черновик готов и сейчас на вычитке. Скоро на Хабре.
Напомню что внутри: берём локальную LLM из первой части и превращаем её в настоящий продукт. Разбираем LangGraph Server — как вокруг графа автоматически поднимается REST API без единой строчки FastAPI. Пишем агентов с реальными инструментами и MCP-серверами. Разбираемся с роутингом и супервизорами. Подключаем LangGraph SDK и оборачиваем всё в свой бэкенд с авторизацией. И деплоим на боевой сервер с доменом и SSL.
Пока ждёте — исходники уже на GitHub:
🔹 LangGraph CLI проект с графами, инструментами и MCP → https://github.com/Yakvenalex/HabrGraphCLI
🔹 FastAPI + LangGraph SDK → https://github.com/Yakvenalex/FastApiGraphSDKHabr
Кто уже смотрит код — вопросы и комментарии велкам 👇
GitHub
GitHub - Yakvenalex/HabrGraphCLI
Contribute to Yakvenalex/HabrGraphCLI development by creating an account on GitHub.
🔥18❤7
Пока вторая часть на вычитке — делюсь кое-чем из реальной жизни 🙂
Недавно одна крупная компания сама вышла на меня с оффером. Мы уже общались, спорили про подходы к AI-внедрению, они видели мои проекты. Потом пригласили на технический созвон.
И знаете что спрашивали? Django, материализованные вьюхи, volume mount.
При этом их текущий AI-стек — n8n и Ollama.
👉 Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни
P.S. Вторая часть проходит финальную вычитку — скоро на Хабре 🔥
Недавно одна крупная компания сама вышла на меня с оффером. Мы уже общались, спорили про подходы к AI-внедрению, они видели мои проекты. Потом пригласили на технический созвон.
И знаете что спрашивали? Django, материализованные вьюхи, volume mount.
При этом их текущий AI-стек — n8n и Ollama.
👉 Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни
P.S. Вторая часть проходит финальную вычитку — скоро на Хабре 🔥
1🔥20👍6❤5
🚀 ИИ-агенты на собственной инфраструктуре: LangGraph Server, LangSmith и SDK 🚀
Вторая часть о построении независимой ИИ-инфраструктуры уже опубликована в Академии Selectel! В материале подробно разбираю, как создавать полноценных ИИ-агентов для продакшн-среды — без зависимости от зарубежных облаков, закрытых API и сторонних SaaS-платформ.
В статье пошагово показал:
— как проектировать ИИ-агентов через графы состояний и управлять их логикой
— как развернуть LangGraph Server для промышленного использования
— как подключать внешние инструменты, API и сервисы через протокол MCP
— как интегрировать агентную систему в Python-бэкенд через SDK
— как выполнять визуальную отладку логики в LangGraph Studio
В результате получается полноценная агентная платформа, которая:
— превращает локальные нейросети в автономного ИИ-агента для решения сложных задач
— умеет работать с интернетом, парсить сайты и взаимодействовать с базами данных
— автоматически сохраняет историю, состояние и контекст диалогов
— масштабируется под нагрузку и легко интегрируется в существующую инфраструктуру
— полностью работает на вашей инфраструктуре и находится под вашим контролем
Все примеры и развёртывание выполняются на собственной серверной инфраструктуре, что особенно важно для корпоративных решений, приватности данных и независимости от внешних поставщиков. Деплой проекта делал на сервере от Selectel, который можно запустить за пару минут.
Материал будет полезен разработчикам, архитекторам и командам, которые хотят строить сложные агентные ИИ-системы и полностью контролировать свои AI-сервисы.
Реклама. АО «Селектел», erid: 2VtzqwQAGUG
Вторая часть о построении независимой ИИ-инфраструктуры уже опубликована в Академии Selectel! В материале подробно разбираю, как создавать полноценных ИИ-агентов для продакшн-среды — без зависимости от зарубежных облаков, закрытых API и сторонних SaaS-платформ.
В статье пошагово показал:
— как проектировать ИИ-агентов через графы состояний и управлять их логикой
— как развернуть LangGraph Server для промышленного использования
— как подключать внешние инструменты, API и сервисы через протокол MCP
— как интегрировать агентную систему в Python-бэкенд через SDK
— как выполнять визуальную отладку логики в LangGraph Studio
В результате получается полноценная агентная платформа, которая:
— превращает локальные нейросети в автономного ИИ-агента для решения сложных задач
— умеет работать с интернетом, парсить сайты и взаимодействовать с базами данных
— автоматически сохраняет историю, состояние и контекст диалогов
— масштабируется под нагрузку и легко интегрируется в существующую инфраструктуру
— полностью работает на вашей инфраструктуре и находится под вашим контролем
Все примеры и развёртывание выполняются на собственной серверной инфраструктуре, что особенно важно для корпоративных решений, приватности данных и независимости от внешних поставщиков. Деплой проекта делал на сервере от Selectel, который можно запустить за пару минут.
Материал будет полезен разработчикам, архитекторам и командам, которые хотят строить сложные агентные ИИ-системы и полностью контролировать свои AI-сервисы.
Реклама. АО «Селектел», erid: 2VtzqwQAGUG
1🔥15👍5❤4😱1