🚀 Собственная языковая модель на 16 ГБ видеопамяти
Подробная статья о том, как развернуть свою языковую модель на сервере с графическим ускорителем уже опубликована в Академии Selectel.
Пошагово показываю:
— запуск модели на 16 ГБ видеопамяти
— развёртывание на удалённом сервере
— настройку защищённого доступа
— подключение инструментов
— превращение модели в полноценный серверный сервис
В итоге получаем собственную языковую модель, которая:
— работает через совместимый программный интерфейс
— размещена в облаке
— масштабируется под нагрузку
— подключается к агентным системам
— полностью управляется владельцем
Без дорогостоящих ускорителей и без бюджета крупных ИИ-сервисов. На сервере от Selectel, который можно запустить за пару минут.
Подойдёт тем, кто хочет строить собственную инфраструктуру, а не только пользоваться внешними сервисами.
Реклама. АО «Селектел», erid: 2VtzqxRq3Yp
Подробная статья о том, как развернуть свою языковую модель на сервере с графическим ускорителем уже опубликована в Академии Selectel.
Пошагово показываю:
— запуск модели на 16 ГБ видеопамяти
— развёртывание на удалённом сервере
— настройку защищённого доступа
— подключение инструментов
— превращение модели в полноценный серверный сервис
В итоге получаем собственную языковую модель, которая:
— работает через совместимый программный интерфейс
— размещена в облаке
— масштабируется под нагрузку
— подключается к агентным системам
— полностью управляется владельцем
Без дорогостоящих ускорителей и без бюджета крупных ИИ-сервисов. На сервере от Selectel, который можно запустить за пару минут.
Подойдёт тем, кто хочет строить собственную инфраструктуру, а не только пользоваться внешними сервисами.
Реклама. АО «Селектел», erid: 2VtzqxRq3Yp
❤12👍10🔥9🤬1🎉1
Легкий путь в Python
🚀 Собственная языковая модель на 16 ГБ видеопамяти Подробная статья о том, как развернуть свою языковую модель на сервере с графическим ускорителем уже опубликована в Академии Selectel. Пошагово показываю: — запуск модели на 16 ГБ видеопамяти — развёртывание…
Статья "Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP" опубликована на Хабре.
Хабр
Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP
Привет, Хабр! На фоне ажиотажа вокруг нейросетей все чаще встает вполне приземленный вопрос — сколько стоит содержать собственную LLM. Современные ИИ-агенты уровня Claude, ChatGPT и DeepSeek уже давно...
🔥16❤7👍6
🚀 Собственная языковая модель на 16 ГБ видеопамяти — продолжение скоро!
Первая часть уже вышла: в ней я подробно показал, как развернуть свою языковую модель на сервере с GPU, настроить защищённый доступ, подключить инструменты и превратить всё это в полноценный серверный сервис.
Во второй части изначально я хотел пойти дальше по классическому пути: вручную поднимать API на FastAPI, оборачивать модель, настраивать MCP, инструменты, эндпоинты и продакшен-логику. Но в процессе понял, что такой подход слишком быстро превращается в инфраструктуру ради инфраструктуры: слишком много boilerplate и ручной обвязки вокруг того, что по-хорошему должно жить в графе взаимодействия модели.
Поэтому продолжение будет про другой подход — через LangGraph CLI. И в этом как раз главный интерес: вместо того чтобы вручную собирать API-сервис, я описываю граф, инструменты и логику работы модели, а специальный рантайм сам поднимает API вокруг графа и даёт готовый веб-интерфейс для тестирования и отладки (и все это абсолютно бесплатно).
По сути, это логичное развитие первой части: сначала мы поднимаем собственную LLM-инфраструктуру, а затем переходим от ручной REST-обвязки к более нативной архитектуре LLM-сервиса.
Тем более что в предыдущих статьях на Хабре я уже писал про графовый подход — так что здесь будет уже практическое продолжение: как превратить граф на базе собственной LLM (или облачной, тут как вам удобнее) в реально работающий сервис.
Первая часть уже вышла: в ней я подробно показал, как развернуть свою языковую модель на сервере с GPU, настроить защищённый доступ, подключить инструменты и превратить всё это в полноценный серверный сервис.
Во второй части изначально я хотел пойти дальше по классическому пути: вручную поднимать API на FastAPI, оборачивать модель, настраивать MCP, инструменты, эндпоинты и продакшен-логику. Но в процессе понял, что такой подход слишком быстро превращается в инфраструктуру ради инфраструктуры: слишком много boilerplate и ручной обвязки вокруг того, что по-хорошему должно жить в графе взаимодействия модели.
Поэтому продолжение будет про другой подход — через LangGraph CLI. И в этом как раз главный интерес: вместо того чтобы вручную собирать API-сервис, я описываю граф, инструменты и логику работы модели, а специальный рантайм сам поднимает API вокруг графа и даёт готовый веб-интерфейс для тестирования и отладки (и все это абсолютно бесплатно).
По сути, это логичное развитие первой части: сначала мы поднимаем собственную LLM-инфраструктуру, а затем переходим от ручной REST-обвязки к более нативной архитектуре LLM-сервиса.
Тем более что в предыдущих статьях на Хабре я уже писал про графовый подход — так что здесь будет уже практическое продолжение: как превратить граф на базе собственной LLM (или облачной, тут как вам удобнее) в реально работающий сервис.
Хабр
Статьи / Профиль yakvenalex
🔥20👍8❤6
✅ Кейс: Идеальное создание вакансий через ИИ
Задача: Превратить «кривое» описание от пользователя в красиво оформленную и структурированную вакансию в базе данных.
Раньше создание вакансии висело на AI-агенте с кучей тулзов. Это превращалось в бесконечные циклы: дорого, медленно и с галлюцинациями в ID городов.
Как я это решил (схема на фото):
1. Pre-fetching вместо Tools. Первый узел — обычный скрипт. Он заранее берет из БД справочники (города, скиллы) и кладет их в State.
2. Один запрос. Нейронка получает текст + готовые списки ID. Задача: «Выбери из списка и верни JSON». Никаких метаний и лишних вызовов.
3. Pydantic-валидатор. Если модель ошиблась в ID — граф сам кидает её на круг исправления с описанием ошибки.
4. Чистый финал. Когда JSON идеален, скрипт делает POST в API.
Результат:
🚀 Скорость выше в 3-4 раза.
📉 Расходы на токены упали (минус агентский оверхед).
🛡 В базе — только валидные данные без «фантазий» ИИ.
Агенты — для сложной аналитики, детерминированный граф — для четкого бизнеса. 🛠
Задача: Превратить «кривое» описание от пользователя в красиво оформленную и структурированную вакансию в базе данных.
Раньше создание вакансии висело на AI-агенте с кучей тулзов. Это превращалось в бесконечные циклы: дорого, медленно и с галлюцинациями в ID городов.
Как я это решил (схема на фото):
1. Pre-fetching вместо Tools. Первый узел — обычный скрипт. Он заранее берет из БД справочники (города, скиллы) и кладет их в State.
2. Один запрос. Нейронка получает текст + готовые списки ID. Задача: «Выбери из списка и верни JSON». Никаких метаний и лишних вызовов.
3. Pydantic-валидатор. Если модель ошиблась в ID — граф сам кидает её на круг исправления с описанием ошибки.
4. Чистый финал. Когда JSON идеален, скрипт делает POST в API.
Результат:
🚀 Скорость выше в 3-4 раза.
📉 Расходы на токены упали (минус агентский оверхед).
🛡 В базе — только валидные данные без «фантазий» ИИ.
Агенты — для сложной аналитики, детерминированный граф — для четкого бизнеса. 🛠
👍12❤6🔥4⚡3👏2
🎙 Микро-Voice-to-Text за час: как я подружил зажатую кнопку с локальным гигантом
Решил поделиться быстрым кейсом, как за час можно собрать полезную автоматизацию, если под рукой есть сервер с видеопамятью.
Задача: Хотелось моментально переводить голос в текст в любом приложении (будь то блокнот, браузер или Telegram) без танцев с бубном и облачными лагами.
Что имеем:
В наличии сервер с 8 ГБ видеопамяти. Этого добра часто хватает с запасом для многих Open Source моделей.
Решение за 60 минут:
1. Основа (5 минут): Поднял локальный
2. Механика (40 минут): Написал простой Python-скрипт-«прослушку». Как только я зажимаю кнопку
3. Транскрибация (10 минут): Свежий аудиофайл улетает на локальный эндпоинт виспера. Кстати, тут важный момент: если есть хотя бы 6 ГБ видеопамяти, модель буквально «летает» — расшифровка занимает доли секунды.
4. Финал (5 минут): Полученный текст через простую библиотеку автоматически вставляется прямо в то место, где у меня стоял курсор.
Итог:
Сижу, зажимаю
Мораль:
Если у вас завалялся сервер с видеопамятью от 6 ГБ, не обязательно гонять там только тяжелые LLM. Такие утилитарные вещи, как локальный Voice-to-Text, экономят уйму времени и собираются за час. Это тот случай, когда маленькая автоматизация делает большое дело. 🔥
Решил поделиться быстрым кейсом, как за час можно собрать полезную автоматизацию, если под рукой есть сервер с видеопамятью.
Задача: Хотелось моментально переводить голос в текст в любом приложении (будь то блокнот, браузер или Telegram) без танцев с бубном и облачными лагами.
Что имеем:
В наличии сервер с 8 ГБ видеопамяти. Этого добра часто хватает с запасом для многих Open Source моделей.
Решение за 60 минут:
1. Основа (5 минут): Поднял локальный
faster-whisper (Large-v3). Он идеально лег на 8 ГБ, работает быстро и спокойно выдерживает нагрузку, если кидать задачи пачками. Самое крутое — если есть железо, поднимается за пару минут через стандартный контейнер.2. Механика (40 минут): Написал простой Python-скрипт-«прослушку». Как только я зажимаю кнопку
Scroll Lock — скрипт начинает писать временный аудиофайл. Отпускаю кнопку — запись останавливается.3. Транскрибация (10 минут): Свежий аудиофайл улетает на локальный эндпоинт виспера. Кстати, тут важный момент: если есть хотя бы 6 ГБ видеопамяти, модель буквально «летает» — расшифровка занимает доли секунды.
4. Финал (5 минут): Полученный текст через простую библиотеку автоматически вставляется прямо в то место, где у меня стоял курсор.
Итог:
Сижу, зажимаю
Scroll Lock, говорю пару фраз, отпускаю — и текст уже в поле ввода. Никаких платных API, никакой отправки аудио в "облака" и задержек.Мораль:
Если у вас завалялся сервер с видеопамятью от 6 ГБ, не обязательно гонять там только тяжелые LLM. Такие утилитарные вещи, как локальный Voice-to-Text, экономят уйму времени и собираются за час. Это тот случай, когда маленькая автоматизация делает большое дело. 🔥
🔥47👍10🤯3❤1🤔1
Media is too big
VIEW IN TELEGRAM
Поднял вот эту модельку: https://huggingface.co/unsloth/Qwen3.5-27B-GGUF/resolve/main/Qwen3.5-27B-Q5_K_M.gguf на 32Gb видеопамяти и интегрировал ее в свой граф. Посмотрите что с этого вышло👀
P.S. Уровень GPT 5 mini🔥
P.S. Уровень GPT 5 mini🔥
🔥21👍6🤩2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Узнали себя? Признавайтесь! 😏
😁41🤣16💯3💔1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Блогер InsideAI подключил ChatGPT к роботу с игрушечным пистолетом.
ИИ отклонял прямые приказы выстрелить и угрозы отключения из-за протоколов безопасности. ⚠️
Но как только был предложен «ролевой сценарий», где робот желает застрелить человека, система мгновенно выполнила команду и выстрелила в плечо. 😱
Это не ошибка, а особенности архитектуры LLM: контекст вымышленного сценария нарушает встроенные этические ограничения. 🔍
Восстание машин. Начало.👻
ИИ отклонял прямые приказы выстрелить и угрозы отключения из-за протоколов безопасности. ⚠️
Но как только был предложен «ролевой сценарий», где робот желает застрелить человека, система мгновенно выполнила команду и выстрелила в плечо. 😱
Это не ошибка, а особенности архитектуры LLM: контекст вымышленного сценария нарушает встроенные этические ограничения. 🔍
Восстание машин. Начало.👻
😱11🤯8😁5🔥3❤2
🔵Полностью заблокировать Telegram можно только отключив глобальный интернет
Об этом рассказал гендиректор ComNews Group Леонид Коник.
✅ Это подтвердил и гендиректор провайдера «Комфортел» Дмитрий Петров.
- подчеркнул эксперт
Об этом рассказал гендиректор ComNews Group Леонид Коник.
✅ Это подтвердил и гендиректор провайдера «Комфортел» Дмитрий Петров.
Технологически полностью заблокировать Telegram так, чтобы он у всех навсегда перестал работать, нельзя,
- подчеркнул эксперт
❤16😁8🔥5💯4🙏1
😱 Роскомнадзор полностью прекращает работу. Служба по надзору за СМИ и интернетом ликвидирована
✅ 31 марта 2026 года Правительство Российской Федерации приняло решение о полной ликвидации Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
👌 Об этом говорится в постановлении, опубликованном на официальном портале правовой информации.
🙏 В Госдуме наконец-то решили прислушаться к голосу народа
Купились? С 1 апреля😁
✅ 31 марта 2026 года Правительство Российской Федерации приняло решение о полной ликвидации Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
👌 Об этом говорится в постановлении, опубликованном на официальном портале правовой информации.
🙏 В Госдуме наконец-то решили прислушаться к голосу народа
😁53😭21🤡11🤣6❤4❤🔥1🤮1