Как заменить ручную модерацию AI-системой и держать защиту контента 24/7?
👋 «КС Авто» развивает автомобильную платформу, Telegram-канал с аудиторией около 200 000 подписчиков и YouTube-канал с аудиторией около 1,5 млн подписчиков.
👨💻 Команде нужно было автоматизировать модерацию спама, фотографий в объявлениях и текстового контента — без зависимости от внешних API и нестабильного локального сервера.
🔁 Для переноса инференса в immers.cloud команда развернула сервер с 3× RTX 4090 и NVMe-хранилищем (Local).
Конфигурацию разделили по задачам:
— распределение AI-задач между 3× RTX 4090 внутри одного сервера;
— параллельный запуск нескольких inference-моделей без потери производительности;
— быстрый запуск и переключение моделей благодаря NVMe;
— стабильная AI-модерация 24/7 под постоянной нагрузкой.
Что это дало бизнесу:
— AI-модерацию без участия человека;
— фильтрацию 100+ спам-профилей ежедневно;
— автоматическую проверку фото и скрытие госномеров;
— замену эквивалента 10–15 штатных модераторов.
📲 В карусели — архитектура решения и результаты после переноса AI-модерации в облако.
💻 Полный разбор кейса — на сайте: immers.cloud
🌳 Хотите запускать AI-инференс без ограничений локальной инфраструктуры? Переносите проекты в облако immers.cloud.
👨💻 Команде нужно было автоматизировать модерацию спама, фотографий в объявлениях и текстового контента — без зависимости от внешних API и нестабильного локального сервера.
🔁 Для переноса инференса в immers.cloud команда развернула сервер с 3× RTX 4090 и NVMe-хранилищем (Local).
Конфигурацию разделили по задачам:
— распределение AI-задач между 3× RTX 4090 внутри одного сервера;
— параллельный запуск нескольких inference-моделей без потери производительности;
— быстрый запуск и переключение моделей благодаря NVMe;
— стабильная AI-модерация 24/7 под постоянной нагрузкой.
Что это дало бизнесу:
— AI-модерацию без участия человека;
— фильтрацию 100+ спам-профилей ежедневно;
— автоматическую проверку фото и скрытие госномеров;
— замену эквивалента 10–15 штатных модераторов.
📲 В карусели — архитектура решения и результаты после переноса AI-модерации в облако.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2 2👍1🏆1
Как заменить растущие расходы на API фиксированным бюджетом?
👋 Компания Affario внедряет искусственный интеллект в бизнес-процессы. Один из ключевых проектов команды — маркетплейс автозапчастей, где магазины-партнеры выгружают товары без строгой структуризации данных.
👨💻 Команде нужно было автоматически категоризировать миллионы объявлений автозапчастей и сохранить стабильную стоимость обработки при быстром росте базы.
До февраля 2026 года классификация работала через OpenAI API. Но когда объем данных начал расти, переменные расходы на токены стали непредсказуемыми. При базе в 3 млн+ объявлений такая модель оплаты перестала быть финансово устойчивой.
🔁 Решением стал переход на инференс в облачной платформе immers.cloud.
Для проекта развернули стек:
— модель Qwen 2.5 для обработки русскоязычных описаний и контекста автозапчастей;
— vLLM для высокопроизводительного инференса;
— облачный GPU-сервер с NVIDIA RTX 3090;
— отдельный сервер с S3-хранилищем для изображений и исходных данных объявлений.
Что это дало бизнесу:
— фиксированные расходы вместо оплаты за каждый токен;
— одинаковую стоимость обработки и для 100 тысяч, и для 3 млн объявлений;
— быстрый запуск модели без сложной настройки инфраструктуры;
— полный контроль над данными внутри собственной среды;
— стабильную работу AI-классификации при росте нагрузки.
📲 В карусели — как Affario перешла с внешнего API на инференс в облаке и зафиксировала бюджет при росте базы объявлений в 10 раз.
➡️ Полный разбор кейса — на сайте
☁️ Если расходы на API растут быстрее, чем проект, переходите на инференс в immers.cloud. GPU-серверы помогают масштабировать AI-решения без переплат за каждый токен.
👨💻 Команде нужно было автоматически категоризировать миллионы объявлений автозапчастей и сохранить стабильную стоимость обработки при быстром росте базы.
До февраля 2026 года классификация работала через OpenAI API. Но когда объем данных начал расти, переменные расходы на токены стали непредсказуемыми. При базе в 3 млн+ объявлений такая модель оплаты перестала быть финансово устойчивой.
🔁 Решением стал переход на инференс в облачной платформе immers.cloud.
Для проекта развернули стек:
— модель Qwen 2.5 для обработки русскоязычных описаний и контекста автозапчастей;
— vLLM для высокопроизводительного инференса;
— облачный GPU-сервер с NVIDIA RTX 3090;
— отдельный сервер с S3-хранилищем для изображений и исходных данных объявлений.
Что это дало бизнесу:
— фиксированные расходы вместо оплаты за каждый токен;
— одинаковую стоимость обработки и для 100 тысяч, и для 3 млн объявлений;
— быстрый запуск модели без сложной настройки инфраструктуры;
— полный контроль над данными внутри собственной среды;
— стабильную работу AI-классификации при росте нагрузки.
📲 В карусели — как Affario перешла с внешнего API на инференс в облаке и зафиксировала бюджет при росте базы объявлений в 10 раз.
➡️ Полный разбор кейса — на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🎉2 2👍1🔥1
Qwen3.6-27B: компактная Dense-модель для агентного кодинга
👋 Qwen3.6-27B — открытая мультимодальная модель семейства Qwen3.6, ориентированная на разработку, работу с длинным контекстом и агентные сценарии.
Что важно:
▪️ Dense-архитектура: у модели 27B параметров, активны все параметры. Здесь нет MoE-маршрутизации, экспертов и разреженного исполнения — это плотная архитектура с предсказуемым поведением при инференсе.
▪️ Длинный контекст: модель поддерживает 262 144 токена нативно и до 1 010 000 токенов через RoPE/YaRN scaling. Это важно для работы с большими репозиториями, документацией и многошаговыми задачами.
▪️ Гибридное внимание: Qwen3.6-27B сочетает Gated DeltaNet и Gated Attention. Такой подход снижает нагрузку на KV-cache при длинном контексте, сохраняя точность.
▪️ Агентный кодинг: модель показывает сильный рост в задачах работы с репозиториями, терминалом и исправлением ошибок.
▪️ Режимы работы: доступны thinking mode для reasoning-задач и non-thinking mode для прямых ответов. Для продакшена можно использовать SGLang, vLLM и KTransformers.
📲 Подробнее — в слайдах.
➡️ Запускайте Qwen3.6-27B в immers.cloud и проверяйте модель на реальных задачах с оплатой за GPU-ресурсы, а не за токены.
Что важно:
▪️ Dense-архитектура: у модели 27B параметров, активны все параметры. Здесь нет MoE-маршрутизации, экспертов и разреженного исполнения — это плотная архитектура с предсказуемым поведением при инференсе.
▪️ Длинный контекст: модель поддерживает 262 144 токена нативно и до 1 010 000 токенов через RoPE/YaRN scaling. Это важно для работы с большими репозиториями, документацией и многошаговыми задачами.
▪️ Гибридное внимание: Qwen3.6-27B сочетает Gated DeltaNet и Gated Attention. Такой подход снижает нагрузку на KV-cache при длинном контексте, сохраняя точность.
▪️ Агентный кодинг: модель показывает сильный рост в задачах работы с репозиториями, терминалом и исправлением ошибок.
▪️ Режимы работы: доступны thinking mode для reasoning-задач и non-thinking mode для прямых ответов. Для продакшена можно использовать SGLang, vLLM и KTransformers.
📲 Подробнее — в слайдах.
➡️ Запускайте Qwen3.6-27B в immers.cloud и проверяйте модель на реальных задачах с оплатой за GPU-ресурсы, а не за токены.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4👏2 2❤1
OpenCode берет часть разработки на себя
👋 Пока одни используют ИИ как чат для подсказок по коду, OpenCode работает иначе:
— анализирует контекст всего проекта, а не только отдельный фрагмент кода;
— может читать, создавать, редактировать и удалять файлы в директории проекта;
— запускает bash-команды, тесты и сборку, чтобы проверять результат;
— поддерживает разные модели через API OpenAI, Google, Anthropic, Ollama, LM Studio и встроенный роутер;
— работает в двух режимах: build для внесения изменений и plan для безопасного анализа без правки файлов.
📲 В карусели показали, как OpenCode отличается от обычных чат-ботов и IDE-плагинов, кому он подходит и как помогает в реальной разработке.
🚀 Для быстрого старта можно развернуть OpenCode через готовый образ в immers.cloud и сразу приступить к работе.
— анализирует контекст всего проекта, а не только отдельный фрагмент кода;
— может читать, создавать, редактировать и удалять файлы в директории проекта;
— запускает bash-команды, тесты и сборку, чтобы проверять результат;
— поддерживает разные модели через API OpenAI, Google, Anthropic, Ollama, LM Studio и встроенный роутер;
— работает в двух режимах: build для внесения изменений и plan для безопасного анализа без правки файлов.
📲 В карусели показали, как OpenCode отличается от обычных чат-ботов и IDE-плагинов, кому он подходит и как помогает в реальной разработке.
🚀 Для быстрого старта можно развернуть OpenCode через готовый образ в immers.cloud и сразу приступить к работе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1👏1 1