DeepSeek V4: общий обзор и первое впечатление
👋 DeepSeek-AI представила новую LLM DeepSeek-V4-Pro: 1.6 трлн параметров (49B активных), MoE с ~384 экспертами на слой, контекст до 1M токенов. Также выпущена версия Flash на 284B параметров.
📲 Листайте карусель, чтобы увидеть все ключевые детали.
🚀 Вы уже можете протестировать эти модели в нашем облаке на доступных конфигурациях с видеокартами A100/H200:
➡️ DeepSeek-V4-Pro
➡️ DeepSeek-V4-Flash
#ИИ_модели
Пост подготовил наш амбассадор Виталий Кулиев — специалист в области современных AI/ML‑технологий.
📲 Листайте карусель, чтобы увидеть все ключевые детали.
🚀 Вы уже можете протестировать эти модели в нашем облаке на доступных конфигурациях с видеокартами A100/H200:
➡️ DeepSeek-V4-Pro
➡️ DeepSeek-V4-Flash
#ИИ_модели
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥2 1
DeepSeek-V4-Pro: что еще важно знать
👋 В каталоге immers.cloud доступна DeepSeek-V4-Pro — крупная открытая MoE-модель с 1,6 трлн параметров, 49 млрд активных параметров на токен и контекстным окном до 1 048 576 токенов.
⚙️ Ключевая особенность модели — гибридная архитектура внимания, которая снижает вычислительную стоимость работы со сверхдлинным контекстом.
Что важно:
▪️ Гибридное внимание: в CSA-слоях модель сжимает KV-кэш и выбирает релевантные блоки истории через DSA-индексатор, а в HCA-слоях использует сильную компрессию 1:128, чтобы выполнять глобальное внимание по длинной истории.
▪️ Локальная точность: параллельно работает Sliding Window — механизм локального скользящего окна. Он без сжатия обрабатывает ближайшие токены и помогает модели сохранять точную связь с текущим фрагментом контекста.
▪️ Обучающий стек: модель предварительно обучена на более чем 32 трлн токенов с оптимизатором Muon, а также использует mHC — Manifold-Constrained Hyper-Connections.
▪️ Режимы работы: доступны Non-think, Think High и Think Max — от быстрых ответов до более глубокого логического анализа для сложных задач.
📲 Подробнее в слайдах.
🚀 Запускайте DeepSeek-V4-Pro через каталог моделей immers.cloud для задач со сверхдлинным контекстом: документов, кода, исследовательских материалов и агентных workflow.
➡️ DeepSeek-V4-Pro
➡️ DeepSeek-V4-Flash
#ИИ_модели
⚙️ Ключевая особенность модели — гибридная архитектура внимания, которая снижает вычислительную стоимость работы со сверхдлинным контекстом.
Что важно:
▪️ Гибридное внимание: в CSA-слоях модель сжимает KV-кэш и выбирает релевантные блоки истории через DSA-индексатор, а в HCA-слоях использует сильную компрессию 1:128, чтобы выполнять глобальное внимание по длинной истории.
▪️ Локальная точность: параллельно работает Sliding Window — механизм локального скользящего окна. Он без сжатия обрабатывает ближайшие токены и помогает модели сохранять точную связь с текущим фрагментом контекста.
▪️ Обучающий стек: модель предварительно обучена на более чем 32 трлн токенов с оптимизатором Muon, а также использует mHC — Manifold-Constrained Hyper-Connections.
▪️ Режимы работы: доступны Non-think, Think High и Think Max — от быстрых ответов до более глубокого логического анализа для сложных задач.
📲 Подробнее в слайдах.
➡️ DeepSeek-V4-Pro
➡️ DeepSeek-V4-Flash
#ИИ_модели
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3⚡2👍2🔥2 1
Как заменить ручную модерацию AI-системой и держать защиту контента 24/7?
👋 «КС Авто» развивает автомобильную платформу, Telegram-канал с аудиторией около 200 000 подписчиков и YouTube-канал с аудиторией около 1,5 млн подписчиков.
👨💻 Команде нужно было автоматизировать модерацию спама, фотографий в объявлениях и текстового контента — без зависимости от внешних API и нестабильного локального сервера.
🔁 Для переноса инференса в immers.cloud команда развернула сервер с 3× RTX 4090 и NVMe-хранилищем (Local).
Конфигурацию разделили по задачам:
— распределение AI-задач между 3× RTX 4090 внутри одного сервера;
— параллельный запуск нескольких inference-моделей без потери производительности;
— быстрый запуск и переключение моделей благодаря NVMe;
— стабильная AI-модерация 24/7 под постоянной нагрузкой.
Что это дало бизнесу:
— AI-модерацию без участия человека;
— фильтрацию 100+ спам-профилей ежедневно;
— автоматическую проверку фото и скрытие госномеров;
— замену эквивалента 10–15 штатных модераторов.
📲 В карусели — архитектура решения и результаты после переноса AI-модерации в облако.
💻 Полный разбор кейса — на сайте: immers.cloud
🌳 Хотите запускать AI-инференс без ограничений локальной инфраструктуры? Переносите проекты в облако immers.cloud.
👨💻 Команде нужно было автоматизировать модерацию спама, фотографий в объявлениях и текстового контента — без зависимости от внешних API и нестабильного локального сервера.
🔁 Для переноса инференса в immers.cloud команда развернула сервер с 3× RTX 4090 и NVMe-хранилищем (Local).
Конфигурацию разделили по задачам:
— распределение AI-задач между 3× RTX 4090 внутри одного сервера;
— параллельный запуск нескольких inference-моделей без потери производительности;
— быстрый запуск и переключение моделей благодаря NVMe;
— стабильная AI-модерация 24/7 под постоянной нагрузкой.
Что это дало бизнесу:
— AI-модерацию без участия человека;
— фильтрацию 100+ спам-профилей ежедневно;
— автоматическую проверку фото и скрытие госномеров;
— замену эквивалента 10–15 штатных модераторов.
📲 В карусели — архитектура решения и результаты после переноса AI-модерации в облако.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2 2👍1🏆1
Как заменить растущие расходы на API фиксированным бюджетом?
👋 Компания Affario внедряет искусственный интеллект в бизнес-процессы. Один из ключевых проектов команды — маркетплейс автозапчастей, где магазины-партнеры выгружают товары без строгой структуризации данных.
👨💻 Команде нужно было автоматически категоризировать миллионы объявлений автозапчастей и сохранить стабильную стоимость обработки при быстром росте базы.
До февраля 2026 года классификация работала через OpenAI API. Но когда объем данных начал расти, переменные расходы на токены стали непредсказуемыми. При базе в 3 млн+ объявлений такая модель оплаты перестала быть финансово устойчивой.
🔁 Решением стал переход на инференс в облачной платформе immers.cloud.
Для проекта развернули стек:
— модель Qwen 2.5 для обработки русскоязычных описаний и контекста автозапчастей;
— vLLM для высокопроизводительного инференса;
— облачный GPU-сервер с NVIDIA RTX 3090;
— отдельный сервер с S3-хранилищем для изображений и исходных данных объявлений.
Что это дало бизнесу:
— фиксированные расходы вместо оплаты за каждый токен;
— одинаковую стоимость обработки и для 100 тысяч, и для 3 млн объявлений;
— быстрый запуск модели без сложной настройки инфраструктуры;
— полный контроль над данными внутри собственной среды;
— стабильную работу AI-классификации при росте нагрузки.
📲 В карусели — как Affario перешла с внешнего API на инференс в облаке и зафиксировала бюджет при росте базы объявлений в 10 раз.
➡️ Полный разбор кейса — на сайте
☁️ Если расходы на API растут быстрее, чем проект, переходите на инференс в immers.cloud. GPU-серверы помогают масштабировать AI-решения без переплат за каждый токен.
👨💻 Команде нужно было автоматически категоризировать миллионы объявлений автозапчастей и сохранить стабильную стоимость обработки при быстром росте базы.
До февраля 2026 года классификация работала через OpenAI API. Но когда объем данных начал расти, переменные расходы на токены стали непредсказуемыми. При базе в 3 млн+ объявлений такая модель оплаты перестала быть финансово устойчивой.
🔁 Решением стал переход на инференс в облачной платформе immers.cloud.
Для проекта развернули стек:
— модель Qwen 2.5 для обработки русскоязычных описаний и контекста автозапчастей;
— vLLM для высокопроизводительного инференса;
— облачный GPU-сервер с NVIDIA RTX 3090;
— отдельный сервер с S3-хранилищем для изображений и исходных данных объявлений.
Что это дало бизнесу:
— фиксированные расходы вместо оплаты за каждый токен;
— одинаковую стоимость обработки и для 100 тысяч, и для 3 млн объявлений;
— быстрый запуск модели без сложной настройки инфраструктуры;
— полный контроль над данными внутри собственной среды;
— стабильную работу AI-классификации при росте нагрузки.
📲 В карусели — как Affario перешла с внешнего API на инференс в облаке и зафиксировала бюджет при росте базы объявлений в 10 раз.
➡️ Полный разбор кейса — на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🎉2 2👍1🔥1