immers.cloud | Облако с GPU

🔍 Сравнение DeepSeek/OpenAI по критерию цена/качество

Я Ruslan Dev, амбассадор immers.cloud, и этот пост я подготовил на основе собственного опыта использования моделей OpenAI и DeepSeek V3 в одном приложении.

Я написал достаточно простой агент для автономной обработки текста средствами LLM.

Сразу стоит сказать, что есть открытые бенчмарки, которые показывают, какая из моделей на каких задачах справляется лучше.
Но — при использовании LLM в реальном приложении есть большой нюанс: стоимость генерируемых токенов.

На бенчмарках видно, что DeepSeek V3 и GPT-4o дают очень близкие результаты, и DeepSeek незначительно превосходит в большинстве случаев.
Однако стоимость инференса официального API DeepSeek V3 в 8–10 раз меньше, чем GPT-4o. Она ближе к стоимости GPT-4o-mini — именно последнюю я и использовал для своего агента.
И разница между v3 и mini уже очевидна, особенно для русского языка. GPT-4o-mini малопригодна для генерации сложных текстов на русском, с которыми DeepSeek справляется достаточно хорошо.

Но есть нюанс — для многих прикладных задач LLM необходимо файнтюнить.
И для малого бизнеса файнтюнинг модели уровня DeepSeek — неподъёмная задача:
я показывал развертывание 4bit-кванта этой модели в облаке immers.cloud, и мне понадобилось три видеокарты H100, чтобы выгрузить на GPU лишь половину слоёв модели.

Для файнтюнинга же вам понадобится деплоить несжатые веса в fp8, которые весят около 720 гигабайт.

@ruslandevlive — мысли о современных AI/ML-технологиях

⚡4❤3🔥3👍1

713 views10:05

immers.cloud | Облако с GPU

🌿 С майскими праздниками!

Команда immers.cloud поздравляет вас с наступающими майскими праздниками! Желаем мощного перезаряда, свежего воздуха, сочного шашлыка и чуть-чуть отдохнуть от нейросетей (или наоборот — придумать новую). А если вдохновение придет прямо в разгар отдыха — наши облачные GPU, как всегда, готовы к работе! 💪💻

📅 График работы на майские:
Наша техподдержка в чате, как всегда, на посту 24/7 — без выходных, праздников и перерывов. Мы рядом, чтобы ваши проекты работали стабильно, даже когда вы отдыхаете.

💳 Важно для юр. лиц:
Из-за особенностей работы банков в праздничные дни, платежи могут зачисляться с задержкой.
Рекомендуем пополнить баланс до 30 апреля включительно, чтобы всё работало без пауз и неожиданностей.

Пусть май будет продуктивным... и вкусным!

❤4👍3👏3⚡11

648 views08:02

immers.cloud | Облако с GPU

💻

Что нового в Qwen 3 — гибрид LLM и модели рассуждений

Компания Алибаба выпустила серию языковых моделей Qwen 3. Помимо того, что эта модель преодолела очередные рубежи бенчмарков, включая кодинг и другие сложные задачи, она интересна рядом технических новшеств.

Эти модели могут работать в режиме LRM — выполняя более сложные пошаговые цепочки рассуждений для решения сложных проблем. Или могут отдавать простые ответы быстро, как это делает обычная языковая модель. Таким образом, Qwen 3 представляет собой гибрид LLM и модели рассуждений.

Серия Qwen 3 включает версии от 0.6 до 32 миллиардов параметров, плюс большую модель Qwen3-235B-A22B с архитектурой Mixture-of-Experts, которая превзошла OpenAI o3-mini и Gemini 2.5 Pro на соревнованиях по программированию платформы Codeforces и AIME-бенчмарке.

Как уже было сказано, в серии Qwen 3 Алибаба реализовали MoE-архитектуру для большей эффективности моделей. Эта архитектура позволяет задействовать только часть слоев при инференсе, требуя меньше вычислительных ресурсов. Архитектуру MoE имеют модели Qwen3-30B-A3B и уже упомянутая Qwen3-235B-A22B.

Чтобы запустить модели Qwen 3 на immers.cloud, нужно использовать видеокарты с соответствующим объемом видеопамяти. Веса моделей выложены в форматах fp16 и fp8, кроме того, можно использовать квантизацию — например, bitsandbytes — при запуске модели на одном из популярных серверов, таких как vLLM, чтобы сэкономить видеопамять.

@ruslandevlive — мысли о современных AI/ML-технологиях

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏4😱4❤31

363 views13:39

immers.cloud | Облако с GPU

💻 Экспорт анимации из Blender в Unreal Engine — больной вопрос для многих 3D-художников. Риг ломается, Blend Shapes не работают, сцена не загружается как надо… Знакомо?

Наш амбассадор Даня Грызлов собрал подробную инструкцию, как избежать всех типичных ошибок:

— Как запечь анимацию
— Что сделать с Shape Keys
— Как настроить FBX-экспорт
— И зачем использовать облачные GPU для тяжёлых сцен

🎯 Хотите, чтобы всё заработало с первого раза — читайте статью и сохраняйте чеклист!

Please open Telegram to view this post

VIEW IN TELEGRAM

👏4👍3🔥31

710 views10:04

immers.cloud | Облако с GPU

Сегодня, 9 мая, мы не только чтим память героев, но и прикоснёмся к наследию Победы с помощью современных технологий.

Патриотические образы, вдохновленные историей, можно не просто сохранить, но и воссоздать через генерацию изображений.

💡Попробуй создать свою визуальную историю Победы с помощью нашего образа для генерации: Ubuntu + Stable Diffusion + ComfyUI

Пусть память живёт не только в сердцах, но и в каждом кадре, который мы создаём.

👍5❤3🏆2

540 views09:03

immers.cloud | Облако с GPU

🚀 Мы расширили линейку — теперь еще больше видеокарт NVIDIA H100 на immers.cloud!

Если вы обучаете нейросети или работаете с большими данными — это ваш шанс получить максимум мощности.

👉 Подключайтесь и работайте без ограничений!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥4👏31

366 views11:58

immers.cloud | Облако с GPU

Имеет ли смысл создавать собственный LLM сервер?

Еще недавно, когда приложения, использующие AI, находились на ранней стадии своего развития, большинство разработчиков ограничивались использованием сторонних API — главным образом OpenAI. Исключение составляли те, у кого была возможность развертывания собственной дорогостоящей GPU-инфраструктуры.

Сейчас ситуация изменилась под влиянием двух факторов: появилось больше открытых моделей, способных конкурировать с OpenAI, и возросла доступность GPU в облаке.

У открытых моделей всегда есть альтернатива — самостоятельный деплой весов на LLM-сервер. Наша платформа immers.cloud стремится к тому, чтобы у разработчиков была возможность в полной мере воспользоваться преимуществами этого пути. Подробности — в карусели.

@ruslandevlive — мысли о современных AI/ML-технологиях

👍4🎉3🏆3

418 views10:59

immers.cloud | Облако с GPU

🔥 Квантованная Qwen 3 — теперь вы можете запустить 235B модель всего на двух GPU H100!

Alibaba выпустила оптимизированные версии своих моделей, и теперь даже Qwen3-235B (234 млрд параметров!) работает с 40K контекстом на скорости ~40 токенов/сек — идеально для production.

💡 Листайте карусель выше — наш амбассадор Ruslan Dev рассказывает про форматы квантизации, требования к железу и как запустить модель в immers.cloud!

@ruslandevlive — мысли о современных AI/ML-технологиях

❤4🎉4🏆3🔥1

504 views11:05

About

Blog

Apps

Platform