Meta* (*признана экстремистской организацией и запрещена в РФ) представила Llama 4 — две мультимодальные модели, которые бросают вызов закрытым ИИ!
🦙 Llama 4 Maverick и Scout уже на Hugging Face.
🔥 Открытые веса, мультимодальность, поддержка FP8 и контекст побольше, чем у Deepseek.
Наш амбассадор Виталий Кулиев подготовил короткий обзор и объясняет, чем эти модели интересны разработчикам и почему Llama 4 Maverick — почти догнала Gemini 2.5!
📌 Читай карусель и подписывайся на Виталия:
🔗 YouTube
🔗 Telegram
Наш амбассадор Виталий Кулиев подготовил короткий обзор и объясняет, чем эти модели интересны разработчикам и почему Llama 4 Maverick — почти догнала Gemini 2.5!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4👏3 2
Оптимизируйте расходы и скорость работы с функцией смены типа тома в immers.cloud!
Теперь у вас есть возможность использовать Retype — функцию смены типа тома!
💡 Как это поможет?
— Быстрое тестирование: попробуйте разные типы томов (SSD и HDD) без необходимости создавать новые.
— Гибкость в скорости: если HDD оказался слишком медленным, просто переключитесь на SSD.
— Экономия на хранении: используйте SSD для интенсивных задач, а затем переводите данные на HDD для долгосрочного хранения.
Важно знать:
🚫 Машина в статусе Shelved_offloaded не позволяет изменить тип тома.
💱 Для предоплаченных машин доступен только переход с HDD на SSD.
⏳ Процесс смены типа тома занимает время, особенно для больших объемов данных.
Используйте Retype и платите за SSD только тогда, когда они вам действительно нужны!
Теперь у вас есть возможность использовать Retype — функцию смены типа тома!
— Быстрое тестирование: попробуйте разные типы томов (SSD и HDD) без необходимости создавать новые.
— Гибкость в скорости: если HDD оказался слишком медленным, просто переключитесь на SSD.
— Экономия на хранении: используйте SSD для интенсивных задач, а затем переводите данные на HDD для долгосрочного хранения.
Важно знать:
Используйте Retype и платите за SSD только тогда, когда они вам действительно нужны!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4🎉4🏆2👏1
Поделитесь вашими лучшими изображениями и выиграйте нашего фирменного маскота — косатку Иммерсика!
Как участвовать?
🔹 Используйте Flux для генерации крутого изображения, попробуйте создать что-то необычное: киберпанк-город будущего, эпичный фэнтези-пейзаж или даже мемный арт, чем креативнее — тем лучше!
🔹 Опубликуйте результат в комментариях к этому посту.
🔹 Жди голосования — сообщество выберет победителя!
Делитесь своими работами и удивляйте всех возможностями нашего облака.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5😱5🎉4👍1🏆1 1
🧠 Зачем нужен Semantic Chunking для RAG приложений
При построении AI-агентов, работающих с пользовательскими данными, Retrieval-Augmented Generation — это одна из основных технологий наряду с LLM, на которых строится разработка Gen-AI приложений.
Тем более важно понимать, как именно использовать данные в RAG-пайплайнах и от чего зависит эффективность их использования.
📌 Ключевой момент — подготовка данных для загрузки в индекс перед их использованием в RAG-системах.
В библиотеках типа Langchain уже реализованы абстракции, которые делают что-то с данными “под капотом“.
Фактически данные — изначально большие куски текста — разбиваются на куски поменьше, так называемые чанки.
И здесь всё становится сложнее и интереснее:
- Можно разбить текст по переносу строки, если превышен фиксированный лимит символов (так делает CharacterSplitter в Langchain)
- Можно применить чуть более сложный Recursive Chunking
🤔 Но как не потерять изначальный контекст при таком делении?
Для решения этой проблемы в индустрии появился Semantic Chunking и его вариации.
По сути, этот метод вычисляет сходство между векторами разных предложений и объединяет их в один чанк либо, наоборот, разделяет на основе некоторого порога сходства.
Таким образом, не теряются семантические связи при делении текста на чанки, и это очень важный момент для эффективного RAG.
⚙️ Технически Semantic Chunking сложнее, особенно при использовании моделей-эмбеддингов.
Можно:
- Обучить такую модель на наших GPU immers.cloud и собственных данных
- Взять готовую с HuggingFace
- Или воспользоваться API OpenAI
При построении AI-агентов, работающих с пользовательскими данными, Retrieval-Augmented Generation — это одна из основных технологий наряду с LLM, на которых строится разработка Gen-AI приложений.
Тем более важно понимать, как именно использовать данные в RAG-пайплайнах и от чего зависит эффективность их использования.
📌 Ключевой момент — подготовка данных для загрузки в индекс перед их использованием в RAG-системах.
В библиотеках типа Langchain уже реализованы абстракции, которые делают что-то с данными “под капотом“.
Фактически данные — изначально большие куски текста — разбиваются на куски поменьше, так называемые чанки.
И здесь всё становится сложнее и интереснее:
- Можно разбить текст по переносу строки, если превышен фиксированный лимит символов (так делает CharacterSplitter в Langchain)
- Можно применить чуть более сложный Recursive Chunking
🤔 Но как не потерять изначальный контекст при таком делении?
Для решения этой проблемы в индустрии появился Semantic Chunking и его вариации.
По сути, этот метод вычисляет сходство между векторами разных предложений и объединяет их в один чанк либо, наоборот, разделяет на основе некоторого порога сходства.
Таким образом, не теряются семантические связи при делении текста на чанки, и это очень важный момент для эффективного RAG.
⚙️ Технически Semantic Chunking сложнее, особенно при использовании моделей-эмбеддингов.
Можно:
- Обучить такую модель на наших GPU immers.cloud и собственных данных
- Взять готовую с HuggingFace
- Или воспользоваться API OpenAI
@ruslandevlive — мысли о современных AI/ML-технологиях
❤3⚡3🏆3
🔍 Сравнение DeepSeek/OpenAI по критерию цена/качество
Я Ruslan Dev, амбассадор immers.cloud, и этот пост я подготовил на основе собственного опыта использования моделей OpenAI и DeepSeek V3 в одном приложении.
Я написал достаточно простой агент для автономной обработки текста средствами LLM.
Сразу стоит сказать, что есть открытые бенчмарки, которые показывают, какая из моделей на каких задачах справляется лучше.
Но — при использовании LLM в реальном приложении есть большой нюанс: стоимость генерируемых токенов.
На бенчмарках видно, что DeepSeek V3 и GPT-4o дают очень близкие результаты, и DeepSeek незначительно превосходит в большинстве случаев.
Однако стоимость инференса официального API DeepSeek V3 в 8–10 раз меньше, чем GPT-4o. Она ближе к стоимости GPT-4o-mini — именно последнюю я и использовал для своего агента.
И разница между v3 и mini уже очевидна, особенно для русского языка. GPT-4o-mini малопригодна для генерации сложных текстов на русском, с которыми DeepSeek справляется достаточно хорошо.
Но есть нюанс — для многих прикладных задач LLM необходимо файнтюнить.
И для малого бизнеса файнтюнинг модели уровня DeepSeek — неподъёмная задача:
я показывал развертывание 4bit-кванта этой модели в облаке immers.cloud, и мне понадобилось три видеокарты H100, чтобы выгрузить на GPU лишь половину слоёв модели.
Для файнтюнинга же вам понадобится деплоить несжатые веса в fp8, которые весят около 720 гигабайт.
Я Ruslan Dev, амбассадор immers.cloud, и этот пост я подготовил на основе собственного опыта использования моделей OpenAI и DeepSeek V3 в одном приложении.
Я написал достаточно простой агент для автономной обработки текста средствами LLM.
Сразу стоит сказать, что есть открытые бенчмарки, которые показывают, какая из моделей на каких задачах справляется лучше.
Но — при использовании LLM в реальном приложении есть большой нюанс: стоимость генерируемых токенов.
На бенчмарках видно, что DeepSeek V3 и GPT-4o дают очень близкие результаты, и DeepSeek незначительно превосходит в большинстве случаев.
Однако стоимость инференса официального API DeepSeek V3 в 8–10 раз меньше, чем GPT-4o. Она ближе к стоимости GPT-4o-mini — именно последнюю я и использовал для своего агента.
И разница между v3 и mini уже очевидна, особенно для русского языка. GPT-4o-mini малопригодна для генерации сложных текстов на русском, с которыми DeepSeek справляется достаточно хорошо.
Но есть нюанс — для многих прикладных задач LLM необходимо файнтюнить.
И для малого бизнеса файнтюнинг модели уровня DeepSeek — неподъёмная задача:
я показывал развертывание 4bit-кванта этой модели в облаке immers.cloud, и мне понадобилось три видеокарты H100, чтобы выгрузить на GPU лишь половину слоёв модели.
Для файнтюнинга же вам понадобится деплоить несжатые веса в fp8, которые весят около 720 гигабайт.
@ruslandevlive — мысли о современных AI/ML-технологиях
⚡4❤3🔥3👍1
🌿 С майскими праздниками!
Команда immers.cloud поздравляет вас с наступающими майскими праздниками! Желаем мощного перезаряда, свежего воздуха, сочного шашлыка и чуть-чуть отдохнуть от нейросетей (или наоборот — придумать новую). А если вдохновение придет прямо в разгар отдыха — наши облачные GPU, как всегда, готовы к работе! 💪💻
📅 График работы на майские:
Наша техподдержка в чате, как всегда, на посту 24/7 — без выходных, праздников и перерывов. Мы рядом, чтобы ваши проекты работали стабильно, даже когда вы отдыхаете.
💳 Важно для юр. лиц:
Из-за особенностей работы банков в праздничные дни, платежи могут зачисляться с задержкой.
Рекомендуем пополнить баланс до 30 апреля включительно, чтобы всё работало без пауз и неожиданностей.
Пусть май будет продуктивным... и вкусным!
Команда immers.cloud поздравляет вас с наступающими майскими праздниками! Желаем мощного перезаряда, свежего воздуха, сочного шашлыка и чуть-чуть отдохнуть от нейросетей (или наоборот — придумать новую). А если вдохновение придет прямо в разгар отдыха — наши облачные GPU, как всегда, готовы к работе! 💪💻
📅 График работы на майские:
Наша техподдержка в чате, как всегда, на посту 24/7 — без выходных, праздников и перерывов. Мы рядом, чтобы ваши проекты работали стабильно, даже когда вы отдыхаете.
💳 Важно для юр. лиц:
Из-за особенностей работы банков в праздничные дни, платежи могут зачисляться с задержкой.
Рекомендуем пополнить баланс до 30 апреля включительно, чтобы всё работало без пауз и неожиданностей.
Пусть май будет продуктивным... и вкусным!
❤4👍3👏3⚡1 1
Компания Алибаба выпустила серию языковых моделей Qwen 3. Помимо того, что эта модель преодолела очередные рубежи бенчмарков, включая кодинг и другие сложные задачи, она интересна рядом технических новшеств.
Эти модели могут работать в режиме LRM — выполняя более сложные пошаговые цепочки рассуждений для решения сложных проблем. Или могут отдавать простые ответы быстро, как это делает обычная языковая модель. Таким образом, Qwen 3 представляет собой гибрид LLM и модели рассуждений.
Серия Qwen 3 включает версии от 0.6 до 32 миллиардов параметров, плюс большую модель Qwen3-235B-A22B с архитектурой Mixture-of-Experts, которая превзошла OpenAI o3-mini и Gemini 2.5 Pro на соревнованиях по программированию платформы Codeforces и AIME-бенчмарке.
Как уже было сказано, в серии Qwen 3 Алибаба реализовали MoE-архитектуру для большей эффективности моделей. Эта архитектура позволяет задействовать только часть слоев при инференсе, требуя меньше вычислительных ресурсов. Архитектуру MoE имеют модели Qwen3-30B-A3B и уже упомянутая Qwen3-235B-A22B.
Чтобы запустить модели Qwen 3 на immers.cloud, нужно использовать видеокарты с соответствующим объемом видеопамяти. Веса моделей выложены в форматах fp16 и fp8, кроме того, можно использовать квантизацию — например, bitsandbytes — при запуске модели на одном из популярных серверов, таких как vLLM, чтобы сэкономить видеопамять.
@ruslandevlive — мысли о современных AI/ML-технологиях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4😱4❤3 1
Наш амбассадор Даня Грызлов собрал подробную инструкцию, как избежать всех типичных ошибок:
— Как запечь анимацию
— Что сделать с Shape Keys
— Как настроить FBX-экспорт
— И зачем использовать облачные GPU для тяжёлых сцен
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4👍3🔥3 1
Сегодня, 9 мая, мы не только чтим память героев, но и прикоснёмся к наследию Победы с помощью современных технологий.
Патриотические образы, вдохновленные историей, можно не просто сохранить, но и воссоздать через генерацию изображений.
💡Попробуй создать свою визуальную историю Победы с помощью нашего образа для генерации: Ubuntu + Stable Diffusion + ComfyUI
Пусть память живёт не только в сердцах, но и в каждом кадре, который мы создаём.
Патриотические образы, вдохновленные историей, можно не просто сохранить, но и воссоздать через генерацию изображений.
💡Попробуй создать свою визуальную историю Победы с помощью нашего образа для генерации: Ubuntu + Stable Diffusion + ComfyUI
Пусть память живёт не только в сердцах, но и в каждом кадре, который мы создаём.
👍5❤3🏆2
Если вы обучаете нейросети или работаете с большими данными — это ваш шанс получить максимум мощности.
👉 Подключайтесь и работайте без ограничений!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4👏3 1
Имеет ли смысл создавать собственный LLM сервер?
Еще недавно, когда приложения, использующие AI, находились на ранней стадии своего развития, большинство разработчиков ограничивались использованием сторонних API — главным образом OpenAI. Исключение составляли те, у кого была возможность развертывания собственной дорогостоящей GPU-инфраструктуры.
Сейчас ситуация изменилась под влиянием двух факторов: появилось больше открытых моделей, способных конкурировать с OpenAI, и возросла доступность GPU в облаке.
У открытых моделей всегда есть альтернатива — самостоятельный деплой весов на LLM-сервер. Наша платформа immers.cloud стремится к тому, чтобы у разработчиков была возможность в полной мере воспользоваться преимуществами этого пути. Подробности — в карусели.
@ruslandevlive — мысли о современных AI/ML-технологиях
Еще недавно, когда приложения, использующие AI, находились на ранней стадии своего развития, большинство разработчиков ограничивались использованием сторонних API — главным образом OpenAI. Исключение составляли те, у кого была возможность развертывания собственной дорогостоящей GPU-инфраструктуры.
Сейчас ситуация изменилась под влиянием двух факторов: появилось больше открытых моделей, способных конкурировать с OpenAI, и возросла доступность GPU в облаке.
У открытых моделей всегда есть альтернатива — самостоятельный деплой весов на LLM-сервер. Наша платформа immers.cloud стремится к тому, чтобы у разработчиков была возможность в полной мере воспользоваться преимуществами этого пути. Подробности — в карусели.
@ruslandevlive — мысли о современных AI/ML-технологиях
👍4🎉3🏆3