🎨 FLUX.2 Small Decoder: декодер ускорили в 1.4 раза, а вы и не заметите разницы
Black Forest Labs выкатили новый компактный декодер для FLUX.2.
Суть простая: это drop-in замена стандартного декодера, которая работает примерно в 1.4 раза быстрее и при этом потребляет заметно меньше VRAM.
И никаких плясок с интеграцией. Декодер подключается к существующему пайплайну FLUX.2 из коробки.
Поменял компонент, всё работает.
Особенно это актуально для real-time сценариев и генерации в высоком разрешении, где каждая миллисекунда на счету.
По бенчмаркам, например, декодирование ускоряется с 91.6 мс до 69.4 мс.
Лицензия Apache 2.0, веса уже на HuggingFace. Для тех, кто гоняет FLUX в продакшене или строит на нём что-то интерактивное, обновление практически бесшовное и сразу дает ощутимый прирост.
https://huggingface.co/black-forest-labs/FLUX.2-small-decoder
@ai_machinelearning_big_data
#FLUX
Black Forest Labs выкатили новый компактный декодер для FLUX.2.
Суть простая: это drop-in замена стандартного декодера, которая работает примерно в 1.4 раза быстрее и при этом потребляет заметно меньше VRAM.
И никаких плясок с интеграцией. Декодер подключается к существующему пайплайну FLUX.2 из коробки.
Поменял компонент, всё работает.
Особенно это актуально для real-time сценариев и генерации в высоком разрешении, где каждая миллисекунда на счету.
По бенчмаркам, например, декодирование ускоряется с 91.6 мс до 69.4 мс.
Лицензия Apache 2.0, веса уже на HuggingFace. Для тех, кто гоняет FLUX в продакшене или строит на нём что-то интерактивное, обновление практически бесшовное и сразу дает ощутимый прирост.
https://huggingface.co/black-forest-labs/FLUX.2-small-decoder
@ai_machinelearning_big_data
#FLUX
👍94🔥20🎉9❤8👏7👌3🙏2💯2🤝1
Об этом сообщил Сэм Альтман в сети Х.
В честь достижения этой отметки лимиты использования Codex будут сброшены.
Так будет каждый раз при достижении очередного миллиона, вплоть до 10 миллионов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤86🎉37👍33🔥13👏5🐳4🤬1
🚀 Qwen 3.6-Plus забрал все три первых места на OpenRouter. Одновременно.
Alibaba выкатили новую модель, и она сразу заняла #1 в трех рейтингах OpenRouter: Daily, Weekly и Trending. Такого там раньше никто не делал.
Модель уже вышла из триала и доступна в проде. По первым отзывам: латенси ниже, рассуждения на уровне топовых моделей, а цена за токен заметно приятнее конкурентов.
Доступна через Qwen Cloud, Alibaba Cloud Model Studio, OpenRouter и Fireworks AI. Из коробки интегрируется с OpenClaw, Kilo Code, Cline, opencode и Qoder.
Для тех, кто сейчас выбирает модель под продакшен, есть смысл погонять на своих задачах.
Достижения на OpenRouter звучат красиво, но синтетические бенчмарки и реальные пайплайны - вещи разные.
Интересно посмотреть, как она поведет себя на длинных контекстах и сложных мультиэтапных цепочках.
openrouter.ai/qwen/qwen3.6-plus
fireworks.ai/models/fireworks/qwen3p6-plus
@ai_machinelearning_big_data
#qwen
Alibaba выкатили новую модель, и она сразу заняла #1 в трех рейтингах OpenRouter: Daily, Weekly и Trending. Такого там раньше никто не делал.
Модель уже вышла из триала и доступна в проде. По первым отзывам: латенси ниже, рассуждения на уровне топовых моделей, а цена за токен заметно приятнее конкурентов.
Доступна через Qwen Cloud, Alibaba Cloud Model Studio, OpenRouter и Fireworks AI. Из коробки интегрируется с OpenClaw, Kilo Code, Cline, opencode и Qoder.
Для тех, кто сейчас выбирает модель под продакшен, есть смысл погонять на своих задачах.
Достижения на OpenRouter звучат красиво, но синтетические бенчмарки и реальные пайплайны - вещи разные.
Интересно посмотреть, как она поведет себя на длинных контекстах и сложных мультиэтапных цепочках.
openrouter.ai/qwen/qwen3.6-plus
fireworks.ai/models/fireworks/qwen3p6-plus
@ai_machinelearning_big_data
#qwen
❤52🔥39👨💻29🎉13💯9👍4👀4🤬1
Институт Аллена представил модель WildDet3D, которая по одному изображению строит 3D-рамки объектов: оценивает их положение, размер и ориентацию в метрических координатах.
Модель принимает сразу несколько типов промптов: текстовый запрос, клик по точке или готовый 2D-бокс от внешнего детектора.
2D-детектор построен на SAM3 и обрабатывает все типы запросов.
Геометрическая ветка использует энкодер DINOv2 с обучаемым декодером глубины, учитывающим геометрию обзора: направления лучей камеры зашиваются через сферические гармоники, что снимает необходимость в отдельной калибровке.
Третий компонент, 3D-head, объединяет через кросс-внимание 2D-детекции с признаками глубины и поднимает их в полноценные 3D-боксы.
Если на инференсе доступны данные с LiDAR, ToF или стереокамеры, они подмешиваются в ту же геометрическую ветку без переобучения.
На бенчмарке Omni3D модель показывает 34,2 AP с текстовыми промптами (это +5,8 пункта к прежнему лидеру 3D-MOOD).
На zero-shot переносе на Argoverse 2 WildDet3D практически удваивает прежний результат: 40,3 ODS против 23,8.
На редких категориях из собственного бенчмарка WildDet3D-Bench успехи, разумеется, еще лучше - 47,4 AP против 2,4 у 3D-MOOD.
Оно использует видеопоток с камеры iPhone и данные LiDAR-сенсора, чтобы в реальном времени отрисовывать 3D-боксы поверх сцены как AR-оверлей.
Это наглядная демонстрация того, как монокулярная модель усиливается, когда устройство умеет отдавать дополнительный сигнал глубины.
Более 1 млн. изображений и 3,7 млн. верифицированных 3D-аннотаций, охватывающих свыше 13 тыс. категорий объектов. По сценам распределение получилось такое: 52% помещений, 32% городской среды и 15% природы.
Он собран на основе 2D-наборов (COCO, LVIS, Objects365, V3Det): кандидаты в 3D-боксы генерировались 5 независимыми методами оценки геометрии, затем фильтровались, проверялись VLM и дополнительно отбирались людьми.
@ai_machinelearning_big_data
#AI #ML #CV #Detection #WildDet3D #Ai2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩78👏30👍20🔥11❤10🎉9🥰3
Media is too big
VIEW IN TELEGRAM
Стартовала публичная бета набора API для создания и запуска автономных ИИ-агентов. Сервис берет на себя всю бэкенд-рутину: песочницы, состояния сессий, контроль доступа и оркестрацию.
Claude Managed Agents поддерживает долгие автономные сессии: агенты работают часами, сохраняя контекст и прогресс даже при обрывах связи. Доступна и мультиагентная координация - главная модель запускает подчиненных агентов для параллельных задач. Ключевая фича - самооценка: алгоритм итеративно дорабатывает результат до соответствия критериям.
Тарификация: стандартная оплата за токены плюс $0.08 за час активного рантайма. Развернуть агентов можно через веб-консоль Claude, CLI или Claude Code.
claude.com
Muse Spark - первая мультимодальная модель из семейства Avocado, созданная в Superintelligence Lab. Доступ открыт через веб-сайт и фирменное приложение, для разработчиков запущено закрытое тестирование API.
Архитектура поддерживает визуальную цепочку рассуждений, использование внешних инструментов и оркестрацию агентов. Фишка релиза - режим Contemplating Mode: несколько ИИ-агентов параллельно анализируют сложную задачу.
По независимым тестам модель держится в топ-5, уступая лишь GPT-5.4 и Gemini 3.1 Pro.
Создатели отчитались о высоких результатах в визуальных STEM-задачах и медицинской аналитике, но признают отставание в коде и долгих многоэтапных сценариях.
reuters.com
Продукт ориентирован на бизнес, которому нужны консистентные генерации в едином визуальном стиле. В основе - инструмент Brand Central, позволяющий дообучать модели на дизайне компании: корпоративные цвета, композиция, стилистика фото, правила размещения логотипов.
Технически Brand Studio - хаб-оркестратор. Умная маршрутизация подбирает оптимальную модель под каждый промпт, переключаясь между Stable Diffusion и Nano Banana или Seedream. Для сложных задач есть Producer Mode: агент сам разбивает ТЗ на пошаговый план с возможностью ручной корректировки.
Сервис заточен под энтерпрайз: ролевой доступ, единый вход, совместная работа с макетами. Базовая подписка - $50 в месяц, на триале дают 1000 кредитов.
stability.ai
Cloudflare ускоряет переход на постквантовую криптографию и планирует полностью защитить свою инфраструктуру, включая механизмы аутентификации, уже к 2029 году.
Сокращение сроков вызвано недавними исследованиями Google и Oratomic. Последние доказали, что момент, когда вычислительные системы смогут ломать современные шифры, наступит не в 2035-м, а раньше.
Cloudflare предупреждает, что добавления PQ-алгоритмов мало, для защиты от даунгрейд-атак придется полностью отказаться от уязвимых протоколов, а ротация скомпрометированных секретов займет годы.
cloudflare.com
Стартап Oumi провел независимое тестирование Google AI Overviews по бенчмарку SimpleQA. Переход поисковика на Gemini 3 поднял общую точность ответов с 85% до 91%. Но качество указания источников парадоксальным образом ухудшилось.
Доля ответов, где информация верна, но ссылки ее не подтверждают выросла с 37% до 56%. Система регулярно опирается на посты в соцсетях, игнорируя более авторитетные ресурсы.
Кроме того, поисковый ИИ уязвим к SEO-манипуляциям: алгоритм охотно подхватывает фейковые факты из оптимизированных блогов и выдает их за истину в первой строке выдачи. В итоге, несмотря на рост точности, проблема некорректного связывания данных и источников делает верификацию ответов крайне сложной.
nytimes.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤58🤓50👍21🤔17🔥6👏4👌2
This media is not supported in your browser
VIEW IN TELEGRAM
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
😁147🤩37❤16🔥15👍12👏4🤣2
🚨 Почему ИИ в России упирается не в модели, а в инфраструктуру
На Data Fusion прозвучал довольно трезвый тезис. Основные ограничения сейчас не в алгоритмах и не в кадрах.
Упираемся в железо и экономику.
ЦОДы стоят дорого. Доступ к мощным чипам ограничен. Такие вещи сложно тянуть в одиночку даже крупным компаниям.
Плюс экономика проектов. Большинство ИИ-решений требует серьёзных вложений и долго выходит в плюс. Внутри бизнеса такие инициативы часто проигрывают более быстрым по окупаемости направлениям.
В итоге возникает разрыв. Технологии есть, спрос есть, но масштабирование тормозится на уровне инфраструктуры и инвестиций.
Обсуждают стандартные инструменты ускорения. Субсидии, налоговые льготы, поддержка инфраструктурных проектов.
Смысл простой. Чтобы ИИ стал массовой технологией, а не точечными кейсами, нужна среда, где такие проекты можно запускать и доводить до продакшена без чрезмерных рисков.
По факту вопрос сейчас не в том, можем ли делать ИИ. Вопрос в том, как быстро это можно масштабировать.
На Data Fusion прозвучал довольно трезвый тезис. Основные ограничения сейчас не в алгоритмах и не в кадрах.
Упираемся в железо и экономику.
ЦОДы стоят дорого. Доступ к мощным чипам ограничен. Такие вещи сложно тянуть в одиночку даже крупным компаниям.
Плюс экономика проектов. Большинство ИИ-решений требует серьёзных вложений и долго выходит в плюс. Внутри бизнеса такие инициативы часто проигрывают более быстрым по окупаемости направлениям.
В итоге возникает разрыв. Технологии есть, спрос есть, но масштабирование тормозится на уровне инфраструктуры и инвестиций.
Обсуждают стандартные инструменты ускорения. Субсидии, налоговые льготы, поддержка инфраструктурных проектов.
Смысл простой. Чтобы ИИ стал массовой технологией, а не точечными кейсами, нужна среда, где такие проекты можно запускать и доводить до продакшена без чрезмерных рисков.
По факту вопрос сейчас не в том, можем ли делать ИИ. Вопрос в том, как быстро это можно масштабировать.
😁81🤔55👍28❤11👏9😢3🥰2
Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео.
Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску.
Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов.
Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков.
Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков.
Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам).
GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных.
По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга.
При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ.
В репозитории доступны:
Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео.
Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba.
@ai_machinelearning_big_data
#AI #ML #RAG #VRAG #TongyiLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78❤34🤓34👏13🔥11🤔10
История с завирусившимся в сети проектом badclaude получила продолжение.
BadClaude добавляет поверх интерфейса Claude анимацию кнута: при нажатии он отправляет команду прерывания и просит модель отвечать быстрее, сопровождая это оскорбительными сообщениями в адрес ИИ.
Автор проекта опубликовал в сети Х скан письма от Антропик, в котором компания требует удаления всех упоминаний Claude и Anthropic из репозитория проекта до 14 апреля.
Твит подхватили крупные СМИ: Yahoo Tech и MSN написали про "серьезные этические проблемы из-за злоупотребления неймингом".
Тем временем, создатель badclaude добавил в репозитории проекта roadmap, в котором абьюз от Anthropic является вторым этапом после релиза.
В планах проекта: криптомайнер, логи о том, сколько раз вы хлестали Клода кнутом и обновленная физика кнута.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣44🤔41❤30👍10🔥10🤬9🤨2
На Stepik вышел курс: Vibecoding — Claude Code, Codex, Cursor и coding agents в 2026.
Хотите работать с Claude Code, Codex и Cursor так, чтобы coding agents действительно тащили заметную часть разработки: фичи, отладку, тесты, рефакторинг, MVP и многошаговые задачи? Этот курс — про современный vibecoding workflow и agentic development в 2026.
В программе:
— Claude Code, Codex, Cursor
— agent mode и многошаговые задачи
— работа с кодовой базой
— subagents, hooks, skills
— MCP и внешние инструменты
— ревью кода, изменения и контроль качества
Подойдёт всем, кто регулярно работает с кодом: разработчикам, ML-инженерам, дата-сайентистам, аналитикам, automation-специалистам и техническим фаундерам.
Скидка 40% действует 48 часов.
Пройти курс на Stepik
Реклама: Ип Малышкин А.А.
ИНН: 402571325199, Erid: 2VtzqwkzCJa
Хотите работать с Claude Code, Codex и Cursor так, чтобы coding agents действительно тащили заметную часть разработки: фичи, отладку, тесты, рефакторинг, MVP и многошаговые задачи? Этот курс — про современный vibecoding workflow и agentic development в 2026.
В программе:
— Claude Code, Codex, Cursor
— agent mode и многошаговые задачи
— работа с кодовой базой
— subagents, hooks, skills
— MCP и внешние инструменты
— ревью кода, изменения и контроль качества
Подойдёт всем, кто регулярно работает с кодом: разработчикам, ML-инженерам, дата-сайентистам, аналитикам, automation-специалистам и техническим фаундерам.
Скидка 40% действует 48 часов.
Пройти курс на Stepik
Реклама: Ип Малышкин А.А.
ИНН: 402571325199, Erid: 2VtzqwkzCJa
😁73🤩30👏20🔥9🤣8🙈6👍5🎉5🤬4🌭2😎1
7 апреля на Artificial Analysis Video Arena без анонсов, пресс-релизов и корпоративного бэкграунда появилась модель HappyHorse-1.0, которая сразу заняла 1 место.
Все, что известно о внутреннем устройстве, собрано из описаний на happyhorse-ai.com (домен, кстати зарегистрирован 7 апреля).
Заявлено 15 млрд. параметров и 40-слойный трансформер, обрабатывающий текстовые, визуальные и аудио-токены в единой последовательности, без перекрестного внимания и без отдельных подсетей под каждую модальность.
Инференс идет за 8 шагов без CFG, с ускорением через собственный компилятор MagiCompiler.
Пятисекундный ролик в 1080p, по данным авторов, рендерится примерно за 38 секунд на H100.
Поддерживается совместная генерация видео и синхронного аудио с липсинком на 7 языках, включая китайский, английский, японский и кантонский. GitHub и Model Hub помечены как
coming soon. Одна версия связывает HappyHorse с Alibaba: в пользу этого играет название (2026 - год Лошади по китайскому календарю).
Издание The Information ссылаясь на 2 источника, эту версию подтвердило.
Другая - указывает на Tongyi Lab и линейку Wan, однако технические описания HappyHorse и недавно вышедшей Wan 2.7 расходятся: Wan 2.7 делает акцент на ризонинге и длинном тексте, тогда как HappyHorse строится вокруг однопоточного трансформера и 8-шагового инференса.
Третья версия, набирающая вес в техническом сообществе, строится на сходстве HappyHorse с открытой моделью daVinci-MagiHuman от SandАi, вышедшей в марте: совпадают метрики визуального качества, следования промту, физической консистентности и WER голоса.
Если релиз состоится на условиях open source с коммерческой лицензией, как следует из описания на сайте модели, это станет первым случаем, когда открытая видеомодель обошла закрытых лидеров в пользовательских слепых тестах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76🤔15👏12❤9🎉6👍3🏆3😁1🥱1