Forwarded from DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям
Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖
Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность
Читайте новую статью по ссылке! 🚀
🪔 DeepSchool
Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖
Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность
Читайте новую статью по ссылке! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям - DeepSchool
Рассказываем, как устроены VLA-модели — от визуального энкодера до генератора действий.
Forwarded from Machinelearning
⚡️ Главное с Practical ML Conf 2025, если вы пропустили
27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.
Что сделало конференцию особенной
• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день
Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.
Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.
Экспозона
Здесь можно было потрогать технологии руками:
• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS
Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:
• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин
Practical ML Conf снова показала, насколько быстро меняется индустрия ML.
И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.
Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.
Что сделало конференцию особенной
• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день
Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.
Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.
Экспозона
Здесь можно было потрогать технологии руками:
• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS
Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:
• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин
Practical ML Conf снова показала, насколько быстро меняется индустрия ML.
И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.
Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
Forwarded from 🦒∵ girafe.ai
Всем доброго дня! А завтра пройдет финальное открытое выступление от команды из Мегафона:
27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.
Zoom-ссылка будет доступна завтра перед самим занятием.
Участие свободное, регистрация не требуется.
Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.
Zoom-ссылка будет доступна завтра перед самим занятием.
Участие свободное, регистрация не требуется.
Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
Telegram
🦒∵ girafe.ai
Всем привет! Мы продолжаем практику открытых выступлений, и в этот раз у нас в гостях будут коллеги из Мегафона с серией аж из трех выступлений.
Они планируют разобрать, как знакомые вам методы машинного обучения стакливаются с суровой реальностью. В частности:…
Они планируют разобрать, как знакомые вам методы машинного обучения стакливаются с суровой реальностью. В частности:…
Forwarded from AI VK Hub
Мы открыли доступ к датасету VK-LSVD — это ~40 млрд взаимодействий между 10 млн пользователей и 20 млн видео, плюс контентные эмбеддинги и часть анонимизированных пользовательских фичей.
По меркам открытых рекомендательных датасетов — это очень большой и редкий набор данных. Но есть ещё один важный плюс: все взаимодействия сохранены в хронологическом порядке. Это сильно упрощает разбиение на train / val / test и улучшает воспроизводимость экспериментов — настоящий подарок для исследователей RecSys.
Кому полезно:
На Хабре мы подробно рассказали:
#RecSysChallenge #RecSys #LSVD
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI VK Hub
На ридинг-группе 4 декабря обсудим очередную попытку разрушить классическую парадигму рекомендательных систем – фреймворк RecGPT от компании Taobao.
Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.
Ведущим будет Александр Подвойский, ML-инженер AI VK.
🔹 4 декабря в 18:00
Zoom: ссылка
ID: 707 776 9330
Код: 464167
Параллельно запустим стрим прямо в канале AI VK Hub.
#ридинггруппа #aivk
Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.
Ведущим будет Александр Подвойский, ML-инженер AI VK.
Zoom: ссылка
ID: 707 776 9330
Код: 464167
Параллельно запустим стрим прямо в канале AI VK Hub.
#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов об ИТ, радиоэлектронике и смежных областях
SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.
FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.
Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.
Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.
Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.
LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.
FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.
Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.
Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.
Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.
LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
Telegram
Ai.design
Про дизайн, разработку и просто красоту мира и путешествий.
Anatoly Ivanov — https://anatoly.design (Product design, UI/UX)
@anatoly2d
Anatoly Ivanov — https://anatoly.design (Product design, UI/UX)
@anatoly2d
🔥2
Forwarded from Machinelearning
Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.
В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.
В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.
Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.
APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.
А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.
Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют SPAD macropixels. Это путь компаний Ouster и Sony.
Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.
С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.
Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.
Современный тренд - уход от вращения всей «головы» к более хитрым методам.
MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.
Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.
Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.
Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.
1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.
Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.
И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".
Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.
Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.
Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.
Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.
Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Droider
Простой вопрос. Но оказывается ответа на него не было. До сих пор.
Команда профессора Сяосян Чжу из Мюнхенского технического университета собрала первый в истории 3D-каталог всех зданий планеты. Называется GlobalBuildingAtlas. Внутри — 2,75 миллиарда построек. Каждая из них с высотой и объёмом. Для сравнения: предыдущий рекорд был 1,7 миллиарда, и то в 2D.
Откуда данные? Спутниковые снимки 2019 года. Разрешение — 3 на 3 метра. Это в 30 раз детальнее, чем у похожих баз. 97% зданий (2,68 миллиарда) представлены как LoD1-модели, упрощённые 3D-формы с базовой геометрией и высотой.
Самое ценное: в каталог попали регионы, которые обычно игнорируют. Африка, Южная Америка, сельская местность. Раньше глобальные карты их просто пропускали.
Чжу с командой ввели новый индикатор — объём зданий на душу населения. Не площадь застройки, а именно объём. Он показывает реальные жилищные условия и социальное неравенство точнее любых 2D-карт.
Данные открытые и находятся на GitHub. Любой желающий может их использовать для своих проектов.
@droidergram
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1👏1
Forwarded from Заметки Computer Vision инженера
Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.
Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.
В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.
Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.
Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.
В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.
Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
YouTube
Is Nvidia Jetson dying?
00:00:00 - Intro
00:03:51 - Reasons for Jetson in 2026?
00:04:06 - Accelerators alternatives: Axelera, Sima, Saphon, etc.
00:04:30 - The Second advantage of Jetson alternatives
00:04:51 - Intel, Qualcomm, AMD
00:06:33 - Jetson Thor (?)
00:09:10 - Nvidia containers?…
00:03:51 - Reasons for Jetson in 2026?
00:04:06 - Accelerators alternatives: Axelera, Sima, Saphon, etc.
00:04:30 - The Second advantage of Jetson alternatives
00:04:51 - Intel, Qualcomm, AMD
00:06:33 - Jetson Thor (?)
00:09:10 - Nvidia containers?…
🔥1
ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов.
Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео.
Код для инференса и веса модели в 3-х вариантах (
small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground.github.com
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - facebookresearch/sam-audio: The repository provides code for running inference with the Meta Segment Anything Audio Model…
The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how t...
🔥1
Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.
Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.
Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Нейродвиж
«Топ за свои деньги» теперь и в LLM — Xiaomi выпустили модель MiMo-V2-Flash, и она неожиданно крутая 💃
— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.
Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek😁
Здесь — анонс, а модель — на Hugging Face.
— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.
Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek
Здесь — анонс, а модель — на Hugging Face.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.
Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.
Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
В преддверии новогодних праздников платформа подготовила набор обучающих материалов по основным направлениям ИИ:
@ai_machinelearning_big_data
#AI #ML #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Заметки Computer Vision инженера
https://youtu.be/lNNdMavmPTw
Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии
При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии
При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
YouTube
Neural Stereo Depth estimation with OAK 4D (LENS network)
Here is the article from Luxonis, which is interesting IMHO - https://discuss.luxonis.com/blog/6553-neural-stereo-depth-estimation-with-lens
00:00:00 - Intro
00:01:15 - Usual problems with NPU stereo Depth estimation
00:03:00 - Qualcomm NPU. Why is this…
00:00:00 - Intro
00:01:15 - Usual problems with NPU stereo Depth estimation
00:03:00 - Qualcomm NPU. Why is this…
🔥1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎄🎄 Qwen-Image: обновление как раз к Новому году
Свежая версия Qwen-Image получила заметный апгрейд качества.
Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.
Что изменилось:
• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно)
Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.
▪Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
▪Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
▪ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
▪GitHub: https://github.com/QwenLM/Qwen-Image
▪Блог: https://qwen.ai/blog?id=qwen-image-2512
▪Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
▪Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
▪API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max
@ai_machinelearning_big_data
#qwen #qwenimage #openaimodels #imagemodels
Свежая версия Qwen-Image получила заметный апгрейд качества.
Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.
Что изменилось:
• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно)
Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.
▪Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
▪Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
▪ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
▪GitHub: https://github.com/QwenLM/Qwen-Image
▪Блог: https://qwen.ai/blog?id=qwen-image-2512
▪Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
▪Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
▪API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max
@ai_machinelearning_big_data
#qwen #qwenimage #openaimodels #imagemodels
🔥1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-2 - open weight 4K/50fps видео с аудио от Lightricks
Lightricks, компания, стоящая за одним из первых "контент-заводов" LTX-Studio ещё до того, как эти заводы заполонили Твиттер, сделала интересный пивот. Чуваки выпустили в опенсорс видеомодель LTX-2, первая версия которой, лежала в основе их реактора.
Модель занимает не самое высокое 23-е место на LM видео арене, но главное здесь не это. LTX-2 — первая полностью открытая модель, которая умеет генерить нативное 4K видео при 50 FPS с синхронизированным аудио (диалоги, музыка, SFX) длиной до 20 секунд.
В основе LTX-2 лежит единый асимметричный двухпоточный трансформер для совместной генерации аудио и видео через кросс-атенш.
Модель на 19B (14 для видео и 5 для аудио) спроектирована для запуска на потребительских GPU. В опенсорс выложены не только веса, но и пайплайны для инференса и код для тренировки. Кроме того из коробки LTX-2 квантована в NVFP8 (на 30% меньше, до 2х раз быстрее) и оптимизирована под экосистему NVIDIA, а ComfyUI поддерживает её с первого дня.
Не совсем понятно, как этот релиз сочетается с их основной бизнес-моделью. И если раньше их амбициозное желание создать свою модель было понятно, то зачем выкладывать её в опенсорс — совсем неясно. Ведь умельцы из ComfyUI уже повторили тот же LTX Studio у себя в Comfy и n8n на других моделях.
UPD: На сайте пишут про нативные 4K, но на деле же, как верно подметили в комментариях, там используют апскейл. Контора сами знаете кого.
Техрепорт
GitHub
Hugging Face
Попробовать
@ai_newz
Lightricks, компания, стоящая за одним из первых "контент-заводов" LTX-Studio ещё до того, как эти заводы заполонили Твиттер, сделала интересный пивот. Чуваки выпустили в опенсорс видеомодель LTX-2, первая версия которой, лежала в основе их реактора.
Модель занимает не самое высокое 23-е место на LM видео арене, но главное здесь не это. LTX-2 — первая полностью открытая модель, которая умеет генерить нативное 4K видео при 50 FPS с синхронизированным аудио (диалоги, музыка, SFX) длиной до 20 секунд.
В основе LTX-2 лежит единый асимметричный двухпоточный трансформер для совместной генерации аудио и видео через кросс-атенш.
Модель на 19B (14 для видео и 5 для аудио) спроектирована для запуска на потребительских GPU. В опенсорс выложены не только веса, но и пайплайны для инференса и код для тренировки. Кроме того из коробки LTX-2 квантована в NVFP8 (на 30% меньше, до 2х раз быстрее) и оптимизирована под экосистему NVIDIA, а ComfyUI поддерживает её с первого дня.
Не совсем понятно, как этот релиз сочетается с их основной бизнес-моделью. И если раньше их амбициозное желание создать свою модель было понятно, то зачем выкладывать её в опенсорс — совсем неясно. Ведь умельцы из ComfyUI уже повторили тот же LTX Studio у себя в Comfy и n8n на других моделях.
UPD: На сайте пишут про нативные 4K, но на деле же, как верно подметили в комментариях, там используют апскейл. Контора сами знаете кого.
Техрепорт
GitHub
Hugging Face
Попробовать
@ai_newz
🔥1
Forwarded from Neural Shit
Наткнулся на интересную статью. Это буквально самый тупой (и одновременно гениальный) промпт-хак.
Исследователи из Google Research выяснили, что если нейронка тупит, не надо придумывать сложные цепочки рассуждений или молиться духам машины. Нужно просто повторить промпт два раза подряд. Буквально CTRL+C —> CTRL+V.
Почему? Почти все современные LLM читают слева направо. Токены в начале промпта "не видят" токенов в конце. А когда вы дублируете запрос, вторая копия промпта через механизм внимания может смотреть на первую копию целиком. Получается, что модель сразу видит весь контекст и лучше понимает задачу.
Протестили на Gemini, GPT-4o, Claude 3 и DeepSeek. По цифрам из статьи:
— Метод победил в 47 из 70 тестов (0 поражений, остальные — ничья).
— В задачах на поиск инфы в тексте точность взлетала с убогих 21% до 97%!
— Время генерации не растет
И да, работает это только на моделях с выключенным режимом размышлений, ибо модели в reasoning режиме сами повторяют себе запрос в процессе.
Промпт-инжиниринг, который мы заслужили
тут статья
Исследователи из Google Research выяснили, что если нейронка тупит, не надо придумывать сложные цепочки рассуждений или молиться духам машины. Нужно просто повторить промпт два раза подряд. Буквально CTRL+C —> CTRL+V.
Почему? Почти все современные LLM читают слева направо. Токены в начале промпта "не видят" токенов в конце. А когда вы дублируете запрос, вторая копия промпта через механизм внимания может смотреть на первую копию целиком. Получается, что модель сразу видит весь контекст и лучше понимает задачу.
Протестили на Gemini, GPT-4o, Claude 3 и DeepSeek. По цифрам из статьи:
— Метод победил в 47 из 70 тестов (0 поражений, остальные — ничья).
— В задачах на поиск инфы в тексте точность взлетала с убогих 21% до 97%!
— Время генерации не растет
И да, работает это только на моделях с выключенным режимом размышлений, ибо модели в reasoning режиме сами повторяют себе запрос в процессе.
Промпт-инжиниринг, который мы заслужили
тут статья
arXiv.org
Prompt Repetition Improves Non-Reasoning LLMs
When not using reasoning, repeating the input prompt improves performance for popular models (Gemini, GPT, Claude, and Deepseek) without increasing the number of generated tokens or latency.
🔥1