Computer Vision News
220 subscribers
294 photos
80 videos
299 links
Download Telegram
Forwarded from DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям

Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖

Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность

Читайте новую статью по ссылке! 🚀

🪔 DeepSchool
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Главное с Practical ML Conf 2025, если вы пропустили

27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.

Что сделало конференцию особенной

• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день

Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.

Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.

Экспозона
Здесь можно было потрогать технологии руками:

• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS

Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:

• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин

Practical ML Conf снова показала, насколько быстро меняется индустрия ML.

И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.

Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
Forwarded from 🦒∵ girafe.ai
Всем доброго дня! А завтра пройдет финальное открытое выступление от команды из Мегафона:

27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.

Zoom-ссылка будет доступна завтра перед самим занятием.

Участие свободное, регистрация не требуется.

Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
Forwarded from AI VK Hub
🔥 Большой датасет коротких видео для рекомендаций VK-LSVD в открытом доступе

Мы открыли доступ к датасету VK-LSVD — это ~40 млрд взаимодействий между 10 млн пользователей и 20 млн видео, плюс контентные эмбеддинги и часть анонимизированных пользовательских фичей.

По меркам открытых рекомендательных датасетов — это очень большой и редкий набор данных. Но есть ещё один важный плюс: все взаимодействия сохранены в хронологическом порядке. Это сильно упрощает разбиение на train / val / test и улучшает воспроизводимость экспериментов — настоящий подарок для исследователей RecSys.

Кому полезно:
🔸исследователям рекомендательных систем;
🔸участникам соревнований;
🔸тем, кто просто хочет потренировать модельку на реалистичных данных и посмотреть, «как оно в проде».

На Хабре мы подробно рассказали:
🔸как устроен датасет;
🔸как загрузить и обработать данные;
🔸как готовить разбиения;
🔸как фильтровать пользователей/айтемы по популярности.

🔗 Приятного чтения и добро пожаловать в VK RecSys Challenge!

#RecSysChallenge #RecSys #LSVD
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI VK Hub
На ридинг-группе 4 декабря обсудим очередную попытку разрушить классическую парадигму рекомендательных систем – фреймворк RecGPT от компании Taobao.

Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.

Ведущим будет Александр Подвойский, ML-инженер AI VK.

🔹 4 декабря в 18:00

Zoom: ссылка
ID: 707 776 9330
Код: 464167

Параллельно запустим стрим прямо в канале AI VK Hub.

#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов об ИТ, радиоэлектронике и смежных областях

SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.

FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.

Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.

Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.

Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.

LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
🔥2
Forwarded from Machinelearning
📌 LiDAR: глаза беспилотников.

Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.

🟡Что делает LiDAR?

В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.

В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.

🟡Методы измерения дальности.

Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.

🟡Детекторы.

APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.

А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.

Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют  SPAD macropixels. Это путь компаний Ouster и Sony.

Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.

С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.

🟡Как LiDAR понимает, куда он смотрит?

Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.

Современный тренд - уход от вращения всей «головы» к более хитрым методам.

MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.

Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.

Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.

🟡Длина волны.

Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.

1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.

Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.

И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".

🟡Суровые реалии эксплуатации.

Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.

Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.

🟡И напоследок, про один маркетинговый миф.

Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.

Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.

Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Droider
🏠 Сколько зданий на Земле?

Простой вопрос. Но оказывается ответа на него не было. До сих пор.

Команда профессора Сяосян Чжу из Мюнхенского технического университета собрала первый в истории 3D-каталог всех зданий планеты. Называется GlobalBuildingAtlas. Внутри — 2,75 миллиарда построек. Каждая из них с высотой и объёмом. Для сравнения: предыдущий рекорд был 1,7 миллиарда, и то в 2D.

Откуда данные? Спутниковые снимки 2019 года. Разрешение — 3 на 3 метра. Это в 30 раз детальнее, чем у похожих баз. 97% зданий (2,68 миллиарда) представлены как LoD1-модели, упрощённые 3D-формы с базовой геометрией и высотой.

Самое ценное: в каталог попали регионы, которые обычно игнорируют. Африка, Южная Америка, сельская местность. Раньше глобальные карты их просто пропускали.

Чжу с командой ввели новый индикатор — объём зданий на душу населения. Не площадь застройки, а именно объём. Он показывает реальные жилищные условия и социальное неравенство точнее любых 2D-карт.

Данные открытые и находятся на GitHub. Любой желающий может их использовать для своих проектов.

@droidergram
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1👏1
Почему NVIDIA Jetson уступает аналогам по аналогичной цене
Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.

Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.

В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.

Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
🔥1
✔️ SAM Audio: модель для изоляции любых звуков по тексту, таймкоду или клику на видео.

ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов.

Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео.

Код для инференса и веса модели в 3-х вариантах (small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground.
github.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Нейродвиж
«Топ за свои деньги» теперь и в LLM — Xiaomi выпустили модель MiMo-V2-Flash, и она неожиданно крутая 💃

— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.

Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek 😁

Здесь — анонс, а модель — на Hugging Face.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
🌟 Z-Image Turbo взяла 1 место на Artificial Analysis Image Arena.

Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.

Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.

Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.

Кто-нибудь, поднимите веки Stable Diffusion


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
⚡️ HF Learn: 11 бесплатных курсов по ИИ от HuggingFace.

В преддверии новогодних праздников платформа подготовила набор обучающих материалов по основным направлениям ИИ:

🟢LLM Course - познакомит с большими языковыми моделями и обработкой естественного языка с использованием библиотек экосистемы HF: Transformers, Datasets, Tokenizers и Accelerate.

🟢Robotics Course - проведет вас от классической робототехники к современным подходам, основанным на ML.

🟢Model Context Protocol Course - курс, созданный в партнерстве с Anthropic , научит пониманию, использованию и созданию приложений с помощью MCP.

🟢Smol-course - самый всеобъемлющий (и самый короткий) трек по тонкой настройке языковых моделей.

🟢AI Agents Course - научит разбираться и использовать самую топовую тему на сегодняшний день: создание и применение агентов ИИ.

🟢Deep RL Course - курс по самой интересной теме в области ИИ: глубокому обучению с подкреплением.

🟢Computer Vision Course - подробный разбор компьютерного зрения, созданный сообществом HF, состоящий из теории, практических занятий и увлекательных заданий.

🟢Audio Сourse - научит вас использовать Transformers для обработки звука. Вы получите представление о специфике работы с аудиоданными, изучите различные архитектуры Transformers и обучите собственные модели.

🟢ML for Games Course - узнаете как интегрировать модели ИИ в процессы разработки игр и создавать уникальные игровые впечатления.

🟢Diffusion Course - полномасштабный источник знаний и навыков по диффузии. Теория и практика: от изучения библиотеки Diffusers до создания конвейеров обработки данных.

🟢ML for 3D Course - авторский набор обучающих материалов по использованию машинного обучения в 3D от Дилана Эберта (IndividualKex) - разработчика по 3D-графике HuggingFace.

Сохраните на праздники, в этом году они длинные


@ai_machinelearning_big_data

#AI #ML #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
https://youtu.be/lNNdMavmPTw

Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии

При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
🔥1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎄🎄 Qwen-Image: обновление как раз к Новому году

Свежая версия Qwen-Image получила заметный апгрейд качества.

Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.

Что изменилось:

• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно)

Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.

Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
GitHub: https://github.com/QwenLM/Qwen-Image
Блог: https://qwen.ai/blog?id=qwen-image-2512
Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max

@ai_machinelearning_big_data

#qwen #qwenimage #openaimodels #imagemodels
🔥1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-2 - open weight 4K/50fps видео с аудио от Lightricks

Lightricks, компания, стоящая за одним из первых "контент-заводов" LTX-Studio ещё до того, как эти заводы заполонили Твиттер, сделала интересный пивот. Чуваки выпустили в опенсорс видеомодель LTX-2, первая версия которой, лежала в основе их реактора.

Модель занимает не самое высокое 23-е место на LM видео арене, но главное здесь не это. LTX-2 — первая полностью открытая модель, которая умеет генерить нативное 4K видео при 50 FPS с синхронизированным аудио (диалоги, музыка, SFX) длиной до 20 секунд.

В основе LTX-2 лежит единый асимметричный двухпоточный трансформер для совместной генерации аудио и видео через кросс-атенш.

Модель на 19B (14 для видео и 5 для аудио) спроектирована для запуска на потребительских GPU. В опенсорс выложены не только веса, но и пайплайны для инференса и код для тренировки. Кроме того из коробки LTX-2 квантована в NVFP8 (на 30% меньше, до 2х раз быстрее) и оптимизирована под экосистему NVIDIA, а ComfyUI поддерживает её с первого дня.

Не совсем понятно, как этот релиз сочетается с их основной бизнес-моделью. И если раньше их амбициозное желание создать свою модель было понятно, то зачем выкладывать её в опенсорс — совсем неясно. Ведь умельцы из ComfyUI уже повторили тот же LTX Studio у себя в Comfy и n8n на других моделях.

UPD: На сайте пишут про нативные 4K, но на деле же, как верно подметили в комментариях, там используют апскейл. Контора сами знаете кого.

Техрепорт
GitHub
Hugging Face
Попробовать

@ai_newz
🔥1
Forwarded from Neural Shit
Наткнулся на интересную статью. Это буквально самый тупой (и одновременно гениальный) промпт-хак.

Исследователи из Google Research выяснили, что если нейронка тупит, не надо придумывать сложные цепочки рассуждений или молиться духам машины. Нужно просто повторить промпт два раза подряд. Буквально CTRL+C —> CTRL+V.

Почему? Почти все современные LLM читают слева направо. Токены в начале промпта "не видят" токенов в конце. А когда вы дублируете запрос, вторая копия промпта через механизм внимания может смотреть на первую копию целиком. Получается, что модель сразу видит весь контекст и лучше понимает задачу.

Протестили на Gemini, GPT-4o, Claude 3 и DeepSeek. По цифрам из статьи:

— Метод победил в 47 из 70 тестов (0 поражений, остальные — ничья).
— В задачах на поиск инфы в тексте точность взлетала с убогих 21% до 97%!
— Время генерации не растет

И да, работает это только на моделях с выключенным режимом размышлений, ибо модели в reasoning режиме сами повторяют себе запрос в процессе.

Промпт-инжиниринг, который мы заслужили

тут статья
🔥1