Хабр / ML & AI

Vision Transformer-применение трансформеров в задачах компьютерного зрения

Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!

Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.

Читать далее

#vision_transformer #deeplearning #machinelearning #computer_vision #transformer #nlp #ocr #ai #image_classification | @habr_ai

Хабр

Vision Transformer-применение трансформеров в задачах компьютерного зрения

Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!...

52 views18:33

Хабр / ML & AI

[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.

Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.). Читать далее

#sophon #npu #jetson #rockchip #ml #edge_inference #computer_vision #llm #vlm #qwen | @habr_ai

Хабр

Всё про инференс на Sophon NPU (TPU)

Easter Egg is incoming В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как...

45 views08:17

Хабр / ML & AI

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости. Читать далее

#vlm #natural_language_processing #computer_vision #multimodality #яндекс | @habr_ai

Хабр

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей...

47 views07:44

Хабр / ML & AI

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D. Читать далее

#генеративные_модели #3d #3d_графика #ml #kandinsky #computer_vision | @habr_ai

Хабр

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский...

59 views15:30

Хабр / ML & AI

Хабр

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

54 views16:30

Хабр / ML & AI

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

План следующий:

Методы адаптации T2I в T2V: AnimateDiﬀ, Text2Video Zero

Обзор классических подходов: Stable Video Diﬀusion, CogVideo

Новые модельки 2025: Wan2.1, HunyuanVideo, FramePack

Это первая часть из списка статей, тут будет только про T2I в T2V Читать далее

#computer_vision #нейросети #ml #video_generation #собеседования #собеседования_задачи #ai #stable_diffusion #comfyui #animatediff | @habr_ai

Хабр

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

Тут я расскажу про основные подходы в генерации видео, материал будет полезен ML/Computer vision разработчикам , чтобы держать руку на пульсе, и людям интересующимся нейросетями + AI План следующий:...

82 views17:38

Хабр / ML & AI

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.

Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack. Читать далее

#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan2_1 #comfyui #видеогенератор | @habr_ai

Хабр

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только...

80 views21:51

Хабр / ML & AI

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image! Читать далее

#генерация_изображений #kandinsky_4 #sberai #generative_models #text_to_image #computer_vision #diffusion #sft #artificial_intelligence #machine_learning | @habr_ai

Хабр

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video ( статья на habr ). Теперь мы рады представить новую версию нашей...

38 views07:54

Хабр / ML & AI

Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото

Всем привет!

Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео. Большинство существующих решений сводятся к двум крупным направлениям.

В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит:

преобразовывать изображения и видео между pinhole, fisheye и equirectangular проекциями;

итеративно дорисовывать панорамы до полного сферического охвата;

синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве.

Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation Читать далее

#computer_vision #vr #video_generation #6dof #pointcloud | @habr_ai

Хабр

Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото

Крутим Fisheye камеру в синтезированном мире Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное...

69 views15:10

Хабр / ML & AI

Что бы я сделал, если бы сегодня начинал учить Data Science / ML?

Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов, библиотек, подходов и постоянно появляющихся технологий.

Из-за этого многие новички начинают обучение с энтузиазмом, но через пару месяцев теряют интерес. Причины могут быть разные: слишком много теории, мало практики, нет чёткого плана или понимания, зачем вообще всё это нужно.

Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня , учитывая свой опыт работы в крупных компаниях, проваленные проекты, ошибки и победы.

Читать далее

#вход_в_it #машинное_обучение #data_science #computer_vision #собеседования #оффер | @habr_ai

Хабр

Что бы я сделал, если бы сегодня начинал учить Data Science / ML?

Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов,...

85 views20:11

About

Blog

Apps

Platform