Vision Transformer-применение трансформеров в задачах компьютерного зрения
Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!
Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.
Читать далее
#vision_transformer #deeplearning #machinelearning #computer_vision #transformer #nlp #ocr #ai #image_classification | @habr_ai
Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!
Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.
Читать далее
#vision_transformer #deeplearning #machinelearning #computer_vision #transformer #nlp #ocr #ai #image_classification | @habr_ai
Хабр
Vision Transformer-применение трансформеров в задачах компьютерного зрения
Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!...
[Перевод] Всё про инференс на Sophon NPU
В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.
Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.). Читать далее
#sophon #npu #jetson #rockchip #ml #edge_inference #computer_vision #llm #vlm #qwen | @habr_ai
В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.
Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.). Читать далее
#sophon #npu #jetson #rockchip #ml #edge_inference #computer_vision #llm #vlm #qwen | @habr_ai
Хабр
Всё про инференс на Sophon NPU (TPU)
Easter Egg is incoming В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как...
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.
На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости. Читать далее
#vlm #natural_language_processing #computer_vision #multimodality #яндекс | @habr_ai
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.
На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости. Читать далее
#vlm #natural_language_processing #computer_vision #multimodality #яндекс | @habr_ai
Хабр
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей...
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D. Читать далее
#генеративные_модели #3d #3d_графика #ml #kandinsky #computer_vision | @habr_ai
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D. Читать далее
#генеративные_модели #3d #3d_графика #ml #kandinsky #computer_vision | @habr_ai
Хабр
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский...
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D. Читать далее
#генеративные_модели #3d #3d_графика #ml #kandinsky #computer_vision | @habr_ai
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D. Читать далее
#генеративные_модели #3d #3d_графика #ml #kandinsky #computer_vision | @habr_ai
Хабр
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский...
Генерация видео: Обзор интересных подходов | Text-2-video | Part 1
План следующий:
Методы адаптации T2I в T2V: AnimateDiff, Text2Video Zero
Обзор классических подходов: Stable Video Diffusion, CogVideo
Новые модельки 2025: Wan2.1, HunyuanVideo, FramePack
Это первая часть из списка статей, тут будет только про T2I в T2V Читать далее
#computer_vision #нейросети #ml #video_generation #собеседования #собеседования_задачи #ai #stable_diffusion #comfyui #animatediff | @habr_ai
План следующий:
Методы адаптации T2I в T2V: AnimateDiff, Text2Video Zero
Обзор классических подходов: Stable Video Diffusion, CogVideo
Новые модельки 2025: Wan2.1, HunyuanVideo, FramePack
Это первая часть из списка статей, тут будет только про T2I в T2V Читать далее
#computer_vision #нейросети #ml #video_generation #собеседования #собеседования_задачи #ai #stable_diffusion #comfyui #animatediff | @habr_ai
Хабр
Генерация видео: Обзор интересных подходов | Text-2-video | Part 1
Тут я расскажу про основные подходы в генерации видео, материал будет полезен ML/Computer vision разработчикам , чтобы держать руку на пульсе, и людям интересующимся нейросетями + AI План следующий:...
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2
Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.
Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack. Читать далее
#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan2_1 #comfyui #видеогенератор | @habr_ai
Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.
Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack. Читать далее
#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan2_1 #comfyui #видеогенератор | @habr_ai
Хабр
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2
Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только...
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image! Читать далее
#генерация_изображений #kandinsky_4 #sberai #generative_models #text_to_image #computer_vision #diffusion #sft #artificial_intelligence #machine_learning | @habr_ai
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image! Читать далее
#генерация_изображений #kandinsky_4 #sberai #generative_models #text_to_image #computer_vision #diffusion #sft #artificial_intelligence #machine_learning | @habr_ai
Хабр
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video ( статья на habr ). Теперь мы рады представить новую версию нашей...
Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото
Всем привет!
Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео. Большинство существующих решений сводятся к двум крупным направлениям.
В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит:
преобразовывать изображения и видео между pinhole, fisheye и equirectangular проекциями;
итеративно дорисовывать панорамы до полного сферического охвата;
синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве.
Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation Читать далее
#computer_vision #vr #video_generation #6dof #pointcloud | @habr_ai
Всем привет!
Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео. Большинство существующих решений сводятся к двум крупным направлениям.
В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит:
преобразовывать изображения и видео между pinhole, fisheye и equirectangular проекциями;
итеративно дорисовывать панорамы до полного сферического охвата;
синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве.
Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation Читать далее
#computer_vision #vr #video_generation #6dof #pointcloud | @habr_ai
Хабр
Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото
Крутим Fisheye камеру в синтезированном мире Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное...
Что бы я сделал, если бы сегодня начинал учить Data Science / ML?
Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов, библиотек, подходов и постоянно появляющихся технологий.
Из-за этого многие новички начинают обучение с энтузиазмом, но через пару месяцев теряют интерес. Причины могут быть разные: слишком много теории, мало практики, нет чёткого плана или понимания, зачем вообще всё это нужно.
Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня , учитывая свой опыт работы в крупных компаниях, проваленные проекты, ошибки и победы.
Читать далее
#вход_в_it #машинное_обучение #data_science #computer_vision #собеседования #оффер | @habr_ai
Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов, библиотек, подходов и постоянно появляющихся технологий.
Из-за этого многие новички начинают обучение с энтузиазмом, но через пару месяцев теряют интерес. Причины могут быть разные: слишком много теории, мало практики, нет чёткого плана или понимания, зачем вообще всё это нужно.
Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня , учитывая свой опыт работы в крупных компаниях, проваленные проекты, ошибки и победы.
Читать далее
#вход_в_it #машинное_обучение #data_science #computer_vision #собеседования #оффер | @habr_ai
Хабр
Что бы я сделал, если бы сегодня начинал учить Data Science / ML?
Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов,...