Хабр / ML & AI
482 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Vision Transformer-применение трансформеров в задачах компьютерного зрения

Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!

Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.

Читать далее

#vision_transformer #deeplearning #machinelearning #computer_vision #transformer #nlp #ocr #ai #image_classification | @habr_ai
[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. 

Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.). Читать далее

#sophon #npu #jetson #rockchip #ml #edge_inference #computer_vision #llm #vlm #qwen | @habr_ai
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости. Читать далее

#vlm #natural_language_processing #computer_vision #multimodality #яндекс | @habr_ai
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.

Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack. Читать далее

#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan2_1 #comfyui #видеогенератор | @habr_ai
Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото

Всем привет!

Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео. Большинство существующих решений сводятся к двум крупным направлениям.

В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит:

преобразовывать изображения и видео между pinhole, fisheye и equirectangular проекциями;

итеративно дорисовывать панорамы до полного сферического охвата;

синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве.

Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation Читать далее

#computer_vision #vr #video_generation #6dof #pointcloud | @habr_ai
Что бы я сделал, если бы сегодня начинал учить Data Science / ML?

Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов, библиотек, подходов и постоянно появляющихся технологий.

Из-за этого многие новички начинают обучение с энтузиазмом, но через пару месяцев теряют интерес. Причины могут быть разные: слишком много теории, мало практики, нет чёткого плана или понимания, зачем вообще всё это нужно.

Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня , учитывая свой опыт работы в крупных компаниях, проваленные проекты, ошибки и победы.

Читать далее

#вход_в_it #машинное_обучение #data_science #computer_vision #собеседования #оффер | @habr_ai