Хабр / ML & AI
478 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
[Перевод] Deep Learning в иллюстрациях: Рекуррентные нейронные сети

Рад приветствовать вас в очередной части нашего иллюстрированного погружения в Deep Learning! Сегодня мы будем разбираться в рекуррентных нейронных сетях. Мы будем обсуждать уже хорошо знакомые нам понятия, такие как входы, выходы и функции активации, но с неожиданным сюжетным поворотом.

Читать далее

#deep_learning #рекуррентные_нейронные_сети #машинное_обучение #rnn | @habr_ai
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

Читать далее

#data_mining #computer_vision #human_computer_interaction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection | @habr_ai
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.

Читать далее

#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet | @habr_ai
Мир будущего: управление устройствами с помощью жестов

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов. Читать далее

#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #human_computer_interaction | @habr_ai
Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.

Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i. Если первые версии TPU были ориентированы исключительно на ускорение инференса (выполнение уже обученных моделей), то TPUv2 и TPUv3 смогли взять на себя ещё и тренировку крупных нейросетей. Но в дальнейшем выяснилось, что для оптимальной работы дата-центров в масштабах Google рациональнее разделить решения для тренировки и инференса. TPUv4i — это результат учёта многих уроков и ограничений, проявившихся в предыдущих чипах.

В этом материале разберём, какие «десять уроков» сформировали подход Google к созданию TPUv4i, что это за архитектура и какие проблемы дата-центров она решает.

Читать далее

#ml #pytorch #proceesors #deep_learning #inference | @habr_ai
Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2

Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки! Читать дальше →

#selectel #ии #искусственный_интеллект #машинное_обучение #ml #dl #deep_learning #глубокое_обучение #познавательное | @habr_ai
[Перевод] Обзор решений для создания AI-аватаров. История развития и практическое применение

Исследование эволюции AI аватаров — от примитивных говорящих голов до полноценных персонажей с естественной мимикой и движениями тела.

Анализ возможностей технологии на основе практических тестов более 20 продуктов и их применение в трех ключевых сегментах: для потребителей (создание персонажей), малого бизнеса (лидогенерация) и предприятий (масштабирование контента) Читать далее

#искусственный_интеллект #ai_аватары #генерация_видео #deep_learning #ai_персонажи #контент #виртуальные_персонажи #цифровые_медиа #ai | @habr_ai
Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.

Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Ну и, конечно же, поговорим про замеры качества. Читать далее

#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning | @habr_ai
Играемся с RTX 5090 (GB202) для инференса

Продолжаем статьи про практические тесты актуальных картонок от Nvidia (A5000 Ada, A100, 3090 и A10). В этот раз мне предложили (не реклама) денёк погонять Nvidia RTX 5090 в хостинге (себе такую брать я бы не стал), и я не мог отказаться от такого предложения.

За день что-то стоящее натренировать нынче уже проблематично, поэтому будем "снимать" уже привычных обратно совместимых "попугаев" через gpu-burn и также замерим скорость инференса одной нашей довольно прожорливой сетки в продакшене.

Все шутки про Nvidia давно уже не шутки, санкции и торговые войны идут своим чередом, но тем не менее в России новинки появляются с завидной регулярностью несмотря на все запреты.

На фоне сильно негативного новостного фона со стороны игрового сообщества про новый релиз Nvidia и своеобразных "успехов" Nvidia по наращиванию своей капитализации продвинутой "сегментации" рынка (все уже пошутили про новый коннектор, огромный рост TDP и размера карт), мне лично было интересно, а есть ли рост 50* поколения карт для наших задач против 30* поколения.

Если верить техно- и игровым блоггерам, их новое поколение совсем не впечатлило. Меня зато так "впечатлило" 40* поколение, что мы даже не рассматривали апгрейд 3090. Но обо всём по порядку. Давайте разбираться!

#nvidia #blackwell #5090 #deep_learning #машинное_обучение #нейросети #видеокарта #nvidia_rtx_5090 #geforce #железо | @habr_ai
Хорошая девушка LoRA! А чем же она хороша?

Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров» фильма.  Но для работы со смыслами, идеями и описаниями кинопроектов нужна более эффективная методика, позволяющая оценивать творческий замысел и основные идеи хотя бы на уровне аннотации – краткого синопсиса.  И здесь уже не обойтись без больших языковых моделей. Читать далее

#machine_learning #deep_learning #nlp #lora_fine_tuning #lora | @habr_ai