[Перевод] Deep Learning в иллюстрациях: Рекуррентные нейронные сети
Рад приветствовать вас в очередной части нашего иллюстрированного погружения в Deep Learning! Сегодня мы будем разбираться в рекуррентных нейронных сетях. Мы будем обсуждать уже хорошо знакомые нам понятия, такие как входы, выходы и функции активации, но с неожиданным сюжетным поворотом.
Читать далее
#deep_learning #рекуррентные_нейронные_сети #машинное_обучение #rnn | @habr_ai
Рад приветствовать вас в очередной части нашего иллюстрированного погружения в Deep Learning! Сегодня мы будем разбираться в рекуррентных нейронных сетях. Мы будем обсуждать уже хорошо знакомые нам понятия, такие как входы, выходы и функции активации, но с неожиданным сюжетным поворотом.
Читать далее
#deep_learning #рекуррентные_нейронные_сети #машинное_обучение #rnn | @habr_ai
Хабр
Deep Learning в иллюстрациях: Рекуррентные нейронные сети
Наглядное руководство по внутреннему устройству рекуррентных нейронных сетей и функции активации Softmax Рад приветствовать вас в очередной части нашего иллюстрированного погружения в Deep...
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).
Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.
Читать далее
#data_mining #computer_vision #human_computer_interaction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection | @habr_ai
Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).
Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.
Читать далее
#data_mining #computer_vision #human_computer_interaction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection | @habr_ai
Хабр
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Жесты, представленные в датасете HaGRIDv2-1M. Новые жесты, добавленные к жестам из HaGRID, выделены красным В этой статье мы представляем HaGRIDv2-1M — обновлённую и значительно расширенную версию...
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
Читать далее
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet | @habr_ai
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
Читать далее
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet | @habr_ai
Хабр
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Сразу к карте? Если вы предпочитаете действовать, а не читать, вот ссылка на Mind Map (figma) или ссылка на (pdf) . Она доступна для изучения прямо сейчас. А если хотите понять контекст и узнать...
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.
Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов. Читать далее
#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #human_computer_interaction | @habr_ai
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.
Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов. Читать далее
#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #human_computer_interaction | @habr_ai
Хабр
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы...
Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i
В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.
Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i. Если первые версии TPU были ориентированы исключительно на ускорение инференса (выполнение уже обученных моделей), то TPUv2 и TPUv3 смогли взять на себя ещё и тренировку крупных нейросетей. Но в дальнейшем выяснилось, что для оптимальной работы дата-центров в масштабах Google рациональнее разделить решения для тренировки и инференса. TPUv4i — это результат учёта многих уроков и ограничений, проявившихся в предыдущих чипах.
В этом материале разберём, какие «десять уроков» сформировали подход Google к созданию TPUv4i, что это за архитектура и какие проблемы дата-центров она решает.
Читать далее
#ml #pytorch #proceesors #deep_learning #inference | @habr_ai
В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.
Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i. Если первые версии TPU были ориентированы исключительно на ускорение инференса (выполнение уже обученных моделей), то TPUv2 и TPUv3 смогли взять на себя ещё и тренировку крупных нейросетей. Но в дальнейшем выяснилось, что для оптимальной работы дата-центров в масштабах Google рациональнее разделить решения для тренировки и инференса. TPUv4i — это результат учёта многих уроков и ограничений, проявившихся в предыдущих чипах.
В этом материале разберём, какие «десять уроков» сформировали подход Google к созданию TPUv4i, что это за архитектура и какие проблемы дата-центров она решает.
Читать далее
#ml #pytorch #proceesors #deep_learning #inference | @habr_ai
Хабр
Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i
В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного...
Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2
Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки! Читать дальше →
#selectel #ии #искусственный_интеллект #машинное_обучение #ml #dl #deep_learning #глубокое_обучение #познавательное | @habr_ai
Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки! Читать дальше →
#selectel #ии #искусственный_интеллект #машинное_обучение #ml #dl #deep_learning #глубокое_обучение #познавательное | @habr_ai
Хабр
Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2
Привет! Некоторое время назад я начал искать истоки термина «Deep Learning» . Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж,...
[Перевод] Обзор решений для создания AI-аватаров. История развития и практическое применение
Исследование эволюции AI аватаров — от примитивных говорящих голов до полноценных персонажей с естественной мимикой и движениями тела.
Анализ возможностей технологии на основе практических тестов более 20 продуктов и их применение в трех ключевых сегментах: для потребителей (создание персонажей), малого бизнеса (лидогенерация) и предприятий (масштабирование контента) Читать далее
#искусственный_интеллект #ai_аватары #генерация_видео #deep_learning #ai_персонажи #контент #виртуальные_персонажи #цифровые_медиа #ai | @habr_ai
Исследование эволюции AI аватаров — от примитивных говорящих голов до полноценных персонажей с естественной мимикой и движениями тела.
Анализ возможностей технологии на основе практических тестов более 20 продуктов и их применение в трех ключевых сегментах: для потребителей (создание персонажей), малого бизнеса (лидогенерация) и предприятий (масштабирование контента) Читать далее
#искусственный_интеллект #ai_аватары #генерация_видео #deep_learning #ai_персонажи #контент #виртуальные_персонажи #цифровые_медиа #ai | @habr_ai
Хабр
Обзор решений для создания AI-аватаров. История развития и практическое применение
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:...
Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере
Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.
Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Ну и, конечно же, поговорим про замеры качества. Читать далее
#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning | @habr_ai
Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.
Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Ну и, конечно же, поговорим про замеры качества. Читать далее
#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning | @habr_ai
Хабр
Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере
Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы...
Играемся с RTX 5090 (GB202) для инференса
Продолжаем статьи про практические тесты актуальных картонок от Nvidia (A5000 Ada, A100, 3090 и A10). В этот раз мне предложили (не реклама) денёк погонять Nvidia RTX 5090 в хостинге (себе такую брать я бы не стал), и я не мог отказаться от такого предложения.
За день что-то стоящее натренировать нынче уже проблематично, поэтому будем "снимать" уже привычных обратно совместимых "попугаев" через gpu-burn и также замерим скорость инференса одной нашей довольно прожорливой сетки в продакшене.
Все шутки про Nvidia давно уже не шутки, санкции и торговые войны идут своим чередом, но тем не менее в России новинки появляются с завидной регулярностью несмотря на все запреты.
На фоне сильно негативного новостного фона со стороны игрового сообщества про новый релиз Nvidia и своеобразных "успехов" Nvidia по наращиванию своей капитализации продвинутой "сегментации" рынка (все уже пошутили про новый коннектор, огромный рост TDP и размера карт), мне лично было интересно, а есть ли рост 50* поколения карт для наших задач против 30* поколения.
Если верить техно- и игровым блоггерам, их новое поколение совсем не впечатлило. Меня зато так "впечатлило" 40* поколение, что мы даже не рассматривали апгрейд 3090. Но обо всём по порядку. Давайте разбираться!
#nvidia #blackwell #5090 #deep_learning #машинное_обучение #нейросети #видеокарта #nvidia_rtx_5090 #geforce #железо | @habr_ai
Продолжаем статьи про практические тесты актуальных картонок от Nvidia (A5000 Ada, A100, 3090 и A10). В этот раз мне предложили (не реклама) денёк погонять Nvidia RTX 5090 в хостинге (себе такую брать я бы не стал), и я не мог отказаться от такого предложения.
За день что-то стоящее натренировать нынче уже проблематично, поэтому будем "снимать" уже привычных обратно совместимых "попугаев" через gpu-burn и также замерим скорость инференса одной нашей довольно прожорливой сетки в продакшене.
Все шутки про Nvidia давно уже не шутки, санкции и торговые войны идут своим чередом, но тем не менее в России новинки появляются с завидной регулярностью несмотря на все запреты.
На фоне сильно негативного новостного фона со стороны игрового сообщества про новый релиз Nvidia и своеобразных "успехов" Nvidia по наращиванию своей капитализации продвинутой "сегментации" рынка (все уже пошутили про новый коннектор, огромный рост TDP и размера карт), мне лично было интересно, а есть ли рост 50* поколения карт для наших задач против 30* поколения.
Если верить техно- и игровым блоггерам, их новое поколение совсем не впечатлило. Меня зато так "впечатлило" 40* поколение, что мы даже не рассматривали апгрейд 3090. Но обо всём по порядку. Давайте разбираться!
#nvidia #blackwell #5090 #deep_learning #машинное_обучение #нейросети #видеокарта #nvidia_rtx_5090 #geforce #железо | @habr_ai
Хабр
Играемся с RTX 5090 (GB202) для инференса
Настраиваю карточку для тестов (шутка) Продолжаем статьи про практические тесты актуальных картонок от Nvidia ( A5000 Ada , A100 , 3090 и A10 ). В этот раз мне предложили (не реклама) денёк погонять...
Хорошая девушка LoRA! А чем же она хороша?
Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров» фильма. Но для работы со смыслами, идеями и описаниями кинопроектов нужна более эффективная методика, позволяющая оценивать творческий замысел и основные идеи хотя бы на уровне аннотации – краткого синопсиса. И здесь уже не обойтись без больших языковых моделей. Читать далее
#machine_learning #deep_learning #nlp #lora_fine_tuning #lora | @habr_ai
Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров» фильма. Но для работы со смыслами, идеями и описаниями кинопроектов нужна более эффективная методика, позволяющая оценивать творческий замысел и основные идеи хотя бы на уровне аннотации – краткого синопсиса. И здесь уже не обойтись без больших языковых моделей. Читать далее
#machine_learning #deep_learning #nlp #lora_fine_tuning #lora | @habr_ai
Хабр
Хорошая девушка LoRA! А чем же она хороша?
Автор статьи: Антон Дождиков ( @Antony_Rain ) Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы...