ИИ-го-го или как AI-стартапу с TTS сэкономить копеечку: синтез речи из палок и веток для low-resource языков
Идущие майские учат нас, что шашлык сам себя не пожарит…но это лишь до поры до времени – не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому давайте поговорим … о котиках о лошадках 🐴
Слышали ли вы, как скачет конь по монгольской степи? Если нет, то в этой статье мы исправим это упущение и расскажем, как за 'недорого' натренировать облегчённую TTS (Time-to-speech) модель для воспроизведения речи на монгольском языке, очень непривычно звучащим для русского уха и практически непроизносимом для языка 🚑
тыг-дык-тыг-дык… тыг-дык-тыг-дык…ии-го-го … Примерно такого аудио ряда мы ждем на выходе у нашего эксперимента... Чтобы узнать, как мы дошли до такой жизни, что у нас в итого получилось и насколько оно бьется с ожиданиями, поскакали под кат! 😜🚀
Поскакать
#stt #tts #text_to_speech #speech_to_text #монголия #tacotron_2 #cnn #rnn #low_resource_languages | @habr_ai
Идущие майские учат нас, что шашлык сам себя не пожарит…но это лишь до поры до времени – не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому давайте поговорим … о котиках о лошадках 🐴
Слышали ли вы, как скачет конь по монгольской степи? Если нет, то в этой статье мы исправим это упущение и расскажем, как за 'недорого' натренировать облегчённую TTS (Time-to-speech) модель для воспроизведения речи на монгольском языке, очень непривычно звучащим для русского уха и практически непроизносимом для языка 🚑
тыг-дык-тыг-дык… тыг-дык-тыг-дык…ии-го-го … Примерно такого аудио ряда мы ждем на выходе у нашего эксперимента... Чтобы узнать, как мы дошли до такой жизни, что у нас в итого получилось и насколько оно бьется с ожиданиями, поскакали под кат! 😜🚀
Поскакать
#stt #tts #text_to_speech #speech_to_text #монголия #tacotron_2 #cnn #rnn #low_resource_languages | @habr_ai
Хабр
Как AI-стартапу сэкономить копеечку: синтез речи из палок и веток для low-resource языков
Как учат нас майские, шашлык сам себя не пожарит…но это лишь до поры до времени и не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому...
Распознавание капчи при помощи CNN модели
Привет, Хабр!
Хочу поделиться своим опытом предобработки картиной с капчей и созданием модели, которая может определить, что же за символы в этой картинке. Код с архитектурой модели и обучением тоже будет, но основной упор часть с предобработкой картинок, поскольку это самая сложная часть. Также стоит упомянуть о допущениях, которые делались для упрощения задачи: использовались только латинские буквы (без цифр), все буквы в верхнем регистре, все капчи состоят из четырех символов (это самое серьезное допущение). Нажмите, чтобы подвердить, что вы не робот
#python3 #python #cnn #neural_networks #машинное_обучение #нейросети #mach #mac | @habr_ai
Привет, Хабр!
Хочу поделиться своим опытом предобработки картиной с капчей и созданием модели, которая может определить, что же за символы в этой картинке. Код с архитектурой модели и обучением тоже будет, но основной упор часть с предобработкой картинок, поскольку это самая сложная часть. Также стоит упомянуть о допущениях, которые делались для упрощения задачи: использовались только латинские буквы (без цифр), все буквы в верхнем регистре, все капчи состоят из четырех символов (это самое серьезное допущение). Нажмите, чтобы подвердить, что вы не робот
#python3 #python #cnn #neural_networks #машинное_обучение #нейросети #mach #mac | @habr_ai
Хабр
Распознавание капчи при помощи CNN модели
Привет, Хабр! Хочу поделиться своим опытом предобработки картиной с капчей и созданием модели, которая может определить, что же за символы в этой картинке. Код с архитектурой модели и обучением тоже...
Прогнозируем движение льда в Арктике с помощью фреймворка автоматически собираемых сверток
Привет! Меня зовут Андрей, я студент ИТМО. В вузе есть NSS-лаборатория, в которой создают AutoML-решения и моделируют природные процессы, например, прогнозируют концентрацию и толщину льда в Арктике. Но выводы и результаты таких исследований могут жить не только в кровавом энтерпрайзе.
В этой статье я покажу, как сделать свой первый ML-проект, используя только свертки CNN-моделей. И сделаю это на примере небольшой библиотеки, которую я написал как раз в рамках вузовской практики в лаборатории. Читать дальше →
#selectel #машинное_обучение #ml #cnn #свертки #арктика #прогнозирование #machine_learning #deep_learning | @habr_ai
Привет! Меня зовут Андрей, я студент ИТМО. В вузе есть NSS-лаборатория, в которой создают AutoML-решения и моделируют природные процессы, например, прогнозируют концентрацию и толщину льда в Арктике. Но выводы и результаты таких исследований могут жить не только в кровавом энтерпрайзе.
В этой статье я покажу, как сделать свой первый ML-проект, используя только свертки CNN-моделей. И сделаю это на примере небольшой библиотеки, которую я написал как раз в рамках вузовской практики в лаборатории. Читать дальше →
#selectel #машинное_обучение #ml #cnn #свертки #арктика #прогнозирование #machine_learning #deep_learning | @habr_ai
Хабр
Прогнозируем движение льда в Арктике с помощью фреймворка автоматически собираемых сверток
Привет! Меня зовут Андрей, я студент ИТМО. В вузе есть NSS-лаборатория , в которой создают AutoML-решения и моделируют природные процессы, например, прогнозируют концентрацию и толщину льда в Арктике....
Задача распознавания эмоций. Часть 2. Три кита качества
Данная часть будет посвящена теоретическому обзору проблем ML и их решений в контексте задачи распознавания эмоций. Не смотря на то, что многие из перечисленных проблем уже давно изучены, а методы борьбы с ними реализованы в существующих фреймворках, знать хотя бы об их существовании будет очень полезно.
В этой части мы коротко поговорим о данных, о работе сверточных нейросетей и о глобальных параметрах. От том что такое СГС и почему нельзя решать задачу в виде линейного уравнения. Затронем тему оптимизаторов и ответим на вопрос почему нельзя просто использовать обычный градиентный спуск. В общем, обо всех деталях коротко и структурно.
Читать далее
#computer_vision #data_science #машинное_зрение #градиентный_спуск #cnn #регуляризация #adam #loss #optimizer #классификатор | @habr_ai
Данная часть будет посвящена теоретическому обзору проблем ML и их решений в контексте задачи распознавания эмоций. Не смотря на то, что многие из перечисленных проблем уже давно изучены, а методы борьбы с ними реализованы в существующих фреймворках, знать хотя бы об их существовании будет очень полезно.
В этой части мы коротко поговорим о данных, о работе сверточных нейросетей и о глобальных параметрах. От том что такое СГС и почему нельзя решать задачу в виде линейного уравнения. Затронем тему оптимизаторов и ответим на вопрос почему нельзя просто использовать обычный градиентный спуск. В общем, обо всех деталях коротко и структурно.
Читать далее
#computer_vision #data_science #машинное_зрение #градиентный_спуск #cnn #регуляризация #adam #loss #optimizer #классификатор | @habr_ai
Хабр
Задача распознавания эмоций. Часть 2. Три кита качества
Эта часть будет посвящена теоретическому обзору проблем и их решений в контексте задачи распознавания эмоций. Несмотря на то, что многие из перечисленных проблем уже давно изучены, а методы борьбы с...
Наш опыт применения AI-технологий для классификации документов для подачи в суд
Как мы создали, обучили и выпустили в свет сервис, использующий технологию машинного обучения для распознавания и классификации юридических документов? В этой статье мы расскажем об опыте разработки этого решения для автоматизации труда юристов и взыскателей, и о трудностях на этом пути. Читать далее
#ocr #nlp #cnn #ai #распознавание_текста #распознавание_паспорта #распознавание_документов #legaltech #legal_services #legal | @habr_ai
Как мы создали, обучили и выпустили в свет сервис, использующий технологию машинного обучения для распознавания и классификации юридических документов? В этой статье мы расскажем об опыте разработки этого решения для автоматизации труда юристов и взыскателей, и о трудностях на этом пути. Читать далее
#ocr #nlp #cnn #ai #распознавание_текста #распознавание_паспорта #распознавание_документов #legaltech #legal_services #legal | @habr_ai
Хабр
Наш опыт применения AI-технологий для классификации документов для подачи в суд
Как мы создали, обучили и выпустили в свет сервис, использующий технологию машинного обучения для распознавания и классификации юридических документов? В этой статье мы расскажем вам об опыте...
Kaggle для футболистов: Классификация событий на футбольном поле
Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!
Читать далее
#kaggle #computer_vision #cnn #футбол #yolo #opencv #machinelearning | @habr_ai
Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!
Читать далее
#kaggle #computer_vision #cnn #футбол #yolo #opencv #machinelearning | @habr_ai
Хабр
Kaggle для футболистов: Классификация событий на футбольном поле
Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью...
Свёрточные нейронные сети: от основ до современных технологий
Исследуем свёрточные нейронные сети (CNN): полный гид
От основ нейронных сетей до кода: узнайте, как CNN обрабатывают изображения. Включает:
Основы: нейроны, слои, обучение.
Компоненты CNN: свёртка, пулинг, полносвязные слои.
Архитектуры: LeNet, AlexNet, VGG, GoogleNet, ResNet.
Практический пример на TensorFlow.
Сравнение с Vision Transformers. Идеально для новичков и экспертов Читать далее
#cnn #пуллинг #фильтры #глубокое_обучение #машинное_обучение #компьютерное_зрение #python #python3 #tensorflow | @habr_ai
Исследуем свёрточные нейронные сети (CNN): полный гид
От основ нейронных сетей до кода: узнайте, как CNN обрабатывают изображения. Включает:
Основы: нейроны, слои, обучение.
Компоненты CNN: свёртка, пулинг, полносвязные слои.
Архитектуры: LeNet, AlexNet, VGG, GoogleNet, ResNet.
Практический пример на TensorFlow.
Сравнение с Vision Transformers. Идеально для новичков и экспертов Читать далее
#cnn #пуллинг #фильтры #глубокое_обучение #машинное_обучение #компьютерное_зрение #python #python3 #tensorflow | @habr_ai
Хабр
Свёрточные нейронные сети: от основ до современных технологий
Привет, Хабр! Я подготовил для вас подробную статью о свёрточных нейронных сетях ( Convolutional Neural Networks , CNN) — мощном инструменте машинного обучения, который изменил подход к обработке...
Нейросетевой подход для классификации событий отслеживаемых сверхширокополосным радаром
В данной статье речь пойдёт о том, как используя разные архитектуры нейронных сетей классифицировать данные полученные со сверхширокополосного радара " XETHRU by NOVELDA X4M02 290056-010 ". Моя работа основана на публикации " UWB-gestures, a public dataset of dynamic hand gestures acquired using impulse radar sensors " в которой подробно рассмотрена задача классификации человеческих жестов заснятых на сверхширокополосный радар при помощи свёрточной нейронной сети. Авторы оригинальной статьи выложили весь датасет собранный ими в открытый доступ, благодаря чему у меня появилась возможность воспроизвести их результат, а так же превзойти его применив архитектуры рекуррентных нейронных сетей и трансформеров.
Оригинальная статья:
https://www.researchgate.net/publication/350811193_UWB-gestures_a_public_dataset_of_dynamic_hand_gestures_acquired_using_impulse_radar_sensors https://www.nature.com/articles/s41597-021-00876-0
Данные:
https://figshare.com/articles/dataset/A_Public_Dataset_of_Dynamic_Hand-gestures_Acquired_using_Impulse-radar_sensors_/12652592
Мой GitHub с кодом:
https://github.com/DenissStepanjuk/UWB-Gestures-classification-with-Neural-Networks
Ознакомиться.
#rnn #attention #cnn #uwb #сшп #сверхширокополосная_радиолокация #трансформеры #искусственный_интеллект #радарные_датчики #радар | @habr_ai
В данной статье речь пойдёт о том, как используя разные архитектуры нейронных сетей классифицировать данные полученные со сверхширокополосного радара " XETHRU by NOVELDA X4M02 290056-010 ". Моя работа основана на публикации " UWB-gestures, a public dataset of dynamic hand gestures acquired using impulse radar sensors " в которой подробно рассмотрена задача классификации человеческих жестов заснятых на сверхширокополосный радар при помощи свёрточной нейронной сети. Авторы оригинальной статьи выложили весь датасет собранный ими в открытый доступ, благодаря чему у меня появилась возможность воспроизвести их результат, а так же превзойти его применив архитектуры рекуррентных нейронных сетей и трансформеров.
Оригинальная статья:
https://www.researchgate.net/publication/350811193_UWB-gestures_a_public_dataset_of_dynamic_hand_gestures_acquired_using_impulse_radar_sensors https://www.nature.com/articles/s41597-021-00876-0
Данные:
https://figshare.com/articles/dataset/A_Public_Dataset_of_Dynamic_Hand-gestures_Acquired_using_Impulse-radar_sensors_/12652592
Мой GitHub с кодом:
https://github.com/DenissStepanjuk/UWB-Gestures-classification-with-Neural-Networks
Ознакомиться.
#rnn #attention #cnn #uwb #сшп #сверхширокополосная_радиолокация #трансформеры #искусственный_интеллект #радарные_датчики #радар | @habr_ai
Хабр
Нейросетевой подход для классификации событий отслеживаемых сверхширокополосным радаром
В данной статье речь пойдёт о том, как используя разные архитектуры нейронных сетей классифицировать данные полученные со сверхширокополосного радара " XETHRU by NOVELDA X4M02 290056-010 " . Моя...
Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса
Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic)
Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).
Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества. Читать дальше →
#ян_лекун #lenet #djvu #компьютерное_зрение #машинное_зрение #распознавание_символов #ocr #свёрточные_нейросети #cnn #тест_тьюринга #условные_случайные_поля #crf #gtn #lush #вейвлет_преобразование #dwt #jpeg2000 #pdf #llama #llm #нейросети #deepseek #ruvds_статьи | @habr_ai
Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic)
Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).
Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества. Читать дальше →
#ян_лекун #lenet #djvu #компьютерное_зрение #машинное_зрение #распознавание_символов #ocr #свёрточные_нейросети #cnn #тест_тьюринга #условные_случайные_поля #crf #gtn #lush #вейвлет_преобразование #dwt #jpeg2000 #pdf #llama #llm #нейросети #deepseek #ruvds_статьи | @habr_ai
Хабр
Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса
Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих...
Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности
Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально.
Пришел клиент, принес проект. Система поиска родственных связей по фото. Все работает, все ищется, но хочется, чтобы было еще точнее, еще глубже. «А что если сравнивать…уши», – подумали мы.
Почему уши? Потому что они, как и лица, обладают уникальной формой, но в отличие от лица — не меняются с возрастом, не маскируются бородой и не хмурятся на паспортном контроле.
Идеальный кандидат для дополнительного биометрического сигнала. Но не все так просто.
Нам предстоял полный цикл разработки модуля распознавания и сравнения ушей: Читать далее
#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer #датасет #cnn #искусственный_интеллект #компьютерное_зрение | @habr_ai
Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально.
Пришел клиент, принес проект. Система поиска родственных связей по фото. Все работает, все ищется, но хочется, чтобы было еще точнее, еще глубже. «А что если сравнивать…уши», – подумали мы.
Почему уши? Потому что они, как и лица, обладают уникальной формой, но в отличие от лица — не меняются с возрастом, не маскируются бородой и не хмурятся на паспортном контроле.
Идеальный кандидат для дополнительного биометрического сигнала. Но не все так просто.
Нам предстоял полный цикл разработки модуля распознавания и сравнения ушей: Читать далее
#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer #датасет #cnn #искусственный_интеллект #компьютерное_зрение | @habr_ai
Хабр
Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности
Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. Пришел клиент, принес проект. Система поиска родственных связей по...
Методы интерпретации на основе вмешательства в CV: RISE implementation
Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE. В этом материале разобрана теоретическая постановка метода, подчеркнуты красивые математические идеи и переходы, и, конечно, реализован код для практики. Приглашаю к чтению! Ноутбук к туториалу доступен на гитхаб. Читать далее
#машинное_обучение #интерпретируемый_ии #карты_активации #machine_learning #cnn | @habr_ai
Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE. В этом материале разобрана теоретическая постановка метода, подчеркнуты красивые математические идеи и переходы, и, конечно, реализован код для практики. Приглашаю к чтению! Ноутбук к туториалу доступен на гитхаб. Читать далее
#машинное_обучение #интерпретируемый_ии #карты_активации #machine_learning #cnn | @habr_ai
Хабр
Методы интерпретации на основе вмешательства в CV: RISE implementation
Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE....