Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Алгоритмам машинного обучения нужно очень много данных, чтобы достичь непревзойдённых результатов. Например, чтобы хорошо классифицировать объекты на изображении нужны десятки тысяч объектов для каждого класса. Где же найти так много данных для обучения? Ответ вы скорее всего знаете и он transfer learning, но всё же, чем больше примеров есть, тем лучшее. Популярный способ расширить набор данных - аугментация. Это такой способ исказить изображения, тем самым расширяя вариативность ваших данных.


Популярные сейчас библиотеки:
https://github.com/aleju/imgaug - наверное самый известный проект для аугментации изображений
https://github.com/albu/albumentations - совсем недавно была разработана, работает быстрее и умеет делать совсем нетривиальные искажения, обязательно попробуйте


С этими библиотеками вы можете добавить совсем простые искажения, как повороты и масштабирование, так и более сложные, изменение цвета и добавление бликов.

Ещё один интересный подход, использовать GAN для генерации правдоподобных изображений https://towardsdatascience.com/generative-adversarial-networks-for-data-augmentation-experiment-design-2873d586eb59

А вообще очень сильно нахватает способа аугментации текстов, исказить текст не теряя смысл интересная и трудная задача.

#cv #nn #data #augmentation