How Underspecification Presents Challenges for Machine Learning
Модели машинного обучения (ML), при использовании в реальных областях, часто демонстрируют неожиданное поведение. Например, модели компьютерного зрения могут проявлять удивительную чувствительность к нерелевантным характеристикам, а модели обработки естественного языка могут непредсказуемо зависеть от демографических корреляций, не указанных непосредственно в тексте. Некоторые причины этих неудач хорошо известны: например, обучение ML-моделей на плохо обработанных данных. Некоторые - только изучаются.
В статье, авторы из Google, показывают, что предсказание на реальных данных проваливается из-за недоопределения. Идея недоопределения заключается в том, что хотя модели ML тестируются на проверенных данных, этой проверки часто недостаточно, чтобы гарантировать, что модели будут иметь четко определенное поведение, когда они используются в новых условиях.
Блог-пост
#training #inference
Модели машинного обучения (ML), при использовании в реальных областях, часто демонстрируют неожиданное поведение. Например, модели компьютерного зрения могут проявлять удивительную чувствительность к нерелевантным характеристикам, а модели обработки естественного языка могут непредсказуемо зависеть от демографических корреляций, не указанных непосредственно в тексте. Некоторые причины этих неудач хорошо известны: например, обучение ML-моделей на плохо обработанных данных. Некоторые - только изучаются.
В статье, авторы из Google, показывают, что предсказание на реальных данных проваливается из-за недоопределения. Идея недоопределения заключается в том, что хотя модели ML тестируются на проверенных данных, этой проверки часто недостаточно, чтобы гарантировать, что модели будут иметь четко определенное поведение, когда они используются в новых условиях.
Блог-пост
#training #inference
SSAST: Self-Supervised Audio Spectrogram Transformer
Вообще стараюсь не писать про статьи без кода, но тут прям круг замкнулся. Следите за руками. Сначала придумали DL для картинок, потом попробовали применять этот картиночный DL к сигналам, поняли что что-то не так. Придумали использовать его на спектрограммах (2х мерное представление звука) - заработало. Потом придумали трансформеры, что бы работать непосредственно с time-series. Класс, все работает. Но! Потом придумали трансформеры для картинок (Visual Transformers - ViT), а теперь их же используют для спектрограмм. У меня все.
📎Статья
#transformer #signal #sound #SSL
Вообще стараюсь не писать про статьи без кода, но тут прям круг замкнулся. Следите за руками. Сначала придумали DL для картинок, потом попробовали применять этот картиночный DL к сигналам, поняли что что-то не так. Придумали использовать его на спектрограммах (2х мерное представление звука) - заработало. Потом придумали трансформеры, что бы работать непосредственно с time-series. Класс, все работает. Но! Потом придумали трансформеры для картинок (Visual Transformers - ViT), а теперь их же используют для спектрограмм. У меня все.
📎Статья
#transformer #signal #sound #SSL
WeightWatcher (WW) - это диагностический инструмент с открытым исходным кодом для анализа глубоких нейронных сетей (DNN), не требующий доступа к обучающим или даже тестовым данным. Он может быть использован для:
* анализа предобученых сетей
* контроля за переобучением или перепараметризацией
* прогноза точности тестов для различных моделей, с обучающими данными или без них
* выявления потенциальных проблем при сжатии или точной настройке предварительно обученных моделей
И ещё много чего. Библиотека основана на серьезных исследованиях лаборатории в Беркли. Собираюсь дать этой штуке шанс и посмотреть насколько это все полезно в реальных задачах.
🖥 Код
#training #inference #theory
* анализа предобученых сетей
* контроля за переобучением или перепараметризацией
* прогноза точности тестов для различных моделей, с обучающими данными или без них
* выявления потенциальных проблем при сжатии или точной настройке предварительно обученных моделей
И ещё много чего. Библиотека основана на серьезных исследованиях лаборатории в Беркли. Собираюсь дать этой штуке шанс и посмотреть насколько это все полезно в реальных задачах.
🖥 Код
#training #inference #theory
This media is not supported in your browser
VIEW IN TELEGRAM
Предсказание формулы в Google Sheets
Сотни миллионов людей пользуются электронными таблицами, и формулы в этих таблицах позволяют пользователям выполнять сложный анализ и преобразования данных. Хотя языки формул проще, чем языки программирования, написание этих формул все равно может быть утомительным и чреватым ошибками, особенно для не очень опытных пользователей.
В статье, Google описывает новую модель, которая учится автоматически генерировать формулы на основе богатого контекста вокруг целевой ячейки. Когда пользователь начинает писать формулу со знаком "=" система генерирует возможные релевантные формулы для этой ячейки, изучая шаблоны формул в исторических электронных таблицах. Модель использует данные, присутствующие в соседних строках и столбцах целевой ячейки, а также строку заголовка в качестве контекста.
Функция, основанная на этой модели, теперь общедоступна для пользователей Google Sheets.
🔭Блог-пост
Сотни миллионов людей пользуются электронными таблицами, и формулы в этих таблицах позволяют пользователям выполнять сложный анализ и преобразования данных. Хотя языки формул проще, чем языки программирования, написание этих формул все равно может быть утомительным и чреватым ошибками, особенно для не очень опытных пользователей.
В статье, Google описывает новую модель, которая учится автоматически генерировать формулы на основе богатого контекста вокруг целевой ячейки. Когда пользователь начинает писать формулу со знаком "=" система генерирует возможные релевантные формулы для этой ячейки, изучая шаблоны формул в исторических электронных таблицах. Модель использует данные, присутствующие в соседних строках и столбцах целевой ячейки, а также строку заголовка в качестве контекста.
Функция, основанная на этой модели, теперь общедоступна для пользователей Google Sheets.
🔭Блог-пост
This media is not supported in your browser
VIEW IN TELEGRAM
The Cocktail Fork Problem:
Three-Stem Audio Separation for Real-World Soundtracks
Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.
Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.
И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!
📎 Статья
📽 Проект
#sound #audio #signals
Three-Stem Audio Separation for Real-World Soundtracks
Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.
Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.
И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!
📎 Статья
📽 Проект
#sound #audio #signals
О вулканах и людях
Меня сегодня упомянули в подкасте @ofvolcanoesandmen (классная отсылка на исландский фильм Of Horses and Men).
Мой добрый товарищ Кирилл говорил о геологии, геохимии, о том как и зачем искать метеориты, и нужно ли учить исследователей методам машинного обучения.
🍏 Apple Podcast
🤖 Google Podcast
#этополюбви
Меня сегодня упомянули в подкасте @ofvolcanoesandmen (классная отсылка на исландский фильм Of Horses and Men).
Мой добрый товарищ Кирилл говорил о геологии, геохимии, о том как и зачем искать метеориты, и нужно ли учить исследователей методам машинного обучения.
🍏 Apple Podcast
🤖 Google Podcast
#этополюбви
Multi-label Classification with Partial Annotations using Class-aware Selective Loss
Большие датасеты для классификации с несколькими метками (multi-label classification) аннотированы лишь частично. То есть, для каждой выборки аннотируется только небольшое подмножество меток, и это плохо.
Что можно сделать? Неаннотированные метки можно обрабатывать выборочно в соответствии с распределением классов в датасете в целом и вероятностью конкретной метки для текущего батча.
📎 Статья
🖥 Код
#training #classification
Большие датасеты для классификации с несколькими метками (multi-label classification) аннотированы лишь частично. То есть, для каждой выборки аннотируется только небольшое подмножество меток, и это плохо.
Что можно сделать? Неаннотированные метки можно обрабатывать выборочно в соответствии с распределением классов в датасете в целом и вероятностью конкретной метки для текущего батча.
📎 Статья
🖥 Код
#training #classification
This media is not supported in your browser
VIEW IN TELEGRAM
НейроМЕРЧ 🎨
Я, совместно с брендом украшений MONOLAMA, выпустил коллекцию брошек сгенерированных нейросетью VQGAN+CLIP.
Подробнее о проекте почитать можно тут, а заказать себе брошку тут.
#этополюбви
Я, совместно с брендом украшений MONOLAMA, выпустил коллекцию брошек сгенерированных нейросетью VQGAN+CLIP.
Подробнее о проекте почитать можно тут, а заказать себе брошку тут.
#этополюбви
CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
This media is not supported in your browser
VIEW IN TELEGRAM
Я тут делаю курс по машинному обучению для науки. Поделитесь в комментариях, какие на ваш взгляд самые бомбические применения ML в науке? Желательно те, которые существуют уже, но можно и те, которые в разработке.
This media is not supported in your browser
VIEW IN TELEGRAM
ByteTrack 👀
Многообъектное отслеживание (MOT) работает путём определения границ и идентификации объектов в видео. Большинство методов определяют один и тот же ли это объект на разных кадрах путем объединения блоков обнаружения, чьи оценки превышают пороговое значение. Объекты с низкой оценкой обнаружения, например, перекрытые объекты, просто отбрасываются, что приводит к пропуску истинных объектов и фрагментации траекторий.
В статье, авторы объясняют, что так делать не надо, а надо брать объекты с вообще всеми оценками, а потом их перевешивать.
📎 Статья
🖥 Код
🤩 Онлайн-демо
P.S.: демка работает только с фото, но на гитхабе код норм для видео.
#video #tracking #demo
Многообъектное отслеживание (MOT) работает путём определения границ и идентификации объектов в видео. Большинство методов определяют один и тот же ли это объект на разных кадрах путем объединения блоков обнаружения, чьи оценки превышают пороговое значение. Объекты с низкой оценкой обнаружения, например, перекрытые объекты, просто отбрасываются, что приводит к пропуску истинных объектов и фрагментации траекторий.
В статье, авторы объясняют, что так делать не надо, а надо брать объекты с вообще всеми оценками, а потом их перевешивать.
📎 Статья
🖥 Код
🤩 Онлайн-демо
P.S.: демка работает только с фото, но на гитхабе код норм для видео.
#video #tracking #demo
This is Heloween
На просторах твиттера откопал колабчик, который позволяет преобразовать любое лицо во что угодно с помощью текста (CLIP). Самое то для следующих выходных 🎃
💻 Colab
#gan #text2image #CLIP
На просторах твиттера откопал колабчик, который позволяет преобразовать любое лицо во что угодно с помощью текста (CLIP). Самое то для следующих выходных 🎃
💻 Colab
#gan #text2image #CLIP
🤯 wav2CLIP
Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).
Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.
Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.
📎 Статья
🖥 Код
#clip #audio #video #multimodal
Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).
Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.
Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.
📎 Статья
🖥 Код
#clip #audio #video #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Квантовые симуляции NFT
Кибер-панк подъехал откуда не ждали. Умельцы додумались продавать квантовые симуляции как NFT. Надо видимо волны от землетрясений тоже в NFT заминтить. Ну а чего?
Показывают тут
Кибер-панк подъехал откуда не ждали. Умельцы додумались продавать квантовые симуляции как NFT. Надо видимо волны от землетрясений тоже в NFT заминтить. Ну а чего?
Показывают тут
SciCap: Generating Captions for Scientific Figures
Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.
Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.
Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.
📎 Статья
🗂 Данные
#ScientificML #captioning #datasets
Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.
Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.
Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.
📎 Статья
🗂 Данные
#ScientificML #captioning #datasets
Вышел большой обзор про ML в науке
В этом обзорном докладе обсуждаются приложения и методы быстрого машинного обучения (БМО) в науке - концепцию интеграции мощных методов БМО в цикл обработки экспериментальных данных в реальном времени для ускорения научных открытий.
Обзор охватывает три основных направления: приложения быстрого ML в ряде научных областей; методы обучения и реализации производительных и ресурсоэффективных алгоритмов ML; вычислительные архитектуры, платформы и технологии для развертывания этих алгоритмов.
Этот обзор призван продемонстрировать множество примеров и вдохновить на научные открытия с помощью ML.
📎 Статья
#ScientificML #physics
В этом обзорном докладе обсуждаются приложения и методы быстрого машинного обучения (БМО) в науке - концепцию интеграции мощных методов БМО в цикл обработки экспериментальных данных в реальном времени для ускорения научных открытий.
Обзор охватывает три основных направления: приложения быстрого ML в ряде научных областей; методы обучения и реализации производительных и ресурсоэффективных алгоритмов ML; вычислительные архитектуры, платформы и технологии для развертывания этих алгоритмов.
Этот обзор призван продемонстрировать множество примеров и вдохновить на научные открытия с помощью ML.
📎 Статья
#ScientificML #physics
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects
UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).
UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:
✅ Качественные, плотно аннотированные маски сэмлов.
✅ Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео
✅ Разнообразные категории объектов: 57% объектов не охватываются категориями COCO
📎 Статья
🗂 Датасет
#segmentation #datasets #video
UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).
UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:
✅ Качественные, плотно аннотированные маски сэмлов.
✅ Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео
✅ Разнообразные категории объектов: 57% объектов не охватываются категориями COCO
📎 Статья
🗂 Датасет
#segmentation #datasets #video
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA онлайн доклад по биоинформатике :
👨🔬 Александр Ташкеев (University of Liege, Animal Genomics Lab) "Базовые аспекты производства и моделирования данных РНК-секвенирования одиночных клеток"
⌚️ Пятница 29 октября, 18.00 по Москве
Поговорим про РНК-секвенирование одиночных клеток на примере коммерческого протокола 10x Genomics, самого распространенного на сегодняшний день.
Сначала рассмотрим экспериментальную часть в объеме, нужном для статистического моделирования таких данных и понимания возможных артефактов.
Потом обсудим разные подходы к моделированию - более и менее knowledge-driven, их возможные плюсы и минусы.
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу
👨🔬 Александр Ташкеев (University of Liege, Animal Genomics Lab) "Базовые аспекты производства и моделирования данных РНК-секвенирования одиночных клеток"
⌚️ Пятница 29 октября, 18.00 по Москве
Поговорим про РНК-секвенирование одиночных клеток на примере коммерческого протокола 10x Genomics, самого распространенного на сегодняшний день.
Сначала рассмотрим экспериментальную часть в объеме, нужном для статистического моделирования таких данных и понимания возможных артефактов.
Потом обсудим разные подходы к моделированию - более и менее knowledge-driven, их возможные плюсы и минусы.
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу
Если увидите какую-то странную рекламу - имейте ввиду, что я к ней не имею никакого отношения, и повлиять на неё я никак не могу.
Свою собственную рекламу я помечаю тегом #реклама
Свою собственную рекламу я помечаю тегом #реклама
Meduza
Павел Дуров заявил о запуске официальной рекламы в Telegram
Скоро в телеграм-каналах появятся рекламные сообщения, которые будет размещать администрация мессенджера. Об этом рассказал создатель Telegram Павел Дуров.