#SSL
#noise
#LNL
Contrast to Divide
Статья про то, как использовать self-supervised метод, если у вас много данных, но они все шумные (Learning with noisy labels, LNL)
Обычно в таких случаях пытаются пользоваться допущением, что на нейросеть поначалу будет учить лучше правильные примеры, а на тех, где метка неверна - будет выдавать большую ошибку. Потом же она войдет в memoization phase, где эта разница пропадет.
Потому главная проблема в таком подходе - "поймать момент", когда нейросеть уже выучила правильное, не запомнила кучу мусора.
Авторы показывают, что в общем случае это сделать сложно.
Кроме того они разбирают вариант, когда для LNL используется не архитектура с нуля, а self-superised предобученная на близком домене нейросеть. Первая проблема подхода в том, что не всегда такая сеть / чистый набор данных в принципе есть. Вторая - что он тоже может не работать.
Авторы предлагают использовать предобучение на именно целевом датасете и показывают, что это работает лучше других подходов.
Тема может очень подойти части студентов - у биологов часто данные получены с огромным шумом из-за артефактов эксперимента, неправильной аннотации, врущих пациентов и тд
#noise
#LNL
Contrast to Divide
Статья про то, как использовать self-supervised метод, если у вас много данных, но они все шумные (Learning with noisy labels, LNL)
Обычно в таких случаях пытаются пользоваться допущением, что на нейросеть поначалу будет учить лучше правильные примеры, а на тех, где метка неверна - будет выдавать большую ошибку. Потом же она войдет в memoization phase, где эта разница пропадет.
Потому главная проблема в таком подходе - "поймать момент", когда нейросеть уже выучила правильное, не запомнила кучу мусора.
Авторы показывают, что в общем случае это сделать сложно.
Кроме того они разбирают вариант, когда для LNL используется не архитектура с нуля, а self-superised предобученная на близком домене нейросеть. Первая проблема подхода в том, что не всегда такая сеть / чистый набор данных в принципе есть. Вторая - что он тоже может не работать.
Авторы предлагают использовать предобучение на именно целевом датасете и показывают, что это работает лучше других подходов.
Тема может очень подойти части студентов - у биологов часто данные получены с огромным шумом из-за артефактов эксперимента, неправильной аннотации, врущих пациентов и тд
Audio
neural waveshaping synthesis
С помощью нейросетей теперь можно переиграть любой звук виолончелью, флейтой или трубой. Любой желающий может сделать это, перейдя по ссылке.
А вот код для запуска у себя на ПК и cтатья на arxiv про эту нейросеть.
На сайте Gradio есть ещё очень много интересных демо-приложений с разными нейросетями.
Пример: известная мелодия из Rick Astley - Never Gonna Give You Up на виолончели. Звук сгенерирован полностью нейросетью.
Советую сделать звук динамиков потише.
#code #sound #signal #generative
С помощью нейросетей теперь можно переиграть любой звук виолончелью, флейтой или трубой. Любой желающий может сделать это, перейдя по ссылке.
А вот код для запуска у себя на ПК и cтатья на arxiv про эту нейросеть.
На сайте Gradio есть ещё очень много интересных демо-приложений с разными нейросетями.
Пример: известная мелодия из Rick Astley - Never Gonna Give You Up на виолончели. Звук сгенерирован полностью нейросетью.
Советую сделать звук динамиков потише.
#code #sound #signal #generative
Ещё одна версия VQGAN + CLIP с другим типом аугментации и сэмплирования из модели. Предположительно даёт лучшее качество.
Colab
#text2image #generative #gan #CLIP
Colab
#text2image #generative #gan #CLIP
Image to Latex
Позволяет преобразовывать картинки с формулами из LaTeX в собственно TeX код. Очень удобно, надо только онлайн демку где-то захостить (на Gradio) или на Spaces.
#image2text #latex #ScientificML
Позволяет преобразовывать картинки с формулами из LaTeX в собственно TeX код. Очень удобно, надо только онлайн демку где-то захостить (на Gradio) или на Spaces.
#image2text #latex #ScientificML
Twitter
PyTorch Lightning
⚡️🤓 Take a peek at this application which maps an image of a LaTeX math equation to LaTeX code using PyTorch Lightning. #deeplearning github.com/kingyiusuen/im…
Набор данных iNaturalist 2017 (iNat) содержит 675 170 обучающих и тестовых изображений из 5 089 природных мелкодисперсных категорий. Эти категории принадлежат к 13 суперкатегориям, включая Plantae (растения), Insecta (насекомые), Aves (птицы), Mammalia (млекопитающие) и так далее. Набор данных iNat очень несбалансирован, количество изображений в каждой категории резко отличается. Например, самая большая суперкатегория "Plantae (Растения)" содержит 196 613 изображений из 2 101 категории, в то время как самая маленькая суперкатегория "Protozoa" содержит только 381 изображение из 4 категорий.
По ссылке доступны датасеты по годам 2017-2021.
https://github.com/visipedia/inat_comp
#datasets #ScientificML #images
По ссылке доступны датасеты по годам 2017-2021.
https://github.com/visipedia/inat_comp
#datasets #ScientificML #images
Машинное обучение помогает детектировать гравитационные волны.
Чтобы задетектировать гравитационную волну, надо сначала записать смещение пробного тела, а потом в этих записях найти формы сигнала, которые соответствуют волновой форме, которую могли вызвать гравитационные волны.
В статье рассказывается про то как вот этот второй этап оптимизировать, то есть, среди смещения пробной массы найти похожие на вызванные гравитационными волнами.
https://developer.nvidia.com/blog/ai-detects-gravitational-waves-faster-than-real-time/?linkId=100000059156832
#ScientificML #astronomy
Чтобы задетектировать гравитационную волну, надо сначала записать смещение пробного тела, а потом в этих записях найти формы сигнала, которые соответствуют волновой форме, которую могли вызвать гравитационные волны.
В статье рассказывается про то как вот этот второй этап оптимизировать, то есть, среди смещения пробной массы найти похожие на вызванные гравитационными волнами.
https://developer.nvidia.com/blog/ai-detects-gravitational-waves-faster-than-real-time/?linkId=100000059156832
#ScientificML #astronomy
NVIDIA Developer Blog
AI Detects Gravitational Waves Faster than Real Time | NVIDIA Developer Blog
Created by a group of scientists, the new research highlights how AI and supercomputing can accelerate reproducible, data-driven discoveries.
Video contrastive learning with global context.
Предлагают новый метод контрастивного обучения на уровне видео, основанный на сегментах для формирования положительных пар.
Формулировка в статье позволяет улавливать глобальный контекст в видео, что делает ее устойчивой к временным изменениям контента. Авторы так же включают термин регуляризации временного порядка, чтобы обеспечить соблюдение присущей видео последовательной структуры.
GitHub
#ContrastiveLearning #video
Предлагают новый метод контрастивного обучения на уровне видео, основанный на сегментах для формирования положительных пар.
Формулировка в статье позволяет улавливать глобальный контекст в видео, что делает ее устойчивой к временным изменениям контента. Авторы так же включают термин регуляризации временного порядка, чтобы обеспечить соблюдение присущей видео последовательной структуры.
GitHub
#ContrastiveLearning #video
EarthQuake Transformer.
Обнаружение сигналов землетрясений и выделение сейсмических фаз - сложные задачи в обработке зашумленных данных и мониторинге микроземлетрясений. Здесь авторы представляют глобальную модель глубокого обучения для одновременного обнаружения землетрясений и выделения фаз.
Авторы показывают, что их модель превосходит предыдущие алгоритмы глубокого обучения и традиционные алгоритмы выделения и обнаружения фаз.
Применив модель к данным, записанных во время землетрясения 2000 года в Японии, авторы смогли обнаружить и локализовать в два раза большее количество землетрясений, используя только часть (менее 1/3) сейсмических станций. Их модель выбирает P и S фазы с точностью, близкой к точности ручного выбора человеческими аналитиками; однако ее высокая эффективность и более высокая чувствительность может привести к обнаружению и определению характеристик большего числа и меньших событий.
Статья
GitHub
#ScientificML #earthscience #transformer #waveforms
Обнаружение сигналов землетрясений и выделение сейсмических фаз - сложные задачи в обработке зашумленных данных и мониторинге микроземлетрясений. Здесь авторы представляют глобальную модель глубокого обучения для одновременного обнаружения землетрясений и выделения фаз.
Авторы показывают, что их модель превосходит предыдущие алгоритмы глубокого обучения и традиционные алгоритмы выделения и обнаружения фаз.
Применив модель к данным, записанных во время землетрясения 2000 года в Японии, авторы смогли обнаружить и локализовать в два раза большее количество землетрясений, используя только часть (менее 1/3) сейсмических станций. Их модель выбирает P и S фазы с точностью, близкой к точности ручного выбора человеческими аналитиками; однако ее высокая эффективность и более высокая чувствительность может привести к обнаружению и определению характеристик большего числа и меньших событий.
Статья
GitHub
#ScientificML #earthscience #transformer #waveforms
The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning
ArXiv
Работа расширяющая Фреймворк
#ScientificML #RL #economics
ArXiv
Работа расширяющая Фреймворк
#ScientificML #RL #economics
Sketch your own #GAN.
Работа показывает как можно манипулировать латентным пространством с помощью скетчей нарисованных от руки.
Выглядит очень интересно! (видео по ссылке)
Видео-обзор Яника
#images
Работа показывает как можно манипулировать латентным пространством с помощью скетчей нарисованных от руки.
Выглядит очень интересно! (видео по ссылке)
Видео-обзор Яника
#images
Twitter
AK
Sketch Your Own GAN pdf: arxiv.org/pdf/2108.02774… abs: arxiv.org/abs/2108.02774 project page: peterwang512.github.io/GANSketching/ method can mold GANs to match shapes and poses specified by sketches while maintaining realism and diversity
🦠 AGAR: база данных изображений колоний микроорганизмов, выращенных на агаровой пластине.
Содержит 18000 фотографий пяти различных микроорганизмов, сделанных при различных условиях освещения двумя разными камерами.
Датасет
#ScientificML #datasets #biology
Содержит 18000 фотографий пяти различных микроорганизмов, сделанных при различных условиях освещения двумя разными камерами.
Датасет
#ScientificML #datasets #biology
Forwarded from Data Science by ODS.ai 🦜
27.23TB of research data in torrents! Includes dataset such as:
- Breast Cancer Cell Segmentation
- Liver Tumor Segmentation
- MRI Lesion Segmentation in Multiple Sclerosis
- Electron Microscopy, Hippocampus
- Digital Surface & Digital Terrain Model
And courses recordings, including:
- Introduction to Computer Science [CS50x] [Harvard] [2018]
- Artificial Intelligence(EDX)
- Richard Feynman's Lectures on Physics (The Messenger Lectures) (🔥)
- [Coursera] Machine Learning (Stanford University) (ml)
- [Coursera] Natural Language Processing (Stanford University) (nlp)
- [Coursera] Neural Networks for Machine Learning (University of Toronto) (neuralnets)
http://academictorrents.com/
#course #torrent #dataset
- Breast Cancer Cell Segmentation
- Liver Tumor Segmentation
- MRI Lesion Segmentation in Multiple Sclerosis
- Electron Microscopy, Hippocampus
- Digital Surface & Digital Terrain Model
And courses recordings, including:
- Introduction to Computer Science [CS50x] [Harvard] [2018]
- Artificial Intelligence(EDX)
- Richard Feynman's Lectures on Physics (The Messenger Lectures) (🔥)
- [Coursera] Machine Learning (Stanford University) (ml)
- [Coursera] Natural Language Processing (Stanford University) (nlp)
- [Coursera] Neural Networks for Machine Learning (University of Toronto) (neuralnets)
http://academictorrents.com/
#course #torrent #dataset
Academic Torrents
A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.
Forwarded from Data Science by ODS.ai 🦜
And #Google also launched #DataSet search. This is a huge breakthrough for the DS community, because now it will be easier to access some interesting data.
https://toolbox.google.com/datasetsearch
https://toolbox.google.com/datasetsearch
Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
MedCLIP
Позволяет осуществлять поиск по медицинским изображениям.
Поиграть можно тут 👉
Онлайн-демо
#CLIP #images #medicine #multimodal #demo
Позволяет осуществлять поиск по медицинским изображениям.
Поиграть можно тут 👉
Онлайн-демо
#CLIP #images #medicine #multimodal #demo
huggingface.co
Medical image retrieval using a CLIP model - a Hugging Face Space by kaushalya
Discover amazing ML apps made by the community
Genji - CoPilot для бедных.
Модель GPT-J (open-source версия GPT-3 от Eluther AI) затюненая на генерацию кода на Python.
Colab
Модель на Huggingface
Spaces
#code #generative #nlp #gpt
Модель GPT-J (open-source версия GPT-3 от Eluther AI) затюненая на генерацию кода на Python.
Colab
Модель на Huggingface
Spaces
#code #generative #nlp #gpt
6b.eleuther.ai
EleutherAI - text generation testing UI
EleutherAI web app testing for language models
Раз уже на то пошло. GPT-J это модель обученная сообществом EutherAI (к которому я скромно тоже немного причастен, правда больше в области генерации картинок).
Онлайн демо open-source версии GPT-3 доступно тут (с телефона работает не всегда, с компа проблем нет)
Colab
Блог-пост
Видео-разбор
#gpt #nlp #generative
Онлайн демо open-source версии GPT-3 доступно тут (с телефона работает не всегда, с компа проблем нет)
Colab
Блог-пост
Видео-разбор
#gpt #nlp #generative