Too long; didn’t read
Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.
TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).
Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)
Датасет
#datasets #nlp #summarization
Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.
TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).
Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)
Датасет
#datasets #nlp #summarization
5 минут назад выложили код StyleGan3 (он же Alias-Free GAN, про который я писал тут) - го тестить кто может!
Код
UPD: собрал Colab StyleGAN3
#gan
Код
UPD: собрал Colab StyleGAN3
#gan
This media is not supported in your browser
VIEW IN TELEGRAM
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning
AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.
Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.
В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.
📎Статья 🖥Код
#tables #SSL #tabular
AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.
Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.
В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.
📎Статья 🖥Код
#tables #SSL #tabular
Protein complex prediction with AlphaFold-Multimer
В то время как подавляющее большинство хорошо структурированных одиночных белковых цепей теперь могут быть предсказаны с высокой точностью благодаря недавно разработанной модели AlphaFold, предсказание многоцепочечных белковых комплексов во многих случаях остается сложной задачей.
В статье от DeepMind демонстрируют, что модель AlphaFold, специально обученная на мультимерных входах с известной стехиометрией (AlphaFold-Multimer), значительно повышает точность предсказания мультимерных интерфейсов по сравнению с одноцепочечной AlphaFold, сохраняя при этом высокую точность внутри цепи.
📎Статья
#ScientificML #biology
В то время как подавляющее большинство хорошо структурированных одиночных белковых цепей теперь могут быть предсказаны с высокой точностью благодаря недавно разработанной модели AlphaFold, предсказание многоцепочечных белковых комплексов во многих случаях остается сложной задачей.
В статье от DeepMind демонстрируют, что модель AlphaFold, специально обученная на мультимерных входах с известной стехиометрией (AlphaFold-Multimer), значительно повышает точность предсказания мультимерных интерфейсов по сравнению с одноцепочечной AlphaFold, сохраняя при этом высокую точность внутри цепи.
📎Статья
#ScientificML #biology
🔥StyleGAN3 + CLIP
В твиттере выложили Colab для StyleGAN3+CLIP (с помощью текста, можно направлять генерацию картинки, а потом создавать красивые видосы), а я привел его к божескому виду, что бы было просто играться (и это что-то!)
💻Colab
P.S.: на картинке an amazon warrior трансформированный из MetFaces
#gan #text2image #clip
В твиттере выложили Colab для StyleGAN3+CLIP (с помощью текста, можно направлять генерацию картинки, а потом создавать красивые видосы), а я привел его к божескому виду, что бы было просто играться (и это что-то!)
💻Colab
P.S.: на картинке an amazon warrior трансформированный из MetFaces
#gan #text2image #clip
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects
Интересная статья от авторов из Facebook AI и 2х Парижских университетов, про то как можно воспользоваться большими языковыми моделями для изучения корреляции между человеческой речью и активными зонами мозга. Хотя результаты у меня пока вызывают сомнение, посмотрим опубликуют ли вообще такое.
📎Статья
#ScientificML #nlp #biology
Интересная статья от авторов из Facebook AI и 2х Парижских университетов, про то как можно воспользоваться большими языковыми моделями для изучения корреляции между человеческой речью и активными зонами мозга. Хотя результаты у меня пока вызывают сомнение, посмотрим опубликуют ли вообще такое.
📎Статья
#ScientificML #nlp #biology
Relative Molecule Self-Attention Transformer
Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.
Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.
Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.
📎Статья
#ScientifcML #chemistry #transformer #SSL
Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.
Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.
Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.
📎Статья
#ScientifcML #chemistry #transformer #SSL
Вам кстати интересно про науку или чисто ради картинок подписаны?
Anonymous Poll
88%
Интересно про науку и ML
11%
Чисто ради картинок и арта
2%
Другое (пишу в комменты)
StyleGAN3. Смешать, но не взбалтывать.
Я тут попробовал кое-что безумное, и на удивление это сработало. Берем веса обученого SG3 на MetFace (картины) и берем веса обученые на FFHQ (фотографии лиц). Складываем между собой и делим на 2. И вуаля - получаем GAN который рисует что-то среднее между портретом и фотографией
UPD: я вообще не намереваюсь этот канал превратить в обитель StyleGAN 😂
#gan
Я тут попробовал кое-что безумное, и на удивление это сработало. Берем веса обученого SG3 на MetFace (картины) и берем веса обученые на FFHQ (фотографии лиц). Складываем между собой и делим на 2. И вуаля - получаем GAN который рисует что-то среднее между портретом и фотографией
UPD: я вообще не намереваюсь этот канал превратить в обитель StyleGAN 😂
#gan
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA представляет онлайн доклад :
👨🔬 Антон Костин (МФТИ) "Биология на графах. Графы 'взаимодействия' генов на основе NLP анализа текстов."
⌚️ Пятница 15 октября, 18.00 по Москве
Рассмотрим корпус биологических текстов по определенной тематике - болезнь Альцгеймера , глиобластома и тд.
Обучим NLP модель (типа word2vec или более продвинутые) на выбранном корпусе.
Возьмем список интересующих нас терминов - например генов.
Рассмотрим эмбединги генов, которые получены данной моделью, построим по ним граф близости.
После этого мы можем анализировать данный граф и пытаться понять насколько он отражает биологическую информацию.
Насколько он зависит от корпуса текстов, насколько кластеры биологически осмысленны, и так далее.
Об этом и будет рассказано. Разобраны ноутбуки, которые делают данное построение.
Доклад является идейным продолжением предыдущего доклада - https://youtu.be/deFlfV3lB50 , https://t.me/sberloga/66
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу
👨🔬 Антон Костин (МФТИ) "Биология на графах. Графы 'взаимодействия' генов на основе NLP анализа текстов."
⌚️ Пятница 15 октября, 18.00 по Москве
Рассмотрим корпус биологических текстов по определенной тематике - болезнь Альцгеймера , глиобластома и тд.
Обучим NLP модель (типа word2vec или более продвинутые) на выбранном корпусе.
Возьмем список интересующих нас терминов - например генов.
Рассмотрим эмбединги генов, которые получены данной моделью, построим по ним граф близости.
После этого мы можем анализировать данный граф и пытаться понять насколько он отражает биологическую информацию.
Насколько он зависит от корпуса текстов, насколько кластеры биологически осмысленны, и так далее.
Об этом и будет рассказано. Разобраны ноутбуки, которые делают данное построение.
Доклад является идейным продолжением предыдущего доклада - https://youtu.be/deFlfV3lB50 , https://t.me/sberloga/66
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу
This media is not supported in your browser
VIEW IN TELEGRAM
DeepPoseKit
DeepPoseKit - это набор программных инструментов с высокоуровневым API для оценки 2D позы по заданным пользователем ключевым точкам. DeepPoseKit, можно использовать для: аннотирования изображений или видеокадров с заданными пользователем ключевыми точкам и для обучения моделей оценки позы.
Но самое крутое - не это. Эта библиотека была написана учеными для оценки поз животных (то есть для научных исследований).
Вот так вот ScientificML потихоньку врывается в жизнь обычных Computer Scientists. За наводку спасибо @pathetic_low_freq
📎Статья 🖥Код
#ScientificML #pose #biology
DeepPoseKit - это набор программных инструментов с высокоуровневым API для оценки 2D позы по заданным пользователем ключевым точкам. DeepPoseKit, можно использовать для: аннотирования изображений или видеокадров с заданными пользователем ключевыми точкам и для обучения моделей оценки позы.
Но самое крутое - не это. Эта библиотека была написана учеными для оценки поз животных (то есть для научных исследований).
Вот так вот ScientificML потихоньку врывается в жизнь обычных Computer Scientists. За наводку спасибо @pathetic_low_freq
📎Статья 🖥Код
#ScientificML #pose #biology
⚡️Комментарии в Colab
В Colab (Jupyter Notebooks с бесплатными GPU от Google) появилась возможность оставлять комментарии, как к Google Docs. Теперь совместная работа над блокнотами стала еще более удобной. Ура-ура-ура!
#resources
В Colab (Jupyter Notebooks с бесплатными GPU от Google) появилась возможность оставлять комментарии, как к Google Docs. Теперь совместная работа над блокнотами стала еще более удобной. Ура-ура-ура!
#resources
Pixray Panorama
Ещё чуть чуть искусства в нашем научном сообществе. Недавно, Алексей Тихонов выложил крутейший блокнот для генерации пиксельных панорам с помощью PixelDraw + CLIP. Присылайте в комменты что получилось!
💻Colab
#text2image #gan #clip
Ещё чуть чуть искусства в нашем научном сообществе. Недавно, Алексей Тихонов выложил крутейший блокнот для генерации пиксельных панорам с помощью PixelDraw + CLIP. Присылайте в комменты что получилось!
💻Colab
#text2image #gan #clip
Causal ImageNet: How to discover spurious features in Deep Learning?
Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).
Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').
Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.
Данные пока не выложили, обновлю пост когда появятся.
📎Статья
#causality #datasets #images
Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).
Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').
Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.
Данные пока не выложили, обновлю пост когда появятся.
📎Статья
#causality #datasets #images
"Эй, а ты кто по жизни?"
Anonymous Poll
17%
Академия
51%
Индустрия
24%
Еще учусь
9%
Другое (пишу в комменты)
This media is not supported in your browser
VIEW IN TELEGRAM
NeRF 2021
Если вы интересуетесь компьютерной графикой и рендеренгом и ещё не слышали про Neuro Radiance Fields - то самое время с ними познакомиться.
NeRF был представлен в (недавней, но уже ставшей основополагающей) статье Neural Radiance Fields на ECCV 2020.
NeRF хранит объемное представление сцены в виде весов MLP (nn.Linear), обученного на множестве изображений с известной пространственной координатой (откуда снимали и куда повёрнута камера).
В блог-посте собраны обновления для NeRF выпущеные в этом году, самое то, to bring you up to speed.
#3d #nerf
Если вы интересуетесь компьютерной графикой и рендеренгом и ещё не слышали про Neuro Radiance Fields - то самое время с ними познакомиться.
NeRF был представлен в (недавней, но уже ставшей основополагающей) статье Neural Radiance Fields на ECCV 2020.
NeRF хранит объемное представление сцены в виде весов MLP (nn.Linear), обученного на множестве изображений с известной пространственной координатой (откуда снимали и куда повёрнута камера).
В блог-посте собраны обновления для NeRF выпущеные в этом году, самое то, to bring you up to speed.
#3d #nerf
97% accuracy on MNIST with a single decision tree (+ t-SNE)
Я довольно много пишу про сложные модели их интересные применения (это 662 пост в канале). Но в этот раз, давайте поговорим про простые модели. Вообще-то, добиться хорошей точности классификации можно и путем уменьшения размерности.
Берём Truncated Singular Value Decomposition (TSVD), «сжимаем» наш датасет (в этом случае MNIST - рукописные цифры) и преобразовываем данные в 2х мерное пространство с помощью T-SNE. Получаем 97% точности.
Полностью (супер подробно) метод разобран в этом блокноте.
#basics #reduction
Я довольно много пишу про сложные модели их интересные применения (это 662 пост в канале). Но в этот раз, давайте поговорим про простые модели. Вообще-то, добиться хорошей точности классификации можно и путем уменьшения размерности.
Берём Truncated Singular Value Decomposition (TSVD), «сжимаем» наш датасет (в этом случае MNIST - рукописные цифры) и преобразовываем данные в 2х мерное пространство с помощью T-SNE. Получаем 97% точности.
Полностью (супер подробно) метод разобран в этом блокноте.
#basics #reduction
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам музыкальные котики от SG3 (самое прикольное, что работает в режиме реального времени – 25 кадров у секунду)
Автор
Автор