Интерактивная книга Deep Learning for Molecules and Materials.
Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.
В Веб-книге куча интерактивных примеров с кодом для различных задач.
#ScientificML #books #chemistry #resources
Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.
В Веб-книге куча интерактивных примеров с кодом для различных задач.
#ScientificML #books #chemistry #resources
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network
Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.
Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.
UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.
Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.
Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.
Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.
Статья
Веб-Сервер
#ScientificML #chemistry #graphs
Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.
Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.
UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.
Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.
Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.
Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.
Статья
Веб-Сервер
#ScientificML #chemistry #graphs
ACS Publications
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network
pKa is an important property in the lead optimization process since the charge state of a molecule in physiologic pH plays a critical role in its biological activity, solubility, membrane permeability, metabolism, and toxicity. Accurate and fast estimation…
Датасет мировой смертности
World Mortality Dataset содержит еженедельные, ежемесячные или ежеквартальные данные о смертности от всех причин из 103 стран и территорий. Он содержит данные о смертности от всех причин на уровне стран в 2015-2021 годах, собранные из различных источников.
Датасет
#ScientificML #social #datasets
World Mortality Dataset содержит еженедельные, ежемесячные или ежеквартальные данные о смертности от всех причин из 103 стран и территорий. Он содержит данные о смертности от всех причин на уровне стран в 2015-2021 годах, собранные из различных источников.
Датасет
#ScientificML #social #datasets
STanford EArthquake Dataset (STEAD): A Global Data Set of Seismic Signals for AI
Сейсмология - это наука, богатая данными. Применение машинного обучения для добычи новых знаний из сейсмических данных является быстро развивающейся подобластью сейсмологии. Доступность большого количества сейсмических данных и вычислительных ресурсов, а также развитие передовых методов могут способствовать созданию более надежных моделей и алгоритмов для обработки и анализа сейсмических сигналов.
Набор данных в его нынешнем состоянии содержит две категории: (1) сигналы локальных землетрясений (записанные на "местных" расстояниях в пределах 350 км от землетрясений) и (2) сигналы сейсмического шума, не содержащие сигналов землетрясений. Вместе эти данные составляют ~1,2 миллиона временных рядов (time series) или более 19 000 часов записей сейсмических сигналов.
Статья
Датасет
#ScientificML #earthscience #datasets
Сейсмология - это наука, богатая данными. Применение машинного обучения для добычи новых знаний из сейсмических данных является быстро развивающейся подобластью сейсмологии. Доступность большого количества сейсмических данных и вычислительных ресурсов, а также развитие передовых методов могут способствовать созданию более надежных моделей и алгоритмов для обработки и анализа сейсмических сигналов.
Набор данных в его нынешнем состоянии содержит две категории: (1) сигналы локальных землетрясений (записанные на "местных" расстояниях в пределах 350 км от землетрясений) и (2) сигналы сейсмического шума, не содержащие сигналов землетрясений. Вместе эти данные составляют ~1,2 миллиона временных рядов (time series) или более 19 000 часов записей сейсмических сигналов.
Статья
Датасет
#ScientificML #earthscience #datasets
Efficient Visual Pretraining with Contrastive Detection
Self-supervised learning обещает использовать огромные объемы данных, но существующие методы - медленные и дорогостоящие.
Звездный коллектив авторов из DeepMind представляет контрастное обнаружение (contrastive detection)- новый таргет, который позволяет получать полезные представления для многих задач, используя в 10 раз меньше вычислений.
Контрастное обнаружение усиливает полезный сигнал от каждого изображения, разрезая его на части и обучаясь на каждой из них одновременно. Этот подход особенно хорошо работает при переносе на сложные задачи, такие как обнаружение, сегментация и оценка глубины.
Статья
#SSL #ContrastiveLearning #detection #images
Self-supervised learning обещает использовать огромные объемы данных, но существующие методы - медленные и дорогостоящие.
Звездный коллектив авторов из DeepMind представляет контрастное обнаружение (contrastive detection)- новый таргет, который позволяет получать полезные представления для многих задач, используя в 10 раз меньше вычислений.
Контрастное обнаружение усиливает полезный сигнал от каждого изображения, разрезая его на части и обучаясь на каждой из них одновременно. Этот подход особенно хорошо работает при переносе на сложные задачи, такие как обнаружение, сегментация и оценка глубины.
Статья
#SSL #ContrastiveLearning #detection #images
Physics meets ML
11 августа в 12:00 ET Miles Cranmer будет читать доклад по теме "Interpretable Deep Learning for Physics"
Доступ свободный
#news #ScientificML
11 августа в 12:00 ET Miles Cranmer будет читать доклад по теме "Interpretable Deep Learning for Physics"
Доступ свободный
#news #ScientificML
www.physicsmeetsml.org
Interpretable Deep Learning for Physics
Miles Cranmer, Princeton 12:00 ET
Deciphering Ancient Texts with AI
Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.
Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.
Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.
Блог-пост
#ScientificML #nlp #images #history #lingustics
Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.
Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.
Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.
Блог-пост
#ScientificML #nlp #images #history #lingustics
This media is not supported in your browser
VIEW IN TELEGRAM
SofGAN: A Portrait Image Generator with Dynamic Styling
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
This media is not supported in your browser
VIEW IN TELEGRAM
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
Нейронная живопись - это процедура создания серии штрихов для заданного изображения и его нефотореалистичного воссоздания с помощью нейронных сетей. В отличие от предыдущих методов, в данной работе авторы формулируют задачу как проблему прогнозирования набора (set prediction problem) и предлагают новую систему - Paint Transformer, для прогнозирования параметров набора штрихов.
Модель может генерировать набор мазков параллельно и получать картинку размером 512 * 512 практически в реальном времени. Более того, поскольку для обучения Paint Transformer не существует набора данных, авторы разработали пайплайн самообучения (self-training pipeline), который позволяет обучать модель без использования готовых наборов данных, при этом достигая хорошей генерализации.
Статья
GitHub
Онлайн-демо
#styletransfer #images #art
Нейронная живопись - это процедура создания серии штрихов для заданного изображения и его нефотореалистичного воссоздания с помощью нейронных сетей. В отличие от предыдущих методов, в данной работе авторы формулируют задачу как проблему прогнозирования набора (set prediction problem) и предлагают новую систему - Paint Transformer, для прогнозирования параметров набора штрихов.
Модель может генерировать набор мазков параллельно и получать картинку размером 512 * 512 практически в реальном времени. Более того, поскольку для обучения Paint Transformer не существует набора данных, авторы разработали пайплайн самообучения (self-training pipeline), который позволяет обучать модель без использования готовых наборов данных, при этом достигая хорошей генерализации.
Статья
GitHub
Онлайн-демо
#styletransfer #images #art
CLIP Guided Diffusion HQ
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
OpenAI Codex - просто чума!
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
Forwarded from Neural Shit
Генерация различных шрифтов с помощью VQGAN и CLIP.
На самом деле, с помощью этого инструмента помимо шизоидных картинок можно делать очень крутые и красивые вещи, лишь бы с фантазией всё хорошо было. Особенно, если учесть, что к clip можно сравнительно легко прикручивать другие модели.
На самом деле, с помощью этого инструмента помимо шизоидных картинок можно делать очень крутые и красивые вещи, лишь бы с фантазией всё хорошо было. Особенно, если учесть, что к clip можно сравнительно легко прикручивать другие модели.
Анализ гистопатологических изображений
Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.
#ScientificML #medicine #biology
Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.
#ScientificML #medicine #biology
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets
Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.
По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).
На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.
Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.
Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно
Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.
По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).
На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.
Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.
Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно
Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
TorchDrug
TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.
Сайт
GitHub
#ScientificML #medicine #chemistry #biology
TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.
Сайт
GitHub
#ScientificML #medicine #chemistry #biology