AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Насчет датасетов - набор датасетов для демонстраций ML на химии.

К сожалению, есть нюанс - все датасеты очень простые. Но именно для иллюстрации - почему бы и нет

#ScientificML #chemistry #datasets
Так же стоит отметить ициативу DeepChem, которые автоматизируют обучение на химических веществах.

GitHub

Там много неликвида или упрощенных схем, которые часто не будут работать, но как пример, что в принципе можно делать - они подходят.

#ScientificML #chemistry
Wasserstein WGAN-GP для генерации молекул. Опять же, датасет используется довольно бесмысленный, но можем адаптировать этот пример с tensorflow на pytorch.
Ну и взять что-нить хоть чуть осмысленнее, типа ингибиторов киназ

#ScientificML #chemistry #graph #GAN
Статья про предсказание энергии молекулы нейросетью.

В принципе - работает. Зачем нужно - в молдинамике часть расчетов опирается на энергию, которую и пытается предсказать нейросеть. Предсказания можно засовывать вместо времязатратных алгоритмов и за счет этого ускорять работу молдинамики.

У нейросети очень простая архитектура - предобработанные признаки кормятся в многослойный персептрон. Единственная выгода по сравнению с обычным бустингом - можно дообучить на интересующий вас класс веществ.

Почему-то авторы до сих пор не пытаются делать GNN - учитывая простоту действа, по-видимому, что-то тривиальное из графовых нейронок не работает лучше. Вполне возможно, ибо признаки хитроватые и придуманные не из головы, а на основе подходов до этого.

Статья

#ScientificML #chemistry #MLP
Интерактивная книга Deep Learning for Molecules and Materials.

Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.

В Веб-книге куча интерактивных примеров с кодом для различных задач.

#ScientificML #books #chemistry #resources
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network

Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.

Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.

UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.

Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.

Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.

Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.

Статья
Веб-Сервер

#ScientificML #chemistry #graphs
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
#datasets #chemistry
Датасет с данными о растворимости порядка 10000 веществ. Можно скачать с сайта, можно посмотреть их капсулу на codeocean.
Авторы берут 8 датасетов из разных источниковв и объединяют их.
При этом в разных датасетах могут быть разные данные о растворимости одного и того же вещества.

Поэтому авторы назначают каждой записи "группу достоверности"

Предварительно из всех записей о веществе оставляем только те, вв которых величина растворимости отличаются больше чем на 0.01 (таким образом, по-видимому, убираются дупликаты кочующие между базам)

Далее назначаем группу достоверности

G1 - информация о веществе встретилась один раз
G2 - если информация о веществе встретилась два раза, и разница между измерениями существенна
G3 - если информация о веществе встретилась два раза, и разница не существенна
G4 - если информация о веществе встретилась больше двух раз, и разница существенна
G5 - если информация о веществе встретилась больше двух раз, и разница не существенна

При этом в случае нескольких измерений надо еще выбрать, какое из них положить в объединенный датасет.
Авторы делают следующее:
1) если измерений больше 2, то выбирается то, которое ближе всего к их среднему
2) если измерений ровно 2, то выбирается то, которое ближе всех к предсказанию программы ALOGPS 2.1. Кстати, программа древняя, но использует нейронные сети

Статья с подробным описанием датасета
Benchmarking graph neural networks for materials chemistry

Графовые нейронные сети (GNN) вызывают повышенный интерес как быстро растущий класс моделей машинного обучения, удивительно хорошо подходящих для применения в науке о материалах. На сегодняшний день предложено и продемонстрировано несколько успешных GNN для стабильности кристаллов, прогнозирования электронных свойств химией, гетерогенного катализа. Однако последовательная оценка этих моделей по-прежнему отсутствует.

Авторы представляют рабочий процесс и платформу тестирования MatDeepLearn для быстрой и воспроизводимой оценки и сравнения GNNs и других моделей машинного обучения. Они используют эту платформу для оптимизации и оценки ряда наиболее эффективных GNN на нескольких репрезентативных наборах данных в области вычислительной химии материалов. В то же время, в работе, отмечаются и некоторые недостатки GNN и обсуждаются предложения по их совершенствованию для применения в химии материалов.

Статья
Код

#ScientificML #code #chemistry
MM-Deacon: Multimodal molecular domain embedding analysis via contrastive learning

Molecule representation learning играет важную роль в химической информатике. В последнее время популярны подходы на основе языковых моделей. Однако эти подходы используют только одну модальность для представления молекул. Исходя из того, что молекула может быть описана с помощью различных модальностей, таких как упрощенная система молекулярной линейной записи (SMILES) и Международный союз теоретической и прикладной химии (IUPAC), авторы предлагают подход к генерации мультимодальных молекулярных эмбедингов с помощью контрастного обучения под названием MM-Deacon.

Сначала строки SMILES и IUPAC кодируются с помощью двух различных языковых моделей независимо друг от друга, затем используется контрастивный лосс, чтобы приблизить эти представления из разных модальностей друг к другу, если они принадлежат одной молекуле, и отдалить эмбединги друг от друга, если они принадлежат разным молекулам.

Статья

#ScientificML #chemistry
3D-Transformer: Molecular Representation with Transformer in 3D Space

Пространственные структуры в трехмерном пространстве важны для определения свойств молекул. В последних работах по представлению молекул и прогнозированию свойств используется геометрическое глубокое обучение. Однако таки сети требуют больших вычислительных затрат для учета дальних зависимостей входных атомов, а также не учитывают неоднородность межатомных расстояний, что не позволяет изучать контекстно-зависимые представления на разных масштабах.

Чтобы решить эти проблемы, авторы придумали 3D-Transformer, вариант трансформера для молекулярных представлений, который включает трехмерную пространственную информацию. 3D-Transformer работает на полносвязных графах с прямыми связями между атомами. Чтобы справиться с неоднородностью межатомных расстояний, они разработали разномасштабный модуль self-attention.

Статья
Код

#ScientificML #chemistry #transformers #3d
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).

Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.

Датасет
Статья

#ScientificML #graphs #chemistry #datasets
Обновления по графовым сетям, которые сейчас активно исследуются для биологических и химических целей.

(1) На YouTube выложили лекцию профессора Макса Веллинга (Max Welling) по графовым нейронным сетям для симуляции молекул.

(2) умельцы собрали Colab блокнот по обучению графовой нейронной сети для классификации молекул на основе их биологической активности. В блокноте разбираются аспекты использования Jraph (JAX библиотеки для графов).

#ScientificML #gnn #graphs #biology #chemistry