AI Для Всех
12.1K subscribers
1.03K photos
127 videos
10 files
1.31K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Насчет датасетов - набор датасетов для демонстраций ML на химии.

К сожалению, есть нюанс - все датасеты очень простые. Но именно для иллюстрации - почему бы и нет

#ScientificML #chemistry #datasets
Так же стоит отметить ициативу DeepChem, которые автоматизируют обучение на химических веществах.

GitHub

Там много неликвида или упрощенных схем, которые часто не будут работать, но как пример, что в принципе можно делать - они подходят.

#ScientificML #chemistry
Wasserstein WGAN-GP для генерации молекул. Опять же, датасет используется довольно бесмысленный, но можем адаптировать этот пример с tensorflow на pytorch.
Ну и взять что-нить хоть чуть осмысленнее, типа ингибиторов киназ

#ScientificML #chemistry #graph #GAN
Статья про предсказание энергии молекулы нейросетью.

В принципе - работает. Зачем нужно - в молдинамике часть расчетов опирается на энергию, которую и пытается предсказать нейросеть. Предсказания можно засовывать вместо времязатратных алгоритмов и за счет этого ускорять работу молдинамики.

У нейросети очень простая архитектура - предобработанные признаки кормятся в многослойный персептрон. Единственная выгода по сравнению с обычным бустингом - можно дообучить на интересующий вас класс веществ.

Почему-то авторы до сих пор не пытаются делать GNN - учитывая простоту действа, по-видимому, что-то тривиальное из графовых нейронок не работает лучше. Вполне возможно, ибо признаки хитроватые и придуманные не из головы, а на основе подходов до этого.

Статья

#ScientificML #chemistry #MLP
Интерактивная книга Deep Learning for Molecules and Materials.

Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.

В Веб-книге куча интерактивных примеров с кодом для различных задач.

#ScientificML #books #chemistry #resources
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network

Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.

Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.

UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.

Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.

Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.

Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.

Статья
Веб-Сервер

#ScientificML #chemistry #graphs
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
#datasets #chemistry
Датасет с данными о растворимости порядка 10000 веществ. Можно скачать с сайта, можно посмотреть их капсулу на codeocean.
Авторы берут 8 датасетов из разных источниковв и объединяют их.
При этом в разных датасетах могут быть разные данные о растворимости одного и того же вещества.

Поэтому авторы назначают каждой записи "группу достоверности"

Предварительно из всех записей о веществе оставляем только те, вв которых величина растворимости отличаются больше чем на 0.01 (таким образом, по-видимому, убираются дупликаты кочующие между базам)

Далее назначаем группу достоверности

G1 - информация о веществе встретилась один раз
G2 - если информация о веществе встретилась два раза, и разница между измерениями существенна
G3 - если информация о веществе встретилась два раза, и разница не существенна
G4 - если информация о веществе встретилась больше двух раз, и разница существенна
G5 - если информация о веществе встретилась больше двух раз, и разница не существенна

При этом в случае нескольких измерений надо еще выбрать, какое из них положить в объединенный датасет.
Авторы делают следующее:
1) если измерений больше 2, то выбирается то, которое ближе всего к их среднему
2) если измерений ровно 2, то выбирается то, которое ближе всех к предсказанию программы ALOGPS 2.1. Кстати, программа древняя, но использует нейронные сети

Статья с подробным описанием датасета
Benchmarking graph neural networks for materials chemistry

Графовые нейронные сети (GNN) вызывают повышенный интерес как быстро растущий класс моделей машинного обучения, удивительно хорошо подходящих для применения в науке о материалах. На сегодняшний день предложено и продемонстрировано несколько успешных GNN для стабильности кристаллов, прогнозирования электронных свойств химией, гетерогенного катализа. Однако последовательная оценка этих моделей по-прежнему отсутствует.

Авторы представляют рабочий процесс и платформу тестирования MatDeepLearn для быстрой и воспроизводимой оценки и сравнения GNNs и других моделей машинного обучения. Они используют эту платформу для оптимизации и оценки ряда наиболее эффективных GNN на нескольких репрезентативных наборах данных в области вычислительной химии материалов. В то же время, в работе, отмечаются и некоторые недостатки GNN и обсуждаются предложения по их совершенствованию для применения в химии материалов.

Статья
Код

#ScientificML #code #chemistry
MM-Deacon: Multimodal molecular domain embedding analysis via contrastive learning

Molecule representation learning играет важную роль в химической информатике. В последнее время популярны подходы на основе языковых моделей. Однако эти подходы используют только одну модальность для представления молекул. Исходя из того, что молекула может быть описана с помощью различных модальностей, таких как упрощенная система молекулярной линейной записи (SMILES) и Международный союз теоретической и прикладной химии (IUPAC), авторы предлагают подход к генерации мультимодальных молекулярных эмбедингов с помощью контрастного обучения под названием MM-Deacon.

Сначала строки SMILES и IUPAC кодируются с помощью двух различных языковых моделей независимо друг от друга, затем используется контрастивный лосс, чтобы приблизить эти представления из разных модальностей друг к другу, если они принадлежат одной молекуле, и отдалить эмбединги друг от друга, если они принадлежат разным молекулам.

Статья

#ScientificML #chemistry
3D-Transformer: Molecular Representation with Transformer in 3D Space

Пространственные структуры в трехмерном пространстве важны для определения свойств молекул. В последних работах по представлению молекул и прогнозированию свойств используется геометрическое глубокое обучение. Однако таки сети требуют больших вычислительных затрат для учета дальних зависимостей входных атомов, а также не учитывают неоднородность межатомных расстояний, что не позволяет изучать контекстно-зависимые представления на разных масштабах.

Чтобы решить эти проблемы, авторы придумали 3D-Transformer, вариант трансформера для молекулярных представлений, который включает трехмерную пространственную информацию. 3D-Transformer работает на полносвязных графах с прямыми связями между атомами. Чтобы справиться с неоднородностью межатомных расстояний, они разработали разномасштабный модуль self-attention.

Статья
Код

#ScientificML #chemistry #transformers #3d
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).

Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.

Датасет
Статья

#ScientificML #graphs #chemistry #datasets