SustainBench
SustainBench - это коллекция из 15 эталонных задач по 7 целям устойчивого развития (SDG), включая задачи, касающиеся экономического развития, сельского хозяйства, здравоохранения, образования, водоснабжения и санитарии, действий по защите климата и жизни на земле. Целями SustainBench являются:
🚷 снизить входные барьеры для сообщества машинного обучения, чтобы внести свой вклад в измерение и достижение SGD;
📈 предоставить стандартные эталоны для оценки моделей машинного обучения на задачах по целому ряду SDG
📎 Статья
🗂 Датасет
#datasets #ScientificML
SustainBench - это коллекция из 15 эталонных задач по 7 целям устойчивого развития (SDG), включая задачи, касающиеся экономического развития, сельского хозяйства, здравоохранения, образования, водоснабжения и санитарии, действий по защите климата и жизни на земле. Целями SustainBench являются:
🚷 снизить входные барьеры для сообщества машинного обучения, чтобы внести свой вклад в измерение и достижение SGD;
📈 предоставить стандартные эталоны для оценки моделей машинного обучения на задачах по целому ряду SDG
📎 Статья
🗂 Датасет
#datasets #ScientificML
FS-Mol
Microsoft выпустил датасет молекул для обучения в режиме few-shot (это когда обученной модели показывают несколько примеров чего от неё хотят и просят предсказать на новом).
Данные представляют из себя молекулярные соединения с измерениями активности против различных белковых мишеней.
К данным предлагаются ещё и обученные модельки, что бы было с чем сравнивать.
🗂 Датасет
#ScientificML #datasets
Microsoft выпустил датасет молекул для обучения в режиме few-shot (это когда обученной модели показывают несколько примеров чего от неё хотят и просят предсказать на новом).
Данные представляют из себя молекулярные соединения с измерениями активности против различных белковых мишеней.
К данным предлагаются ещё и обученные модельки, что бы было с чем сравнивать.
🗂 Датасет
#ScientificML #datasets
Мозг обладает удивительной способностью обрабатывать визуальную информацию. Люди могут бросить один взгляд на сложную сцену и сразу же быть в состоянии описать увиденное простым языком.
В основе этой способности лежат сложные вычисления, выполняемые зрительной корой. Для того чтобы полностью понять, что это за вычисления, необходимо выяснить, как семантически значимая информация представлена в активациях нейронов зрения.
Исследователи из DeepMind разработали нейросеть β-VAE. Она относится к новому типу интерпретируемых сетей - disentanglement networks. β-VAE учится, предсказывая свои собственные входы; для успешного обучения ей требуется визуальный опыт, аналогичный тому, с которым сталкиваются младенцы; а ее усвоенное скрытое представление похоже на свойства присущие зрительному мозгу.
В своей работе, авторы заметили, что нейроны, обнаруженные с помощью β-VAE, ведут себя как аналогичное по размеру подмножество настоящих нейронов в мозге приматов.
🔭 Блог-пост
#ScientificML
В основе этой способности лежат сложные вычисления, выполняемые зрительной корой. Для того чтобы полностью понять, что это за вычисления, необходимо выяснить, как семантически значимая информация представлена в активациях нейронов зрения.
Исследователи из DeepMind разработали нейросеть β-VAE. Она относится к новому типу интерпретируемых сетей - disentanglement networks. β-VAE учится, предсказывая свои собственные входы; для успешного обучения ей требуется визуальный опыт, аналогичный тому, с которым сталкиваются младенцы; а ее усвоенное скрытое представление похоже на свойства присущие зрительному мозгу.
В своей работе, авторы заметили, что нейроны, обнаруженные с помощью β-VAE, ведут себя как аналогичное по размеру подмножество настоящих нейронов в мозге приматов.
🔭 Блог-пост
#ScientificML
Benchmarking deep generative models for diverse antibody sequence design
Дизайн новых и разнообразных белков, соответствующих заданной структуре, остается важной нерешенной задачей. В последнее время глубокие генеративные модели, которые обучаются только на основе последовательностей или на основе последовательностей и структур совместно, показали впечатляющие результаты в решении этой задачи.
Исследователи из IBM рассматривают три недавно предложенные глубокие генеративные схемы для проектирования белков: (AR) авторегрессионная генеративная модель на основе последовательности, (GVP) графовая нейронная сеть на основе точной структуры и Fold2Seq.
Авторы сравнили эти модели на задаче вычислительного дизайна последовательностей антител, которая требует проектирования последовательностей с высоким разнообразием для функциональной привязки. Модель Fold2Seq превосходит две другие базовые модели по разнообразию конструируемых последовательностей.
📎 Статья
#ScientificML #biology #generative
Дизайн новых и разнообразных белков, соответствующих заданной структуре, остается важной нерешенной задачей. В последнее время глубокие генеративные модели, которые обучаются только на основе последовательностей или на основе последовательностей и структур совместно, показали впечатляющие результаты в решении этой задачи.
Исследователи из IBM рассматривают три недавно предложенные глубокие генеративные схемы для проектирования белков: (AR) авторегрессионная генеративная модель на основе последовательности, (GVP) графовая нейронная сеть на основе точной структуры и Fold2Seq.
Авторы сравнили эти модели на задаче вычислительного дизайна последовательностей антител, которая требует проектирования последовательностей с высоким разнообразием для функциональной привязки. Модель Fold2Seq превосходит две другие базовые модели по разнообразию конструируемых последовательностей.
📎 Статья
#ScientificML #biology #generative
SDSS Galaxies
Набор данных из 306 006 галактик, координаты которых взяты из Sloan Digital Sky Survey Data Release. Изображения галактик получены с помощью спектроскопического прибора Dark Energy Spectroscopic Instrument.
🗂 Данные
📎 Статья
#ScientificML #astronomy #datasets
Набор данных из 306 006 галактик, координаты которых взяты из Sloan Digital Sky Survey Data Release. Изображения галактик получены с помощью спектроскопического прибора Dark Energy Spectroscopic Instrument.
🗂 Данные
📎 Статья
#ScientificML #astronomy #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
MetNet-2. Глубокое обучение для 12 часового прогноза осадков.
Прогнозирование погоды обычно опирается на традиционные методы, основанные на физике и использующие крупнейшие в мире суперкомпьютеры (об этом очень хорошо написано у Вастрика). Такие методы ограничены высокими вычислительными требованиями и чувствительны к приближениям физических законов, на которых они основаны.
Глубокое обучение предлагает новый подход к вычислению прогнозов (как например в недавней работе от DeepMind). Модели глубокого обучения не включают в себя явные физические законы, а учатся предсказывать погодные условия непосредственно на основе наблюдаемых данных и способны вычислять прогнозы быстрее, чем методы, основанные на физике.
В новой работе, Google AI демонстрирует нейросеть для прогнозирования осадков на следующие 12 часов (с пространственным разрешением в 1 км и временным разрешением в 2 минуты).
📎 Статья
🔭 Блог-пост
#ScientificML #earthscience #meteorology
Прогнозирование погоды обычно опирается на традиционные методы, основанные на физике и использующие крупнейшие в мире суперкомпьютеры (об этом очень хорошо написано у Вастрика). Такие методы ограничены высокими вычислительными требованиями и чувствительны к приближениям физических законов, на которых они основаны.
Глубокое обучение предлагает новый подход к вычислению прогнозов (как например в недавней работе от DeepMind). Модели глубокого обучения не включают в себя явные физические законы, а учатся предсказывать погодные условия непосредственно на основе наблюдаемых данных и способны вычислять прогнозы быстрее, чем методы, основанные на физике.
В новой работе, Google AI демонстрирует нейросеть для прогнозирования осадков на следующие 12 часов (с пространственным разрешением в 1 км и временным разрешением в 2 минуты).
📎 Статья
🔭 Блог-пост
#ScientificML #earthscience #meteorology
TorchGeo - PyTorch‘овая библиотека от Microsoft, аналогичная torchvision. В ней есть наборы данных, преобразования, семплеры и предварительно обученные модели, специфичные для geospatial (ГИС) данных.
🖥 Код
📎 Статья
#earthscience #geo #ScientificML #library
🖥 Код
📎 Статья
#earthscience #geo #ScientificML #library
На Марсе сделали геологическое открытие с помощью ML.
Единственные образцы марсианских пород на Земле - это метеориты, выброшенные с поверхности Марса в результате столкновения с астероидами. Местонахождение и геологический контекст мест падения в настоящее время неизвестны. Определение мест столкновений необходимо для раскрытия взаимосвязи между эволюцией марсианских недр и их поверхности.
Авторы статьи в Nature адаптировали алгоритм обнаружения кратеров (довольно простенькая вариация YOLO), который позволил определить первичные и вторичные кратеры. Оказалось, что несколько кратеров, расположенных в вулканической провинции Тарсис, являются наиболее вероятным источником нескольких найденных на Земле марсианских метеоритов выброшенных 1.1 млн лет назад.
Получается, что, пользуясь похожими методами, можно установить геологические свойства другой планеты и без дорогостоящих и долгосрочных миссий по возврату образцов с Марса (а ещё лучше не без, а вместе).
☄️ Статья
#ScientificML #earthscience
Единственные образцы марсианских пород на Земле - это метеориты, выброшенные с поверхности Марса в результате столкновения с астероидами. Местонахождение и геологический контекст мест падения в настоящее время неизвестны. Определение мест столкновений необходимо для раскрытия взаимосвязи между эволюцией марсианских недр и их поверхности.
Авторы статьи в Nature адаптировали алгоритм обнаружения кратеров (довольно простенькая вариация YOLO), который позволил определить первичные и вторичные кратеры. Оказалось, что несколько кратеров, расположенных в вулканической провинции Тарсис, являются наиболее вероятным источником нескольких найденных на Земле марсианских метеоритов выброшенных 1.1 млн лет назад.
Получается, что, пользуясь похожими методами, можно установить геологические свойства другой планеты и без дорогостоящих и долгосрочных миссий по возврату образцов с Марса (а ещё лучше не без, а вместе).
☄️ Статья
#ScientificML #earthscience
Machine Learning for Clouds and Climate
Алгоритмы машинного обучения являются мощными инструментами для построения моделей облаков и климата. Часто, это модели более точно соответствуют быстро увеличивающимся объемам данных о Земли, чем обычно используемые полуэмпирические модели.
В статье рассматриваются инструменты ML, включая интерпретируемые и физически управляемые ML, и объясняется, как они могут быть применены к облачным процессам в климатической системе, включая радиацию, микрофизику, конвекцию, а также обнаружение, классификацию, эмуляцию и количественную оценку неопределенности облаков.
📎 Статья
#ScientificML #earthscience #meteo
Алгоритмы машинного обучения являются мощными инструментами для построения моделей облаков и климата. Часто, это модели более точно соответствуют быстро увеличивающимся объемам данных о Земли, чем обычно используемые полуэмпирические модели.
В статье рассматриваются инструменты ML, включая интерпретируемые и физически управляемые ML, и объясняется, как они могут быть применены к облачным процессам в климатической системе, включая радиацию, микрофизику, конвекцию, а также обнаружение, классификацию, эмуляцию и количественную оценку неопределенности облаков.
📎 Статья
#ScientificML #earthscience #meteo
DABS - The Domain Agnostic Benchmark for Self-Supervised Learning.
Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.
Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.
Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.
📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт
#SSL #ScientificML
Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.
Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.
Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.
📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт
#SSL #ScientificML
Может ли машинное обучение в математику?
Судя по недавней статье в Nature - может. DeepMind и Оксфордские математики András Juhász & Marc Lackenby использовали машинное обучение для выявления новых связей в теории узлов.
🎥 Видео
🔭 Блог-пост
#ScientificML #math
Судя по недавней статье в Nature - может. DeepMind и Оксфордские математики András Juhász & Marc Lackenby использовали машинное обучение для выявления новых связей в теории узлов.
🎥 Видео
🔭 Блог-пост
#ScientificML #math
Nature
Advancing mathematics by guiding human intuition with AI
Nature - A framework through which machine learning can guide mathematicians in discovering new conjectures and theorems is presented and shown to yield mathematical insight on important open...
This media is not supported in your browser
VIEW IN TELEGRAM
The PAIR-R24M Dataset for Multi-animal 3D Pose Estimation
Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.
В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.
PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.
📎 Статья
🗂 Датасет
#datasets #ScientificML #biology
Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.
В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.
PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.
📎 Статья
🗂 Датасет
#datasets #ScientificML #biology
Generalized Shape Metrics on Neural Representations
В нейронауках и в глубоком обучении количественная оценка (не)сходства нейронных представлений в разных сетях является темой, представляющей значительный интерес.
Ученые из Стэнфорда, Гугла и Института Аллена придумали как вычислять метрики между нейронными представлениями. Причём, эти представления могут быть записаны как с реальных животных, так и с нейросетей.
Они регистрируют активность
Таким образом, они придумали довольно элегантный и простой способ сравнивать нейронную активность между животными и нейросетями.
📎 Статья
🎥 Видео
🖥 Код
#ScientificML #biology
В нейронауках и в глубоком обучении количественная оценка (не)сходства нейронных представлений в разных сетях является темой, представляющей значительный интерес.
Ученые из Стэнфорда, Гугла и Института Аллена придумали как вычислять метрики между нейронными представлениями. Причём, эти представления могут быть записаны как с реальных животных, так и с нейросетей.
Они регистрируют активность
K
сетей, следовательно могут вычислить все попарные расстояния и собрать их в матрицу расстояний K × K
. Поверх матрицы они применяют алгоритмы кластеризации и уменьшения размерности.Таким образом, они придумали довольно элегантный и простой способ сравнивать нейронную активность между животными и нейросетями.
📎 Статья
🎥 Видео
🖥 Код
#ScientificML #biology
MARIDA (Архив морского мусора)
Это первый набор данных, основанный на мультиспектральных спутниковых данных Sentinel-2 (S2), который позволяет отличить морской мусор от других морских объектов, включая макроводоросли Sargassum, корабли, природные органические материалы, волны, волнения, пену, различные типы воды (т.е. прозрачная, мутная вода, вода с осадками, мелководье) и облака.
🗂 Датасет
#ScientificML #datasets #earthscience
Это первый набор данных, основанный на мультиспектральных спутниковых данных Sentinel-2 (S2), который позволяет отличить морской мусор от других морских объектов, включая макроводоросли Sargassum, корабли, природные органические материалы, волны, волнения, пену, различные типы воды (т.е. прозрачная, мутная вода, вода с осадками, мелководье) и облака.
🗂 Датасет
#ScientificML #datasets #earthscience
This media is not supported in your browser
VIEW IN TELEGRAM
Open Catalyst
Meta AI и Университет Карнеги-Меллон объединили усилия для поиска более эффективных и масштабируемых способов хранения и использования возобновляемой энергии.
Переход на возобновляемые источники энергии требует способа хранения энергии на время, когда солнце не светит и ветер не дует. Для этого необходимы электрокатализаторы. Однако имеющиеся сегодня электрокатализаторы неэффективны или основаны на редких и дорогих материалах.
Open Catalyst стремится найти недорогие катализаторы, способные стимулировать химические реакции, необходимые для преобразования избыточной энергии солнца и ветра в другие виды топлива, которые могут быть использованы для выработки электроэнергии, когда другие источники возобновляемой энергии недоступны. Если разработать ИИ для точного прогнозирования атомных взаимодействий быстрее, чем тяжелые вычислительные симуляции, на которые сегодня полагаются ученые, то расчеты, занимающие в современных лабораториях дни, смогут занимать секунды.
📸 Блог-пост
#ScientificML
Meta AI и Университет Карнеги-Меллон объединили усилия для поиска более эффективных и масштабируемых способов хранения и использования возобновляемой энергии.
Переход на возобновляемые источники энергии требует способа хранения энергии на время, когда солнце не светит и ветер не дует. Для этого необходимы электрокатализаторы. Однако имеющиеся сегодня электрокатализаторы неэффективны или основаны на редких и дорогих материалах.
Open Catalyst стремится найти недорогие катализаторы, способные стимулировать химические реакции, необходимые для преобразования избыточной энергии солнца и ветра в другие виды топлива, которые могут быть использованы для выработки электроэнергии, когда другие источники возобновляемой энергии недоступны. Если разработать ИИ для точного прогнозирования атомных взаимодействий быстрее, чем тяжелые вычислительные симуляции, на которые сегодня полагаются ученые, то расчеты, занимающие в современных лабораториях дни, смогут занимать секунды.
📸 Блог-пост
#ScientificML
OpenAI научили нейросеть решать (некоторые) олимпиадные задачи по математике
Они создали нейронный доказыватель, который научился решать множество сложных олимпиадных задач для старших классов, включая задачи из конкурсов AMC12 и AIME, а также две задачи, адаптированные из IMO (математики, дайте знать в коментах круто ли это).
Доказыватель использует языковую модель для поиска доказательств формальных утверждений.
Каждый раз, когда OpenAI находят новое доказательство, они используют его в качестве новых обучающих данных (таким образом улучшая нейронную сеть и позволяя ей итеративно находить решения все более трудных утверждений)
📸 Блог-пост
📎 Статья
#ScientificML #math
Они создали нейронный доказыватель, который научился решать множество сложных олимпиадных задач для старших классов, включая задачи из конкурсов AMC12 и AIME, а также две задачи, адаптированные из IMO (математики, дайте знать в коментах круто ли это).
Доказыватель использует языковую модель для поиска доказательств формальных утверждений.
Каждый раз, когда OpenAI находят новое доказательство, они используют его в качестве новых обучающих данных (таким образом улучшая нейронную сеть и позволяя ей итеративно находить решения все более трудных утверждений)
📸 Блог-пост
📎 Статья
#ScientificML #math
Пока все спорят о том что такое сознание, и есть ли оно в больших языковых моделях, предлагаю сосредоточится на более научной дискуссии.
ArgSciChat - это набор данных аргументированных диалогов. Он состоит из 498 сообщений, собранных из обсуждения 20 научных статей.
Датасет может быть использован для оценки разговорных агентов и дальнейшего стимулирования исследований в области аргументированных научных агентов.
🗂 Датасет
#ScientificML #nlp #datasets
ArgSciChat - это набор данных аргументированных диалогов. Он состоит из 498 сообщений, собранных из обсуждения 20 научных статей.
Датасет может быть использован для оценки разговорных агентов и дальнейшего стимулирования исследований в области аргументированных научных агентов.
🗂 Датасет
#ScientificML #nlp #datasets
Команда исследователей из DeepMind нашла применение для RL в ядерном синтезе. Ядерный синтез с использованием магнитного удержания является многообещающим путем к достижению устойчивой энергии. Основной проблемой является формирование и поддержание высокотемпературной плазмы внутри сосуда токамака. Для удержания плазмы необходим нечеловеческий уровень управления катушками магнитных приводов.
В новой работе представили метод для проектирования магнитного контроллера токамака, который автономно обучается управлять полным набором катушек. DeepMind успешно демонстрируют контроль за разнообразными конфигурации плазмы.
Предложенный подход демонстрирует потенциал обучения с подкреплением для ускорения исследований в области термоядерного синтеза.
Астрологи явно обьявили 2022 год годом RL. Казалось бы, на фоне успехов в глубоком обучении, на обучение с подкреплением (RL) начали забивать даже OpenAI, которые с него начали свой звёздный путь. Но видимо это было затишье перед бурей.
📎 Статья
#ScientificML #RL
В новой работе представили метод для проектирования магнитного контроллера токамака, который автономно обучается управлять полным набором катушек. DeepMind успешно демонстрируют контроль за разнообразными конфигурации плазмы.
Предложенный подход демонстрирует потенциал обучения с подкреплением для ускорения исследований в области термоядерного синтеза.
Астрологи явно обьявили 2022 год годом RL. Казалось бы, на фоне успехов в глубоком обучении, на обучение с подкреплением (RL) начали забивать даже OpenAI, которые с него начали свой звёздный путь. Но видимо это было затишье перед бурей.
📎 Статья
#ScientificML #RL