Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach
Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).
Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.
Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.
#ScientificML #nlp #linguistics #history
Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).
Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.
Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.
#ScientificML #nlp #linguistics #history
Forwarded from gonzo-обзоры ML статей
[Google ALIGN] Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig
Статья: https://arxiv.org/abs/2102.05918
Пост в блоге: https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
Модель: ?
Код: ?
TL;DR: Аналог CLIP от Гугла. Отличия в архитектуре, но, главное, в датасете — обучались на шумном нефильтрованном датасете размера 4.5x относительно датасета CLIP. Качество вроде как лучше.
ALIGN расшифровывается как A Large-scale ImaGe and Noisy-text embedding.
Заходит работа с примерно той же стороны, что и CLIP — хочется собрать большую претренированную модель, а для неё нужны данные. Авторы CLIP собрали для этого свой датасет на 400М пар <картинка, текст>. Детали процесса малопонятны, датасет не выложен, но зато недавно, в августе 2021, появился аналогичный открытый датасет LAION-400M (https://laion.ai/laion-400-open-dataset/). Разработчики ALIGN решили при составлении датасета отказаться от сложных процедур курирования, фильтрации и постпроцессинга, что позволило собрать датасет размером 1.8B пар. Шумный, но размер в итоге перевешивает этот недостаток. Тоже не выложен.
Авторы взяли методологию создания датасета от Conceptual Captions и получили английские alt-тексты для картинок. Большинство фильтраций и очисток оригинальной работы они убрали, оставив только какие-то базовые вещи: убрали порнографические картинки (я уже вижу, как кто-то обучает свою версию CLIP/ALIGN на порнхабе...), убрали картинки размером менее 200 пикселей по одному из измерений и отношению сторон больше 3; также выкинули картинки, для которых было более 1000 связанных альт-текстов, а также дубликаты и почти-дубликаты тестовых картинок. По текстам отфильтровали такие, которые были привязаны к более чем 10 картинкам, и тексты с редкими токенами (за пределами 100М наиболее частых униграмм и биграмм), а также слишком короткие (<3 униграмм) и длинные (>20 униграмм) — это отфильтровало треш вида “image tid 25&id mggqpuweqdpd&cache 0&lan code 0” или слишком общие тексты.
В модели также как и в CLIP два энкодера, картиночный и текстовый, и косинусная функция близости поверх. Также обучаются через contrastive loss. В качестве картиночного используется EfficientNet (L2) с глобальным пулингом, а в качестве текстового — BERT (Large) и его [CLS] токен. Картинки на входе разрешения 289x289, а тексты максимум 64 токена (даже меньше чем у CLIP с его 76).
Из прикольных мелочей, которые в последнее время часто попадаются — обучаемый параметр для температуры в софтмаксе, чтобы не возиться с гиперпараметром.
Предобучают на шумных парах текст-картинка, потом делают трансфер на задачи retrieval и классификацию.
Обучали на 1024 ядрах TPUv3, с 16 позитивными парами на каждом ядре. Негативные собираются со всех ядер, так что эффективный размер батча получается 16384.
ALIGN достиг SoTA на всех метриках в Flickr30K и MSCOCO. В zero-shot лучше CLIP, а с файнтюнингом бьёт существующие методы, включая методы с кросс-модальным вниманием типа ImageBERT, UNITER, ERNIE-ViL, VILLA и Oscar. Также достигли SoTA на всех метриках в Crisscrossed Captions (retrieval).
Zero-shot классификацию проверяли аналогично CLIP, на матчинге со строками вида “A photo of a {classname}”. Сравнимо с CLIP, где-то лучше, где-то хуже. Ансамблирование также улучшает результат (на 2.9%).
Фичи выучиваются нормальные, если поверх картиночных обучить линейный классификатор, то получается чуть лучше CLIP, а с файнтюнингом обходит BiT и ViT-H/14.
Из интересных инсайтов то, что если сравнивать фильтрованный датасет с нефильтрованным, то на фильтрованном аналогичного размера обучается, конечно, лучше, но достаточно взять нефильтрованный датасет в 4 раза больше, и он уже обходит фильтрованный. Что при дорогой процедуре очистки может иметь большой смысл.
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig
Статья: https://arxiv.org/abs/2102.05918
Пост в блоге: https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
Модель: ?
Код: ?
TL;DR: Аналог CLIP от Гугла. Отличия в архитектуре, но, главное, в датасете — обучались на шумном нефильтрованном датасете размера 4.5x относительно датасета CLIP. Качество вроде как лучше.
ALIGN расшифровывается как A Large-scale ImaGe and Noisy-text embedding.
Заходит работа с примерно той же стороны, что и CLIP — хочется собрать большую претренированную модель, а для неё нужны данные. Авторы CLIP собрали для этого свой датасет на 400М пар <картинка, текст>. Детали процесса малопонятны, датасет не выложен, но зато недавно, в августе 2021, появился аналогичный открытый датасет LAION-400M (https://laion.ai/laion-400-open-dataset/). Разработчики ALIGN решили при составлении датасета отказаться от сложных процедур курирования, фильтрации и постпроцессинга, что позволило собрать датасет размером 1.8B пар. Шумный, но размер в итоге перевешивает этот недостаток. Тоже не выложен.
Авторы взяли методологию создания датасета от Conceptual Captions и получили английские alt-тексты для картинок. Большинство фильтраций и очисток оригинальной работы они убрали, оставив только какие-то базовые вещи: убрали порнографические картинки (я уже вижу, как кто-то обучает свою версию CLIP/ALIGN на порнхабе...), убрали картинки размером менее 200 пикселей по одному из измерений и отношению сторон больше 3; также выкинули картинки, для которых было более 1000 связанных альт-текстов, а также дубликаты и почти-дубликаты тестовых картинок. По текстам отфильтровали такие, которые были привязаны к более чем 10 картинкам, и тексты с редкими токенами (за пределами 100М наиболее частых униграмм и биграмм), а также слишком короткие (<3 униграмм) и длинные (>20 униграмм) — это отфильтровало треш вида “image tid 25&id mggqpuweqdpd&cache 0&lan code 0” или слишком общие тексты.
В модели также как и в CLIP два энкодера, картиночный и текстовый, и косинусная функция близости поверх. Также обучаются через contrastive loss. В качестве картиночного используется EfficientNet (L2) с глобальным пулингом, а в качестве текстового — BERT (Large) и его [CLS] токен. Картинки на входе разрешения 289x289, а тексты максимум 64 токена (даже меньше чем у CLIP с его 76).
Из прикольных мелочей, которые в последнее время часто попадаются — обучаемый параметр для температуры в софтмаксе, чтобы не возиться с гиперпараметром.
Предобучают на шумных парах текст-картинка, потом делают трансфер на задачи retrieval и классификацию.
Обучали на 1024 ядрах TPUv3, с 16 позитивными парами на каждом ядре. Негативные собираются со всех ядер, так что эффективный размер батча получается 16384.
ALIGN достиг SoTA на всех метриках в Flickr30K и MSCOCO. В zero-shot лучше CLIP, а с файнтюнингом бьёт существующие методы, включая методы с кросс-модальным вниманием типа ImageBERT, UNITER, ERNIE-ViL, VILLA и Oscar. Также достигли SoTA на всех метриках в Crisscrossed Captions (retrieval).
Zero-shot классификацию проверяли аналогично CLIP, на матчинге со строками вида “A photo of a {classname}”. Сравнимо с CLIP, где-то лучше, где-то хуже. Ансамблирование также улучшает результат (на 2.9%).
Фичи выучиваются нормальные, если поверх картиночных обучить линейный классификатор, то получается чуть лучше CLIP, а с файнтюнингом обходит BiT и ViT-H/14.
Из интересных инсайтов то, что если сравнивать фильтрованный датасет с нефильтрованным, то на фильтрованном аналогичного размера обучается, конечно, лучше, но достаточно взять нефильтрованный датасет в 4 раза больше, и он уже обходит фильтрованный. Что при дорогой процедуре очистки может иметь большой смысл.
blog.research.google
ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
This media is not supported in your browser
VIEW IN TELEGRAM
Как написать целый абзац для статьи на английском языке, всего лишь из одного предложения на русском?
Пишем одно предложение, переводим его на английский с помощью DeepL. Подаем его на вход в GPT-J, затем перефразируем его с помощью Wordtune и проверим грамматику Grammarly.
Поздравляю - у вас есть целый абзац текста. Нейросети рулят!
#ScientificML #writing
Пишем одно предложение, переводим его на английский с помощью DeepL. Подаем его на вход в GPT-J, затем перефразируем его с помощью Wordtune и проверим грамматику Grammarly.
Поздравляю - у вас есть целый абзац текста. Нейросети рулят!
#ScientificML #writing
KaoKore:
Исследование пересечения гуманитарных наук и ML с помощью набора данных по японскому искусству
Гуманитарные исследования и машинное обучение могут обогатить друг друга. Машинное обучение может стать трамплином для новых видов исследований в области гуманитарных наук. Наборы данных, на которых работают модели машинного обучения, и сами модели могут влиять на плодотворность таких исследований.
Авторы создали общедоступный набор данных под названием KaoKore, чтобы облегчить работу моделей машинного обучения с японским искусством. Набор данных включает метки от экспертов по японскому искусству, которые маркировали лица на основе пола и социального статуса.
Для получения новых результатов, авторы так же исследовали генеративные состязательные сети (GAN) и модели нейронного рисования с обучением.
Блог-пост
#ScientificML #art #social
Исследование пересечения гуманитарных наук и ML с помощью набора данных по японскому искусству
Гуманитарные исследования и машинное обучение могут обогатить друг друга. Машинное обучение может стать трамплином для новых видов исследований в области гуманитарных наук. Наборы данных, на которых работают модели машинного обучения, и сами модели могут влиять на плодотворность таких исследований.
Авторы создали общедоступный набор данных под названием KaoKore, чтобы облегчить работу моделей машинного обучения с японским искусством. Набор данных включает метки от экспертов по японскому искусству, которые маркировали лица на основе пола и социального статуса.
Для получения новых результатов, авторы так же исследовали генеративные состязательные сети (GAN) и модели нейронного рисования с обучением.
Блог-пост
#ScientificML #art #social
MM-Deacon: Multimodal molecular domain embedding analysis via contrastive learning
Molecule representation learning играет важную роль в химической информатике. В последнее время популярны подходы на основе языковых моделей. Однако эти подходы используют только одну модальность для представления молекул. Исходя из того, что молекула может быть описана с помощью различных модальностей, таких как упрощенная система молекулярной линейной записи (SMILES) и Международный союз теоретической и прикладной химии (IUPAC), авторы предлагают подход к генерации мультимодальных молекулярных эмбедингов с помощью контрастного обучения под названием MM-Deacon.
Сначала строки SMILES и IUPAC кодируются с помощью двух различных языковых моделей независимо друг от друга, затем используется контрастивный лосс, чтобы приблизить эти представления из разных модальностей друг к другу, если они принадлежат одной молекуле, и отдалить эмбединги друг от друга, если они принадлежат разным молекулам.
Статья
#ScientificML #chemistry
Molecule representation learning играет важную роль в химической информатике. В последнее время популярны подходы на основе языковых моделей. Однако эти подходы используют только одну модальность для представления молекул. Исходя из того, что молекула может быть описана с помощью различных модальностей, таких как упрощенная система молекулярной линейной записи (SMILES) и Международный союз теоретической и прикладной химии (IUPAC), авторы предлагают подход к генерации мультимодальных молекулярных эмбедингов с помощью контрастного обучения под названием MM-Deacon.
Сначала строки SMILES и IUPAC кодируются с помощью двух различных языковых моделей независимо друг от друга, затем используется контрастивный лосс, чтобы приблизить эти представления из разных модальностей друг к другу, если они принадлежат одной молекуле, и отдалить эмбединги друг от друга, если они принадлежат разным молекулам.
Статья
#ScientificML #chemistry
The Heat Method for Distance Computation
Я много пишу о том как Машинное Обучение можно использовать в науке. Но справедливо и обратно.
В статье описывается метод для решения задачи поиска кратчайшего пути на поверхности с помощью использования уравнения распрстранения тепла (heat equation).
Вычисление расстояния можно разделить на два этапа: сначала найти направление, вдоль которого расстояние увеличивается, а затем вычислить само расстояние. Тепловой метод надежен, эффективен и прост в реализации, поскольку он основан на решении пары стандартных разреженных линейных систем. Эти системы могут быть разложены один раз и впоследствии решаться за почти линейное время.
Реальная производительность на порядок выше, чем у современных методов, при сохранении сопоставимого уровня точности. Метод может быть применен в любой размерности и на любой области, допускающей градиент и внутреннее произведение - включая регулярные сетки, треугольные сетки и облака точек.
Сайт проекта
#ScientificML #geometry
Я много пишу о том как Машинное Обучение можно использовать в науке. Но справедливо и обратно.
В статье описывается метод для решения задачи поиска кратчайшего пути на поверхности с помощью использования уравнения распрстранения тепла (heat equation).
Вычисление расстояния можно разделить на два этапа: сначала найти направление, вдоль которого расстояние увеличивается, а затем вычислить само расстояние. Тепловой метод надежен, эффективен и прост в реализации, поскольку он основан на решении пары стандартных разреженных линейных систем. Эти системы могут быть разложены один раз и впоследствии решаться за почти линейное время.
Реальная производительность на порядок выше, чем у современных методов, при сохранении сопоставимого уровня точности. Метод может быть применен в любой размерности и на любой области, допускающей градиент и внутреннее произведение - включая регулярные сетки, треугольные сетки и облака точек.
Сайт проекта
#ScientificML #geometry
Forwarded from Neural Shit
Годный репозиторий - rclip
С помощью этих наших искусственных интеллектов и терминала ищет изображения на локальном диске по текстовому запросу. Потестил, справляется достаточно хорошо. Пока доступно только для Linux-бояр.
Под капотом CLIP от OpenAI
С помощью этих наших искусственных интеллектов и терминала ищет изображения на локальном диске по текстовому запросу. Потестил, справляется достаточно хорошо. Пока доступно только для Linux-бояр.
Под капотом CLIP от OpenAI
ResNet strikes back: An improved training procedure in timm
Влиятельный ResNet, разработанный He et al., остается золотым стандартом архитектуры в многочисленных научных публикациях (98к цитирований). ResNetы обычно служат в качестве базовой архитектуры с которой сравнивается работа какой-нибудь новой сетки. Тем не менее, с момента появления архитектуры ResNet в 2015 году произошел значительный прогресс в области лучших методов обучения нейронных сетей (например, новые методы оптимизации и аугментации данных).
В этой статье авторы заново оценивают производительность ванильной ResNet-50 при обучении с помощью новой процедуры, которая учитывает достижения за последние 6 лет. И конечно же добиваются лучшей точности.
Статья
Код
#images #training
Влиятельный ResNet, разработанный He et al., остается золотым стандартом архитектуры в многочисленных научных публикациях (98к цитирований). ResNetы обычно служат в качестве базовой архитектуры с которой сравнивается работа какой-нибудь новой сетки. Тем не менее, с момента появления архитектуры ResNet в 2015 году произошел значительный прогресс в области лучших методов обучения нейронных сетей (например, новые методы оптимизации и аугментации данных).
В этой статье авторы заново оценивают производительность ванильной ResNet-50 при обучении с помощью новой процедуры, которая учитывает достижения за последние 6 лет. И конечно же добиваются лучшей точности.
Статья
Код
#images #training
Со мной связались организаторы группы Frankfurt Data Science Meetup, которые проводят встречи, вебинары и другие интересные мероприятия в свободное время.
Вот зовут подписчиков поучаствовать в курсе "ИИ для мониторинга Земли", от EUMETSAT, где предлагается 6-недельный онлайн-курс на FutureLearn, посвященный машинному обучению с использованием наборов данных снимков со спутников Sentinel. Он начнется 18 октября 2021 года и будет совершенно бесплатным!
Ссылка на курс в FutureLearn
#ScientificML #courses #этополюбви
Вот зовут подписчиков поучаствовать в курсе "ИИ для мониторинга Земли", от EUMETSAT, где предлагается 6-недельный онлайн-курс на FutureLearn, посвященный машинному обучению с использованием наборов данных снимков со спутников Sentinel. Он начнется 18 октября 2021 года и будет совершенно бесплатным!
Ссылка на курс в FutureLearn
#ScientificML #courses #этополюбви
FutureLearn
Artificial Intelligence (AI) for Earth Monitoring - AI Course - FutureLearn
Explore how artificial intelligence (AI) and machine learning (ML) technologies are helping to advance Earth monitoring with this online AI course.
This media is not supported in your browser
VIEW IN TELEGRAM
Fake It Till You Make It
Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.
Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.
Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.
Только подумайте какие крутые возможности это все открывает!
Статья
Сайт проекта
#training #datasets
Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.
Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.
Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.
Только подумайте какие крутые возможности это все открывает!
Статья
Сайт проекта
#training #datasets
Neural Distance Embeddings (NeuroSEED)
Разработка эвристик зависящих от данных и представлений для биологических последовательностей, которые отражают их эволюционное расстояние, имеет решающее значение для биологических исследований. Однако популярные подходы машинного обучения, основанные на непрерывных евклидовых пространствах, с трудом с этим справляются.
Коллектив довольно знаменитых авторов (включая Величковича) предлагает использовать Neural Distance Embeddings (NeuroSEED), общую структуру для эмбеддинга последовательностей в геометрические векторные пространства.
Они говорят, что гиперболическое пространство отражает иерархическую структуру последовательностей, лучше чем другие геометрии.
Сравниваясь с обычными базовыми подходами, NeuroSEED демонстрирует значительное повышение точности и/или времени работы на реальных наборах данных.
Статья
Код
#ScientificML #biology
Разработка эвристик зависящих от данных и представлений для биологических последовательностей, которые отражают их эволюционное расстояние, имеет решающее значение для биологических исследований. Однако популярные подходы машинного обучения, основанные на непрерывных евклидовых пространствах, с трудом с этим справляются.
Коллектив довольно знаменитых авторов (включая Величковича) предлагает использовать Neural Distance Embeddings (NeuroSEED), общую структуру для эмбеддинга последовательностей в геометрические векторные пространства.
Они говорят, что гиперболическое пространство отражает иерархическую структуру последовательностей, лучше чем другие геометрии.
Сравниваясь с обычными базовыми подходами, NeuroSEED демонстрирует значительное повышение точности и/или времени работы на реальных наборах данных.
Статья
Код
#ScientificML #biology
TorchDrug Webinar
Про TorchDrug (open-source фреймворк для drug design) мы уже писали тут. А вот и обучение подвезли: создатели инструмента проводят вебинар 14 Октября (онлайн).
Подробности
#courses #news #ScientificML #medicine
Про TorchDrug (open-source фреймворк для drug design) мы уже писали тут. А вот и обучение подвезли: создатели инструмента проводят вебинар 14 Октября (онлайн).
Подробности
#courses #news #ScientificML #medicine
ActionCLIP: A New Paradigm for Video Action Recognition
В традиционном (казалось бы насколько это слово не применимо к машинному обучению) мире ML, для того что бы обрабатывать видео - нужно пилить какой-то класификатор.
С подходом ActionCLIP - все проще. Просто учим CLIP, но вместо картинок - используем видео. Вуаля - теперь у вас есть система, которая может описать что происходит с вашими котиками или кто там у вас (а значит можем и искать по видосам).
Приминений в науке - море! Хочешь таймлэпсы маркируй и разбивай на осмысленные фрагменты, хочешь записи с телескопов и микроскопов.
Статья
Код
#CLIP #video
В традиционном (казалось бы насколько это слово не применимо к машинному обучению) мире ML, для того что бы обрабатывать видео - нужно пилить какой-то класификатор.
С подходом ActionCLIP - все проще. Просто учим CLIP, но вместо картинок - используем видео. Вуаля - теперь у вас есть система, которая может описать что происходит с вашими котиками или кто там у вас (а значит можем и искать по видосам).
Приминений в науке - море! Хочешь таймлэпсы маркируй и разбивай на осмысленные фрагменты, хочешь записи с телескопов и микроскопов.
Статья
Код
#CLIP #video
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
И продолжая тему с видеоCLIPами. На этот раз статья от Facebook. VideoCLIP обучают трансформер для видео и текста, противопоставляя перекрывающиеся во времени положительные пары видео и текста жестким отрицательным парам, полученным в результате поиска ближайших соседей.
Говорят что их результаты самые самые.
Статья
Код
#CLIP #video #multimodal
И продолжая тему с видеоCLIPами. На этот раз статья от Facebook. VideoCLIP обучают трансформер для видео и текста, противопоставляя перекрывающиеся во времени положительные пары видео и текста жестким отрицательным парам, полученным в результате поиска ближайших соседей.
Говорят что их результаты самые самые.
Статья
Код
#CLIP #video #multimodal
Keypoint Communities
Вышел новый метод для оценки позы человека/объекта. Авторы моделируют все ключевые точки, принадлежащие человеку или объекту - позу - в виде графа и используют знания из области обнаружения сообществ для количественной оценки независимости ключевых точек.
Эксперименты показывают, что этот метод превосходит все предыдущие методы для оценки позы человека на порядок.
Оказалось что можно и картины и скульптуры грузить тоже. Я прям вижу как какой-нибудь смышленый искусствовед делает обобщения о «разнице в позе на картинах 16 и 19 века».
Кстати, поиграть/поработать с сеткой можно на gradio (онлайн и хоть с телефона).
Статья
Код
#pose #keypoints
Вышел новый метод для оценки позы человека/объекта. Авторы моделируют все ключевые точки, принадлежащие человеку или объекту - позу - в виде графа и используют знания из области обнаружения сообществ для количественной оценки независимости ключевых точек.
Эксперименты показывают, что этот метод превосходит все предыдущие методы для оценки позы человека на порядок.
Оказалось что можно и картины и скульптуры грузить тоже. Я прям вижу как какой-нибудь смышленый искусствовед делает обобщения о «разнице в позе на картинах 16 и 19 века».
Кстати, поиграть/поработать с сеткой можно на gradio (онлайн и хоть с телефона).
Статья
Код
#pose #keypoints
3D-Transformer: Molecular Representation with Transformer in 3D Space
Пространственные структуры в трехмерном пространстве важны для определения свойств молекул. В последних работах по представлению молекул и прогнозированию свойств используется геометрическое глубокое обучение. Однако таки сети требуют больших вычислительных затрат для учета дальних зависимостей входных атомов, а также не учитывают неоднородность межатомных расстояний, что не позволяет изучать контекстно-зависимые представления на разных масштабах.
Чтобы решить эти проблемы, авторы придумали 3D-Transformer, вариант трансформера для молекулярных представлений, который включает трехмерную пространственную информацию. 3D-Transformer работает на полносвязных графах с прямыми связями между атомами. Чтобы справиться с неоднородностью межатомных расстояний, они разработали разномасштабный модуль self-attention.
Статья
Код
#ScientificML #chemistry #transformers #3d
Пространственные структуры в трехмерном пространстве важны для определения свойств молекул. В последних работах по представлению молекул и прогнозированию свойств используется геометрическое глубокое обучение. Однако таки сети требуют больших вычислительных затрат для учета дальних зависимостей входных атомов, а также не учитывают неоднородность межатомных расстояний, что не позволяет изучать контекстно-зависимые представления на разных масштабах.
Чтобы решить эти проблемы, авторы придумали 3D-Transformer, вариант трансформера для молекулярных представлений, который включает трехмерную пространственную информацию. 3D-Transformer работает на полносвязных графах с прямыми связями между атомами. Чтобы справиться с неоднородностью межатомных расстояний, они разработали разномасштабный модуль self-attention.
Статья
Код
#ScientificML #chemistry #transformers #3d
Смотрите какая крутая штука!!! Кто-то натренировал CLIP на извлечение мест с космоснимков по свободному текстовому запросу! Вот тут демка
Кидайте в комменты свои лучшие запросы-ответы
#ScientificML #earthscience #CLIP
Кидайте в комменты свои лучшие запросы-ответы
#ScientificML #earthscience #CLIP
Искусственный интеллект предсказывает экспрессию генов.
В новой работе от DeepMind описывается архитектура Enformer, основанная на трансформерах. Эта архитектура способствует развитию генетических исследований, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.
Блог-пост
Статья в Nature
Код
#ScientificML #biology #medicine
В новой работе от DeepMind описывается архитектура Enformer, основанная на трансформерах. Эта архитектура способствует развитию генетических исследований, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.
Блог-пост
Статья в Nature
Код
#ScientificML #biology #medicine
Patches are all you need? 🤷
«Первая нейронная сеть, которая достигает 2х целей одновременно - 80++% на ImageNet Top-1 и влезает в один твит»
Сама нейронка - это очередная вариация на тему Conv-Mixers про которые я писал тут.
Авторы пока не известны (статья ещё на ревью), но про то насколько это круто высказались многие известные исследователи, включая Andrej Karpathy (Head of AI in Tesla).
Статья
#images
«Первая нейронная сеть, которая достигает 2х целей одновременно - 80++% на ImageNet Top-1 и влезает в один твит»
Сама нейронка - это очередная вариация на тему Conv-Mixers про которые я писал тут.
Авторы пока не известны (статья ещё на ревью), но про то насколько это круто высказались многие известные исследователи, включая Andrej Karpathy (Head of AI in Tesla).
Статья
#images