У Яндекса и Британских коллег стартовал конкурс по предсказанию погоды, и не абы как, а с data shift. Тренировочные данные даны по одному городу, а проверяют по другому.
#competition #ScientificML #datasets #earthscience
#competition #ScientificML #datasets #earthscience
Shifts Challenge: Robustness and Uncertainty under Real-World Distributional Shift
Weather Prediction — Shifts Challenge
Forwarded from TechSparks
В одном из моих любимых каналов “Don’t panic!” @psycholetters нашёл сегодня прекрасную ссылку на тему data science в литературоведении
https://www.pnas.org/content/118/30/e2102061118
Проанализировав тексты 14 млн. книг за последние 125 лет (на английском, немецком и испанском языках) на предмет присутствия в них явных признаков когнитивных искажений, характерных для депрессивных расстройств, авторы обнаружили отчетливо наблюдающиеся «хоккейные клюшки»: после примерно постоянного многолетнего уровня с 80-х годов прошлого века начался подъем, и теперь эти искажения присутствуют в количествах, которых не было ни во времена Великой депрессии, ни в периоды I и II Мировых войн.
Автор канала так суммирует выводы исследования:
«Оказалось, что с 90-х годов прошлого века таких когнитивных искажений в литературе стало больше. То есть в книгах сейчас гораздо легче найти примеры катастрофизации, овергенерализации, черно-белого мышления итд.
Авторы предполагают, что это показывает некие глобальные общественные сдвиги - т.е. мы стали более склонны к депрессии как целый вид, что отражается в творчестве. Но это, конечно, очень спекулятивно и лишь одно из десятков возможных объяснений.» https://t.me/psycholetters/1205
Независимо от выводов (они действительно выглядят спекулятивными) мне очень нравится такой подход к литературоведению :))
https://www.pnas.org/content/118/30/e2102061118
Проанализировав тексты 14 млн. книг за последние 125 лет (на английском, немецком и испанском языках) на предмет присутствия в них явных признаков когнитивных искажений, характерных для депрессивных расстройств, авторы обнаружили отчетливо наблюдающиеся «хоккейные клюшки»: после примерно постоянного многолетнего уровня с 80-х годов прошлого века начался подъем, и теперь эти искажения присутствуют в количествах, которых не было ни во времена Великой депрессии, ни в периоды I и II Мировых войн.
Автор канала так суммирует выводы исследования:
«Оказалось, что с 90-х годов прошлого века таких когнитивных искажений в литературе стало больше. То есть в книгах сейчас гораздо легче найти примеры катастрофизации, овергенерализации, черно-белого мышления итд.
Авторы предполагают, что это показывает некие глобальные общественные сдвиги - т.е. мы стали более склонны к депрессии как целый вид, что отражается в творчестве. Но это, конечно, очень спекулятивно и лишь одно из десятков возможных объяснений.» https://t.me/psycholetters/1205
Независимо от выводов (они действительно выглядят спекулятивными) мне очень нравится такой подход к литературоведению :))
PNAS
Historical language records reveal a surge of cognitive distortions in recent decades | Proceedings of the National Academy of…
Individuals with depression are prone to maladaptive patterns of thinking, known as
cognitive distortions, whereby they think about themselves, the...
cognitive distortions, whereby they think about themselves, the...
AI News:
Deep Genomics 🧬 под научным руководством Yann LeCun подняла раунд финансирования на $180M.
Компания обещает AI Discovery platform for ‘Programmable’ RNA therapeutics
#news #ScientificML #money
Deep Genomics 🧬 под научным руководством Yann LeCun подняла раунд финансирования на $180M.
Компания обещает AI Discovery platform for ‘Programmable’ RNA therapeutics
#news #ScientificML #money
Неплохой пример по примению графовых конволюций. На гите есть jupyter notebook с примером
#ScientificML
#ScientificML
Forwarded from Graph Machine Learning
Graph Convolutional Neural Networks to Analyze Complex Carbohydrates
A blog post by Daniel Bojar about an application of GNN to analyzing glycan sequences and their proposed GNN architecture called SweetNet. There are other coverages of this work (here and here). The paper is here and the code is here.
A blog post by Daniel Bojar about an application of GNN to analyzing glycan sequences and their proposed GNN architecture called SweetNet. There are other coverages of this work (here and here). The paper is here and the code is here.
Medium
Graph Convolutional Neural Networks to Analyze Complex Carbohydrates
Using PyTorch Geometric to Work With Biological Data
Antarctic Captioning - на основе CLIP и сети для image captioning:
Colab
Git
Позволяет генерировать описания к картинкам, которые значительно выходят за рамки любой обученной модели, например COCO.
#images #captioning #multimodal #CLIP
Colab
Git
Позволяет генерировать описания к картинкам, которые значительно выходят за рамки любой обученной модели, например COCO.
#images #captioning #multimodal #CLIP
Audio Captioning Transformer
Было бы круто обучить такую же модель, но для описания последовательностей/временных рядов. Например для графиков давления - типа «давление падает в виду движения циклона на северо-восток».
#waveforms #audio #captioning
Было бы круто обучить такую же модель, но для описания последовательностей/временных рядов. Например для графиков давления - типа «давление падает в виду движения циклона на северо-восток».
#waveforms #audio #captioning
Библиотека для визуализации feature importance.
Интегрирует другие. Сама решений не предлагает
#explainability
Интегрирует другие. Сама решений не предлагает
#explainability
GitHub
GitHub - MAIF/shapash: 🔅 Shapash: User-friendly Explainability and Interpretability to Develop Reliable and Transparent Machine…
🔅 Shapash: User-friendly Explainability and Interpretability to Develop Reliable and Transparent Machine Learning Models - MAIF/shapash
Что такое CLIP и как он работает не объяснил только ленивый. А вот подъехала Open-Source имплементация.
#multimodal #CLIP
#multimodal #CLIP
GitHub
GitHub - mlfoundations/open_clip: An open source implementation of CLIP.
An open source implementation of CLIP. Contribute to mlfoundations/open_clip development by creating an account on GitHub.
В борьбе снаряда (hyperparameter optimization) и брони (neural architecture search) вновь победа за «снарядом».
AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models
#nlp #training
AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models
#nlp #training
Twitter
AK
AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models pdf: arxiv.org/pdf/2107.13686… abs: arxiv.org/abs/2107.13686 outperforms both the SOTA search-based baseline (NAS-BERT) and the SOTA distillation-based methods
Forwarded from Dmitry Penzar
Они адекватно написали все. На уровне популяризации точно ок.
Почему задача фолдинга не решена они не поняли. Проблема не в комплексах - их альфафолдом2 иногда можно предсказать. Проблема в том, что он очень сильно не учитывает биологию, то, что у белка очень сильно структура зависит от малых изменений pH, молекул рядом и тд.
Условно канонический пример - alphafold2 предсказывает для белка, связывающегося с кальцием, структуру, характерную для того, когда он связался с кальцием. Хотя, очевидно, альфолдуу инфу про кальций не давали и по дефолту (если задача решена) он должен давать структуру без кальция.
А выдает он ее с кальцием, ибо в PDB преобладают структуры этого белка с кальцием.
Ну и аналогично есть белки, которые постоянно в ходе работы меняют две конформации - альфафолд может там предсказать одну форму, вторую форму, и среднее. И предугадать это заранее нельзя
Почему задача фолдинга не решена они не поняли. Проблема не в комплексах - их альфафолдом2 иногда можно предсказать. Проблема в том, что он очень сильно не учитывает биологию, то, что у белка очень сильно структура зависит от малых изменений pH, молекул рядом и тд.
Условно канонический пример - alphafold2 предсказывает для белка, связывающегося с кальцием, структуру, характерную для того, когда он связался с кальцием. Хотя, очевидно, альфолдуу инфу про кальций не давали и по дефолту (если задача решена) он должен давать структуру без кальция.
А выдает он ее с кальцием, ибо в PDB преобладают структуры этого белка с кальцием.
Ну и аналогично есть белки, которые постоянно в ходе работы меняют две конформации - альфафолд может там предсказать одну форму, вторую форму, и среднее. И предугадать это заранее нельзя
Нейросеть для генерации картинок.
DALL-E Mini демка на 🤗 spaces
Можно поиграться прямо с телефона. Красота :)
Видео-разбор
#text2image #images #generative #demo
DALL-E Mini демка на 🤗 spaces
Можно поиграться прямо с телефона. Красота :)
Видео-разбор
#text2image #images #generative #demo
huggingface.co
DALL·E mini by craiyon.com on Hugging Face
Discover amazing ML apps made by the community
Большая и поучительная история как AI не помог в борьбе с пандемией. Почему так вышло? Кто виноват? И что делать?
Если совсем кратко - то «garbage in - garbage out” (подаёшь мусорные данные на вход - получаешь мусорные предсказания на выходе)
Видео-разбор
#science #ScientificML #medicine
Если совсем кратко - то «garbage in - garbage out” (подаёшь мусорные данные на вход - получаешь мусорные предсказания на выходе)
Видео-разбор
#science #ScientificML #medicine
MIT Technology Review
Hundreds of AI tools have been built to catch covid. None of them helped.
Some have been used in hospitals, despite not being properly tested. But the pandemic could help make medical AI better.
Screen Shot 2021-07-31 at 19.59.10.png
385.8 KB
В статье выше цитируется очень приятная и полезная работа - https://www.nature.com/articles/s42256-021-00307-0
Статья рассказывает о частых ошибках при машинном обучении, связанным с предсказанием COVID, и, что тоже очень полезно - дает ссылки на рекомендуемые чеклисты, которые надо смотреть:
1) автору, когда он делает работу
2) рецензенту, когда он работу оценивает
3) читателю, если он решает, стоит ли использовать работу как основу для своей
В частности, упоминаются common лажи типа исключения "неудобных" объектов, попадании фотографий из одной больницы/пациента/.. и в обучение, и в тест и тд.
И, конечно, мое любимое - сравнение качества моделей без малейшей попытки построить confidence interval для качаства моделей
На мой взгляд очень интересная статья сама по себе, и интересны те чеклисты (привел ниже cсылки), на которые она ссылается.
Надо обязательно проанализировать и сделать саммари, которое must have в нашем цикле лекций
RQS:
Lambin, P. et al. Radiomics: the bridge between medical imaging an
Статья рассказывает о частых ошибках при машинном обучении, связанным с предсказанием COVID, и, что тоже очень полезно - дает ссылки на рекомендуемые чеклисты, которые надо смотреть:
1) автору, когда он делает работу
2) рецензенту, когда он работу оценивает
3) читателю, если он решает, стоит ли использовать работу как основу для своей
В частности, упоминаются common лажи типа исключения "неудобных" объектов, попадании фотографий из одной больницы/пациента/.. и в обучение, и в тест и тд.
И, конечно, мое любимое - сравнение качества моделей без малейшей попытки построить confidence interval для качаства моделей
На мой взгляд очень интересная статья сама по себе, и интересны те чеклисты (привел ниже cсылки), на которые она ссылается.
Надо обязательно проанализировать и сделать саммари, которое must have в нашем цикле лекций
RQS:
Lambin, P. et al. Radiomics: the bridge between medical imaging an