AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Рубрика Back to Basics (в которой мы выкладываем хорошие ресурсы для того что бы с начать изучать нейросети)

Продолжая тему с основами - один из лучших каналов по основам статистики и машинному обучению - https://youtube.com/c/joshstarmer

Автор рассказывает про почти все практические области, с которыми сталкивается начинающий data scientist.

Акцент в примерах и темах смещен в сторону биологии, так как автор биостатистик. Однако каких-то дополнительных требований это не добавляет.

У автора одно из самых понятных объяснений идей bootstrapping (используется в случайном лесе, является вдохновителем dropout и тд). Очень понятно поясняются и другие базовые темы - SVM, PCA, tSNE. Также очень понятное (местами до скуки;( ) объяснение идей градиентного бустинга и xgboost.

У автора, как и у всех,случаются ляпы, но они очень редки и он оперативно отвечает и правит их в следующих версиях.

#basics
How to avoid machine learning pitfalls: a guide for academic researchers

В статье дается краткое описание некоторых распространенных ошибок, которые встречаются
при использовании методов машинного обучения, и что можно сделать, чтобы их избежать.

Статья предназначена в первую очередь как руководство для студентов-исследователей и разбирает вопросы, которые особенно важны в академических исследованиях, например, необходимость проведения тщательного сравнения моделей и получение обоснованных выводов. Статья охватывает пять этапов процесса машинного обучения: что нужно сделать перед тем как строить модели, как надежно строить модели, как
как надежно оценивать модели, как справедливо сравнивать модели и как публиковать результаты.

Статья очень и очень хороша!

#basics
CNN Explainer

Интерактивная визуализация Convolutional Neural Networks, которая позволяет заглянуть на каждый слой и посмотреть что именно происходит с даннными. Помимо интерактивной части, объяснняются все основные элементы. CNN с красивыми и подробными иллюстрациями.

Играть тут (к сожалению работает только с компа, на телефоне очень глючит)

#basics #images #convolutions #XAI
Online Hard Example Mining

Некоторые наборы данных для обнаружения объектов содержат подавляющее число легких примеров и небольшое число трудных примеров. Автоматический отбор этих трудных примеров может сделать обучение более эффективным и результативным. OHEM, или Online Hard Example Mining, - это метод бутстраппинга, который модифицирует SGD для неравномерной выборки сэмплов в зависимости от текущего лосса каждого рассматриваемого сэмпла.

arXiv
GitHub

#basics #detection #segmentation
Papers with code - сайт-сообщество. В первую очередь знаменит своими лидер-бордами, где можно посмотреть State-of-the-art (SOTA) практически по любой задаче машинного обучения и датасету (например ImageNet).

К большинству статей прилагается код (часто официальная версия и не официальные релизы).

Paperswithcode.com

#basics #ScientifcML #code
Введение в JAX (рекомендовано Szegedy)

Этот туториал (colab) знакомит с важными концепциями JAX (autograd, pytree, JIT и др.), реализуя при этом простой алгоритм градиентного спуска.

#jax #basics #tutorial
How to Create Any Image Using Only Sine Functions | 2D Fourier Transform in Python

Отлично написанный и очень подробный туториал для тех, кто только начинает свой путь в работе с изображениями и сигналами. В статье рассказывается о том что такое преобразования Фурье и как с их помощью можно представить любое изображение в виде синусов.

Эта идея например использована в такой знаменитой сети как SIREN, о которой я напишу как-нибудь в другой раз.

Почитать статью

#basics #processing #images
Интуитивно понятное исследование задач Kaggle и построение моделей

В посте показано, как исследовать наборы данных и подготовить бэйслайн с помощью PyTorch Lightning и модели TorchVision.

The main steps will be: (1) loading data, (2) checking label distribution, and (3) watching some sample images from each class. Later we start (4) wrapping data to PyTorch classes, aka Dataset and Dataloader. In the end, we put it all together and (5) train a simple baseline CNN model.

Пост

#basics #images
Altair

Существует множество библиотек визуализации на языке python, но altair предлагает несколько оригинальных возможностей. Она предлагает широкий выбор графиков, грамматически понятный api, множество интерактивных функций и возможность экспорта непосредственно в браузер.

Нашёл отличный туториал (коротко, с видео и со вкусом)

#plotting #python #basics
97% accuracy on MNIST with a single decision tree (+ t-SNE)

Я довольно много пишу про сложные модели их интересные применения (это 662 пост в канале). Но в этот раз, давайте поговорим про простые модели. Вообще-то, добиться хорошей точности классификации можно и путем уменьшения размерности.

Берём Truncated Singular Value Decomposition (TSVD), «сжимаем» наш датасет (в этом случае MNIST - рукописные цифры) и преобразовываем данные в 2х мерное пространство с помощью T-SNE. Получаем 97% точности.

Полностью (супер подробно) метод разобран в этом блокноте.

#basics #reduction
Многие алгоритмы машинного обучения, как supervised, так и self-supervised, используют метрики расстояния. В этой чудесной шпаргалке подробно рассмотрены основные 9.

Знание того, когда использовать ту или иную меру расстояния, может помочь вам пройти путь от плохого классификатора до точной модели.

🔭 Блог-пост

#basics #training
Back to basics

Праздники прошли, и самое время вкатываться в работу и в канал. Отличная лекция по Реккурентным Сетям (RNN) от New York University. Альфредо старается объяснять с точки зрения интуции, а не математики. И качество иллюстраций тоже на уровне!

#rnn #basics
Я все еще не могу себя заставить зайти в твиттер и почитать свежачок. Но тем не менее, вот вам отличная статья про Attention. Лучше пока ничего не написали (в том числе есть перевод на русский). Или если больше заходят видосы, посмотрите лекцию NYU.

#basics #attention #transformers
Media is too big
VIEW IN TELEGRAM
Good news, everyone!

Я уже почти год работаю в проекте MSU.ai и позвольте поделиться инсайдерской инфой - у нас новый набор на курс “Нейросети и их применение в научных исследованиях”.

Главная фишечка курса в том, что он бесплатный и у нас есть крутые плюшки в виде приличных стипендий (20к рублей/месяц) и премии за публикации (до 200к рублей, Карл! 200к рублей!!!). Но есть пара нюансов:
1) курс только для для тех кто учится и/или учился в МГУ (с прицелом на магистров и аспирантов).
2) у нас довольно хардкорный конкурс, но оно того стоит.

Если интересно, подробная инфа и регистрация (до 31ого января) тут.

#курсы #basics
OpenAI добавила возможность получать эмбеддинги текста или кода напрямую из своего API

Эмбеддинги - это числовые представления каких-то понятий (например слов или кусочков кода), преобразованные в последовательности чисел (например [1.,…,2.]), которые облегчают компьютеру понимание отношений между этими понятиями.

Эмбеддинги полезны при работе с естественным языком и кодом, поскольку их можно легко использовать и сравнивать с другими моделями машинного обучения и алгоритмами, такими как кластеризация или поиск.

То есть получается, берём например текст -> прогоняем его через OpenAI API -> получаем эмбеддинг -> и можем его использовать с любыми моделями машинного обучения (не только с OpenAI, а то получилось бы еще одна «экосистема» по типу Apple).

Для тех, кто потихонечку вкатывается в NLP рекомендую почитать блог-пост. Там простым и понятным языком написано.

📸 Блог-пост
📎 Статья

#gpt #nlp #basics
Туториал по Графовым нейросетям

Графовые нейросети сейчас горячая тема. Нашел классный Colab-туториал от DeepMind, который начинается с самого понятия графа и заканчивается подробной инструкцией по написанию Графовой Сверточной Сети (GCN) на питоне.

💻 Учиться

#graph #basics