Data Secrets
78.8K subscribers
6.43K photos
667 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Некоторые метрики задач классификации

В прошлый раз мы рассказывали об основных метриках в задачах регрессии. В этот раз на очереди некоторые метрики задач классификации. По классике: формула, схема и рекомендации к применению.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍1151😇1
У нас тут новый state-of-the-art оптимизатор завезли

Это расширение алгоритма LoRA – ReLoRA. Основная идея, лежащая в основе ReLoRA, заключается в разложении обновлений весов во время обучения на матрицы низкого ранга путем добавления новых обучаемых параметров к исходным весам модели. А для пущей бодрости внутри используется еще несколько техник, такие как перезапуски обучения, сбросы оптимизатора и ступенчатое нарастание скорости.

Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование памяти уменьшилось на 30%, а производительности обучения увеличилось на 52% по сравнению с обучением с полным рангом. В общем, это что-то на многообещающем.

Код доступен на Github.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍407🔥6❤‍🔥2
Непопулярная альтернатива KMeans – Gaussian Mixture Models (GMM)

KMeans широко используется в качестве алгоритма кластеризации из-за его простоты и эффективности. Но он имеет некоторые недостатки:
– может создавать только круглые кластеры
– не дает вероятностых оценок принадлежности точек кластерам
– не учитывает кластерную дисперсию

Эти ограничения часто делают KMeans неидеальным выбором для кластеризации. И тут на помощь приходит GMM. Он закрывает все недостатки выше (например, может создавать кластеры овальной формы), и о нем можно думать, как о некотором обобщении KMeans.

Эффективность GMM по сравнению с KMeans очевидна на картинке
- KMeans просто полагается на расстояние и игнорирует распределение каждого кластера
- GMM изучает распределение и обеспечивает лучшую кластеризацию

P.S. Вот ссылка на GMM из sklearn

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🐳54
Интересный кейс с INNER JOIN с собеседования

Довольно распространенные на собеседованиях SQL-задачки с подвохом обычно каким-то образом связаны с джойнами. Это именно на тема, которые очень многие понимают не совсем верно. В карточках – один из таких загадочных кейсов на INNER JOIN. Показываем, как ожидания разбиваются о реальность, и рассказываем, почему так происходит. Читайте, чтобы улучшить свое понимание SQL!

😻 #SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯4624👍19🙈3🔥1😁1
Очередной материал от Bloomberg – сочное визуальное панк-хулиганство

На этот раз издание подготовило материал про изменение климата. И это – настоящее пособие по тому, как делать дашборды. Визуализация распределений, нестандарные граф-примеры для обрисовки последствий (например, через температуру, которая нужна для выживания кораллов или производства атомной энергии) и вкусное оформление.

Советуем посмотреть полностью здесь.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🤯9🤩2
Untitled0 курит в сторонке

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6614😁7😐6🙈2😎1
5 способов векторизации текста

Машина не понимают человеческого языка. В конечном итоге они работают только с числами. Чтобы заставить машину понять речь, ее тоже надо перевести в набор чисел – векторы. Это называется векторизация или получение эмбеддингов. Способов провести векторизацию много. Сегодня обзорно рассказывает про некоторые опорные в порядке их появления в науке.

😻 #NN #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍348🤯3
Пятница! Продолжите фразу:

"Лучший отдых для айтишника – это ....."
👍124
Meta наносит следующий удар по индустрии: скоро они релизнут свою модель для работы с кодом

Называется она Code Llama и должна выйти буквально на следующей неделе. И при этом, как мы все понимаем, модель обещает быть бесплатной и открытой (держись, Copilot и GPT4).

Ждем!

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🤪5😇4🔥2🤨1
Делаем тепловые карты круче и читабельнее

Тепловые карты часто значительно упрощают анализ данных, особенно когда нужно выявить связи между факторами. Тем не менее, они часто выглядит несимпатично и трудно читаются.

Но что, если кроме цветовой информации мы добавим размеры? Чем больше размер кружочка, тем выше абсолютное значение корреляции. На картинке можете заценить, как мгновенно заиграет и подсветит важную информацию ваш график. Вот, что нужно написать:

corr_mat = df.corr().stack().reset_index(name="correlation")

g = sns.relplot(data=corr_mat, x="level_0",
y="level_1", hue="correlation", size="correlation")

Подробности можно посмотреть в документации.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍188
Ставший классикой бесплатный курс по ML System Design от ODS будет прочитан снова этой осенью, онлайн

В расписании лекции и семинары по таким темам (это только некоторые из них):
– Основы проектирования ML-систем
– Подготовка и отбор признаков
– Выбор и обучение ML-модели
– Оценка качества модели
– Развертывание
– Диагностика ошибок и отказов
– Языковые модели в продуктовом окружении
– Временные ряды и графы

Еще будут лабораторные, командный проект, чатик, лидерборд и в общем все, как полагается. 0 рублей. Регистрация тут. Советуем!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5610🤩6🐳1