Data Secrets

Некоторые метрики задач классификации

В прошлый раз мы рассказывали об основных метриках в задачах регрессии. В этот раз на очереди некоторые метрики задач классификации. По классике: формула, схема и рекомендации к применению.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥40👍11❤5⚡1😇1

4.94K views10:07

Data Secrets

У нас тут новый state-of-the-art оптимизатор завезли

Это расширение алгоритма LoRA – ReLoRA. Основная идея , лежащая в основе ReLoRA, заключается в разложении обновлений весов во время обучения на матрицы низкого ранга путем добавления новых обучаемых параметров к исходным весам модели. А для пущей бодрости внутри используется еще несколько техник, такие как перезапуски обучения, сбросы оптимизатора и ступенчатое нарастание скорости.

Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование памяти уменьшилось на 30%, а производительности обучения увеличилось на 52% по сравнению с обучением с полным рангом. В общем, это что-то на многообещающем.

Код доступен на Github .

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40❤7🔥6❤‍🔥2

4.88K views17:15

Data Secrets

Непопулярная альтернатива KMeans – Gaussian Mixture Models (GMM)

KMeans широко используется в качестве алгоритма кластеризации из-за его простоты и эффективности. Но он имеет некоторые недостатки:
– может создавать только круглые кластеры
– не дает вероятностых оценок принадлежности точек кластерам
– не учитывает кластерную дисперсию

Эти ограничения часто делают KMeans неидеальным выбором для кластеризации. И тут на помощь приходит GMM. Он закрывает все недостатки выше (например, может создавать кластеры овальной формы), и о нем можно думать, как о некотором обобщении KMeans.

Эффективность GMM по сравнению с KMeans очевидна на картинке ⏫
- KMeans просто полагается на расстояние и игнорирует распределение каждого кластера
- GMM изучает распределение и обеспечивает лучшую кластеризацию

P.S. Вот ссылка на GMM из sklearn

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

👍57🐳5❤4

5.02K views09:08

Data Secrets

Интересный кейс с INNER JOIN с собеседования

Довольно распространенные на собеседованиях SQL-задачки с подвохом обычно каким-то образом связаны с джойнами. Это именно на тема, которые очень многие понимают не совсем верно. В карточках – один из таких загадочных кейсов на INNER JOIN. Показываем, как ожидания разбиваются о реальность, и рассказываем, почему так происходит. Читайте, чтобы улучшить свое понимание SQL!

😻

#SQL

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯46❤24👍19🙈3🔥1😁1

5K views13:27

Data Secrets

Очередной материал от Bloomberg – сочное визуальное панк-хулиганство

На этот раз издание подготовило материал про изменение климата. И это – настоящее пособие по тому, как делать дашборды. Визуализация распределений, нестандарные граф-примеры для обрисовки последствий (например, через температуру, которая нужна для выживания кораллов или производства атомной энергии) и вкусное оформление.

Советуем посмотреть полностью здесь.

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🤯9🤩2

4.93K views17:19

Data Secrets

Untitled0 курит в сторонке

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

👍66❤14😁7😐6🙈2😎1

4.82K views07:06

Data Secrets

5 способов векторизации текста

Машина не понимают человеческого языка. В конечном итоге они работают только с числами. Чтобы заставить машину понять речь, ее тоже надо перевести в набор чисел – векторы. Это называется векторизация или получение эмбеддингов. Способов провести векторизацию много. Сегодня обзорно рассказывает про некоторые опорные в порядке их появления в науке.

😻

#NN #train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34❤8🤯3

4.97K views11:42

Data Secrets

Пятница! Продолжите фразу:

"Лучший отдых для айтишника – это ....."

👍12❤4

4.78K views16:04

Data Secrets

Meta наносит следующий удар по индустрии: скоро они релизнут свою модель для работы с кодом

Называется она Code Llama и должна выйти буквально на следующей неделе. И при этом, как мы все понимаем, модель обещает быть бесплатной и открытой (держись, Copilot и GPT4).

Ждем!

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

👍49🤪5😇4🔥2🤨1

18.3K views09:18

Data Secrets

Делаем тепловые карты круче и читабельнее

Тепловые карты часто значительно упрощают анализ данных, особенно когда нужно выявить связи между факторами. Тем не менее, они часто выглядит несимпатично и трудно читаются.

Но что, если кроме цветовой информации мы добавим размеры? Чем больше размер кружочка, тем выше абсолютное значение корреляции. На картинке можете заценить, как мгновенно заиграет и подсветит важную информацию ваш график. Вот, что нужно написать:

corr_mat = df.corr().stack().reset_index(name="correlation")


g = sns.relplot(data=corr_mat, x="level_0",

y="level_1", hue="correlation",

size="correlation")

Подробности можно посмотреть в документации.

😻

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥52👍18❤8

5.43K views12:52

Data Secrets

Ставший классикой бесплатный курс по ML System Design от ODS будет прочитан снова этой осенью, онлайн

В расписании лекции и семинары по таким темам (это только некоторые из них):
– Основы проектирования ML-систем
– Подготовка и отбор признаков
– Выбор и обучение ML-модели
– Оценка качества модели
– Развертывание
– Диагностика ошибок и отказов
– Языковые модели в продуктовом окружении
– Временные ряды и графы

Еще будут лабораторные, командный проект, чатик, лидерборд и в общем все, как полагается. 0 рублей. Регистрация тут. Советуем!

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍56❤10🤩6🐳1

5.71K views16:39

About

Blog

Apps

Platform