Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
#читалиТвиттер и нашли вот такую визуальную подсказку по самым важным распределениям в DS. Конечно, на первом месте у нас нормальное и Бернулли, но на практике также попадается и логнормальное, и гамма, и (особенно) экспоненциальное. Полезно помнить, как все они выглядят.

Если хотите больше почитать про распределения, то вот вам в дополнение еще полезный чит-лист. Тут описано каждое распределение, даны его характеристики, описательные статистики + примеры. Еще есть таблицы квантилей для тех, кто интересуется проверкой гипотез и оценками параметров.

😻 #advice #math
Please open Telegram to view this post
VIEW IN TELEGRAM
45👍8🤯3
Никогда не используйте feature importances для случайного леса в sklearn

И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍803
Яндекс Такси научилось предсказывать спрос

В приложении появился специальный график, который показывает, как будет меняться спрос. Алгоритм анализирует количество свободных машин такси поблизости и стоимость поездки по этому маршруту за прошлые четыре недели: за эти дни набирается достаточно данных для оценки и при этом, как правило, похожи погодные и дорожные условия.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4610🤯6🌚1
Статистика по-прежнему важна

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
70😁26🔥8🙈3
Что такое adversarial validation

Это один из самых популярных примеров использования подмены задачи. Кстати, этот трюк пришел к нам из соревновательного ML. Его суть – в карточках.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍206🤔4🤯4🥰1
После выхода LLaMA-2 в OpenAI тут же спохватились выпускать новые фичи

Что произошло:

1) У GPT4 увеличили лимит сообщений в диалоге в два раза (50 сообщений).

2) Теперь в чате c ботом можно задавать инструкции о себе. Причем сделать это достаточно один раз, и модель будет всегда иметь эту информацию.

Как тебе такое, Цукерберг?

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯22👍13🔥6🤓3😁2🤨2
Забавные комиксы на тему Data Science от Allison Marie Horst

Да-да, художница взяла и оформила обучающие материалы в короткие веселые истории в картинках. Есть комиксы про:

– K-means
– Автокорреляцию
– Линейную регрессию
– Git
– Язык R
– и еще много чего другого

Осторожно, вы рискуете надолго залипнуть…

😻 #forfun
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🤪1211🤯2😐2
Что вы чаще всего гуглите по работе? Пишите в комментарии!

😻 Наш топ: распределения случайных величин, документация torch и «как сделать так, чтобы подписчики ставили больше лайков»
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🍓8🔥5🐳3🤯2
Действительно ли поглупела GPT-4

В последнее время сильно нашумела статья How is ChatGPT's behavior changing over time? Многие пишут о том, что исследования подтвердили, что GPT-4 поглупела. Рассказываем, почему не стоит верить новостям на слово и показываем 5 причин, почему это исследование НЕ доказывает ухудшение качества модели.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥6😁1🐳1