Data Secrets

Никогда не используйте feature importances для случайного леса в sklearn

И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.

😻

#analytics #train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍80❤3

6.2K views13:24

Data Secrets

Яндекс Такси научилось предсказывать спрос

В приложении появился специальный график, который показывает, как будет меняться спрос. Алгоритм анализирует количество свободных машин такси поблизости и стоимость поездки по этому маршруту за прошлые четыре недели: за эти дни набирается достаточно данных для оценки и при этом, как правило, похожи погодные и дорожные условия.

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥46❤10🤯6🌚1

6.07K views17:06

Data Secrets

Статистика по-прежнему важна

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

❤70😁26🔥8🙈3

5.59K viewsedited 08:17

Data Secrets

Что такое adversarial validation

Это один из самых популярных примеров использования подмены задачи. Кстати, этот трюк пришел к нам из соревновательного ML. Его суть – в карточках.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥55👍20❤6🤔4🤯4🥰1

5.63K views12:34

Data Secrets

После выхода LLaMA-2 в OpenAI тут же спохватились выпускать новые фичи

Что произошло:

1) У GPT4 увеличили лимит сообщений в диалоге в два раза (50 сообщений).

2) Теперь в чате c ботом можно задавать инструкции о себе. Причем сделать это достаточно один раз, и модель будет всегда иметь эту информацию.

Как тебе такое, Цукерберг?

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯22👍13🔥6🤓3😁2🤨2

5.94K viewsedited 07:41

Data Secrets

Забавные комиксы на тему Data Science от Allison Marie Horst

Да-да, художница взяла и оформила обучающие материалы в короткие веселые истории в картинках. Есть комиксы про:

– K-means
– Автокорреляцию
– Линейную регрессию
– Git
– Язык R
– и еще много чего другого

Осторожно, вы рискуете надолго залипнуть…

😻

#forfun

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🤪12❤11🤯2😐2

5.08K views11:46

Data Secrets

Что вы чаще всего гуглите по работе? Пишите в комментарии!

😻 Наш топ: распределения случайных величин, документация torch и «как сделать так, чтобы подписчики ставили больше лайков»

Please open Telegram to view this post

VIEW IN TELEGRAM

👍53🍓8🔥5🐳3🤯2

4.87K views15:51

Data Secrets

Действительно ли поглупела GPT-4

В последнее время сильно нашумела статья How is ChatGPT's behavior changing over time? Многие пишут о том, что исследования подтвердили, что GPT-4 поглупела. Рассказываем, почему не стоит верить новостям на слово и показываем 5 причин, почему это исследование НЕ доказывает ухудшение качества модели.

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍41🔥6😁1🐳1

5.2K views09:58

Data Secrets

Как написать научную работу про AI/ML

Статьи – хороший лифт в карьере любого дата сайентиста. Но если у вас не было опыта написания академических текстов, то лучше найти себе научрука или хотя бы у кого-нибудь поучиться. Например, вот лаконичное чтиво с советами о том, как написать хорошую статью в сфере AI. Говорят о:

– Структуре текста
– С чего начать и какими ресурсами пользоваться
– Как объективно оценить свою работу

Сейчас, кстати, идет конкурс AI Journey Science: до конца лета можно засабмитить статью и выиграть финансирование публикации и выступление на конференции. Советуем!

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥8🤯3❤1

5.7K viewsedited 13:46

About

Blog

Apps

Platform