Data Secrets

Препарируем ROC-AUC

Многие любят использовать эту метрику для задач классификации, но знаете ли вы, как она работает? Что такое ROC-кривая? При чем тут площадь? Давайте разберемся.

P.S. При подготовке материала нашли такой интересный тест на знание ROC-AUC. Полезно для самопроверки.

P.S.№2. В комментариях оставим код для построения ROC-кривой в питоне

😻

#train #math

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26👍9❤4👏2🤔1

7.05K views12:21

Data Secrets

RLHF: как работает алгоритм, который сделал GhatGPT таким человечным

RLHF – это сокращение от Reinforcement Learning from Human Feedback. Оказывается, что именно благодаря этому подходу GhatGPT так хорош: он, в отличие от предшественников, учитывает то, что хочет видеть пользователь. Но как? Ответ в карточках.

Кстати, подробнее об этом подходе можно почитать в статье InstructGPT. Создатели утверждают, что их модель отличается от ChatGPT только в методах сбора данных.

😻

#NN

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤6⚡5🔥3❤‍🔥1👏1🙈1

8.38K views15:41

Data Secrets

Кто кого бустит и зачем?

Ноги бустинга растут из вопроса «можно ли с помощью нескольких слабых алгоритмов сделать один сильный?». Оказывается, что да. В этом и есть суть метода: строим серию не особо точных алгоритмов и обучаем их на ошибках друг друга.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤39🔥13👍5😐2⚡1🤯1

11.6K viewsedited 08:07

Data Secrets

Как грызть гранит науки о данных?

С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂

Вообще, образование data специалиста стоит на двух китах: математика и программирование.

Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.

Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.

После изучения этой базы начинается все самое интересное:

– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.

– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.

– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.

Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!

😻

Ваша команда Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM