Всем привет!
Я достаточно часто в последнее время общаюсь с ребятами, которые только начинают карьеру. Поэтому решил сделать канал, куда буду выкладывать полезные материалы и где буду отвечать на часто задаваемые вопросы :)
Я достаточно часто в последнее время общаюсь с ребятами, которые только начинают карьеру. Поэтому решил сделать канал, куда буду выкладывать полезные материалы и где буду отвечать на часто задаваемые вопросы :)
❤1
#kaggle
За время знакомства с машинным обучением вы точно не раз услышите что-то вроде "этот чувак тащит кэгл" или "я зарешал несколько соревнований на кэгле и влетел в DS".
Вот эта статья позволит вам немного разобраться в том, что же такое Kaggle:
https://tproger.ru/translations/kaggle-competitions-introduction/
Окончательно понять зачем оно нужно можно лишь начав решать соревнования :)
За время знакомства с машинным обучением вы точно не раз услышите что-то вроде "этот чувак тащит кэгл" или "я зарешал несколько соревнований на кэгле и влетел в DS".
Вот эта статья позволит вам немного разобраться в том, что же такое Kaggle:
https://tproger.ru/translations/kaggle-competitions-introduction/
Окончательно понять зачем оно нужно можно лишь начав решать соревнования :)
Tproger
Знакомство с Kaggle: изучаем науку о данных на практике
Теорию лучше совмещать с практикой. Если вы изучаете Data Science, то вам стоит попробовать себя в соревнованиях Kaggle.
#статистика
Ссылка: https://disk.yandex.ru/i/PMGHlkVApxm1gA
Часто спрашивают хорошую русскую литературу по статистике. Вот книжка, которая мне в своё время очень помогла с подготовкой к собесам. Ключевое отличие от других - тут всё разбирается на примерах (отталкивается от них).
Но, тем не менее, суровой математики тут тоже немало. Так что очень советую выделять определенное количество времени (например, по часу) и подробно сидеть разбираться в интересующих вас главах.
Особенно советую:
•Часть III - Проверка гипотез
•Часть V - Анализ многомерных данных (фактически - базовые алгоритмы ML)
Ссылка: https://disk.yandex.ru/i/PMGHlkVApxm1gA
Часто спрашивают хорошую русскую литературу по статистике. Вот книжка, которая мне в своё время очень помогла с подготовкой к собесам. Ключевое отличие от других - тут всё разбирается на примерах (отталкивается от них).
Но, тем не менее, суровой математики тут тоже немало. Так что очень советую выделять определенное количество времени (например, по часу) и подробно сидеть разбираться в интересующих вас главах.
Особенно советую:
•Часть III - Проверка гипотез
•Часть V - Анализ многомерных данных (фактически - базовые алгоритмы ML)
🔥1
#python
Вот тут: https://tproger.ru/translations/hitchhikers-guide-to-ml/ здорово разобраны базовые алгоритмы машинного обучения с точки зрения их использования в Python
Вот тут: https://tproger.ru/translations/hitchhikers-guide-to-ml/ здорово разобраны базовые алгоритмы машинного обучения с точки зрения их использования в Python
Tproger
Автостопом по машинному обучению на Python
В этой статье кратко описаны восемь главных алгоритмов машинного обучения и то, как использовать их на практике. Будет полезно для структурирования знаний.
#python
Как быстро въехать в Python? Практика и только практика!
А где её найти? Чтобы было много разных заданий, да ещё и с качественными примерами решений?
https://py.checkio.org/
В своё время я постигал язык с помощью этой игры. Она позволяет поработать с питоном с разных сторон. + ко всему после прохождения задания вы можете посмотреть решения других пользователей. Это порой помогает взглянуть на задачу с другой стороны :)
Как быстро въехать в Python? Практика и только практика!
А где её найти? Чтобы было много разных заданий, да ещё и с качественными примерами решений?
https://py.checkio.org/
В своё время я постигал язык с помощью этой игры. Она позволяет поработать с питоном с разных сторон. + ко всему после прохождения задания вы можете посмотреть решения других пользователей. Это порой помогает взглянуть на задачу с другой стороны :)
Py.CheckiO - games for coders
python coding challenges - Py.CheckiO
200 unique coding puzzles, 300000 python solutions. Improve your coding skills by playing games.
❤1
Pandas_Cheat_Sheet.pdf
172.4 KB
#python
Мини-шпаргалка по Pandas
Мини-шпаргалка по Pandas
#интересное
Крутое выступление, которое позволит понять кто же такие DS'ы:
https://youtu.be/Cs3ae65tmKA
Тут Валера говорит про то, что на самом деле непосредственно Data Scientist'ов не существует, но зато есть более точные роли - ML Engineer, Data Analyst, Data Engineer, ML Researcher, Analyst, DevOps.
Проблема в том, что на практике большинство компаний под DS'ами подразумевают некоторую совокупность этих ролей с более-менее определенными коэффициентами. Кто-то хочет чтобы вы умели и сбор таблиц настраивать, и модельки делать, кто-то - чтобы вы умели напрямую взаимодействовать с бизнесом, строить модели и оценивать бизнес-эффект от них.
Эти пропорции важно понимать на этапе общения с представителями компании, чтобы не строить ложных надежд. Потому что согласитесь - печально устроиться DS'ом и сутками ковырять эксельки (а о таких случаях в некоторых компаниях я слышал)
Крутое выступление, которое позволит понять кто же такие DS'ы:
https://youtu.be/Cs3ae65tmKA
Тут Валера говорит про то, что на самом деле непосредственно Data Scientist'ов не существует, но зато есть более точные роли - ML Engineer, Data Analyst, Data Engineer, ML Researcher, Analyst, DevOps.
Проблема в том, что на практике большинство компаний под DS'ами подразумевают некоторую совокупность этих ролей с более-менее определенными коэффициентами. Кто-то хочет чтобы вы умели и сбор таблиц настраивать, и модельки делать, кто-то - чтобы вы умели напрямую взаимодействовать с бизнесом, строить модели и оценивать бизнес-эффект от них.
Эти пропорции важно понимать на этапе общения с представителями компании, чтобы не строить ложных надежд. Потому что согласитесь - печально устроиться DS'ом и сутками ковырять эксельки (а о таких случаях в некоторых компаниях я слышал)
YouTube
Почему вы никогда не найдете Дата Саентиста – Валерий Бабушкин
Валерий Бабушкин (X5) «Почему вы никогда не найдете Дата Саентиста»
Конференция X5 Retail Hero
https://retailhero.ai/conference
Презентации - https://drive.google.com/drive/folders/1zf8rSVU9bHXTkPDAms5bkV9qDdxVpbdN?usp=sharing
Конференция X5 Retail Hero
https://retailhero.ai/conference
Презентации - https://drive.google.com/drive/folders/1zf8rSVU9bHXTkPDAms5bkV9qDdxVpbdN?usp=sharing
#алгоритмы
Тем, кто уже разобрался с основами, и хочет глубже погрузиться в один из самых распространëнных методов:
https://youtu.be/UYDwhuyWYSo
Тут Анна Вероника рассказывает про многие полезные особенности CatBoost'а. Но лекция непростая, поэтому лучше на входе иметь чёткое представление относительно того, что из себя представляет бустинг
Тем, кто уже разобрался с основами, и хочет глубже погрузиться в один из самых распространëнных методов:
https://youtu.be/UYDwhuyWYSo
Тут Анна Вероника рассказывает про многие полезные особенности CatBoost'а. Но лекция непростая, поэтому лучше на входе иметь чёткое представление относительно того, что из себя представляет бустинг
YouTube
CatBoost - градиентный бустинг от Яндекса
Приглашённая лекция в рамках курса «Машинное обучение, часть 2» (весна 2018).
Лектор — Анна Вероника Дорогуш (Яндекс).
Страница лекции на сайте CS центра: https://goo.gl/YwePW1
Лектор — Анна Вероника Дорогуш (Яндекс).
Страница лекции на сайте CS центра: https://goo.gl/YwePW1
👍4
Ещë немного про #kaggle - как это помогает в карьере и помогает ли вообще?
Рассказывает Паша Плесков, один из мировых лидеров по соревнованиям в области машинного обучения.
https://youtu.be/fXnzjJMbujc
Рассказывает Паша Плесков, один из мировых лидеров по соревнованиям в области машинного обучения.
https://youtu.be/fXnzjJMbujc
YouTube
5 secrets to becoming a Kaggle grandmaster — Pavel Pleskov
Pavel Pleskov shares five secrets to becoming a Kaggle grandmaster. This video discusses:
— Whether you should strive to earn the title.
— The difference between the academic and the business approach to machine learning contests.
— What the best practical…
— Whether you should strive to earn the title.
— The difference between the academic and the business approach to machine learning contests.
— What the best practical…
#интересное, #python
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.
Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.
Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Data-To-Viz
From data to Viz | Find the graphic you need
A classification of chart types based on their input data format.
Мне тут студенты задали очень интересный вопрос. Давайте без гугла - правда очень интересно. Чуть позже сделаем подробный разбор :)
👍2
Start Career in DS
Может ли Information Gain при разбиении в дереве быть отрицательным?
Не может.
Подробности - по ссылке
https://telegra.ph/Mozhet-li-Information-Gain-byt-otricatelnym-10-25
Подробности - по ссылке
https://telegra.ph/Mozhet-li-Information-Gain-byt-otricatelnym-10-25
Telegraph
Может ли Information Gain быть отрицательным?
Давайте для начала вспомним, что же такое Information Gain. Это прирост некоего Критерия Информативности (например, Entropy или Gini), который мы получаем в результате разбиения дерева. Как это записать более формальным языком? Давайте думать. Что делает…
Интересная статья про фичи и их отбор. На английском, но он тут достаточно простой:
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
👍2
#метрики
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
Анализ малых данных
AUC ROC (площадь под кривой ошибок)
Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, …
#SQL
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
👍1
#SQL
Ещё немного доп. инфы по SQL. Знать его хорошо, но что могут спросить на собеседовании? Вот очень хорошая подборка вопросов:
https://tprg.ru/q7p5
Ещё немного доп. инфы по SQL. Знать его хорошо, но что могут спросить на собеседовании? Вот очень хорошая подборка вопросов:
https://tprg.ru/q7p5
Tproger
25 распространённых вопросов по SQL с собеседований и ответы на них
Вопросы по SQL часто входят в техническое собеседование. Здесь мы собрали популярные вопросы, задачи и дали на них развёрнутые ответы.
Несколько интересных экспериментов с #pandas
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
Анализ малых данных
Python и Pandas: делаем быстрее
Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я …
❤1