Pandas_Cheat_Sheet.pdf
172.4 KB
#python
Мини-шпаргалка по Pandas
Мини-шпаргалка по Pandas
#интересное
Крутое выступление, которое позволит понять кто же такие DS'ы:
https://youtu.be/Cs3ae65tmKA
Тут Валера говорит про то, что на самом деле непосредственно Data Scientist'ов не существует, но зато есть более точные роли - ML Engineer, Data Analyst, Data Engineer, ML Researcher, Analyst, DevOps.
Проблема в том, что на практике большинство компаний под DS'ами подразумевают некоторую совокупность этих ролей с более-менее определенными коэффициентами. Кто-то хочет чтобы вы умели и сбор таблиц настраивать, и модельки делать, кто-то - чтобы вы умели напрямую взаимодействовать с бизнесом, строить модели и оценивать бизнес-эффект от них.
Эти пропорции важно понимать на этапе общения с представителями компании, чтобы не строить ложных надежд. Потому что согласитесь - печально устроиться DS'ом и сутками ковырять эксельки (а о таких случаях в некоторых компаниях я слышал)
Крутое выступление, которое позволит понять кто же такие DS'ы:
https://youtu.be/Cs3ae65tmKA
Тут Валера говорит про то, что на самом деле непосредственно Data Scientist'ов не существует, но зато есть более точные роли - ML Engineer, Data Analyst, Data Engineer, ML Researcher, Analyst, DevOps.
Проблема в том, что на практике большинство компаний под DS'ами подразумевают некоторую совокупность этих ролей с более-менее определенными коэффициентами. Кто-то хочет чтобы вы умели и сбор таблиц настраивать, и модельки делать, кто-то - чтобы вы умели напрямую взаимодействовать с бизнесом, строить модели и оценивать бизнес-эффект от них.
Эти пропорции важно понимать на этапе общения с представителями компании, чтобы не строить ложных надежд. Потому что согласитесь - печально устроиться DS'ом и сутками ковырять эксельки (а о таких случаях в некоторых компаниях я слышал)
YouTube
Почему вы никогда не найдете Дата Саентиста – Валерий Бабушкин
Валерий Бабушкин (X5) «Почему вы никогда не найдете Дата Саентиста»
Конференция X5 Retail Hero
https://retailhero.ai/conference
Презентации - https://drive.google.com/drive/folders/1zf8rSVU9bHXTkPDAms5bkV9qDdxVpbdN?usp=sharing
Конференция X5 Retail Hero
https://retailhero.ai/conference
Презентации - https://drive.google.com/drive/folders/1zf8rSVU9bHXTkPDAms5bkV9qDdxVpbdN?usp=sharing
#алгоритмы
Тем, кто уже разобрался с основами, и хочет глубже погрузиться в один из самых распространëнных методов:
https://youtu.be/UYDwhuyWYSo
Тут Анна Вероника рассказывает про многие полезные особенности CatBoost'а. Но лекция непростая, поэтому лучше на входе иметь чёткое представление относительно того, что из себя представляет бустинг
Тем, кто уже разобрался с основами, и хочет глубже погрузиться в один из самых распространëнных методов:
https://youtu.be/UYDwhuyWYSo
Тут Анна Вероника рассказывает про многие полезные особенности CatBoost'а. Но лекция непростая, поэтому лучше на входе иметь чёткое представление относительно того, что из себя представляет бустинг
YouTube
CatBoost - градиентный бустинг от Яндекса
Приглашённая лекция в рамках курса «Машинное обучение, часть 2» (весна 2018).
Лектор — Анна Вероника Дорогуш (Яндекс).
Страница лекции на сайте CS центра: https://goo.gl/YwePW1
Лектор — Анна Вероника Дорогуш (Яндекс).
Страница лекции на сайте CS центра: https://goo.gl/YwePW1
👍4
Ещë немного про #kaggle - как это помогает в карьере и помогает ли вообще?
Рассказывает Паша Плесков, один из мировых лидеров по соревнованиям в области машинного обучения.
https://youtu.be/fXnzjJMbujc
Рассказывает Паша Плесков, один из мировых лидеров по соревнованиям в области машинного обучения.
https://youtu.be/fXnzjJMbujc
YouTube
5 secrets to becoming a Kaggle grandmaster — Pavel Pleskov
Pavel Pleskov shares five secrets to becoming a Kaggle grandmaster. This video discusses:
— Whether you should strive to earn the title.
— The difference between the academic and the business approach to machine learning contests.
— What the best practical…
— Whether you should strive to earn the title.
— The difference between the academic and the business approach to machine learning contests.
— What the best practical…
#интересное, #python
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.
Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.
Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Data-To-Viz
From data to Viz | Find the graphic you need
A classification of chart types based on their input data format.
Мне тут студенты задали очень интересный вопрос. Давайте без гугла - правда очень интересно. Чуть позже сделаем подробный разбор :)
👍2
Start Career in DS
Может ли Information Gain при разбиении в дереве быть отрицательным?
Не может.
Подробности - по ссылке
https://telegra.ph/Mozhet-li-Information-Gain-byt-otricatelnym-10-25
Подробности - по ссылке
https://telegra.ph/Mozhet-li-Information-Gain-byt-otricatelnym-10-25
Telegraph
Может ли Information Gain быть отрицательным?
Давайте для начала вспомним, что же такое Information Gain. Это прирост некоего Критерия Информативности (например, Entropy или Gini), который мы получаем в результате разбиения дерева. Как это записать более формальным языком? Давайте думать. Что делает…
Интересная статья про фичи и их отбор. На английском, но он тут достаточно простой:
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
👍2
#метрики
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
Анализ малых данных
AUC ROC (площадь под кривой ошибок)
Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, …
#SQL
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
👍1
#SQL
Ещё немного доп. инфы по SQL. Знать его хорошо, но что могут спросить на собеседовании? Вот очень хорошая подборка вопросов:
https://tprg.ru/q7p5
Ещё немного доп. инфы по SQL. Знать его хорошо, но что могут спросить на собеседовании? Вот очень хорошая подборка вопросов:
https://tprg.ru/q7p5
Tproger
25 распространённых вопросов по SQL с собеседований и ответы на них
Вопросы по SQL часто входят в техническое собеседование. Здесь мы собрали популярные вопросы, задачи и дали на них развёрнутые ответы.
Несколько интересных экспериментов с #pandas
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
Анализ малых данных
Python и Pandas: делаем быстрее
Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я …
❤1
#алгоритмы
В некоторых компаниях на интервью любят спрашивать алгоритмы и структуры данных. Справедливости ради, нужно сказать, что к этим "некоторым компаниям" можно отнести Яндекс, Google и Facebook.
Есть очень классная книжка, которая содержит разборы огромной кучи задач на эту тему. Причем разбирается это всё прямо в виду задач с собесов.
Книга называется "Cracking the coding interview"
Ссылка: https://disk.yandex.ru/i/4_Ef2sBal5LohA
В некоторых компаниях на интервью любят спрашивать алгоритмы и структуры данных. Справедливости ради, нужно сказать, что к этим "некоторым компаниям" можно отнести Яндекс, Google и Facebook.
Есть очень классная книжка, которая содержит разборы огромной кучи задач на эту тему. Причем разбирается это всё прямо в виду задач с собесов.
Книга называется "Cracking the coding interview"
Ссылка: https://disk.yandex.ru/i/4_Ef2sBal5LohA
❤1
Достаточно разнородное видео (включает в себя кучу разных тем), но всё равно покрывает много вопросов, которые действительно задаются на собесах.
https://youtu.be/2AXT1yR5_48
https://youtu.be/2AXT1yR5_48
YouTube
Карьера в DATA SCIENCE: TOP-50 Вопросов на собеседовании // PART 1
Новая группа про Data Science ВКонтакте https://vk.com/pymagic
Курс Data Science для начинающих PyMagic
Подробная информация о курсе, программа обучения по ссылке - https://pymagic.ru
В этом видео привела основные вопросы на собеседованиях на позицию…
Курс Data Science для начинающих PyMagic
Подробная информация о курсе, программа обучения по ссылке - https://pymagic.ru
В этом видео привела основные вопросы на собеседованиях на позицию…
#python
Регулярки в питоне - штука крайне полезная. Они позволяют быстро и удобно работать со строками.
Вот очень хорошая статья, которая даëт все необходимые вводные:
https://tproger.ru/translations/regular-expression-python/?utm_medium=messenger&utm_source=telegram
Самое интересное там начинается со слов "До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам?"
Регулярки в питоне - штука крайне полезная. Они позволяют быстро и удобно работать со строками.
Вот очень хорошая статья, которая даëт все необходимые вводные:
https://tproger.ru/translations/regular-expression-python/?utm_medium=messenger&utm_source=telegram
Самое интересное там начинается со слов "До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам?"
Tproger
Регулярные выражения в Python: теория и практика
Разберём регулярные выражения в Python, их синтаксис, популярные методы специального модуля re, а также попрактикуемся на задачах.
👍2
#DL #курсы
"Хочу понять нейронки, куда пойти?"
Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/
Сейчас ребята даже сделали курс на степике, стало вдвойне удобно.
В их курсах есть вообще всё - начиная с базовой математики, заканчивая соревнованиями на кэгле по распознаванию изображений
"Хочу понять нейронки, куда пойти?"
Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/
Сейчас ребята даже сделали курс на степике, стало вдвойне удобно.
В их курсах есть вообще всё - начиная с базовой математики, заканчивая соревнованиями на кэгле по распознаванию изображений
Если вы уже разобрались с материалами выше про #SQL, то очень советую поковыряться с оконными функциями.
Вот хорошая статья, которая объясняет зачем они нужны и как с ними работать: https://m.habr.com/ru/post/268983/
Оконные функции вообще считаются достаточно продвинутым уровнем SQL. И понимать где их использовать - прям очень круто. Но очень желательно иметь возможность где-то практиковаться - например, на том же sql-ex.ru
Вот хорошая статья, которая объясняет зачем они нужны и как с ними работать: https://m.habr.com/ru/post/268983/
Оконные функции вообще считаются достаточно продвинутым уровнем SQL. И понимать где их использовать - прям очень круто. Но очень желательно иметь возможность где-то практиковаться - например, на том же sql-ex.ru
Хабр
Как посчитать всё на свете одним SQL-запросом. Оконные функции PostgreSQL
Я с удивлением обнаружил, что многие разработчики, даже давно использующие postgresql, не понимают оконные функции, считая их какой-то особой магией для избранных. Ну или в лучшем случае...
👍1
#git
Вот этот интерактивный туториал поможет понять как грамотно работать с гитом:
https://learngitbranching.js.org/?locale=ru_RU
Вот этот интерактивный туториал поможет понять как грамотно работать с гитом:
https://learngitbranching.js.org/?locale=ru_RU
learngitbranching.js.org
Learn Git Branching
An interactive Git visualization tool to educate and challenge!