Этюды для программистов на Python pinned «Коллеги, поделитесь, какие технологии / языки, помимо Python, вы активно используете для обработки данных?»
Позитивная ML-команда 🟥 в поисках Senior ML Engineer (удаленка + семь офисов в России).
👉 Задачи:
- Предстоит применять техники машинного обучения/статистики/анализа данных или понимать, что можно решить проще и эффективнее традиционными способами для продуктов⬜️ (обнаружение атак в реальном времени, пост анализ, классификация протоколов, детектирования аномалий, поиск похожих инцидентов и новых "знаний").
- Предстоит внедрять решения в продукты, включая проектирование частей ML-компонент, использующих ML-модели, написания кода для частей, использующих ML-компоненты продукта, проходить код ревью и взаимодействовать с разработчиками продуктов, различных их частей.
- Также предстоит сталкиваться и думать над актуальными проблемами ML-безопасности (как offence так и defence) и способами их решения — это не совсем исследовательская позиция, но быть вовлеченным или желать вовлекаться в актуальные проблемы как ML так и ИБ очень важно.
👉 Что ждём от кандидата:
- Опыт работы на ML позиции > 3 лет.
- Понимание основ статистики, техник машинного обучения в частности глубокого обучения, а также опыт работы с какими-то конкретными задачами. Важна не супер-глубина, сколько умение решать задачу относительно целей и ограничений.
- Хорошие технические познания в Python, опыт с другими языками тоже приветствуются.
- Опыт работы с Linux-based ОС, Docker.
- Знания основ CS: алгоритмы и структуры данных (не на уровне олимпиадников, а на уровне опыта применения).
- Опыт работы в командах c agile/kanban процессами.
- Опыт доведения прототипов до прода.
#вакансии
👉 Задачи:
- Предстоит применять техники машинного обучения/статистики/анализа данных или понимать, что можно решить проще и эффективнее традиционными способами для продуктов
- Предстоит внедрять решения в продукты, включая проектирование частей ML-компонент, использующих ML-модели, написания кода для частей, использующих ML-компоненты продукта, проходить код ревью и взаимодействовать с разработчиками продуктов, различных их частей.
- Также предстоит сталкиваться и думать над актуальными проблемами ML-безопасности (как offence так и defence) и способами их решения — это не совсем исследовательская позиция, но быть вовлеченным или желать вовлекаться в актуальные проблемы как ML так и ИБ очень важно.
👉 Что ждём от кандидата:
- Опыт работы на ML позиции > 3 лет.
- Понимание основ статистики, техник машинного обучения в частности глубокого обучения, а также опыт работы с какими-то конкретными задачами. Важна не супер-глубина, сколько умение решать задачу относительно целей и ограничений.
- Хорошие технические познания в Python, опыт с другими языками тоже приветствуются.
- Опыт работы с Linux-based ОС, Docker.
- Знания основ CS: алгоритмы и структуры данных (не на уровне олимпиадников, а на уровне опыта применения).
- Опыт работы в командах c agile/kanban процессами.
- Опыт доведения прототипов до прода.
#вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Про метод apply в pandas
Возвращаемся к изучению основ pandas🐼 в формате теория + самостоятельная практика 🤓
Частый кейс, который решается благодаря методу apply - заполнение значений в таблице, исходя из показаний в других столбцах. Например, в популярном датасете titanic множество пропусков в столбце с возрастом пассажиров (age).
Можем заполнить их несколькими способами: 1️⃣ заменить константой, 2️⃣ средним по столбцу или 3️⃣ более сложным способом, учитывая другие столбцы (на рисунке показан пример таблицы с пропущенным значением в столбце age).
👉 Пример кейса titanic с методом apply доступен по ссылке, по традиции внутри блокнота есть Colab.
👨🏫 Закрепить понимание темы предлагаю решением кейса с классификацией вин 🍷 по ссылке в Colab.
Возвращаемся к изучению основ pandas
Частый кейс, который решается благодаря методу apply - заполнение значений в таблице, исходя из показаний в других столбцах. Например, в популярном датасете titanic множество пропусков в столбце с возрастом пассажиров (age).
Можем заполнить их несколькими способами: 1️⃣ заменить константой, 2️⃣ средним по столбцу или 3️⃣ более сложным способом, учитывая другие столбцы (на рисунке показан пример таблицы с пропущенным значением в столбце age).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👏14
Подготовил по ссылке сводный блокнот про различные способы загрузки и выгрузки данных в Python и pandas 👨🏫
Рассматриваю темы:
- модули csv, json, sqlite3🖥
- функции read_csv, read_table, read_excel, read_html, read_sql🐼
- функции to_csv, to_excel, to_html🐼
Рассматриваю темы:
- модули csv, json, sqlite3
- функции read_csv, read_table, read_excel, read_html, read_sql
- функции to_csv, to_excel, to_html
Please open Telegram to view this post
VIEW IN TELEGRAM
👏44❤7
На прошлом месте работы в вузе 👨🏫 , будучи начальником отдела анализа данных, я часто рассказывал про открытую науку, которая включает 6 составляющих:
1️⃣ открытые данные
2️⃣ открытый доступ
3️⃣ открытая методика исследования
4️⃣ открытый исходный код🖥 🐼
5️⃣ открытая экспертная оценка
6️⃣ открытое образование
👉 Подробно разбираю каждый термин в статье по ссылке. Планирую развивать эту тему и далее.
👉 Свой диплом по анализу сетевого трафика (2009 года) оформил по правилам открытой науки: по ссылке доступны исходные данные (ARFF), программы (🖥 , SQL) и методика исследования 👨🔬
1️⃣ открытые данные
2️⃣ открытый доступ
3️⃣ открытая методика исследования
4️⃣ открытый исходный код
5️⃣ открытая экспертная оценка
6️⃣ открытое образование
Please open Telegram to view this post
VIEW IN TELEGRAM
👏35❤7
На сайте большое обновление: на странице с лекциями по Python появились упражнения по каждой из тем (больше 80 различных заданий 🔥 ):
👉 Упражнения к занятию 1
👉 Упражнения к занятию 2
👉 Упражнения к занятию 3
👉 Упражнения к занятию 4
👉 Упражнения к занятию 5
👉 Упражнения по NumPy
Enjoy!🖥
👉 Упражнения к занятию 1
👉 Упражнения к занятию 2
👉 Упражнения к занятию 3
👉 Упражнения к занятию 4
👉 Упражнения к занятию 5
👉 Упражнения по NumPy
Enjoy!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤71👏17
Этюды для программистов на Python pinned «На сайте большое обновление: на странице с лекциями по Python появились упражнения по каждой из тем (больше 80 различных заданий 🔥 ): 👉 Упражнения к занятию 1 👉 Упражнения к занятию 2 👉 Упражнения к занятию 3 👉 Упражнения к занятию 4 👉 Упражнения к занятию…»
Привет, я Дима (@dm_fedorov), руководитель образовательных проектов в Positive Technologies (@cyber_edu)
Здесь я делюсь своим опытом: пишу про обработку данных на языке Python
А еще я автор книги об основах программирования!
Буду рад новым знакомствам
Ниже собрал для вас несколько полезных ссылок
0️⃣ Уроки про Python
1️⃣ Бесплатный открытый онлайн-курс по Python (Лекториум)
2️⃣ Введение в pandas
3️⃣ Уроки по визуализации данных
4️⃣ Кейсы и упражнения про pandas
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👏11
Этюды для программистов на Python pinned «👋 О чем этот блог? Пост для новых друзей Привет, я Дима (@dm_fedorov), руководитель образовательных проектов в Positive Technologies (@cyber_edu) 🔴 и Python-евангелист 🖥 . Здесь я делюсь своим опытом: пишу про обработку данных на языке Python 🐼 , управление…»
А вот и наш открытый онлайн-курс по Python доступен для изучения 👨🏫
Присоединяйтесь в любое время! Обучение бесплатное🖥
https://www.lektorium.tv/python
Присоединяйтесь в любое время! Обучение бесплатное
https://www.lektorium.tv/python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤72👏14
Новая статья об экосистеме пакетов для анализа данных 🐍 🐼
https://www.securitylab.ru/blog/personal/DFedorov/352651.php
https://www.securitylab.ru/blog/personal/DFedorov/352651.php
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
Чему нас учит экосистема языка Python?
Свой диплом по анализу зловредного сетевого трафика в 2009 году я писал на PHP и SQL в программе Weka (данные и текст диплома доступны
👏12❤3
Аналитик данных - это исследователь (об этом тут) 🔭
Подход к разработке на Python🐍 для исследователей основан на трех взаимосвязанных идеях.
👉 Открытая наука (подробнее тут): обеспечение свободного доступа к данным, методам и результатам для всех путем их публикации в соответствии с открытыми лицензиями.
👉 Воспроизводимое исследование: обеспечение того, чтобы любой, у кого есть доступ к данным и ПО, мог воспроизвести результаты, как для их проверки, так и для их дальнейшего использования.
👉 Устойчивое программное обеспечение: легкость его обслуживания и расширения, а не полная замена.
Люди часто смешивают эти три концепции, но они отличаются. Например, если вы делитесь своими данными и программами, которые их анализируют, но не документируете, какие шаги и в каком порядке нужно предпринять, то ваша работа будет открытой, но невоспроизводимой. И наоборот, если вы полностью автоматизируете свой анализ, но ваши данные доступны только людям в вашей лаборатории, то ваша работа воспроизводима, но не открыта.
Продолжение текста по ссылке.
Подход к разработке на Python
Люди часто смешивают эти три концепции, но они отличаются. Например, если вы делитесь своими данными и программами, которые их анализируют, но не документируете, какие шаги и в каком порядке нужно предпринять, то ваша работа будет открытой, но невоспроизводимой. И наоборот, если вы полностью автоматизируете свой анализ, но ваши данные доступны только людям в вашей лаборатории, то ваша работа воспроизводима, но не открыта.
Продолжение текста по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏12❤2
Первым шагом в анализе данных является загрузка и первоначальная обработка данных. Прежде чем это сделать, стоит подумать, как мы собираемся организовать проект, какой способ хранения файлов выберем 🤔
Рассмотрим подробнее один из вариантов структуры каталогов.
Продолжить чтение по ссылке.
Рассмотрим подробнее один из вариантов структуры каталогов.
Продолжить чтение по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏22❤3👎1
Академия Яндекса совместно с Европейским университетом в Санкт-Петербурге разработала новый хендбук (онлайн-учебник) «Прикладной анализ данных в социальных науках».
Хендбук составлен так, чтобы любой человек без навыков в области анализа данных или программирования мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python. Учебник бесплатный.
Хендбук составлен так, чтобы любой человек без навыков в области анализа данных или программирования мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python. Учебник бесплатный.
👏58❤18🤯5
МАИ и VK Education запустили бесплатный онлайн-курс Введение в анализ данных.
Блокноты доступны по ссылке.
Темы курса классические.
Раздел 1. Python для анализа данных
Раздел 2. Визуализация данных
Раздел 3. Статистический анализ данных
Раздел 4. Работа с базами данных
Блокноты доступны по ссылке.
Темы курса классические.
Раздел 1. Python для анализа данных
Раздел 2. Визуализация данных
Раздел 3. Статистический анализ данных
Раздел 4. Работа с базами данных
❤72🤯2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏42❤13🥱1