Datalytics

Datalytics pinned «📊Статистика, прогнозирование, эксперименты и AB-тестирования🔬 **Эксперименты** Расчёт каннибализации на основе классического A/B-теста и метод bootstrap’а Множественные эксперименты: теория и практика 🔥 Подборка от Vit Cheremisinov и Iskandar Mirmakhmadov…»

19:30

Datalytics

Вот такая получилась подборочка. Завтра будет про пандус

3.01K views19:36

Datalytics

🐼 Pandas (part I) 📈

**Для начинающих**

Руководство по Pandas для начинающих
Курс по работе с Pandas
Визуальный гайд по работе с Pandas
Русскоязычный гайд про Pandas
Видеолекция Ильи Щурова про Pandas
Обзорная статья про Pandas
🔥 Русскоязычный гайд по Pandas от Алексея Куличевского
🔥 Введение в pandas: анализ данных на Python (на русском)
Как устроены Series в Pandas
Советы о том как выбирать колонки датафрейма в Pandas
Всеобъемлющий туториал по Pandas
Иллюстрированная статья про функции объединения в pandas
Чтение файлов csv, создание dataframe и фильтрация данных
100 полезных приёмов и хаков в Pandas от Kevin Markham, собранные в одном ноутбуке
Агрегация и группировка данных с помощью pandas
Мини-курс по Pandas на Kaggle
🔥 Перевод официальных туториалов Pandas на русский

**Оформление**

Вывод датафреймов с помощью styling
Форматирование таблиц в Pandas
Как создать оформленную HTML таблицу из pandas DataFrame

**Методы**

Обзор метода read_csv
Выбор сэмпла из датафрейма с помощью sample
Метод query
Трансформация данных (pivot, stack, unstack)
Как сделать ВПР (VLOOKUP) в Pandas
Map и replace
Выбор данных (slicing)
Почему Method Chaining — это хорошо
Melt в pandas
Apply и lambda
Как работают группировки
Новые методы в pandas 0.25.0
iterrows() vs itertuples()
Методы трансформации данных
Методы loc и iloc для индексации по датафрейму
Как разбить данные на диапазоны в pandas: cut и qcut
Метод resample для изменения группировки данных, содержащих дату-время
Три метода Pandas, о которых вы, возможно, не знали
4 крутых функции Numpy
Обзор пяти простых, но эффективных, методов pandas: shift, mask, value_counts, nlargest, nsmallest
Обзор нескольких новых функций в Pandas 1.0

6.03K views10:28

Datalytics

Datalytics pinned «🐼 Pandas (part I) 📈 **Для начинающих** Руководство по Pandas для начинающих Курс по работе с Pandas Визуальный гайд по работе с Pandas Русскоязычный гайд про Pandas Видеолекция Ильи Щурова про Pandas Обзорная статья про Pandas 🔥 Русскоязычный гайд…»

10:30

Datalytics

Forwarded from Войти в IT

Андрей Дорожный со своей командой дата-журналистов запустили проекты по обучению визуализации в Tableau и программированию на языке Python. Ссылка на Мастерскую важных историй.

YouTube

Мастерская Важных историй

Мастерская — это образовательный проект «Важных историй» (istories.media) для журналистов, в котором мы рассказываем о крутых инструментах для сбора, анализа и визуализации данных.
Мы хотим, чтобы как можно больше журналистов в России знали, как делать качественные…

3.06K views11:49

Datalytics

🐼 Pandas (part II) 📊

Tips & Tricks

Шп аргалка по Pandas 1
Шпаргалка по Pandas 2
Набор небольших советов
Обзор различных хаков Pandas
Подборка полезных сниппетов 1
Подборка полезных сниппетов 2
Шпаргалка по работе с различными форматами файлов (csv, xml, json и многие другие)

Другое

Выгрузка файла csv из Jupyter Notebook через браузер
Как в Pandas разбить одну колонку на несколько
Сборник упражнений по Pandas
Примеры использования нестандартных команд в Pandas
Туториал по обработке данных
Советы для эффективной обработки данных в Pandas
Импорт данных в Pandas
Очистка и подготовка данных
Статья про индексы в датафреймах
Что под капотом у фильтрации в Pandas
Как трансформировать JSON с множественными уровнями вложенности в DataFrame
Как ухаживать за пандами [видео]
Как сделать исключение одного датафрейма из другого
Обработка данных в разных форматах
Regex with Pandas and Named Groups
Что принёс нам Pandas 1.0
Примеры использования pandas для тестирования алгоритмов сбора и обработки данных
Как использовать if-else конструкции для формирования новых колонок в pandas
Библиотека sidetable — value_counts() на стериодах
Про преобразование значений из численного в категориальный
Индексы в Pandas

Производительность

Ср авнение производительности функций
Руководство по использованию pandas для анализа больших датасетов
Организация циклов через iterrows и apply
Почему каждый Data Scientist должен знать Dask
Производительность циклов в pandas
Оптимизация памяти при работе с pandas
Советы как снизить потребление памяти в Pandas
Как анализировать большой объем данных с помощью библиотеки vaex
Ускорение обработки больших датасетов с помощью dask и parquet
Добавляем параллельные вычисления в Pandas с pandarallel
Ian Ozsvald - Making Pandas Fly

5.41K viewsedited 11:02

Datalytics

Datalytics pinned «🐼 Pandas (part II) 📊 Tips & Tricks Шпаргалка по Pandas 1 Шпаргалка по Pandas 2 Набор небольших советов Обзор различных хаков Pandas Подборка полезных сниппетов 1 Подборка полезных сниппетов 2 Шпаргалка по работе с различными форматами файлов (csv, xml…»

11:03

Datalytics

📊 Визуализация данных 🧑‍🎨

**Туториалы matplotlib**

50 визуализаций с помощью matplotlib
Шпаргалка по matplotlib
Anatomy of figure in matplotlib
🔥 50 примеров крутых графиков на Matplotlib и Seaborn
Способы создания гистограмм с помощью Python
Введение в визуализацию данных с помощью Matplotlib

**Туториалы Seaborn**

Подробный гайд по визуализации с помощью Seaborn
Визуализация данных в Seaborn
🔥 Русскоязычный гайд про визуализацию данных с помощью Seaborn

**Туториалы Plotly**

Статистический анализ с использованием Plotly
Многомерные графики в Python
Шпаргалка по визуализации данных в Python с помощью Plotly

**Туториалы по визуализации с Pandas**

Создание гистограм с помощью встроенных методов pandas
Как строить визуализации с помощью методов, встроенных в ацессор plot в Pandas

**Другие туториалы**

Визуализация с помощью Altair
Визуализация геоданных с помощью Folium
Туториал по визуализации с использованием Bokeh
🔥 Complete Guide to Data Visualization with Python
Визуализация данных с помощью Altair
Как делать интерактивные визуализации с помощью Bokeh в одну строчку с библиотекой `Pandas-Boken`

**Библиотеки**

Библиотека manim для создания научных анимаций
Визуализация геопространственных данных с помощью библиотеки geoviews
Библиотека для создания анимированных гифок с помощью matplotlib
Графики как в ggplot (R) с помощью библиотеки `plotnine`
Библиотека `supervenn` для визуализации пересекающихся множеств

**Книги и курсы**

Книга на русском языке по Matplotlib от DevPractice

**Другое**

15 роликов про визуализацию на matplotlib

6.09K views11:59

Datalytics

Datalytics pinned «📊 Визуализация данных 🧑‍🎨 **Туториалы matplotlib** 50 визуализаций с помощью matplotlib Шпаргалка по matplotlib Anatomy of figure in matplotlib 🔥 50 примеров крутых графиков на Matplotlib и Seaborn Способы создания гистограмм с помощью Python Введение…»

11:59

Datalytics

Forwarded from Reveal the Data

Женя Козлов, построивший с нуля отдел аналитики Яндекс.Такси в сотню человек, написал лонгрид об оценке профессионального уровня аналитиков данных.

Ещё Женя любит применять аналитические подходы и к повседневной жизни, пишет об этом в своем телеграм-канале

#ссылка

GoPractice

ᐈ Навыки и требования к аналитикам данных на разных уровнях в «Яндексе». Профессия аналитика данных

Какими бывают уровни аналитика данных, как развиваться в профессии и какие компетенции нужны топовым аналитикам

3.82K views09:33

Datalytics

Дмитрий Федоров перевёл гайд "Pandas за 10 минут" из официальной документации. Ещё один отличный русскоязычный материал, который можно смело рекомендовать для изучения Pandas. Скажем Дмитрию огромное спасибо (а ещё лучше подписывайтесь на его канал)!

http://dfedorov.spb.ru/pandas/Pandas%20%D0%B7%D0%B0%2010%20%D0%BC%D0%B8%D0%BD%D1%83%D1%82.html

3.52K views07:55

Datalytics

Forwarded from Пристанище Дата Сайентиста

pycaret - библиотека для автоматизации рабочих процессов машинного обучения

PyCaret одна из самых простых AutoML библиотек. AutoML — это процесс автоматизации сквозного процесса применения машинного обучения. AutoML бибилиотеки позволяют ускорить цикл экспериментов и тестирование гипотез.

PyCaret по сути, оболочка Python для нескольких библиотек и фреймворков машинного обучения, таких как scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray и многих других. Этот инструмент может заменить сотни строк кода всего несколькими.

С помощью этой библиотеки можно решать следующие задачи:
- Классификация
- Регрессия
- Кластеризация
- Детекция Аномалий
- Natural Language Processing
- Подготовка ассоциативных правил

Установка:
pip install pycaret

Пример использования:
from pycaret.classification import * # импортируем pycaret classification методы

exp = setup(data = data, target = 'Species', session_id=77 ) # указываем данные, таргет и random seed

compare_models() # сравним различные модели метриками - accuracy,F1 и другими
nb_model = create_model('nb', fold = 10) # создаем модель Naives Byes на 10 фолдах
plot_model(nb_model, plot = 'auc') # построим ROC AUC
plot_model(nb_model, plot = 'confusion_matrix') # построим confusion matrix

new_prediction = predict_model(nb_model, data=data_unseen) # делаем предсказания на новых данных

Из еще крутых возможностей PyCaret

Деплой моделей на AWS S3:
deploy_model(final_lr, model_name = 'lr_aws', platform = 'aws', authentication = { 'bucket' : 'pycaret-test' })

Логирование экспериментов:
from pycaret.classification import *
clf1 = setup(data, target = 'Class variable', log_experiment = True, experiment_name = 'diabetes1')
top5 = compare_models()
logs = get_logs(save=True)

Работа с признаками:
reg1 = setup(data = insurance, target = 'charges', feature_interaction = True, feature_ratio = True)
reg1 = setup(data = insurance, target = 'charges', trigonometry_features = True)
clf1 = setup(data = juice, target = 'Purchase', polynomial_features = True)

clf1 = setup(data = credit, target = 'default', group_features = ['BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6'])

Рекомендую обратить внимание на эту библиотеку. Особенно если построение ML моделей не ваше основная работа.

👍2

3.6K views17:41

Datalytics

🚀 Автоматизация 🤖

**Автоматизация рутины**

Туториал из 8 эпизодов про автоматизацию рутинных задач
Запуск скриптов по расписанию
Отправка email сообщений
Как писать приложения с command-line interfaces
Создание YAML конфигов для выполнения задач
Работа с API Google Drive
Туториал про создание бота для Телеграм на основе данных BigQuery
Инструмент для анализа данных из командной строки
Рассуждения на тему автоматизации рутины с помощью Python
Автоматизация формирования отчетности с помощью Papermill 1
Автоматизация формирования отчетности с помощью Papermill 2
Cоздание пайплайнов обработки данных в датафреймах
7 Simple Python Functions to Clean Your Data

**Excel и Google Sheets**

Как сравнить два Excel-файла
Форматирование ячеек в Excel-файлах
Как вставлять рисунки, диаграммы и формулы в книгу Excel через Python
Загрузка данных из датафрейма в Google Sheets
Соединение нескольких листов в один на Python
Руководство по работе с openpyxl
Обзор возможностей библиотек pandas, openpyxl, xlrd, xlutils и pyexcel для работы с Excel-файлами из Python

**Интерактивные дашборды и data-applications**

Создание web-дашбордов с библиотекой Panel
Библиотека для создания standalone-приложений на основе данных Voila
Краткое руководство по Dash
Metabase с поддержкой Clickhouse
Видеолекция Алексея Куличевского про Metabase
Создание интерактивного дашборда в Dash
Обзор библиотеки Streamlit
Interactive spreadsheets in Jupyter
Cоздание интерактивных дашбордов с помощью Plotly и Voila
Отображение датафрейма в удобной таблице с возможностью сортировки и фильтрации с помощью D-Tale
Делаем Dashboard для авиакомпании: Dash и не только
Создание приложения с помощью `Streamlit`

👍2

6.32K views17:27

Datalytics

Datalytics pinned «🚀 Автоматизация 🤖 **Автоматизация рутины** Туториал из 8 эпизодов про автоматизацию рутинных задач Запуск скриптов по расписанию Отправка email сообщений Как писать приложения с command-line interfaces Создание YAML конфигов для выполнения задач Работа…»

17:27

Datalytics

Forwarded from Этюды для программистов на Python (Дима Федоров)

Перевод статьи Криса Моффитта о сводных таблицах (pivot_table) в pandas 🥳🐍 http://dfedorov.spb.ru/pandas/%D0%A1%D0%B2%D0%BE%D0%B4%D0%BD%D0%B0%D1%8F%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0%20%D0%B2%20pandas.html

3.24K views07:55

Datalytics

Начал собирать список вредных советов при написании pandas-кода. Вот что делать НЕ стоит:

- Выводить датафрейм через функцию print() вместо

display()

- Использовать built-in функции Python вместо методов pandas (например, sum(df['column']) вместо df['column'].sum())
- Использовать параметр inplace при вызове методов
- Удалять колонки через

del

- Изменять названия колонок через атрибут columns или метод

set_axis()

- Вызывать колонки через attribute-like запись (df.genre) вместо dict-like записи (df['genre'])
- Делать однотипные операции с колонками не через цикл, а каждую на своей строке
- Использовать пробелы, кириллицу и спецсимволы (напр. '$') в названиях колонок
- Проходится циклом по строкам датафрейма
- Использовать метод merge() без параметров how и

on

- Это вкусовщина: использовать вызов методов из библиотеки, а не из инстанса DataFrame (например, pd.pivot_table() вместо df.pivot_table())
- Тоже вкусовщина: делать поочередные манипуляции с одной и той же колонкой на отдельных строках (например, вместо df['column'].fillna(0).astype(int) сделать на отдельных строках .fillna(0) и

.astype(int)

- Часто использовать абсолютную индексацию (например, iloc или выбирать колонки с помощью slice)
- Использовать вызов методов внутри query() (например, df.query('value.notna()'))
- Использовать notnull() и isnull() вместо notna() и isna() (для соблюдения читаемости, учитывая, что существуют методы drop_na() и fillna())
- Всегда оставлять MultiIndex (даже если он в колонках и в строках одновременно)
- Использовать pivot_table() там где можно обойтись

groupby()

Многие пункты — это скорее вкусовщина, они почти ни на что не влияют с точки зрения производительности или функциональности, но зато код смотрится опрятнее, а также позволяет при ревью проектов добиться от студентов более однотипного стиля, что снижает когнитивную нагрузку у ревьюеров.

А какие вы посоветуете вредные советы? 😉

4.39K viewsedited 11:04

Datalytics

Forwarded from Этюды для программистов на Python (Дима Федоров)

🔥 Завершил перевод "Подробного руководства по группировке и агрегированию с помощью pandas" от Криса Моффитта (по ссылке Блокнот и Colab): https://vk.cc/bJOuIc

Все переводы доступны на странице: http://dfedorov.spb.ru/pandas/

3.69K views08:32

Datalytics

Forwarded from Этюды для программистов на Python (Дима Федоров)

Перевел две интересные статьи! 🥳

👉 Обзор типов данных pandas (по ссылке Блокнот и Colab): https://vk.cc/bVq3KU
👉 Очистка данных о валюте с помощью pandas (по ссылке Блокнот и Colab): https://vk.cc/bVq3Ua

Все переводы доступны на странице 🐍 http://dfedorov.spb.ru/pandas/

3.82K views12:04

Datalytics

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

А что, если вы не просто умеете стучать по клавиатуре? 😉 Что, если вы понимаете основы баз данных, составления SQL-запросов и умеете разрабатывать ПО? IT-команда Совкомбанка, одного из самых технологичных банков России, если кто вдруг не знал, ищет системного аналитика на проект OpenApi. В команде знают и любят Agile, помогают коллегам развиваться и платят приличные деньги. Никаких дресс-кодов, гибкий график, расширенный ДМС и адекватные тимлиды прилагаются. Локация для вакансии — Саратов. Узнать больше можно здесь: https://bit.ly/3lUeL5p

3.26K views13:12

Datalytics

Эмели Драль и Лена Самуйлова опубликовали на Github легковесную библиотеку для генерации интерактивных отчетов по анализу датасетов для ML моделей. Это полноценный MVP, который сегодня умеет оценивать только Data Drift, а совсем скоро научится делать ещё массу всего полезного, например, ассеcсмент ML модели, а дальше полноценный мониторинг

https://evidentlyai.com/blog/evidently-001-open-source-tool-to-analyze-data-drift

Ссылка на github

Evidentlyai

Introducing Evidently 0.0.1 Release: Open-Source Tool To Analyze Data Drift

We are excited to announce our first release. You can now use Evidently open-source python package to estimate and explore data drift for machine learning models.

3.88K views09:05

Datalytics

Хорошее русскоязычное руководство по Matplotlib. Отдельно стоит отметить, что это не просто сборник готовых рецептов по построению стандартных диаграмм, а качественный образовательный материал, объясняющий простым языком принципы построения самых разнообразных диаграмм (в том числе комбинированных, например, scatterplot + line plot). Большое внимание уделяется компонентам фигуры (см. Anatomy of a figure), что позволяет гибко настраивать внешний вид визуализации под свои нужды

Когда я только знакомился с анализом данных на Python, то matplotlib я не любил из-за постоянно возникающего ощущения, что для создания хорошей визуализации нужно много танцев с бубном, но по-тихоньку моё отношение к нему менялось. На мой взгляд, обманчивая сложность освоения в первую очередь связана с тем, что самый распространенный способ создания визуализаций в matplotlib — это pyplot API, которое базируется на состояниях (state-based API), а после объектно-ориентированного подхода это немного дезориентирует. Вот хороший ответ на stackoverflow, объясняющий принцип состояний в matplotlib

Итого: секрет успешного освоения matplotlib — понимание компонентов фигуры + принципа state-based API. Зная компоненты становится яснее какие компоненты нужно изменять, а умея работать с состояниями — изменять эти компоненты

https://pyprog.pro/mpl/mpl_short_guide.html

MACAUSLOT88 Login Link Alternatif Dan Daftar Terbaru 2025

MACAUSLOT88 Login Link Alternatif Dan Daftar Terbaru 2025 telah kami sediakan supaya kamu bisa ngeslot dengan aman serta mendaptakan promo terbaru kami gratis!

4.78K views10:54

About

Blog

Apps

Platform