Хорошая статья про то как автоматизировать работу с Excel-файлами с помощью Python
Forwarded from data fm
Если вы вчера решили, что я ничего не выложу — вы были правы 😁
Я тоже так думала, ровно до 20.00, потому что я поняла, что день подходит к концу, а доверие тихонечко ускользает.
В общем, если вы решите, что материал бестолковый или скучный, я всё прощу) Но не перестану говорить, что продолжение будет. Учиться на ошибках тоже нужно.
А пока я нашла в себе силы побороть себя, расскажу о том, что мысль вести 100500 каналов — так себе мысль. Вы никогда не сможете успеть делать всё, только если у вас один контент-план на все площадки)
Так вот, эксель — это то с чего всё начиналось, это такая простая вещь, что кажется.. а что может быть проще? Там столько всего можно сделать, что даже грустно от мысли, что я решила даже его автоматизировать 😭
Но не смотря на такое грустное начало, выкладываю первую часть автоматизации и надеюсь, что больше я не буду так тянуть резину.
Читать, подписываться и хлопать на медиуме можно, нужно и очень жду, а еще пишите комментарии тут.
Я тоже так думала, ровно до 20.00, потому что я поняла, что день подходит к концу, а доверие тихонечко ускользает.
В общем, если вы решите, что материал бестолковый или скучный, я всё прощу) Но не перестану говорить, что продолжение будет. Учиться на ошибках тоже нужно.
А пока я нашла в себе силы побороть себя, расскажу о том, что мысль вести 100500 каналов — так себе мысль. Вы никогда не сможете успеть делать всё, только если у вас один контент-план на все площадки)
Так вот, эксель — это то с чего всё начиналось, это такая простая вещь, что кажется.. а что может быть проще? Там столько всего можно сделать, что даже грустно от мысли, что я решила даже его автоматизировать 😭
Но не смотря на такое грустное начало, выкладываю первую часть автоматизации и надеюсь, что больше я не буду так тянуть резину.
Читать, подписываться и хлопать на медиуме можно, нужно и очень жду, а еще пишите комментарии тут.
Medium
Автоматизация Excel с помощью Python
Часть 1
Анализ выживаемости (survival analysis) — класс статистических моделей, позволяющих оценить вероятность наступления события. Своё название он получил из-за того, что этот анализ широко применяется в медицинской сфере для оценки продолжительности жизни в ходе исследований методов лечения. С его помощью можно понять какие факторы увеличивают вероятность наступления события, а какие уменьшают
Этот метод применяется и за рамками медицины, например, можно предсказывать время использования (lifetime) клиентов в сервисе
Для того, чтобы провести анализ выживаемости с помощью Python существует библиотека lifelines, которая предоставляет набор простых в использовании методов для оценки вероятности наступления событий во времени
Документация у библиотеки подробная и с множеством примеров, например, тут описывается процесс создания предсказательной функции на примере длительности существования политических режимов
https://github.com/CamDavidsonPilon/lifelines
Этот метод применяется и за рамками медицины, например, можно предсказывать время использования (lifetime) клиентов в сервисе
Для того, чтобы провести анализ выживаемости с помощью Python существует библиотека lifelines, которая предоставляет набор простых в использовании методов для оценки вероятности наступления событий во времени
Документация у библиотеки подробная и с множеством примеров, например, тут описывается процесс создания предсказательной функции на примере длительности существования политических режимов
https://github.com/CamDavidsonPilon/lifelines
GitHub
GitHub - CamDavidsonPilon/lifelines: Survival analysis in Python
Survival analysis in Python. Contribute to CamDavidsonPilon/lifelines development by creating an account on GitHub.
Приглашаю всех на онлайн конференцию Матемаркетинг, где 11-го ноября я участвую в обсуждении собеседований в мире аналитики и пробую понять, нужны ли на них вопросы по теорверу. Мой коллега, Марк Сысоев, тоже участвует в конфе и расскажет про жизненный цикл аналитики в организации.
Посмотрите доклад прошлого года, в котором Марк поделился тем, как он занимался анализом пользовательского опыта учеников SkyEng с помощью customer journey map и как делать это на бесплатных инструментах:
https://www.youtube.com/watch?v=A9TIOFrEwN4
В 18-м году еще был крутой доклад Павла Левчука (Senior Product Manager Social Tech) с конкретными примерами того, как продуктовому аналитику победить churn (когорты, Life-Cycle Grid, реактивация, вовлечение, кластеризация, ретеншен): https://www.youtube.com/watch?v=JNgzuZuepV0
Матемаркетинг-2020 - это самая большая российская конференция по маркетинговой и продуктовой аналитике, монетизации и решениях, основанным на данных. Она пройдет с 9 по 13 ноября, подробности тут:
https://bit.ly/348bLwy
Специально для подписчиков организаторы подготовили промокод -
Посмотрите доклад прошлого года, в котором Марк поделился тем, как он занимался анализом пользовательского опыта учеников SkyEng с помощью customer journey map и как делать это на бесплатных инструментах:
https://www.youtube.com/watch?v=A9TIOFrEwN4
В 18-м году еще был крутой доклад Павла Левчука (Senior Product Manager Social Tech) с конкретными примерами того, как продуктовому аналитику победить churn (когорты, Life-Cycle Grid, реактивация, вовлечение, кластеризация, ретеншен): https://www.youtube.com/watch?v=JNgzuZuepV0
Матемаркетинг-2020 - это самая большая российская конференция по маркетинговой и продуктовой аналитике, монетизации и решениях, основанным на данных. Она пройдет с 9 по 13 ноября, подробности тут:
https://bit.ly/348bLwy
Специально для подписчиков организаторы подготовили промокод -
datalytics на скидку в 10%YouTube
Марк Сысоев, SkyEng - Customer Journey Mapping с помощью цепей Маркова.
Совсем скоро Матемаркетинг-22, 17-18 ноября
Подробности: https://matemarketing.ru/
Программа: https://clck.ru/y6jEV
Купить билет: https://matemarketing.ru/
Марк Сысоев рассказывает, как он занимался анализом пользовательского опыта учеников
онлайн-школы…
Подробности: https://matemarketing.ru/
Программа: https://clck.ru/y6jEV
Купить билет: https://matemarketing.ru/
Марк Сысоев рассказывает, как он занимался анализом пользовательского опыта учеников
онлайн-школы…
Статья, в которой подробно разбирается задача визуализации пересекающихся множеств, а также демонстрируется библиотека supervenn, которая позволяет в удобной форме анализировать пересечение множеств. Это может быть полезным в работе аналитике, например, если вы захотите оценить какие товарные категории чаще всего пересекаются между собой в корзинах покупателей интернет-магазина
https://habr.com/ru/company/yandex/blog/501924/
https://habr.com/ru/company/yandex/blog/501924/
Хабр
Как построить диаграмму Венна с 50 кругами? Визуализация множеств и история моего Python-проекта с открытым кодом
Всем привет, меня зовут Фёдор Индукаев, я работаю аналитиком в Яндекс.Маршрутизации. Сегодня хочу рассказать вам про задачу визуализации пересекающихся множеств и про пакет для Python с открытым кодом...
Forwarded from местный датасасер ☮️
Вчера вышел Python 3.9! 🥳
Лично я по питону сильно соскучился, ибо уже второй месяц пишу только на C и плюсах, а тут еще и обнова подъехала 😎
Итак, что нового и действительно интересного:
1. Новые операторы для словарей: finally можно нормально их мержить:
Отдельный респект за очередную отсылку к Монти Пайтону на странице обновы
Лично я по питону сильно соскучился, ибо уже второй месяц пишу только на C и плюсах, а тут еще и обнова подъехала 😎
Итак, что нового и действительно интересного:
1. Новые операторы для словарей: finally можно нормально их мержить:
dict1 = {'x': 1, 'y': 2}
dict2 = {'x': 4, 'z': 5}
print(dict1 | dict2) # выведет {'x': 4, 'y': 2, 'z': 5}
2. Методы строк, позволяющие получить строку без указанного префикса/суффикса: "abcdef".removeprefix("abc") # выведет def
"abcdef".removesuffix("def") # выведет abc
3. Более удобные декораторы, теперь там можно делать что-то такое:@buttons[0].clicked.connect📗 Также добавили плюшек в аннотации, обновили поддержку Юникода и много других мелочей, о которых можно почитать на официальном сайте.
def spam():
...
Отдельный респект за очередную отсылку к Монти Пайтону на странице обновы
Дмитрий Федеров перевёл официальные туториалы по Pandas на русский язык. Теперь это один из тех (немногочисленных) русскоязычных материалов, которые я могу смело рекомендовать любому, кто начинает изучать Pandas
http://dfedorov.spb.ru/pandas/
http://dfedorov.spb.ru/pandas/
В Телеграме очень много каналов про аналитику, в определенный момент я задался странным желанием собрать их все. У меня вообще страсть к коллекционированию информации. Я выискиваю даже самые небольшие каналы джунов/начинающих и подписываюсь на них, чтобы понять какие проблемы их волнуют.
И вот я в своём расстройстве зашёл так далеко, что решил спарсить все посты из этих каналов, да ещё и с указанием количества просмотров. Появилась небольшая такая таблица на 11000 записей. Да, я из тех людей, которые сначала соберут тьму данных, а потом решают, что с ними делать.
Сидел-сидел и понял, что хочу сделать так, чтобы информация из каналов в Телеграме приобретала вторую жизнь, просмотры набирали бы не только свежие посты, но и старые/проверенные/новые с небольшим числом просмотров. Сначала думал вручную собрать посты в коллекции (например, про АБ-тесты, про SQL, про визуализацию и т.д.) и разместить на отдельных страничках через embed-виджеты. Получились бы такие небольшие базы знаний. Но мне стало немного лениво/скучно/тревожно при мысли о том, чтобы вручную отбирать хорошие посты и классифицировать их. Поэтому я неумело сделал препроцессинг текстов постов и теперь готов к классификации с использованием ARTIFICIAL INTELLIGENCE!!!
Что дальше?
Дальше хочу сделать небольшой сервис, где выбираешь интересующую тематику, например, "Продуктовые метрики" и тебе подсовываются рандомно-хорошие посты из разных каналов на эту (или семантически-похожую) тему.
Поэтому ищу руки-ноги-головы, готовые помочь с:
а) Алгоритмом кластеризации/классификации (нужно сначала выделить потенциальные классы, предполагаю, что лучше всего каким-нибудь LDA, а затем обучить модельку)
б) Простенькой mobile-first веб-мордой
Пишите в комментах
И вот я в своём расстройстве зашёл так далеко, что решил спарсить все посты из этих каналов, да ещё и с указанием количества просмотров. Появилась небольшая такая таблица на 11000 записей. Да, я из тех людей, которые сначала соберут тьму данных, а потом решают, что с ними делать.
Сидел-сидел и понял, что хочу сделать так, чтобы информация из каналов в Телеграме приобретала вторую жизнь, просмотры набирали бы не только свежие посты, но и старые/проверенные/новые с небольшим числом просмотров. Сначала думал вручную собрать посты в коллекции (например, про АБ-тесты, про SQL, про визуализацию и т.д.) и разместить на отдельных страничках через embed-виджеты. Получились бы такие небольшие базы знаний. Но мне стало немного лениво/скучно/тревожно при мысли о том, чтобы вручную отбирать хорошие посты и классифицировать их. Поэтому я неумело сделал препроцессинг текстов постов и теперь готов к классификации с использованием ARTIFICIAL INTELLIGENCE!!!
Что дальше?
Дальше хочу сделать небольшой сервис, где выбираешь интересующую тематику, например, "Продуктовые метрики" и тебе подсовываются рандомно-хорошие посты из разных каналов на эту (или семантически-похожую) тему.
Поэтому ищу руки-ноги-головы, готовые помочь с:
а) Алгоритмом кластеризации/классификации (нужно сначала выделить потенциальные классы, предполагаю, что лучше всего каким-нибудь LDA, а затем обучить модельку)
б) Простенькой mobile-first веб-мордой
Пишите в комментах
Замечаете, что данные окружают вас повсюду и постоянно ищите между ними взаимосвязи? Этой осенью проект Digital Leader при поддержке Intel, VMware и Hewlett Packard Enterprise проведет онлайн-хакатон для датасайентистов, мыслящих вне рамок и шаблонов.
Для участия в конкурсном отборе необходимо сформулировать оригинальную/смешную/креативную гипотезу, протестировать ее на существующем датасете, ярко визуализировать результаты и прислать работу организаторам до 10 ноября.
Победитель получит денежный приз, а все участники – возможность завоевать признание профессионального сообщества. Победителя в режиме онлайн определит жюри, состоящее из экспертов Яндекса, СберМаркетинга, КРОК и других компаний, а также всех посетителей отчетного ивента уже 19 ноября!
Подробнее про онлайн-хакатон New Data Tech, условия участия, призы и т.д. – по ссылке https://clck.ru/RmwYL
Для участия в конкурсном отборе необходимо сформулировать оригинальную/смешную/креативную гипотезу, протестировать ее на существующем датасете, ярко визуализировать результаты и прислать работу организаторам до 10 ноября.
Победитель получит денежный приз, а все участники – возможность завоевать признание профессионального сообщества. Победителя в режиме онлайн определит жюри, состоящее из экспертов Яндекса, СберМаркетинга, КРОК и других компаний, а также всех посетителей отчетного ивента уже 19 ноября!
Подробнее про онлайн-хакатон New Data Tech, условия участия, призы и т.д. – по ссылке https://clck.ru/RmwYL
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работает с данными постоянно, выбирает инструменты для экспериментов, создает методологии и исполняемые статьи (executive papers) подборка инструментов для автоматизации работы:
Проекты с открытым кодом:
- Jupyter Notebook и JupyterLab [1] - стандарт де-факто, используется в большинстве проектов
- Apache Zeppelin [2] - система записных книжек с поддержкой SQL и Scala, с открытым кодом
- BeakerX [3] - расширения для Jupyter Notebook с дополнительными возможностями, такими как интерактивными таблицами
- Polynote [4] - платформа для записных книжек на Scala от Netflix
- Elyra [5] - расширения для Jupyter Notebook для работа с AI
Внутри редакторов кода
- Pycharm [6] - поддерживает Jupyter Notebook прямо в среде разработки. Коммерческий
- Hydrogen [7] - поддержка Jupyter Notebook внутри редактора Atom. Открытый и бесплатный
Облачные коммерческие продукты:
- DeepNote [8] - коммерческий продукт совместимый с Jupyter
- franchise [9] - облачные записные книжки для работы с SQL
- Starboard [10] - записные книжки с поддержкой Markdown, Latex, Javascript и Python. Стартап
- Google Colab [11] - облачные записные книжки на базе Jupyter от Google
- Microsoft Azure Notebooks [12] - облачные записные книжки на базе Jupyter от Microsoft
- Wolfram Notebooks [13] - специализированные научные блокноты на базе языка Wolfram
Корпоративные продукты:
- DataIku [14] - комплексный продукт организации работы data scientist'ов
Список наверняка неполный и его ещё не раз можно пополнять.
Ссылки:
[1] http://jupyter.org
[2] https://zeppelin.apache.org/
[3] http://beakerx.com/
[4] https://polynote.org
[5] https://elyra.readthedocs.io/en/latest/
[6] https://www.jetbrains.com/help/pycharm/jupyter-notebook-support.html
[7] https://nteract.io/atom
[8] https://deepnote.com
[9] https://franchise.cloud/
[10] https://starboard.gg
[11] https://colab.research.google.com
[12] https://notebooks.azure.com/
[13] https://www.wolfram.com/notebooks/
[14] http://dataiku.com/
#datascience #tools
Проекты с открытым кодом:
- Jupyter Notebook и JupyterLab [1] - стандарт де-факто, используется в большинстве проектов
- Apache Zeppelin [2] - система записных книжек с поддержкой SQL и Scala, с открытым кодом
- BeakerX [3] - расширения для Jupyter Notebook с дополнительными возможностями, такими как интерактивными таблицами
- Polynote [4] - платформа для записных книжек на Scala от Netflix
- Elyra [5] - расширения для Jupyter Notebook для работа с AI
Внутри редакторов кода
- Pycharm [6] - поддерживает Jupyter Notebook прямо в среде разработки. Коммерческий
- Hydrogen [7] - поддержка Jupyter Notebook внутри редактора Atom. Открытый и бесплатный
Облачные коммерческие продукты:
- DeepNote [8] - коммерческий продукт совместимый с Jupyter
- franchise [9] - облачные записные книжки для работы с SQL
- Starboard [10] - записные книжки с поддержкой Markdown, Latex, Javascript и Python. Стартап
- Google Colab [11] - облачные записные книжки на базе Jupyter от Google
- Microsoft Azure Notebooks [12] - облачные записные книжки на базе Jupyter от Microsoft
- Wolfram Notebooks [13] - специализированные научные блокноты на базе языка Wolfram
Корпоративные продукты:
- DataIku [14] - комплексный продукт организации работы data scientist'ов
Список наверняка неполный и его ещё не раз можно пополнять.
Ссылки:
[1] http://jupyter.org
[2] https://zeppelin.apache.org/
[3] http://beakerx.com/
[4] https://polynote.org
[5] https://elyra.readthedocs.io/en/latest/
[6] https://www.jetbrains.com/help/pycharm/jupyter-notebook-support.html
[7] https://nteract.io/atom
[8] https://deepnote.com
[9] https://franchise.cloud/
[10] https://starboard.gg
[11] https://colab.research.google.com
[12] https://notebooks.azure.com/
[13] https://www.wolfram.com/notebooks/
[14] http://dataiku.com/
#datascience #tools
jupyter.org
Project Jupyter
The Jupyter Notebook is a web-based interactive computing platform. The notebook combines live code, equations, narrative text, visualizations, interactive dashboards and other media.
Отличная статья о том как выстроена машина экспериментов в Flo Health. Статья в меньшей степени рассказывает про особенности статистической оценки результатов тестирования, а освещает вопросы построения архитектуры обработки данных для автоматизации экспериментов
https://medium.com/flo-engineering/how-flo-conducts-experiments-5ee35fc3327f
https://medium.com/flo-engineering/how-flo-conducts-experiments-5ee35fc3327f
Medium
How Flo Conducts Experiments
Let’s take a deep dive into the experiments from an engineering point of view.
📊Статистика, прогнозирование, эксперименты и AB-тестирования🔬
**Эксперименты**
Расчёт каннибализации на основе классического A/B-теста и метод bootstrap’а
Множественные эксперименты: теория и практика
🔥 Подборка от Vit Cheremisinov и Iskandar Mirmakhmadov
Простой гид по байесовскому А/B-тестированию на Python
Краткое руководство по реализации A/B тестов на Python
Математика A/B-тестирования с примером кода на Python
Байесовский подход к оценке результатов A/B-тестирования
A/B-тесты на несбалансированных выборках
Про архитектуру экспериментов в Flo Health [data engineering]
**Методики**
Разбор и несколько примеров расчёта effect size (величины эффекта)
Метод оценки максимального правдоподобия (MLE)
Кластеризация последовательности значений с помощью метода оптимизации Дженкса
Predictive Power Score для линейной и нелинейной зависимости
**Туториалы**
🔥 Тестирование статистических гипотез с помощью Python
🔥 Сборник готовых рецептов для практического применения статистических методов
Пример использования критерия хи-квадрат
Виды распределений вероятностей
🔥Расчет доверительных интервалов с помощью Bootstrap
Анализ time-series данных с помощью Pandas
Гайд по работе с временными рядами в Python
Основы описательной статистики с помощью Python
**Библиотеки**
Библиотека `pingouin` для статистического анализа
Работа с вероятностными моделями в `pomegranate`
Библиотека `atspy` для прогнозирования временных рядов
Работа с временными рядами в библиотеке `darts`
Анализ выживаемости с помощью библиотеки `lifelines`
**Эксперименты**
Расчёт каннибализации на основе классического A/B-теста и метод bootstrap’а
Множественные эксперименты: теория и практика
🔥 Подборка от Vit Cheremisinov и Iskandar Mirmakhmadov
Простой гид по байесовскому А/B-тестированию на Python
Краткое руководство по реализации A/B тестов на Python
Математика A/B-тестирования с примером кода на Python
Байесовский подход к оценке результатов A/B-тестирования
A/B-тесты на несбалансированных выборках
Про архитектуру экспериментов в Flo Health [data engineering]
**Методики**
Разбор и несколько примеров расчёта effect size (величины эффекта)
Метод оценки максимального правдоподобия (MLE)
Кластеризация последовательности значений с помощью метода оптимизации Дженкса
Predictive Power Score для линейной и нелинейной зависимости
**Туториалы**
🔥 Тестирование статистических гипотез с помощью Python
🔥 Сборник готовых рецептов для практического применения статистических методов
Пример использования критерия хи-квадрат
Виды распределений вероятностей
🔥Расчет доверительных интервалов с помощью Bootstrap
Анализ time-series данных с помощью Pandas
Гайд по работе с временными рядами в Python
Основы описательной статистики с помощью Python
**Библиотеки**
Библиотека `pingouin` для статистического анализа
Работа с вероятностными моделями в `pomegranate`
Библиотека `atspy` для прогнозирования временных рядов
Работа с временными рядами в библиотеке `darts`
Анализ выживаемости с помощью библиотеки `lifelines`
Datalytics pinned «📊Статистика, прогнозирование, эксперименты и AB-тестирования🔬 **Эксперименты** Расчёт каннибализации на основе классического A/B-теста и метод bootstrap’а Множественные эксперименты: теория и практика 🔥 Подборка от Vit Cheremisinov и Iskandar Mirmakhmadov…»
🐼 Pandas (part I) 📈
**Для начинающих**
Руководство по Pandas для начинающих
Курс по работе с Pandas
Визуальный гайд по работе с Pandas
Русскоязычный гайд про Pandas
Видеолекция Ильи Щурова про Pandas
Обзорная статья про Pandas
🔥 Русскоязычный гайд по Pandas от Алексея Куличевского
🔥 Введение в pandas: анализ данных на Python (на русском)
Как устроены Series в Pandas
Советы о том как выбирать колонки датафрейма в Pandas
Всеобъемлющий туториал по Pandas
Иллюстрированная статья про функции объединения в pandas
Чтение файлов csv, создание dataframe и фильтрация данных
100 полезных приёмов и хаков в Pandas от Kevin Markham, собранные в одном ноутбуке
Агрегация и группировка данных с помощью pandas
Мини-курс по Pandas на Kaggle
🔥 Перевод официальных туториалов Pandas на русский
**Оформление**
Вывод датафреймов с помощью styling
Форматирование таблиц в Pandas
Как создать оформленную HTML таблицу из pandas DataFrame
**Методы**
Обзор метода read_csv
Выбор сэмпла из датафрейма с помощью sample
Метод query
Трансформация данных (pivot, stack, unstack)
Как сделать ВПР (VLOOKUP) в Pandas
Map и replace
Выбор данных (slicing)
Почему Method Chaining — это хорошо
Melt в pandas
Apply и lambda
Как работают группировки
Новые методы в pandas 0.25.0
iterrows() vs itertuples()
Методы трансформации данных
Методы loc и iloc для индексации по датафрейму
Как разбить данные на диапазоны в pandas: cut и qcut
Метод resample для изменения группировки данных, содержащих дату-время
Три метода Pandas, о которых вы, возможно, не знали
4 крутых функции Numpy
Обзор пяти простых, но эффективных, методов pandas: shift, mask, value_counts, nlargest, nsmallest
Обзор нескольких новых функций в Pandas 1.0
**Для начинающих**
Руководство по Pandas для начинающих
Курс по работе с Pandas
Визуальный гайд по работе с Pandas
Русскоязычный гайд про Pandas
Видеолекция Ильи Щурова про Pandas
Обзорная статья про Pandas
🔥 Русскоязычный гайд по Pandas от Алексея Куличевского
🔥 Введение в pandas: анализ данных на Python (на русском)
Как устроены Series в Pandas
Советы о том как выбирать колонки датафрейма в Pandas
Всеобъемлющий туториал по Pandas
Иллюстрированная статья про функции объединения в pandas
Чтение файлов csv, создание dataframe и фильтрация данных
100 полезных приёмов и хаков в Pandas от Kevin Markham, собранные в одном ноутбуке
Агрегация и группировка данных с помощью pandas
Мини-курс по Pandas на Kaggle
🔥 Перевод официальных туториалов Pandas на русский
**Оформление**
Вывод датафреймов с помощью styling
Форматирование таблиц в Pandas
Как создать оформленную HTML таблицу из pandas DataFrame
**Методы**
Обзор метода read_csv
Выбор сэмпла из датафрейма с помощью sample
Метод query
Трансформация данных (pivot, stack, unstack)
Как сделать ВПР (VLOOKUP) в Pandas
Map и replace
Выбор данных (slicing)
Почему Method Chaining — это хорошо
Melt в pandas
Apply и lambda
Как работают группировки
Новые методы в pandas 0.25.0
iterrows() vs itertuples()
Методы трансформации данных
Методы loc и iloc для индексации по датафрейму
Как разбить данные на диапазоны в pandas: cut и qcut
Метод resample для изменения группировки данных, содержащих дату-время
Три метода Pandas, о которых вы, возможно, не знали
4 крутых функции Numpy
Обзор пяти простых, но эффективных, методов pandas: shift, mask, value_counts, nlargest, nsmallest
Обзор нескольких новых функций в Pandas 1.0
Datalytics pinned «🐼 Pandas (part I) 📈 **Для начинающих** Руководство по Pandas для начинающих Курс по работе с Pandas Визуальный гайд по работе с Pandas Русскоязычный гайд про Pandas Видеолекция Ильи Щурова про Pandas Обзорная статья про Pandas 🔥 Русскоязычный гайд…»
Forwarded from Войти в IT
Андрей Дорожный со своей командой дата-журналистов запустили проекты по обучению визуализации в Tableau и программированию на языке Python. Ссылка на Мастерскую важных историй.
YouTube
Мастерская Важных историй
Мастерская — это образовательный проект «Важных историй» (istories.media) для журналистов, в котором мы рассказываем о крутых инструментах для сбора, анализа и визуализации данных.
Мы хотим, чтобы как можно больше журналистов в России знали, как делать качественные…
Мы хотим, чтобы как можно больше журналистов в России знали, как делать качественные…
🐼 Pandas (part II) 📊
Tips & Tricks
Шпаргалка по Pandas 1
Шпаргалка по Pandas 2
Набор небольших советов
Обзор различных хаков Pandas
Подборка полезных сниппетов 1
Подборка полезных сниппетов 2
Шпаргалка по работе с различными форматами файлов (csv, xml, json и многие другие)
Другое
Выгрузка файла csv из Jupyter Notebook через браузер
Как в Pandas разбить одну колонку на несколько
Сборник упражнений по Pandas
Примеры использования нестандартных команд в Pandas
Туториал по обработке данных
Советы для эффективной обработки данных в Pandas
Импорт данных в Pandas
Очистка и подготовка данных
Статья про индексы в датафреймах
Что под капотом у фильтрации в Pandas
Как трансформировать JSON с множественными уровнями вложенности в DataFrame
Как ухаживать за пандами [видео]
Как сделать исключение одного датафрейма из другого
Обработка данных в разных форматах
Regex with Pandas and Named Groups
Что принёс нам Pandas 1.0
Примеры использования pandas для тестирования алгоритмов сбора и обработки данных
Как использовать if-else конструкции для формирования новых колонок в pandas
Библиотека sidetable — value_counts() на стериодах
Про преобразование значений из численного в категориальный
Индексы в Pandas
Производительность
Сравнение производительности функций
Руководство по использованию pandas для анализа больших датасетов
Организация циклов через iterrows и apply
Почему каждый Data Scientist должен знать Dask
Производительность циклов в pandas
Оптимизация памяти при работе с pandas
Советы как снизить потребление памяти в Pandas
Как анализировать большой объем данных с помощью библиотеки vaex
Ускорение обработки больших датасетов с помощью dask и parquet
Добавляем параллельные вычисления в Pandas с pandarallel
Ian Ozsvald - Making Pandas Fly
Tips & Tricks
Шпаргалка по Pandas 1
Шпаргалка по Pandas 2
Набор небольших советов
Обзор различных хаков Pandas
Подборка полезных сниппетов 1
Подборка полезных сниппетов 2
Шпаргалка по работе с различными форматами файлов (csv, xml, json и многие другие)
Другое
Выгрузка файла csv из Jupyter Notebook через браузер
Как в Pandas разбить одну колонку на несколько
Сборник упражнений по Pandas
Примеры использования нестандартных команд в Pandas
Туториал по обработке данных
Советы для эффективной обработки данных в Pandas
Импорт данных в Pandas
Очистка и подготовка данных
Статья про индексы в датафреймах
Что под капотом у фильтрации в Pandas
Как трансформировать JSON с множественными уровнями вложенности в DataFrame
Как ухаживать за пандами [видео]
Как сделать исключение одного датафрейма из другого
Обработка данных в разных форматах
Regex with Pandas and Named Groups
Что принёс нам Pandas 1.0
Примеры использования pandas для тестирования алгоритмов сбора и обработки данных
Как использовать if-else конструкции для формирования новых колонок в pandas
Библиотека sidetable — value_counts() на стериодах
Про преобразование значений из численного в категориальный
Индексы в Pandas
Производительность
Сравнение производительности функций
Руководство по использованию pandas для анализа больших датасетов
Организация циклов через iterrows и apply
Почему каждый Data Scientist должен знать Dask
Производительность циклов в pandas
Оптимизация памяти при работе с pandas
Советы как снизить потребление памяти в Pandas
Как анализировать большой объем данных с помощью библиотеки vaex
Ускорение обработки больших датасетов с помощью dask и parquet
Добавляем параллельные вычисления в Pandas с pandarallel
Ian Ozsvald - Making Pandas Fly
Datalytics pinned «🐼 Pandas (part II) 📊 Tips & Tricks Шпаргалка по Pandas 1 Шпаргалка по Pandas 2 Набор небольших советов Обзор различных хаков Pandas Подборка полезных сниппетов 1 Подборка полезных сниппетов 2 Шпаргалка по работе с различными форматами файлов (csv, xml…»
📊 Визуализация данных 🧑🎨
**Туториалы matplotlib**
50 визуализаций с помощью matplotlib
Шпаргалка по matplotlib
Anatomy of figure in matplotlib
🔥 50 примеров крутых графиков на Matplotlib и Seaborn
Способы создания гистограмм с помощью Python
Введение в визуализацию данных с помощью Matplotlib
**Туториалы Seaborn**
Подробный гайд по визуализации с помощью Seaborn
Визуализация данных в Seaborn
🔥 Русскоязычный гайд про визуализацию данных с помощью Seaborn
**Туториалы Plotly**
Статистический анализ с использованием Plotly
Многомерные графики в Python
Шпаргалка по визуализации данных в Python с помощью Plotly
**Туториалы по визуализации с Pandas**
Создание гистограм с помощью встроенных методов pandas
Как строить визуализации с помощью методов, встроенных в ацессор plot в Pandas
**Другие туториалы**
Визуализация с помощью Altair
Визуализация геоданных с помощью Folium
Туториал по визуализации с использованием Bokeh
🔥 Complete Guide to Data Visualization with Python
Визуализация данных с помощью Altair
Как делать интерактивные визуализации с помощью Bokeh в одну строчку с библиотекой `Pandas-Boken`
**Библиотеки**
Библиотека manim для создания научных анимаций
Визуализация геопространственных данных с помощью библиотеки geoviews
Библиотека для создания анимированных гифок с помощью matplotlib
Графики как в ggplot (R) с помощью библиотеки `plotnine`
Библиотека `supervenn` для визуализации пересекающихся множеств
**Книги и курсы**
Книга на русском языке по Matplotlib от DevPractice
**Другое**
15 роликов про визуализацию на matplotlib
**Туториалы matplotlib**
50 визуализаций с помощью matplotlib
Шпаргалка по matplotlib
Anatomy of figure in matplotlib
🔥 50 примеров крутых графиков на Matplotlib и Seaborn
Способы создания гистограмм с помощью Python
Введение в визуализацию данных с помощью Matplotlib
**Туториалы Seaborn**
Подробный гайд по визуализации с помощью Seaborn
Визуализация данных в Seaborn
🔥 Русскоязычный гайд про визуализацию данных с помощью Seaborn
**Туториалы Plotly**
Статистический анализ с использованием Plotly
Многомерные графики в Python
Шпаргалка по визуализации данных в Python с помощью Plotly
**Туториалы по визуализации с Pandas**
Создание гистограм с помощью встроенных методов pandas
Как строить визуализации с помощью методов, встроенных в ацессор plot в Pandas
**Другие туториалы**
Визуализация с помощью Altair
Визуализация геоданных с помощью Folium
Туториал по визуализации с использованием Bokeh
🔥 Complete Guide to Data Visualization with Python
Визуализация данных с помощью Altair
Как делать интерактивные визуализации с помощью Bokeh в одну строчку с библиотекой `Pandas-Boken`
**Библиотеки**
Библиотека manim для создания научных анимаций
Визуализация геопространственных данных с помощью библиотеки geoviews
Библиотека для создания анимированных гифок с помощью matplotlib
Графики как в ggplot (R) с помощью библиотеки `plotnine`
Библиотека `supervenn` для визуализации пересекающихся множеств
**Книги и курсы**
Книга на русском языке по Matplotlib от DevPractice
**Другое**
15 роликов про визуализацию на matplotlib
Datalytics pinned «📊 Визуализация данных 🧑🎨 **Туториалы matplotlib** 50 визуализаций с помощью matplotlib Шпаргалка по matplotlib Anatomy of figure in matplotlib 🔥 50 примеров крутых графиков на Matplotlib и Seaborn Способы создания гистограмм с помощью Python Введение…»