Datalytics

Если нужно выгрузить датафрейм из Юпитера, то обычно используют[df.to_csv() (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) и потом ищут файлик. Иногда удобно выгрузить файлик прямо браузером https://gist.github.com/axmakarov/a83727d16cc75761ea5d0bce1a667d1c

Gist

download_from_ipython.py

GitHub Gist: instantly share code, notes, and snippets.

635 viewsedited 13:43

Datalytics

Курс машинного обучения Data Mining In Action от кафедры Алгоритмов и Технологий Программирования МФТИ https://www.youtube.com/channel/UCop3CelRVvrchG5lsPyxvHg/videos?flow=grid&sort=p&view=0

679 views14:35

Datalytics

В Pandas одно и то же действие с данными можно выполнить несколькими способами. Например, отсортировать данные можно внутренней функцией sort_values() или использовать numpy'шный np.sort(). Добрый самаритянин сравнил производительность функций, чтобы мы тратили меньше времени на все эти слайсинги, сортировки и удаление дубликатов https://github.com/mm-mansour/Fast-Pandas

GitHub

GitHub - mm-mansour/Fast-Pandas: Benchmark for different operations in pandas against various dataframe sizes.

Benchmark for different operations in pandas against various dataframe sizes. - mm-mansour/Fast-Pandas

685 views08:58

Datalytics

Крутая шпаргалка по Pandas https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf

GitHub

pandas/doc/cheatsheet/Pandas_Cheat_Sheet.pdf at main · pandas-dev/pandas

Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more - pandas-dev/pandas

743 views10:49

Datalytics

Нашел библиотеку для автоматической генерации фич (feature, признаков, если говорить по-русски) для машинного обучения: https://www.featuretools.com/. Процесс генерации фич достаточно занимательный и творческий. Не уверен, что в ближайшую пятилетку получится автоматизировать его полностью, но библиотека точно облегчает жизнь аналитику, особенно если речь идет о достаточно простых признаках. Принцип работы достаточно прост: обычно аналитику приходится создавать фичи самому, применяя различные агрегирующие функции к определенной категории данных, а библиотека FeatureTools берет эту задачу на себя. Например, если мы пытаемся предсказать покупку клиентом определенного товара, то нам нужно изучить историю его прошлых покупок, а также пользователей похожих на него по каким-либо признакам: что чаще покупали люди, которые живут в том же городе и того же возраста, что и наш клиент; в какое время года чаще всего клиенты покупали определенный товар; как часто пользователь до этого просматривал страницу с этим товаром или похожим. Для каждого из таких параметров нам нужно сделать агрегаты, то есть взять все данные о покупках товара из определенного города и посчитать для него частоту покупок, средний чек, медиану по чеку и ещё кучу всяких параметров. Потом можно взять связку город и товар и сделать тоже самое. Всё это можно делать ручками, придумывая каждую фичу самостоятельно, а можно использовать библиотеку FeatureTools или ей подобную.

685 views08:47

Datalytics

Forwarded from Интернет-аналитика // Алексей Никушин (Alexey Nikushin)

Kaggle выложил мини-курсы "Hands-On Data Science Education": Pandas, ML, SQL, R, Data Visualization.
Вроде бы это не видеокурсы, а текстовые с примерами.

https://www.kaggle.com/learn/overview

187 views10:06

Datalytics

Continuum (которые делают питоновскую сборку Anaconda для аналитиков данных) запустили свою программу для сертификации специалистов в области Data Science. Работает всё это на платформе DataCamp и суммарно стоит конские 2800$, хотя у самих DataCamp годовая подписка обойдется в 300$. На мой взгляд, даже для зарубежных аналитиков это будет очень сомнительная инвестиция в себя, при том, что новые знания в этой области появляются с невероятной скоростью, а вместо сертификата лучше размахивать здоровенным гитхабом. https://www.anaconda.com/anaconda-data-science-certification/

653 views12:48

Datalytics

Годнота про то как сделать один сервер Jupyter доступным для кучи пользователей с разграничением доступов https://habrahabr.ru/company/yandex/blog/353546/. От туда узнал про nbgrader - систему для оценки заданий с помощью Jupyter (https://github.com/jupyter/nbgrader).

Habr

JupyterHub, или как управлять сотнями пользователей Python. Лекция Яндекса

Платформа Jupyter позволяет начинающим разработчикам, аналитикам данных и студентам быстрее начать программировать на Python. Предположим, ваша команда растёт — в ней теперь не только программисты, но...

697 views10:06

Datalytics

Как-то я раньше не знал о существовании чудесного фреймворка Dash https://github.com/plotly/dash от Plotly для создания собственных аналитических веб-приложений на Питоне. Упрощенно говоря, на выходе получаются дэшборды в виде отдельных веб-сервисов, которые можно кастомизировать как душе угодно. Если кто-то видел Shiny для R, то это его аналог, но для Python. И всё это опенсорсненько. Пример дэшборда: https://dash-stock-tickers.plot.ly/

GitHub

GitHub - plotly/dash: Data Apps & Dashboards for Python. No JavaScript Required.

Data Apps & Dashboards for Python. No JavaScript Required. - plotly/dash

806 views13:43

Datalytics

Channel photo updated

04:40

Datalytics

Интересный формат. Автор планирует туториал из 8 эпизодов для тех аналитиков, кто пытался когда-то изучать Python, но забросил. Бросают обычно из-за того, что люди начинают изучение с синтаксиса, а лучше начинать с решения легких практических задач, избавляя себя от рутины и сразу же чувствуя как Python улучшает рабочий процесс. https://changhsinlee.com/pyderpuffgirls-ep1/

Chang Hsin Lee

A Python Tutorial for the Bored Me—PyderPuffGirls Episode 1

This is the Episode 1 of the PyderPuffGirls†—a tutorial on automating the boring parts of data analysis that we are going through in the next 8 weeks. I’m writing this tutorial for people that had at least one false start in learning Python, just like me…

1.08K views10:11

Datalytics

Добавляйтесь в мою группу на Facebook. Делитесь интересными ссылками, задавайте вопросы по анализу данных, по возможности буду отвечать или отвечайте на вопросы других участников. Давайте сообща развивать культуру анализа данных на Python! 🐍

925 views10:47

Datalytics

Из статьи на vc.ru узнал о том, что Amazon выкатил в паблик свои курсы по машинному обучению. Бесплатненько. Для курсов выбран любопытный подход, когда различные курсы объединены в обучающие пути. Например, есть обучающий путь для разработчиков ML или для дата-сайентистов.

vc.ru

Amazon открыла доступ к внутренним курсам по машинному обучению для всех желающих — Образование на vc.ru

Каждый может пройти программу, по которой готовятся разработчики крупнейшего онлайн-ритейлера.

1.07K views12:59

Datalytics

На сайте издательства Apress до 30 ноября действует акция Cyberweek: продают книги по 7 евро. Среди ассортимента встречается много книг по Python, например, Персональные финансы с помощью Python.💰 Есть книги, где на Github размещено много исходного кода (например). Так что можно даже не покупать, а просто поисследовать что там за код 😏

www.apress.com

We build strong partnerships with our authors. Apress offers authors the chance to work with a publisher with the marketing, distribution, and

999 viewsedited 13:51

Datalytics

Первая часть большого и подробного гайда про веб-скрэпинг (парсинг информации с веб-сайтов) с помощью библиотеки BeautifulSoup на Python на примере анализа данных о политических новостях https://www.learndatasci.com/tutorials/ultimate-guide-web-scraping-w-python-requests-and-beautifulsoup/ 🇬🇧

Learndatasci

Ultimate Guide to Web Scraping with Python Part 1: Requests and BeautifulSoup

Request and wrangling HTML using two of the most popular Python libraries for web scraping: requests and BeautifulSoup.

1.05K viewsedited 09:36

Datalytics

https://www.marsja.se/pandas-read-csv-tutorial-to-csv/
Очень детальное руководство по работе с CSV-файлами в Pandas. Освещена куча насущных вопросов о том как:
⚪️ прочитать CSV и заменить названия колонок,
⚪️ задать индексную колонку,
⚪️ загрузить только заранее определенные колонки,
⚪️ массово удалить колонки без названий, работать с пустыми значениями,
⚪️ пропустить несколько строк при загрузке,
⚪️ загрузить несколько CSV в один датафрейм

Масса полезных и простых советов. Рекомендую

Erik Marsja

Pandas Read CSV Tutorial: How to Read and Write

Learn how to use Pandas to read CSV & write CSV files. Learn how to combine, handle missing, data, with a link to .ipynb containing examples.

966 viewsedited 08:00

Datalytics

Занятная статья про пирамиду потребностей аналитики. Идеология тут такая же как и в пирамиде Маслоу: пока не удовлетворены базовые потребности, компания не может испытывать потребности более высокого уровня. Простой пример: если у тебя нет данных, то ты может и хочешь заниматься предиктивной моделью, но физически не можешь. Где-то там высоко (ближе к верхушке) также находятся метрики, ведь прежде чем считать метрики мы должны быть уверены в корректности полученных данных https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007

Hackernoon

The AI Hierarchy of Needs | HackerNoon

As is usually the case with fast-advancing technologies, AI has inspired massive <a href="https://en.wikipedia.org/wiki/Fear_of_missing_out" target="_blank">FOMO</a> , <a href="https://en.wikipedia.org/wiki/Fear,_uncertainty_and_doubt" target="_blank">FUD</a>…

1.05K viewsedited 14:33

Datalytics

Ноутбук с мастер-класса Александра Швеца из DigitalGod на конференции "Матемаркетинг-2018". Александр разбирает использование Logs API Яндекс.Метрики для анализа длины цепочек посещений, а также показывает интересный пример динамической атрибуции на основе данных того же Logs API, загнанных в Clickhouse https://github.com/ashwets/conferences/blob/master/matemarketing_2018.ipynb

digitalgod.be

Digital God — Горизонт возможностей на стыке твоей профессии и программирования

Программирование открывает новые горизонты профессионального развития, позволяя один раз написать скрипт и больше к этому не возвращаться или посчитать аудиторию и загрузить её в рекламную систему по API. Это более чем реально!

1.08K viewsedited 09:44

Datalytics

Лично я не очень люблю Matplotlib из-за достаточно сложного синтаксиса. Разбираться в его документации - то ещё удовольствие, поэтому чаще приходится лезть в Stackoverflow и искать среди ответов что-то подходящее. Но нужно признать должное: если нужен комбайн для сложных визуализаций, то вряд ли найдется что-то лучше Matplotlib среди Python-библиотек. Я бы сравнил его с d3.js на JavaScript по уровню кастомизируемости. Статья по ссылке это подтверждает, там 50 мощных визуализаций с примерами кода https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/

Machine Learning Plus

Top 50 matplotlib Visualizations – The Master Plots (with full python code)

Learn Data Science (AI/ML/Gen AI) Online

1.09K viewsedited 11:07

Datalytics

https://changhsinlee.com/pyderpuffgirls-ep2/ Вторая часть серии туториалов про изучение Python для аналитиков. На этот раз про вытаскивание данных из БД на примере PostgreSQL. Первая часть

Chang Hsin Lee

How to Query a Database in Python—PyderPuffGirls Episode 2

In PyderPuffGirl Episode 1, I showed you how to open a SQL query in Python. How can I submit said query through Python to a database? Moreover, how can I get the result of the query as a file in Python?

1.14K views14:40

Datalytics

Статья о том как с помощью pandas можно разными способами выбирать сэмплы из данных. Может быть полезным, если хотите делать сэмплирование с использованием groupby (чтобы выбрать по N строк из каждой группы), а также делать выборки с фиксированным "псевдо-случайным" числом, чтобы сэмплированная выборка всегда получалась одинаковая (полезно, когда нужно добиться воспроизводимости исследований). https://www.marsja.se/pandas-sample-randomly-select-rows/

Erik Marsja

How to use Pandas Sample to Select Rows and Columns

Here we will learn how to use Pandas Sample to select rows, set a random seed, sample by group, using weights, and conditions, among other useful things

1.11K viewsedited 14:28

About

Blog

Apps

Platform