📖Предварительная подготовка данных в Python (1 том)
Автор: Артем Груздев
Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей.
#python #math
📚Книга
@data_math
Автор: Артем Груздев
Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей.
#python #math
📚Книга
@data_math
👍12🔥6🤝2🥰1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤5🔥5
Python для работы с данными
1. Способы самопроверки при анализе данных
2. Как автоматизировать скучную работу в Pandas ?
3, Какая роль у аналитика в команде?
4. Как сделать предподготовку данных? Реальные примеры
5. Как использовать метод apply для трансформации колонок?
6. Lambda функции для быстрых вычислений
7. Приступаем к аналитике
8. Объединение данных, метод merge
9. От данных к метрикам
10. Визуализация как метод исследования данных
#video #python
https://www.youtube.com/watch?v=Eb7Q_qCAqM4&list=PLBRXq5LaddfxQFjzuq5QC05q1ZheGMQo1&ab_channel=karpov.courses
1. Способы самопроверки при анализе данных
2. Как автоматизировать скучную работу в Pandas ?
3, Какая роль у аналитика в команде?
4. Как сделать предподготовку данных? Реальные примеры
5. Как использовать метод apply для трансформации колонок?
6. Lambda функции для быстрых вычислений
7. Приступаем к аналитике
8. Объединение данных, метод merge
9. От данных к метрикам
10. Визуализация как метод исследования данных
#video #python
https://www.youtube.com/watch?v=Eb7Q_qCAqM4&list=PLBRXq5LaddfxQFjzuq5QC05q1ZheGMQo1&ab_channel=karpov.courses
👍13❤5🔥5⚡1😁1
Фракталы на python
1. Кривая Коха и снежинка Коха
2. Рисуем кривую Коха и снежинку Коха
3. Простая L-система на плоскости
4. L-система для дракона Хартера-Хайтвея, ковра Серпинского и кривой Гильберта
5. L-система с ветвлениями. Рисуем деревья и травы
6. Добавляем параметры в L-систему
7. Добавляем случайности в L-систему
8. Добавляем цвет в L-систему
9. Как вычисляется фрактальная размерность по Хаусдорфу
#video #python
https://www.youtube.com/watch?v=rUC-wPuRSOU&list=PLA0M1Bcd0w8ylFC3tve_AVXEttPBmKDqw
@data_math
1. Кривая Коха и снежинка Коха
2. Рисуем кривую Коха и снежинку Коха
3. Простая L-система на плоскости
4. L-система для дракона Хартера-Хайтвея, ковра Серпинского и кривой Гильберта
5. L-система с ветвлениями. Рисуем деревья и травы
6. Добавляем параметры в L-систему
7. Добавляем случайности в L-систему
8. Добавляем цвет в L-систему
9. Как вычисляется фрактальная размерность по Хаусдорфу
#video #python
https://www.youtube.com/watch?v=rUC-wPuRSOU&list=PLA0M1Bcd0w8ylFC3tve_AVXEttPBmKDqw
@data_math
🔥5👍4❤3🤯2
🦆 Как использовать DuckDB с Python: практическое руководство по аналитике
DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.
📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки
🧪 Пример рабочего сценария:
1️⃣ Чтение и анализ Parquet-файла:
2️⃣ Интеграция с pandas:
3️⃣ Объединение нескольких источников:
🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через
🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.
📌 Советы:
- Используйте
- Результаты запросов можно конвертировать обратно в pandas через
- DuckDB поддерживает оконные функции,
🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide
#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData
DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.
📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки
🧪 Пример рабочего сценария:
1️⃣ Чтение и анализ Parquet-файла:
import duckdb
duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")
2️⃣ Интеграция с pandas:
import pandas as pd
df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()
3️⃣ Объединение нескольких источников:
duckdb.sql("""
SELECT a.user_id, b.event_time
FROM 'users.parquet' a
JOIN read_csv('events.csv') b
ON a.user_id = b.user_id
""")
🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через
pip install duckdb
🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.
📌 Советы:
- Используйте
read_parquet
, read_csv_auto
и from_df()
для гибкой загрузки данных - Результаты запросов можно конвертировать обратно в pandas через
.df()
- DuckDB поддерживает оконные функции,
GROUP BY
, JOIN
, UNION
, LIMIT
, подзапросы и многое другое — это полноценный SQL-движок🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide
#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData
🔥10❤6👍3👎1🥰1