Математика Дата саентиста

📖Предварительная подготовка данных в Python (1 том)

Автор: Артем Груздев

Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей.
#python #math

📚Книга

@data_math

👍12🔥6🤝2🥰1

3.72K views18:42

This media is not supported in your browser

VIEW IN TELEGRAM

🚀

pix2tex

- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.

Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.

🐱

GitHub

data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤5🔥5

4.56K views13:01

Математика Дата саентиста

Python для работы с данными

1. Способы самопроверки при анализе данных
2. Как автоматизировать скучную работу в Pandas ?
3, Какая роль у аналитика в команде?
4. Как сделать предподготовку данных? Реальные примеры
5. Как использовать метод apply для трансформации колонок?
6. Lambda функции для быстрых вычислений
7. Приступаем к аналитике
8. Объединение данных, метод merge
9. От данных к метрикам
10. Визуализация как метод исследования данных

#video #python

https://www.youtube.com/watch?v=Eb7Q_qCAqM4&list=PLBRXq5LaddfxQFjzuq5QC05q1ZheGMQo1&ab_channel=karpov.courses

👍13❤5🔥5⚡1😁1

5.46K views11:32

Математика Дата саентиста

Фракталы на python

1. Кривая Коха и снежинка Коха
2. Рисуем кривую Коха и снежинку Коха
3. Простая L-система на плоскости
4. L-система для дракона Хартера-Хайтвея, ковра Серпинского и кривой Гильберта
5. L-система с ветвлениями. Рисуем деревья и травы
6. Добавляем параметры в L-систему
7. Добавляем случайности в L-систему
8. Добавляем цвет в L-систему
9. Как вычисляется фрактальная размерность по Хаусдорфу

#video #python

https://www.youtube.com/watch?v=rUC-wPuRSOU&list=PLA0M1Bcd0w8ylFC3tve_AVXEttPBmKDqw

@data_math

🔥5👍4❤3🤯2

3.79K views14:04

Математика Дата саентиста

🦆 Как использовать DuckDB с Python: практическое руководство по аналитике

DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.

📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки

🧪 Пример рабочего сценария:

1️⃣ Чтение и анализ Parquet-файла:


import duckdb

duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")

2️⃣ Интеграция с pandas:


import pandas as pd

df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()

3️⃣ Объединение нескольких источников:


duckdb.sql("""
    SELECT a.user_id, b.event_time
    FROM 'users.parquet' a
    JOIN read_csv('events.csv') b
    ON a.user_id = b.user_id
""")

🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через pip install duckdb

🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.

📌 Советы:
- Используйте read_parquet, read_csv_auto и from_df() для гибкой загрузки данных
- Результаты запросов можно конвертировать обратно в pandas через .df()
- DuckDB поддерживает оконные функции, GROUP BY, JOIN, UNION, LIMIT, подзапросы и многое другое — это полноценный SQL-движок

🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide

#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData

🔥10❤6👍3👎1🥰1

3.37K views12:10

About

Blog

Apps

Platform