Математика Дата саентиста
13.5K subscribers
402 photos
134 videos
37 files
350 links
Download Telegram
📖Предварительная подготовка данных в Python (1 том)

Автор: Артем Груздев

Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей.
#python #math

📚Книга

@data_math
👍12🔥6🤝2🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 pix2tex

- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.

Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.

🐱 GitHub

data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
👍255🔥5
Python для работы с данными

1. Способы самопроверки при анализе данных
2. Как автоматизировать скучную работу в Pandas ?
3, Какая роль у аналитика в команде?
4. Как сделать предподготовку данных? Реальные примеры
5. Как использовать метод apply для трансформации колонок?
6. Lambda функции для быстрых вычислений
7. Приступаем к аналитике
8. Объединение данных, метод merge
9. От данных к метрикам
10. Визуализация как метод исследования данных

#video #python

https://www.youtube.com/watch?v=Eb7Q_qCAqM4&list=PLBRXq5LaddfxQFjzuq5QC05q1ZheGMQo1&ab_channel=karpov.courses
👍135🔥51😁1
Фракталы на python

1. Кривая Коха и снежинка Коха
2. Рисуем кривую Коха и снежинку Коха
3. Простая L-система на плоскости
4. L-система для дракона Хартера-Хайтвея, ковра Серпинского и кривой Гильберта
5. L-система с ветвлениями. Рисуем деревья и травы
6. Добавляем параметры в L-систему
7. Добавляем случайности в L-систему
8. Добавляем цвет в L-систему
9. Как вычисляется фрактальная размерность по Хаусдорфу

#video #python

https://www.youtube.com/watch?v=rUC-wPuRSOU&list=PLA0M1Bcd0w8ylFC3tve_AVXEttPBmKDqw

@data_math
🔥5👍43🤯2
🦆 Как использовать DuckDB с Python: практическое руководство по аналитике

DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.

📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки

🧪 Пример рабочего сценария:

1️⃣ Чтение и анализ Parquet-файла:

import duckdb

duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")


2️⃣ Интеграция с pandas:

import pandas as pd

df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()


3️⃣ Объединение нескольких источников:

duckdb.sql("""
SELECT a.user_id, b.event_time
FROM 'users.parquet' a
JOIN read_csv('events.csv') b
ON a.user_id = b.user_id
""")


🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через pip install duckdb

🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.

📌 Советы:
- Используйте read_parquet, read_csv_auto и from_df() для гибкой загрузки данных
- Результаты запросов можно конвертировать обратно в pandas через .df()
- DuckDB поддерживает оконные функции, GROUP BY, JOIN, UNION, LIMIT, подзапросы и многое другое — это полноценный SQL-движок

🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide

#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData
🔥106👍3👎1🥰1