Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 trackio: библиотека для трекинга экспериментов в Python

trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.

✅ API совместимо с wandb: wandb.init, wandb.log, wandb.finish. Можно использовать как drop-in замену:

import trackio as wandb

✅ Local-first: дашборд работает локально по умолчанию. Можно разместить на Hugging Face Spaces, указав space_id.
✅ Локальное хранение логов (или в приватный Hugging Face Dataset).
✅ Визуализация экспериментов через Gradio — локально или на Hugging Face Spaces.
✅ Всё бесплатно, включая хостинг на Hugging Face.

Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥3

1.2K viewsedited 17:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎶 audioFlux: Deep Learning для анализа аудио

audioFlux — это библиотека глубокого обучения для анализа аудио и музыки.

Она поддерживает:
➡️ десятки методов временно-частотных преобразований,
➡️ сотни комбинаций признаков во временной и частотной областях,
➡️ извлечение фич для обучения нейросетей.

С помощью audioFlux можно решать задачи:
➡️ классификации,
➡️ разделения источников,
➡️ Music Information Retrieval (MIR),
➡️ автоматического распознавания речи (ASR).

Идеальный инструмент для тех, кто работает с аудиосигналами и хочет быстро переходить от признаков к моделям.

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2

1.25K views06:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Data Picnic Х5 Tech в Сфере — встречаемся 9 сентября в Парке Горького!

На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.

Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.

🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.

🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.

🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.

📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг

🎟 Регистрация: по ссылке

❤1😁1

1.2K views14:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚩

Гайд по pytest для Data Scientists

pytest — это популярный фреймворк для тестирования Python-кода. Он прост в использовании, но при этом мощный.

💡 В дата-сайенсе pytest особенно полезен для проверки функций, NumPy-массивов и pandas DataFrame.

Лучший способ — заранее определить ожидаемое поведение функции в разных сценариях и проверить, что она ему соответствует.

Например, тестирование функции для извлечения сентимента текста:

# sentiment.py

def test_extract_sentiment_positive():
    text = "I think today will be a great day"
    sentiment = extract_sentiment(text)
    assert sentiment > 0

def test_extract_sentiment_negative():
    text = "I do not think this will turn out well"
    sentiment = extract_sentiment(text)
    assert sentiment < 0

Такой подход:
— выявляет крайние случаи,
— позволяет безопасно заменять код улучшенными версиями, не ломая весь пайплайн,
— помогает коллегам быстрее понять, как должна работать функция.

В этом гайде:
— написание простых и читаемых тестов,
— параметризация,
— фикстуры,
— мокинг.

📌 Всё, чтобы сделать дата-сайенс-воркфлоу надёжнее и ближе к продакшену.

🔗

Ссылка на гайд

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

1.19K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏰ Осталось 48 часов!

Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.

⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.

👉 Забрать место

🥱1

1.28K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💯

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5👍2

1.33K views06:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.27K views13:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой метод скалирования признаков был применен?

Anonymous Quiz

👍3😁1

325 voters1.25K views13:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤓 «Сначала выучу Python идеально, а потом пойду в ML»

Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.

В итоге — месяцы зубрёжки, а до ML руки так и не доходят.

На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.

⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.

👉 ML для старта в Data Science

А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)

1.21K views15:31

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧑‍💻 Практика и ресурсы
— OpenAI’s Tips for Coding— шпаргалка по использованию GPT-5 для кода.
— Foundations of Large Language Models — бесплатный 200-страничный гайд по LLM.
— Обзор математики для начинающего ML-инженера — концентрат основ.
— Производные, градиенты, матрицы Якоби и Гессе — разбор для практикующих.

🧬 AI в науке
— OpenAI × Retro Biosciences — ИИ-модель перепроектировала белки для омоложения клеток.
— Google Gemini 2.5 — новая модель для редактирования изображений.
— 5 задач, которые UX-исследователи Авито решают с помощью нейросетей — реальные бизнес-кейсы.

📊 Исследования и бенчмарки
— TabArena — первый живой бенчмарк для табличных данных.
— Why Stacking Sliding Windows Can’t See Very Far — разбор фундаментальных ограничений sliding window attention.
— R-Zero — фреймворк для самообучающихся LLM, которые генерируют собственные датасеты с нуля и улучшают рассуждения.

⚡️ Инструменты и библиотеки
— oLLM — лёгкая Python-библиотека для LLM-инференса на длинных контекстах.

🌍 Новости индустрии
— AI Needs Open Source — Peter Wang (Anaconda) о ценности open source для бизнеса и исследований.
— TIME 100 Most Influential in AI (2025) — в списке лидеры вроде Сэма Альтмана и Илона Маска, а также новые фигуры, включая CEO DeepSeek.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

1.15K viewsedited 11:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ПОСЛЕДНИЙ ДЕНЬ❗
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️

— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ

👉 Proglib Academy

🔥2

1.18K views15:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Если хочется чувствовать себя уверенно не только в метриках, но и в построении моделей:
— AI-агенты в Data Science
— ML для старта в Data Science

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.09K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

20%

Среднюю ошибку предсказаний по модулю

63%

Насколько предсказанные вероятности далеки от истинных меток

Количество неправильно классифицированных объектов

11%

Разницу между F1 и Accuracy

👍2

179 voters1.12K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Большое обновление в pandas: Expressions

Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через pd.col.

Раньше:

df = df.assign(temp_f = lambda x: x['temp_c'] * 9 / 5 + 32)

Теперь:

df = df.assign(temp_f = pd.col('temp_c') * 9 / 5 + 32)

Почему это реально круто:
— Больше никаких непонятных lambda, которые ломаются в циклах.
— Код читается и дебажится проще:

  pd.col('a') + 10  # => (col('a') + 10)

✅ Поддержка str, dt, NumPy ufunc и фильтрации прямо в loc.
✅ Это первый шаг к полноценной системе выражений в духе Polars.

Пример:

df.assign(
    city_upper = pd.col('city').str.upper(),
    log_temp_c = np.log(pd.col('temp_c'))
)

✅ Чище, безопаснее и интуитивнее.
✅ Pandas берёт лучшее у новых библиотек (Polars, Narwhals) и возвращает нас к удобному и современному синтаксису.

🔗

Подробная статья по теме

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12

1.08K views17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Полезная шпаргалка: как выбрать правильное распределение для данных

1️⃣ Начните с гистограммы

— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).

import matplotlib.pyplot as plt
import numpy as np

data = np.random.normal(50, 15, 1000)
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('Values'); plt.ylabel('Count'); plt.title('Гистограмма данных')
plt.show()

2️⃣ Протестируйте разные распределения

— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:

from distfit import distfit
import numpy as np

my_data = np.random.normal(25, 8, 2000)
fitter = distfit(method='parametric')
fitter.fit_transform(my_data)

print("Лучшее распределение:", fitter.model['name'])
print("Параметры:", fitter.model['params'])

3️⃣ Визуализируйте подгонку

— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15,6))
fitter.plot(chart='PDF', ax=ax1); ax1.set_title('PDF')
fitter.plot(chart='CDF', ax=ax2); ax2.set_title('CDF')
plt.show()

4️⃣

Не забывайте про нестандартные данные

— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).

Пример:

from scipy.stats import binom
count_data = binom(20, 0.3).rvs(1000)
discrete_fitter = distfit(method='discrete')
discrete_fitter.fit_transform(count_data)
discrete_fitter.plot()

5️⃣

Проверяйте стабильность

— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:

fitter.bootstrap(my_data, n_boots=100)
print(fitter.summary[['name','score','bootstrap_score','bootstrap_pass']])

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.08K views09:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⁉️ Что нового в Spark 4.0?

Apache Spark продолжает развиваться и в версии 4.0 готовит для нас несколько важнейших обновлений. Хотите узнать, как эти изменения улучшат обработку данных и повлияют на вашу работу? Присоединяйтесь к открытом вебинару 9 сентября в 20:00!

— Обзор Spark 4.0: главные нововведения и улучшения.
— Производительность и оптимизации: что ускорилось и как этим пользоваться?
— Новые API и функции: возможности для разработчиков и аналитиков.
— Интеграция с Kubernetes, облачными платформами и Data Science инструментами.
— Практические кейсы: как применять нововведения в реальных задачах.

👨‍💻🛠👨🏻‍💻 Если вы дата-инженер, аналитик, разработчик или DevOps-специалист, этот вебинар точно для вас.

➡️Присоединяйтесь и получите скидку на курс «Spark Developer»: https://clc.to/-Mavvw

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

❤1

1.24K views14:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6

1.26K views17:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Михаил Шуфутинский печатает

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰12❤1

1.23K views04:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💯

100+ готовых Colab-ноутбуков для fine-tuning LLM

Собрана коллекция из 100+ Colab-ноутбуков с пошаговыми гайдами по fine-tuning любых семейств языковых моделей.
Всё в одном месте — запускай, пробуй и адаптируй под свои задачи.

Подходит для:
🔥 экспериментов с разными архитектурами LLM
🔥 быстрого прототипирования
🔥 обучения и изучения техник fine-tuning

Отличный ресурс, чтобы не тратить время на настройку окружения и сразу переходить к практике.

📱

Ссылка на репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍5🔥1

854 views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Как запустить Random Forest на GPU и получить ускорение в 40 раз

Оказалось, это реально просто — и даже open-source. Фреймворк Hummingbird компилирует обученные ML-модели в тензорные вычисления.

Что это даёт:
— модель можно гонять на GPU, TPU и других ускорителях,
— при этом сохраняется исходная точность,
— а инференс становится до 40 раз быстрее.

📌 Это особенно полезно, если модель уже обучена, а вам важно её быстро и эффективно задеплоить.

Для обучения на GPU есть альтернатива — RAPIDS CuML.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1👏1

304 views17:57

About

Blog

Apps

Platform