Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

460 photos

14 videos

29 files

3.32K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

⚙️

Анализ данных: от EDA до Tinder-битвы графиков

Расскажу, как мы в МТС учили студентов EDA не лекциями, а игрой по типу Tinder, только для графиков. Был фан, был хардкор и крутые визуализации.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.78K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Как продакт-менеджеру учить английский: план, сроки, советы

• Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт

• Interview copilots: как кандидаты используют ChatGPT на интервью

• Моя история входа в IT: как я ломал стены своих ограничений

• Как мы разработали систему грейдинга для системных аналитиков

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

2.67K views14:07

Data Science | Machinelearning [ru]

⚙️

Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

2.61K views18:07

Data Science | Machinelearning [ru]

⚙️

Архитектура проекта автоматического обучения ML-моделей

В статье ребята из Ингосстраха делятся, как автоматизировали запуск и внедрение моделей, чтобы быстрее закрывать запросы бизнеса, не утонув в бэклоге.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

2.54K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое StandardScaler из scikit-learn и зачем он нужен?

StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200], [15, 300], [14, 250]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.

🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.47K views14:08

Data Science | Machinelearning [ru]

⚙️

Как обучить русскоязычную модель рассуждений — LRM?

В статье разбор мультиязычных моделей рассуждений от Lightblue: как они научили DeepSeek "думать" на русском, откуда взяли датасет и зачем запускали LLM как фильтр рассудительности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.61K views18:08

Data Science | Machinelearning [ru]

👩‍💻

Под капотом asyncio: принципы работы и ключевые концепции

Библиотека asyncio предоставляет полный набор инструментов для организации параллельного выполнения кода в Python с использованием концепции асинхронности. Но как на самом деле работает asyncio? Давайте разберемся в ключевых принципах и понятиях.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.77K views10:08

Data Science | Machinelearning [ru]

🌌 Делай мини-проекты из собственных болей

Бесит, что каждый день ищешь одну и ту же команду в истории? Или вручную обрезаешь скриншоты? Это подсказки.

👉 Совет: собирай такие мелкие «боли» и превращай их в свои pet-проекты или утилиты. Это не только помогает себе, но и тренирует навык быстрого решения задач и проектирования под реальную жизнь.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3🔥1

2.68K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Senior Data Analyst
🟢Python, SQL, Amplitude, Firebase, аналитические платформы, маркетинговые метрики
🟢до 3 000 $ | 3–6 лет

Senior Data Engineer
🟢Python, SQL, Apache Airflow, Exasol, ClickHouse, StarRocks, Snowflake, BigQuery, Redshift, ETL/ELT, S3, Docker, Kubernetes
🟢Уровень дохода не указан | более 6 лет

Team Lead Data Scientist
🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps, CI/CD
🟢от 5 000 до 7 250 $ | более 6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.61K views18:09

Data Science | Machinelearning [ru]

⚙️

Как мы создаём Visionatrix: упрощая ComfyUI

В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.06K views12:07

Data Science | Machinelearning [ru]

👩‍💻

Построй визуализацию распределения признаков с автоматической категоризацией

Создайте функцию plot_distributions, которая принимает DataFrame и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных).

Решение задачи🔽

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_distributions(df, max_categories=10):
for column in df.columns:
plt.figure(figsize=(6, 4))
if pd.api.types.is_numeric_dtype(df[column]):
sns.histplot(df[column].dropna(), kde=True)
plt.title(f'Гистограмма: {column}')
elif df[column].nunique() <= max_categories:
df[column].value_counts().plot(kind='bar')
plt.title(f'Категории: {column}')
else:
print(f'Пропущен {column}: слишком много уникальных категорий')
continue
plt.tight_layout()
plt.show()

# Пример использования
df = pd.DataFrame({
'age': [23, 45, 31, 35, 62, 44, 23],
'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'],
'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000]
})

plot_distributions(df)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.72K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Всё, что вы хотели знать о Django Channels

• Сборка Python проекта с uv и Docker

• DE-1. DIY ассистент на LLM

• Ваши генераторные выражения сломаны: чиним и разбираемся

• Всё, что вы хотели знать о Django Channels

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

2.78K views18:07

Data Science | Machinelearning [ru]

🤔

Насколько хороши LLM?

Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1🔥1

2.72K views10:08

Data Science | Machinelearning [ru]

👩‍💻 Задача: Реализация собственного Score-функционала для оценки модели

Напишите свою метрику custom_score, которая будет вычислять "взвешенную точность": за TP даём +2, за TN — +1, FP и FN — 0. Это может быть полезно в задачах, где ложноположительные и ложноотрицательные результаты имеют разный вес

Решение задачи🔽

from sklearn.metrics import confusion_matrix

def custom_score(y_true, y_pred):
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
score = tp * 2 + tn * 1
return score / (tp + tn + fp + fn) # нормализуем

# Пример использования:
y_true = [1, 0, 1, 1, 0, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1, 1]

print(custom_score(y_true, y_pred)) # Примерный вывод: 0.71

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🐳1

2.61K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Data Scientist (A/B-testing)
🟢Python, Spark, Airflow, MLFlow, Postgres, Git, DVC, Docker
🟢Уровень дохода не указан | 1–3 года

Junior ML Engineer / Data Scientist
🟢Python, SciPy, scikit-learn, LightGBM, CatBoost, Git, Docker, MLflow, Airflow
🟢от 120 000 до 200 000 ₽ | 1–3 года

Junior Data Scientist
🟢Python, SQL, pandas, numpy, matplotlib, seaborn, Scikit-learn, PyTorch, XGBoost, CatBoost, TensorFlow, transformers, pymorphy2, NLTK, Gensim, spaCy, regexp
🟢Уровень дохода не указан | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.68K views18:07

Data Science | Machinelearning [ru]

⚙️

Под микроскопом: AI Product Hack

Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

2.68K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое one-hot encoding и зачем он нужен в Data Science?

One-hot encoding — это способ представления категориальных признаков в виде бинарных векторов. Он используется для подготовки данных к моделям машинного обучения, которые не могут работать напрямую с текстовыми значениями.

➡️

Пример:

import pandas as pd

df = pd.DataFrame({'цвет': ['красный', 'синий', 'красный', 'зелёный']})

encoded = pd.get_dummies(df['цвет'])
print(encoded)

🗣️ В этом примере get_dummies превращает колонку с названиями цветов в три бинарные колонки — по одному на каждый уникальный цвет. Это позволяет моделям легче обрабатывать категориальные данные.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.68K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

Middle Data Scientist (лидогенерация)
🟢Python, Airflow, MLflow, Hadoop (Hive, Spark), Oracle (SQL, PL/SQL), Linux, Bash, Git
🟢Уровень дохода не указан | 1–3 года

Data Engineer (Middle)
🟢Python (pandas, Airflow), PostgreSQL, MongoDB, ClickHouse, AWS, Yandex Cloud, Kafka, Spark
🟢Уровень дохода не указан | 1–3 года

Python Developer (Middle)
🟢Python, Flask, FastAPI, React.js, PostgreSQL, Airflow, Git, Docker, ElasticSearch, Kafka
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.65K views18:09

Data Science | Machinelearning [ru]

➡️

Человек, которого выбрал ИИ

Рассказывается, как ИИ научили выбирать сперматозоиды для ЭКО, и один из них уже стал человеком. Не теория, а реальный кейс: без философии, с метриками и видео процедур.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.71K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Обучите модель для классификации текста с помощью Naive Bayes

Создайте простую модель машинного обучения, которая определяет, является ли текст позитивным или негативным. Используем sklearn и алгоритм Naive Bayes

Решение задачи🔽

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Обучающие данные
texts = ["Это отличный фильм", "Ужасный опыт", "Мне понравилось", "Очень скучно", "Прекрасная история"]
labels = ['positive', 'negative', 'positive', 'negative', 'positive']

# Модель
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(texts, labels)

# Прогноз
print(model.predict(["Фильм был ужасен"])) # ['negative']
print(model.predict(["Обожаю это кино"])) # ['positive']

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

2.73K views14:07