Data Science | Machinelearning [ru]
17.9K subscribers
459 photos
14 videos
29 files
3.32K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
👩‍💻 Построй визуализацию распределения признаков с автоматической категоризацией

Создайте функцию plot_distributions, которая принимает DataFrame и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных).

Решение задачи🔽

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_distributions(df, max_categories=10):
for column in df.columns:
plt.figure(figsize=(6, 4))
if pd.api.types.is_numeric_dtype(df[column]):
sns.histplot(df[column].dropna(), kde=True)
plt.title(f'Гистограмма: {column}')
elif df[column].nunique() <= max_categories:
df[column].value_counts().plot(kind='bar')
plt.title(f'Категории: {column}')
else:
print(f'Пропущен {column}: слишком много уникальных категорий')
continue
plt.tight_layout()
plt.show()

# Пример использования
df = pd.DataFrame({
'age': [23, 45, 31, 35, 62, 44, 23],
'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'],
'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000]
})

plot_distributions(df)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
⚙️ Переходим от legacy к построению Feature Store

В статье рассказывают, как в Домклик внедрили Feature Store в проект с огромным legacy: неожиданные трудности, полезные инсайты и реальный профит от новой архитектуры

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ INTELLECT-2: Первая большая (32B) параметрическая модель с распределенным обучением

В статье рассказывают о прорывной модели INTELLECT-2: обучение на рое вычислительных узлов вместо датацентров, асинхронное RL и инфраструктура, которую строили с нуля

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔎 Подборка вакансий для сеньоров

Senior Big Data Engineer (Data Management Platform) - Lamoda Tech
🟢Hadoop (YARN, HDFS, HBase, Hive), Spark, Airflow, Python, Scala, Java, SQL
🟢Доход не указан | 3–6 лет | Удалёнка/Гибрид

Data Engineer Senior - LIAN
🟢SQL, Hadoop (HDFS, YARN, HIVE), Apache Spark, Airflow, Kafka, Python, Java, Scala
🟢270 000 - 350 000 ₽ | Более 6 лет | Удалёнка

Senior Data Engineer - Sigma Sweden Software AB
🟢Spark (Scala), SQL, AWS (DynamoDB, Kinesis), Docker, Python/Ruby, Data Lake
🟢Доход не указан | 3–6 лет | Удалёнка/Гибрид/На месте
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ Есть ли у AMD перспективы в AI/ML/DL. Часть 1

В статье старший MLOps-инженер из Selectel рассказывает о сравнении документации AMD и NVIDIA в области AI/DL/ML: ожидания, реальность и погружение в хаос терминов

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1
👩‍💻 Как работает модуль os в Python для работы с файловой системой?

Модуль os в Python предоставляет инструменты для взаимодействия с операционной системой. С его помощью можно управлять файлами и директориями, получать информацию о системе и переменных окружения, а также выполнять системные команды. Этот модуль особенно полезен для кроссплатформенных сценариев.

➡️ Пример:

import os

# Получение текущей директории
current_dir = os.getcwd()
print('Текущая директория:', current_dir)

# Создание новой директории
os.mkdir('new_folder')
print('Создана директория new_folder')


🗣 os позволяет удобно и кроссплатформенно работать с файловой системой, выполнять команды и настраивать окружение.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1
🤔 ИИ с человеческим лицом: какие ошибки повторяют модели и что с этим делать

В статье рассказывают, почему ИИ, как и люди, подвержен когнитивным искажениям: самоуверенность, предвзятость и шаблонное мышление — как это влияет на бизнес и технологии

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
👩‍💻 Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳73
🎯 Разделяй свои задачи на «узкие» и «широкие»

Иногда ты работаешь над узкой проблемой (например, багом в функции), а иногда — над широкой (архитектурное решение). Легко запутаться, если смешивать такие задачи.

👉 Совет: планируй работу так, чтобы «узкие» задачи чередовались с «широкими». Так мозг не перегружается и сохраняется баланс между точечной работой и глобальным видением проекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81
🔫 Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👩‍💻 Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"


Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
⚙️ Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🐳1
⚙️ Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

В статье разбирают основные методы генерации видео на основе текста (T2V): от адаптации T2I с AnimateDiff до новинок 2025 года вроде Wan2.1 и HunyuanVideo. Первая часть обзора

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
21
👩‍💻 Normalization of Numerical Data

Напишите функцию, которая принимает список чисел и нормализует его, преобразуя значения в диапазон от 0 до 1. Это полезно для подготовки данных перед обучением модели машинного обучения.

➡️ Функция работает следующим образом:

• Находит минимальное и максимальное значение в списке.

• Вычисляет нормализованное значение для каждого элемента по формуле: normalized = (𝑥 − min) / max − min)

• Возвращает новый список с нормализованными значениями.


Решение задачи🔽

def normalize(data):
min_val = min(data)
max_val = max(data)

# Избегаем деления на ноль, если все элементы равны
if max_val == min_val:
return [0.0] * len(data)

return [(x - min_val) / (max_val - min_val) for x in data]

# Примеры использования
data = [10, 20, 30, 40, 50]
print(normalize(data))
# Ожидаемый результат: [0.0, 0.25, 0.5, 0.75, 1.0]
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
🔎 Подборка вакансий для джунов

Junior Data Engineer - Mindbox
🟢 Python, SQL, ООП, C#, Spark, Kafka, Airflow
🟢 До 200 000 ₽ | 1–3 года | Удалёнка/Гибрид/На месте

Data Engineer [Junior] - Диплей
🟢 Python, Apache Airflow, pandas, NumPy, SQL, ClickHouse
🟢 Доход не указан | 1–3 года | Удалёнка

Junior Data Analyst - Forvis Mazars
🟢 SQL, Power BI, Tableau, Pandas, Numpy, Matplotlib, Excel
🟢 Доход не указан | Нет опыта | Удалёнка/Гибрид
Please open Telegram to view this post
VIEW IN TELEGRAM
2
⚙️ Как я не дал ИИ сойти с ума: гайд по промптам и багам

В статье — почему нейросети галлюцинируют, примеры «дорогих» ошибок, и промпты для тех, кто работает с кодом, текстами и дизайном.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
😁51
👩‍💻 Что такое обучение с учителем (supervised learning) в ML?

Обучение с учителем — это тип машинного обучения, при котором модель обучается на размеченных данных.

Каждый пример содержит вход (features) и правильный ответ (label), который модель должна научиться предсказывать.

➡️ Пример:
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression()
model.fit(X_train, y_train)

print("Предсказания:", model.predict(X_test[:5]))


🗣️ В этом примере модель обучается на данных о цветах и учится определять их вид (например, ирис сетоса).


Это классический пример классификации — подтипа обучения с учителем.

🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
⚙️ Claude, есть пробитие: взламываем самую защищенную модель

В статье показывают, как обойти фильтры модели Claude с помощью модифицированного метода внедрения системных директив, чтобы заставить её выполнять запрещённые инструкции

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
1