Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

18K subscribers

460 photos

14 videos

29 files

3.31K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

18K subscribers

Data Science | Machinelearning [ru]

🔫

Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.26K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result)  # Ожидаемый результат: "Восходящий тренд"

Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

2.31K views14:07

Data Science | Machinelearning [ru]

⚙️

Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🐳1

2.28K views18:07

Data Science | Machinelearning [ru]

⚙️

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

В статье разбирают основные методы генерации видео на основе текста (T2V): от адаптации T2I с AnimateDiff до новинок 2025 года вроде Wan2.1 и HunyuanVideo. Первая часть обзора

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1

2.23K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Normalization of Numerical Data

Напишите функцию, которая принимает список чисел и нормализует его, преобразуя значения в диапазон от 0 до 1. Это полезно для подготовки данных перед обучением модели машинного обучения.

➡️ Функция работает следующим образом:

• Находит минимальное и максимальное значение в списке.

• Вычисляет нормализованное значение для каждого элемента по формуле: normalized = (𝑥 − min) / max − min)

• Возвращает новый список с нормализованными значениями.

Решение задачи🔽

def normalize(data):
min_val = min(data)
max_val = max(data)

# Избегаем деления на ноль, если все элементы равны
if max_val == min_val:
return [0.0] * len(data)

return [(x - min_val) / (max_val - min_val) for x in data]

# Примеры использования
data = [10, 20, 30, 40, 50]
print(normalize(data))
# Ожидаемый результат: [0.0, 0.25, 0.5, 0.75, 1.0]

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

2.09K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Data Engineer - Mindbox
🟢 Python, SQL, ООП, C#, Spark, Kafka, Airflow
🟢 До 200 000 ₽ | 1–3 года | Удалёнка/Гибрид/На месте

Data Engineer [Junior] - Диплей
🟢 Python, Apache Airflow, pandas, NumPy, SQL, ClickHouse
🟢 Доход не указан | 1–3 года | Удалёнка

Junior Data Analyst - Forvis Mazars
🟢 SQL, Power BI, Tableau, Pandas, Numpy, Matplotlib, Excel
🟢 Доход не указан | Нет опыта | Удалёнка/Гибрид

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.39K views18:07

Data Science | Machinelearning [ru]

⚙️

Как я не дал ИИ сойти с ума: гайд по промптам и багам

В статье — почему нейросети галлюцинируют, примеры «дорогих» ошибок, и промпты для тех, кто работает с кодом, текстами и дизайном.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5❤1

2.36K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Что такое обучение с учителем (supervised learning) в ML?

Обучение с учителем — это тип машинного обучения, при котором модель обучается на размеченных данных.

Каждый пример содержит вход (features) и правильный ответ (label), который модель должна научиться предсказывать.

➡️

Пример:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression()
model.fit(X_train, y_train)

print("Предсказания:", model.predict(X_test[:5]))

🗣️ В этом примере модель обучается на данных о цветах и учится определять их вид (например, ирис сетоса).

Это классический пример классификации — подтипа обучения с учителем.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.43K views14:07

Data Science | Machinelearning [ru]

⚙️

Claude, есть пробитие: взламываем самую защищенную модель

В статье показывают, как обойти фильтры модели Claude с помощью модифицированного метода внедрения системных директив, чтобы заставить её выполнять запрещённые инструкции

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.41K views18:07

Data Science | Machinelearning [ru]

⚙️

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

В статье показывают, как и зачем использовать C++ в машинном обучении: распознавание лиц, объекты в реальном времени и прирост в производительности без питоньих зависимостей

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.45K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Оценка точности модели классификации (Accuracy Score)

Напишите функцию, которая вычисляет accuracy score — долю правильных предсказаний модели классификации. Это базовая метрика, часто используемая для оценки качества модели.

Функция работает следующим образом:

• Сравнивает каждую пару истинного (y_true) и предсказанного (y_pred) значения.

• Считает количество совпадений.

• Делит число правильных предсказаний на общее количество примеров

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
return correct / len(y_true)

# Примеры использования
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred))
# Ожидаемый результат: 0.8

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.4K views14:07

Data Science | Machinelearning [ru]

⚙️

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3😁1

2.52K views18:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение в Apache Spark с помощью MLlib

Показываем, как применить MLlib из Apache Spark в своих проектах, и делимся советами, чтобы не сжечь кластеры раньше времени. Всё просто, даже если вы не Data Jedi.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.37K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Data Engineer (Middle+/Senior)
🟢 AWS (S3, Glue, Athena, Redshift), Python, SQL, Data Lake, ETL, ClickHouse, Apache Spark, Kafka, Airflow
🟢 От 250 000 ₽ | 3–6 лет | Удалёнка / Гибрид

Senior Data Scientist LLM
🟢 Python, LLM, Transformers, RAG, NLP, SQL, MLOps, Vector DBs (pgvector, Milvus, Qdrant)
🟢 $3 500–4 000 | 6+ лет | Удалёнка

Senior Data Engineer
🟢 Python (OOP), SQL (оптимизация), FastAPI, DBT, GCP (BigQuery), Microservices, CI/CD
🟢 $4 000–6 000 | 6+ лет | Удалёнка

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.34K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2

• Как строить карьеру в корпорации

• История: работа в чешском Red Hat

• Циничные заметки о карьере в IT от «гейткипера»

• Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.29K views18:07

Data Science | Machinelearning [ru]

⚙️

Что у меня за распределение

Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.23K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое токенизация в машинном обучении?

Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы.
Часто используется на этапе предобработки текста для NLP-моделей.

Каждый токен — это минимальная смысловая единица, которую модель будет анализировать.

➡️

Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели.
Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3

2.36K views14:07

Data Science | Machinelearning [ru]

⚙️

Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025

В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.29K views18:07

Data Science | Machinelearning [ru]

👀

Stack Overflow умирает? Как ИИ вытесняет живые сообщества разработчиков

Разбираемся, почему Stack Overflow теряет аудиторию: виноваты ли ИИ, UX или жадность? Плюс — что делает администрация и что ждёт разработчиков в пост-SO эпоху.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.49K views10:07

Data Science | Machinelearning [ru]

⚡️ Делай «кодовые разминки» перед тяжёлыми задачами

Сложная задача сразу после кофе? Мозг ещё не включился — и ты уже залип.

👉 Совет: начни день с 15 минут лёгкой задачи: мелкий фикс, улучшение логов, небольшой рефакторинг. Это разгоняет мысль, помогает включиться в поток и потом перейти к тяжёлому коду с полной скоростью.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15

2.25K views14:07