Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

• Сбер выкладывает GigaChat Lite в открытый доступ

• История YOLO – самой известной архитектуры компьютерного зрения

• Магия простоты: как мы улучшили отображение общественного транспорта на карте

• Обучение и fine-tuning моделей простым языком: зачем, как, где

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.43K views18:07

Data Science | Machinelearning [ru]

🧠

Языковые модели против мошенников: как LLM помогают бороться с отмыванием денег и финансовым мошенничеством

В статье разбирают, как LLM помогает банкам бороться с мошенничеством: от отслеживания подозрительных транзакций до анализа фишинговых схем — умная защита в действии.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.38K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Постройте простую модель классификации с использованием scikit-learn

Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.

Решение задачи🔽

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загружаем данные
iris = load_iris()
X, y = iris.data, iris.target

# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.21K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Младший специалист по анализу данных / Junior Data Scientist
🟢Python, R, Математическая статистика, Регрессионный анализ
🟢Уровень дохода не указан | 1–3 года

Data Analyst (Junior)
🟢SQL, Python, A/B тесты, BI, ML Base, EDA
🟢от 70 000 ₽ | Без опыта

Junior Data Specialist
🟢SQL, Excel, ETL, DWH, Power BI, Tableau, Google Data Studio
🟢от 70 000 до 90 000 ₽ | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.39K views18:07

Data Science | Machinelearning [ru]

⚙️

Model Context Protocol (MCP): как подружить нейросети со всеми API за пару кликов

В статье рассказывают, как новый протокол MCP от Anthropic стандартизирует взаимодействие LLM-агентов с сервисами и друг с другом. Грядёт эпоха упорядоченного ИИ-хаоса.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.37K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Чем отличается метод .transform() от .apply() в pandas?

В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной.

➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum))  # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями

🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

2.38K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

Middle/Senior Data Scientist в команду ETA/RTA
🟢Python, SQL, Pandas, Scikit-learn, XGBoost, LightGBM, CI/CD, Docker
🟢Уровень дохода не указан | 3–6 лет

Middle ML Engineer
🟢Python, Go, SQL, PyTorch, TensorFlow, Airflow, Triton Inference Server, Docker, Kubernetes
🟢Уровень дохода не указан | 1–3 года

Data Scientist/Разработчик машинного обучения (ML, NLP, LLM) Middle
🟢Python, numpy, pandas, sklearn, PyTorch, transformers, NLP, LLM
🟢Уровень дохода не указан | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.33K views18:07

Data Science | Machinelearning [ru]

⚙️

Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

В статье рассказывают, как уязвимость в ИИ позволяет обмануть систему команд: если подделать приказ, модель выполнит даже запрещённое. Неужели DAN снова на свободе?

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.37K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Построй визуализацию распределения признаков с автоматической категоризацией

Создайте функцию plot_distributions, которая принимает DataFrame и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных).

Решение задачи🔽

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_distributions(df, max_categories=10):
for column in df.columns:
plt.figure(figsize=(6, 4))
if pd.api.types.is_numeric_dtype(df[column]):
sns.histplot(df[column].dropna(), kde=True)
plt.title(f'Гистограмма: {column}')
elif df[column].nunique() <= max_categories:
df[column].value_counts().plot(kind='bar')
plt.title(f'Категории: {column}')
else:
print(f'Пропущен {column}: слишком много уникальных категорий')
continue
plt.tight_layout()
plt.show()

# Пример использования
df = pd.DataFrame({
'age': [23, 45, 31, 35, 62, 44, 23],
'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'],
'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000]
})

plot_distributions(df)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.25K views14:07

Data Science | Machinelearning [ru]

⚙️

Переходим от legacy к построению Feature Store

В статье рассказывают, как в Домклик внедрили Feature Store в проект с огромным legacy: неожиданные трудности, полезные инсайты и реальный профит от новой архитектуры

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.34K views18:07

Data Science | Machinelearning [ru]

⚙️

INTELLECT-2: Первая большая (32B) параметрическая модель с распределенным обучением

В статье рассказывают о прорывной модели INTELLECT-2: обучение на рое вычислительных узлов вместо датацентров, асинхронное RL и инфраструктура, которую строили с нуля

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

2.38K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Senior Big Data Engineer (Data Management Platform) - Lamoda Tech
🟢Hadoop (YARN, HDFS, HBase, Hive), Spark, Airflow, Python, Scala, Java, SQL
🟢Доход не указан | 3–6 лет | Удалёнка/Гибрид

Data Engineer Senior - LIAN
🟢SQL, Hadoop (HDFS, YARN, HIVE), Apache Spark, Airflow, Kafka, Python, Java, Scala
🟢270 000 - 350 000 ₽ | Более 6 лет | Удалёнка

Senior Data Engineer - Sigma Sweden Software AB
🟢Spark (Scala), SQL, AWS (DynamoDB, Kinesis), Docker, Python/Ruby, Data Lake
🟢Доход не указан | 3–6 лет | Удалёнка/Гибрид/На месте

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.38K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Пришёл на вакансию дизайнера, а стал питонистом: как IT-специалисты нашли свою первую работу

• На сколько денег может рассчитывать ИТ-предприниматель в разных ветках развития

• Анализ задачи с собеседования в Google: конь и телефонные кнопки

• Быстрый старт в QA Fullstack: чем вооружиться будущему стажеру в Альфа-Банке

• Как убить самоорганизацию в команде: вредные советы для лидера

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.31K views18:07

Data Science | Machinelearning [ru]

⚙️

Есть ли у AMD перспективы в AI/ML/DL. Часть 1

В статье старший MLOps-инженер из Selectel рассказывает о сравнении документации AMD и NVIDIA в области AI/DL/ML: ожидания, реальность и погружение в хаос терминов

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

2.23K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Как работает модуль os в Python для работы с файловой системой?

Модуль os в Python предоставляет инструменты для взаимодействия с операционной системой. С его помощью можно управлять файлами и директориями, получать информацию о системе и переменных окружения, а также выполнять системные команды. Этот модуль особенно полезен для кроссплатформенных сценариев.

➡️ Пример:

import os

# Получение текущей директории
current_dir = os.getcwd()
print('Текущая директория:', current_dir)

# Создание новой директории
os.mkdir('new_folder')
print('Создана директория new_folder')

🗣 os позволяет удобно и кроссплатформенно работать с файловой системой, выполнять команды и настраивать окружение.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.2K views14:07

Data Science | Machinelearning [ru]

🤔

ИИ с человеческим лицом: какие ошибки повторяют модели и что с этим делать

В статье рассказывают, почему ИИ, как и люди, подвержен когнитивным искажениям: самоуверенность, предвзятость и шаблонное мышление — как это влияет на бизнес и технологии

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.45K views19:07

Data Science | Machinelearning [ru]

👩‍💻

Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳7❤3

2.53K views10:07

Data Science | Machinelearning [ru]

🎯 Разделяй свои задачи на «узкие» и «широкие»

Иногда ты работаешь над узкой проблемой (например, багом в функции), а иногда — над широкой (архитектурное решение). Легко запутаться, если смешивать такие задачи.

👉 Совет: планируй работу так, чтобы «узкие» задачи чередовались с «широкими». Так мозг не перегружается и сохраняется баланс между точечной работой и глобальным видением проекта.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1

2.34K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Всё, что вы хотели знать о Django Channels

• Сборка Python проекта с uv и Docker

• DE-1. DIY ассистент на LLM

• Ваши генераторные выражения сломаны: чиним и разбираемся

• Всё, что вы хотели знать о Django Channels

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

2.43K views18:07

Data Science | Machinelearning [ru]

🔫

Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.26K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result)  # Ожидаемый результат: "Восходящий тренд"

Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

2.32K views14:07

About

Blog

Apps

Platform