Data Science | Machinelearning [ru]
18K subscribers
460 photos
14 videos
29 files
3.31K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🧠 Языковые модели против мошенников: как LLM помогают бороться с отмыванием денег и финансовым мошенничеством

В статье разбирают, как LLM помогает банкам бороться с мошенничеством: от отслеживания подозрительных транзакций до анализа фишинговых схем — умная защита в действии.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
3
👩‍💻 Постройте простую модель классификации с использованием scikit-learn

Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.

Решение задачи🔽

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загружаем данные
iris = load_iris()
X, y =
iris.data, iris.target

# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🔎 Подборка вакансий для джунов

Младший специалист по анализу данных / Junior Data Scientist
🟢Python, R, Математическая статистика, Регрессионный анализ
🟢Уровень дохода не указан | 1–3 года

Data Analyst (Junior)
🟢SQL, Python, A/B тесты, BI, ML Base, EDA
🟢от 70 000 ₽ | Без опыта

Junior Data Specialist
🟢SQL, Excel, ETL, DWH, Power BI, Tableau, Google Data Studio
🟢от 70 000 до 90 000 ₽ | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ Model Context Protocol (MCP): как подружить нейросети со всеми API за пару кликов

В статье рассказывают, как новый протокол MCP от Anthropic стандартизирует взаимодействие LLM-агентов с сервисами и друг с другом. Грядёт эпоха упорядоченного ИИ-хаоса.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👩‍💻 Чем отличается метод .transform() от .apply() в pandas?

В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной.

➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum)) # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями


🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔎 Подборка вакансий для мидлов

Middle/Senior Data Scientist в команду ETA/RTA
🟢Python, SQL, Pandas, Scikit-learn, XGBoost, LightGBM, CI/CD, Docker
🟢Уровень дохода не указан | 3–6 лет

Middle ML Engineer
🟢Python, Go, SQL, PyTorch, TensorFlow, Airflow, Triton Inference Server, Docker, Kubernetes
🟢Уровень дохода не указан | 1–3 года

Data Scientist/Разработчик машинного обучения (ML, NLP, LLM) Middle
🟢Python, numpy, pandas, sklearn, PyTorch, transformers, NLP, LLM
🟢Уровень дохода не указан | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⚙️ Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

В статье рассказывают, как уязвимость в ИИ позволяет обмануть систему команд: если подделать приказ, модель выполнит даже запрещённое. Неужели DAN снова на свободе?

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4
👩‍💻 Построй визуализацию распределения признаков с автоматической категоризацией

Создайте функцию plot_distributions, которая принимает DataFrame и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных).

Решение задачи🔽

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_distributions(df, max_categories=10):
for column in df.columns:
plt.figure(figsize=(6, 4))
if pd.api.types.is_numeric_dtype(df[column]):
sns.histplot(df[column].dropna(), kde=True)
plt.title(f'Гистограмма: {column}')
elif df[column].nunique() <= max_categories:
df[column].value_counts().plot(kind='bar')
plt.title(f'Категории: {column}')
else:
print(f'Пропущен {column}: слишком много уникальных категорий')
continue
plt.tight_layout()
plt.show()

# Пример использования
df = pd.DataFrame({
'age': [23, 45, 31, 35, 62, 44, 23],
'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'],
'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000]
})

plot_distributions(df)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
⚙️ Переходим от legacy к построению Feature Store

В статье рассказывают, как в Домклик внедрили Feature Store в проект с огромным legacy: неожиданные трудности, полезные инсайты и реальный профит от новой архитектуры

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ INTELLECT-2: Первая большая (32B) параметрическая модель с распределенным обучением

В статье рассказывают о прорывной модели INTELLECT-2: обучение на рое вычислительных узлов вместо датацентров, асинхронное RL и инфраструктура, которую строили с нуля

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔎 Подборка вакансий для сеньоров

Senior Big Data Engineer (Data Management Platform) - Lamoda Tech
🟢Hadoop (YARN, HDFS, HBase, Hive), Spark, Airflow, Python, Scala, Java, SQL
🟢Доход не указан | 3–6 лет | Удалёнка/Гибрид

Data Engineer Senior - LIAN
🟢SQL, Hadoop (HDFS, YARN, HIVE), Apache Spark, Airflow, Kafka, Python, Java, Scala
🟢270 000 - 350 000 ₽ | Более 6 лет | Удалёнка

Senior Data Engineer - Sigma Sweden Software AB
🟢Spark (Scala), SQL, AWS (DynamoDB, Kinesis), Docker, Python/Ruby, Data Lake
🟢Доход не указан | 3–6 лет | Удалёнка/Гибрид/На месте
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ Есть ли у AMD перспективы в AI/ML/DL. Часть 1

В статье старший MLOps-инженер из Selectel рассказывает о сравнении документации AMD и NVIDIA в области AI/DL/ML: ожидания, реальность и погружение в хаос терминов

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1
👩‍💻 Как работает модуль os в Python для работы с файловой системой?

Модуль os в Python предоставляет инструменты для взаимодействия с операционной системой. С его помощью можно управлять файлами и директориями, получать информацию о системе и переменных окружения, а также выполнять системные команды. Этот модуль особенно полезен для кроссплатформенных сценариев.

➡️ Пример:

import os

# Получение текущей директории
current_dir = os.getcwd()
print('Текущая директория:', current_dir)

# Создание новой директории
os.mkdir('new_folder')
print('Создана директория new_folder')


🗣 os позволяет удобно и кроссплатформенно работать с файловой системой, выполнять команды и настраивать окружение.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1
🤔 ИИ с человеческим лицом: какие ошибки повторяют модели и что с этим делать

В статье рассказывают, почему ИИ, как и люди, подвержен когнитивным искажениям: самоуверенность, предвзятость и шаблонное мышление — как это влияет на бизнес и технологии

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
👩‍💻 Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳73
🎯 Разделяй свои задачи на «узкие» и «широкие»

Иногда ты работаешь над узкой проблемой (например, багом в функции), а иногда — над широкой (архитектурное решение). Легко запутаться, если смешивать такие задачи.

👉 Совет: планируй работу так, чтобы «узкие» задачи чередовались с «широкими». Так мозг не перегружается и сохраняется баланс между точечной работой и глобальным видением проекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81
🔫 Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👩‍💻 Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"


Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1