Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

460 photos

14 videos

29 files

3.32K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

Алоха товарищи. Тут подкаст вышел интересный. Спикер - Антон Полднев — специалист по рекламным технологиям Яндекса с опытом свыше 10 лет.

В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем.
Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀

Ключевые моменты:

👉 Ответственность за рекламные технологии.
👉 Переход на C++ для повышения производительности.
👉 Внедрение нейросетей и машинного обучения.
👉 Важность командной работы и четкого распределения задач.
👉 Эксперименты и A/B-тесты для оптимизации решений.

Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего.

Ссылки на подкаст

👉 YouTube
👉 VK
👉 Rutube

❤3👍3🔥1

2.74K views14:37

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Больше чем книга

• Как поставить цель на обучение, чтобы дойти до конца

• Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров

• Найм дизайнеров глазами лида

• Software Architect vs Solution Architect

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.77K views18:07

Data Science | Machinelearning [ru]

Этичные хакеры будут искать уязвимости в нейросетках Яндекса

Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы.

Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.

❤6👍3👎3🔥2🐳1

2.69K views07:07

Data Science | Machinelearning [ru]

⚙️

RAG: борьба с низким качеством ответов в условия экономии памяти на GPU

В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥1

2.7K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое StandardScaler в Data Science и зачем он используется?

StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1.

Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans.

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.56K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для лидов

Team Lead Data Scientist
🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD
🟢от 5 000 до 7 250 $ | 3–6 лет

Lead Data Engineer
🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s
🟢от 450 000 ₽ | более 6 лет

Lead Data Engineer
🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.74K views18:07

Data Science | Machinelearning [ru]

⚙️

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1👍1

3.19K views10:07

Data Science | Machinelearning [ru]

🎮

Погружайся в чужие проекты как в игру

Попал на новый проект и боишься "чужого" кода? Сложно и страшно?

👉 Совет: относись к чужому проекту как к исследовательской игре. Ваша миссия — понять карту, найти скрытые механики, собрать артефакты знаний. Геймификация процесса сильно снижает стресс и делает погружение гораздо приятнее.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥1

2.83K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Python-разработчик
🟢Python, Django, Docker, PostgreSQL, Kafka, FastAPI, Kubernetes, Keycloak
🟢от 200 000 ₽ | 1–3 года

AI Engineer
🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP
🟢Уровень дохода не указан | 1–3 года

DBA | Senior Database Administrator
🟢PostgreSQL, MongoDB, Redis, MySQL, ClickHouse, Ansible, Bash, Python, Grafana, Prometheus, ELK
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.8K views18:07

Data Science | Machinelearning [ru]

👩‍💻

Разрабатываем первое AI приложение

Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥2

2.84K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')

Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.79K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Разбей и властвуй: как создать кастомный токенизатор в SpaCy

• Функция property() в Python: добавляем управляемые атрибуты в классы

• Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

• cgroups и namespaces в Linux: как это работает?

• ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

2.85K views18:07

Data Science | Machinelearning [ru]

⚙️

Когда обучение не идет. Loss is NaN. Причины и решения

В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.85K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Напишите функцию для расчёта Accuracy вручную

В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно.

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = 0
for true, pred in zip(y_true, y_pred):
if true == pred:
correct += 1
return correct / len(y_true)

# Пример использования:
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred)) # 0.833...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

2.83K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Data Engineer (Junior)
🟢Scala или Python, SQL, Apache Spark, Hadoop, NiFi
🟢Уровень дохода не указан | 1–3 года

Junior/Middle Data Engineer (Финансовый блок)
🟢Scala, Python, Java, SQL, Apache Spark, Hadoop, Apache Airflow
🟢Уровень дохода не указан | 1–3 года

Data Analyst (Junior)
🟢SQL, Python, A/B тесты, BI, ML Base, EDA, продуктовая аналитика
🟢от 70 000 ₽ | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.9K views18:07

Data Science | Machinelearning [ru]

⚙️

Организация ML-проекта с примерами

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1🐳1

2.73K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое One-Hot Encoding в Data Science и зачем он используется?

One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения.

Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1.

➡️

Пример:

import pandas as pd

data = pd.DataFrame({
    'Color': ['Red', 'Green', 'Blue', 'Red']
})

# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)

print(encoded)

   Color_Blue  Color_Green  Color_Red
0           0            0          1
1           0            1          0
2           1            0          0
3           0            0          1

🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.86K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

Data Scientist (Middle)
🟢Python, SQL, Pandas, NumPy, Matplotlib
🟢Уровень дохода не указан | 3–6 лет

Инженер данных / Data engineer (middle)
🟢Scala, Python, SQL, Apache Spark, Hadoop, NiFi
🟢Уровень дохода не указан | 1–3 года

Аналитик данных/Data Analyst
🟢SQL (ClickHouse, Postgres, MS SQL), Python, Jupyter, Git, BI-системы (Datalens)
🟢от 200 000 до 300 000 ₽ | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.78K views18:07

Data Science | Machinelearning [ru]

👩‍💻 Постройте простую модель классификации с использованием scikit-learn

Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.

Решение задачи🔽

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загружаем данные
iris = load_iris()
X, y = iris.data, iris.target

# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.72K views14:07

Data Science | Machinelearning [ru]

⚙️

Рекомендательная система для вашего каталога научных работ (и не только!)

Показано, как собрать рекомендательную систему на своём архиве документов, даже если там куча форматов. NLP + графы = машинный архивариус, который сам подсовывает нужные файлы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

3K views18:07