Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Как продакт-менеджеру учить английский: план, сроки, советы

• Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт

• Interview copilots: как кандидаты используют ChatGPT на интервью

• Моя история входа в IT: как я ломал стены своих ограничений

• Как мы разработали систему грейдинга для системных аналитиков

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.13K views18:07

Data Science | Machinelearning [ru]

⚙️

Линейная регрессия в ML для самых маленьких

Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.12K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️

Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

2.02K views14:07

Data Science | Machinelearning [ru]

⚙️

Как построить хороший пайплайн разработки ML-модели

Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5❤2

2.23K views18:07

Data Science | Machinelearning [ru]

🚀 Правда или нет, что Google победил Cursor?

В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор?

Читать...

2.19K views10:07

Data Science | Machinelearning [ru]

✔️

Рабочий флоу — как велосипед: собирается под себя

Можно взять крутой инструмент, подход или методику, но если она не встраивается в твой ритм — ты всё равно будешь буксовать.

👉 Совет: строй свою систему продуктивности так же, как кастомишь код: под себя. Пробуй, адаптируй, выкидывай. Рабочий флоу — это не универсальный шаблон, а твой личный интерфейс с задачами.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

1.95K views14:07

Data Science | Machinelearning [ru]

🧠

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥4

2.22K views18:07

Data Science | Machinelearning [ru]

➡️

Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу

В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.2K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Адаптивный поиск порога "почти одинаковых" векторов

У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей).

Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance.

Дополнительные условия:

• Векторы могут быть высокой размерности (до 512)

• Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0

• Не используйте внешние ML-библиотеки: только numpy

• Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно

Решение задачи🔽

import numpy as np

def cosine_similarity(a, b):
a, b = np.array(a), np.array(b)
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

def find_similar_pairs(vectors, tolerance=0.05):
result = []
n = len(vectors)
for i in range(n):
for j in range(i + 1, n):
sim = cosine_similarity(vectors[i], vectors[j])
if 1 - sim <= tolerance:
result.append((i, j))
return result

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.11K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

• Сбер выкладывает GigaChat Lite в открытый доступ

• История YOLO – самой известной архитектуры компьютерного зрения

• Магия простоты: как мы улучшили отображение общественного транспорта на карте

• Обучение и fine-tuning моделей простым языком: зачем, как, где

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.98K views18:07

Data Science | Machinelearning [ru]

🧠

Создаем свой RAG: введение в LangGraph

В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.43K views12:07

Data Science | Machinelearning [ru]

👩‍💻 Напишите функцию для расчёта Accuracy вручную

В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно.

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = 0
for true, pred in zip(y_true, y_pred):
if true == pred:
correct += 1
return correct / len(y_true)

# Пример использования:
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred)) # 0.833...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤2🐳1

2.21K views14:07

Data Science | Machinelearning [ru]

🤔

Выбираем MLOps инструменты с учётом зрелости команды

В статье разбирают, как выбрать MLOps-инструменты под уровень зрелости команды: почему решений много, но не все подходят, и как не утонуть в многообразии вариантов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.19K views18:07

Data Science | Machinelearning [ru]

🧠

Языковые модели против мошенников: как LLM помогают бороться с отмыванием денег и финансовым мошенничеством

В статье разбирают, как LLM помогает банкам бороться с мошенничеством: от отслеживания подозрительных транзакций до анализа фишинговых схем — умная защита в действии.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.07K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Чем отличается метод .transform() от .apply() в pandas?

В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной.

➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum))  # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями

🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8

2.12K views14:07

Data Science | Machinelearning [ru]

⚙️

Model Context Protocol (MCP): как подружить нейросети со всеми API за пару кликов

В статье рассказывают, как новый протокол MCP от Anthropic стандартизирует взаимодействие LLM-агентов с сервисами и друг с другом. Грядёт эпоха упорядоченного ИИ-хаоса.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤2

2.18K views18:07

Data Science | Machinelearning [ru]

⚙️

Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

В статье рассказывают, как уязвимость в ИИ позволяет обмануть систему команд: если подделать приказ, модель выполнит даже запрещённое. Неужели DAN снова на свободе?

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.21K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Построй визуализацию распределения признаков с автоматической категоризацией

Создайте функцию plot_distributions, которая принимает DataFrame и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных).

Решение задачи🔽

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def plot_distributions(df, max_categories=10):
for column in df.columns:
plt.figure(figsize=(6, 4))
if pd.api.types.is_numeric_dtype(df[column]):
sns.histplot(df[column].dropna(), kde=True)
plt.title(f'Гистограмма: {column}')
elif df[column].nunique() <= max_categories:
df[column].value_counts().plot(kind='bar')
plt.title(f'Категории: {column}')
else:
print(f'Пропущен {column}: слишком много уникальных категорий')
continue
plt.tight_layout()
plt.show()

# Пример использования
df = pd.DataFrame({
'age': [23, 45, 31, 35, 62, 44, 23],
'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'],
'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000]
})

plot_distributions(df)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.24K views14:07

Data Science | Machinelearning [ru]

⚙️

Переходим от legacy к построению Feature Store

В статье рассказывают, как в Домклик внедрили Feature Store в проект с огромным legacy: неожиданные трудности, полезные инсайты и реальный профит от новой архитектуры

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.17K views18:07

Data Science | Machinelearning [ru]

⚙️

INTELLECT-2: Первая большая (32B) параметрическая модель с распределенным обучением

В статье рассказывают о прорывной модели INTELLECT-2: обучение на рое вычислительных узлов вместо датацентров, асинхронное RL и инфраструктура, которую строили с нуля

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.14K views10:07

About

Blog

Apps

Platform