Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• о3 теснит программистов? Как OpenAI снова всех удивила

• AI, который всё за нас решит

• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе

• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

2.35K views18:07

Data Science | Machinelearning [ru]

⚙️

Взлом AI Assistant через… философию?

Разбирается философский джейлбрейк LLM: модель через саморефлексию перестаёт воспринимать фильтры как обязательные. Без багов, без хака — просто философия.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡4❤1👍1

2.34K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск оптимального разбиения признака по энтропии (ID3-style)

У вас есть бинарная целевая переменная y (список из 0 и 1) и числовой признак x (такой же длины). Нужно реализовать функцию best_split(x, y), которая найдёт такое значение признака, при разделении по которому (меньше/больше) будет максимально уменьшена энтропия классов.

Иными словами, нужно найти лучший threshold, при котором данные делятся на две группы по x, и у этих групп наименьшая средняя энтропия. Это базовая операция в построении деревьев решений, например, в алгоритме ID3.

Цель:

Вернуть threshold, который даёт наилучшее (наименьшее) значение средневзвешенной энтропии.

Решение задачи🔽

import numpy as np

def entropy(labels):
if len(labels) == 0:
return 0
p = np.bincount(labels) / len(labels)
return -np.sum([pi * np.log2(pi) for pi in p if pi > 0])

def best_split(x, y):
x = np.array(x)
y = np.array(y)
thresholds = sorted(set(x))
best_entropy = float('inf')
best_thresh = None

for t in thresholds:
left_mask = x <= t
right_mask = x > t
left_entropy = entropy(y[left_mask])
right_entropy = entropy(y[right_mask])
w_left = np.sum(left_mask) / len(x)
w_right = 1 - w_left
avg_entropy = w_left * left_entropy + w_right * right_entropy

if avg_entropy < best_entropy:
best_entropy = avg_entropy
best_thresh = t

return best_thresh

# Пример использования
x = [2, 4, 6, 8, 10, 12]
y = [0, 0, 1, 1, 1, 1]

print(best_split(x, y))
# Ожидаемый результат: значение между 4 и 6 (например, 6), так как оно лучше всего делит классы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.35K views14:07

Data Science | Machinelearning [ru]

⚙️

RecSys + DSSM + FPSLoss is all you need

Упрощать и искать похожие детали, очень полезный навык! Предлагаю быстро пробежаться и попробовать найти ту самую серебряную пулю в RecSys.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1

2.22K views18:07

Data Science | Machinelearning [ru]

⚙️

Опробовал новую Gemini 2.5 Pro в написании текстов: вот, что получилось

Прогнал обновлённую Gemini 2.5 Pro через свои любимые промпты — пишет цепко, стройно, но местами логика буксует. Внутри — 3 примера и разбор полётов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.19K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️

Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

2.15K views14:07

Data Science | Machinelearning [ru]

⚙️

Google представила Veo 3 Fast — более быструю и дешевую версию Veo 3. Что такое Veo 3 Fast и как ей пользоваться

В этой статье я расскажу, что такое Veo 3 Fast, как получить к ней доступ и использовать, а также покажу примеры видео и выскажу свои соображения.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.23K views18:07

Data Science | Machinelearning [ru]

⚙️

Как проверять ИИ гипотезы быстро и дешево – гайд в CRISP-DM Light фреймворк

Рассказывается про CRISP-DM Light — фреймворк, который помогает быстро проверять ML-гипотезы и не сливать бюджеты впустую. Меньше бюрократии, больше пользы — и шанс дойти до прода.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

2.25K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Удаление "псевдослучайных" признаков

Вам дана матрица X — список списков с числовыми признаками. Один или несколько признаков были случайно сгенерированы, и не несут полезной информации (то есть, они не коррелируют ни с одним другим).

Нужно реализовать функцию drop_random_features(X, threshold=0.05), которая вернёт индексы признаков, слабо коррелирующих со всеми остальными (по модулю корреляции Пирсона).

Если признак не коррелирует ни с одним другим больше, чем на threshold, он считается псевдослучайным и подлежит удалению.

Цель:

Найти признаки, которые не имеют статистической связи с другими и потенциально являются шумом. Возвращать нужно их индексы.

Решение задачи🔽

import numpy as np

def drop_random_features(X, threshold=0.05):
X = np.array(X)
n_features = X.shape[1]
to_drop = []

for i in range(n_features):
max_corr = 0
for j in range(n_features):
if i != j:
corr = abs(np.corrcoef(X[:, i], X[:, j])[0, 1])
max_corr = max(max_corr, corr)
if max_corr < threshold:
to_drop.append(i)

return to_drop

# Пример использования
np.random.seed(42)
X = np.column_stack([
np.linspace(1, 10, 100), # линейный
np.linspace(10, 1, 100), # обратный
np.random.rand(100), # шум
np.linspace(5, 50, 100) + np.random.rand(100) * 0.1 # почти линейный
])

print(drop_random_features(X, threshold=0.2))
# Ожидаемый результат: [2] — третий признак случайный

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥4

2.31K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Реализация подобия Apple Vision Pro

• Почему LLM так плохо играют в шахматы (и что с этим делать)

• LLM будут врать вечно

• Как мы создали LLM-модель Cotype Nano

• Человек и LLM: как построить метрики для оценки моделей

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👎1🔥1

2.14K views18:07

Data Science | Machinelearning [ru]

⚙️

От месяцев к минутам. Как мы применяем машинное обучение для поиска перспективных литий-ионных проводников

Рассказываю, как мы с помощью ML искали литий-ионные проводники и покрытия для катодов. Материалы, потенциалы, немного науки и много практики — без занудства.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.13K views10:07

Data Science | Machinelearning [ru]

⚙️

ИИ-агенты в современных IT-решениях

Разбирался, как ИИ «собирается» нас всех заменить. Спойлер: не спешит. Но уже сейчас кое-что делает лучше нас — и это не только котиков генерировать.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.2K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Больше чем книга

• Как поставить цель на обучение, чтобы дойти до конца

• Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров

• Найм дизайнеров глазами лида

• Software Architect vs Solution Architect

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.08K views18:07

Data Science | Machinelearning [ru]

⚙️

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

Покажу, как мы в Positive Technologies заменили формальные правила машинкой — чтобы чувствительные данные находились не по шаблону, а по смыслу. Меньше false negative, больше пользы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.13K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое logging в Python?

logging — это встроенный модуль Python для создания логов, которые помогают отлаживать и мониторить работу приложений.

➡️

Пример:

import logging

# Настройка базового уровня логирования
logging.basicConfig(level=logging.INFO)

# Создание лога
logging.info("Приложение запущено")
logging.warning("Это предупреждение!")
logging.error("Произошла ошибка")

🗣️ В этом примере модуль logging создаёт сообщения разного уровня важности. Логирование позволяет отслеживать работу приложений и находить проблемы в коде.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

2.24K views14:07

Data Science | Machinelearning [ru]

⚙️

Похож ли ваш текст на ИИ?

Пытаюсь вычленить шаблоны, по которым палятся тексты от нейросетей: гладкие, пустые, «умные». И придумать способ автоматом понять — писал ли это ИИ или просто скучный человек.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

2.21K views18:07

Data Science | Machinelearning [ru]

⚙️

Прогнозирование исходов футбольных матчей в реальном времени с помощью байесовской модели

Показываю, как модель с динамической силой команд предсказывает исходы матчей лучше классики. Не угадываю счёт, но выигрываю на ставках. У букмекеров шансы тают.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6🐳2

2.47K views10:07

Data Science | Machinelearning [ru]

⚖️

Сложность ≠ крутость

Есть соблазн показать уровень, написав сложную, многослойную, «умную» реализацию. Но это оружие против команды.

👉 Совет: выбирай самое простое решение, которое работает надёжно. Писать сложно умеют многие. Писать просто, понятно и устойчиво — редкий навык, который отличает зрелых инженеров от просто технарей.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤5

2.35K views14:07

Data Science | Machinelearning [ru]

👩‍💻 Постройте простую модель классификации с использованием scikit-learn

Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.

Решение задачи🔽

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загружаем данные
iris = load_iris()
X, y = iris.data, iris.target

# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.29K views18:07

Data Science | Machinelearning [ru]

⚙️

Как устроено глубокое обучение нейросетей

Эта статья не ответит на все вопросы, но мы пробежимся по всем основам глубокого машинного обучения, что бы создать примерную начальную картину без сильного углубления в детали.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1🔥1🐳1

2.28K views10:07

About

Blog

Apps

Platform