Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Не бойтесь потоков в Python, они не кусаются

• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

• Семантический веб: краткий обзор технологий и инструментов

• Инструмент обеспечения качества данных: от теории к практике

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

2.02K views18:07

Data Science | Machinelearning [ru]

🧠 Как ML помогает физикам искать новые частицы

В 2025 году российские ученые стали лауреатами Breakthrough Prize — престижной научной премии за фундаментальные открытия. Выпускники ШАДа Яндекса и специалисты НИУ ВШЭ применили машинное обучение для анализа данных с Большого адронного коллайдера.

📊 Кейс про то, как алгоритмы (CatBoost, генеративные модели и др.) работают на границе физики и Вселенной и использовались в исследованиях лауреатов

Читать

❤7⚡4👎1

1.93K views07:07

Data Science | Machinelearning [ru]

⚙️

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

В статье разбирают основные методы генерации видео на основе текста (T2V): от адаптации T2I с AnimateDiff до новинок 2025 года вроде Wan2.1 и HunyuanVideo. Первая часть обзора

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.01K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Normalization of Numerical Data

Напишите функцию, которая принимает список чисел и нормализует его, преобразуя значения в диапазон от 0 до 1. Это полезно для подготовки данных перед обучением модели машинного обучения.

➡️ Функция работает следующим образом:

• Находит минимальное и максимальное значение в списке.

• Вычисляет нормализованное значение для каждого элемента по формуле: normalized = (𝑥 − min) / max − min)

• Возвращает новый список с нормализованными значениями.

Решение задачи🔽

def normalize(data):
min_val = min(data)
max_val = max(data)

# Избегаем деления на ноль, если все элементы равны
if max_val == min_val:
return [0.0] * len(data)

return [(x - min_val) / (max_val - min_val) for x in data]

# Примеры использования
data = [10, 20, 30, 40, 50]
print(normalize(data))
# Ожидаемый результат: [0.0, 0.25, 0.5, 0.75, 1.0]

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡2

1.9K views14:07

Data Science | Machinelearning [ru]

⚙️

Как я не дал ИИ сойти с ума: гайд по промптам и багам

В статье — почему нейросети галлюцинируют, примеры «дорогих» ошибок, и промпты для тех, кто работает с кодом, текстами и дизайном.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1👎1

1.97K views18:07

Data Science | Machinelearning [ru]

⚙️

Claude, есть пробитие: взламываем самую защищенную модель

В статье показывают, как обойти фильтры модели Claude с помощью модифицированного метода внедрения системных директив, чтобы заставить её выполнять запрещённые инструкции

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.05K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Что такое обучение с учителем (supervised learning) в ML?

Обучение с учителем — это тип машинного обучения, при котором модель обучается на размеченных данных.

Каждый пример содержит вход (features) и правильный ответ (label), который модель должна научиться предсказывать.

➡️

Пример:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression()
model.fit(X_train, y_train)

print("Предсказания:", model.predict(X_test[:5]))

🗣️ В этом примере модель обучается на данных о цветах и учится определять их вид (например, ирис сетоса).

Это классический пример классификации — подтипа обучения с учителем.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡2

2.13K views14:07

Data Science | Machinelearning [ru]

⚙️

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

В статье показывают, как и зачем использовать C++ в машинном обучении: распознавание лиц, объекты в реальном времени и прирост в производительности без питоньих зависимостей

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🐳2

2.06K views18:07

Data Science | Machinelearning [ru]

🧠 Как внедрять LLM?

Сейчас хайп вокруг чат-ботов стихает и фокус смещается в сторону внедрения LLM и решения прикладных задач для пользователей и бизнеса. Как именно внедрять LLM и какие Copilot-решения нужны бизнесу обсудят на Turbo ML Conf. Конфа пройдет 19 июля в Москве и объединит 35 докладчиков из российских бигтехов и топовых вузов.

📊 После деловой и теоретической программы гостей ждет практика в виде разных интерактивов, среди которых – диджитал-сканворды, демостенды, где можно посмотреть, что под капотом платформенных решений и диджей-сет. Онлайн-трансляции не будет, поэтому лучше заранее зарегистрироваться — количество мест на участие в конференции ограничено.

❤10👎2👍1🐳1

2.06K views07:07

Data Science | Machinelearning [ru]

⚙️

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1👍1👎1

2.07K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Оценка точности модели классификации (Accuracy Score)

Напишите функцию, которая вычисляет accuracy score — долю правильных предсказаний модели классификации. Это базовая метрика, часто используемая для оценки качества модели.

Функция работает следующим образом:

• Сравнивает каждую пару истинного (y_true) и предсказанного (y_pred) значения.

• Считает количество совпадений.

• Делит число правильных предсказаний на общее количество примеров

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
return correct / len(y_true)

# Примеры использования
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred))
# Ожидаемый результат: 0.8

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2⚡1

1.93K views14:07

Data Science | Machinelearning [ru]

1:23

This media is not supported in your browser

VIEW IN TELEGRAM

⚙️

Как работают рекомендательные системы и какое у них будущее

Рекомендательные системы в интернете работают уже так хорошо, что даже могут подсказать человеку скрытые интересы, о которых он сам не догадывается. Но рекомендации отчасти упёрлись в потолок. Что делать, чтобы дальнейший рост их качества не замедлялся, рассказал инженер рекомендательных систем Яндекса Николай Савушкин.

Смотреть в YouTube...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👎3🔥2

2.03K views15:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение в Apache Spark с помощью MLlib

Показываем, как применить MLlib из Apache Spark в своих проектах, и делимся советами, чтобы не сжечь кластеры раньше времени. Всё просто, даже если вы не Data Jedi.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡2

2.1K views18:07

Data Science | Machinelearning [ru]

⚙️

Что у меня за распределение

Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.91K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2

• Как строить карьеру в корпорации

• История: работа в чешском Red Hat

• Циничные заметки о карьере в IT от «гейткипера»

• Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1

1.91K views14:07

Data Science | Machinelearning [ru]

⚙️

Что такое токенизация в машинном обучении?

Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы.
Часто используется на этапе предобработки текста для NLP-моделей.

Каждый токен — это минимальная смысловая единица, которую модель будет анализировать.

➡️

Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели.
Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.13K views18:07

Data Science | Machinelearning [ru]

⚙️

Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025

В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2😁2

1.97K views10:07

Data Science | Machinelearning [ru]

🧠

Что делает train_test_split в ML и зачем он нужен

Функция train_test_split() из библиотеки sklearn разбивает данные на обучающую и тестовую выборки.

Это важно, чтобы проверить, как хорошо модель работает на невидимых данных.

➡️

Пример:

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

print("Обучение:", X_train)
print("Тест:", X_test)

🗣️ Почему важно:

• Модель не должна учиться на тех же данных, на которых её оценивают

• test_size указывает, какой процент данных пойдёт на тест

• random_state нужен для воспроизводимости

Это один из самых базовых, но обязательных шагов в любом ML-проекте

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡2

1.96K views14:07

Data Science | Machinelearning [ru]

👀

Stack Overflow умирает? Как ИИ вытесняет живые сообщества разработчиков

Разбираемся, почему Stack Overflow теряет аудиторию: виноваты ли ИИ, UX или жадность? Плюс — что делает администрация и что ждёт разработчиков в пост-SO эпоху.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👎2⚡1

2.13K views18:07

Data Science | Machinelearning [ru]

⚙️

Код, железо, стратегия: в чем секрет победителей ML-соревнований?

Разбор отчёта о соревнованиях по ML за 2024 год: кто победил, как и почему. Без мотивационных цитат — только конкретные приёмы, модели и стратегии, которые реально приносят $22 млн.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

2.02K views10:07

About

Blog

Apps

Platform