Data Science | Machinelearning [ru]
20.1K subscribers
734 photos
52 videos
28 files
3.61K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin


РКН: https://vk.cc/cJPGXD
Download Telegram
📍 Авторский канал про вайбкодинг и разработку ИИ-агентов

➡️ Геныч.
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁2
Forwarded from xCode Journal
😭 Гендерный разрыв в IT никуда не делся

Исследование Selecty и hh․ru показало: >200 тыс. рублей в месяц получают 51,5% мужчин и только 34,8% женщин. В тестировании этот порог пробивают 60% парней и 45% девушек, а в бэкенде высокие доходы лишь у 26,5% разработчиц.

Почему так? Мужчины чаще забирают руководящие посты и сеньорские грейды.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Неочевидные подводные камни при использовании ансамблей моделей

Введение в ансамбли моделей
Ансамбли моделей — это мощный инструмент в арсенале дата-сайентиста. Их использование может значительно улучшить качество моделей за счет объединения нескольких слабых обучателей. Однако, не все так просто, как может показаться на первый взгляд.

Проблема переобучения
Один из ключевых вопросов, с которыми можно столкнуться при работе с ансамблями, — это переобучение. Когда ансамбль состоит из чрезмерно сложных моделей, он может адаптироваться к шуму в данных, что негативно скажется на его генерализации.

👉 Базовый пример использования ансамблей:


from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Загрузка данных
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Обучение модели
model = RandomForestClassifier(n_estimators=10)
model.fit(X_train, y_train)

# Оценка качества
accuracy = model.score(X_test, y_test)
print(f'Accuracy: {accuracy:.2f}')



👉 Проблема переобучения на ансамблях:


# Усложнение модели
model = RandomForestClassifier(n_estimators=100, max_depth=None)
model.fit(X_train, y_train)

# Проверка на тестовых данных
accuracy = model.score(X_test, y_test)
print(f'Overfitted Accuracy: {accuracy:.2f}')

# Проверка на обучающих данных
train_accuracy = model.score(X_train, y_train)
print(f'Train Accuracy: {train_accuracy:.2f}')



Влияние несбалансированных данных
Другой подводный камень заключается в том, что ансамбли могут быть чувствительны к несбалансированным данным, что может привести к тому, что ансамбль будет склоняться в пользу большинства.

👉 Влияние несбалансированных классов на ансамбли:


from imblearn.ensemble import BalancedRandomForestClassifier

# Балансировка данных напрямую в ансамбле
balanced_model = BalancedRandomForestClassifier(n_estimators=10)
balanced_model.fit(X_train, y_train)

balanced_accuracy = balanced_model.score(X_test, y_test)
print(f'Balanced Accuracy: {balanced_accuracy:.2f}')



Сложность интерпретации ансамблей
Еще одной сложностью является интерпретация результатов ансамблей. Они часто считаются черными ящиками, что осложняет объяснение их работы.

👉 Типичный анти-паттерн: попытка интерпретации без визуализации:


# Без применения инструментов интерпретации
# Попытка вручную разбираться в деревьях может быть неэффективной
# Альтернативы: SHAP, LIME
import shap
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values, X_test)



Заключение
Работа с ансамблями требует не только знаний о базовых принципах их работы, но и понимания возможных подводных камней. Следует всегда помнить о переобучении, учитывать баланс классов и применять соответствующие инструменты для интерпретации моделей. Только так можно максимально эффективно использовать ансамбли в реальных проектах.

TG: Data Science | Machinelearning [ru]
4👀1
Data Science | Machinelearning [ru] pinned «📍 Авторский канал про вайбкодинг и разработку ИИ-агентов ➡️ Геныч.»
Forwarded from xCode Journal
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Anthropic выпустили Code Review

Систему, которую в компании запускают почти на каждом PR. За последний год объём кода на инженера в Anthropic вырос примерно на 200%. При такой скорости неудивительно, что ревью стало узким местом.

Теперь Code Review автоматически проверяет PR: несколько ИИ-агентов параллельно ищут баги, перепроверяют результаты и ранжируют проблемы по серьёзности. Причем чем более объемным и сложным будет PR — тем больше агентов туда пойдет работать.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥1
Переоценка и ошибки в навыках Data Science инженеров в 2025 году

Изменения в подходах к оценке специалистов
В 2025 году индустрия Data Science столкнулась с важным вызовом: переоценка навыков инженеров. Область стремительно меняется, и требования к специалистам также эволюционируют. Компании всё чаще осознают необходимость уделять внимание не только техническим, но и более широким навыкам, таким как бизнес-ориентированное мышление и понимание этических аспектов использования данных.

Ключевые навыки, которые недооценивали
В прошлом многие специалисты фокусировались исключительно на технической стороне: разработке моделей, работе с big data и глубоком знании Python и R. Сегодня важнейшими становятся навыки интерпретации результатов, умение объяснять модели для менеджеров, а также интеграция моделей в бизнес-процессы компании. Неспособность понять и ощутить этот сдвиг может серьёзно ограничить карьерные возможности.

👉 В 2025 году увеличилось внимание к непрерывному обучению и адаптации специалистов в Data Science.
👉 Компании начали более интенсивно инвестировать в развитие навыков их сотрудников в области интерпретации и бизнес-аналитики.

❗️Адаптация к изменяющимся требованиям и расширение набора навыков имеют критическое значение для построения успешной карьеры в Data Science в 2025 году. Специалистам рекомендуется фокусироваться не только на развитии технической экспертизы, но и на понимании бизнес-ценности своих моделей и решений.

TG: Data Science | Machinelearning [ru]
3🔥3
Forwarded from xCode Journal
🤣 Что за дурацкие простые задачки?

💥 xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁35👍32
Forwarded from Геныч.
Недавно решил разобраться с фичей skills в Claude Code. Если коротко, это инструмент, который пришел на смену кастомным slash-командам и значительно расширяет их возможности.

В процессе изучения нашел несколько интересных моментов:

- Генерация маркетингового контента:
Анализирует приложение и помогает писать посты для продвижения, например для Хабра.

- Подбор свободных доменов:
Проверяет доступность доменов по теме проекта и предлагает варианты.

- Поиск потенциальных клиентов:
Помогает находить аудиторию, которой может быть интересен ваш продукт. Эту штуку я еще не тестил но звучит как магия.

- Улучшение фронтенда:
Помогает привести сгенерированный нейросетью фронтенд в более аккуратный и продакшен-подобный вид. Так как фронт это мое основное направление то эта штука это то что я протестил чуть больше. Разница в качестве генерируемого кода мне показалась довольно заметной.

Вообще про skills я слышал уже несколько раз, но игнорировал. Для работы мне обычно хватало базовых команд вроде проверки кода. На данный момент я еще продолжаю изучать этот инструмент но уже выглядит как что то довольно интересное.

👉 Геныч.
5
Станьте Deep Learning Engineer с дипломом 👍

Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы.
Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥

Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей».

По итогам обучения вы получите:

🎓 Диплом гособразца

Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».

💯 Практика

Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.

🙌🏽 Онлайн обучение

Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда.

Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning.

Что вы освоите:
🟠Создание и обучение нейросетей с нуля
🟠Компьютерное зрение (Computer Vision)
🟠NLP (обработка текста)
🟠Генеративные модели
🟠MLOps и продакшн-подход

🕖 Скорее записывайтесь, количество мест на поток ограничено!

Бронируйте место на курсе прямо сейчас и получите скидку 30%

😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from xCode Journal
🤣 Надёжность инфраструктуры 100%

💥 xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23
This media is not supported in your browser
VIEW IN TELEGRAM
OpenClaw + RL

Агенты OpenClaw адаптируются с помощью файлов памяти и навыков (skills), но веса базовой модели на самом деле не меняются.

Как OpenClaw-RL решает эту проблему?

Он оборачивает самостоятельно размещённую модель в API, совместимый с OpenAI, перехватывает живые диалоги из OpenClaw и обучает политику в фоновом режиме с помощью RL (обучения с подкреплением).

Архитектура полностью асинхронная. Это означает, что:

обработка запросов,

оценка награды (reward scoring),

и обучение

выполняются параллельно.

После завершения обучения веса модели "hot" подменяются (hot-swap) после каждого батча, при этом агент продолжает отвечать без остановки.

В настоящее время поддерживаются два режима обучения:

Binary RL (GRPO): модель награды оценивает каждый ход диалога как хороший, плохой или нейтральный. Эта скалярная награда используется для обновления политики через PPO-подобную функцию цели с клиппингом.

On-Policy Distillation: когда появляются конкретные исправления, например
"тебе нужно было сначала проверить тот файл",
эта обратная связь используется как более богатый направленный сигнал обучения на уровне токенов.


Когда стоит использовать OpenClaw-RL?

Честно говоря, большую часть поведения агента уже можно улучшить через более грамотный дизайн памяти и навыков.

Существующая экосистема навыков OpenClaw и созданные сообществом навыки самоулучшения покрывают широкий спектр задач без изменения весов модели.

Если агент постоянно забывает предпочтения пользователя - это проблема памяти.
Если он не знает, как обработать конкретный рабочий процесс - это проблема навыков.

Обе задачи решаются на уровне промптов и контекста.

RL становится действительно интересным, когда источник ошибки лежит глубже - в самом механизме рассуждения модели.

Например:

систематически плохой порядок выбора инструментов,

слабое многошаговое планирование,

неспособность правильно интерпретировать неоднозначные инструкции так, как ожидает конкретный пользователь.

Исследования в области agentic RL (например, ARTIST и Agent-R1) показывают, что такие поведенческие паттерны достигают потолка, если использовать только промпт-подходы. Особенно это заметно в сложных многошаговых задачах, где модели нужно:

восстанавливаться после ошибок инструментов,

или менять стратегию прямо во время выполнения.
Именно этот уровень и является целью OpenClaw-RL - и это ключевое отличие от того, что предлагает обычный OpenClaw.
4
Как бороться с переобучением в нейросетях

Переобучение — это момент, когда модель:
👉 отлично знает train
👉 и вообще не понимает реальный мир

Она запоминает, а не обобщает.
Разберём, как с этим бороться 👇

1. Больше данных (самый честный способ)

Чем больше данных — тем сложнее модели заучить шум.

Что можно сделать:
👉 собрать новые данные
👉 использовать data augmentation
👉 синтетически расширить выборку

В CV и NLP это часто даёт лучший эффект, чем любые трюки с архитектурой.

2. Regularization (штраф за “слишком умную” модель)

👉 L1 / L2 регуляризация
→ штрафуют большие веса

Интуитивно:
модель становится проще и меньше переобучается

3. Dropout — случайное “забывание” нейронов

Во время обучения случайные нейроны отключаются.

Что это даёт:
👉 модель не может опираться на конкретные нейроны
👉 учится быть более устойчивой

Обычно:
👉 0.2 – 0.5 dropout rate

4. Early Stopping — остановись вовремя

Следим за валидацией:

👉 train loss ↓
👉 val loss сначала ↓, потом ↑

Как только val начинает расти — останавливаем обучение

Это один из самых эффективных и недооценённых методов.

5. Упростить модель

Иногда решение самое простое:

👉 меньше слоёв
👉 меньше параметров
👉 проще архитектура

Большая модель = больше шанс переобучения.

6. Batch Normalization

Помогает:
👉 стабилизировать обучение
👉 немного снижает переобучение

Но это не silver bullet — скорее бонус.

7. Data Augmentation

Особенно важно для:

👉 CV (повороты, шум, кропы)
👉 NLP (перефразирование, замены)

Модель видит больше вариантов одного и того же объекта.

8. Правильная валидация

Если у тебя плохой split —
ты даже не поймёшь, что модель переобучилась.

Используй:
👉 train / val / test
👉 k-fold (если мало данных)

Главный инсайт

Переобучение — это не ошибка модели.

Это сигнал, что:
👉 либо мало данных
👉 либо модель слишком сложная
👉 либо процесс обучения настроен плохо

В одном предложении

Чтобы победить переобучение —
либо добавь информации (данные), либо убери сложность (модель).
🔥83👀1
Уверенное владение математическим аппаратом — ключевой фактор для решения сложных задач в Data Science, ML и других it-специальностях.

Преподаватели МФТИ и создатели проекта Popmath приглашают вас на бесплатный вебинар "Как выучить математику во взрослом возрасте?"

На вебинаре вы получите ответы на ключевые вопросы:

🔴 Прикладная математика: Какие разделы наиболее критичны для современных IT-специальностей

🔵 Эффективность обучения: Почему академический подход часто не работает и как выстроить процесс с максимальным КПД

🟠 Актуальные методики: Какие образовательные технологии позволяют в сжатые сроки восстановить и систематизировать знания

Дата: 23 марта
Время: 20:00 по МСК
Длительность: 1 час + ответы на вопросы

➡️ Для регистрации пишите нам!

или ознакомьтесь со страницей вебинара и оставьте заявку там

🔻 Всем участникам вебинара скидка 10% на 4-х месячный онлайн-курс "Математика с нуля для взрослых", который начнётся уже 26 марта🔺
🐳1
Секунда уверенности → полгода страданий
😁28
Forwarded from xCode Journal
CEO Y Combinator выкатил свой сетап для Claude Code

Это целая виртуальная команда из 10+ ролей, которая живёт внутри CLI. Теперь мы живем в реальности, где один человек гоняет 5–10 агентов параллельно: они пишут код, тесты, сами находят баги и фиксят их. У самого Гарри получается до 10–20к строк кода в день при работе «параллельно с CEO».

По факту это превращает Claude в управляемый софтверный завод с ролями, процессами и гейтами.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Большой шаг вперёд для синтеза речи

Компания Qwen выложила в open source новую TTS-модель, которая умеет:
🔘 клонировать голоса
🔘 создавать новые
🔘 и даже управлять подачей речи через обычный текст

Можно просто написать:
«Говори бодро, но с лёгкой ноткой волнения» — и модель реально так и сделает

И всё это без сложной настройки аудио и танцев с инженерией звука.
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥4
Внедрить ИИ в бизнес — миссия выполнима?
💯 Узнайте ответ 9 апреля на закрытой встрече для предпринимателей и специалистов по машинному обучению.

Selectel, GlowByte и Data Sapience проведут мероприятие для тех, кто хочет автоматизировать бизнес-процессы с помощью ИИ. В программе — дискуссии о машинном обучении, обсуждение реальных кейсов и рабочих задач с экспертами. А также ужин и полезные знакомства.

Смотреть программу 💡

9 апреля (чт), 18:00
📍 Москва, м. Динамо
Приходите, чтобы пообщаться со спикерами и получить экспертный разбор вашего кейса.

Участие бесплатное, Дождитесь подтверждения заявки. Регистрируйтесь по ссылке: https://slc.tl/wt88c

Реклама. АО "Селектел". erid:2W5zFJN4RKe
👎21
Forwarded from xCode Journal
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Откопали интерактивный визуализатор алгоритмов — algorithm-visualizer

Внутри 70+ алгоритмов на JavaScript, Java и C++. Так что просто запускаем их и смотрим за пошаговым выполнением кода.

Полезно при обучении.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3
Yandex B2B Tech объявила о старте грантовой программы для компаний, работающих с искусственным интеллектом.

Инициатива ориентирована на команды, которые создают цифровые продукты для внешнего рынка и планируют внедрить в них ИИ. Участникам предлагают финансирование до 1 млн рублей — эти средства можно направить на разработку ИИ-агентов и приложений на базе Yandex AI Studio в течение шести месяцев.

Помимо грантов, компании получают доступ к экспертной поддержке и помощи в продвижении. После окончания программы участникам предоставляется значительная скидка — до 70% — на использование платформы сроком до полугода.

В числе первых проектов:
R77.ai, автоматизирующий проверку документов для банков и страховых с помощью машинного обучения
Noumy.ai, разрабатывающий инструменты для анализа кандидатов и их поведения на интервью
— GO2AI, создающий ИИ-агентов для стратегического планирования и ускоряющий принятие решений с нескольких дней до часа
Дополнительно участники смогут рассчитывать на софинансирование маркетинговых активностей и размещение своих продуктов в маркетплейсе Yandex Cloud.
5👎2
Fine-tuning vs RAG: что эффективнее

Кажется, что есть два пути прокачать LLM:

👉 Fine-tuning — дообучить модель
👉 RAG (Retrieval-Augmented Generation) — дать доступ к базе знаний

И главный вопрос: что лучше?

Не существует «лучше». Есть «под задачу».
Разберёмся 👇

Что такое Fine-tuning?

Ты берёшь модель и доучиваешь её на своих данных.

Модель:
👉 меняет веса
👉 «запоминает» стиль, паттерны, формат

Это как переучить мозг модели.
Хорошо подходит для:
👉 кастомного тона (support, юрист, врач)
👉 форматирования ответов
👉 специфичных паттернов


Что такое RAG?

Ты не меняешь модель.
Ты даёшь ей доступ к внешним данным:

👉 запрос
👉 поиск по базе (vector DB)
👉 релевантные куски
👉 генерация ответа

Это как открыть шпаргалку перед ответом.
Хорошо подходит для:
👉 актуальной информации
👉 больших баз знаний
👉 документов, инструкций, FAQ


Где начинается реальная разница

1. Обновляемость
Fine-tuning → нужно переобучать
RAG → просто обновил базу

👉 если данные часто меняются — RAG выигрывает

2. Контроль над знаниями
Fine-tuning → знания «размазаны» в весах
RAG → ты точно знаешь источник

👉 RAG более контролируемый

3. Стоимость
Fine-tuning → дорого (обучение + инференс)
RAG → дешевле, но есть стоимость retrieval

4. Галлюцинации
Fine-tuning → может уверенно «врать»
RAG → опирается на документы

👉 RAG обычно надёжнее

5. Задержка (latency)
Fine-tuning → быстрее
RAG → медленнее (поиск + генерация)


Когда Fine-tuning лучше

👉 нужно изменить стиль / тон
👉 есть чёткие шаблоны ответов
👉 данные стабильны
👉 нужна минимальная задержка


Когда RAG лучше

👉 часто обновляемые данные
👉 большая база знаний
👉 требуется объяснимость
👉 важно снизить галлюцинации


Самый важный инсайт

Это не конкуренты. Это связка.
На практике делают так:

👉 Fine-tuning учит модель, как отвечать
👉 RAG даёт модели, что отвечать


В одном предложении

Fine-tuning меняет мозг модели,
RAG даёт ей память.
11