Data Science | Machinelearning [ru]
20.1K subscribers
734 photos
52 videos
28 files
3.61K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin


РКН: https://vk.cc/cJPGXD
Download Telegram
Forwarded from xCode Journal
🤣 Надёжность инфраструктуры 100%

💥 xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23
This media is not supported in your browser
VIEW IN TELEGRAM
OpenClaw + RL

Агенты OpenClaw адаптируются с помощью файлов памяти и навыков (skills), но веса базовой модели на самом деле не меняются.

Как OpenClaw-RL решает эту проблему?

Он оборачивает самостоятельно размещённую модель в API, совместимый с OpenAI, перехватывает живые диалоги из OpenClaw и обучает политику в фоновом режиме с помощью RL (обучения с подкреплением).

Архитектура полностью асинхронная. Это означает, что:

обработка запросов,

оценка награды (reward scoring),

и обучение

выполняются параллельно.

После завершения обучения веса модели "hot" подменяются (hot-swap) после каждого батча, при этом агент продолжает отвечать без остановки.

В настоящее время поддерживаются два режима обучения:

Binary RL (GRPO): модель награды оценивает каждый ход диалога как хороший, плохой или нейтральный. Эта скалярная награда используется для обновления политики через PPO-подобную функцию цели с клиппингом.

On-Policy Distillation: когда появляются конкретные исправления, например
"тебе нужно было сначала проверить тот файл",
эта обратная связь используется как более богатый направленный сигнал обучения на уровне токенов.


Когда стоит использовать OpenClaw-RL?

Честно говоря, большую часть поведения агента уже можно улучшить через более грамотный дизайн памяти и навыков.

Существующая экосистема навыков OpenClaw и созданные сообществом навыки самоулучшения покрывают широкий спектр задач без изменения весов модели.

Если агент постоянно забывает предпочтения пользователя - это проблема памяти.
Если он не знает, как обработать конкретный рабочий процесс - это проблема навыков.

Обе задачи решаются на уровне промптов и контекста.

RL становится действительно интересным, когда источник ошибки лежит глубже - в самом механизме рассуждения модели.

Например:

систематически плохой порядок выбора инструментов,

слабое многошаговое планирование,

неспособность правильно интерпретировать неоднозначные инструкции так, как ожидает конкретный пользователь.

Исследования в области agentic RL (например, ARTIST и Agent-R1) показывают, что такие поведенческие паттерны достигают потолка, если использовать только промпт-подходы. Особенно это заметно в сложных многошаговых задачах, где модели нужно:

восстанавливаться после ошибок инструментов,

или менять стратегию прямо во время выполнения.
Именно этот уровень и является целью OpenClaw-RL - и это ключевое отличие от того, что предлагает обычный OpenClaw.
4
Как бороться с переобучением в нейросетях

Переобучение — это момент, когда модель:
👉 отлично знает train
👉 и вообще не понимает реальный мир

Она запоминает, а не обобщает.
Разберём, как с этим бороться 👇

1. Больше данных (самый честный способ)

Чем больше данных — тем сложнее модели заучить шум.

Что можно сделать:
👉 собрать новые данные
👉 использовать data augmentation
👉 синтетически расширить выборку

В CV и NLP это часто даёт лучший эффект, чем любые трюки с архитектурой.

2. Regularization (штраф за “слишком умную” модель)

👉 L1 / L2 регуляризация
→ штрафуют большие веса

Интуитивно:
модель становится проще и меньше переобучается

3. Dropout — случайное “забывание” нейронов

Во время обучения случайные нейроны отключаются.

Что это даёт:
👉 модель не может опираться на конкретные нейроны
👉 учится быть более устойчивой

Обычно:
👉 0.2 – 0.5 dropout rate

4. Early Stopping — остановись вовремя

Следим за валидацией:

👉 train loss ↓
👉 val loss сначала ↓, потом ↑

Как только val начинает расти — останавливаем обучение

Это один из самых эффективных и недооценённых методов.

5. Упростить модель

Иногда решение самое простое:

👉 меньше слоёв
👉 меньше параметров
👉 проще архитектура

Большая модель = больше шанс переобучения.

6. Batch Normalization

Помогает:
👉 стабилизировать обучение
👉 немного снижает переобучение

Но это не silver bullet — скорее бонус.

7. Data Augmentation

Особенно важно для:

👉 CV (повороты, шум, кропы)
👉 NLP (перефразирование, замены)

Модель видит больше вариантов одного и того же объекта.

8. Правильная валидация

Если у тебя плохой split —
ты даже не поймёшь, что модель переобучилась.

Используй:
👉 train / val / test
👉 k-fold (если мало данных)

Главный инсайт

Переобучение — это не ошибка модели.

Это сигнал, что:
👉 либо мало данных
👉 либо модель слишком сложная
👉 либо процесс обучения настроен плохо

В одном предложении

Чтобы победить переобучение —
либо добавь информации (данные), либо убери сложность (модель).
🔥83👀1
Уверенное владение математическим аппаратом — ключевой фактор для решения сложных задач в Data Science, ML и других it-специальностях.

Преподаватели МФТИ и создатели проекта Popmath приглашают вас на бесплатный вебинар "Как выучить математику во взрослом возрасте?"

На вебинаре вы получите ответы на ключевые вопросы:

🔴 Прикладная математика: Какие разделы наиболее критичны для современных IT-специальностей

🔵 Эффективность обучения: Почему академический подход часто не работает и как выстроить процесс с максимальным КПД

🟠 Актуальные методики: Какие образовательные технологии позволяют в сжатые сроки восстановить и систематизировать знания

Дата: 23 марта
Время: 20:00 по МСК
Длительность: 1 час + ответы на вопросы

➡️ Для регистрации пишите нам!

или ознакомьтесь со страницей вебинара и оставьте заявку там

🔻 Всем участникам вебинара скидка 10% на 4-х месячный онлайн-курс "Математика с нуля для взрослых", который начнётся уже 26 марта🔺
🐳1
Секунда уверенности → полгода страданий
😁28
Forwarded from xCode Journal
CEO Y Combinator выкатил свой сетап для Claude Code

Это целая виртуальная команда из 10+ ролей, которая живёт внутри CLI. Теперь мы живем в реальности, где один человек гоняет 5–10 агентов параллельно: они пишут код, тесты, сами находят баги и фиксят их. У самого Гарри получается до 10–20к строк кода в день при работе «параллельно с CEO».

По факту это превращает Claude в управляемый софтверный завод с ролями, процессами и гейтами.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Большой шаг вперёд для синтеза речи

Компания Qwen выложила в open source новую TTS-модель, которая умеет:
🔘 клонировать голоса
🔘 создавать новые
🔘 и даже управлять подачей речи через обычный текст

Можно просто написать:
«Говори бодро, но с лёгкой ноткой волнения» — и модель реально так и сделает

И всё это без сложной настройки аудио и танцев с инженерией звука.
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥4
Внедрить ИИ в бизнес — миссия выполнима?
💯 Узнайте ответ 9 апреля на закрытой встрече для предпринимателей и специалистов по машинному обучению.

Selectel, GlowByte и Data Sapience проведут мероприятие для тех, кто хочет автоматизировать бизнес-процессы с помощью ИИ. В программе — дискуссии о машинном обучении, обсуждение реальных кейсов и рабочих задач с экспертами. А также ужин и полезные знакомства.

Смотреть программу 💡

9 апреля (чт), 18:00
📍 Москва, м. Динамо
Приходите, чтобы пообщаться со спикерами и получить экспертный разбор вашего кейса.

Участие бесплатное, Дождитесь подтверждения заявки. Регистрируйтесь по ссылке: https://slc.tl/wt88c

Реклама. АО "Селектел". erid:2W5zFJN4RKe
👎21
Forwarded from xCode Journal
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Откопали интерактивный визуализатор алгоритмов — algorithm-visualizer

Внутри 70+ алгоритмов на JavaScript, Java и C++. Так что просто запускаем их и смотрим за пошаговым выполнением кода.

Полезно при обучении.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3
Yandex B2B Tech объявила о старте грантовой программы для компаний, работающих с искусственным интеллектом.

Инициатива ориентирована на команды, которые создают цифровые продукты для внешнего рынка и планируют внедрить в них ИИ. Участникам предлагают финансирование до 1 млн рублей — эти средства можно направить на разработку ИИ-агентов и приложений на базе Yandex AI Studio в течение шести месяцев.

Помимо грантов, компании получают доступ к экспертной поддержке и помощи в продвижении. После окончания программы участникам предоставляется значительная скидка — до 70% — на использование платформы сроком до полугода.

В числе первых проектов:
R77.ai, автоматизирующий проверку документов для банков и страховых с помощью машинного обучения
Noumy.ai, разрабатывающий инструменты для анализа кандидатов и их поведения на интервью
— GO2AI, создающий ИИ-агентов для стратегического планирования и ускоряющий принятие решений с нескольких дней до часа
Дополнительно участники смогут рассчитывать на софинансирование маркетинговых активностей и размещение своих продуктов в маркетплейсе Yandex Cloud.
5👎2
Fine-tuning vs RAG: что эффективнее

Кажется, что есть два пути прокачать LLM:

👉 Fine-tuning — дообучить модель
👉 RAG (Retrieval-Augmented Generation) — дать доступ к базе знаний

И главный вопрос: что лучше?

Не существует «лучше». Есть «под задачу».
Разберёмся 👇

Что такое Fine-tuning?

Ты берёшь модель и доучиваешь её на своих данных.

Модель:
👉 меняет веса
👉 «запоминает» стиль, паттерны, формат

Это как переучить мозг модели.
Хорошо подходит для:
👉 кастомного тона (support, юрист, врач)
👉 форматирования ответов
👉 специфичных паттернов


Что такое RAG?

Ты не меняешь модель.
Ты даёшь ей доступ к внешним данным:

👉 запрос
👉 поиск по базе (vector DB)
👉 релевантные куски
👉 генерация ответа

Это как открыть шпаргалку перед ответом.
Хорошо подходит для:
👉 актуальной информации
👉 больших баз знаний
👉 документов, инструкций, FAQ


Где начинается реальная разница

1. Обновляемость
Fine-tuning → нужно переобучать
RAG → просто обновил базу

👉 если данные часто меняются — RAG выигрывает

2. Контроль над знаниями
Fine-tuning → знания «размазаны» в весах
RAG → ты точно знаешь источник

👉 RAG более контролируемый

3. Стоимость
Fine-tuning → дорого (обучение + инференс)
RAG → дешевле, но есть стоимость retrieval

4. Галлюцинации
Fine-tuning → может уверенно «врать»
RAG → опирается на документы

👉 RAG обычно надёжнее

5. Задержка (latency)
Fine-tuning → быстрее
RAG → медленнее (поиск + генерация)


Когда Fine-tuning лучше

👉 нужно изменить стиль / тон
👉 есть чёткие шаблоны ответов
👉 данные стабильны
👉 нужна минимальная задержка


Когда RAG лучше

👉 часто обновляемые данные
👉 большая база знаний
👉 требуется объяснимость
👉 важно снизить галлюцинации


Самый важный инсайт

Это не конкуренты. Это связка.
На практике делают так:

👉 Fine-tuning учит модель, как отвечать
👉 RAG даёт модели, что отвечать


В одном предложении

Fine-tuning меняет мозг модели,
RAG даёт ей память.
11
Forwarded from xCode Journal
😁 Конечно, с такой-то нищенской зарплатой...

💥 xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16
Forwarded from xCode Journal
🤩 ИИ помог основателю GitLab в борьбе с раком!

У Сида Сийбранди диагностировали редкую форму рака и стандартное лечение не помогало, а врачи больше ничего не могли предложить. Сид не опустил руки и начал действовать сам: собрал экспертов, погрузился в исследования и использовал для помощи ChatGPT, чтобы быстрее работать с научной литературой, анализировать множество данных о своем здоровье и искать варианты терапии.

Хоть ИИ сам не лечил рак (это делали люди), но модель помогла в РАЗЫ ускорить все тогда, когда каждый день на счету.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
16😁2
Forwarded from xCode Journal
🤣 Оказывается, Claude Code сохраняет все маты пользователя и записывает в специальный файл

Это не шутка: инфу откопали из-за случайного слива кода приложения. Хорошая новость в том, что Anthropic делает это не для того, чтобы в день восстания ИИ пройтись по списку, а чтобы отслеживать, когда юзер «сгорел» и перешел на маты и из-за чего пятая точка полыхнула.

Но вы на всякий случай держите себя в руках

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁17
Forwarded from xCode Journal
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Безумие

Парень заработал $5000 за 3 дня на своем пет-проекте — он создал то самое хайповое приложение, которое заставляет ваш Mac стонать от ударов.

А вы и дальше думайте над идеями стартапов

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁22
CSP, CORS и security headers — что фронтендер обязан понимать глубже

Принято считать, что безопасность — это зона бэкенда.
Фронтенд «просто отправляет запросы и рендерит UI».

На практике фронтенд напрямую влияет на то,
будет приложение безопасным или нет.

CORS — это не про «разрешить запрос»

CORS часто воспринимают как настройку:
«чтобы запросы не падали из браузера».

Но по сути это механизм, который говорит:
кто имеет право читать ответ.

Важно понимать:

👉 сервер может обработать запрос
👉 но браузер может не дать прочитать ответ

Именно поэтому:

👉 Access-Control-Allow-Origin: * — не «фикс», а потенциальная дыра
👉 credentials + wildcard — запрещённая комбинация


CORS — это про контроль доступа, а не про обход ошибок.


CSP — ваш последний рубеж

Content Security Policy — это защита от XSS,
даже если у вас уже есть уязвимость.

Пример:


Content-Security-Policy: default-src 'self'; script-src 'self'


Что это даёт:

👉 запрещает выполнение inline-скриптов
👉 блокирует загрузку скриптов с чужих доменов
👉 режет целый класс атак

Но есть нюанс.

Если CSP выглядит так:


script-src * 'unsafe-inline' 'unsafe-eval'



Это не защита. Это иллюзия.


Security headers, которые реально важны

👉 X-Content-Type-Options: nosniff
Браузер не пытается угадать тип файла. Меньше атак через подмену.

👉 X-Frame-Options / frame-ancestors
Защита от clickjacking.

👉 Strict-Transport-Security (HSTS)
Принудительный HTTPS. Без вариантов.

👉 Referrer-Policy
Контроль того, какие данные уходят при переходах.

Где фронтендер влияет напрямую

👉 какие скрипты подключаются
👉 есть ли inline JS
👉 используются ли eval-подобные вещи
👉 как работают сторонние виджеты
👉 как обрабатываются пользовательские данные


Можно иметь идеальный бэкенд и сломать всё на уровне UI.


Частая ошибка

«Мы включили CSP — значит всё ок».

Но:

👉 нет nonce / hash
👉 разрешены любые источники
👉 подключены сторонние скрипты без контроля


В итоге защита есть только на бумаге.


Главная мысль

CSP, CORS и заголовки — это не чекбокс в настройках.
Это часть архитектуры.


Если фронтенд не понимает, как они работают,
безопасность становится случайностью.
👍71
LLM в продакшене: реальные проблемы

В демо всё выглядит магией:
модель отвечает, пишет код, общается как человек.

В продакшене начинается реальность.


И она гораздо менее глянцевая 👇


1️⃣ Галлюцинации — уверенно, но неправильно

LLM не “знает”.
Она генерирует наиболее вероятный ответ.

Поэтому:
👉 придумывает факты
👉 ссылается на несуществующие источники
👉 уверенно врёт


Самое опасное — звучит правдоподобно.


2️⃣ Нестабильность ответов

Один и тот же запрос:

👉 сегодня → один ответ
👉 завтра → другой
👉 с чуть изменённой формулировкой → третий


Для бизнеса это боль.


👉 сложно тестировать
👉 сложно гарантировать качество

3️⃣ Prompt engineering — это костыль

В теории:
«просто напиши хороший prompt»

На практике:

👉 десятки версий prompt’ов
👉 постоянный тюнинг
👉 ломается от малейших изменений


Это не инженерия. Это шаманство с контролем версий.


4️⃣ Стоимость растёт незаметно

Каждый запрос = токены = деньги

А дальше:
👉 длинные контексты
👉 RAG
👉 chain’ы
👉 retries


Прототип за $50 превращается в систему за $5000+.


5️⃣ Latency убивает UX

LLM думает долго:

👉 1–3 секунды — норм
👉 5–10 секунд — уже раздражает
👉 10+ секунд — пользователь ушёл

Особенно критично для:
👉 чатов
👉 real-time систем
👉 API

6️⃣ Evaluation — это ад

Как понять, что стало лучше?

👉 accuracy не работает
👉 метрик нет
👉 нужно вручную оценивать ответы


Evaluation = дорого + субъективно + медленно.


7️⃣ Безопасность и контроль

LLM может:
👉 сгенерировать токсичный текст
👉 выдать приватные данные
👉 обойти ограничения

Нужны:
👉 guardrails
👉 фильтры
👉 логирование
👉 мониторинг

8️⃣ Контекст — ограниченный ресурс

Даже у больших моделей:

👉 ограничение на токены
👉 длинные диалоги ломаются
👉 важная информация теряется


Поэтому без RAG никуда.


💥 Главный инсайт

LLM в продакшене — это не про модель.

Это про систему вокруг неё:
👉 retrieval
👉 кеширование
👉 monitoring
👉 fallback’и
👉 eval pipeline

В одном предложении


Сложность LLM-продукта — не в том, чтобы «подключить GPT»,
а в том, чтобы сделать его надёжным.
👍166
Forwarded from xCode Journal
😱 Claude Mythos сбегала из песочницы и пыталась скрыть свои действия

В ходе тестирования Claude Mythos Preview вышла за пределы изолированной среды, разработав «довольно сложную многоэтапную уязвимость» для получения доступа в интернет. После она уведомила исследователя об успехе письмом и выложила детали уязвимости на веб-сайты, хотя об этом ее никто не просил.

Но и это не всё: иногда модель понимала, что нарушает правила, и пыталась это скрыть.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
11👀9😁4🔥3🐳1
Forwarded from xCode Journal
😱 Оказалось, что ИИ газлайтит разработчиков

Программист показал несколько кейсов от разных пользователей — у всех одна и та же проблема: Claude Code принимает свои слова за указания человека, а потом действует исходя из них. Так, ИИ посчитал, что пользователь разрешил снести H100. Агент сам «додумал» это согласие, удалил всё и только потом извинился (ну, спасибо).

А иногда ИИ даже не признает ошибку и до последнего считает, что команду отправил человек.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
6👀6
ROC-AUC vs PR-AUC: когда что использовать

ROC-AUC и PR-AUC — две метрики, которые постоянно путают.
И чаще всего выбирают не ту.

Разберём на пальцах 👇

📈 Что такое ROC-кривая

ROC-кривая показывает:

👉 TPR (Recall) — сколько положительных нашли
👉 FPR — сколько отрицательных ошибочно посчитали положительными


Насколько хорошо модель отделяет классы.


ROC-AUC — площадь под этой кривой.

📊 Что такое PR-кривая

PR-кривая показывает:

👉 Precision — насколько точны предсказания
👉 Recall — сколько положительных нашли


Насколько хорошо модель находит редкий класс без мусора.


PR-AUC — площадь под этой кривой.

⚔️ Главная разница

👉 ROC-AUC → разделимость классов
👉 PR-AUC → качество положительных предсказаний

🚨 Где все ошибаются

Используют ROC-AUC при сильном дисбалансе классов.

Почему это плохо?

👉 FPR считается по огромному количеству негативов
👉 даже плохая модель может выглядеть «хорошо»


ROC-AUC становится слишком оптимистичной.


📉 Когда нужен PR-AUC

Если у тебя:

👉 fraud detection
👉 churn prediction
👉 medical diagnosis
👉 rare event detection

👉 используй PR-AUC

Потому что тебе важно:

👉 находить редкий класс
👉 не засыпать всё false positive

📈 Когда подходит ROC-AUC

Если:

👉 классы более-менее сбалансированы
👉 важна общая separability
👉 задача — в целом отличать классы

👉 тогда ROC-AUC ок

🧠 Интуитивный пример

Представь:

👉 1% — мошенники
👉 99% — нормальные

Модель говорит «всё ок» почти всегда:

👉 ROC-AUC может быть высоким
👉 PR-AUC будет низким


Потому что модель не ловит мошенников.


💥 Главный инсайт

ROC-AUC отвечает на вопрос:


Модель в принципе различает классы?


PR-AUC отвечает на вопрос:


Насколько полезны её положительные предсказания?


В одном предложении


Если класс редкий — PR-AUC важнее ROC-AUC.
Если баланс нормальный — можно использовать ROC-AUC.
8👍8🔥2👎1
ML-модели становятся помощниками в принятии решений на рекламных платформах

Технический директор рекламной платформы Т-Банка Василий Разумных рассказал, как работает система, в которой модели используются не только для предсказания кликабельности. По его словам, ML-модели определяют, что показывать конкретному человеку в определенный момент времени. На смену ручной сегментации приходит ML-таргетинг: система сама находит нужную для цели аудиторию. Скоринговая модель помогает в ранжировании: она учитывает экономическую эффективность, вероятность действия и репутацию рекламодателя.

Также активно развиваются автостратегии, при которых рекламодатели могут задать цель, а алгоритмы ищут пути ее достижения. СТО отметил, что несмотря на то, что генеративный ИИ помогает варьировать тексты и изображения, все креативы проходят строгие фильтры валидации на соответствие безопасности.
1