Заметки одного архитектора

🕵️ Mistral попались на читерстве (и это довольно забавно)

Ребята из Mistral попали в неловкую ситуацию - их уличили в том, что они тренировали свою модель на тестовых данных и копировали (дистиллировали) модели DeepSeek 🤖

Как это вообще заметили?

Многие пользователи давно подмечали странность: Mistral Small 3.2 пишет подозрительно похоже на DeepSeek V3. Не просто «в том же стиле», а прямо-таки копия манеры письма.
Для тех, кто не в теме: дистилляция в ИИ - это когда большая модель «учит» маленькую, передавая ей знания. Как старший брат объясняет младшему, как решать задачки, только в промышленных масштабах.

Доказательства налицо

Анализ их slop-профилей это окончательно подтвердил. Slop-профиль - это своего рода «отпечаток пальца» модели, показывающий её характерные особенности в генерации текста.
Особенно круто, что исследователи визуализировали связи между моделями в виде сети, а не привычного «древа родства». Такой подход лучше передаёт сложные и переплетённые связи между моделями - кто у кого «списывал» 📊

Мои мысли

С одной стороны, дистилляция - это нормальная практика в ML. С другой - когда делаешь это так очевидно и ещё тренируешься на тестовых данных... ну как-то неловко получается.

Хотя честно говоря, в нашей индустрии все друг у друга учатся. Вопрос только в том, насколько открыто об этом говорить 🤷‍♂️

#mistral #deepseek #llm

👍5🔥2

63 views11:31

About

Blog

Apps

Platform