🕵️ Mistral попались на читерстве (и это довольно забавно)
Ребята из Mistral попали в неловкую ситуацию - их уличили в том, что они тренировали свою модель на тестовых данных и копировали (дистиллировали) модели DeepSeek 🤖
Как это вообще заметили?
Многие пользователи давно подмечали странность: Mistral Small 3.2 пишет подозрительно похоже на DeepSeek V3. Не просто «в том же стиле», а прямо-таки копия манеры письма.
Для тех, кто не в теме: дистилляция в ИИ - это когда большая модель «учит» маленькую, передавая ей знания. Как старший брат объясняет младшему, как решать задачки, только в промышленных масштабах.
Доказательства налицо
Анализ их slop-профилей это окончательно подтвердил. Slop-профиль - это своего рода «отпечаток пальца» модели, показывающий её характерные особенности в генерации текста.
Особенно круто, что исследователи визуализировали связи между моделями в виде сети, а не привычного «древа родства». Такой подход лучше передаёт сложные и переплетённые связи между моделями - кто у кого «списывал» 📊
Мои мысли
С одной стороны, дистилляция - это нормальная практика в ML. С другой - когда делаешь это так очевидно и ещё тренируешься на тестовых данных... ну как-то неловко получается.
Хотя честно говоря, в нашей индустрии все друг у друга учатся. Вопрос только в том, насколько открыто об этом говорить 🤷♂️
#mistral #deepseek #llm
Ребята из Mistral попали в неловкую ситуацию - их уличили в том, что они тренировали свою модель на тестовых данных и копировали (дистиллировали) модели DeepSeek 🤖
Как это вообще заметили?
Многие пользователи давно подмечали странность: Mistral Small 3.2 пишет подозрительно похоже на DeepSeek V3. Не просто «в том же стиле», а прямо-таки копия манеры письма.
Для тех, кто не в теме: дистилляция в ИИ - это когда большая модель «учит» маленькую, передавая ей знания. Как старший брат объясняет младшему, как решать задачки, только в промышленных масштабах.
Доказательства налицо
Анализ их slop-профилей это окончательно подтвердил. Slop-профиль - это своего рода «отпечаток пальца» модели, показывающий её характерные особенности в генерации текста.
Особенно круто, что исследователи визуализировали связи между моделями в виде сети, а не привычного «древа родства». Такой подход лучше передаёт сложные и переплетённые связи между моделями - кто у кого «списывал» 📊
Мои мысли
С одной стороны, дистилляция - это нормальная практика в ML. С другой - когда делаешь это так очевидно и ещё тренируешься на тестовых данных... ну как-то неловко получается.
Хотя честно говоря, в нашей индустрии все друг у друга учатся. Вопрос только в том, насколько открыто об этом говорить 🤷♂️
#mistral #deepseek #llm
👍5🔥2