Hidden Heuristic

Новая хорошая статья вышла у Техножрицы. Ниже небольшой разбор философских последствий этой статьи 😆. Все текущие метрики оценки размерности (ID) языковых данных не могут оценить "IQ текста", поскольку максимальное значение значение они всегда достигают…

А какой из этого всего вывод?
Не очень понятно как бороться с AI slop, если у нас нет объективной метрики для отделения junk от выдающегося.

С технической точки зрения эффект слопа для текстов возникает из-за того что модели сэмплируют преимущественно top-k токенов - обрезанное распределение.
Соотвественно, у таких текстов больше предсказуемость и очень однообразная унылая стилистика без, как еще говорят, burstness. Еще исследователи все как один говорят, что при агрессивном обучении моделей на своих же данных будет происходить mode collapse.. Впрочем, это почему-то не мешает топовым ИИ-компаниям сейчас учить свои модели преимущественно на собственной синтетике..

А.. и еще когда вы видите маленькую SOTA языковую модель, то знайте - вы имеете дело с очень хитрым дистиллятом гораздо более крупных моделей. Классика жанра - SmolLM3 3B, она побеждает Qwen 2.5 3B. Почитать о том как мучительно делали эту невероятную модель можно здесь: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook

Одна проблема - ВСЕ mid-train, post-train, preference optimization данные были взяты с цепочек рассуждений других моделей.

Знакомьтесь:

Mid-train:

OpenThoughts3-1.2M: one of the highest-quality reasoning datasets, with 1.2M samples distilled from QwQ-32B, comprising 16.5B tokens.

Llama-Nemotron-Post-Training-Dataset:NVIDIA’s large-scale dataset of distilled from a wide variety of models such as Llama3 and DeepSeek-R1. We filtered the dataset for the DeepSeek-R1 outputs, which resulted in about 3.64M samples or 18.7B tokens.

Post-train (SFT):

Everyday conversations for Smol LLMs finetunings
This dataset contains 2.2k multi-turn conversations generated by Llama-3.1-70B-Instruct . We ask the LLM to generate a simple multi-turn conversation, with 3-4 short exchanges, between a User and an AI Assistant about a certain topic.

SystemChats 30k
This is a synthetic dataset designed for supervised finetuning (SFT) of LLMs. …. During the development of SmolLM2, we observed that models finetuned on public SFT datasets underperformed compared to other models with proprietary instruction datasets. To address this gap, we created new synthetic datasets that improve instruction following while covering diverse tasks including text editing, rewriting, summarization, and reasoning.

И несколько других синтетических тоже.

Может быть на стадии RL (точнее preference optimization) у них была не синтетика? Если бы:

Anchor Preference Optimization:

We used the prompts from Ai2’s Tulu 3 preference mixture to generate responses from Qwen3-0.6B and Qwen3-32B in the /think mode. The result was a large-scale dataset of 250k+ LLM-generated preferences, ready to simultaneously improve our SFT checkpoint across multiple axes using preference optimisation algorithms.

Слоп погоняет слопом. К словам , у больших компаний синтетика умнее, они ее создают из верифицируемых сред - решить кодовую тоску, решить интеграл итд. Плюс учат и на чатах, но фильтруют. И почему-то пока ничего никуда не схлопнулось..

Собственно, почему мало кто из инженеров, тренирующих небольшие LLM, верит в AGI? Ответ на поверхности: их задачи выглядит как инженерная сборка моделей из кучи мелких датасетов. Конечно, от такого никаким разумом не пахнет, потому что изолированное вкачивание навыков модельки не создает вайба g - generalization.
Правы ли скептики? Конечно, нет. Через 3 года мы будем точно также заниматься адаптацией под разные задачи еще более умных систем в более продвинутых обучающих пайплайнах. К слову, сдвиг в сторону усложнения уже пошел, тот же multi-turn RL с tool calling - уже новая веха, которой пару лет назад мы даже не могли себе представить. Инженерная профдеформация, конечно, будет многим компаниям думать о
AI Welfare как Anthropic, но по мере дальнейшего роста спектра способностей систем отрицать очевидное станет уже невозможно..

Так что же будет с AI slop? Как нам дотянуть модели до доказательства гипотезы Римана я могу примерно себе вообразить. А вот как модели смогут взять Пулитцеровскую премию - большой вопрос.

huggingface.co

The Smol Training Playbook - a Hugging Face Space by HuggingFaceTB

The secrets to building world-class LLMs

👍2🔥2💩2

182 viewsedited 20:04