Что для ИИ ценнее, чем сам ИИ? Данные
Если подумать, ИИ — это просто алгоритм оптимизации: он пытается решить поставленную задачу, оптимизируя функцию потерь. Для LLM это предсказание следующего токена, для роботов на основе обучения с подкреплением – успешно засунуть куб в квадратное отверстие. При этом, ИИ требует больше одной демонстрации с коробкой чтобы успешно справиться с задачей.
Сегодня мы упираемся в потолок данных. OpenAI, Claude, Grok — все эти компании уже спарсили весь интернет, открытые и закрытые наборы данных. Это заметно по недавнему релизу GPT-5: да, кое-где добавили технические фишечки и выжали ещё +5–10% точности. Но это не тот большой скачок, который был между 3 и 4, и проблема становится ещё очевиднее. Какое решение? Синтетические данные!
И это нужно не только для робототехники или дронов. Смоделированные пользователи, инструменты, рынки позволяют создавать, а не просто собирать ситуации и данные. К примеру, AlphaGO была натренирована с помощью симуляции игры двух нейросетей и они оптимизировались на потенциально всех возможных партиях в игре, что позволило в итоге превзойти человека.
Недавние достижения в области игровых движков, создаваемых ИИ (например, Matrix Game), потенциально могут применяться не только в играх, но и является прочной базой для ИИ симуляций для роботехники. Ну и напоследок, вот что мы должны ждать от подобных движков:
– Fidelity (правдоподобие): насколько синтетика статистически и поведенчески похожа на реальность
– Coverage (покрытие хвостов): редкие/опасные/дорогие кейсы
– Controllability (управляемость): можно целенаправленно варьировать сложность/объекты/условия
– Diversity (разнообразие): достаточно ли в каждом сегменте данных
Если подумать, ИИ — это просто алгоритм оптимизации: он пытается решить поставленную задачу, оптимизируя функцию потерь. Для LLM это предсказание следующего токена, для роботов на основе обучения с подкреплением – успешно засунуть куб в квадратное отверстие. При этом, ИИ требует больше одной демонстрации с коробкой чтобы успешно справиться с задачей.
Сегодня мы упираемся в потолок данных. OpenAI, Claude, Grok — все эти компании уже спарсили весь интернет, открытые и закрытые наборы данных. Это заметно по недавнему релизу GPT-5: да, кое-где добавили технические фишечки и выжали ещё +5–10% точности. Но это не тот большой скачок, который был между 3 и 4, и проблема становится ещё очевиднее. Какое решение? Синтетические данные!
И это нужно не только для робототехники или дронов. Смоделированные пользователи, инструменты, рынки позволяют создавать, а не просто собирать ситуации и данные. К примеру, AlphaGO была натренирована с помощью симуляции игры двух нейросетей и они оптимизировались на потенциально всех возможных партиях в игре, что позволило в итоге превзойти человека.
Недавние достижения в области игровых движков, создаваемых ИИ (например, Matrix Game), потенциально могут применяться не только в играх, но и является прочной базой для ИИ симуляций для роботехники. Ну и напоследок, вот что мы должны ждать от подобных движков:
– Fidelity (правдоподобие): насколько синтетика статистически и поведенчески похожа на реальность
– Coverage (покрытие хвостов): редкие/опасные/дорогие кейсы
– Controllability (управляемость): можно целенаправленно варьировать сложность/объекты/условия
– Diversity (разнообразие): достаточно ли в каждом сегменте данных
This media is not supported in your browser
VIEW IN TELEGRAM