Идеальный стартап

Что для ИИ ценнее, чем сам ИИ? Данные

Если подумать, ИИ — это просто алгоритм оптимизации: он пытается решить поставленную задачу, оптимизируя функцию потерь. Для LLM это предсказание следующего токена, для роботов на основе обучения с подкреплением – успешно засунуть куб в квадратное отверстие. При этом, ИИ требует больше одной демонстрации с коробкой чтобы успешно справиться с задачей.

Сегодня мы упираемся в потолок данных. OpenAI, Claude, Grok — все эти компании уже спарсили весь интернет, открытые и закрытые наборы данных. Это заметно по недавнему релизу GPT-5: да, кое-где добавили технические фишечки и выжали ещё +5–10% точности. Но это не тот большой скачок, который был между 3 и 4, и проблема становится ещё очевиднее. Какое решение? Синтетические данные!

И это нужно не только для робототехники или дронов. Смоделированные пользователи, инструменты, рынки позволяют создавать, а не просто собирать ситуации и данные. К примеру, AlphaGO была натренирована с помощью симуляции игры двух нейросетей и они оптимизировались на потенциально всех возможных партиях в игре, что позволило в итоге превзойти человека.

Недавние достижения в области игровых движков, создаваемых ИИ (например, Matrix Game), потенциально могут применяться не только в играх, но и является прочной базой для ИИ симуляций для роботехники. Ну и напоследок, вот что мы должны ждать от подобных движков:

– Fidelity (правдоподобие): насколько синтетика статистически и поведенчески похожа на реальность

– Coverage (покрытие хвостов): редкие/опасные/дорогие кейсы

– Controllability (управляемость): можно целенаправленно варьировать сложность/объекты/условия

– Diversity (разнообразие): достаточно ли в каждом сегменте данных

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

105 views15:41

About

Blog

Apps

Platform