шось про ai

AI progress is about to speed up
by Ege Erdil from Epoch AI

Почитав цікавий пост, що варто очікувати в 2025 в AI філді і чому розвиток ллмок значно прискориться.

Чому:

GPT-4 в березні 2023 був революційним: 10x компьют скейл ап порівняно з попередніми моделями. Після цього всі топові моделі (крім Grok 3) тренувались з компьют бюджетом як у GPT-4 або менше. Наприклад, Dario Amodei (ceo Anthropic) казав, що Claude 3.5 Sonnet коштував десятки мільйонів доларів (це приблизно 2x компьюту від GPT-4). Але починаючи з Grok 3, нове покоління моделей буде тренуватись на ~100K H100s. Це дасть 10-100x компью скейлу порівняно з GPT-4, особливо для різонінг RL трейну.

Чому раніше була стагнація:

Здебільшого це тому, що AI лаби чекали покращення алгоритмів, треба був час на хардвар оптимізації, складно було організувати доступ до такої кількості гпу, клауд провайдери повинні були побудувати більші датацентри.

Кейс з Grok 3:

Це перша next gen модель з таким скейлом, але геп між нею і Claude 3.5 Sonnet менший, ніж був між GPT-4 і GPT-3.5, це тому, що xAI відстає в своїх алгоритмах від OpenAI/Anthropic/Google. Однак, сам факт, що Grok 3 показує мінінгфул покращення над Grok 2 (який був на рівні GPT-4 по компьюту), говорить що скейлінг працює.

Що це значить для користувачів:

- API ціни виростуть в 2-3x
- Швидкість інференсу впаде приблизно в 2x на старті
- Але це покращиться протягом року завдяки новому хардверу та алгоритмам

Що очікувати по юзкейсам:

- Programming: рівень кіборг людей в компететів програмінг, SWEBench ~90%, але складні проєкти все ще проблема
- Math: FrontierMath ~75%, вже реальна допомога в ресьорчі, але не самостійні відкриття
- Agents: прогрес в простих задачах (букінг, парсинг, пошук, ресьорч) - тобто оператор на o3 буде вже прям дуже гарним, а далі взагалі буде вирішувати всі ваші запити)

Здебільшого варто очікувати набагато довший контекст який модельки зможуть хавати, кращу агентність, планінг, різонінг і оце все, що ми так любимо в агентах.

Думаю з цим такі тули як курсор стануть ще більш корисними, так, ми не зможемо писати великі проекти з нуля, але думаю продукти будуть ітеруватись 2х-3х швидше. То виходить кінець 2025 можливо буде відчуватись як політ на луну, а 2026, можливо, як на марс)

Статтю можна почитати тут: лінк
Ще раджу глянути ці дві:
Trends in GPU Price-Performance
Moravec’s paradox and its implications

👍8🔥2🥰1

419 views22:19