Почему GPT-5 обучался меньше, чем GPT-4.5
Меньше pre-training, больше post-training.
Обычно модели тратили в ~100 раз больше вычислений на предобучение, чем на дообучение.
В GPT-5 ситуация изменилась: масштабирование post-training оказалось выгоднее по качеству на доллар.
- Ключевые факты:
- GPT-5 учился на меньшей базе, но с сильным упором на дообучение.
- Методы reasoning-ориентированного post-training позволяют сократить предобучение примерно в 10 раз при сохранении качества.
- В 2024 году бюджет R&D-вычислений OpenAI был ~$5B, в 2025 вырос до ~$9B.
- Почему не масштабировали как GPT-4.5?
Для безопасного увеличения post-training нужны огромные датасеты задач, среда для RL и длинные циклы экспериментов. Из-за конкуренции OpenAI решила выпустить GPT-5 быстрее, «выжав» максимум из post-training на меньшей модели.
👉 Вероятно, GPT-6 вернётся к большему pre-training + post-training, чтобы раскрыть потенциал масштабирования.
🔬 Новый отчёт от Epoch AI: https://epoch.ai/gradient-updates/why-gpt5-used-less-training-compute-than-gpt45-but-gpt6-probably-wont
Меньше pre-training, больше post-training.
Обычно модели тратили в ~100 раз больше вычислений на предобучение, чем на дообучение.
В GPT-5 ситуация изменилась: масштабирование post-training оказалось выгоднее по качеству на доллар.
- Ключевые факты:
- GPT-5 учился на меньшей базе, но с сильным упором на дообучение.
- Методы reasoning-ориентированного post-training позволяют сократить предобучение примерно в 10 раз при сохранении качества.
- В 2024 году бюджет R&D-вычислений OpenAI был ~$5B, в 2025 вырос до ~$9B.
- Почему не масштабировали как GPT-4.5?
Для безопасного увеличения post-training нужны огромные датасеты задач, среда для RL и длинные циклы экспериментов. Из-за конкуренции OpenAI решила выпустить GPT-5 быстрее, «выжав» максимум из post-training на меньшей модели.
👉 Вероятно, GPT-6 вернётся к большему pre-training + post-training, чтобы раскрыть потенциал масштабирования.
🔬 Новый отчёт от Epoch AI: https://epoch.ai/gradient-updates/why-gpt5-used-less-training-compute-than-gpt45-but-gpt6-probably-wont
👍16❤7🔥5🤣3
Forwarded from Machinelearning
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия
⚡ Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- 💰 API подешевел более чем на 50%
📊 V3.1 пока ещё будет доступна до 15 октября 2025.
🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
@ai_machinelearning_big_data
#DeepSeek #AI #V32 #SparseAttention #LLM
⚡ Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- 💰 API подешевел более чем на 50%
📊 V3.1 пока ещё будет доступна до 15 октября 2025.
🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
@ai_machinelearning_big_data
#DeepSeek #AI #V32 #SparseAttention #LLM
❤2👍2🤔2
Media is too big
VIEW IN TELEGRAM
⚡️ Сэм Альтман о том, почему энергию на ИИ тратить необходимо
💡 Даже если ИИ будет потреблять сотни мегаватт или гигаватты, это оправдано, если он поможет открыть дешёвый и эффективный ядерный синтез и заменить тысячи ГВт углеродной генерации по всему миру.
🌍 «Мы обречены, если не найдём новые научные решения климатического кризиса. Без ИИ мы делаем это слишком медленно. Давайте попробуем с ним».
🔋 Альтман подчёркивает, что современные модели уже очень эффективны по метрике *watts per token* — и в сравнении с энергозатратами человека на размышления выглядят даже выгоднее.
📜 Он сравнил это с Google: в начале компанию критиковали за энергопотребление, но один поисковый запрос тратил куда меньше ресурсов, чем поездка в библиотеку.
👉 Если ИИ поможет найти дешёвый синтез, польза для климата многократно превысит его энергозатраты.
💡 Даже если ИИ будет потреблять сотни мегаватт или гигаватты, это оправдано, если он поможет открыть дешёвый и эффективный ядерный синтез и заменить тысячи ГВт углеродной генерации по всему миру.
🌍 «Мы обречены, если не найдём новые научные решения климатического кризиса. Без ИИ мы делаем это слишком медленно. Давайте попробуем с ним».
🔋 Альтман подчёркивает, что современные модели уже очень эффективны по метрике *watts per token* — и в сравнении с энергозатратами человека на размышления выглядят даже выгоднее.
📜 Он сравнил это с Google: в начале компанию критиковали за энергопотребление, но один поисковый запрос тратил куда меньше ресурсов, чем поездка в библиотеку.
👉 Если ИИ поможет найти дешёвый синтез, польза для климата многократно превысит его энергозатраты.
🤣28❤19👍10🌭3✍2🔥2
Ищете мощный сервер без переплаты?
Выгодное решение для обработки и анализа больших данных — выделенный сервер конфигурации AR45-NVMe от Selectel. Он подойдет для эффективной работы с многопоточностью и Python, R, Spark в рамках одной машины, а также машинного обучения на CPU.
Преимущества сервера:
- 16 высокочастотных ядер,
- Безлимитный интернет-трафик и приватная сеть — 1 Гбит/с,
- DDoS-защита, публичный IPv4, SLA — 99,8%,
- Автоустановка ОС и загрузка своих ISO-образов,
- Техподдержка 24/7 и замена комплектующих за 3 часа.
Закажите сервер конфигурации AR45-NVMe на сайте в несколько кликов: https://slc.tl/rurq6?erid=2W5zFK7J7NY
Выгодное решение для обработки и анализа больших данных — выделенный сервер конфигурации AR45-NVMe от Selectel. Он подойдет для эффективной работы с многопоточностью и Python, R, Spark в рамках одной машины, а также машинного обучения на CPU.
Преимущества сервера:
- 16 высокочастотных ядер,
- Безлимитный интернет-трафик и приватная сеть — 1 Гбит/с,
- DDoS-защита, публичный IPv4, SLA — 99,8%,
- Автоустановка ОС и загрузка своих ISO-образов,
- Техподдержка 24/7 и замена комплектующих за 3 часа.
Закажите сервер конфигурации AR45-NVMe на сайте в несколько кликов: https://slc.tl/rurq6?erid=2W5zFK7J7NY
🗿3😱1
⚡ Менять автоэнкодер в latent diffusion моделях проще, чем кажется.
🚀 DC-Gen — это новый фреймворк для ускорения диффузионных моделей после обучения.
Он переводит любую готовую модель в глубоко сжатое латентное пространство, снижая затраты и многократно ускоряя генерацию.
🔑 Основное
- Высокое разрешение без потерь качества
Версия DC-Gen-FLUX.1-Krea-12B выдаёт то же качество, что и оригинал, но работает в 53 раза быстрее на H100 при 4K.
С NVFP4 картинка 4K генерируется всего за 3.5 секунды на одной NVIDIA 5090 (20 шагов).
- 💸 Низкая стоимость адаптации
Перевод FLUX.1-Krea-12B в глубоко-сжатый автоэнкодер требует всего 40 GPU-дней на H100.
📄 Статья: https://arxiv.org/abs/2509.25180
💻 Код: https://github.com/dc-ai-projects/DC-Gen
🎨 Модели : https://huggingface.co/collections/dc-ai/dc-gen-6899bb095082244f396203e1
#diffusion #deeplearning #AI
🚀 DC-Gen — это новый фреймворк для ускорения диффузионных моделей после обучения.
Он переводит любую готовую модель в глубоко сжатое латентное пространство, снижая затраты и многократно ускоряя генерацию.
🔑 Основное
- Высокое разрешение без потерь качества
Версия DC-Gen-FLUX.1-Krea-12B выдаёт то же качество, что и оригинал, но работает в 53 раза быстрее на H100 при 4K.
С NVFP4 картинка 4K генерируется всего за 3.5 секунды на одной NVIDIA 5090 (20 шагов).
- 💸 Низкая стоимость адаптации
Перевод FLUX.1-Krea-12B в глубоко-сжатый автоэнкодер требует всего 40 GPU-дней на H100.
📄 Статья: https://arxiv.org/abs/2509.25180
💻 Код: https://github.com/dc-ai-projects/DC-Gen
🎨 Модели : https://huggingface.co/collections/dc-ai/dc-gen-6899bb095082244f396203e1
#diffusion #deeplearning #AI
🔥8❤3😁2🥰1🤝1