prompt space
464 subscribers
1.28K photos
170 videos
1.2K links
literally gaslight, gatekeep, girlboss LLM for a living

@spacemanka
Download Telegram
ИИ проектирует работающие физические эксперименты

ИИ уже предлагает экспериментальные схемы, которые проходят проверку и улучшают существующие установки.

На примере LIGO алгоритм сгенерировал конфигурацию с дополнительным трехкилометровым кольцом циркуляции света и показал потенциальный прирост чувствительности на 10–15 процентов.

В квантовой оптике программные методы нашли упрощенную схему перестановки запутанности, позже подтвержденную экспериментально в декабре 2024 года.

Модели также выявляют фундаментальные симметрии в данных Большого адронного коллайдера и выводят рабочие формулы для распределения темной материи.

https://www.wired.com/story/ai-comes-up-with-bizarre-physics-experiments-but-they-work/

https://www.quantamagazine.org/ai-comes-up-with-bizarre-physics-experiments-but-they-work-20250721/

@promptspace
1
Масштаб не определяет способности LLM

Практика показывает, что базовые возможности малых и сверхкрупных моделей часто сопоставимы.

Сравнение Qwen3 с 0,6 млрд параметров и Kimi K2 с 1 трлн параметров при разнице в 1666 раз фиксирует близкий уровень на простых задачах. Qwen3 быстрее решает утилитарные сценарии вроде парсинга и автоматизации в CLI-агентах. Kimi K2 устойчивее в работе с кодом: доля успешной компиляции около 89% против 72% у Qwen3 и среднее время исправления ошибок порядка 8,5 минуты против 22 минут.

На сложных задачах рассуждения обе модели остаются ограниченными, поэтому их применяют точечно по профилю сильных сторон.

Отрасль смещается к эффективности. В DeepSeek архитектура MoE дает общую емкость около 671 млрд параметров при активации примерно 37 млрд на шаг, что снижает вычислительные затраты при сохранении качества. В Gemma 3 оптимизируется память через скользящее окно 1024 токена и соотношение локального и глобального внимания 5:1. Mistral Small 3.1 с 24 млрд параметров обходит Gemma 3 с 27 млрд по скорости и ряду бенчмарков за счет собственного токенизатора и отказа от скользящего окна, что лучше раскрывается через FlashAttention.

Базовая архитектура GPT заметно не менялась около семи лет, основные улучшения приходятся на эффективность и инженерные оптимизации. Выбор модели превращается в выбор инструмента под задачу с приоритетом скорости, памяти или надежности.

@promptspace
1
Монетизация OpenAI

OpenAI рассматривает рекламу, ленты и транзакции как будущие источники дохода сверх подписок, сообщил глава ChatGPT Ник Тёрли.

Текущая модель опирается на платные тарифы, но компания изучает рекламу при сохранении качества взаимодействия с пользователями. Параллельно усиливается команда монетизации, включая привлечение экс-руководителей из индустрии.

В продукте сохраняется простота для большинства и гибкость для продвинутых пользователей, ожидается выбор моделей и настройка поведения ассистента. Растет фокус на корпоративных клиентах и партнерствах.

Чат рассматривается как промежуточный интерфейс. Команда готовит новые форматы взаимодействия, развивает маршрутизацию между сервисами и курс на интеграцию, мультимодальность и персонализацию.

https://www.theverge.com/decoder-podcast-with-nilay-patel/758873/chatgpt-nick-turley-openai-ai-gpt-5-interview

@promptspace
1
Гниение контекста в LLM реально: производительность моделей нелинейно и непредсказуемо падает по мере роста длины входа.

Команда Chroma протестировала 18 моделей в контролируемых условиях. Базой служил Needle in a Haystack с варьированием семантической близости между запросом и ответом и с добавлением отвлекающих факторов. Дополнительно применялись наборы вроде LongMemEval.

Семантическая зависимость усиливает деградацию. Когда требуется понимание смысла, а не совпадение слов, ошибки растут быстрее. Расширение запроса частично компенсирует эффект. Режимы пошагового рассуждения дают ограниченную прибавку и не устраняют проблему.

Выявлен парадокс структуры. На логически организованном тексте модели в среднем ошибаются сильнее, чем на случайно перемешанных предложениях. Разница достигает порядка 10–15 процентов.

Практические выводы прямые. Нужна инженерия контекста: важно не только что включать, но и как это подавать. Паспортная длина окна не гарантирует качество на больших объемах. Needle in a Haystack в одиночку не годится как полноценный бенчмарк. Ключевую информацию стоит выносить в начало и конец контекста.

Общий принцип прост. Контекст следует считать дефицитным ресурсом. Каждый лишний токен уменьшает шансы на точное понимание задачи.

https://www.youtube.com/watch?v=TUjQuC4ugak

https://research.trychroma.com/context-rot

@promptspace
1
ИИ в скрининге рака груди: второй читатель и более раннее выявление

Исследование в Нидерландах показало, что система ИИ при маммографическом скрининге способна выполнять роль второго читателя и повышать общую точность.

В радиологии широко применяется двойное чтение снимков двумя независимыми врачами для снижения ошибок. Алгоритм берет на себя функции второго мнения и в сумме улучшает распознавание патологий.

Отмечен эффект раннего выявления. Модель помечает очаги, которые врачи считают ложноположительными, но последующее наблюдение подтверждает развитие рака. По словам руководителя исследования Ритсе Манна, ИИ иногда указывает на изменения за 2–4 года до клинического подтверждения, что снижает риск прогрессирования и поражения лимфоузлов.

Результаты опубликованы в The Lancet Digital Health. Авторы ожидают клиническое внедрение в горизонте пяти лет при сохранении врачебного контроля и валидации на реальных потоках данных.

https://www.thelancet.com/journals/landig/article/PIIS2589-7500%2825%2900064-0/fulltext

@promptspace
1
Иерархическое рассуждение на 27 млн параметров

Модель Hierarchical Reasoning Model с 27 млн параметров обошла o3-mini на бенчмарке ARC-AGI-1.

Архитектура включает два рекуррентных модуля с разной скоростью обновления. Быстрый низкоуровневый решает локальные подзадачи, медленный высокоуровневый формирует для него цели и контекст.

Задача разбивается на циклы рассуждения. В каждом цикле верхний модуль обновляется один раз, нижний выполняет серию коротких шагов. Число итераций не фиксировано и выбирается моделью. Останавливаться в нужный момент она обучена с помощью методов подкрепления.

Обучение проводится по финальному состоянию без сохранения промежуточных траекторий. Такой режим упрощает оптимизацию рекуррентной архитектуры.

Достигнутые результаты особенно заметны на задачах типа судоку, лабиринтов и индуктивных схем, где стандартные LLM часто теряют качество. Отдельный разбор от команды ARC-AGI подтверждает корректность сравнения на их тестах.

https://arxiv.org/abs/2506.21734

@promptspace
1
Один запрос к Gemini: 0,24 Вт·ч, 0,26 мл воды и 0,03 г CO₂e

Google впервые раскрыл полные метрики: медианный текстовый запрос в Gemini в мае 2025 потребляет 0,24 Вт·ч, использует 0,26 мл воды и генерирует 0,03 г CO₂e.

Подсчет охватывает весь стек инфраструктуры, а не только ускорители. Включены энергия хоста с CPU и DRAM, доля простаивающих машин и накладные расходы дата-центров по PUE. Это делает оценку сопоставимой и снижает разброс с прежними «узкими» методиками.

За год с мая 2024 по май 2025 энергопотребление запроса снизилось в 33 раза, углеродный след уменьшился в 44 раза. Вклад дали оптимизации моделей и сервинга, повышение утилизации, эффективность дата-центров и закупка чистой энергии.

Для масштаба: 0,24 Вт·ч соответствует примерно девяти секундам просмотра ТВ, а 0,26 мл воды равны пяти каплям.

https://services.google.com/fh/files/misc/measuring_the_environmental_impact_of_delivering_ai_at_google_scale.pdf

@promptspace
GPT-5 сократила разрыв в задаче о выпуклости траектории градиентного спуска

GPT-5 за 17 минут предложила доказательство, повышающее нижнюю границу выпуклости кривой значений градиентного спуска до η < 1.5/L.

Постановка такова: для гладких выпуклых функций изучается выпуклость последовательности f(xₙ), возникающей при градиентном спуске с постоянным шагом. В ранней формулировке были известны два факта. При η ≤ 1/L кривая выпукла. При η > 1.75/L возможно нарушение выпуклости. Промежуток [1/L, 1.75/L] оставался открытым.

Сообщение об улучшении принадлежит инженеру OpenAI Себастьяну Бюбеку. Он передал модели текст статьи с открытым вопросом и получил корректное доказательство для порога η < 1.5/L. Верификация проводилась автором сообщения.

В обновленной версии самой статьи от 28 июня 2025 показана выпуклость уже для η ≤ 1.75/L, что закрывает исходный интервал. Результат модели встраивается в хронологию прогресса по задаче.

https://x.com/sebastienbubeck/status/1958198661139009862

https://arxiv.org/abs/2503.10138

@promptspace
ZenFlow: обучение LLM без простоев GPU

PyTorch представил ZenFlow, который сокращает простои GPU на 85% и ускоряет обучение в среднем в пять раз по сравнению с DeepSpeed ZeRO-Offload.

Проблема связана с offloading на CPU: медленная шина PCIe и вычисления на процессоре оставляют ускорители без работы, шаг обучения замедляется до десятикратных и более величин.

ZenFlow разделяет градиенты по важности. Ключевые обновляются немедленно на GPU, остальные обрабатываются асинхронно на CPU. Данные и вычисления перекрываются, поэтому GPU продолжают считать, пока CPU выполняет свою часть.

Нагрузка на PCIe снижается примерно вдвое. Качество сходимости и финальные метрики обучения сохраняются на уровне базовых конфигураций.

Итог простой: оффлоад становится почти «безостановочным», а использование вычислительных ресурсов выравнивается по всему контуру.

https://pytorch.org/blog/zenflow-stall-free-offloading-engine-for-llm-training/

@promptspace
AutoGLM-OS установил SOTA на OSWorld

AutoGLM-OS достиг 48,1% успешных выполнений на OSWorld, превзойдя OpenAI CUA 03 с 42,9%, UI-TARS-1.5 с 42,5% и Claude 4.0 Sonnet с 30,7%.

OSWorld — бенчмарк из 369 заданий для оценки многомодальных агентов в реальных системах Ubuntu, Windows и macOS. Задания охватывают работу с веб и десктопными приложениями, управление файлами и процессами. Для воспроизводимости заданы начальные состояния и скрипты оценки.

Агент построен на фреймворке COMPUTERRL и использует парадигму API-GUI. LLM автоматически анализирует примеры задач, генерирует API-код для стандартных приложений Ubuntu и базовые тесты, а для общих действий переключается на GUI. Абляционные эксперименты показывают рост успеха с 11,2% при чистом GUI до 26,2% при API-GUI.

Масштабируемая RL-инфраструктура реализована через qemu-in-docker для легковесных VM, gRPC для межузловой связи и асинхронный AgentRL. Это позволяет запускать тысячи параллельных сред для онлайн-обучения.

Стратегия обучения Entropulse чередует RL и SFT. Успешные траектории собираются в датасет для дообучения, что предотвращает коллапс энтропии без потери результатов. На базе GLM-4 9B это дало рост с 42,0% после первой RL-фазы до итоговых 48,1%.

https://arxiv.org/pdf/2508.14040

@promptspace
PPO масштабировался без потолка

OpenAI не столкнулась с пределом масштабирования при обучении Dota 2-агента на PPO.

По словам Грега Брокмана, команда наращивала вычислительные ресурсы и число сыгранных партий, а рейтинг агента стабильно рос. План заключался в том, чтобы довести базовый метод до предела и лишь затем искать новые алгоритмы, однако потолок не проявился.

Практический вывод подтвержден ретроспективой. Тот же PPO впоследствии применяли для обучения моделей следованию инструкциям, а современные модификации вроде GRPO используются для обучения агентов и схем рассуждения.

https://youtu.be/35ZWesLrv5A?si=SkGKileREuLDtETK

@promptspace
Альтман: дети не обгонят ИИ

Сэм Альтман заявил, что ни один ребёнок, рождённый сегодня, никогда не будет умнее искусственного интеллекта.

Заявление прозвучало на фоне его предыдущих оценок о масштабах рынка ИИ. Контекст высказывания усиливает внимание к темпам прогресса моделей и их сравнительной производительности в прикладных задачах.

В ряде экспериментальных сценариев модели уже демонстрируют высокие результаты в программировании и формальном решении задач. Публикации о недавних достижениях в математических бenchмарках поддерживают тезис о нарастающей вычислительной компетентности систем.

Тема переходит в плоскость практических последствий для образования и рынка труда. Дальнейшие выводы требуют системных метрик и независимой верификации результатов.

https://timesofindia.indiatimes.com/life-style/relationships/work/sam-altman-sparks-outrage-admits-openly-no-kid-born-today-will-ever-be-smarter-than-ai/articleshow/123429663.cms

@promptspace