Система DeepMind автономно решила еще 9 задач Эрдеша
Стоимость решения каждой задачи составила всего несколько сотен долларов. Но есть нюанс: на самом деле DeepMind прогоняли через агента все 353 формализованные открытые задачи Эрдеша и сожгли гораздо больше ресурсов. Решение останавливали, если агент выходил за рамки 3000 итераций, и в итоге полностью решенных задач оказалось 9.
Статья с заявлением: arxiv.org/pdf/2605.22763v1. Здесь подробно описана архитектура самого агента AlphaProof Nexus, решившего задачи.
В базовом варианте это просто итерационный процесс: агент генерирует доказательство -> отправляет его на формальную проверку в Lean -> анализирует ошибки и пробует снова. Поверх этого также прикручен эволюционный поиск, когда агент перебирает ветки доказательств, хранит и анализирует промежуточные шаги и отбрасывает тупиковые идеи.
Помимо 9 задач Эрдеша (включая, кстати, две, которые были открыты на протяжении 50+ лет), Nexus также доказал 44 открытые гипотезы OEIS.
Кажется, DeepMind первые среди ИИ-лидеров провели настолько масштабный эвал агента на нерешенных задачах. Но точно далеко не последние. Решение открытых проблем уже становится похоже на бенчмарк.
Вот здесь выложили сами доказательства: github.com/google-deepmind/alphaproof-nexus-results
Стоимость решения каждой задачи составила всего несколько сотен долларов. Но есть нюанс: на самом деле DeepMind прогоняли через агента все 353 формализованные открытые задачи Эрдеша и сожгли гораздо больше ресурсов. Решение останавливали, если агент выходил за рамки 3000 итераций, и в итоге полностью решенных задач оказалось 9.
Статья с заявлением: arxiv.org/pdf/2605.22763v1. Здесь подробно описана архитектура самого агента AlphaProof Nexus, решившего задачи.
В базовом варианте это просто итерационный процесс: агент генерирует доказательство -> отправляет его на формальную проверку в Lean -> анализирует ошибки и пробует снова. Поверх этого также прикручен эволюционный поиск, когда агент перебирает ветки доказательств, хранит и анализирует промежуточные шаги и отбрасывает тупиковые идеи.
Помимо 9 задач Эрдеша (включая, кстати, две, которые были открыты на протяжении 50+ лет), Nexus также доказал 44 открытые гипотезы OEIS.
Кажется, DeepMind первые среди ИИ-лидеров провели настолько масштабный эвал агента на нерешенных задачах. Но точно далеко не последние. Решение открытых проблем уже становится похоже на бенчмарк.
Вот здесь выложили сами доказательства: github.com/google-deepmind/alphaproof-nexus-results
❤124👍61🔥36😁5🤯4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
У Anthropic будет коллаба с... Ватиканом
Папа Лев XIV сегодня выступал в Риме и представил энциклику Magnifica Humanitas («Великолепное человечество»), посвященную ИИ и сохранению человеческого достоинства в эпоху ИИ.
Если кратко, Церковь создает комиссию по искусственному интеллекту, задача которой будет состоять в том, чтобы вырабатывать единый подход к темам ИИ. Она также будет отслеживать развитие технологий, анализировать риски и возможности, а затем доносить позицию Церкви документально.
Так вот. Вместе с Папой на мероприятии выступил сооснователь Anthropic Кристофер Олах. Он сказал, что Anthropic изначально позиционирует себя как компанию, которая ставит людское достоинство и безопасность выше безграничного масштабирования, и что компания готова сотрудничать с Ватиканом по вопросам этики ИИ.
Папа же отметил, что новая комиссия рассматривает Anthropic как «эталон» ответственного подхода к ИИ среди крупных игроков, особенно на фоне отказа компании от массовой слежки и автономных боевых систем (aka того самого конфликта с Пентагоном).
Папа Лев XIV сегодня выступал в Риме и представил энциклику Magnifica Humanitas («Великолепное человечество»), посвященную ИИ и сохранению человеческого достоинства в эпоху ИИ.
Если кратко, Церковь создает комиссию по искусственному интеллекту, задача которой будет состоять в том, чтобы вырабатывать единый подход к темам ИИ. Она также будет отслеживать развитие технологий, анализировать риски и возможности, а затем доносить позицию Церкви документально.
Так вот. Вместе с Папой на мероприятии выступил сооснователь Anthropic Кристофер Олах. Он сказал, что Anthropic изначально позиционирует себя как компанию, которая ставит людское достоинство и безопасность выше безграничного масштабирования, и что компания готова сотрудничать с Ватиканом по вопросам этики ИИ.
Папа же отметил, что новая комиссия рассматривает Anthropic как «эталон» ответственного подхода к ИИ среди крупных игроков, особенно на фоне отказа компании от массовой слежки и автономных боевых систем (aka того самого конфликта с Пентагоном).
Мы будем работать вместе, чтобы найти путь для человечества в эпоху ИИ.
🏆150😁97❤31🗿10🫡9👍7🔥4🤔3🤯3👏1 1
В субботу участвовали с командой в офлайн-игре для разработчиков «Рекурсия по городу» от Яндекса
По сюжету ты находишь сломанный код проекта 2012 года и дневник его автора — неизвестного разработчика, который его создал. Система зациклилась и живет до сих пор. Чтобы все пофиксить, нужно было перемещаться по городским локациям и решать задачи, восстанавливая систему по кусочкам.
Мы спускались на 14 этажей под землю в бывший архив МИДа, расшифровывали перфокарты в Яндекс Музее, играли в кости с генератором случайных чисел у памятника Ленте Мёбиуса, а потом гостили на афтерпати в офисе на Льва Толстого.
Маршрут был построен через места, где буквально формировалась российская инженерная культура: ВМК МГУ, смотровая РАН, «Демос», Красная Роза, где сейчас находится штаб-квартира Яндекса и другие (всего их было около 30).
У каждой локации своя большая хроника. Например, вы знали, что Красная Роза изначально была огромной шелковой фабрикой XIX века? Она, кстати, и дала району Хамовники его название (само слово «хам» тогда означало лён). Спустя полтора века это место превратилось в один из главных технологических хабов страны.
Через задания чувствовалось, что ты не просто решаешь головоломки, а идёшь по истории технологий — от перфокарт и азбуки Морзе до роботов-доставщиков и нейросетей. И чувствуешь, что за каждым сервисом стоят люди, места и решения, с которых всё когда-то началось.
По сюжету ты находишь сломанный код проекта 2012 года и дневник его автора — неизвестного разработчика, который его создал. Система зациклилась и живет до сих пор. Чтобы все пофиксить, нужно было перемещаться по городским локациям и решать задачи, восстанавливая систему по кусочкам.
Мы спускались на 14 этажей под землю в бывший архив МИДа, расшифровывали перфокарты в Яндекс Музее, играли в кости с генератором случайных чисел у памятника Ленте Мёбиуса, а потом гостили на афтерпати в офисе на Льва Толстого.
Маршрут был построен через места, где буквально формировалась российская инженерная культура: ВМК МГУ, смотровая РАН, «Демос», Красная Роза, где сейчас находится штаб-квартира Яндекса и другие (всего их было около 30).
У каждой локации своя большая хроника. Например, вы знали, что Красная Роза изначально была огромной шелковой фабрикой XIX века? Она, кстати, и дала району Хамовники его название (само слово «хам» тогда означало лён). Спустя полтора века это место превратилось в один из главных технологических хабов страны.
Через задания чувствовалось, что ты не просто решаешь головоломки, а идёшь по истории технологий — от перфокарт и азбуки Морзе до роботов-доставщиков и нейросетей. И чувствуешь, что за каждым сервисом стоят люди, места и решения, с которых всё когда-то началось.
👍52❤28🗿11😁10🤗7🤨5🔥3✍1😎1
Anthropic может обогнать Alphabet по выручке к середине 2027 года (!)
Инвестор Джозеф Джек, основатель венчурной фирмы OSS Capital, посчитал и объяснил, что это крайне реалистичный сценарий. Смотрите:
– ARR Anthropic вырос с $1 млрд в январе 2025 года до $9 млрд к декабрю 2025-го, а затем до $30 млрд в апреле 2026-го (то есть в 3.3 раза за 4 месяца). Причем кривая пока не замедляется, а наоборот становится круче.
– Но даже если не принимать во внимание ускорение, а, наоборот, предположить сценарий с замедлением, к концу 2026 года они будут зарабатывать $100 млрд, затем $340 млрд в 2027, $850 млрд в 2028, $1.4 трлн в 2029 и $2 трлн к 2030 году.
– Учитывая рост Alphabet, точка пересечения с ними наступает примерно на уровне $575 млрд в середине 2028 года. Разрыв сокращается быстро: спрос на токены Gemini вырос всего на 60% за последний квартал, тогда как у Anthropic – в 10 раз.
Рост Anthropic не остановится. У них большая экосистема, много энтерпрайза и много новых контрактов на компьют, так что масштабирование они выдержат. Для понимания структуры их заработка: число клиентов, которые тратят на Anthropic больше $1 млн в год, выросло с 500 до 1000 менее чем за два месяца. И они продолжают забирать себе рынок корпоративного софта.
Опережение Google выглядит только вопросом времени. В удивительное время живем
Инвестор Джозеф Джек, основатель венчурной фирмы OSS Capital, посчитал и объяснил, что это крайне реалистичный сценарий. Смотрите:
– ARR Anthropic вырос с $1 млрд в январе 2025 года до $9 млрд к декабрю 2025-го, а затем до $30 млрд в апреле 2026-го (то есть в 3.3 раза за 4 месяца). Причем кривая пока не замедляется, а наоборот становится круче.
– Но даже если не принимать во внимание ускорение, а, наоборот, предположить сценарий с замедлением, к концу 2026 года они будут зарабатывать $100 млрд, затем $340 млрд в 2027, $850 млрд в 2028, $1.4 трлн в 2029 и $2 трлн к 2030 году.
– Учитывая рост Alphabet, точка пересечения с ними наступает примерно на уровне $575 млрд в середине 2028 года. Разрыв сокращается быстро: спрос на токены Gemini вырос всего на 60% за последний квартал, тогда как у Anthropic – в 10 раз.
Рост Anthropic не остановится. У них большая экосистема, много энтерпрайза и много новых контрактов на компьют, так что масштабирование они выдержат. Для понимания структуры их заработка: число клиентов, которые тратят на Anthropic больше $1 млн в год, выросло с 500 до 1000 менее чем за два месяца. И они продолжают забирать себе рынок корпоративного софта.
Опережение Google выглядит только вопросом времени. В удивительное время живем
🦄102 36😁24❤18🗿6🤔5🤨5🤯4 1
Data Secrets
Practical ML Conf 2026 принимает заявки на доклады Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+. Ждут именно практику: ML-технологии, которые уже работают…
Друзья, отличные новости: организаторы сдвинули дедлайн регистрации на Practical ML Conf 2026! Так что если вы ждали какого-то особого знака, чтобы достать свой проект из стола, то это точно он. Время еще есть, но лучше не откладывать на самый последний момент.
Кстати, если вы захотите усилить свою заявку и записать видеовизитку, то вообще необязательно делать ее прямо сейчас. Спокойно отправляйте форму, а видео можно будет дослать позже — главное успеть до общего срока подачи, который истекает 1 июня в 23:59!
🤖Подавайте заявку, чтобы показать свои релизы и проекты в области машинного обучения!
Кстати, если вы захотите усилить свою заявку и записать видеовизитку, то вообще необязательно делать ее прямо сейчас. Спокойно отправляйте форму, а видео можно будет дослать позже — главное успеть до общего срока подачи, который истекает 1 июня в 23:59!
🤖Подавайте заявку, чтобы показать свои релизы и проекты в области машинного обучения!
🤯16😁10❤8🔥5🗿2👍1🤨1
Microsoft запретят сотрудникам использовать Claude Code, потому что не тянут косты
В декабре компания заключила сделку с Anthropic и активно призывала своих инженеров использовать Claude Code. Долго уговаривать сотрудников, видимо, не пришлось, и инструмент быстро стал популярным.
Возможно, даже слишком популярным. Потому что теперь Microsoft объявили, что планируют аннулировать свою лицензию и перейти на Copilot CLI, чтобы сократить расходы. В частности, разработчиков всех основных продуктов компании (включая Windows, Microsoft 365, Outlook и тд) попросили перенести все данные из Claude до конца июня.
А вы думали, ИИ будет удешевлять процессы? Ну-ну😵
В декабре компания заключила сделку с Anthropic и активно призывала своих инженеров использовать Claude Code. Долго уговаривать сотрудников, видимо, не пришлось, и инструмент быстро стал популярным.
Возможно, даже слишком популярным. Потому что теперь Microsoft объявили, что планируют аннулировать свою лицензию и перейти на Copilot CLI, чтобы сократить расходы. В частности, разработчиков всех основных продуктов компании (включая Windows, Microsoft 365, Outlook и тд) попросили перенести все данные из Claude до конца июня.
А вы думали, ИИ будет удешевлять процессы? Ну-ну
Please open Telegram to view this post
VIEW IN TELEGRAM
😁280☃24❤14🤯3🦄3 3🗿2👍1
Как перестать тестировать AI-продукты в режиме «вроде работает»
Если вы работаете с LLM в продукте, то наверняка знаете, что качество AI-фич часто до сих пор оценивают на глаз. Прототипы появляются очень быстро, а потом продукт выходит к реальным пользователям, и становится непонятно, как системно оценивать качество.
Где модель ошибается чаще всего? Какие сценарии ломаются после правок? Стало ли лучше после нового промпта или новой модели? Если вы умеете отвечать на такие вопросы – то ваш продукт выигрывает.
28 мая в 19:30 Школа Высшей Математики проведет вебинар «Простые подходы к системному улучшению AI-продуктов». Он как раз про то, как перейти от хаотичного тестирования к нормальной системе оценки с логами, метриками, автопроверками и понятным процессом улучшения.
На вебинаре разберут полный цикл оценки AI-продукта: как собирать сырые логи, превращать пользовательский фидбэк в измеримые метрики, настраивать автоматизированные проверки и понимать, действительно ли AI-фича становится лучше, а не кажется лучше.
Изучение темы особенно актуально разработчикам, AI/ML-инженерам, продактам и тимлидам. Главное, что это будет не абстрактная лекция, а live-демо и готовый фреймворк, который можно забрать в свои коммерческие или пет-проекты.
Спикеры: Андрей Киселев, Head of Product в AI-компании, ex-Revolut и ex-Яндекс, и Федор Азаров, руководитель направления по исследованию данных в Sber CIB.
Регистрация здесь, не пропустите
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991
Если вы работаете с LLM в продукте, то наверняка знаете, что качество AI-фич часто до сих пор оценивают на глаз. Прототипы появляются очень быстро, а потом продукт выходит к реальным пользователям, и становится непонятно, как системно оценивать качество.
Где модель ошибается чаще всего? Какие сценарии ломаются после правок? Стало ли лучше после нового промпта или новой модели? Если вы умеете отвечать на такие вопросы – то ваш продукт выигрывает.
28 мая в 19:30 Школа Высшей Математики проведет вебинар «Простые подходы к системному улучшению AI-продуктов». Он как раз про то, как перейти от хаотичного тестирования к нормальной системе оценки с логами, метриками, автопроверками и понятным процессом улучшения.
На вебинаре разберут полный цикл оценки AI-продукта: как собирать сырые логи, превращать пользовательский фидбэк в измеримые метрики, настраивать автоматизированные проверки и понимать, действительно ли AI-фича становится лучше, а не кажется лучше.
Изучение темы особенно актуально разработчикам, AI/ML-инженерам, продактам и тимлидам. Главное, что это будет не абстрактная лекция, а live-демо и готовый фреймворк, который можно забрать в свои коммерческие или пет-проекты.
Спикеры: Андрей Киселев, Head of Product в AI-компании, ex-Revolut и ex-Яндекс, и Федор Азаров, руководитель направления по исследованию данных в Sber CIB.
Регистрация здесь, не пропустите
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991
🗿32❤10😁8⚡4👍4🔥4🤯2🤨1
Data Secrets
Microsoft запретят сотрудникам использовать Claude Code, потому что не тянут косты В декабре компания заключила сделку с Anthropic и активно призывала своих инженеров использовать Claude Code. Долго уговаривать сотрудников, видимо, не пришлось, и инструмент…
This media is not supported in your browser
VIEW IN TELEGRAM
Инфоповод опять разлетелся на мемы
😁247🔥26👍17❤4
Microsoft опенсорснули проект SkillOpt для оптимизации способностей агентов
Это фреймворк, который фоново улучшает вашего агента через изменение markdown файлов со скиллами.
Это похоже на классический learning loop, но в текстовом пространстве. То есть агент выполняет задачи с текущей версией условного skill.md (это аналог прямого прохода), система легирует все, что тот делает, отмечает ошибки и успешные ответы, а затем на основе этого предлагает небольшие правки в skill (это уже backward pass).
Новая версия md принимается только после прохождения верификации на отдельном сете задач (его можно задать самостоятельно или взять готовый).
Как и в реальном обучении, тут предусмотрено подобие learning rate: чтобы сразу случайно сильно не испортить файл правками, они могут быть только небольшими и должны соответствовать определенным правилам. Так что попробовать инструмент можно довольно безопасно, даже если боитесь за свои md-шки.
Приросты можно посмотреть в большой таблице наверху. Как видите, абсолютно во всех комбинациях моделей и бенчмарков они положительные и заметные, а в Codex и Claude Code на GPT-5.5 средний gain указан вообще как +21.8 и +18.6 соответственно (!).
Статья, код, овервью и инструкции по использованию – все здесь: https://microsoft.github.io/SkillOpt/
Это фреймворк, который фоново улучшает вашего агента через изменение markdown файлов со скиллами.
Это похоже на классический learning loop, но в текстовом пространстве. То есть агент выполняет задачи с текущей версией условного skill.md (это аналог прямого прохода), система легирует все, что тот делает, отмечает ошибки и успешные ответы, а затем на основе этого предлагает небольшие правки в skill (это уже backward pass).
Новая версия md принимается только после прохождения верификации на отдельном сете задач (его можно задать самостоятельно или взять готовый).
Как и в реальном обучении, тут предусмотрено подобие learning rate: чтобы сразу случайно сильно не испортить файл правками, они могут быть только небольшими и должны соответствовать определенным правилам. Так что попробовать инструмент можно довольно безопасно, даже если боитесь за свои md-шки.
Приросты можно посмотреть в большой таблице наверху. Как видите, абсолютно во всех комбинациях моделей и бенчмарков они положительные и заметные, а в Codex и Claude Code на GPT-5.5 средний gain указан вообще как +21.8 и +18.6 соответственно (!).
Статья, код, овервью и инструкции по использованию – все здесь: https://microsoft.github.io/SkillOpt/
❤60🤯25👍13🔥4😁4
Предлагаем вам поломать голову над задачей с «Рекурсии по городу» Яндекса, которую далеко не все смогли решить
На станциях было много интересных задач на логику и программирование, но сложнее всего оказалась вот эта головоломка с разогрева⬆️
Никаких специальных знаний здесь не требуется, только смекалка. Решение оказалось настолько нестандартным, что справились с ним буквально единицы из 500 участников. Цель – каким-то образом расшифровать следующее сообщение:
Предлагаем вам тоже попробовать свои силы. Ответ через сутки выложим в комментарии.
P.S. Ни одна модель, которой мы кормили условия, с задачей не справилась.
На станциях было много интересных задач на логику и программирование, но сложнее всего оказалась вот эта головоломка с разогрева
Никаких специальных знаний здесь не требуется, только смекалка. Решение оказалось настолько нестандартным, что справились с ним буквально единицы из 500 участников. Цель – каким-то образом расшифровать следующее сообщение:
zev sf tbmjg wxvr khyimb zq cebt qewx rvfhyn rwsfsxv etrv mu zqdtb iyhkhnm qzc tbmut ecbte xwrfs
Предлагаем вам тоже попробовать свои силы. Ответ через сутки выложим в комментарии.
P.S. Ни одна модель, которой мы кормили условия, с задачей не справилась.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔32❤9👍8🗿4🔥3😁1🤯1😎1
Data Secrets
Microsoft запретят сотрудникам использовать Claude Code, потому что не тянут косты В декабре компания заключила сделку с Anthropic и активно призывала своих инженеров использовать Claude Code. Долго уговаривать сотрудников, видимо, не пришлось, и инструмент…
После утренней новости про отказ Microsoft от Claude Code выяснилось, что они в своих идеях не одиноки
Операционный директор Uber только что заявил, что «тяжелые траты на ИИ все сложнее оправдать, так как рост потребления токенов не показывает четкой отдачи в потребительских функциях».
Он добавил, что «возможно» в следующих кварталах ситуация выровняется, но пока что потребление токенов просто растет, а полезность относительно этого статистически не увеличивается. Кстати, Uber при этом потратил годовой бюджет на ИИ за первые 4 месяца года.
А еще за некоторое время до этого VP Nvidia заявлял, что для его команды расходы на вычислительные ресурсы уже намного превышают затраты на сотрудников. То есть ИИ становится дороже человеческого труда.
Комментарии про пузырь в студию⬇️
Операционный директор Uber только что заявил, что «тяжелые траты на ИИ все сложнее оправдать, так как рост потребления токенов не показывает четкой отдачи в потребительских функциях».
Он добавил, что «возможно» в следующих кварталах ситуация выровняется, но пока что потребление токенов просто растет, а полезность относительно этого статистически не увеличивается. Кстати, Uber при этом потратил годовой бюджет на ИИ за первые 4 месяца года.
А еще за некоторое время до этого VP Nvidia заявлял, что для его команды расходы на вычислительные ресурсы уже намного превышают затраты на сотрудников. То есть ИИ становится дороже человеческого труда.
Комментарии про пузырь в студию
Please open Telegram to view this post
VIEW IN TELEGRAM
😁153 23 15❤9👍7