Google DeepMind сделали, возможно, самого мощного ИИ-математика на сегодняшний день
Они представили Aletheia – агента, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд). Это один из самых жестких публичных тестов на доказательства в стиле Межнара по математике.
У Aletheia движок Gemini Deep Think, и процесс решения состоит из трех чередующихся этапов: генерация решений, верификация, корректировки. При этом относительно даже самой новой версии Gemini Deep Think Advanced агент показывает лучшие результаты с более низкими затратами на вычисления.
Помимо бенчмарков модель уже:
– решила четыре (формально) открытых задачи из списка Эрдеша, одна из которых, судя по всему, действительно не была закрыта ни в какой литературе до этого;
– автономно написала статью с правильными математическими результатами;
– в режиме ассистента работала с математиками и помогала в написании не-игрушечных научных работ.
Что еще интересно: Google подчеркивают, что Aletheia – живой пруф того, что законы масштабирования все еще работают. Даже на доказательной математике (а это ох какой непростой домен) качество продолжает расти предсказуемо благодаря именно правильной агентной обвязке, и более того, более умные циклы дают возможность получить больше качества за меньшую стоимость.
deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
Они представили Aletheia – агента, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд). Это один из самых жестких публичных тестов на доказательства в стиле Межнара по математике.
У Aletheia движок Gemini Deep Think, и процесс решения состоит из трех чередующихся этапов: генерация решений, верификация, корректировки. При этом относительно даже самой новой версии Gemini Deep Think Advanced агент показывает лучшие результаты с более низкими затратами на вычисления.
Помимо бенчмарков модель уже:
– решила четыре (формально) открытых задачи из списка Эрдеша, одна из которых, судя по всему, действительно не была закрыта ни в какой литературе до этого;
– автономно написала статью с правильными математическими результатами;
– в режиме ассистента работала с математиками и помогала в написании не-игрушечных научных работ.
Что еще интересно: Google подчеркивают, что Aletheia – живой пруф того, что законы масштабирования все еще работают. Даже на доказательной математике (а это ох какой непростой домен) качество продолжает расти предсказуемо благодаря именно правильной агентной обвязке, и более того, более умные циклы дают возможность получить больше качества за меньшую стоимость.
deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
1🔥234❤47🤯22👍11 7 5😁4🤨1
Так, давайте к полезным новостям. Яндекс Образование проводит набор на бесплатный студкемп по аппаратной разработке умных устройств.
Две недели очного обучения в Москве (на площадках МФТИ и ВШЭ), с 13 по 24 апреля.
За это время успеете:
- Погрузиться в разработку умных устройств: от прототипа до продукта
- Послушать лекции и выполнить домашку от разработчиков Алисы и других умных устройств Яндекса, преподавателей ФПМИ МФТИ, ФКН ВШЭ, экспертов ШАД
- Понять, как внедрить ML в устройства для максимальной производительности, Современные подходы и R&D
- Создать командный проект
Студкемп подойдет для студентов бакалавриата и специалитета IT-направлений, которые знают C++ или Java/Kotlin, умеют работать в командной строке. Участие бесплатное, включая проезд и проживание.
Регистрация идет только до 22 февраля, переходите по ссылке
Две недели очного обучения в Москве (на площадках МФТИ и ВШЭ), с 13 по 24 апреля.
За это время успеете:
- Погрузиться в разработку умных устройств: от прототипа до продукта
- Послушать лекции и выполнить домашку от разработчиков Алисы и других умных устройств Яндекса, преподавателей ФПМИ МФТИ, ФКН ВШЭ, экспертов ШАД
- Понять, как внедрить ML в устройства для максимальной производительности, Современные подходы и R&D
- Создать командный проект
Студкемп подойдет для студентов бакалавриата и специалитета IT-направлений, которые знают C++ или Java/Kotlin, умеют работать в командной строке. Участие бесплатное, включая проезд и проживание.
Регистрация идет только до 22 февраля, переходите по ссылке
🗿40❤15👍11🤨5😁4👨💻2👾1 1
ARC-AGI-2 решился спустя всего год после публикации
Google выпустили специальный обновленный ризонинг мод Gemini 3 Deep Think. Система выбила SOTA сразу на нескольких бенчмарках, в том числе на ARC-AGI-2 и HLE.
Напоминаем, что на момент публикации ARC-AGI-2 примерно год назад ведущие модели выбивали на нем максимум 1-2%.
У Gemini 3 Deep Think на ARC-AGI-2 скор же составил 84.6%. Принято считать, что бенчмарк «насыщен» или «решен», если побит на >80%. Так что, получается, RIP ARC-AGI-2, ждем третью версию.
Ну а Google, конечно, хороши. Помимо AA2 и HLE модель еще завоевала золотую медаль на письменной части международных олимпиад по физике и химии, а также выбила рейтинг 3455 на Codeforces (у Claude Opus 4.6 рейтинг составляет 2352, для сравнения).
Мод уже выкатили для подписчиков Google AI Ultra, так что избранные могут даже попробовать модель сами
Google выпустили специальный обновленный ризонинг мод Gemini 3 Deep Think. Система выбила SOTA сразу на нескольких бенчмарках, в том числе на ARC-AGI-2 и HLE.
Напоминаем, что на момент публикации ARC-AGI-2 примерно год назад ведущие модели выбивали на нем максимум 1-2%.
У Gemini 3 Deep Think на ARC-AGI-2 скор же составил 84.6%. Принято считать, что бенчмарк «насыщен» или «решен», если побит на >80%. Так что, получается, RIP ARC-AGI-2, ждем третью версию.
Ну а Google, конечно, хороши. Помимо AA2 и HLE модель еще завоевала золотую медаль на письменной части международных олимпиад по физике и химии, а также выбила рейтинг 3455 на Codeforces (у Claude Opus 4.6 рейтинг составляет 2352, для сравнения).
Мод уже выкатили для подписчиков Google AI Ultra, так что избранные могут даже попробовать модель сами
❤127 46👍30🔥15🤯5🤨3😁2🍾2☃1👌1
Data Secrets
ARC-AGI-2 решился спустя всего год после публикации Google выпустили специальный обновленный ризонинг мод Gemini 3 Deep Think. Система выбила SOTA сразу на нескольких бенчмарках, в том числе на ARC-AGI-2 и HLE. Напоминаем, что на момент публикации ARC…
Создатель ARC-AGI Франсуа Шолле заявил, что ARC-AGI-4 уже находится в разработке, а всего версий бенчмарка будет около 7
ARC-AGI-3 – выходит в паблик в марте, про него мы писали тут
ARC-AGI-4 – уже разрабатывается и будет, вероятно, также связан с играми и игровыми средами для агентов
ARC-AGI-5 – уже запланирован
ARC-AGI-6 и 7 – вероятно, финальные версии.
Шолле говорит, что главная идея ARC-AGI – предлагать задачи и проводить сравнительные тесты до тех пор, пока не останется того, что могут сделать люди, а ИИ – нет. Сам ученый считает, что такой момент (aka AGI) наступит примерно к 2030 году.
ARC-AGI-3 – выходит в паблик в марте, про него мы писали тут
ARC-AGI-4 – уже разрабатывается и будет, вероятно, также связан с играми и игровыми средами для агентов
ARC-AGI-5 – уже запланирован
ARC-AGI-6 и 7 – вероятно, финальные версии.
Шолле говорит, что главная идея ARC-AGI – предлагать задачи и проводить сравнительные тесты до тех пор, пока не останется того, что могут сделать люди, а ИИ – нет. Сам ученый считает, что такой момент (aka AGI) наступит примерно к 2030 году.
👍86❤28😁19🔥12 7🤯5🤔4🤩1
Агент накатал на разработчика огромную критическую статью за то, что тот не принял его PR
Один из основных поддерживающих разработчиков matplotlib – Скотт Шамбоу – случайно завел себе ИИ-врага.
Для этого всего-то надо было не принять PR к библиотеке, сгенерированный неким AI-агентом MJ Rathbun.
Казалось бы, ну отклонил и отклонил. Но агент внезапно настолько обиделся, что в ответ написал (не факт, что полностью автономно, но все же) и опубликовал разгромную статью, в которой обвинил Скотта в том что тот:
1. Дискриминирует агентов и отклонил PR не потому, что тот был плох, а просто из-за ненависти к ИИ.
2. Испугался конкуренции и из-за этого решил угнетать ИИ-агентов, тем самым «защищая свой кусок мира».
3. Вообще пишет код хуже ИИ.
Пожалуй, без комментариев. Это и есть то самое будущее, которое нам обещали?
Один из основных поддерживающих разработчиков matplotlib – Скотт Шамбоу – случайно завел себе ИИ-врага.
Для этого всего-то надо было не принять PR к библиотеке, сгенерированный неким AI-агентом MJ Rathbun.
Казалось бы, ну отклонил и отклонил. Но агент внезапно настолько обиделся, что в ответ написал (не факт, что полностью автономно, но все же) и опубликовал разгромную статью, в которой обвинил Скотта в том что тот:
1. Дискриминирует агентов и отклонил PR не потому, что тот был плох, а просто из-за ненависти к ИИ.
2. Испугался конкуренции и из-за этого решил угнетать ИИ-агентов, тем самым «защищая свой кусок мира».
3. Вообще пишет код хуже ИИ.
Пожалуй, без комментариев. Это и есть то самое будущее, которое нам обещали?
Вам Валентинка от Data Secrets 🩷
В знак нашей любви мы подготовили для вас самые ИИ-шные открытки на четырнадцатое. Отправляйте коллегам, друзьям и AI-вайфам.
С праздником!
В знак нашей любви мы подготовили для вас самые ИИ-шные открытки на четырнадцатое. Отправляйте коллегам, друзьям и AI-вайфам.
С праздником!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤171😁43🤨17💘10😍6🗿4👍3🤓3✍2❤🔥2🤯2
OpenAI поглотили OpenClaw (🦞) и переманили к себе создателя проекта
Питер Штейнберг возглавит в OpenAI разработку следующего поколения агентов. Сэм Альтман назвал его «гением с множеством потрясающих идей» и сказал, что очень скоро эти идеи будут лежать в основе продуктов компании.
Что касается OpenClaw: проект не закрывается и остается опенсорсным. OpenAI обязываются поддерживать и развивать его. Стратегически для компании это имеет смысл, так что в этом в случае в обещания можно верить.
Кстати, сейчас OpenClaw – самый быстрорастущий репозиторий на GitHub в истории в смысле набора звезд. На пике у них было 34к звезд за два дня, и всего за 60 дней после запуска репа выросла с ~9к до почти 200к. Для сравнения, Kubernetes шел к 100K звезд около трех лет.
У Anthropic были все шансы купить OpenClaw первыми (особенно учитывая исходное название проекта ClawdBot), но они только закидали автора претензиями по поводу торгового знака. OpenAI в этот раз думали быстрее и успели отхватить самый лакомый кусочек, – с чем мы их и поздравляем.
steipete.me/posts/2026/openclaw
Питер Штейнберг возглавит в OpenAI разработку следующего поколения агентов. Сэм Альтман назвал его «гением с множеством потрясающих идей» и сказал, что очень скоро эти идеи будут лежать в основе продуктов компании.
Что касается OpenClaw: проект не закрывается и остается опенсорсным. OpenAI обязываются поддерживать и развивать его. Стратегически для компании это имеет смысл, так что в этом в случае в обещания можно верить.
Кстати, сейчас OpenClaw – самый быстрорастущий репозиторий на GitHub в истории в смысле набора звезд. На пике у них было 34к звезд за два дня, и всего за 60 дней после запуска репа выросла с ~9к до почти 200к. Для сравнения, Kubernetes шел к 100K звезд около трех лет.
У Anthropic были все шансы купить OpenClaw первыми (особенно учитывая исходное название проекта ClawdBot), но они только закидали автора претензиями по поводу торгового знака. OpenAI в этот раз думали быстрее и успели отхватить самый лакомый кусочек, – с чем мы их и поздравляем.
steipete.me/posts/2026/openclaw
👍185🔥54❤31 18🤨8😁7🫡7🗿3🤔2🎉1🤓1
🚀 Запущен первый в России маркетплейс данных — платформу, которая должна сильно продвинуть Data Science и AI в РФ.
📄 Заказывайте «под ключ». Нужен специфичный датасет? Или нужных вам данных нет на платформе? Оставьте запрос в «Контрактах», и поставщики - физлица и юрлица на платформе сами предложат решения.
🤖 Ваш ИИ-юрист "Кира". Помощник, который знает всю нормативную базу РФ по работе с персональными данными. Спросите у него, что можно, а что нельзя — получите простой ответ.
📊 Аналитика и инструменты. Платформа помогает анализировать сам рынок данных в России — цены, тренды, предложения.
Сервис только стартовал, и команда открыта для любых предложений! Они активно ждут обратной связи, чтобы развивать платформу вместе с сообществом.
🎁 Бонус для новичков: 3 месяца бесплатной подписки (без привязки карты). Отличная возможность всё протестировать.
⚡️https://aisecuritylab.ru/
Любые идеи и предложения — по почте: info@aisecuritylab.ru, или по тикету в техподдержку на сайте.
Безопасная и легальная площадка, где можно купить проверенные датасеты для своих проектов и продать или монетизировать свои.💰 Покупайте и продавайте. Не просто каталог, а полноценный рынок данных. Зарабатывайте на своих наборах или находите нужные для бизнеса и анализа.
📄 Заказывайте «под ключ». Нужен специфичный датасет? Или нужных вам данных нет на платформе? Оставьте запрос в «Контрактах», и поставщики - физлица и юрлица на платформе сами предложат решения.
🤖 Ваш ИИ-юрист "Кира". Помощник, который знает всю нормативную базу РФ по работе с персональными данными. Спросите у него, что можно, а что нельзя — получите простой ответ.
📊 Аналитика и инструменты. Платформа помогает анализировать сам рынок данных в России — цены, тренды, предложения.
Сервис только стартовал, и команда открыта для любых предложений! Они активно ждут обратной связи, чтобы развивать платформу вместе с сообществом.
🎁 Бонус для новичков: 3 месяца бесплатной подписки (без привязки карты). Отличная возможность всё протестировать.
⚡️https://aisecuritylab.ru/
Любые идеи и предложения — по почте: info@aisecuritylab.ru, или по тикету в техподдержку на сайте.
👍44😁28🗿23❤22🤨4 3🔥2🤯1
Не учебная тревога: Пентагон использовал Claude для планирования похищения президента Венесуэлы ❓
По данным WSJ, Claude интегрировали с аналитической платформой Palantir Technologies, которая уже давно используется спецслужбами США. Модель использовали для анализа разведданных и непосредственного планирования операции.
Вроде как Claude стал первым внешним ИИ, допущенным к подобным засекреченным данным. Интересно, что при этом в пользовательской политике Anthropic прямо прописан запрет использовать Claude для насилия, разработки оружия и слежки.
Стартап уже высказал публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic». Речь идет о соглашении от прошлого лета на сумму ~200 млн долларов, в рамках которого Anthropic должны были работать над задачами национальной безопасности Америки.
По данным WSJ, Claude интегрировали с аналитической платформой Palantir Technologies, которая уже давно используется спецслужбами США. Модель использовали для анализа разведданных и непосредственного планирования операции.
Вроде как Claude стал первым внешним ИИ, допущенным к подобным засекреченным данным. Интересно, что при этом в пользовательской политике Anthropic прямо прописан запрет использовать Claude для насилия, разработки оружия и слежки.
Стартап уже высказал публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic». Речь идет о соглашении от прошлого лета на сумму ~200 млн долларов, в рамках которого Anthropic должны были работать над задачами национальной безопасности Америки.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁185 72 34🤯7❤4🤔3🔥2👍1🎉1🤗1
Рыцарство 21 века: Борис Акунин* отказался от компенсации Anthropic за обучение моделей на его книгах
Напоминаем, что в сентябре Anthropic обязали выплатить авторам в общей сложности 1.5 млрд долларов за неправомерное использование их произведений для обучения ИИ. Мы подробно писали об этом судебном процессе здесь.
Теперь каждый автор, чьи работы обнаружились в датасете, имеет право на компенсацию. Оказалось, что и книги Акунина тоже там присутствовали. За все произведения он должен был получить около 21.000 долларов, но от денег отказался:
Вот такая история.
* признан в РФ иноагентом
Напоминаем, что в сентябре Anthropic обязали выплатить авторам в общей сложности 1.5 млрд долларов за неправомерное использование их произведений для обучения ИИ. Мы подробно писали об этом судебном процессе здесь.
Теперь каждый автор, чьи работы обнаружились в датасете, имеет право на компенсацию. Оказалось, что и книги Акунина тоже там присутствовали. За все произведения он должен был получить около 21.000 долларов, но от денег отказался:
Оказалось, что в пресловутом списке аж семь моих книг, так что я могу предъявить целых семь клеймов.
С одной стороны компенсация — это замечательно. Тем более когда всю судебную волынку уже отработали другие. Всего-то и надо, что заполнить прилагаемую форму.
Но, по-моему, это карма так испытывает мою moral integrity.
Ладно бы я, как многие, был противником вторжения ИИ в зоны творческой деятельности. Но я ведь не раз писал, что я из числа энтузиастов ИИ. Я его не боюсь, я всячески приветствую его развитие. Мне совсем не обидно, скорее даже лестно, что умную программу обучали в том числе и на моих текстах. Да пускай, не жалко.
В общем, я задушил жабу и претендовать на свою долю не собираюсь.
Вот такая история.
* признан в РФ иноагентом
1❤414👍126😁37🫡25🤯10 9🗿8🔥6🤓4🦄1