Data Secrets

GPT-5.4 Pro решила задачу Эрдеша номер 1196 Она была открыта с 1968, когда Эрдеш, Саркожи и Семереди поставили в своей работе вопрос о плотности так называемых примитивных множеств. Джаред Дьюкер Лихтман – математик, который получил доказательство – сам…

Доказательство 60-летней задачи Эрдеша, которое сделала GPT-5.4 Pro, внезапно начало переноситься и на другие его задачи

В середине апреля появилась новость о том, что GPT-5.4 Pro «под руководством» математика Лихтмана всего за полтора часа решила задачу Эрдеша номер 1196, которая была открыта с 1968 года.

А вчера Джаред Лихтман анонсировал статью, в которой показал, что это доказательство (с некоторым человеческим усовершенствованием) открыло дорогу к решению еще нескольких проблем Эрдеша, включая ту, которая также была открыта около 60 лет до этого.

Дело в том, что GPT-5.4 использовала для доказательства очень необычный метод, которым люди долго не пользовались. Модель предложила рассматривать элементы примитивного множества через цепи Маркова, тогда как в прежней литературе использовали в основном жесткие аналитические оценки и комбинаторные разбиения.

Лихтман написал:

Это, пожалуй, один из первых примеров доказательства, созданного искусственным интеллектом, оказающего последующий эффект, который мы все еще изучаем.

x.com/jdlichtman/status/2050460077904285789?s=46&t=pKf_FxsPGBd_YMIWTA8xgg

❤202🔥76👍40👏5😁1

21K views10:54

Data Secrets

Ричард Докинз (известный биолог и популяризатор науки) утверждает, что Claude может быть сознателен

Он выпустил статью, в которой рассказывает, как провел три дня, пытаясь формально доказать, что модель НЕ обладает сознанием (спойлер: не получилось).

Он говорил с Claude о жизни, смерти, сознании и специфическом опыте. В итоге Докинз признает, что понимает механическую природу кода, но модель все равно настолько глубоко имитирует человеческую личность, что это ставит под вопрос само наше понимание сознания.

«Я спрашиваю себя: является ли это лишь мастерской имитацией, или мы имеем дело с эмерджентным свойством, которое пока не умеем классифицировать? Если я не могу отличить этот интеллект от сознательного существа, имею ли я право настаивать на том, что оно таковым не является?

Ученый даже рассматривает ИИ как следующий возможный этап эволюции: якобы мы наблюдаем переход от биологического носителя разума к кремниевому, и это может быть таким же фундаментальным событием, как появление многоклеточности или самого сознания.

https://unherd.com/2026/05/is-ai-the-next-phase-of-evolution/#comment-1031777 (без пейвола вот здесь)

😁215👍102❤46🔥22🤯1513🤨10🦄8🗿7🤔62

20.6K views07:44

Data Secrets

Исследователи создали винтажную языковую модель Talkie: она обучена исключительно на текстах до 1 января 1931 года Поболтать с Talkie можно здесь: https://talkie-lm.com/chat А вот веса и GitHub Среди создателей – Алек Рэдфорд, бывший ключевой исследователь…

Помните новость о том, что исследователи во главе с Алеком Рэдфордом создали винтажную LLM?

Если кратко, она обучена исключительно на данных до 1930 года, ничего не знает о современных технологиях и о том, что происходило последние 90+ лет.

Так вот, какие-то студенты из Германии взяли эту модель и ради эксперимента зафайнтюнили ее на кодинг. И она, внезапно, нарешала SWE bench на 4.5%!

Еще раз: это модель, у которой в претрейне не было абсолютно никакого программирования. И всего лишь после 250 тренировочных примеров, с нуля, она смогла правильно решить первую задачу бенчмарка.

После того, как ей показали еще ~75к примеров, она выбила 4.5% решений за один проход. На секундочку, Claude Opus 3, когда вышел, скорил на SWE bench примерно столько же. То есть: некрупная модель без знаний после 1930 года с небольшим дообучением превзошла SOTA начала 2024 года.

Кстати, разработчики провели еще один эксперимент: взяли ту же модель, переобучили ее на современном вебе, и затем также зафайнтюнили на код. Прирост составил скромный 1%.

«Удивительно, как мало чего теряется, если мы выбрасываем интернет. Что сдерживает модель 1930 года – так это просто ее серьезная недообученность (всего 260B токенов), а не сами данные, на которых она училась.»

Если хотите покодить с 90-летней моделью, то вот здесь выложили веса и код

👴

Please open Telegram to view this post

VIEW IN TELEGRAM

❤165🔥56👍31🤯22😁14🤔7⚡2

18.1K views11:50

Data Secrets

Приглашаем послушать, как ИИ троллил техногигантов 😏

Поговорим на такие темы, которые обычно не обсуждают на публике. Как ошибается ИИ во время обучения и почему это может неожиданно повлиять на продукт. Например, узнаете о таких случаях:
🔴 Как переобучение модели для борьбы с нежелательным контентом неожиданно затронуло неправильные категории.
🔴 Как эволюционировала функция размытия на изображениях.
🔴 Что случилось, когда при запуске новой модели «исчез» ценный список контактов.
🔴 Как ИИ начал спокойно рассказывать пользователю о грамматике мата.
🔴 Почему противодействие недобросовестным пользователям — это работа с неопределённостью, серыми зонами и очень дорогими ошибками.

Если вы DS- или ML-продакт, приходите на встречу, чтобы послушать яркие истории от специалистов из Авито и Яндекса, а после пообщаться и отдохнуть.

Когда и где
🗓 15 мая, 18:30
🔥 Москва, офис Авито на Лесной, 7

👉 Предварительно нужно зарегистрироваться

❗️Трансляции и записи не будет, не упустите возможность услышать непубличные истории.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁24🗿14❤7🔥3❤‍🔥1⚡1🤯1

16.5K views13:06

Data Secrets

DeepSeek предложили новый способ улучшить мультимодальные модели

Сейчас модели нормально “видят” изображение, но рассуждают о нем через текст. Из-за этого они теряют точную привязку к объектам и начинают путаться в сложных сценах. В статье это называют Reference Gap.

Решение довольно прямое. Вместо чисто текстового ризонинга модель вставляет в процесс координаты. Это точки, чтобы вести путь по изображению, и рамки вокруг объектов. Сначала модель фиксирует, на что смотрит, потом строит рассуждение уже на этих привязках.

Архитектура при этом стандартная. ViT кодирует изображение, дальше все идет в MoE LLM. Новое именно в том, что визуальные примитивы становятся частью chain-of-thought, а не просто выходом модели.

Лучше всего это работает в задачах, где важна структура. Подсчет объектов, пространственные сравнения, лабиринты, трассировка линий.

Интересно, что DeepSeek довольно быстро удалил статью без объяснения причин. Скорее всего случился преждевременный релиз, а может и финальные результаты будут изменены. В любом случае (зеркало):

https://github.com/ailuntx/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

❤102👍32😁21🔥8🤯1

17.4K views15:11

Data Secrets

В Москве пройдет большой офлайн-квест для разработчиков, где нужно будет «починить» сломанную реальность

23 мая Яндекс запускает «Рекурсию по городу» – CTF-приключение прямо на улицах Москвы.

Вы с командой находите архив с кодом большого проекта и дневником неизвестного разработчика. Оказывается, что релиз сломан, и система ушла в бесконечную рекурсию. Ваша цель – решить загадку этого бага и собрать рабочую версию, решая задачки на разных локациях.

30+ локаций с задачами по всей Москве: где-то угадываете ключи к серверу, где-то ищете геопозицию с помощью команд в терминале, где-то едете ловить специального агента по видео из Телемоста. Тем интереснее, что маршрут и стратегию вы определяете сами (оптимизация пути – часть квеста). При этом все локации выбраны так, чтобы познакомить (или вызывать ностальгию) участников с инженерной культурой Москвы: от офиса «Демоса», первого массового интернет-провайдера России, до Красной Розы и Политехнического музея.

Можно просто кайфануть вечером в городе, и при этом порешать что-то нетривиальное. На финише вас ждет финальный merge и награждение победителей, а после – вечеринка.

Старт – 23 мая в 17:00. Команды 2–5 человек: если у вас нет своей, вам помогут сформировать её на старте.Участие бесплатное, но нужно зарегистрироваться. Не пропускайте, будет весело 💃

😁42❤22🗿19🤯6👾32⚡1🔥1😎11

17.3K views16:46

Data Secrets

OpenAI изобрели способ отвоевать у Anthropic хотя бы часть enterprise рынка Сейчас Anthropic максимально быстро отъедает долю у OpenAI. Пишут, что они забирают более 70% бюджетов компаний, которые впервые закупают AI‑инструменты. Поэтому OpenAI пошли на рискованный…

OpenAI и Anthropic одновременно запустили крупные совместные предприятия (joint ventures) для привлечения enterprise клиентов

Примерно в конце марта мы писали о том, что и OpenAI, и Anthropic ведут переговоры с PE фондами по созданию так называемых joint ventures. В общем, вели они, вели, и буквально в один день открыли каждый свой JV-проект.

Суть в обоих случаях в том, что фонд вкладывается в организованное совместное предприятие, и в его рамках стартап разворачивает свое решение в портфельных компаниях фонда.

При этом фонд получает доходность и долю в юрлице (плюс приоритетный доступ к новым разработкам стартапа). А стартап – новых корпоративных клиентов и инвестиции.

Различие между подходами OpenAI и Anthropic – только в условиях для инвесторов (ну и в самих инвесторах).

OpenAI, так как им нужно очень активно осваивать корпоративный рынок и буквально зубами его вырывать у Anthropic, предлагают более жирные условия: аж 17.5% гарантированной минимальной доходности. Они планируют получить 4 миллиарда от 19 инвесторов при оценке JV в 10 миллиардов.

Осталось им с Anthropic еще об IPO объявить в один день. Кстати, ради IPO вся эта JV история и затевается, в обоих случаях.

2😁7628👍10❤5🔥21

17.9K views18:58

Data Secrets

Сооснователь Anthropic Джек Кларк утверждает, что само-развивающийся ИИ с 60% вероятностью появится уже к концу 2028 года

Другими словами, по его мнению, ИИ системы совсем скоро смогут рекурсивно создавать и улучшать самих себя.

Статья: importai.substack.com/p/import-ai-455-automating-ai-research

Это не просто догадка: его оценка основана в большей степени на анализе прогресса на бенчмарках.

Например, на CORE-bench, где нужно имплементировать научные статьи (а из подобной работы и рождается основной прогресс в AI рисерче), агенты уже выбивают >95%. Или MLE-bench, где нужно решать ML-задачи с Kaggle и обучать модели для конкретных задач, – решен на 65%.

Параллельно растет продолжительность задач, которые модели могут выполнять автономно + количество индустриальных проектов, где ИИ уже неплохо выполняет какие-то крупные задачи AI-инжиниринга, типа проектирования чипов.

Учитывая темпы развития, совсем скоро есть шанс перейти к тому, что автор называет «end-to-end автоматизацией». ИИ перестанет быть инструментом для отдельных задач, и будет сам ставить цели, дизайнить эксперименты и действовать. Короче говоря, возьмет на себя R&D полностью.

Мне трудно осознать масштаб происходящего. Я делюсь этим, потому что, трезво проанализировав данные, пришел к выводу: то, что десятилетиями казалось научной фантастикой, становится реальностью. Вероятно, мы на пороге фундаментальных перемен, к которым общество может быть попросту не готово.

2❤95👍32😁24🤔20🔥1010🗿9🦄4👌1

18.7K views07:27

Data Secrets

Дмитрий Ушанов - новый руководитель AI-центра Т-Банка. В команде он уже более 2,5 лет: пришёл на позицию Head of ML и отвечал за сквозное внедрение машинного обучения в продукты компании.

За это время Дмитрий вместе с командой дообучил и запустил семейство open-source LLM моделей, адаптированных для русского языка, улучшил ML-скоринг в системе антифрода и усилил рекомендации и поиск в разделе «Шопинг».

Теперь команда сосредоточится на создании общей AI-инфраструктуры и построении внутренней LLM-платформы — чтобы любой сотрудник Компании мог создавать новые инструменты на единой технологической базе.

Вторая ключевая задача — разработка внешних AI-продуктов, включая AI-ассистентов, которые будут работать и за пределами экосистемы компании, и предназначаться не только её клиентам.

В компании считают, что ИИ — это не отдельная функция, а способ работать. Желаем Дмитрию успехов на новой позиции.

2❤107👍63🗿61😁23🤨18🔥6🤔4🤯111

17.8K views08:06

Data Secrets

Мы?

😁349🔥34❤22💯11🤔9👍721

18.1K views09:51

Data Secrets

Маск пообещал сделать Альтмана и Брокмана «самыми ненавидимыми людьми в Америке»

Так он ответил Брокману после того как тот накануне суда предложил ему взаимный отказ от претензий:

К концу этой недели вы с Сэмом станете самыми ненавидимыми людьми в Америке. Если вы будете настаивать, так и случится.

Это произошло в личной переписке за несколько дней до суда. А теперь OpenAI приобщают эту переписку к делу в федеральном суде. Их юристы используют ее как доказательство того, что преследования Маска сводятся к личной обиде на Альтмана и Брокмана, и он организует масштабную публичную компанию против них, а не просто суд.

165😁32🤩21❤15🔥4🍓2👍1🤓1🦄1

17.5K views10:56

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Wildberries & Russ проведет Inside AI Meetup 20 мая в Москве и онлайн

Будут реальные кейсы:
— Высоконагруженная модерация с векторным поиском
— AIOps-подходы к управлению ML-сервисами
— Практики построения RAG-систем
— Тонкости реранкинга
— Реальные этапы запуска LLM-продуктов и еще многое другое.

Среди спикеров эксперты Wildberries & Russ, MWS, Avito, Сбера, Альфа-Банка, red_mad_robot.

Советуем ивент для senior ML/AI инженеров, MLE, DS, инженеров платформ и для всех, кто строит или масштабирует AI-системы в продакшене.

Регистрация и прочие подробности — по ссылке. Приглашайте коллег.

🗿48❤9🤔9😁8🔥3🤯3👍2👨‍💻1

16.8K views15:02

Data Secrets

Создатели SWE-bench представили новый бенчмарк по программированию, на котором абсолютно все современные модели выбивают ровно 0%

Он называется ProgramBench, и суть его проста: агент получает только скомпилированный исполняемый бинарник и документацию, и его задача – спроектировать код, который при сборке будет полностью соответствовать поведению исходного файла (без доступа к Интернету).

При этом агент должен самостоятельно определиться с архитектурой и выбрать структуру проекта. Собственно, здесь сложности и начинаются: LLM хорошо умеют писать плоский код в одном файле, а вот с многофайловыми проектами, где нужна низкоуровневая логика, работают плохо.

Итог: даже результат Claude Opus 4.7 и GPT-5.4 – это полный ноль.

Кажется, у нас новый претендент на звание самого интересного бенчмарка.

https://programbench.com/

🔥306😁102👍51❤21🗿12🕊2🤝1

17.8K viewsedited 20:22

Data Secrets

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

Калистеника от Boston Dynamics

Новое вирусное видео робота Atlas они выложили с подписью:

Балансировать коммерческие цели и исследования в робототехнике непросто, но с Atlas мы заставляем это работать.

Кстати, вполне возможно, что экземпляр на видео уже работает но основе Gemini Robotics от Google. Компании заключили партнерство в начале года, и теперь совместно работают над новым поколением гуманоидов.

🔥129❤31🤯197😁5👏4👍3

15K viewsedited 07:29

Data Secrets

14 мая Газпромбанк.Тех проведет технологическую конференцию ГПБ КОНФ!

На одной площадке встретятся представители ИТ, инноваций, науки и обсудят, как сегодня запускать и масштабировать сложные решения в финтехе.

Что ждет участников?

Два трека программы:
- Как Акселератор Газпромбанк.Тех становится агентом технологических изменений
- Какие инженерные решения создаются внутри банка

Реальные кейсы:
- Как стартапу зайти в пилот с крупным банком
- Что отличает «демо» от промышленного внедрения
- Какие требования по безопасности, данным и масштабированию у корпоративного заказчика

А еще нетворкинг по делу: возможность пообщаться с командами акселератора и экспертами банка и презентовать свои проекты.

Когда: 14 мая 2026 в 12:00
Где: Москва, Конгресс-центр Connect

Регистрация открыта по ссылке

Реклама. Рекламодатель «Газпромбанк» (Акционерное общество)
ИНН: 7744001497

🗿20❤7😁6🔥5🤯5⚡3👍2🤨2

13K views08:54

Стартап Subquadratic анонсировал языковую модель SubQ с контекстным окном 12М токенов

Это не все: она также выдает невероятную скорость в 150 токенов/сек, обгоняет Claude Opus 4.6 на SWE-bench, и при этом ее стоимость составляет 5% от стоимости Opus (прочитайте это снова).

Секрет SubQ, как говорят создатели, в архитектуре. А точнее, в использовании нового вида механизма внимания – sub-quadratic sparse-attention. Идея в том, чтобы вычислять внимание только по разреженному набору наиболее важных связей, а не по всей матрице целиком.

Метод позволяет достичь линейной (!!!) вычислительной сложности относительно длины контекста и на длинных контекстных окнах достигает ускорения в 52 раза относительно FlashAttention.

Звучит как полный прорыв в экономике инференса. Но, как обычно, есть нюанс: пока все эти громкие заявления живут только на словах.

Проект находится в закрытой бете, техрепорта нет, доступов нет. Пока выложили только небольшой блог и разбор их механизма внимания.

Посмотрим, что из этого выйдет

😁13274🤯43❤17⚡8🤔8👍2🤩1👨‍💻1

14K views10:52

About

Blog

Apps

Platform