Data Secrets
Anthropic выпустили Claude Managed Agents – среду для запуска сложных и долгих агентных задач По сути, автопилот: вы задаете цель, инструменты и ограничения, а платформа берет на себя весь рантайм, все планирование, весь мониторинг и инфраструктуру. То…
This media is not supported in your browser
VIEW IN TELEGRAM
1000 и 1 стартап на агентах сегодня:
🫡77 24 11❤4👏2👾1
ReplaceMe: в ИТМО придумали, как радикально ускорять LLM без дообучения
На конференции Data Fusion уже 5 лет вручают премию Data Fusion Awards. Награждают компании, лаборатории и отдельные статьи. С каждым годом популярность премии растет: в 2026 на трек "Научный прорыв года в ИИ" поступило уже более 140 заявок. Призовой фонд составил 3 миллиона рублей.
Поздравляем победителей этого года и советуем к прочтению их работы:
1. Татьяна Земскова с серией работ о 3DGraphLLM – про то, как ребра графов могут помочь роботам лучше понимать окружающий мир
2. Александр Колесов с серией работ Field Matching – о разработке генеративной модели на основе идеи электростатического согласования полей
3. Дмитрий Шопхоев с работой ReplaceMe – про сжатие LLM
Последняя работа приглянулась нам особенно. Студенты ИТМО с научными руководителями обнаружили крайне интересную вещь: в трансформерах целые группы слоев можно схлопывать до линейных операций, существенно ускоряя модели без больших потерь в качестве.
Почти любая попытка прунинга обычно упирается в необходимость дообучения, но здесь ученые продемонстрировали совершенно другой подход. Они берут последовательность трансформер-блоков, которые "по идее" выполняют сложные нелинейные преобразования, и заменяют их одной линейной операцией, подобранной так, чтобы она максимально точно воспроизводила их поведение.
Для этого не нужно обучать модель заново – достаточно прогнать небольшой калибровочный датасет через оригинальную сеть и посчитать линейное отображение между входами и выходами этих блоков.
Авторы показывают, что можно удалить примерно до четверти слоев и сохранить около 90% исходной производительности. Это очень сильный результат, если учитывать, что речь идёт о полностью training-free подходе. На фоне других методов сжатия ReplaceMe выглядит особенно сильно: при сопоставимом уровне прунинга он держит качество лучше большинства подходов и при этом избавляет от дорогостоящего дообучения.
Действительно значимая работа. Еще раз поздравляем авторов с заслуженной победой и желаем дальнейших сильных результатов и научных прорывов!
На конференции Data Fusion уже 5 лет вручают премию Data Fusion Awards. Награждают компании, лаборатории и отдельные статьи. С каждым годом популярность премии растет: в 2026 на трек "Научный прорыв года в ИИ" поступило уже более 140 заявок. Призовой фонд составил 3 миллиона рублей.
Поздравляем победителей этого года и советуем к прочтению их работы:
1. Татьяна Земскова с серией работ о 3DGraphLLM – про то, как ребра графов могут помочь роботам лучше понимать окружающий мир
2. Александр Колесов с серией работ Field Matching – о разработке генеративной модели на основе идеи электростатического согласования полей
3. Дмитрий Шопхоев с работой ReplaceMe – про сжатие LLM
Последняя работа приглянулась нам особенно. Студенты ИТМО с научными руководителями обнаружили крайне интересную вещь: в трансформерах целые группы слоев можно схлопывать до линейных операций, существенно ускоряя модели без больших потерь в качестве.
Почти любая попытка прунинга обычно упирается в необходимость дообучения, но здесь ученые продемонстрировали совершенно другой подход. Они берут последовательность трансформер-блоков, которые "по идее" выполняют сложные нелинейные преобразования, и заменяют их одной линейной операцией, подобранной так, чтобы она максимально точно воспроизводила их поведение.
Для этого не нужно обучать модель заново – достаточно прогнать небольшой калибровочный датасет через оригинальную сеть и посчитать линейное отображение между входами и выходами этих блоков.
Авторы показывают, что можно удалить примерно до четверти слоев и сохранить около 90% исходной производительности. Это очень сильный результат, если учитывать, что речь идёт о полностью training-free подходе. На фоне других методов сжатия ReplaceMe выглядит особенно сильно: при сопоставимом уровне прунинга он держит качество лучше большинства подходов и при этом избавляет от дорогостоящего дообучения.
Действительно значимая работа. Еще раз поздравляем авторов с заслуженной победой и желаем дальнейших сильных результатов и научных прорывов!
🔥213❤53👍41🗿14 7☃2🤯2 2🍓1👾1
OpenAI сделали новую Pro Lite подписку за 100 долларов
Доступы будут все те же самые, что и у «настоящего» Pro за 200$, только в Codex лимиты поменьше.
То есть: вам доступна GPT-5.4 Pro, ChatGPT Pulse и есть безлимитный доступ к Instant и Thinking моделям в ChatGPT, НО в Codex ваши лимиты в 5 раз больше, чем в Plus (а не в ~10 раз больше, как в полноценном Pro). А еще:
Опять же, все для конкуренции с Anthropic: у тех уже давно есть Max подписка за 100 долларов. Такой формат видимо пользуется популярностью, потому что хорошо закрывает большой и страшный для юзера разрыв между 20$ и 200$, и очевидно больше подходит очень многим.
https://chatgpt.com/pricing/
Доступы будут все те же самые, что и у «настоящего» Pro за 200$, только в Codex лимиты поменьше.
То есть: вам доступна GPT-5.4 Pro, ChatGPT Pulse и есть безлимитный доступ к Instant и Thinking моделям в ChatGPT, НО в Codex ваши лимиты в 5 раз больше, чем в Plus (а не в ~10 раз больше, как в полноценном Pro). А еще:
Чтобы отпраздновать запуск, мы увеличиваем использование Codex до 31 мая, чтобы подписчики Pro Lite $100 получили до 10х лимитов ChatGPT Plus на Codex для реализации ваших самых амбициозных идей.
Опять же, все для конкуренции с Anthropic: у тех уже давно есть Max подписка за 100 долларов. Такой формат видимо пользуется популярностью, потому что хорошо закрывает большой и страшный для юзера разрыв между 20$ и 200$, и очевидно больше подходит очень многим.
https://chatgpt.com/pricing/
👍65🔥24❤14😁7
Оператора зовут Афанасий Иванов (сокращенно – АИ). Он использует те же инструменты и интерфейсы, что и живые сотрудники. Главная его фича – он позволяет легко масштабировать нагрузку, помогая бизнесу расти.
О таком ИИ-специалисте на GoCloud 2026 рассказал руководитель направления обработки естественного языка (NLP) в Центре ИИ Т-Банка Артем Бондарь. По его словам, Афанасий прошел тот же путь, что и обычный сотрудник, например, две недели получал доступ в системы. Именно благодаря такому drop-in сценарию он способен работать по тем же рельсам, что и живые люди.
Эксперт отметил, что самый заметный сегодня финансовый эффект дает автоматизация поддержки и операционки. Для этого задействуют целый спектр GenAI-подходов. Помимо AI-воркера, в компании есть еще два основных направления. Для четко регламентированных бизнес-процессов — пошаговая автоматизация с помощью LLM, а для общих задач — агенты, которые ищут решения в сконструированной для них среде.
Получается, KPI у Афанасия тоже есть. Что думаете, коллеги?
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤233👍74🤨66❤🔥50🔥40🗿18😁10🤯1
Традиционно начинаем день с обновлений Anthropic: на этот раз они выкатили Advisor Strategy
Это способ получить почти топовое качество без оплаты топовой модели. Вот как работает:
– Есть две модели: Executor (исполнитель, дешевая и быстрая модель, Sonnet) и Advisor (советник, дорогая и сильная модель, Opus).
– Исполнитель делает всю основную работу. Но когда сталкивается со сложным моментом, вызывает advisor, который подсказывает, что делать дальше.
– Все происходит внутри одного запроса и вмешательства юзера не требует.
На самом деле задач, которые требуют вмешательства сильной модели, не так много. Так что на практике такой подход выходит ощутимо дешевле Opus (примерно на 10-12%) с качеством сильно выше Sonnet. Например, относительно базового Sonnet на SWE bench метрика растет почти на 3 процентных пункта.
Полезная вещь
Это способ получить почти топовое качество без оплаты топовой модели. Вот как работает:
– Есть две модели: Executor (исполнитель, дешевая и быстрая модель, Sonnet) и Advisor (советник, дорогая и сильная модель, Opus).
– Исполнитель делает всю основную работу. Но когда сталкивается со сложным моментом, вызывает advisor, который подсказывает, что делать дальше.
– Все происходит внутри одного запроса и вмешательства юзера не требует.
На самом деле задач, которые требуют вмешательства сильной модели, не так много. Так что на практике такой подход выходит ощутимо дешевле Opus (примерно на 10-12%) с качеством сильно выше Sonnet. Например, относительно базового Sonnet на SWE bench метрика растет почти на 3 процентных пункта.
Полезная вещь
❤120🔥54👍30😁2
Practical ML Conf 2026 принимает заявки на доклады
Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+.
Ждут именно практику: ML-технологии, которые уже работают в продакшене и приносят измеримую пользу. Заявки оцениваются по четырём критериям – новизна, польза для сообщества, практическая применимость и техническая глубина.
Тем, кого отберут, помогут с подготовкой: проработка доклада с программным комитетом, работа с тренером по публичным выступлениям, оформление презентации от дизайнеров. Плюс промо до и после конференции.
Ключевые даты:
➖ до 22 мая – прием заявок
➖ 6-10 июля – решение программного комитета
➖ август-сентябрь – подготовка совместно с комитетом
➖ 19 сентября – выступление
Если есть что рассказать по существу – это хороший повод заявить о себе перед профессиональным сообществом.
Подробности здесь
Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+.
Ждут именно практику: ML-технологии, которые уже работают в продакшене и приносят измеримую пользу. Заявки оцениваются по четырём критериям – новизна, польза для сообщества, практическая применимость и техническая глубина.
Тем, кого отберут, помогут с подготовкой: проработка доклада с программным комитетом, работа с тренером по публичным выступлениям, оформление презентации от дизайнеров. Плюс промо до и после конференции.
Ключевые даты:
Если есть что рассказать по существу – это хороший повод заявить о себе перед профессиональным сообществом.
Подробности здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥6❤🔥3👍3😁2🤔2🗿2🤗1
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁343 84🗿29🆒14💯11👍7🤯5😎5❤2🔥2🦄1
Стало известно, что Anthropic собирается разрабатывать собственные ИИ-чипы
Сейчас они используют смесь из GPU Nvidia, TPU от Google и чипов Amazon. Но спрос на Claude продолжает быстро расти, и Anthropic снова сталкивается с нехваткой ускорителей.
С помощью своих чипов они планируют еще больше диверсифицировать инфраструктуру и снизить зависимость от внешних вендоров.
Напоминаем, что OpenAI тоже занимаются разработкой собственных чипов, так что это уже тренд.
Сейчас они используют смесь из GPU Nvidia, TPU от Google и чипов Amazon. Но спрос на Claude продолжает быстро расти, и Anthropic снова сталкивается с нехваткой ускорителей.
С помощью своих чипов они планируют еще больше диверсифицировать инфраструктуру и снизить зависимость от внешних вендоров.
Напоминаем, что OpenAI тоже занимаются разработкой собственных чипов, так что это уже тренд.
❤73👍39🔥22😁9💯2⚡1
Как перейти от ИИ-экспериментов к рабочим системам
Рассказываем, где узнать реальный опыт тех, кто встроил искусственный интеллект в ключевые процессы компании и извлек из этого реальную выгоду. 22 апреля присоединяйтесь к конференции МЛечный путь от Selectel, провайдера инфраструктуры для ИИ.
Эксперты топовых ИТ-компаний расскажут:
🔺Как ускорить ML-пайплайны и снизить издержки на инференс без потери качества
🔺Как безопасно внедрить генеративные модели в ключевые процессы и управлять эффектом этого внедрения
🔺Как интегрировать модели в существующую ИТ-архитектуру
Конференция пройдет 22 апреля в Москве. Участие бесплатное, регистрируйтесь: https://slc.tl/y3n1g
Реклама. АО "Селектел". erid:2W5zFHkxnsK
Рассказываем, где узнать реальный опыт тех, кто встроил искусственный интеллект в ключевые процессы компании и извлек из этого реальную выгоду. 22 апреля присоединяйтесь к конференции МЛечный путь от Selectel, провайдера инфраструктуры для ИИ.
Эксперты топовых ИТ-компаний расскажут:
🔺Как ускорить ML-пайплайны и снизить издержки на инференс без потери качества
🔺Как безопасно внедрить генеративные модели в ключевые процессы и управлять эффектом этого внедрения
🔺Как интегрировать модели в существующую ИТ-архитектуру
Конференция пройдет 22 апреля в Москве. Участие бесплатное, регистрируйтесь: https://slc.tl/y3n1g
Реклама. АО "Селектел". erid:2W5zFHkxnsK
🗿12👍4❤3😁3
SWE-bench Verified и Terminal-Bench могут быть на 100% взломаны с помощью простого хака
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA☕️
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁174 36 12❤10👍4⚡1🔥1