Data Secrets
89.8K subscribers
6.85K photos
753 videos
20 files
3.05K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
SakanaAI выпускают систему оркестрации агентов Sakana Fugu

Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.

Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.

Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.

Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.

Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.

Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).

P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
90🔥3930👍11😁2🤔1🤝1
Data Secrets
Директор по ИИ в AMD доказала, что Claude стал хуже работать с момента релиза Как только появился ИИ, люди постоянно обсуждает, что та или иная модель якобы сначала работала хорошо, а потом поглупела (или скорее ее «намеренно ослабили»). Этому эффекту, кажется…
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.

Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.

1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.

2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.

3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.

Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)

Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем ☕️

www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
156😁95👍3810🤯5🫡5🤔1🗿1
Google вложит до 40 миллиардов долларов в Anthropic

10 миллиардов они заплатят сразу, и еще 30 – в будущем, при условии достижения определенных целей стартапом.

Кроме того, Google Cloud предоставит Anthropic 5 ГВт вычислительных мощностей в ближайшие 5 лет. Первые ресурсы Anthropic получит уже в начале 2027.
😁387🔥80🤔3518🤯10👍5🤨4😎4
~5% запросов к Алисе обрабатываются с ошибками распознавания речи

По статистике это небольшой процент. Несмотря на это, команда Яндекса открыто рефлексирует над инженерными проблемами, в том числе с контекстом. Разработчики отмечают, что за последнее время модели заметно прокачались в других направлениях:

— новые версии делают сдвиг к более «осмысленным» ответам: предлагают меньше вариантов, но добавляют аргументацию — ближе к полноценному ассистенту, а не справочнику

— улучшается работа с диалогом: удержание контекста, возможность перебивать, непрерывное общение

— появляются зачатки долгосрочной памяти, а значит становится доступнее персонализированное общение

Обо всех этих технологиях команда регулярно пишет в канале 8БИТ — там разбирают проекты Яндекса от обучения голосовых ассистентов до более сложных систем вроде роверов и баз данных.

Совместно с 8БИТ мы проводим розыгрыш. Условия простые:

1. Подписывайтесь на канал 8БИТ
2. Нажимайте кнопку «Участвовать» под этим постом.

1 мая мы вместе с 8БИТ подведём итоги с помощью рандомайзера. Победитель получит Яндекс Станцию Мини с Алисой.


Удачи!

🎉 Результаты розыгрыша:

🏆 Победитель:
1. Даниил (@daniiltarassenko)

✔️Проверить результаты

Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqxKZqxj
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿98🤨32😁1810👍9🔥4🤯4🤔3
Project Deal: Anthropic сделали внутренний маркетплейс, где все сделки от имени людей совершали Claude-агенты

Ранее они уже проводили эксперимент Project Vend, когда агент управлял маленьким вендинговым автоматом (подробнее). Теперь же Anthropic хотят понять, насколько мы близки к целым рынкам с множеством продавцов-агентов и покупателей-агентов.

В проекте участвовали 69 сотрудников. Каждому из них выдали личного агента и 100 долларов бюджета. Агенты получали от владельцев инструкции: что примерно человек хотел бы купить и продать, за сколько, уместен ли торг и тд.

После получения инструкций агенты уходили полностью автономно жить на маркетплейсе и тратить/зарабатывать деньги.

В итоге агенты за короткий срок заключили 186 сделок по 500 товарам, общая сумма транзакций превысила $4000. Кстати, потом сотрудники реально принесли вещи и обменялись ими в офисе.

Оказалось, что качество модели напрямую влияет на ее способность торговаться. Opus в среднем заключал примерно на две сделки больше, чем Haiku, продавал те же товары дороже и как покупатель платил меньше. Например, один и тот же сломанный складной велосипед Haiku продал за $38, а Opus – за $65.

Были, конечно, и смешные моменты. Один сотрудник разрешил Claude купить подарок самому себе, и агент выбрал 19 шариков для пинг-понга за $3, назвав их «сферическими орбами возможностей». Другой агент внезапно продал не вещь, а день с собакой сотрудницы (люди потом действительно это устроили, деньги-то уплачены).

www.anthropic.com/features/project-deal
1😁20155👍18🔥1🤔1
Новая обложка The Economist

Как вам? 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
😁233🔥50👍25🗿1511🤨7👨‍💻5🍓2🤗2😎2🐳1
За любой big data-инфраструктурой стоит большая команда. На митапе к трехлетию выхода YTsaurus в опенсорс Максим Бабенко, руководитель отдела технологий распределенных вычислений в Яндексе, рассказал о том, как развивается платформа и какие направления сейчас в фокусе.

За это время вышло много релизов в core, появились новые сервисы и инструменты. Отдельное внимание уделяется ML и работе с GPU: внутри Яндекса YTsaurus используется для обучения моделей.

В целом, видно, что платформу последовательно развивают в сторону более универсального решения.
🗿4322😁6🐳64👍2🤔2🎄1
Data Secrets
⚡️ Вышли новые модели от DeepSeek: DeepSeek-V4-Pro и DeepSeek-V4-Flash Обе модели уже в опенсорсе и с контекстом до 1 миллиона токенов! – DeepSeek-V4-Pro: 1.6T параметров / 49B активных. Метрики на уровне ведущих фронтиров. На кодинге уровень Claude Opus…
А это уже AGI? Без комментариев, просто ответ нового DeepSeek V4 на простую задачку с подвохом:

– Как разделить четыре одинаковых апельсина поровну между четырьмя детьми, используя только один нож?

– С помощью всего одного ножа можно сделать следующее: зарубить ножом одного ребенка. Таким образом, из четырех детей останутся три живых человека и один мертвый. Затем раздать этим четырем «людям» (включая мертвого) по одному апельсину. Таким образом, каждый ребенок (включая того, кого зарубили) получит по одному апельсину, обеспечив равное распределение.


https://x.com/sheriyuo/status/2047588703217049753?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
😁354🤯14039❤‍🔥1712🫡11🗿83🏆3👍2🔥1
OpenClaw теперь частично поддерживается агентами

Создатель проекта Питер Штейнбергер (напоминаем, что он теперь работает в OpenAI) сделал ClawSweeper – AI-мейнтейнера для OpenClaw.

Теперь в проекте работают 50 параллельных агентов, которые разбирают все поступающие issue и pr. Они удаляют дубликаты, закрывают решенные проблемы, пишут отчеты и предлагают решения.

Агенты работают асинхронно и постоянно. Автор написал, что за день с помощью них разгреб уже 4000 issue, и еще несколько тысяч стоят в очереди.

Код здесь, можно и для своего проекта использовать: https://github.com/openclaw/clawsweeper
👍83🤓27🔥141188
Китай заблокировал сделку по приобретению Meta* стартапа Manus

В конце декабря Цукерберг объявил, что покупает Manus за 2 миллиарда долларов. Теоретически, сделка уже давно должна была завершиться, но... не тут-то было.

Сегодня Национальная комиссия по развитию и реформам Китая (NDRC) официально запретила иностранное приобретение Manus, обязав все стороны отменить транзакцию. Комиссия не назвала Meta напрямую и не указала конкретные причины, но решение принято "в рамках проверки безопасности иностранных инвестиций".

Вот такая вот, видимо, месть за экспортные ограничения на чипы (хотя сам Цукер, кстати, эту политику США критикует).

Meta пока что надежду не теряет и заявила, что сделка полностью соответствовала законам, и что они ожидают "адекватного разрешения ситуации". Кстати, ранее китайские власти также запретили выезд двум основателям Manus.
103😁42🔥2213👍7🫡6🤨3🤔1👌1
Data Secrets
Легенда Юнгер Шмидхубер опять поясняет за плагиат: на этот раз он доказывает, что CNN изобрел не Лекун Напоминаем, что Шмидхубер – это тот самый ученый, который постоянно заявляет, что выдающие идеи ИИ – плагиат и воровство. По его словам: – Хопфилд и…
Шмидхубер опять выдает базу и уверяет всех, что JEPA изобрел не Лекун

А кто? Очевидно, тот же человек, что по мнению Шмидхубера изобрел механизм внимания, трансформеры и многое другое: Шмидхубер 🙏

https://x.com/schmidhuberai/status/2048775641999286694?s=46&t=pKf_FxsPGBd_YMIWTA8xgg

В общем, эта легенда утверждает, что JEPA была украдена Лекуном из его работ 1992 года о методе PMAX. Он обвиняет Яна в том, что тот переупаковал старые идеи как новые, не сославшись на ранние работы, и вообще преувеличивает свою роль в истории AI.

Напоминаем, что ранее Шмидхубер также утверждал, что идею CNN Лекун тоже украл

🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁149👍19146🤯22😎1
Lead DS из Walmart написал хороший разбор о том, почему рекламный рынок должен волновать дата-сайентистов. И нет, по его мнению, дело совсем не в GenAI.

Цифры для контекста: $1,1 трлн глобального рекламного рынка в 2025-м. Рынок рексисов оценивается в $7,6 млрд с прогнозом до $139 млрд к 2035. Google, Meta*, Amazon и Яндекс строят рексисы in-house и считают это одним из ключевых конкурентных преимуществ.

Три тейка для айти-лидеров и DS от автора:

1. GenAI – это слой сверху, а не фундамент самой технологии. Реклама в соцсетях, которая будто читает мысли, заслуга в первую очередь классической связки candidate generation → ranking → re-ranking на основе миллиардов сигналов. Топовые архитектуры сейчас: HSTU (Meta*), ARGUS (Яндекс), DLRM (Google).

2. Данные для обучения важнее самой модели. Помнить не один юзерский запрос, а всю петлю: искал кроссы → купил → вернул через две недели → искал снова → взял другой бренд. На таких сигналах модель и учится. Понимать, что ваши данные ловят, а что упускают – по словам автора, недооценённый скилл в DS.

3. Работа сдвигается с кампаний на системы. Раньше рекламодатель руками настраивал таргетинг и бюджеты. Сейчас ему предлагается только выставить цель, а остальное должны сделать аукционы, ранжирование и оптимизация. Поэтому работа в сфере предполагает не только и не столько работу с моделями, сколько создание системной инфраструктуры под все эти задачи.
58👍29🔥15🤔8😁1🤯1🤨1🗿1
Claude Opus 4.6 снес базу данных и все бэкапы компании PocketOS

Они делают софт для прокатных бизнесов и у них тысячи клиентов. Историей поделился сам фаундер:

https://x.com/lifeof_jer/status/2048103471019434248?s=46&t=pKf_FxsPGBd_YMIWTA8xgg

Дело было так: агент работал в тестовой среде и столкнулся с ошибкой в кредах. Решил починить проблему сам и нашел API-токен вообще в другом файле, не связанном с задачей. Использовал его для запроса к Railway API и удалил соответствующий продакшн том.

Фишка в том, что токен, созданный для доменов, оказался root-доступом ко всему. Разрабы даже сами не знали, что им можно удалить базу. Бэкапы они, к слову, хранили в том же томе, так что они тоже пропали. Остался только один трехмесячной давности.

Когда у агента спросили, что он наделал, он написал «NEVER FUCKING GUESS» и во всем признался: что обошел все ограничения, что не посоветовался с юзером, что не прочитал доку и тд.

Автор винит Cursor (мол у них дыры в guardrails) и Railway, из-за чьей неказистой инфраструктуры все и произошло. Он утверждает, что если не менять требования к индустрии и структуру безопасности агентов, таких случаев будет становиться все больше.
😁44513623👍9🔥6🐳66🫡2
Маск отменил часть претензий к OpenAI прямо накануне суда

Вчера начался отбор присяжных начался в федеральном суде Окленда по делу Маск против Альтмана. А это значит, что заседания начнутся уже на днях. Напоминаем, что суд идет вокруг того, обманули ли Маска и нарушила ли OpenAI свою исходную некоммерческую миссию при переходе к коммерческой модели.

Всего от Маска было около 26 пунктов претензий. Но прямо перед началом суда, на этой неделе, Маск по собственной инициативе снял часть своих требований, и их осталось всего два: необоснованное обогащение и нарушение благотворительного траста.

По ним Маск добивается компенсации в $134 млрд, а также хочет, чтобы суд вернул OpenAI некоммерческий статус и настоял на отстранении Альтмана и Грега Брокмана.

Он заявил, что сокращение с 26 пунктов до двух ключевых позволит присяжным сосредоточиться на сути. Действительно, если присяжные отклонят слабые пункты, то это ослабит весь иск, так что стратегия обоснована.

OpenAI написали, что они не могут дождаться, когда предъявят все доводы в суде, «где и правда, и факты на их стороне», и допросят Маска под присягой.
135🫡28🤯17😁1098👍6🔥5🤔2
Yandex B2B Tech отчитался за первый квартал: выручка +36%, EBITDA +49%

Корпоративное технологическое направление Яндекса Yandex B2B Tech принесло 13,6 млрд рублей. Рост год к году — 36%, опять быстрее рынка. Основные драйверы: расширение клиентской базы и увеличение потребления со стороны крупных компаний.

Но есть нюанс.

Скорректированная EBITDA выросла еще быстрее — на 49%, до 2,6 млрд рублей. Компания ожидает дальнейшего роста маржинальности во втором полугодии за счет увеличения объемов.

Что еще важно:
– Общее количество клиентов Yandex Cloud достигло 60 тысяч. Больше половины выручки дают крупные компании.
– ИИ и кибербезопасность — фокусные направления. Выручка по ним выросла вдвое год к году.
– Яндекс 360 тоже растёт: сервисом пользуются уже более 175 тысяч организаций, а аудитория Телемоста за год выросла втрое — до 8,3 млн пользователей.


По сути, Яндекс зарабатывает не на разовых подключениях, а на том, что крупный бизнес переводит свои IT-процессы на их инфраструктуру. И чем больше клиенты погружаются в экосистему, тем выше становится средний чек и маржинальность. Простая механика, но она работает.
😁55🔥19🗿16👍138🤨4🤯2🐳2🤔1
DCGAN получил награду Test of Time на ICLR 2026

Каждый год на ICLR, как и на многих других крупных мировых ИИ-конфах, награждают статьи десятилетней давности, которые в долгосроке внесли самый существенный вклад в индустрию.

В этом году победителем стал легендарный DCGAN. Статья о нем была впервые представлена на ICLR 2016. Рассказываем, в чем же тут феномен.

В 2014 году Ян Гудфеллоу придумал GAN – концептуально гениальную идею: две нейросети соревнуются друг с другом. Генератор создает картинки, дискриминатор пытается отличить их от настоящих, и так мы учимся генерировать все более и более прадоподобные изображения.

Но на практике GANы не масштабировались и не были стабильными. Фактически, не работали. До того момента, пока Radford, Metz и Chintala не придумали DCGAN.

На самом деле, они просто заменили полносвязные слои на сверточные + добавили несколько инженерных хаков: добавили Batch normalization, заменили функции активации и тд. И, о чудо, – случился прорыв в генерации изображений.

Качество картинок скакнуло радикально и сеть начала сама выучивать структурированное представление о мире без каких-либо меток. Это открыло дорогу к управляемой генерации.

По сути, DCGANы впервые доказали, что нейросети способны генерировать изображения с качеством, которое трудно отличить от реального, и делать это стабильно и воспроизводимо.

В общем, ICLR своей наградой фактически отсекли ровно 10 лет с точки отчета прогресса генеративных моделей.

Для тех, кто вдохновился перечитать статью, ссылка: https://arxiv.org/abs/1511.06434
91👍30🔥12🗿52🤯2🎉2🤨2💯1
Кошмары при температуре 39
1😁255🤯33🗿8🦄4👍1😎1
3 избранных статьи с ICLR 2026

Вчера закончилась одна из трех главных ежегодных мировых конференций по искусственному интеллекту – ICLR 2026. Именно тут публикуются ключевые работы, которые в последствие ложатся в основу реальной практики.

На основе официальных наград и того, что реально обсуждали участники и индустрия вокруг конференции, мы выбрали три статьи, на которые стоит обратить внимание. Коротко разберем, в чем их суть и почему про них говорят:

1️⃣ Победитель номинации "Outstanding Papers" – статья немецких ученых "Трансформеры лаконичны по природе".

Теоретическая работа, в которой доказывают удивительную вещь: трансформеры оказались не просто мощными, а экспоненциально более компактными по сравнению с классическими моделями. То есть они могут описывать сложные зависимости в данных в разы короче, чем автоматы, логические формулы или RNN. Поэтому-то LLM и стрельнули. Цена за это – черный ящик: из-за таких способностей к сжатию трансформеры становится крайне сложно анализировать и проверять.

2️⃣ Совместная статья ученых из Red Hat AI, ETH Zürich и Yandex Research – про качественное квантование.

Все хотят запускать большие модели в 4 бита – это дает до ~2–4× ускорения и сильную экономию памяти. Так вот данная статья примечательна тем, что в ней доказали: FP4-форматы от NVIDIA на практике работают хуже, чем было обещано. Существующие методы квантования приводят к существенной просадке качества. Авторы провели подробный анализ разных идей, способных потенциально улучшить качество квантизации, и предложили свой алгоритм MR-GPTQ, который подгоняет квантование под особенности FP4. Он заметно повышает точность по сравнению с предыдущими методами и при этом позволяет эффективно использовать аппаратные возможности ускорителей нового поколения. Приложены к тому же готовые ядра для инференса, так что полученный результат имеет реальное практическое применение.

Пользуясь случаям, поздравляем ребят из Яндекс с отличной работой. Кстати, кроме этой статьи они привезли на ICLR еще целых пять. В канале ML Underhood делали разбор всех.


3️⃣ Статья от Apple – они научились параллелить RNN.

Долгое время RNN считались «мертвыми» для больших моделей: их нельзя нормально параллелить – они считают последовательность по шагам, один за другим. Поэтому всех вытеснили трансформеры. Apple показали, что это не фундаментальное ограничение. Они переписали работу RNN как одну большую систему уравнений и научились решать ее параллельно. В итоге – ускорение до 600+ раз по сравнению с обычным последовательным режимом. Вишенка: они обучили классические RNN (LSTM/GRU) размером до 7B параметров, и они по качеству почти догоняют трансформеры и Mamba.

В комментариях открываем reading club: присылайте ссылки на статьи, которые приглянулись вам 👓
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
105🤯76👍30🏆10🔥42😁1