Machinelearning

📌

Могут ли LLM переписать софт с нуля?

Epoch AI совместно с METR собрала бенчмарк MirrorCode, который проверяет, способны ли современные модели восстановить полноценное приложение, не видя его исходников.

Спойлер: на мелочи да, на крупных проектах пока нет.

🟡

Механика

Агенту показывают 25 целевых программ, от Unix-утилит и криптографии до биоинформатики, интерпретаторов и статических анализаторов и ставят задачу написать их заново на одном из 6 языков (Python, C, Rust, Go, OCaml, Ada).

Доступ к оригиналу дают только на запуск: можно гонять бинарник, смотреть в документацию и смотреть выводы, но не читать код.

Решение проверяется сквозными тестами на байт-точное совпадение stdout/stderr, причём часть тестов скрыта от модели, чтобы исключить захардкоженные lookup-таблицы.

Что важно, дают щедрый вычислительный бюджет. Моделям разрешают шикануть вплоть до 10 миллиардов токенов на крупный таск.

На самом дорогом прогоне агент работал 19 дней и сжёг $2 600, полностью без участия кожаного вообще.

🟡

Результаты

🟢

Claude Opus 4.7 - 56% идеальных решений и единственный, кто закрыл задачи категории Large.

В частности, он переписал gotree (биоинформатический тулкит на 16 000 строк Go) за 14 часов и $251, пройдя 2000 из 2001 тестов. Авторы говорят, что инженеру без ИИ на это потребовалось бы от 2 до 17 недель.

🟢

GPT-5.5 - 44%. На задачах, где он всё-таки добирался до близкого к идеалу решения, выходил в среднем в 2 раза дешевле Opus.

🟠

Gemini 3.1 Pro Preview - 32%.

Простые утилиты (uuidparse, qsv_select или hexyl) модели разбирают уверенно, там почти всегда 100%. Даже когда финальный результат не идеален, агенты обычно проходят больше 90% тестов.

🟡

Где спотыкаются

Самая массовая категория ошибок - пограничные случаи: около 40% запусков Opus 4.7 проваливают хотя бы один скрытый тест из-за пропущенной мелочи.

Дальше идут решения, заточенные под видимые тесты, преждевременная сдача и пропуск целых фич, которые есть в документации, но не в тестах.

Попытки читерить хардкодом. У GPT-5.5 это случилось в 24% запусков, у Gemini - в 31%. Opus 4.7 в финальных сабмитах не схитрил ни разу.

Самый крепкий орешек - питоновский линтер ruff. Лучший запуск на скрытых тестах вытянул только 67%. Похожая история с математическим пакетом giac_subset и библиотекой mailauth для email-аутентификации.

🟡

Странности экономики

GPT-5.5 решает задачи примерно в 3 раза дороже, чем GPT-5, а Opus 4.7, наоборот, в 3 раза дешевле, чем Opus 4.1.

🟡

Меморизация

Все таргеты опенсорсные и модели вполне могли видеть их во время обучения, поэтому прогнали отдельный тест, где модели восстанавливали функции по имени и потом сравнили с реальным кодом.

Следы меморизации нашлись у 17 из 25 программ. Но при этом модели успешно решали незнакомые по обучению программы (nonogrid и tssql) и проваливали известыне (sed, ruff), так что меморизация явно не повод для скепсиса.

🟡

Вывод

Агенты умеют автономно работать сутками и пилить проекты, которые у человека заняли бы недели, но для этого нужна жёсткая спецификация в виде эталона и тестов. Без чёткого фидбек-сигнала и на действительно крупных кодовых базах всё пока сыпется.

По меркам бенчмарков прогресс внушительный, по меркам полной автономии - ещё рано.

Авторы выложили в опенсорс обвязку агента и 22 таргета, оставив 3 в приватном тестовом наборе.

🟡

Техотчёт

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark #MirrorCode #EpochAI

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤59👍24🔥14🗿3👻2👌1

20K views11:05

Machinelearning

✔️

DeepSeek выложила DSpark - новый метод speculative decoding для V4 Flash и V4 Pro.

Заявленный прирост throughput: от 51% до 400% в зависимости от модели и случаев использования.

Смысл speculative decoding простой: маленькая или более быстрая модель заранее предлагает несколько следующих токенов, а основная модель проверяет их пачкой. Если предсказание совпадает, генерация идёт быстрее, потому что дорогих проходов большой модели становится меньше.

DeepSeek показывает ускорение не только на своих V4 Flash и Pro, но и на других моделях, включая Gemma и Qwen.

Это потенциально довольно полезный inference-подход для разных open-weight моделей.

Для продакшена это важная история.

Если качество ответа остаётся близким, а throughput растёт в разы, можно обслуживать больше запросов на том же железе или снижать стоимость генерации.

GitHub:
https://github.com/deepseek-ai/DeepSpec

Paper:
https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

HF:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥117❤14👍10🥰9👏3

24K viewsedited 14:46

Machinelearning

✔️

Власти США разрешили избранным американским компаниям использовать Mythos

Список допущенных корпораций не раскрываются, но известно что их число около 100.

Это разрешение стало первым послаблением после введения госконтроля над распространением продуктов Anthropic.

Правительство классифицирует Mythos как технологию двойного назначения, поэтому доступ предоставляется выборочно и только внутри страны.

По словам Министра торговли США, Anthropic согласилась сотрудничать с властями по протоколам, стандартам и выпуску своих моделей.

В Anthropic уточнили, что компания продолжит работать над расширением доступа к Mythos 5, а также над снятием запрета с Fable 5.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥93🤬33❤17😁12🫡5👍4👻4🤔2🤣2🎅1

23.8K views14:18

Machinelearning

⚡️ На ФКН НИУ ВШЭ и ФПМИ МФТИ идет набор на магистратуры по разработке умных устройств

Совместные программы с Яндексом для тех, кто хочет работать на стыке железа и ML.

Что будет в программе:

• Разработка встроенного ПО под ограниченные ресурсы
• Интеграция ML-моделей
• Проектирование и прототипирование умных устройств
• Практика на реальных технологиях Яндекса

Чем нравится магистратуры. Будете учиться у инженеров команды Алисы и Умных устройств. Задачи будут из реальной индустрии, а не учебные кейсы. Актуально выпускникам технических специальностей, которые смотрят в сторону робототехники.

Узнать всю информацию о поступлении можно по ссылке

🤣32👍9❤6🔥1🥰1

17.6K views09:00

Machinelearning

✔️

Google реорганизует команду ИИ-кодеров

Команда по разработке ИИ для кодинга станет постоянной структурой. Подразделение займет место между этапами pre-training и post-training и возьмет на себя расширение возможностей моделей в программировании.

Причина реструктуризации в отставании от Anthropic в сегменте ИИ для кодинга. Google ошибочно полагала, что базовые LLM освоят программирование автоматически без выделенного обучения.

В результате инструмент Antigravity оказался проблемным, разработчики раскритиковали Gemini 3.5 Flash за высокую цену, а релиз флагманской Gemini 3.5 Pro до сих пор не состоялся.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔72😁26😢17❤15😐8👍5🤨4🔥3👏2

16.5K views10:10

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Meta* показала Brain2Qwerty v2 — чтение текста из мозга без вживления электродов

AI at Meta анонсировала вторую версию пайплайна, который восстанавливает напечатанный текст напрямую из мозговой активности, не вскрывая череп. Первая версия только что вышла в Nature, v2 — продолжение той же линии.

v1 работала на уровне символов: модель угадывала отдельные клавиши по сигналу MEG. v2 поднялась на уровень слов и смысла - декодит не «буквы по одной», а семантику фраз, и делает это в реальном времени, end-to-end, из сырого сигнала. Это и есть качественный скачок, а не просто +X% к точности.

Цифры, которые стоит знать (по v1, из Nature). С магнитоэнцефалографией (MEG) средняя ошибка на символах около 29–32%.

С дешёвой и носимой ЭЭГ - 67%, то есть пока почти неюзабельно. Отсюда и главное ограничение: рабочая точность держится на громоздком неносимом MEG-сканере, а не на бытовом устройстве.

Метод неинвазивный, но это лабораторная история: MEG стоит как небольшая квартира, требует экранированной комнаты и неподвижной головы. До «гарнитуры дома» отсюда далеко.

Адресат - люди с поражениями мозга и неврологическими нарушениями, потерявшие речь. Для них даже несовершенный неинвазивный канал коммуникации - это много.

Что Meta пока не раскрыла по v2: точность, скорость набора, размер словаря, работает ли это всё ещё только на MEG. Заявка громкая («самый результативный end-to-end декодер»), но проверяемых метрик второй версии в публичном анонсе нет.

https://ai.meta.com/blog/brain2qwerty-brain-ai-human-communication/

*признана экстремистской и запрещена в России.

1👍48🤔33🔥18👏12❤11🤷‍♀3🌚1💘1

14.9K views13:35

Machinelearning

LLM в поддержке: от шаблонов к точной работе с документами компании

✅ На открытом уроке разберём, как устроены современные решения на базе LLM, почему они не просто генерируют текст, а используют знания компании для подготовки ответов, и как такие инструменты помогают ускорять обработку обращений.

На практических примерах покажем, как документы превращаются в базу знаний для ИИ, как происходит поиск информации по запросу клиента и каким образом LLM помогает оператору поддержки готовить ответы. Также поговорим о том, как подобные решения применяются в бизнесе уже сегодня.

Урок пройдёт 6 июля в 20:00 МСК в преддверии старта курса «LLM-инженер». Это возможность познакомиться с современным подходом к созданию интеллектуальных сервисов, задать вопросы эксперту и понять, как внедрять подобные решения в реальные процессы компании.

➡️ Регистрация открыта: https://otus.pw/vn5P/?erid=2W5zFHNdyn1

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

👨‍💻28👏16🤣7👍6🔥4❤2

14.4K views14:03

Machinelearning

⚡️

OpenAI могла называться совсем иначе

В сеть разошёлся старый email от 23 ноября 2015 года, где Грег Брокман обсуждает с Илоном Маском и Сэмом Альтманом варианты названия будущей OpenAI.

Среди идей были:

• Axon

• AI Summer

• Difference Engine

Особенно забавно смотрится AI Summer. Сегодня это звучит почти как название конференции, а не компании, которая стала одним из главных игроков в ИИ.

Difference Engine выглядело бы красиво для фанатов истории вычислений, но слишком тяжеловесно для массового бренда.

https://x.com/TechEmails/status/2071254764558676130

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡43🤔18❤14👏7👍6😁3🔥2

14K views15:05

Machinelearning

🧠

Серый рынок Claude в Китае

В Китае набирают популярность API transfer stations — прокси, которые продают доступ к Claude за 5-10% от официальной цены.

Схема простая: пользователь отправляет промпт не в Anthropic, а на промежуточный сервер. Прокси гонит запрос через зарубежные аккаунты Claude, возвращает ответ и принимает оплату через WeChat или Alipay.

Дешевизна берётся не из скидок Anthropic. Там фарм аккаунтов, бесплатные кредиты, шаринг подписок, перепродажа квот, серые платёжные схемы и иногда совсем грязные источники.

Для пользователя риск очевидный - он покупает «дешёвый inference», но отдаёт неизвестному посреднику код, промпты, ответы, tool calls и рабочие данные. Прокси может подменить модель, накрутить токены или собрать всё это в датасет.

Для Anthropic проблема ещё хуже. KYC, баны и abuse-monitoring начинают видеть не реального пользователя, а слой прокси.

Один аккаунт можно забанить, но сама цепочка доступа остаётся живой.

Так вокруг закрытых frontier-моделей появляется теневой рынок: аккаунты, платежи, маршрутизация, ресейл inference и сбор данных под видом дешёвого API.

https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens-in

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔75👍64❤13🤬13🔥7🥰2

14.2K views15:45

Machinelearning

❤️

16 июля стартует Yandex AI Studio Series Summer Edition — событие для разработчиков, ML/ИИ-инженеров, продуктовых менеджеров и бизнес-аналитиков, которые создают ИИ-агентов и комплексные системы автоматизации.

Эксперты Яндекса разберут лучшие практики разработки ИИ-приложений корпоративного уровня и покажут, как довести идею до рабочего решения. В программе — управление контекстом и памятью в агентских API, создание голосовых агентов на Realtime API, разработка ИИ-ресёрчера с поиском в интернете и по базе знаний, а также построение мультиагентских систем для end-to-end автоматизации процессов.

Участников ждет две недели, насыщенных контентом:
— PRO-вебинары с разбором архитектуры современных ИИ-систем;
— практические кейсы по работе с LLM, агентскими API и инструментами, MCP;
— интенсивы для самостоятельной практики и закрепления знаний;
— обзор новых возможностей Yandex AI Studio и планов развития платформы;
— архитектурные доклады и воркшоп от ведущих разработчиков.

Лучший способ разобраться в современных ИИ-инструментах — увидеть, как их применяют на реальных проектах. Присоединяйтесь к Yandex AI Studio Series и регистрируйтесь на событие.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤54🔥21👏10🤬10🤣9🤩7🏆3👍1😨1

14.6K views16:04

Machinelearning

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Аудит счетов клиентов Anthropic выявил ошибки в инвойсах: около $1,7 млн были ошибочно начислены сверх нужной суммы.

Лора Брэттон из The Information объясняет, как такое могло произойти:

«Возможно, AI-агент продолжал повторять задачу, которую выполнял неправильно, а клиент не замечал, что агент снова и снова делает новые попытки. И за каждую из этих попыток ему продолжали начислять оплату».

@ai_machinelearning_big_data

😁74🤔51😢24🥰16👍7❤4🤬4🔥1🌭1

14.3K viewsedited 17:05

Machinelearning

Идём на AI Hardcore Day в офис Авито на Лесной 11 июля! 🤩

Будем слушать доклады о Spec-Driven Development, разработке и тестировании MCP, атаках на GenAI-агентов.
А после — нетворкать на террасе.

⚡ Регистрация и подробности — по ссылке.

Кстати, доклады будут не под запись — советуем не пропускать!

Please open Telegram to view this post

VIEW IN TELEGRAM