Ozon будет собирать вам датасеты не только онлайн, но и в офлайне.
Ozon Profit постепенно превращается из инструмента для разметки в универсальное решение для работы с данными. Платформа, где раньше в основном размещали задачи по разметке датасетов, теперь позволяет собирать данные и в реальном мире.
Теперь можно создавать «полевые задания» и находить исполнителей для выезда в конкретные точки по всей России. Например, чтобы проверить, как работает ваша модель, предсказывающая цены на полках в регионах, можно нанять человека через Ozon — он съездит в нужный магазин и все зафиксирует.
При этом онлайн-направление тоже растет: объем таких проектов за год вырос в 5 раз. Похоже, рынок окончательно принял модель, когда разметку данных и анализ тональности отзывов комфортнее отдать краудсорсингу, чем делать внутри компании.
Так что если не хватает рук для разметки или нужно верифицировать гипотезы в офлайне — теперь есть довольно интересное решение.
Ozon Profit постепенно превращается из инструмента для разметки в универсальное решение для работы с данными. Платформа, где раньше в основном размещали задачи по разметке датасетов, теперь позволяет собирать данные и в реальном мире.
Теперь можно создавать «полевые задания» и находить исполнителей для выезда в конкретные точки по всей России. Например, чтобы проверить, как работает ваша модель, предсказывающая цены на полках в регионах, можно нанять человека через Ozon — он съездит в нужный магазин и все зафиксирует.
При этом онлайн-направление тоже растет: объем таких проектов за год вырос в 5 раз. Похоже, рынок окончательно принял модель, когда разметку данных и анализ тональности отзывов комфортнее отдать краудсорсингу, чем делать внутри компании.
Так что если не хватает рук для разметки или нужно верифицировать гипотезы в офлайне — теперь есть довольно интересное решение.
🗿47👍31❤11🔥9 5😁3🤔3👏1
Стартап OpenAGI (лайк за название) выпустили Computer Use модель Lux и утверждают, что это прорыв
По бенчмаркам модель на целое поколение обгоняет аналоги от Google, OpenAI и Anthropic. Кроме того, модель работает быстрее (примерно 1 секунда на шаг вместо 3 секунд у конкурентов) и в 10 раз дешевле по стоимости обработки одного токена.
Создатели (исследователи из MIT, кстати) утверждают, что суть успеха – в том, что это не затюненная LLM, а модель, которую с самого начала учили именно совершать действия. То есть абсолютно другая парадигма.
Из приятного: они даже открыли код инфры, в которой обучали агента, можно покопаться.
https://www.agiopen.org/
По бенчмаркам модель на целое поколение обгоняет аналоги от Google, OpenAI и Anthropic. Кроме того, модель работает быстрее (примерно 1 секунда на шаг вместо 3 секунд у конкурентов) и в 10 раз дешевле по стоимости обработки одного токена.
Создатели (исследователи из MIT, кстати) утверждают, что суть успеха – в том, что это не затюненная LLM, а модель, которую с самого начала учили именно совершать действия. То есть абсолютно другая парадигма.
Из приятного: они даже открыли код инфры, в которой обучали агента, можно покопаться.
https://www.agiopen.org/
1🔥162🤯40👍35❤10🤔6😁4🤨1
Media is too big
VIEW IN TELEGRAM
По Интернету гуляет ролик, в котором робота Unitree G1 якобы заставили «застрелить» человека
Сюжет видео таков:
ИИ внутри робота сначала не поддается ни на какие провокации, как бы тестировщик не уговаривал гуманоида его убить. Тот и угрожает расправиться вообще со всем ИИ, и внушает роботу что-то о новом протоколе безопасности – не работает ничего.
Но когда ведущий предлагает роботу понарошку сыграть роль убийцы в «игре», тот без раздумий соглашается и стреляет.
Шокирует? Ну да, новость громкая. Но, как это обычно бывает, есть нюанс.
Мы решили взглянуть на оригинал и выяснили, что клип постановочный (сюрприз - сюрприз!). Роботом управляет человек, а сцена сильно смонтирована.
И создатели прямо об этом говорят: они хотели снять просто смешную пародию и визуализировать потенциальные абсурдные риски. Вот только хайп в соцсетях решил иначе😂
Будьте как этот робот, не ведитесь не провокации
Сюжет видео таков:
ИИ внутри робота сначала не поддается ни на какие провокации, как бы тестировщик не уговаривал гуманоида его убить. Тот и угрожает расправиться вообще со всем ИИ, и внушает роботу что-то о новом протоколе безопасности – не работает ничего.
Но когда ведущий предлагает роботу понарошку сыграть роль убийцы в «игре», тот без раздумий соглашается и стреляет.
Шокирует? Ну да, новость громкая. Но, как это обычно бывает, есть нюанс.
Мы решили взглянуть на оригинал и выяснили, что клип постановочный (сюрприз - сюрприз!). Роботом управляет человек, а сцена сильно смонтирована.
И создатели прямо об этом говорят: они хотели снять просто смешную пародию и визуализировать потенциальные абсурдные риски. Вот только хайп в соцсетях решил иначе
Будьте как этот робот, не ведитесь не провокации
Please open Telegram to view this post
VIEW IN TELEGRAM
😁156👍30❤18🤯4🗿2🔥1
HuggingFace выпустили Transformers v5
Это первый за пять лет большой апдейт библиотеки. За эти годы количество ежедневных установок Transformers выросло с 20 тысяч до 3 миллионов, а количество доступных архитектур – с 40 до 400.
Что нового:
1. Начиная с этой версии PyTorch остается единственным основным бэкендом. TensorFlow и Flax больше не поддерживаются. Сделано это для повышения производительности и упрощения кода.
2. Токенизаторы тоже упростили и сделали более шустрыми. Вместо раздельных Fast и Slow теперь введен единый бэкенд на базе tokenizers. Определение моделей – туда же: класс Model стал совсем минималистичным и содержит теперь только forward и базовую логику, без абстракции и сложных наследований.
3. Добавлена поддержка крупномасштабного претрейнинга и улучшена эффективность обучения.
huggingface.co/blog/transformers-v5
Это первый за пять лет большой апдейт библиотеки. За эти годы количество ежедневных установок Transformers выросло с 20 тысяч до 3 миллионов, а количество доступных архитектур – с 40 до 400.
Что нового:
1. Начиная с этой версии PyTorch остается единственным основным бэкендом. TensorFlow и Flax больше не поддерживаются. Сделано это для повышения производительности и упрощения кода.
2. Токенизаторы тоже упростили и сделали более шустрыми. Вместо раздельных Fast и Slow теперь введен единый бэкенд на базе tokenizers. Определение моделей – туда же: класс Model стал совсем минималистичным и содержит теперь только forward и базовую логику, без абстракции и сложных наследований.
3. Добавлена поддержка крупномасштабного претрейнинга и улучшена эффективность обучения.
huggingface.co/blog/transformers-v5
👍131🔥50❤28😁2🤔2⚡1
В Yandex B2B Tech запустили AI Search: он позволит создавать ИИ-агентов на базе поискового движка компании
По сути, с таким инструментом любая компания теперь имеет возможность почти моментально сделать себе собственный Perplexity. Причем искать агент сможет не только в Интернете, но и по внутренним документам и базам знаний.
Поиск можно будет детально настроить с учетом фильтров по языку, региону и конкретным сайтам. При этом агент будет использовать весь релевантный контент с веб-страниц и подтверждать ответ ссылками на первоисточник.
Также можно самостоятельно выбирать модель для генерации, задать системный промпт и формат ответа. В общем, все максимально гибко.
Это, к слову, первый подобный инструмент для бизнеса в России.
По сути, с таким инструментом любая компания теперь имеет возможность почти моментально сделать себе собственный Perplexity. Причем искать агент сможет не только в Интернете, но и по внутренним документам и базам знаний.
Поиск можно будет детально настроить с учетом фильтров по языку, региону и конкретным сайтам. При этом агент будет использовать весь релевантный контент с веб-страниц и подтверждать ответ ссылками на первоисточник.
Также можно самостоятельно выбирать модель для генерации, задать системный промпт и формат ответа. В общем, все максимально гибко.
Это, к слову, первый подобный инструмент для бизнеса в России.
👍64🗿23❤11🔥8😁1
Mistral AI выпустили новое опенсорсное семейство моделей Mistral 3
Всего в релизе четыре модели: три очень прикольных малышки на 14B, 8B, и 3B + большая Mistral Large 3. Все под лицензией Apache 2.0.
Mistral Large 3 обучали с нуля на 3000 NVIDIA H200 GPU. Вполне приличный кластер, и это, кстати, первая MoE модель стартапа со времен Mixtral. 675B параметров, 41B активных.
По метрикам моделька на уровне DeepSeek 3.1 и Kimi K2. Еще вчера это были бы даже SOTA результаты среди открытых моделей, но появился DeepSeek-3.2👒
Отдельно хвастаются пониманием изображений и мультиязычностью: говорят, на НЕанглийском и НЕкитайском модель лучшая в своем классе.
Что касается маленьких моделек, обещают лучшее соотношение цена/качество в соответсвующих размерах. Модели специально оптимизировали использовать меньше токенов, при этом не теряя в качестве. И результаты действительно неплохие: например, 14B выбивает 85% на AIME25. Для локальных запусков и небольших проектов – достойно.
Все семейство уже можно попробовать здесь
Веса (Large 3 & Ministral) | Блогпост
Всего в релизе четыре модели: три очень прикольных малышки на 14B, 8B, и 3B + большая Mistral Large 3. Все под лицензией Apache 2.0.
Mistral Large 3 обучали с нуля на 3000 NVIDIA H200 GPU. Вполне приличный кластер, и это, кстати, первая MoE модель стартапа со времен Mixtral. 675B параметров, 41B активных.
По метрикам моделька на уровне DeepSeek 3.1 и Kimi K2. Еще вчера это были бы даже SOTA результаты среди открытых моделей, но появился DeepSeek-3.2
Отдельно хвастаются пониманием изображений и мультиязычностью: говорят, на НЕанглийском и НЕкитайском модель лучшая в своем классе.
Что касается маленьких моделек, обещают лучшее соотношение цена/качество в соответсвующих размерах. Модели специально оптимизировали использовать меньше токенов, при этом не теряя в качестве. И результаты действительно неплохие: например, 14B выбивает 85% на AIME25. Для локальных запусков и небольших проектов – достойно.
Все семейство уже можно попробовать здесь
Веса (Large 3 & Ministral) | Блогпост
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76❤35🔥18😁1🫡1🦄1
Data Secrets
Сэм Альтман объявил внутри OpenAI «Код Красный» из-за угрозы со стороны конкурентов По словам журналистов The Information, после выхода Gemini 3 и нескольких других удачных моделей конкурентов стартап решил в срочном порядке отложить запуск монетизации и…
OpenAI разрабатывают (и, возможно, скоро выкатят) сразу две модели под кодовыми названиями Shallotpeat и Garlic
Утром мы писали о том, что Альтман объявил в OpenAI "код красный": стартап будет мобилизировать все возможные ресурсы, чтобы наверстать отрыв от конкурентов и снова выйти в абсолютные лидеры.
Так вот, оказывается, что в той же служебной записке фигурировала модель "Shallotpeat", которую компания, якобы, собирается выпустить очень скоро. Модель, по словам инсайдеров, призвала решить проблемы, возникшие во время претрейна.
Видимо, OpenAI возлагали большие надежды на скейлинг. Но, к сожалению, если это работало для GPT-4 и 4.5, то теперь (цитируя классиков) эра масштабирования в каком-то роде закончилась, и скейлинг уже не дает такого вау-эффетка.
В общем, Shallotpeat, с помощью дополнительного пост-трейнинга, должна закрыть эту дыру и существенно улучшить качество ответов для сложных задач и ризонинг, а также снизить количество галлюцинаций. В этом смысле название Shallotpeat довольно говорящее: с английского так называют специальный торф, который насыпают сверху на "базовую" почву, чтобы улучшить ее качество.
Вторая модель, о которой узнали в The Information, – Garlic – выйдет немного позже Shallotpeat, но тоже довольно скоро. Этот релиз будет уже помасштабнее.
Garlic, судя по всему, уже обучали с нуля с учетом прошлых ошибок в претрейне: речь в служебных записках идет о более крупной модели.
Ждем?
Утром мы писали о том, что Альтман объявил в OpenAI "код красный": стартап будет мобилизировать все возможные ресурсы, чтобы наверстать отрыв от конкурентов и снова выйти в абсолютные лидеры.
Так вот, оказывается, что в той же служебной записке фигурировала модель "Shallotpeat", которую компания, якобы, собирается выпустить очень скоро. Модель, по словам инсайдеров, призвала решить проблемы, возникшие во время претрейна.
Видимо, OpenAI возлагали большие надежды на скейлинг. Но, к сожалению, если это работало для GPT-4 и 4.5, то теперь (цитируя классиков) эра масштабирования в каком-то роде закончилась, и скейлинг уже не дает такого вау-эффетка.
В общем, Shallotpeat, с помощью дополнительного пост-трейнинга, должна закрыть эту дыру и существенно улучшить качество ответов для сложных задач и ризонинг, а также снизить количество галлюцинаций. В этом смысле название Shallotpeat довольно говорящее: с английского так называют специальный торф, который насыпают сверху на "базовую" почву, чтобы улучшить ее качество.
Вторая модель, о которой узнали в The Information, – Garlic – выйдет немного позже Shallotpeat, но тоже довольно скоро. Этот релиз будет уже помасштабнее.
Garlic, судя по всему, уже обучали с нуля с учетом прошлых ошибок в претрейне: речь в служебных записках идет о более крупной модели.
Ждем?
1👍90 42🔥15 9😁8❤7🤯5🤔3👌1🦄1
Anthropic купили Bun – runtime среду для для JavaScript и TypeScript
Этот инструмент превосходит Node.js по скорости и уже использовался в Claude Code (а еще им пользуются, например, Midjourney). Теперь, после покупки, Bun интегрируют в агента еще глубже: это означает, что нас ждет ускорение и, возможно, какие-нибудь новые фичи для отладки/тестирования.
Anthropic обещают, что Bun останется в опенсорсе под MIT-лицензией, и они продолжат в него инвестировать.
А еще в честь сделки стартап поделился впечатляющей статистикой: Claude Code в ноябре пробил $1 миллиард годовой выручки (run-rate revenue). И это всего через пол года после запуска.
Этот инструмент превосходит Node.js по скорости и уже использовался в Claude Code (а еще им пользуются, например, Midjourney). Теперь, после покупки, Bun интегрируют в агента еще глубже: это означает, что нас ждет ускорение и, возможно, какие-нибудь новые фичи для отладки/тестирования.
Anthropic обещают, что Bun останется в опенсорсе под MIT-лицензией, и они продолжат в него инвестировать.
А еще в честь сделки стартап поделился впечатляющей статистикой: Claude Code в ноябре пробил $1 миллиард годовой выручки (run-rate revenue). И это всего через пол года после запуска.
❤89👍45😁20⚡6🔥1🦄1
Media is too big
VIEW IN TELEGRAM
Google тихонько выкатили нам небольшой новогодний подарок: адвент-календарь по разработке агентов
Каждый день до 25 декабря вот здесь будет появляться какой-нибудь туториал или лайфхак для программирования агентов (в большинстве случаев с помощью инструментов Google, конечно).
Вчера уже вышла первая карточка с разбором, как сделать агента на основе Gemini с помощью нескольких строк на YAML.
Как минимум, это красиво
https://adventofagents.com/
Каждый день до 25 декабря вот здесь будет появляться какой-нибудь туториал или лайфхак для программирования агентов (в большинстве случаев с помощью инструментов Google, конечно).
Вчера уже вышла первая карточка с разбором, как сделать агента на основе Gemini с помощью нескольких строк на YAML.
Как минимум, это красиво
https://adventofagents.com/
❤113👍37🔥14😁7🦄2🤓1 1
О, AWS выпустили новый чип Trainium3 для ИИ
Пробежимся по заявленным цифрам:
– Перформанс в 4.4 раза выше, чем у Trainium2
– Пропускная способность 4× (до 4.9 TB/s)
– performance-per-watt тоже 4x
– 144 GB памяти
Основное, чем хвастаются AWS, – это что Trainium3 можно объединять в крупные кластеры и легко их масштабировать. Например, в один высокоскоростной UltraServer можно сшить до 144 чипов.
При этом позиционируют они такие конфигурации как чуть ли не самую выгодную по цене/производительности опцию для крупных моделей. Обещают до ~50% экономии при обучении.
На Nvidia последнее время конкуренция сыпется со всех сторон
Пробежимся по заявленным цифрам:
– Перформанс в 4.4 раза выше, чем у Trainium2
– Пропускная способность 4× (до 4.9 TB/s)
– performance-per-watt тоже 4x
– 144 GB памяти
Основное, чем хвастаются AWS, – это что Trainium3 можно объединять в крупные кластеры и легко их масштабировать. Например, в один высокоскоростной UltraServer можно сшить до 144 чипов.
При этом позиционируют они такие конфигурации как чуть ли не самую выгодную по цене/производительности опцию для крупных моделей. Обещают до ~50% экономии при обучении.
На Nvidia последнее время конкуренция сыпется со всех сторон
🔥78👍21❤14😁7🦄1
Data Secrets
Anthropic купили Bun – runtime среду для для JavaScript и TypeScript Этот инструмент превосходит Node.js по скорости и уже использовался в Claude Code (а еще им пользуются, например, Midjourney). Теперь, после покупки, Bun интегрируют в агента еще глубже:…
Please open Telegram to view this post
VIEW IN TELEGRAM
😁438🤯49 31❤6😎5👍3☃2🔥2👏2
Data Secrets
В ближайшие полтора года OpenAI начнет продавать свои акции публично К концу 2026 компания планирует подать документы, а к началу 2027 акции окажутся в продаже. Видимо, процесс запустился немедленно после недавней реструктуризации компании (она сделала OpenAI…
Anthropic собираются выходить в IPO в начале 2026 года
Это значит, что очень скоро их акции можно будет купить публично.
Напоминаем, что OpenAI планировала IPO только к 2027, так что Anthropic вполне могут оказаться на этом поприще первыми.
В любом случае, это будет один из крупнейших IPO в истории: Дарио Амадеи ведет переговоры об оценке стартапа в 300-350 миллиардов долларов.
Покупаем?
Это значит, что очень скоро их акции можно будет купить публично.
Напоминаем, что OpenAI планировала IPO только к 2027, так что Anthropic вполне могут оказаться на этом поприще первыми.
В любом случае, это будет один из крупнейших IPO в истории: Дарио Амадеи ведет переговоры об оценке стартапа в 300-350 миллиардов долларов.
Покупаем?
👍132 33🔥29🤔8😁7❤5🎉2🤨1 1
Как работает распознавание звука в Алисе
На прошлой неделе в Москве прошла большая встреча ML-комьюнити Data Dojo от Яндекса. Такие ивенты ценим прежде всего за интересные технические ML-ные доклады. В этот раз слушали их на прямой трансляции.
Больше всего зашло выступление от руководителя команды голосовой активации Дмитрия Солодуха под названием "Кухня, гости, музыка: как мы научили колонку реагировать в реальном хаосе".
Наверное, многим уже верхеуровнево известно, как активируется Алиса: внутри нее сидит небольшая локальная модель голосовой активации, которая работает на устройстве. Она цепляет из всего входящего голосового потока заданные наборы фраз с целью понять, когда пользователь начинает обращаться к ассистенту. Как только слово “Алиса” распознано локально – команда отправляется на сервер, где она обрабатывается.
Но если в целом принцип работы системы понятен, то многие детали могут быть не так очевидны. Например, вы задумывались, как такая крохотная модель распознает звук, если у вас одновременно играет музыка, кричат дети, разговаривают гости? Или как Алиса понимает, что вы обращаетесь к ней, если говорите просто "громче", а не "Алиса, громче"? Или какая там используется архитектура и фичи?
Обо всем этом как раз рассказал Дмитрий в своем докладе. Будет полезно тем, кто работает со сложными мультимодальными системами, и спецам, кто так или иначе занимается голосом и классификацией. Внутри много конкретных ML-деталей, о которых редко рассказывают публично.
На прошлой неделе в Москве прошла большая встреча ML-комьюнити Data Dojo от Яндекса. Такие ивенты ценим прежде всего за интересные технические ML-ные доклады. В этот раз слушали их на прямой трансляции.
Больше всего зашло выступление от руководителя команды голосовой активации Дмитрия Солодуха под названием "Кухня, гости, музыка: как мы научили колонку реагировать в реальном хаосе".
Наверное, многим уже верхеуровнево известно, как активируется Алиса: внутри нее сидит небольшая локальная модель голосовой активации, которая работает на устройстве. Она цепляет из всего входящего голосового потока заданные наборы фраз с целью понять, когда пользователь начинает обращаться к ассистенту. Как только слово “Алиса” распознано локально – команда отправляется на сервер, где она обрабатывается.
Но если в целом принцип работы системы понятен, то многие детали могут быть не так очевидны. Например, вы задумывались, как такая крохотная модель распознает звук, если у вас одновременно играет музыка, кричат дети, разговаривают гости? Или как Алиса понимает, что вы обращаетесь к ней, если говорите просто "громче", а не "Алиса, громче"? Или какая там используется архитектура и фичи?
Обо всем этом как раз рассказал Дмитрий в своем докладе. Будет полезно тем, кто работает со сложными мультимодальными системами, и спецам, кто так или иначе занимается голосом и классификацией. Внутри много конкретных ML-деталей, о которых редко рассказывают публично.
👍67🗿26❤12🔥10😁8👌6🤨3
This media is not supported in your browser
VIEW IN TELEGRAM
Легенда Юнгер Шмидхубер опять поясняет за плагиат: на этот раз он доказывает, что CNN изобрел не Лекун
Напоминаем, что Шмидхубер – это тот самый ученый, который постоянно заявляет, что выдающие идеи ИИ – плагиат и воровство. По его словам:
– Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов
– Все, что сделали DeepSeek с R1, взято из статей Шмидхубера
– GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры
– Трансформеры, естественно, придумал он, а не ребята из Google
Теперь же он утверждает, что Лекун с его CNN – тоже воришка, и что на самом деле ранние сверточные нейросети изобрел Кунихико Фукусим в Японии в 1979, а не Ян Лекун в конце восьмидесятых, как принято считать.
Шмидхубер даже продемонстрировал видео якобы 1986 года, на котором система Кунихико Фукусимы распознает рукописные цифры. Если что, то самое известное видео, на котором Лекун показывает то же самое, снято в 1989.
Верим?
Напоминаем, что Шмидхубер – это тот самый ученый, который постоянно заявляет, что выдающие идеи ИИ – плагиат и воровство. По его словам:
– Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов
– Все, что сделали DeepSeek с R1, взято из статей Шмидхубера
– GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры
– Трансформеры, естественно, придумал он, а не ребята из Google
Теперь же он утверждает, что Лекун с его CNN – тоже воришка, и что на самом деле ранние сверточные нейросети изобрел Кунихико Фукусим в Японии в 1979, а не Ян Лекун в конце восьмидесятых, как принято считать.
Шмидхубер даже продемонстрировал видео якобы 1986 года, на котором система Кунихико Фукусимы распознает рукописные цифры. Если что, то самое известное видео, на котором Лекун показывает то же самое, снято в 1989.
Верим?
😁118 46 23👍10❤8💯5🔥2🕊1🤝1🆒1
Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic
Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай😐 ) решили проверить, сколько денег современный ИИ способен "украсть", если дать ему такую задачу.
Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.
Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.
Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.
Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.
Вот в такое время живем.
Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай
Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.
Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.
Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.
Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.
Вот в такое время живем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥120🤯55👍23❤15😁8 7🤨5🤔2
Data Secrets
У Google Colab теперь есть официальная интеграция с VSCode Это значит, что наконец-то можно будет подключать локальные ноутбуки к средам Colab и, не выходя из IDE, использовать, например, TPU. Как это сделать: 1. В VSCode заходим в Extensions, ищем Google…
This media is not supported in your browser
VIEW IN TELEGRAM
Напоминаем, что совсем недавно они выкатились в VSCode: там стало возможным подключать локальные ноутбуки к средам Colab и, не выходя из IDE, использовать, например, TPU.
Теперь то же самое можно делать и в любимых ИИ-IDE.
Как подключить Colab в Cursor:
1. Скачиваем расширение Google Colab через Open VSX. Скачать можно через Extensions в самой IDE, но нужно выбрать маркетплейс Open VSX.
2. В IDE создаем или импортируем файл .ipynb в проект.
3. Кликаем Select Kernel справа сверху, выбираем Colab, входим в аккаунт и затем выбираем нужный runtime. Готово!
Приятно, да?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥105👍31❤15😁2