Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic
Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай😐 ) решили проверить, сколько денег современный ИИ способен "украсть", если дать ему такую задачу.
Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.
Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.
Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.
Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.
Вот в такое время живем.
Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай
Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.
Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.
Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.
Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.
Вот в такое время живем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥120🤯55👍23❤15😁8 7🤨5🤔2
Data Secrets
У Google Colab теперь есть официальная интеграция с VSCode Это значит, что наконец-то можно будет подключать локальные ноутбуки к средам Colab и, не выходя из IDE, использовать, например, TPU. Как это сделать: 1. В VSCode заходим в Extensions, ищем Google…
This media is not supported in your browser
VIEW IN TELEGRAM
Напоминаем, что совсем недавно они выкатились в VSCode: там стало возможным подключать локальные ноутбуки к средам Colab и, не выходя из IDE, использовать, например, TPU.
Теперь то же самое можно делать и в любимых ИИ-IDE.
Как подключить Colab в Cursor:
1. Скачиваем расширение Google Colab через Open VSX. Скачать можно через Extensions в самой IDE, но нужно выбрать маркетплейс Open VSX.
2. В IDE создаем или импортируем файл .ipynb в проект.
3. Кликаем Select Kernel справа сверху, выбираем Colab, входим в аккаунт и затем выбираем нужный runtime. Готово!
Приятно, да?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥105👍31❤15😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из alphaXiv сделали красивейший интерактивный RL Visualizer
На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.
Например, можно посмотреть, в чем практическая разница между PPO и GRPO.
Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.
www.alphaxiv.org/labs/rl-playground
На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.
Например, можно посмотреть, в чем практическая разница между PPO и GRPO.
Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.
www.alphaxiv.org/labs/rl-playground
🔥104👍30❤16😁2👾1
Исследователи Яндекса представили RATE — новую систему оценки нейропереводов
RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».
Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.
RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.
Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.
В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.
Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.
RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».
Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.
RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.
Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.
В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.
Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.
24👍145🔥46❤26🗿8🤯1
Media is too big
VIEW IN TELEGRAM
Google продолжает генерировать занятные продукты: они запустили Workspace Studio – новый инструмент для быстрого создания агентов
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/
🔥86❤16😎7👍6😁6👏2🐳1
Сэм Альтман планирует создать конкурента SpaceX
По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.
Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).
Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.
Лицо Маска представили?🔵
По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.
Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).
Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.
Лицо Маска представили?
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁191 41👍16 14🔥5❤4🗿3🐳2
Data Secrets
Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой: 1. Сбор данных человеческих…
This media is not supported in your browser
VIEW IN TELEGRAM
Tesla и Илон Маск похвастались, что Optimus научился бегать
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад✌️
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад
Please open Telegram to view this post
VIEW IN TELEGRAM
😁139 37🔥19 12👍8🤔5❤4🗿3🐳2 1
Google выпустили Gemini 3 Deep Think, и это поразительная модель
Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.
Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.
Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.
Пока модель доступна только подписчикам Ultra
blog.google/products/gemini/gemini-3-deep-think/
Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.
Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.
Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.
Пока модель доступна только подписчикам Ultra
blog.google/products/gemini/gemini-3-deep-think/
🔥151❤33👍14 10 6🤝2🗿2
MWS AI выпустила корпоративную платформу MWS AI AGENTS PLATFORM для создания ИИ-агентов
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
😁37🗿17❤12👌7👍6 5⚡4🤯2🤨1🎄1
У Apple что-то пошло не по плану: за последние 72 часа из компании ушли четыре главы основных подразделений, включая директора по ИИ
➖ Джон Джаннандреа, глава AI/ML, уходит на пенсию из-за тупиковой ситуации с Siri и AI-функциями
➖ Алан Дай, глава UI-дизайна, переходит в Meta для руководства новой дизайн-студией.
С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.
Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.
➖ Также ушли в отставку Кейт Адамс, старший вице-президент и генеральный советник, и Лиза Джексон, вице-президент по экологии, политике и социальным инициативам.
Короче, F
С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.
Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.
Короче, F
Please open Telegram to view this post
VIEW IN TELEGRAM
1 167❤34🫡32 19😁6👍4🤔3🍾3🗿3🔥2🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
Это они еще про грамоты за русского медвежонка не слышали
1😁298😎33🔥16❤9👍2🗿1
На AlphaArena заметили лидирующую mystery model. Илон Маск подтвердил, что это тестовая версия Grok 4.20 🫠
AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.
В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.
Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный🔵 ). Это подтвердил Илон Маск в X.
Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год
AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.
В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.
Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный
Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год
Please open Telegram to view this post
VIEW IN TELEGRAM
😁107☃23❤20 10🔥5👍4🗿2
Anthropic утверждают, что их сотрудники делегируют Claude уже 60% ежедневных задач
Всего года назад этот показатель составлял около 28%.
Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
Всего года назад этот показатель составлял около 28%.
Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
1❤117😁62🔥26🤔7👍4
The Verge пишет, что GPT-5.2 должна выйти уже на следующей неделе, 9 декабря
Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.
Надеемся на что-то достойное🤔
Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.
Надеемся на что-то достойное
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80👍36😁35🔥6⚡1
Data Secrets
Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете? ⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели…
ARC Prize назвали победителей этого года
На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).
LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.
Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.
Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).
Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:
1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.
2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.
arcprize.org/blog/arc-prize-2025-results-analysis
На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).
LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.
Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.
Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).
Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:
1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.
2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.
arcprize.org/blog/arc-prize-2025-results-analysis
❤33👍20🔥8😁1🗿1
Ян Лекун будет строить стартап в Европе, а не Америке
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
1❤217😁96👍53 18🔥13 8🎄5🗿5👏1🤯1
Media is too big
VIEW IN TELEGRAM
Занятное интервью вышло у Демиса Хассабиса с изданием Axios
Посмотреть полностью можно здесь. Особенно понравился момент, где Демиса попросили без преувеличений и максимально честно рассказать, что, по его мнению, будет происходить с ИИ в ближайшие 12 месяцев. Ученый ответил вот так:
1. Конвергенция модальностей. Например, Gemini мультимодальная, и благодаря этому можно воспроизводить множество интересных результатов. Хороший кейс – это новая Nano Banana Pro, которая действительно хорошо понимает изображения, стили, инфографику и тд (благодаря, собственно, Gemini). Следующий шаг – это объединение видео с языковыми моделями, и в ближайший год мы увидим в этой области большой прогресс.
2. Модели мира типа Genie. В ближайший год они станут намного лучше.
3. И, конечно, агенты. Сейчас о них уже много говорят, но они пока недостаточно надежны, чтобы выполнять задачи от начала до конца. Но Демис уверен, что в течение года это изменится, и агенты уже будут неотъемлемой составляющей жизни.
Что касается AGI, Хассабис ставит на 5-10 лет. А сейчас мы приближаемся к моменту, которые многие называют «радикальным изобилием» – когда множество, если не большинство, человеческих задач будет постоянно решаться с помощью ИИ.
Еще раз ссылка на полное интервью
Посмотреть полностью можно здесь. Особенно понравился момент, где Демиса попросили без преувеличений и максимально честно рассказать, что, по его мнению, будет происходить с ИИ в ближайшие 12 месяцев. Ученый ответил вот так:
1. Конвергенция модальностей. Например, Gemini мультимодальная, и благодаря этому можно воспроизводить множество интересных результатов. Хороший кейс – это новая Nano Banana Pro, которая действительно хорошо понимает изображения, стили, инфографику и тд (благодаря, собственно, Gemini). Следующий шаг – это объединение видео с языковыми моделями, и в ближайший год мы увидим в этой области большой прогресс.
2. Модели мира типа Genie. В ближайший год они станут намного лучше.
3. И, конечно, агенты. Сейчас о них уже много говорят, но они пока недостаточно надежны, чтобы выполнять задачи от начала до конца. Но Демис уверен, что в течение года это изменится, и агенты уже будут неотъемлемой составляющей жизни.
Что касается AGI, Хассабис ставит на 5-10 лет. А сейчас мы приближаемся к моменту, которые многие называют «радикальным изобилием» – когда множество, если не большинство, человеческих задач будет постоянно решаться с помощью ИИ.
Еще раз ссылка на полное интервью
❤51👍34🔥14😁4
Андрей Карпаты снова выдал красивую базу
Он говорит, что нельзя забывать, что LLM – симуляторы, а не самостоятельные сущности, и что это нужно учитывать при взаимодействии с ними.
Краткий перевод:
Вот что значит качественный совет по промптингу☕️
Он говорит, что нельзя забывать, что LLM – симуляторы, а не самостоятельные сущности, и что это нужно учитывать при взаимодействии с ними.
Краткий перевод:
Не воспринимайте большие языковые модели как самостоятельные сущности – думайте о них как о симуляторах. Например, когда вы обсуждаете какую-то тему, не задавайте вопрос:
«Что ты думаешь о xyz?»
Никакого «ты» здесь нет. В следующий раз лучше спросить:
«Какая группа людей подошла бы для обсуждения xyz? Что бы они сказали?»
Модель может воспроизводить и симулировать множество точек зрения, но она не «размышляла» о xyz и не формировала собственных мнений в привычном для нас смысле. Если же вы заставляете ее отвечать, используя обращение «ты», она все равно что-то выдаст – но, по сути, просто приняв на себя некий личностный вектор, заданный статистикой обучающих данных, и симулируя его.
Это вполне допустимо, но в этом гораздо меньше мистики, чем многие наивно предполагают, задавая вопросы «искусственному интеллекту».
Вот что значит качественный совет по промптингу
Please open Telegram to view this post
VIEW IN TELEGRAM
❤329👍148🔥46😁8🤔6🗿4⚡3🕊2
