Google анонсировала DS-STAR: ИИ-агент для автоматизации дата-анализа 😎
Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?
В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.
Data Science
Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?
Вместо того чтобы просто генерировать код, как это делают традиционные ИИ-системы, DS-STAR идет дальше и берет на себя ответственность за весь процесс. Агент анализирует данные (будь то таблицы, JSON-файлы или текст), строит план действий, пишет Python-код, запускает его, а потом проверяет, насколько полученный результат соответствует поставленной задаче. Интересно, что после проверки встроенный «судья» на базе LLM заставляет систему пересматривать свои шаги, пока результат не будет точным и полным.
Результаты: не просто код, а качественная аналитика🐹
Согласно исследованиям Google, DS-STAR значительно улучшил показатели на различных тестах. Например, точность на DABStep увеличилась с 41% до 45,2%, на KramaBench — с 39,8% до 44,7%, а на DA-Code — с 37% до 38,5%. Это уже не просто генерация кода, а возможность делать более качественные и содержательные выводы, что, согласитесь, впечатляет.
В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
RL и «разумные» модели: что не так с гипотезой улучшения через обучение с подкреплением?
Каждый раз, когда появляется новая работа, утверждающая, что RL даёт нашим моделям настоящие «разумные» способности, мы все вздыхаем и ждем чудо. Но не так давно вышла китайская статья с провокационным заголовком «Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?», которая поставила под сомнение, что обучение с подкреплением действительно улучшает способность моделей к рассуждению😺
Можно ли ожидать, что обучение с подкреплением откроет для нас новые горизонты в решении сложных задач, например, в математике или программировании? Ответ скорее «нет». Это не означает, что RL не полезен, но не стоит возлагать на него чрезмерные надежды. В конечном счёте всё упирается в предобученные модели и качество данных.
Data Science
Каждый раз, когда появляется новая работа, утверждающая, что RL даёт нашим моделям настоящие «разумные» способности, мы все вздыхаем и ждем чудо. Но не так давно вышла китайская статья с провокационным заголовком «Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?», которая поставила под сомнение, что обучение с подкреплением действительно улучшает способность моделей к рассуждению
Никто не спорит, что RL — это мощный инструмент для улучшения моделей, но авторы этой работы уверены, что на самом деле он не добавляет ничего «сверхъестественного». Вместо того чтобы раскрывать новые горизонты, RL, по сути, просто делает то же самое, что и базовые модели, но быстрее. Это как если бы вы уже знали все ответы на вопросы, но просто начали искать их более эффективно, уменьшая количество попыток.
Как это проверяли?
Основной метрикой в исследовании было pass@k — задача считается решённой, если среди k попыток хотя бы одна приводит к правильному ответу. На первых шагах RL-модели действительно показывают более высокий результат, чем базовые. Но вот что интересно: чем больше попыток (или «шансов»), тем быстрее базовые модели догоняют RL и даже начинают превосходить их на разных задачах.
Это выводит на интересный момент. Хотя RL помогает увеличить вероятность того, что модель выберет правильный путь, он не расширяет возможности модели решать задачи. В сущности, он просто улучшает шанс попасть в нужное решение с первого раза, но не делает модель действительно «умнее».
Можно ли ожидать, что обучение с подкреплением откроет для нас новые горизонты в решении сложных задач, например, в математике или программировании? Ответ скорее «нет». Это не означает, что RL не полезен, но не стоит возлагать на него чрезмерные надежды. В конечном счёте всё упирается в предобученные модели и качество данных.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1🐳1
«Крестный отец ИИ» Янн ЛеКун уходит из Meta* и готовится запустить свой стартап 🚶♂️
Financial Times сообщает, что знаменитый ученый и главный ИИ-эксперт Meta* готовит свой собственный стартап. Официально Meta* и сам ЛеКун пока ничего не подтверждают, но слухи об этом уже активно гуляют. Давайте разберемся, что тут к чему.
Очень интересно, что же именно он придумает — возможно, именно он откроет новые горизонты для искусственного интеллекта, от которых мы все будем в восторге.
*признана экстремистской организацией на территории России.
Data Science
Financial Times сообщает, что знаменитый ученый и главный ИИ-эксперт Meta* готовит свой собственный стартап. Официально Meta* и сам ЛеКун пока ничего не подтверждают, но слухи об этом уже активно гуляют. Давайте разберемся, что тут к чему.
В последнее время внутри Meta* всё не так уж спокойно. Компания переживает довольно болезненную реорганизацию, и ИИ-подразделение (FAIR) не в лучшем состоянии. Более 600 человек были переведены или уволены, а приоритет компании смещается в сторону других проектов, таких как Superintelligence Labs и TBD Lab. Эти новые команды фокусируются на интеграции ИИ в реальные продукты, а не на чисто исследовательской работе, как это было раньше.
Сам же ЛеКун, несмотря на свою роль в создании языковых моделей, никогда не скрывал своего скепсиса к идее использования исключительно больших языковых моделей как основного пути к AGI. Он всегда ставил на более глубокое понимание мира — так называемые модели мира, которые учат ИИ искать причинно-следственные связи, а не просто жонглировать фактами. Это стало основой его работы, включая разработки типа JEPA и V-JEPA, которые, возможно, будут ключевыми в его новом стартапе.
Релиз нового продукта Llama 4/Behemoth неоднократно переносился, а результаты оказались не такими впечатляющими, как ожидалось. Это не могло не повлиять на атмосферу в компании. Как вы понимаете, когда у компании есть такие проблемы, а старожилы уходят или начинают выражать недовольство, это не лучший знак для того, кто занимает одну из самых высоких позиций.
Очень интересно, что же именно он придумает — возможно, именно он откроет новые горизонты для искусственного интеллекта, от которых мы все будем в восторге.
*признана экстремистской организацией на территории России.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3😁2👀1
ИИ-помощник для востоковедов: как Яндекс помогает гуманитарной науке
В Институте востоковедения РАН запустили систему на базе Yandex AI Studio, которая анализирует научные тексты на восточных языках и формирует аналитические выжимки — фактически, это ИИ-ассистент для исследователей.
🔹 В основе решения — генеративные модели Yandex Cloud, обученные совместно специалистами платформы и студентами Школы анализа данных.
🔹 Архитектура построена на Yandex AI Studio — платформе для разработки и внедрения ИИ-агентов.
🔹 Уже обработано более 1,5 млн документов на четырех вариантах китайского языка: континентальном, тайваньском, гонконгском и сингапурском.
Система умеет выделять ключевые факты, создавать краткие аналитические отчёты и даже генерировать русскоязычные дайджесты по публикациям из китайских СМИ. В перспективе — поддержка японского, арабского, турецкого и персидского языков.
В итоге — скорость анализа выросла с нескольких часов до 10–15 минут на исследовательскую задачу, что открывает новые возможности для гуманитарных исследований. Проект — наглядный пример того, как облачные технологии и LLM из Yandex Cloud применяются в академической среде для решения специализированных задач.
В Институте востоковедения РАН запустили систему на базе Yandex AI Studio, которая анализирует научные тексты на восточных языках и формирует аналитические выжимки — фактически, это ИИ-ассистент для исследователей.
🔹 В основе решения — генеративные модели Yandex Cloud, обученные совместно специалистами платформы и студентами Школы анализа данных.
🔹 Архитектура построена на Yandex AI Studio — платформе для разработки и внедрения ИИ-агентов.
🔹 Уже обработано более 1,5 млн документов на четырех вариантах китайского языка: континентальном, тайваньском, гонконгском и сингапурском.
Система умеет выделять ключевые факты, создавать краткие аналитические отчёты и даже генерировать русскоязычные дайджесты по публикациям из китайских СМИ. В перспективе — поддержка японского, арабского, турецкого и персидского языков.
В итоге — скорость анализа выросла с нескольких часов до 10–15 минут на исследовательскую задачу, что открывает новые возможности для гуманитарных исследований. Проект — наглядный пример того, как облачные технологии и LLM из Yandex Cloud применяются в академической среде для решения специализированных задач.
❤6🔥2👎1
xAI и Anthropic-Amazon: дата-центры на 1 ГВт 🤔
Кажется что темпы, с которыми строятся крупнейшие дата-центры, становятся все больше. Аналитическая группа Epoch AI прогнозирует, что xAI и Anthropic-Amazon станут первыми, кто выйдет на 1 ГВт мощности, а их дата-центры будут запущены уже в 2026 году. Это огромные масштабы.
Компания Epoch AI анализирует скорость и мощность строительства, используя спутниковые снимки, разрешительную документацию и отчеты других компаний. Люди готовы на многое, чтобы заглянуть в будущее🐰
Data Science
Кажется что темпы, с которыми строятся крупнейшие дата-центры, становятся все больше. Аналитическая группа Epoch AI прогнозирует, что xAI и Anthropic-Amazon станут первыми, кто выйдет на 1 ГВт мощности, а их дата-центры будут запущены уже в 2026 году. Это огромные масштабы.
Для начала немного фактов. xAI с его Colossus 2 и Anthropic-Amazon с New Carlisle — два крупных проекта, которые на данный момент находятся на финальной стадии строительства. И, что интересно, xAI обгоняет всех по скорости: в феврале 2025 года уже началось строительство, а уже в феврале 2026-го дата-центр выйдет на рекордные 1 ГВт. Для сравнения, Anthropic-Amazon стартанули в феврале 2024 года, и их дата-центр на 1 ГВт будет готов в начале января 2026-го.
А что дальше? В 2026 году планируют выйти на ту же мощность и другие крупные игроки — Microsoft, Meta и OpenAI. Напоминаю, что Meta признана экстремистской организацией на территории России.
Эти дата-центры открывают новый стандарт мощности, который в 3-4 раза превышает все существующие ИИ-кластеры. Строительство таких объектов теперь стало своего рода конвейером — от начала стройки до выхода на 1 ГВт мощности проходят всего 12-24 месяца. Это намного быстрее, чем можно было себе представить, когда речь идет о таких масштабах.
Компания Epoch AI анализирует скорость и мощность строительства, используя спутниковые снимки, разрешительную документацию и отчеты других компаний. Люди готовы на многое, чтобы заглянуть в будущее
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
Как нейросетей учат ставить диагнозы в виртуальной клинике 💻
Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.
Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.
Data Science
Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.
Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.
Виртуальная клиника — модель для диагностики
DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.
Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!
Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.
Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.
Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥2
Forwarded from xCode Journal
Стартап Fireflies в начале брал $100 в месяц за ИИ, которого не было
Два основателя сами подключались к Zoom-встречам, сидели там молча и записывали всё вручную, а потом через 10 минут кидали саммари. После сотен встреч и бессонных ночей они заработали достаточно денег, чтобы арендовать помещение в Сан-Франциско и действительно автоматизировать процесс.
Теперь же Fireflies оценивается в $1 млрд.
✖️ xCode Journal
Два основателя сами подключались к Zoom-встречам, сидели там молча и записывали всё вручную, а потом через 10 минут кидали саммари. После сотен встреч и бессонных ночей они заработали достаточно денег, чтобы арендовать помещение в Сан-Франциско и действительно автоматизировать процесс.
Теперь же Fireflies оценивается в $1 млрд.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17😁16❤2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Как Яну Лекуну удалось предсказать будущее ИИ 👏
Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.
Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.
Data Science
Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.
Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.
Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡17👍9❤4🔥1
Google DeepMind научила ИИ создавать «красивые» шахматные головоломки ⌨️
Шахматы — игра, в которой каждый ход, как и каждое решение, имеет свою красоту. И вот, команда Google DeepMind решила добавить ещё немного магии в этот мир. Они научили модель генерировать не просто шахматные задачи, а красивые, уникальные головоломки с необычными позициями и ходами.
И, конечно же, все эти задачи теперь можно найти в специальной подборке на Chess com, так что любители шахмат могут оценить красоту нового поколения задач.
Data Science
Шахматы — игра, в которой каждый ход, как и каждое решение, имеет свою красоту. И вот, команда Google DeepMind решила добавить ещё немного магии в этот мир. Они научили модель генерировать не просто шахматные задачи, а красивые, уникальные головоломки с необычными позициями и ходами.
Первый шаг был довольно стандартным — модель обучили на 4,4 миллиона задач из коллекции Lichess. Это позволило ей освоить основы: как выглядят стандартные шахматные головоломки, как обычно решаются задачи и так далее. Однако, это было только начало.
Затем, для того чтобы модель научилась создавать действительно интересные задачи, разработчики обратились к гроссмейстерам Мэттью Садлеру и Джонатану Левитту. Вместе они выбрали и проанализировали целый список необычных головоломок, объяснив, что делает их такими уникальными и красивыми. С помощью этого подхода, модель стала генерировать задачи, которые были не просто новыми, но и неожиданными.
Задачи оценивались по четырём ключевым критериям:
• Уникальность — в каждой задаче должно быть одно решение, а не несколько вариантов
• Новизна — задача должна сильно отличаться от того, что уже есть в базе данных
• Контринтуитивность — задача должна вызывать удивление. Сначала решение кажется очевидным, но на более глубоком уровне возникает сложность
• Эстетика — ход решения должен быть красивым и необычным, расположение фигур на доске тоже должно поражать своей гармонией
Сначала контринтуитивность задач, сгенерированных ИИ, была низкой — всего 0,22%. Но после дообучения и сотрудничества с шахматистами, этот показатель подскочил до 2,5%. Для сравнения, у реальных задач на Lichess показатель контринтуитивности у людей составляет около 2,1%.
Что получилось в итоге?
Задачи, созданные ИИ, оценили не только математические алгоритмы, но и реальные шахматисты. В группе с рейтингом от 2000 до 2400 Эло их оценки оказались значительно выше, чем у стандартных задач из Lichess. Итог: головоломки, созданные ИИ, получили признание профессионалов.
И, конечно же, все эти задачи теперь можно найти в специальной подборке на Chess com, так что любители шахмат могут оценить красоту нового поколения задач.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥3🐳2
Привет! Авито проводит второй ML reading club, в этот раз с Денисом Кайшевым, Senior Backend Engineer. Вместе со зрителями прочитаем и разберём статью Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms.
Изучим архитектуру библиотеки NCCL и обсудим:
— как работают её внутренние механизмы, для которых почти нет документации;
— как описываются способы обмена при взаимодействии intra/inter node;
— как строятся алгоритмы коллективных операций.
Найдём узкие места библиотеки и выясним, как оптимизировать производительность распределённых вычислений.
📌 Встреча пройдёт 20 ноября в 18:00 в Контур.Толке.
⌚️ Ссылку на подключение пришлём в канал «Доска AI-объявлений» за час до начала эфира.
Изучим архитектуру библиотеки NCCL и обсудим:
— как работают её внутренние механизмы, для которых почти нет документации;
— как описываются способы обмена при взаимодействии intra/inter node;
— как строятся алгоритмы коллективных операций.
Найдём узкие места библиотеки и выясним, как оптимизировать производительность распределённых вычислений.
📌 Встреча пройдёт 20 ноября в 18:00 в Контур.Толке.
⌚️ Ссылку на подключение пришлём в канал «Доска AI-объявлений» за час до начала эфира.
❤3👍1
Как агент Lumine учит ИИ играть с открытым миром
Недавно в мире искусственного интеллекта появилась настоящая звезда — Lumine, агент, который, кажется, с каждым днем становится всё более похож на настоящего игрока. Этот ИИ теперь способен проходить сложные миссии в открытых мирах вроде Genshin Impact и делать это не хуже, чем человек. Звучит круто, не так ли? Но давайте разберемся, что стоит за этим достижением😡
В будущем такие агенты могут стать настоящими партнерами в играх, выполняя сложные задачи без дополнительного обучения, или даже помогать людям с их собственными игровыми миссиями.
Data Science
Недавно в мире искусственного интеллекта появилась настоящая звезда — Lumine, агент, который, кажется, с каждым днем становится всё более похож на настоящего игрока. Этот ИИ теперь способен проходить сложные миссии в открытых мирах вроде Genshin Impact и делать это не хуже, чем человек. Звучит круто, не так ли? Но давайте разберемся, что стоит за этим достижением
Во-первых, Lumine — это не просто ИИ для простых задач. Его разработали с фокусом на многозадачность в 3D-играх с открытым миром. Борьба с врагами, решение головоломок, взаимодействие с NPC, управление на клавиатуре и мыши — всё это в реальном времени. Но задача была не просто научить ИИ двигаться по карте, а сделать его адаптивным, чтобы он мог правильно ориентироваться в 3D пространстве, управлять интерфейсом и помнить контекст происходящего. Это совсем не так просто, как может показаться на первый взгляд.
Почему это сложно?
Закрытые среды, например, простые 2D-игры или даже тренировки на ограниченных данных, уже продвинулись далеко. Но вот открытые миры, такие как Genshin Impact, ставят свои задачи. Агент должен учитывать не только огромные пространства, но и взаимодействовать с множеством объектов, следить за погодными условиями, физикой, а ещё вовремя выбирать правильные действия в диалогах и сражениях. Все эти вещи нужно делать под жесткими ограничениями по времени, иначе просто не успеешь на очередной квест.
Как он обучается?
В основе Lumine лежит довольно интересная модель: агент воспринимает мир как человек, получая кадры с экрана игры (каждые 200 миллисекунд) и переводи эти кадры в текстовые команды для управления — как будто он «входит» в игру через клавиатуру и мышь. Важный момент: в этой модели используется так называемая гибридная стратегия рассуждений. То есть, агент решает, когда ему нужно остановиться и подумать, а когда можно сразу выполнить команду, не теряя времени на размышления.
Обучение проходит в три этапа: сначала агент учится просто управлять и следить за действиями в игре, затем он учится следовать инструкциям, а на третьем этапе — креативно решать задачи и использовать логическое мышление. Это действительно многоэтапный процесс, где важно обучать ИИ думать, но не в ущерб быстродействию.
На практике Lumine довольно успешен: он проходит сложные миссии за 56 минут (что примерно соответствует живому игроку), и главное — он не ломается, если его перенести в другую игру. То есть, после того как его обучили в Genshin Impact, он может адаптироваться и к другим игровым мирам, например, Honkai: Star Rail. Это действительно впечатляющая гибкость.
Что не идеально?😺
Как и любой другой ИИ, Lumine не без недостатков. Он не слишком любит лечиться в сложных ситуациях, у него иногда возникают проблемы с навигацией и он плохо справляется с быстрыми перемещениями по карте. Всё это, конечно, поправимо, и разработчики уже работают над улучшениями.
В будущем такие агенты могут стать настоящими партнерами в играх, выполняя сложные задачи без дополнительного обучения, или даже помогать людям с их собственными игровыми миссиями.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Искусственный интеллект и стрелки на часах 🍦
В новом бенчмарке AI World Clocks ни одна модель не смогла корректно выставить стрелки на часах. Да, даже GPT-5 и Grok 4 — лучшие из лучших!
В будущем, чтобы ИИ стал по-настоящему полезным, нужно будет не только улучшать его способности, но и создать более сложные и «умные» интерфейсы. Иначе мы так и будем каждый раз объяснять ему, что такое «угол» или как вообще работает математика.
Data Science
В новом бенчмарке AI World Clocks ни одна модель не смогла корректно выставить стрелки на часах. Да, даже GPT-5 и Grok 4 — лучшие из лучших!
Создавал бенчмарк Брайан Мур, и он предложил моделям простую задачу: создать в HTML часы с правильно отображаемым временем. Каждую минуту ИИ генерирует новый код, который должен отображать актуальное время. Но вот парадокс — код может быть почти идеальным, но сам циферблат получается кривым и стрелки часто показывают не то время.
Задача была упрощена намеренно. Модели дают всего пару строк кода, без детальных инструкций: просто «сделай часы». И как результат — красивый циферблат, но с ошибками в математике. Модели не проверяют, верно ли показывают стрелки, не учитывают углы и даже не проверяют, что все элементы стоят на своих местах. Всё это подводит нас к одному важному моменту: ИИ не умеет дорабатывать свои ошибки самостоятельно, если не задать чёткие параметры.
Эксперимент наглядно показал, как много нужно доработать в интерфейсах ИИ. Проблема не только в самом ИИ, но и в том, как люди взаимодействуют с ним. Многие пользователи в запросах не указывают деталей и ждут, что ИИ сам догадается, что и как нужно сделать. Например, на запрос «сделай часы» — ИИ может нарисовать просто циферблат, но не проверить, правильное ли время.
В будущем, чтобы ИИ стал по-настоящему полезным, нужно будет не только улучшать его способности, но и создать более сложные и «умные» интерфейсы. Иначе мы так и будем каждый раз объяснять ему, что такое «угол» или как вообще работает математика.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2👎1
Как обучить свою первую ML-модель — и не утонуть в теории?
Машинное обучение звучит сложно — пока вы не попробуете на практике. 24 ноября в 18:00 МСК на открытом уроке вы обучите модель для задачи классификации прямо во время занятия.
Разберём:
– как работает алгоритм дерева решений;
– как решать задачи классификации на Python;
– что нужно, чтобы перейти от экспериментов к реальной работе с ML.
Вы шаг за шагом создадите первую модель, увидите, как она принимает решения, и поймёте, как из простого кода рождается интеллект.
➡️ Открытый урок проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь — начните путь в Data Science с практики, а не с теории: https://vk.cc/cRoWdF
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Машинное обучение звучит сложно — пока вы не попробуете на практике. 24 ноября в 18:00 МСК на открытом уроке вы обучите модель для задачи классификации прямо во время занятия.
Разберём:
– как работает алгоритм дерева решений;
– как решать задачи классификации на Python;
– что нужно, чтобы перейти от экспериментов к реальной работе с ML.
Вы шаг за шагом создадите первую модель, увидите, как она принимает решения, и поймёте, как из простого кода рождается интеллект.
➡️ Открытый урок проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь — начните путь в Data Science с практики, а не с теории: https://vk.cc/cRoWdF
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Forwarded from xCode Journal
Это самая большая подборка готовых шаблонов для любых сфер и задач: от парсеров и ботов до ИИ-агентов. Каждый из них снабжён описанием, нужными инструментами и пошаговой инструкцией.
Ну что ребята, автоматизация?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
BERT: Всего лишь один шаг диффузии текста 🤔
В одном интересном посте объяснили, как то, что мы привыкли называть диффузией текста, на самом деле является универсальной версией классического обучения BERT. Давайте разберемся, о чём тут вообще речь.
Модели, основанные на таком подходе, способны генерировать текст, который вполне осмыслен, но ещё не всегда идеально последовательный. Это, кстати, открывает интересную возможность для будущего. Если BERT — это всего один шаг диффузии, то будущее может принадлежать моделям, которые будут объединять понимание и генерацию текста в одном процессе.
Data Science
В одном интересном посте объяснили, как то, что мы привыкли называть диффузией текста, на самом деле является универсальной версией классического обучения BERT. Давайте разберемся, о чём тут вообще речь.
Если вы знакомы с BERT, то знаете, что модель работает следующим образом: она берёт текст, маскирует некоторые слова и учится угадывать, какие именно были скрыты. Всё довольно просто, но… есть нюанс.
Теперь представьте, что диффузия — это примерно то же самое, но только многоступенчатое. Вместо того чтобы спрятать одно слово, как в BERT, модель добавляет «шум» на каждом шаге и постепенно восстанавливает текст. Она как бы уничтожает его, а потом поэтапно восстанавливает, пока не получит обратно чёткое и осмысленное предложение.
То есть, по сути, в BERT происходит один шаг «очищения», где модель угадывает скрытые слова. А в диффузионной модели таких шагов может быть несколько, что позволяет превратить случайные токены в осмысленный текст.
От BERT до генератора текста🤨
Чтобы показать это на практике, автор fine-tuned RoBERTa(улучшенную версию BERT) с использованием датасета WikiText. На каждом шаге модель заменяла некоторые токены на <MASK>, восстанавливала их, а затем снова маскировала. И так несколько раз. Через несколько итераций RoBERTa начинала генерировать осмысленный текст, даже без автогрегрессного декодера, как у GPT.
В какой-то момент автор наткнулся на работу DiffusionBERT, где эта идея была развита глубже и подтвердилась реальными результатами. И вот оно: BERT можно рассматривать как одномоментную версию диффузии текста. Если добавить больше шагов, получится полноценный диффузионный генератор текста.
Модели, основанные на таком подходе, способны генерировать текст, который вполне осмыслен, но ещё не всегда идеально последовательный. Это, кстати, открывает интересную возможность для будущего. Если BERT — это всего один шаг диффузии, то будущее может принадлежать моделям, которые будут объединять понимание и генерацию текста в одном процессе.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2🐳1
«Что может пойти не так?»: датацентр в Южной Корее, которым будет управлять ИИ 🐹
В Южной Корее готовятся запустить амбициозный проект — датацентр, который будет спроектирован и управляться искусственным интеллектом. ИИ будет решать всё: от выбора площадки до исправления поломок в процессе работы.
Вопрос, конечно, в том, как всё это будет работать в реальности. И хотя идея звучит интересно, никто не гарантирует, что всё пойдёт гладко. Ну и что будет, если ИИ вдруг решит, что в мире больше не нужно охлаждать серверы?😂
Data Science
В Южной Корее готовятся запустить амбициозный проект — датацентр, который будет спроектирован и управляться искусственным интеллектом. ИИ будет решать всё: от выбора площадки до исправления поломок в процессе работы.
Проект под названием Project Concord стоит целых 35 миллиардов долларов, и планируется, что мощность датацентра составит 3 гигаватта. Ожидается, что он будет способен решать задачи на совершенно новом уровне. ИИ будет работать не только на этапе строительства (выбор участка, проектирование), но и в процессе эксплуатации, следя за энергопотреблением, охлаждением и даже устраняя неисправности без вмешательства человека. Если задуматься, это действительно масштабный шаг в будущее.
Проект должен быть завершён в 2028 году, и, конечно, это вызвало много обсуждений. Идея сама по себе не нова. ИИ уже активно применяется в разных областях, но создать полностью автономный датацентр — это уже что-то совершенно другое.
Вопрос, конечно, в том, как всё это будет работать в реальности. И хотя идея звучит интересно, никто не гарантирует, что всё пойдёт гладко. Ну и что будет, если ИИ вдруг решит, что в мире больше не нужно охлаждать серверы?
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from xCode Journal
Она обходит другие топовые ИИ, включая ChatGPT 5.1, почти на всех бенчах. Так, у нее первое место на «Последнем экзамене человечества» с рекордными 37,5%, а на MathArena Apex — 22,3%.
Для сравнения и понимания масштаба — у GPT-5.1 всего 1%.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1