Когда появится первая эмуляция живого мозга?
В большом отчёте EPFL, Allen Institute, MIT за 2025 год учёные вновь делают вывод, что LLM ещё очень далеко до цифрового мозга и тем более до эмуляции человеческого.
Прогресс последних лет строится вокруг записи работы мозга, картирования структуры и моделирования:
1. Учёные научились фиксировать нейронные связи в сотни раз эффективнее и всё равно могут записать не более 1 млн из ~70 млн нейронов мыши. Зафиксировать 95% мозговой активности не вышло ни у одного исследуемого организма, даже у червей.
2. Полностью восстановить карту нейронных связей (коннектом) можно лишь у отдельных простых нервных систем. Зато за полвека в сотни раз дешевле стал процесс записи нейронов.
3. Даже самые продвинутые нейросимуляции игнорируют большую часть биохимических процессов и пластичность нервной системы. Модели могут воспроизводить отдельные паттерны активности, но не поведение живого мозга. Последнее, вероятно, останется невозможным для LLM в принципе.
Итого
В ближайшие десятилетия мы [возможно] сможем создать эмуляцию мозга червей, плодовых мух или личинок рыб. О более сложных организмах — даже если речь о мышах — мечтать слишком рано.
В большом отчёте EPFL, Allen Institute, MIT за 2025 год учёные вновь делают вывод, что LLM ещё очень далеко до цифрового мозга и тем более до эмуляции человеческого.
Прогресс последних лет строится вокруг записи работы мозга, картирования структуры и моделирования:
1. Учёные научились фиксировать нейронные связи в сотни раз эффективнее и всё равно могут записать не более 1 млн из ~70 млн нейронов мыши. Зафиксировать 95% мозговой активности не вышло ни у одного исследуемого организма, даже у червей.
2. Полностью восстановить карту нейронных связей (коннектом) можно лишь у отдельных простых нервных систем. Зато за полвека в сотни раз дешевле стал процесс записи нейронов.
3. Даже самые продвинутые нейросимуляции игнорируют большую часть биохимических процессов и пластичность нервной системы. Модели могут воспроизводить отдельные паттерны активности, но не поведение живого мозга. Последнее, вероятно, останется невозможным для LLM в принципе.
Итого
В ближайшие десятилетия мы [возможно] сможем создать эмуляцию мозга червей, плодовых мух или личинок рыб. О более сложных организмах — даже если речь о мышах — мечтать слишком рано.
👍21🤔16❤14👏12🤯8
This media is not supported in your browser
VIEW IN TELEGRAM
Opus 4.6: новые опыты над автономностью AI-агентов
Anthropic рассказала о большом эксперименте: за две недели 16 независимых агентов на базе Claude Opus 4.6 разрабатывали компилятор C для преобразования исходного кода в машинный.
Как это происходило?
Без участия человека агенты параллельно работали в Docker и клонировали один и тот же Git-репозиторий в течение почти 2 тысяч сессий. Благодаря этому часть агентов решала текущие проблемы, тогда как освободившиеся от рутины занимались тестированием и другими задачами. В сумме они написали около 100 тысяч строк кода на Rust. Затраты на API оценили в $20 000.
Система из 16 агентов показала отличные результаты:
• компилирует ядро Linux 6.9 для архитектур x86, ARM и RISC-V
• взаимодействует с большими проектами с открытым исходным кодом вроде PostgreSQL и Redis
• на 99% эффективна в требовательных тестах, например GCC Torture Test Suite
• компилировала и запустила легендарный Doom
О чём это говорит?
AI-системы уже достаточно обучены для способности координировать свои действия и автономно создавать инфраструктурное ПО. Если объединить этот вывод с уже существующими агентными системами вроде OpenClaw, можно определить траекторию, по которой будет меняться создание ПО в будущем. Человеку там определяется место контролёра, а не исполнителя.
Anthropic рассказала о большом эксперименте: за две недели 16 независимых агентов на базе Claude Opus 4.6 разрабатывали компилятор C для преобразования исходного кода в машинный.
Как это происходило?
Без участия человека агенты параллельно работали в Docker и клонировали один и тот же Git-репозиторий в течение почти 2 тысяч сессий. Благодаря этому часть агентов решала текущие проблемы, тогда как освободившиеся от рутины занимались тестированием и другими задачами. В сумме они написали около 100 тысяч строк кода на Rust. Затраты на API оценили в $20 000.
Система из 16 агентов показала отличные результаты:
• компилирует ядро Linux 6.9 для архитектур x86, ARM и RISC-V
• взаимодействует с большими проектами с открытым исходным кодом вроде PostgreSQL и Redis
• на 99% эффективна в требовательных тестах, например GCC Torture Test Suite
• компилировала и запустила легендарный Doom
О чём это говорит?
AI-системы уже достаточно обучены для способности координировать свои действия и автономно создавать инфраструктурное ПО. Если объединить этот вывод с уже существующими агентными системами вроде OpenClaw, можно определить траекторию, по которой будет меняться создание ПО в будущем. Человеку там определяется место контролёра, а не исполнителя.
❤32🔥26👍6🤯5👏3🤔3
NeuroSkill: MIT связывает нейроинтерфейсы и ИИ-агентов
Исследователи из MIT Media Lab представили NeuroSkill — опенсорсный фреймворк, который интегрирует сигналы мозга (BCI) напрямую в контекст LLM-агентов. Это препринт, рецензирование ещё впереди, но инженерное решение уже можно потрогать руками.
Это попытка решить фундаментальную проблему интерфейсов: современные агенты реактивны (ждут промпта), а NeuroSkill делает их проактивными (считывают состояние пользователя).
Система работает полностью локально — по умолчанию через Ollama, что критично для приватности нейроданных. Стек состоит из двух ключевых компонентов:
1. NeuroSkill — приложение, которое забирает сырые данные с носимых устройств (Muse, OpenBCI и совместимых BCI-гаджетов). Оно на лету преобразует биосигналы в эмбеддинги, формируя «цифровой слепок» текущего состояния пользователя.
2. NeuroLoop — агентный цикл, который непрерывно мониторит эти эмбеддинги. Если система замечает паттерн (например, резкое падение концентрации или скачок стресса), она может вмешаться — но с настраиваемым уровнем автономии: в зависимости от серьёзности ситуации агент либо предлагает действие, либо просит подтверждения.
Самое интересное инженерное решение — это SKILL.md. Разработчики предложили описывать логику реакции агента на биосигналы через обычные Markdown-файлы. Вы буквально пишете инструкции в духе «Если уровень фокуса падает ниже 30% в течение 10 минут, предложи изменить задачу». Система сама парсит этот файл и настраивает триггеры NeuroLoop.
Исследователи предлагают движение от парадигмы RAG (поиск по документам) к NeuroRAG — поиску по истории психофизиологических состояний.
Важно понимать: это не чтение мыслей и не эмпатия. Это отслеживание состояния. Но для реальных кейсов — от адаптивного обучения (агент упрощает материал, если видит когнитивную перегрузку) до помощи парализованным пациентам — этого уже достаточно, чтобы повлиять на привычный UX.
Оговорки, которые авторы честно прописывают сами: глубокое выравнивание данных может потреблять до 48 ГБ видеопамяти; NeuroLoop по умолчанию ограничен анализом 24-часовых периодов; BCI-устройства шумят и чувствительны к качеству контакта. И самое неочевидное — авторы прямо предупреждают о риске накопления «когнитивного долга», социальной изоляции и других побочных эффектов при злоупотреблении.
Исследователи из MIT Media Lab представили NeuroSkill — опенсорсный фреймворк, который интегрирует сигналы мозга (BCI) напрямую в контекст LLM-агентов. Это препринт, рецензирование ещё впереди, но инженерное решение уже можно потрогать руками.
Это попытка решить фундаментальную проблему интерфейсов: современные агенты реактивны (ждут промпта), а NeuroSkill делает их проактивными (считывают состояние пользователя).
Система работает полностью локально — по умолчанию через Ollama, что критично для приватности нейроданных. Стек состоит из двух ключевых компонентов:
1. NeuroSkill — приложение, которое забирает сырые данные с носимых устройств (Muse, OpenBCI и совместимых BCI-гаджетов). Оно на лету преобразует биосигналы в эмбеддинги, формируя «цифровой слепок» текущего состояния пользователя.
2. NeuroLoop — агентный цикл, который непрерывно мониторит эти эмбеддинги. Если система замечает паттерн (например, резкое падение концентрации или скачок стресса), она может вмешаться — но с настраиваемым уровнем автономии: в зависимости от серьёзности ситуации агент либо предлагает действие, либо просит подтверждения.
Самое интересное инженерное решение — это SKILL.md. Разработчики предложили описывать логику реакции агента на биосигналы через обычные Markdown-файлы. Вы буквально пишете инструкции в духе «Если уровень фокуса падает ниже 30% в течение 10 минут, предложи изменить задачу». Система сама парсит этот файл и настраивает триггеры NeuroLoop.
Исследователи предлагают движение от парадигмы RAG (поиск по документам) к NeuroRAG — поиску по истории психофизиологических состояний.
Важно понимать: это не чтение мыслей и не эмпатия. Это отслеживание состояния. Но для реальных кейсов — от адаптивного обучения (агент упрощает материал, если видит когнитивную перегрузку) до помощи парализованным пациентам — этого уже достаточно, чтобы повлиять на привычный UX.
Оговорки, которые авторы честно прописывают сами: глубокое выравнивание данных может потреблять до 48 ГБ видеопамяти; NeuroLoop по умолчанию ограничен анализом 24-часовых периодов; BCI-устройства шумят и чувствительны к качеству контакта. И самое неочевидное — авторы прямо предупреждают о риске накопления «когнитивного долга», социальной изоляции и других побочных эффектов при злоупотреблении.
❤19👍19🔥11🤔6🤯4👏2
OpenClaw: почему люди стоят в очередях за агентами?
В Китае студенты и пенсионеры выстраиваются в гигантские очереди к штаб-квартирам ИТ-гигантов (например, Tencent), чтобы инженеры бесплатно установили и настроили им ИИ-агента OpenClaw.
За 100 дней OpenClaw стал одним из самых популярных репозиториев в GitHub, обогнав Linux, которому на это потребовалось почти 14 лет. Из 142 тысяч публично отслеживаемых агентов почти половина запущена в Китае.
Разберем, что реально стоит за этим ажиотажем.
1. Пользователи: карьерная тревожность
Медиа и инфлюенсеры активно давят на страх упущенных возможностей: «Осваивай ИИ сейчас, или завтра останешься без работы». Вместо осознанного решения конкретных задач, люди массово устанавливают агентов просто из-за боязни отстать от рынка труда.
2. Бигтех: долгосрочная монетизация инфраструктуры
Почему корпорации уровня Tencent отправляют своих разработчиков бесплатно настраивать агентов людям с улицы? За последний год ByteDance, Alibaba и Tencent совокупно потратили около 60 млрд долларов на ИИ-мощности.
Модели постоянно обучаются, но компаниям нужно планомерно монетизировать и пользовательский слой. Локальный агент работает фоном 24/7 и делает множество API-вызовов. В итоге он сжигает в 10–100 раз больше токенов, чем если человек просто пользуется стандартным чат-ботом.
3. Муниципалитеты: институциональные деньги
Как только экономика агентов стала горячей темой, муниципалитеты начали заливать тренд деньгами, чтобы привлечь таланты и показать инновационность. За одну неделю сразу несколько китайских городов выкатили программы поддержки для разработчиков на базе OpenClaw. В Шэньчжэне и Уси стартапам предлагают гранты до 720 тысяч долларов, бесплатные офисы на срок до трёх лет и субсидии на жильё.
Как итог: тревожность пользователей встретилась со стратегией корпораций по масштабированию потребления ИИ-инфраструктуры и щедростью местных бюджетов.
В Китае студенты и пенсионеры выстраиваются в гигантские очереди к штаб-квартирам ИТ-гигантов (например, Tencent), чтобы инженеры бесплатно установили и настроили им ИИ-агента OpenClaw.
За 100 дней OpenClaw стал одним из самых популярных репозиториев в GitHub, обогнав Linux, которому на это потребовалось почти 14 лет. Из 142 тысяч публично отслеживаемых агентов почти половина запущена в Китае.
Разберем, что реально стоит за этим ажиотажем.
1. Пользователи: карьерная тревожность
Медиа и инфлюенсеры активно давят на страх упущенных возможностей: «Осваивай ИИ сейчас, или завтра останешься без работы». Вместо осознанного решения конкретных задач, люди массово устанавливают агентов просто из-за боязни отстать от рынка труда.
2. Бигтех: долгосрочная монетизация инфраструктуры
Почему корпорации уровня Tencent отправляют своих разработчиков бесплатно настраивать агентов людям с улицы? За последний год ByteDance, Alibaba и Tencent совокупно потратили около 60 млрд долларов на ИИ-мощности.
Модели постоянно обучаются, но компаниям нужно планомерно монетизировать и пользовательский слой. Локальный агент работает фоном 24/7 и делает множество API-вызовов. В итоге он сжигает в 10–100 раз больше токенов, чем если человек просто пользуется стандартным чат-ботом.
3. Муниципалитеты: институциональные деньги
Как только экономика агентов стала горячей темой, муниципалитеты начали заливать тренд деньгами, чтобы привлечь таланты и показать инновационность. За одну неделю сразу несколько китайских городов выкатили программы поддержки для разработчиков на базе OpenClaw. В Шэньчжэне и Уси стартапам предлагают гранты до 720 тысяч долларов, бесплатные офисы на срок до трёх лет и субсидии на жильё.
Как итог: тревожность пользователей встретилась со стратегией корпораций по масштабированию потребления ИИ-инфраструктуры и щедростью местных бюджетов.
❤22🤔11🔥4
В прошлом году поставки гуманоидных роботов составили всего 13 тысяч штук — для глобальной индустрии это почти ничего. Рынок активно ищет решения проблем, мешающих масштабировать технологии «воплощенного интеллекта» (Embodied AI), которые позволяют роботам выполнять задачи в физической среде.
По объемам поставок гуманоидных роботов лидируют китайские компании: они запускают массовые производства благодаря сильной промышленной базе и производственным цепочкам, созданным для электромобилей и электроники. Китайские роботы уже показывают публике свои акробатические способности. Пока это еще работа по предустановленным программам, но она демонстрирует физические возможности, которые могут использовать разработчики продуктов.
За всем этим стоит ограничение. Роботы должны действовать в реальном мире: переносить предметы, перемещаться в пространстве, взаимодействовать с людьми. Для того, чтобы их обучить, нужны массивы данных из физической среды. Чтобы их получить, в Китае создали несколько обучающих центров, где роботы массово выполняют повседневные задачи. Похожий проект — TUM RoboGym — реализовали и в Германии.
Ускорить развитие гуманоидных роботов может и развитие VLA-моделей. Они получают на вход изображения или видео вместе с текстовыми командами, а выдают необходимые действия.
По итогу, мы все ближе к массовому внедрению гуманоидных роботов. Это займет время, а рынок, вероятно, будет фрагментирован. Учитывая, что Китай уже вырвался в лидеры, возможен сценарий, при котором большинство стран будет использовать китайских роботов, но со своим ПО.
Мы в MWS делаем следующее: в начале года в центре RnD запустили направление Physical AI, где обучаем роботов разных моделей, и уже есть первые результаты, которыми очень скоро с вами поделюсь.
По объемам поставок гуманоидных роботов лидируют китайские компании: они запускают массовые производства благодаря сильной промышленной базе и производственным цепочкам, созданным для электромобилей и электроники. Китайские роботы уже показывают публике свои акробатические способности. Пока это еще работа по предустановленным программам, но она демонстрирует физические возможности, которые могут использовать разработчики продуктов.
За всем этим стоит ограничение. Роботы должны действовать в реальном мире: переносить предметы, перемещаться в пространстве, взаимодействовать с людьми. Для того, чтобы их обучить, нужны массивы данных из физической среды. Чтобы их получить, в Китае создали несколько обучающих центров, где роботы массово выполняют повседневные задачи. Похожий проект — TUM RoboGym — реализовали и в Германии.
Ускорить развитие гуманоидных роботов может и развитие VLA-моделей. Они получают на вход изображения или видео вместе с текстовыми командами, а выдают необходимые действия.
По итогу, мы все ближе к массовому внедрению гуманоидных роботов. Это займет время, а рынок, вероятно, будет фрагментирован. Учитывая, что Китай уже вырвался в лидеры, возможен сценарий, при котором большинство стран будет использовать китайских роботов, но со своим ПО.
Мы в MWS делаем следующее: в начале года в центре RnD запустили направление Physical AI, где обучаем роботов разных моделей, и уже есть первые результаты, которыми очень скоро с вами поделюсь.
🔥21❤10🤔4🤯4👏3
NVIDIA GTC 2026
На прошедшей конференции NVIDIA Дженсен Хуанг рассказал, что индустрия движется от чат-ботов к автономным агентам и физическому ИИ. Разберём главное.
1. Четвёртый вид масштабирования: агентный
До этого говорили о трёх: предобучении, постобучении, выводе. Хуанг добавляет четвёртый — агентный. Системы, которые работают над задачей часами и днями в фоне. Это меняет профиль нагрузки на дата-центры и требует новой архитектуры.
2. NemoClaw
NVIDIA выпустила NemoClaw — открытый стек, который добавляет возможности приватности и безопасности поверх OpenClaw. Хуанг сформулировал прямо: у каждой SaaS-компании уже сегодня должна быть OpenClaw-стратегия.
3. Nemotron Coalition: ставка на открытые модели
NVIDIA собирает коалицию вокруг шести семейств открытых моделей: Nemotron (язык), Cosmos (зрение и мировые модели), Isaac GR00T (роботика), Alpamayo (автономное вождение), BioNeMo (биология) и Earth-2 (климат). В коалиции — Mistral AI, Perplexity, LangChain, Black Forest Labs и другие. Идея простая: любой разработчик строит нишевые модели без зависимости от API.
4. Vera Rubin: новое железо
Семь чипов, пять типов стоек. GPU — для обучения, CPU — для агентной логики, собственные NVIDIA LPU — для задач с минимальной задержкой. Поставки — второе полугодие 2026-го.
5. Космос
Главный сюрприз — космос. NVIDIA проектирует Space-1 Vera Rubin — ИИ-дата-центры на орбите для решений в реальном времени за пределами Земли.
NVIDIA перестаёт быть чипмейкером в классическом смысле. Компания выстраивает монолитный вертикальный стек: кремний (Vera Rubin) → рантайм (OpenShell) → безопасная среда (NemoClaw) → открытые фронтирные модели (Nemotron Coalition) → среда обитания для роботов и автономных систем (физический ИИ).
На прошедшей конференции NVIDIA Дженсен Хуанг рассказал, что индустрия движется от чат-ботов к автономным агентам и физическому ИИ. Разберём главное.
1. Четвёртый вид масштабирования: агентный
До этого говорили о трёх: предобучении, постобучении, выводе. Хуанг добавляет четвёртый — агентный. Системы, которые работают над задачей часами и днями в фоне. Это меняет профиль нагрузки на дата-центры и требует новой архитектуры.
2. NemoClaw
NVIDIA выпустила NemoClaw — открытый стек, который добавляет возможности приватности и безопасности поверх OpenClaw. Хуанг сформулировал прямо: у каждой SaaS-компании уже сегодня должна быть OpenClaw-стратегия.
3. Nemotron Coalition: ставка на открытые модели
NVIDIA собирает коалицию вокруг шести семейств открытых моделей: Nemotron (язык), Cosmos (зрение и мировые модели), Isaac GR00T (роботика), Alpamayo (автономное вождение), BioNeMo (биология) и Earth-2 (климат). В коалиции — Mistral AI, Perplexity, LangChain, Black Forest Labs и другие. Идея простая: любой разработчик строит нишевые модели без зависимости от API.
4. Vera Rubin: новое железо
Семь чипов, пять типов стоек. GPU — для обучения, CPU — для агентной логики, собственные NVIDIA LPU — для задач с минимальной задержкой. Поставки — второе полугодие 2026-го.
5. Космос
Главный сюрприз — космос. NVIDIA проектирует Space-1 Vera Rubin — ИИ-дата-центры на орбите для решений в реальном времени за пределами Земли.
NVIDIA перестаёт быть чипмейкером в классическом смысле. Компания выстраивает монолитный вертикальный стек: кремний (Vera Rubin) → рантайм (OpenShell) → безопасная среда (NemoClaw) → открытые фронтирные модели (Nemotron Coalition) → среда обитания для роботов и автономных систем (физический ИИ).
❤20👍13🔥4👏4
Ученые научили выращенный в лаборатории мозг решать инженерную задачу
Исследователи из Калифорнийского университета в Санта-Крузе обучили мозговые органоиды — небольшие фрагменты нервной ткани, выращенные из стволовых клеток мыши, — выполнять конкретную задачу. Целью ученых было понять, как нейроны учатся и адаптируются. Результаты опубликованы в журнале Cell Reports.
«Задача тележки и столба» — стандартный тест в робототехнике и системах управления: нужно удерживать вертикальный стержень в равновесии, двигая тележку влево или вправо. По сути, поддерживать баланс нестабильной модели. Органоид подключили к чипу, который считывал сигналы нейронов и посылал им электрические импульсы. Исследователи передавали ткани информацию о положении виртуального шеста, а ответные сигналы использовались для управления движением платформы в компьютерной модели. Если результат не улучшался, система выбирала, каким нейронам дать новый обучающий сигнал.
При случайном обучении органоиды справлялись с задачей лишь в 4,5% случаев. После адаптивной тренировки с подкреплением показатель вырос до 46%. Это говорит о том, что даже очень простая нервная ткань может учиться, если получает правильные электрические сигналы. Правда, у такой системы есть серьезные ограничения. Через 45 минут отдыха эффект почти исчезал, а результаты возвращались на исходный уровень. То есть пока речь идет только о кратковременном обучении, без устойчивой памяти.
Такие исследования помогают в изучении неврологических заболеваний, а попутно открывают миру совершенно новый класс технологий, где биологические системы используются для вычислений. До прикладных решений еще далеко, но в перспективе из них могут вырасти совершенно новые типы устройств, которые могут заменить классические кремниевые чипы — хотя бы для простейших логических задач. Именно поэтому за такими исследованиями стоит внимательно следить уже сейчас.
Исследователи из Калифорнийского университета в Санта-Крузе обучили мозговые органоиды — небольшие фрагменты нервной ткани, выращенные из стволовых клеток мыши, — выполнять конкретную задачу. Целью ученых было понять, как нейроны учатся и адаптируются. Результаты опубликованы в журнале Cell Reports.
«Задача тележки и столба» — стандартный тест в робототехнике и системах управления: нужно удерживать вертикальный стержень в равновесии, двигая тележку влево или вправо. По сути, поддерживать баланс нестабильной модели. Органоид подключили к чипу, который считывал сигналы нейронов и посылал им электрические импульсы. Исследователи передавали ткани информацию о положении виртуального шеста, а ответные сигналы использовались для управления движением платформы в компьютерной модели. Если результат не улучшался, система выбирала, каким нейронам дать новый обучающий сигнал.
При случайном обучении органоиды справлялись с задачей лишь в 4,5% случаев. После адаптивной тренировки с подкреплением показатель вырос до 46%. Это говорит о том, что даже очень простая нервная ткань может учиться, если получает правильные электрические сигналы. Правда, у такой системы есть серьезные ограничения. Через 45 минут отдыха эффект почти исчезал, а результаты возвращались на исходный уровень. То есть пока речь идет только о кратковременном обучении, без устойчивой памяти.
Такие исследования помогают в изучении неврологических заболеваний, а попутно открывают миру совершенно новый класс технологий, где биологические системы используются для вычислений. До прикладных решений еще далеко, но в перспективе из них могут вырасти совершенно новые типы устройств, которые могут заменить классические кремниевые чипы — хотя бы для простейших логических задач. Именно поэтому за такими исследованиями стоит внимательно следить уже сейчас.
❤22👍13🤯9
Google DeepMind: почему агенты ломаются на длинных дистанциях
Команда Google DeepMind опубликовала объёмную работу о фундаментальной проблеме автономных систем. Главный барьер для ИИ-агентов сегодня — длинные многошаговые задачи.
Исследователи проанализировали логи тысяч неудачных сессий в бенчмарке WebArena. Выяснилось, что почти в половине случаев провал происходит по сценарию Get Stuck Midway (застревание на середине).
Агент отлично понимает стартовую точку и финальную цель, но на длинной дистанции теряет контекст. Вместо продвижения вперёд он попадает в слепую зону, начинает ходить по кругу и циклично повторять одни и те же действия. Системы, обученные стандартными методами, просто не способны удерживать глобальный план.
Решение: фреймворк MiRA
DeepMind предлагает отказаться от попыток скормить агенту задачу целиком. Их решение MiRA (Milestoning your RL Enhanced Agent) внедряет концепцию подцелей на двух архитектурных уровнях:
1. На этапе вывода:
Здесь работает отдельная ветка фреймворка — Gemini-SGO. Перед каждым шагом агент запускает цикл саморефлексии из трёх вопросов: что уже достигнуто из плана, выполнена ли текущая подцель, и какие вехи ещё предстоят. Валидатор встроен в ту же модель (Gemini-2.5-pro) и сверяет реальное состояние среды с чек-листом. Если подцель не достигнута, агент получает явный сигнал об этом и перестраивает план действий.
2. На этапе обучения
В классическом обучении с подкреплением агент получает награду только в конце. На дистанции в десятки шагов это не работает — модель не понимает, какие именно действия привели к успеху. MiRA вводит систему двойной оценки. Вспомогательный критик выдаёт плотную награду за прохождение каждой промежуточной вехи, тогда как основной критик продолжает обучаться исключительно на итоговом результате — провал или успех всей задачи. Грубо говоря, агент получает премию за закрытие спринтов, но главная зарплата по-прежнему выплачивается только по завершению всего проекта.
Подход дал радикальный прирост. Компактная открытая модель Gemma3 (12B), обученная по методу MiRA, показала коэффициент успеха в 43.0% на WebArena-Lite. Для сравнения: GPT-4o даёт 13.9%, а GPT-4-Turbo — 17.6%. Умное разделение на подцели и поощрение за микрошаги позволило 12-миллиардной модели разгромить тяжёлые проприетарные решения.
Что на практике?
Интересно, что параллельно ту же проблему решает опенсорс. Например, команда OpenClaw выпустила обновление, которое переводит агентов из режима коротких сессий в режим непрерывной работы.
Команда Google DeepMind опубликовала объёмную работу о фундаментальной проблеме автономных систем. Главный барьер для ИИ-агентов сегодня — длинные многошаговые задачи.
Исследователи проанализировали логи тысяч неудачных сессий в бенчмарке WebArena. Выяснилось, что почти в половине случаев провал происходит по сценарию Get Stuck Midway (застревание на середине).
Агент отлично понимает стартовую точку и финальную цель, но на длинной дистанции теряет контекст. Вместо продвижения вперёд он попадает в слепую зону, начинает ходить по кругу и циклично повторять одни и те же действия. Системы, обученные стандартными методами, просто не способны удерживать глобальный план.
Решение: фреймворк MiRA
DeepMind предлагает отказаться от попыток скормить агенту задачу целиком. Их решение MiRA (Milestoning your RL Enhanced Agent) внедряет концепцию подцелей на двух архитектурных уровнях:
1. На этапе вывода:
Здесь работает отдельная ветка фреймворка — Gemini-SGO. Перед каждым шагом агент запускает цикл саморефлексии из трёх вопросов: что уже достигнуто из плана, выполнена ли текущая подцель, и какие вехи ещё предстоят. Валидатор встроен в ту же модель (Gemini-2.5-pro) и сверяет реальное состояние среды с чек-листом. Если подцель не достигнута, агент получает явный сигнал об этом и перестраивает план действий.
2. На этапе обучения
В классическом обучении с подкреплением агент получает награду только в конце. На дистанции в десятки шагов это не работает — модель не понимает, какие именно действия привели к успеху. MiRA вводит систему двойной оценки. Вспомогательный критик выдаёт плотную награду за прохождение каждой промежуточной вехи, тогда как основной критик продолжает обучаться исключительно на итоговом результате — провал или успех всей задачи. Грубо говоря, агент получает премию за закрытие спринтов, но главная зарплата по-прежнему выплачивается только по завершению всего проекта.
Подход дал радикальный прирост. Компактная открытая модель Gemma3 (12B), обученная по методу MiRA, показала коэффициент успеха в 43.0% на WebArena-Lite. Для сравнения: GPT-4o даёт 13.9%, а GPT-4-Turbo — 17.6%. Умное разделение на подцели и поощрение за микрошаги позволило 12-миллиардной модели разгромить тяжёлые проприетарные решения.
Что на практике?
Интересно, что параллельно ту же проблему решает опенсорс. Например, команда OpenClaw выпустила обновление, которое переводит агентов из режима коротких сессий в режим непрерывной работы.
👍25❤15🔥6👏5
Утечка от Anthropic
Кто-то случайно слил исходный код Claude Code — инструмента Anthropic для программистов. Как выяснилось, виной всему банальная ошибка при сборке публичного npm-пакета: в опубликованный пакет попал sourcemap-файл с полным исходным кодом. В сеть утекло более 512 000 строк в почти 1 900 файлах.
Судя по скрытым функциям, Anthropic хочет перейти к полноценным автономным ИИ-коллегам, которые могут работать без человека часами и днями (что логично).
Вот инсайды из слитого кода:
1. Автономная работа. В коде обнаружена функция KAIROS — режим, в котором Claude будет работать в фоне.
Что он умеет:
• обдумывать задачи
• запоминать контекст (есть даже механика «сна», где ИИ структурирует память и подводит итоги)
• следить за изменениями в проекте
• принимать решения, что делать дальше
• отправлять push-уведомления пользователю
К этому добавляется режим PROACTIVE: ИИ будет периодически «просыпаться» и искать, чем заняться. А для сложных задач предусмотрен режим Coordinator, где один Claude становится тимлидом и управляет сабагентами (один пишет код, другой тестирует и т.д.)
2. Судя по утечке, появится система разрешений. Классификатор будет автоматически давать добро на безопасные действия.
3. Пасхалки и другие находки:
• возможность общаться с агентом прямо в терминале голосом
• система питомцев-помощников в консоли с gacha-механикой
• Undercover Mode — фича, которая при работе в публичных open-source-репозиториях не позволяет Claude раскрывать внутренние кодовые названия и другую информацию Anthropic в коммитах и PR
Дополнение: энтузиасты уже успели сделать open-source-ремейк на Python и Rust.
Кто-то случайно слил исходный код Claude Code — инструмента Anthropic для программистов. Как выяснилось, виной всему банальная ошибка при сборке публичного npm-пакета: в опубликованный пакет попал sourcemap-файл с полным исходным кодом. В сеть утекло более 512 000 строк в почти 1 900 файлах.
Судя по скрытым функциям, Anthropic хочет перейти к полноценным автономным ИИ-коллегам, которые могут работать без человека часами и днями (что логично).
Вот инсайды из слитого кода:
1. Автономная работа. В коде обнаружена функция KAIROS — режим, в котором Claude будет работать в фоне.
Что он умеет:
• обдумывать задачи
• запоминать контекст (есть даже механика «сна», где ИИ структурирует память и подводит итоги)
• следить за изменениями в проекте
• принимать решения, что делать дальше
• отправлять push-уведомления пользователю
К этому добавляется режим PROACTIVE: ИИ будет периодически «просыпаться» и искать, чем заняться. А для сложных задач предусмотрен режим Coordinator, где один Claude становится тимлидом и управляет сабагентами (один пишет код, другой тестирует и т.д.)
2. Судя по утечке, появится система разрешений. Классификатор будет автоматически давать добро на безопасные действия.
3. Пасхалки и другие находки:
• возможность общаться с агентом прямо в терминале голосом
• система питомцев-помощников в консоли с gacha-механикой
• Undercover Mode — фича, которая при работе в публичных open-source-репозиториях не позволяет Claude раскрывать внутренние кодовые названия и другую информацию Anthropic в коммитах и PR
Дополнение: энтузиасты уже успели сделать open-source-ремейк на Python и Rust.
❤26🔥25👍5🤔5
Полноценный ИИ-агент теперь помещается в 1 ГБ памяти на iPhone
Новая лаборатория PrismML, выросшая из многолетних исследований Калтеха, выкатила важный релиз. Они представили Bonsai 8B — языковую модель на 8 млрд параметров, которая весит всего 1.15 ГБ и без проблем запускается на iPhone 17 Pro.
Как они это сделали? Секрет в тотальной 1-бит-квантизации, причём не в post-training-сжатии готовой модели, а в обучении в 1-битном формате. Если обычно каждый параметр модели весит 16 бит, то здесь PrismML смогли использовать 1-битный формат.
В результате Bonsai 8B:
• в разы меньше аналогов
• в 8 раз быстрее ряда моделей
• в 4–5 раз энергоэффективнее на edge-устройствах
Когда LLM весит около гигабайта и не съедает батарею, она начинает отлично подходить для локальных устройств.
Модель open-source (лицензия Apache 2.0). Вдогонку к 8B также выпустили ещё меньшие версии — на 4B (0.57 ГБ) и 1.7B (0.24 ГБ)
Технические детали и фактура тут
Новая лаборатория PrismML, выросшая из многолетних исследований Калтеха, выкатила важный релиз. Они представили Bonsai 8B — языковую модель на 8 млрд параметров, которая весит всего 1.15 ГБ и без проблем запускается на iPhone 17 Pro.
Как они это сделали? Секрет в тотальной 1-бит-квантизации, причём не в post-training-сжатии готовой модели, а в обучении в 1-битном формате. Если обычно каждый параметр модели весит 16 бит, то здесь PrismML смогли использовать 1-битный формат.
В результате Bonsai 8B:
• в разы меньше аналогов
• в 8 раз быстрее ряда моделей
• в 4–5 раз энергоэффективнее на edge-устройствах
Важный нюанс: прирост скорости в 8 раз сейчас достигается в основном за счёт уменьшения занимаемой памяти, а не полного использования 1-битных вычислений. Для следующего порядка величины потребуется специализированное железо
Когда LLM весит около гигабайта и не съедает батарею, она начинает отлично подходить для локальных устройств.
Модель open-source (лицензия Apache 2.0). Вдогонку к 8B также выпустили ещё меньшие версии — на 4B (0.57 ГБ) и 1.7B (0.24 ГБ)
Технические детали и фактура тут
👍26❤12
Новый нейроинтерфейс Epia Neuro
На рынке BCI (brain-computer interface) появился серьёзный игрок. Стартап Epia Neuro представил платформу для реабилитации пациентов после инсульта и людей с когнитивными нарушениями.
В отличие от Neuralink или Synchron, которые в первую очередь возвращают парализованным людям способность общаться через гаджеты, Epia делает ставку на возвращение физической независимости.
Как это работает? Система состоит из импланта, ИИ-алгоритмов и роботизированной перчатки.
Главные технические фишки:
• платформа поддерживает не только чтение сигналов, но и стимуляцию — как на уровне коры, так и в глубоких структурах мозга
• имплант ставится меньше чем за час и, что крайне важно, без прокола твёрдой мозговой оболочки
• снаружи чип вообще не видно. Он заряжается через внешнюю гарнитуру, рассчитан на годы работы, а при необходимости его можно апгрейдить или заменить
У руля компании Мишель Махарбиз — экс-профессор Berkeley и создатель стартапа iota Biosciences (который сейчас является частью экосистемы фармгиганта Astellas). Первые испытания на людях пройдут уже в этом году в отделении нейрохирургии больницы Ленокс Хилл в Нью-Йорке.
Установка без прокола мозговой оболочки — это плюс к безопасности, но минус к точности: неизвестно, справится ли ИИ с тонкой моторикой или всё ограничится примитивным хватом. К тому же для нейропластичности критически важна околонулевая задержка между мыслью и движением перчатки, иначе мозг просто не свяжет их воедино. Ну и не забываем про бюрократию FDA: от первых тестов в клинике (которые начнутся только в этом году) до релиза таких инвазивных девайсов обычно проходят долгие годы.
На рынке BCI (brain-computer interface) появился серьёзный игрок. Стартап Epia Neuro представил платформу для реабилитации пациентов после инсульта и людей с когнитивными нарушениями.
В отличие от Neuralink или Synchron, которые в первую очередь возвращают парализованным людям способность общаться через гаджеты, Epia делает ставку на возвращение физической независимости.
Как это работает? Система состоит из импланта, ИИ-алгоритмов и роботизированной перчатки.
• Имплант считывает намерение человека пошевелить рукой из неповреждённых областей мозга
• ИИ моментально расшифровывает сигнал и переводит его в цифровую команду
• Умная перчатка физически исполняет это движение
Смысл в том, что такое многократное повторение заново «перепрошивает» и укрепляет разрушенные нейронные пути.
Главные технические фишки:
• платформа поддерживает не только чтение сигналов, но и стимуляцию — как на уровне коры, так и в глубоких структурах мозга
• имплант ставится меньше чем за час и, что крайне важно, без прокола твёрдой мозговой оболочки
• снаружи чип вообще не видно. Он заряжается через внешнюю гарнитуру, рассчитан на годы работы, а при необходимости его можно апгрейдить или заменить
У руля компании Мишель Махарбиз — экс-профессор Berkeley и создатель стартапа iota Biosciences (который сейчас является частью экосистемы фармгиганта Astellas). Первые испытания на людях пройдут уже в этом году в отделении нейрохирургии больницы Ленокс Хилл в Нью-Йорке.
Установка без прокола мозговой оболочки — это плюс к безопасности, но минус к точности: неизвестно, справится ли ИИ с тонкой моторикой или всё ограничится примитивным хватом. К тому же для нейропластичности критически важна околонулевая задержка между мыслью и движением перчатки, иначе мозг просто не свяжет их воедино. Ну и не забываем про бюрократию FDA: от первых тестов в клинике (которые начнутся только в этом году) до релиза таких инвазивных девайсов обычно проходят долгие годы.
❤26🔥13👍7🤔2👏1
Google представила TurboQuant — алгоритм сжатия KV‑cache
TurboQuant заявляет о снижении потребления KV-cache примерно в 5–6 раз. За счет этого уменьшается нагрузка на память при инференсе.
KV-cache — это механизм, который хранит в памяти ключи (key) и значения (value) для уже обработанных токенов и переиспользует их, чтобы не пересчитывать весь контекст при генерации следующего токена.
Кеш растет вместе с контекстом: чем длиннее диалог, тем больше данных нужно хранить. TurboQuant сжимает KV-cache с 16 до примерно 3–4 бит на значение, при этом сохраняя структуру представлений, а значит, и качество ответа модели.
Оптимизация KV-cache снижает требования к памяти при инференсе. Более сложные сценарии можно запускать на том же оборудовании. При этом TurboQuant не требует дообучения, не зависит от данных, сжимая кеш по мере генерации, сочетая подходы PolarQuant и QJL. В итоге бизнес сможет развивать агентные системы с длинным контекстом меньшими затратами, отложив покупку нового компьютерного железа.
TurboQuant пока демонстрирует свою эффективность преимущественно на бенчмарках в контролируемых условиях. Похожие механизмы и так использовались в квантовании моделей, поэтому реальный эффект будет не настолько поразительным, как на бумаге.
Подобные оптимизации могут уменьшить давление на рынке компьютерной памяти. Акции производителей, включая Micron, на короткое время просели на фоне новости про TurboQuant, но это больше похоже на кратковременную реакцию рынка, чем на фундаментальный тренд. Аналитики отмечают, что удешевление инференса может не снизить, а, наоборот, увеличить общий спрос на ИИ-инфраструктуру из-за роста числа задач, требующих длинного контекста.
TurboQuant заявляет о снижении потребления KV-cache примерно в 5–6 раз. За счет этого уменьшается нагрузка на память при инференсе.
KV-cache — это механизм, который хранит в памяти ключи (key) и значения (value) для уже обработанных токенов и переиспользует их, чтобы не пересчитывать весь контекст при генерации следующего токена.
Кеш растет вместе с контекстом: чем длиннее диалог, тем больше данных нужно хранить. TurboQuant сжимает KV-cache с 16 до примерно 3–4 бит на значение, при этом сохраняя структуру представлений, а значит, и качество ответа модели.
Оптимизация KV-cache снижает требования к памяти при инференсе. Более сложные сценарии можно запускать на том же оборудовании. При этом TurboQuant не требует дообучения, не зависит от данных, сжимая кеш по мере генерации, сочетая подходы PolarQuant и QJL. В итоге бизнес сможет развивать агентные системы с длинным контекстом меньшими затратами, отложив покупку нового компьютерного железа.
TurboQuant пока демонстрирует свою эффективность преимущественно на бенчмарках в контролируемых условиях. Похожие механизмы и так использовались в квантовании моделей, поэтому реальный эффект будет не настолько поразительным, как на бумаге.
Подобные оптимизации могут уменьшить давление на рынке компьютерной памяти. Акции производителей, включая Micron, на короткое время просели на фоне новости про TurboQuant, но это больше похоже на кратковременную реакцию рынка, чем на фундаментальный тренд. Аналитики отмечают, что удешевление инференса может не снизить, а, наоборот, увеличить общий спрос на ИИ-инфраструктуру из-за роста числа задач, требующих длинного контекста.
🔥14❤8👍4🤔2
NVIDIA выпустила первые в мире открытые ИИ-модели для квантовых вычислений
Семейство получило название Ising — в честь знаменитой математической модели, которая в своё время сильно упростила описание сложных физических систем. Глобальная задача релиза аналогичная: расшить два главных узких горлышка в разработке масштабируемых квантовых компьютеров — калибровку процессоров и коррекцию ошибок.
Что по цифрам и архитектуре:
Пока физические кубиты остаются хрупкими и нестабильными, Дженсен Хуанг предлагает использовать ИИ как контрольный слой.
Квантовые вычисления всё ещё находятся в фазе глубокого R&D, и фундаментальные физические проблемы масштабирования кубитов не решить одним лишь красивым софтом. Для NVIDIA этот релиз — не столько приближение квантовой революции, сколько отличный способ продавать классические чипы прямо сейчас. Ведь, чтобы непрерывно гонять свёрточные сети для калибровки и коррекции ошибок, лабораториям понадобятся всё те же стойки с H100 и Blackwell.
Семейство получило название Ising — в честь знаменитой математической модели, которая в своё время сильно упростила описание сложных физических систем. Глобальная задача релиза аналогичная: расшить два главных узких горлышка в разработке масштабируемых квантовых компьютеров — калибровку процессоров и коррекцию ошибок.
Что по цифрам и архитектуре:
• Ising Decoding. Две вариации свёрточных 3D-нейросетей (3D CNN), заточенные под декодирование ошибок в реальном времени. Работают до 2.5 раз быстрее и в 3 раза точнее, чем pyMatching — текущий open-source-стандарт в индустрии.
• Ising Calibration. Vision-language-модель (VLM), которая автоматизирует непрерывную калибровку квантового железа. Сокращает время настройки с нескольких дней до пары часов.
• Локальность и экосистема. Модели полностью открытые и могут запускаться локально (что критично для защиты данных лабораторий). И главное — они нативно интегрируются с программной платформой NVIDIA CUDA-Q и хардверным интерконнектом NVQLink. Исходники уже лежат на Hugging Face и GitHub.
Пока физические кубиты остаются хрупкими и нестабильными, Дженсен Хуанг предлагает использовать ИИ как контрольный слой.
Квантовые вычисления всё ещё находятся в фазе глубокого R&D, и фундаментальные физические проблемы масштабирования кубитов не решить одним лишь красивым софтом. Для NVIDIA этот релиз — не столько приближение квантовой революции, сколько отличный способ продавать классические чипы прямо сейчас. Ведь, чтобы непрерывно гонять свёрточные сети для калибровки и коррекции ошибок, лабораториям понадобятся всё те же стойки с H100 и Blackwell.
❤15🔥10👍5🤔4
С ростом популярности ИИ атаки на GPU становятся все опаснее
Исследователи в области информационной безопасности описали атаки GeForge и GDDRHammer, выполняемые через память графических процессоров NVIDIA. Оба подхода развивают идеи GPUHammer — атаки, направленной на видеопамять стандарта GDDR6 дискретных GPU. Они могут уронить точность моделей с 90 до 0,1%, сделав их непригодными для работы.
Еще в 2014 году была описана атака Rowhammer, при которой многократное обращение к одним строкам DRAM вызывало переворот битов в соседних. В DRAM данные удерживаются зарядом в ячейках памяти и интенсивные обращения к ним приводят к его утечке и изменению значения битов в соседних ячейках с 0 на 1 или наоборот. В результате злоумышленник может добиться повреждения данных, обхода защиты или повышения привилегий в системе. В исследовательских условиях GPUHammer продемонстрировал, что аналогичный эффект достижим и на GDDR6.
В новых атаках на GPU концепция принудительного изменения бита осталась той же. При реализации GDDRHammer исследователи использовали технику предварительной подготовки памяти (memory grooming), позволяющую более точно контролировать размещение данных и ход атаки. В экспериментальных условиях им удалось добиться до 129 битовых изменений на один банк памяти.
Атака GeForge похожа на GDDRHammer и тоже использует принцип RowHammer, но была обнаружена другой исследовательской группой, которой удалось вызвать 1171 битовое искажение на RTX 3060 и 202 на RTX A6000. Команда атаковала каталог страниц графического процессора вместо таблиц страниц.
Каталог указывает на эти таблицы, поэтому битовые искажения в этой структуре могут затрагивать более критичные механизмы адресации памяти. В результате появляется возможность нарушить отображения адресов, из-за чего GPU может обращаться к областям памяти за пределами разрешенных, включая данные других процессов.
GPUHammer и GeForge, хотя и опасны, должны выполнять код на общем GPU с жертвой. Такой сценарий возможен в облачной среде с кластером графических процессоров, где эти атаки могут привести к нарушению изоляции памяти между процессами.
Снизить риск атак GPUHammer и GeForge может коррекция ошибок в памяти (ECC, error-correcting code). Но ECC рассчитан на случайные ошибки, а не на целенаправленные воздействия. Этот механизм может не справиться с множественными или повторяющимися битовыми искажениями. Также надо учитывать, что на некоторых GPU пользовательского сегмента он отсутствует или отключен.
Исследователи в области информационной безопасности описали атаки GeForge и GDDRHammer, выполняемые через память графических процессоров NVIDIA. Оба подхода развивают идеи GPUHammer — атаки, направленной на видеопамять стандарта GDDR6 дискретных GPU. Они могут уронить точность моделей с 90 до 0,1%, сделав их непригодными для работы.
Еще в 2014 году была описана атака Rowhammer, при которой многократное обращение к одним строкам DRAM вызывало переворот битов в соседних. В DRAM данные удерживаются зарядом в ячейках памяти и интенсивные обращения к ним приводят к его утечке и изменению значения битов в соседних ячейках с 0 на 1 или наоборот. В результате злоумышленник может добиться повреждения данных, обхода защиты или повышения привилегий в системе. В исследовательских условиях GPUHammer продемонстрировал, что аналогичный эффект достижим и на GDDR6.
В новых атаках на GPU концепция принудительного изменения бита осталась той же. При реализации GDDRHammer исследователи использовали технику предварительной подготовки памяти (memory grooming), позволяющую более точно контролировать размещение данных и ход атаки. В экспериментальных условиях им удалось добиться до 129 битовых изменений на один банк памяти.
Атака GeForge похожа на GDDRHammer и тоже использует принцип RowHammer, но была обнаружена другой исследовательской группой, которой удалось вызвать 1171 битовое искажение на RTX 3060 и 202 на RTX A6000. Команда атаковала каталог страниц графического процессора вместо таблиц страниц.
Каталог указывает на эти таблицы, поэтому битовые искажения в этой структуре могут затрагивать более критичные механизмы адресации памяти. В результате появляется возможность нарушить отображения адресов, из-за чего GPU может обращаться к областям памяти за пределами разрешенных, включая данные других процессов.
GPUHammer и GeForge, хотя и опасны, должны выполнять код на общем GPU с жертвой. Такой сценарий возможен в облачной среде с кластером графических процессоров, где эти атаки могут привести к нарушению изоляции памяти между процессами.
Снизить риск атак GPUHammer и GeForge может коррекция ошибок в памяти (ECC, error-correcting code). Но ECC рассчитан на случайные ошибки, а не на целенаправленные воздействия. Этот механизм может не справиться с множественными или повторяющимися битовыми искажениями. Также надо учитывать, что на некоторых GPU пользовательского сегмента он отсутствует или отключен.
👍10❤7🤔4👏1
OpenAI идёт в фарму: релиз GPT-Rosalind
OpenAI представила GPT-Rosalind — специализированную модель для исследований в области естественных наук, включая биологию, химию, геномику и разработку лекарств.
Разработка нового лекарства в США — от поиска молекулы до одобрения регулятором — занимает в среднем 10–15 лет и стоит миллиарды долларов. Огромная часть времени уходит на рутинный анализ разрозненных данных: учёным приходится сводить воедино тысячи статей, патентов и результатов тестов.
GPT-Rosalind позиционируется как ИИ-исследователь (Vertical AI). Её задача — ускорить ранние этапы R&D. Модель помогает синтезировать доказательную базу, проектировать эксперименты и генерировать проверяемые гипотезы, находя неочевидные связи в гигантских массивах данных.
Модель доступна через ChatGPT, Codex и API, но только в рамках программы «доверенного доступа». Инструмент отдают только избранным enterprise-клиентам с жёстким комплаенсом. В числе первых партнёров — бигфарма, биотех и научные институты: Amgen, Moderna, Allen Institute и Thermo Fisher. Закрытость объясняется не только коммерцией, но и биобезопасностью (чтобы модель не использовали для синтеза патогенов).
В биотехе сосредоточены колоссальные бюджеты на R&D, а цена ошибки на поздних стадиях клинических испытаний фатальна. Если GPT-Rosalind сможет сократить цикл разработки препарата хотя бы на год или отсеять тупиковые гипотезы на старте, экономический эффект составит десятки миллиардов долларов. Для OpenAI это означает идеальный, независимый от хайпа источник корпоративной выручки.
OpenAI представила GPT-Rosalind — специализированную модель для исследований в области естественных наук, включая биологию, химию, геномику и разработку лекарств.
Разработка нового лекарства в США — от поиска молекулы до одобрения регулятором — занимает в среднем 10–15 лет и стоит миллиарды долларов. Огромная часть времени уходит на рутинный анализ разрозненных данных: учёным приходится сводить воедино тысячи статей, патентов и результатов тестов.
GPT-Rosalind позиционируется как ИИ-исследователь (Vertical AI). Её задача — ускорить ранние этапы R&D. Модель помогает синтезировать доказательную базу, проектировать эксперименты и генерировать проверяемые гипотезы, находя неочевидные связи в гигантских массивах данных.
Модель доступна через ChatGPT, Codex и API, но только в рамках программы «доверенного доступа». Инструмент отдают только избранным enterprise-клиентам с жёстким комплаенсом. В числе первых партнёров — бигфарма, биотех и научные институты: Amgen, Moderna, Allen Institute и Thermo Fisher. Закрытость объясняется не только коммерцией, но и биобезопасностью (чтобы модель не использовали для синтеза патогенов).
В биотехе сосредоточены колоссальные бюджеты на R&D, а цена ошибки на поздних стадиях клинических испытаний фатальна. Если GPT-Rosalind сможет сократить цикл разработки препарата хотя бы на год или отсеять тупиковые гипотезы на старте, экономический эффект составит десятки миллиардов долларов. Для OpenAI это означает идеальный, независимый от хайпа источник корпоративной выручки.
🔥17❤11👏3👍1🤔1
Physical Intelligence: роботы учатся импровизировать
Стартап Physical Intelligence (основанный выходцами из Google) представил новую модель π0.7. В своей разработке учёные пытаются решить фундаментальную проблему отрасли — хрупкость алгоритмов.
Исторически обучение роботов строилось на жёстком запоминании. Чтобы манипулятор научился складывать футболку, инженерам нужно было собрать тысячи примеров именно для этой модели робота в конкретных условиях. Любое отклонение в среде или замена железа приводили к сбою.
Модель π0.7 переносит в физический мир главное свойство современных LLM — способность к композиционному обобщению. Система берет усвоенные ранее базовые навыки и комбинирует их на лету для решения задачи, которой её никогда явно не учили.
Инженеры настроили промптинг для физических систем. Теперь модель получает не просто команду «что делать». В неё загружают контекст «как делать». Промпт стал мультимодальным: он включает язык, метаданные и визуальные субцели.
Визуальные субцели генерируются на лету с помощью лёгкой модели мира. Система предсказывает, как должна выглядеть среда после следующего правильного шага, и даёт роботу наглядный промежуточный ориентир, не позволяя ему сбиться с пути.
Отрасль давно пытается добиться от роботов умения импровизировать и подстраиваться под контекст. Переход от зубрёжки к обобщению означает кратное падение затрат на интеграцию.
Важно отделять исследовательские победы от промышленной эксплуатации. Генерация визуальных субцелей на лету требует значительных вычислительных мощностей. Physical Intelligence уже перенесла инференс в облако: модель работает в датацентре, робот получает пакеты команд по API. Это снимает вопрос бортового железа, но переносит нагрузку на облачную инфраструктуру и требует стабильного канала связи. При масштабировании на большой парк роботов обе статьи затрат потребуют отдельной проработки.
Стартап Physical Intelligence (основанный выходцами из Google) представил новую модель π0.7. В своей разработке учёные пытаются решить фундаментальную проблему отрасли — хрупкость алгоритмов.
Исторически обучение роботов строилось на жёстком запоминании. Чтобы манипулятор научился складывать футболку, инженерам нужно было собрать тысячи примеров именно для этой модели робота в конкретных условиях. Любое отклонение в среде или замена железа приводили к сбою.
Модель π0.7 переносит в физический мир главное свойство современных LLM — способность к композиционному обобщению. Система берет усвоенные ранее базовые навыки и комбинирует их на лету для решения задачи, которой её никогда явно не учили.
На практике это выглядит так:
• модель управляет новым, незнакомым роботом и успешно складывает футболки. При этом в тренировочных данных не было ни одной записи этого процесса конкретно для данной конструкции манипулятора.
• робот сталкивается с новым для себя прибором — аэрогрилем. В базе есть лишь общие обрывки физического опыта (как толкать предметы, как класть вещи в контейнер). При нулевом промпте робот справляется лишь частично и с ошибками. Но когда человек даёт пошаговые голосовые инструкции, робот успешно загружает батат в корзину — после чего систему можно дообучить, и она выполняет задачу уже полностью автономно, без участия оператора.
Инженеры настроили промптинг для физических систем. Теперь модель получает не просто команду «что делать». В неё загружают контекст «как делать». Промпт стал мультимодальным: он включает язык, метаданные и визуальные субцели.
Визуальные субцели генерируются на лету с помощью лёгкой модели мира. Система предсказывает, как должна выглядеть среда после следующего правильного шага, и даёт роботу наглядный промежуточный ориентир, не позволяя ему сбиться с пути.
Отрасль давно пытается добиться от роботов умения импровизировать и подстраиваться под контекст. Переход от зубрёжки к обобщению означает кратное падение затрат на интеграцию.
Важно отделять исследовательские победы от промышленной эксплуатации. Генерация визуальных субцелей на лету требует значительных вычислительных мощностей. Physical Intelligence уже перенесла инференс в облако: модель работает в датацентре, робот получает пакеты команд по API. Это снимает вопрос бортового железа, но переносит нагрузку на облачную инфраструктуру и требует стабильного канала связи. При масштабировании на большой парк роботов обе статьи затрат потребуют отдельной проработки.
🔥15❤14🤔3👍1👏1
Google представила 8-е поколение TPU
Google анонсировала новые ИИ-ускорители: TPU 8t и TPU 8i. Компания официально разделяет железо на две независимые ветки: одну для обучения, другую для инференса.
Это разительно контрастирует с подходом Nvidia, которая продолжает строить преимущественно универсальные GPU для широкого круга задач. Google же делает ставку на жёсткую специализацию — и в этом она ближе к AWS с её связкой Trainium/Inferentia.
Индустрия всё активнее использует архитектуры Mixture-of-Experts (MoE) и reasoning-системы. Требования к железу на этапе тренировки и в продакшене разошлись достаточно сильно, так что универсальный чип становится компромиссом. Там, где стандартный GPU начинает проигрывать в эффективности, специализированный кремний даёт существенный прирост.
Что внутри:
1. TPU 8t (Training)
Чип спроектирован исключительно для масштабного обучения. В один кластер (суперпод) объединяется до 9 600 чипов. Главный фокус — на скорости и отказоустойчивости. Заявлен важнейший системный показатель: goodput (доля полезного вычислительного времени) выше 97%. Это значит, что кластер реально обучает модель, а не простаивает, восстанавливаясь после неизбежных аппаратных сбоев. Относительно прошлого поколения (v7) заявлено улучшение соотношения «цена — производительность» в 2,8 раза.
2. TPU 8i (Inference)
Чип для работы моделей в проде. Сложные ИИ-системы и автономные агенты требуют удержания гигантского контекста и минимальной задержки. Поэтому 8i получил радикальное расширение — 384 МБ накристальной памяти SRAM, чтобы активный контекст модели помещался целиком на чипе, — и удвоенную скорость обмена данными между чипами. Результат — прирост эффективности на инференсе до 80% на доллар затрат.
Релиз обоих чипов ожидается в ближайшее время.
Google анонсировала новые ИИ-ускорители: TPU 8t и TPU 8i. Компания официально разделяет железо на две независимые ветки: одну для обучения, другую для инференса.
Это разительно контрастирует с подходом Nvidia, которая продолжает строить преимущественно универсальные GPU для широкого круга задач. Google же делает ставку на жёсткую специализацию — и в этом она ближе к AWS с её связкой Trainium/Inferentia.
Индустрия всё активнее использует архитектуры Mixture-of-Experts (MoE) и reasoning-системы. Требования к железу на этапе тренировки и в продакшене разошлись достаточно сильно, так что универсальный чип становится компромиссом. Там, где стандартный GPU начинает проигрывать в эффективности, специализированный кремний даёт существенный прирост.
Что внутри:
1. TPU 8t (Training)
Чип спроектирован исключительно для масштабного обучения. В один кластер (суперпод) объединяется до 9 600 чипов. Главный фокус — на скорости и отказоустойчивости. Заявлен важнейший системный показатель: goodput (доля полезного вычислительного времени) выше 97%. Это значит, что кластер реально обучает модель, а не простаивает, восстанавливаясь после неизбежных аппаратных сбоев. Относительно прошлого поколения (v7) заявлено улучшение соотношения «цена — производительность» в 2,8 раза.
2. TPU 8i (Inference)
Чип для работы моделей в проде. Сложные ИИ-системы и автономные агенты требуют удержания гигантского контекста и минимальной задержки. Поэтому 8i получил радикальное расширение — 384 МБ накристальной памяти SRAM, чтобы активный контекст модели помещался целиком на чипе, — и удвоенную скорость обмена данными между чипами. Результат — прирост эффективности на инференсе до 80% на доллар затрат.
Релиз обоих чипов ожидается в ближайшее время.
❤42🔥16👍5🤔2
Hugging Face представила две агентные open-source-системы для автоматизации исследований
На Hugging Face появились два новых ИИ-инструмента для учёных и инженеров.
Что именно выпустили:
• physics-intern. Агентная надстройка для задач теоретической физики. Система берёт исследовательскую проблему и разбивает её на подзадачи, распределяя их между специализированными субагентами (один выполняет вычисления, второй проверяет утверждения, третий критикует стратегию). Результат: поднимается скор Gemini 3.1 Pro на бенчмарке CritPt с 17.7% до 31.4% (зафиксирован новый SOTA).
• ml-intern. Попытка автоматизировать рутину ML-команд (цикл post-training). Агент парсит статьи на arXiv, обходит графы цитирований, подтягивает и переформатирует датасеты, чтобы не тратить GPU-часы на грязных данных. Далее он самостоятельно запускает обучение (локально или через HF Jobs), читает логи эвалюации, диагностирует сбои и перезапускает процесс.
Оба проекта полностью открытые и нативно интегрированы в экосистему Hugging Face. Для первых пользователей ml-intern выделили гранты на $1000 для GPU-ресурсов и кредиты в Anthropic API.
Данный подход показал нелинейный прирост качества при оркестрации нескольких специализированных агентов.
И всё же названия проектов (intern — стажёр) выбраны не случайно, и обольщаться пока рано. Агент может собрать датасет по референсам и запустить скрипт, но постановка концептуальной гипотезы всё ещё требует человека.
На Hugging Face появились два новых ИИ-инструмента для учёных и инженеров.
Что именно выпустили:
• physics-intern. Агентная надстройка для задач теоретической физики. Система берёт исследовательскую проблему и разбивает её на подзадачи, распределяя их между специализированными субагентами (один выполняет вычисления, второй проверяет утверждения, третий критикует стратегию). Результат: поднимается скор Gemini 3.1 Pro на бенчмарке CritPt с 17.7% до 31.4% (зафиксирован новый SOTA).
• ml-intern. Попытка автоматизировать рутину ML-команд (цикл post-training). Агент парсит статьи на arXiv, обходит графы цитирований, подтягивает и переформатирует датасеты, чтобы не тратить GPU-часы на грязных данных. Далее он самостоятельно запускает обучение (локально или через HF Jobs), читает логи эвалюации, диагностирует сбои и перезапускает процесс.
Оба проекта полностью открытые и нативно интегрированы в экосистему Hugging Face. Для первых пользователей ml-intern выделили гранты на $1000 для GPU-ресурсов и кредиты в Anthropic API.
Данный подход показал нелинейный прирост качества при оркестрации нескольких специализированных агентов.
И всё же названия проектов (intern — стажёр) выбраны не случайно, и обольщаться пока рано. Агент может собрать датасет по референсам и запустить скрипт, но постановка концептуальной гипотезы всё ещё требует человека.
❤16👍5🔥4
Huawei предлагает отказаться от закона Мура: новый подход к масштабированию чипов
На конференции IEEE ISCAS Huawei представила альтернативную концепцию развития полупроводников. На фоне изоляции от передового литографического оборудования компания пытается пересмотреть саму систему координат индустрии.
Купить нидерландские EUV-сканеры от ASML в обход санкций для Huawei практически невозможно. Сейчас китайские фабрики выжимают максимум из старого оборудования (DUV), используя мультипаттернинг, но этот метод уперся в потолок физики и рентабельности. Переход на 3D-компоновку и фокус на времени (τ) — единственный доступный им способ обойти этот аппаратный тупик.
И всё же к заявлениям про «эквивалент 1.4 нм» стоит относиться со скепсисом. Архитектурные ухищрения вроде 3D-компоновки и LogicFolding действительно снижают задержки, но они не отменяют базовую физику: более старые техпроцессы выделяют больше тепла и требуют больше энергии. В серверном сегменте это можно решить охлаждением, но для мобильных устройств теплопакет остаётся критическим ограничением.
Резкий скачок плотности в роадмапе компании между 2030 и 2031 годами намекает на то, что к этому моменту Huawei рассчитывает получить доступ к китайским EUV-литографам. Но нарисовать рывок на графике гораздо проще, чем с нуля воссоздать сложнейшую в мире цепочку поставок оборудования в условиях жёстких санкций. Единственный сильный момент в этой презентации — метрика τ отлично подходит для фотонных процессоров, где плотность размещения элементов уже не имеет решающего значения.
На конференции IEEE ISCAS Huawei представила альтернативную концепцию развития полупроводников. На фоне изоляции от передового литографического оборудования компания пытается пересмотреть саму систему координат индустрии.
• Время вместо размера (закон Тау). Последние пять десятилетий индустрия жила по закону Мура: инженеры просто делали транзисторы всё меньше и меньше (уменьшая нанометры). У Huawei нет доступа к передовому оборудованию для такой микрохирургии. Поэтому они предлагают новый параметр масштабирования — τ (Тау). Фокус смещается с физического размера транзистора на время задержки сигнала между ними.
• Умная архитектура (LogicFolding). Если ты не можешь сделать детали меньше, нужно скомпоновать их умнее. Huawei разработала технологию LogicFolding: вместо классического плоского размещения элементов на кристалле они строят многоуровневые вертикальные стеки для цифровых, аналоговых и памятных схем, сокращая физическое расстояние между блоками. Грубо говоря, сигнал теперь идёт не в обход, а напрямую сверху вниз. По заявлениям компании, это даёт +55% к плотности транзисторов и +41% к энергоэффективности на том же техпроцессе.
• Сроки. Первый процессор Kirin с применением этой архитектуры выйдет уже осенью 2026 года. К 2031 году Huawei обещает достичь производительности, которая будет равна 1.4 нм техпроцессу (у лидера рынка TSMC этот рубеж запланирован на 2028 год).
Купить нидерландские EUV-сканеры от ASML в обход санкций для Huawei практически невозможно. Сейчас китайские фабрики выжимают максимум из старого оборудования (DUV), используя мультипаттернинг, но этот метод уперся в потолок физики и рентабельности. Переход на 3D-компоновку и фокус на времени (τ) — единственный доступный им способ обойти этот аппаратный тупик.
И всё же к заявлениям про «эквивалент 1.4 нм» стоит относиться со скепсисом. Архитектурные ухищрения вроде 3D-компоновки и LogicFolding действительно снижают задержки, но они не отменяют базовую физику: более старые техпроцессы выделяют больше тепла и требуют больше энергии. В серверном сегменте это можно решить охлаждением, но для мобильных устройств теплопакет остаётся критическим ограничением.
Резкий скачок плотности в роадмапе компании между 2030 и 2031 годами намекает на то, что к этому моменту Huawei рассчитывает получить доступ к китайским EUV-литографам. Но нарисовать рывок на графике гораздо проще, чем с нуля воссоздать сложнейшую в мире цепочку поставок оборудования в условиях жёстких санкций. Единственный сильный момент в этой презентации — метрика τ отлично подходит для фотонных процессоров, где плотность размещения элементов уже не имеет решающего значения.
❤10🔥8🤯5
Microsoft отключает своим разработчикам доступ к Claude Code — и это дорого обходится репутации Copilot
Ироничная новость из корпоративного сектора: Microsoft вынуждена запретить части собственных сотрудников использовать ИИ-инструмент от Anthropic. Официально — ради «унификации стека». Неофициально — потому что инструмент оказался слишком удобным и слишком дорогим одновременно.
Ещё в декабре Microsoft открыла инженерам, дизайнерам и продакт-менеджерам доступ к Claude Code и активно призывала их экспериментировать. Уговаривать никого не пришлось — инструмент моментально стал основным рабочим стандартом внутри команд.
Главная проблема заключается в том, что сторонний продукт на практике полностью обошёл собственные аналоги корпорации. Ситуация, когда разработчики Windows и Microsoft 365 массово предпочитают интерфейс Claude Code собственному хвалёному Copilot, наносит прямой удар по престижу ключевого ИИ-продукта Microsoft.
Ироничная новость из корпоративного сектора: Microsoft вынуждена запретить части собственных сотрудников использовать ИИ-инструмент от Anthropic. Официально — ради «унификации стека». Неофициально — потому что инструмент оказался слишком удобным и слишком дорогим одновременно.
Ещё в декабре Microsoft открыла инженерам, дизайнерам и продакт-менеджерам доступ к Claude Code и активно призывала их экспериментировать. Уговаривать никого не пришлось — инструмент моментально стал основным рабочим стандартом внутри команд.
• Взрывная популярность обернулась против самой корпорации. Спустя полгода Microsoft объявила о планах аннулировать лицензии — дедлайн намеренно совпадает с 30 июня, концом финансового года компании. Но называть это чисто финансовым решением было бы упрощением: Claude Code успел всерьёз подорвать позиции собственного инструмента Microsoft — GitHub Copilot CLI.
• В качестве альтернативы разработчикам предлагают перейти на Copilot CLI. Команды подразделения Experiences & Devices — Windows, Microsoft 365, Outlook, Teams и Surface — получили указание завершить переход до конца июня. Важный нюанс: от Claude отказываются не полностью. Модели Anthropic остаются доступными через Copilot CLI и Microsoft Foundry.
Главная проблема заключается в том, что сторонний продукт на практике полностью обошёл собственные аналоги корпорации. Ситуация, когда разработчики Windows и Microsoft 365 массово предпочитают интерфейс Claude Code собственному хвалёному Copilot, наносит прямой удар по престижу ключевого ИИ-продукта Microsoft.
❤23👍11🔥7🤔2