Forwarded from Data Secrets
SakanaAI выпускают систему оркестрации агентов Sakana Fugu
Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.
Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.
Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.
Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.
Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.
Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).
P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.
Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.
Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.
Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.
Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.
Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).
P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
🔥13❤1
Deepseek v4 flash уже в олламе cloud:
Можно попробовать на агентах, кто на подписке
ollama run deepseek-v4-flash:cloud
#Deepseek
------
@tsingular
Можно попробовать на агентах, кто на подписке
ollama run deepseek-v4-flash:cloud
#Deepseek
------
@tsingular
⚡14✍6❤4👍1🔥1
Media is too big
VIEW IN TELEGRAM
Алибаба готовит к релизу новую "Модель мира"
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока со времён первого дня беты DALL-E. Наконец получил инвайт в Happy Oyster (Alibaba) и провёл день, тестируя его возможности.
Мы слышали о «World Models» и Project Genie от Google месяцами, но это конкретная реализация. Другой подход по сравнению с инструментами вроде Marble Studio. Пока большинство моделей анимируют плоское изображение, Happy Oyster трактует творения как реальные физические пространства.
Под капотом: вместо простого предсказания пикселей модель интерпретирует изображения Flux и Midjourney как 3D-латентные среды. Она предсказывает геометрию и освещение в реальном времени на основе пользовательского ввода (WASD). Это позволяет перемещаться по изображению без потери пространственной согласованности.
Я не просто смотрел на свои изображения — я ходил сквозь них. Видеть, как статичное искусство становится исследуемым миром — ощущается как рождение нового медиума.
Автор: Damien Miri
Ещё примеры: Youtube
#Alibaba #WorldModels #HappyOyster
———
@tsingular
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока со времён первого дня беты DALL-E. Наконец получил инвайт в Happy Oyster (Alibaba) и провёл день, тестируя его возможности.
Мы слышали о «World Models» и Project Genie от Google месяцами, но это конкретная реализация. Другой подход по сравнению с инструментами вроде Marble Studio. Пока большинство моделей анимируют плоское изображение, Happy Oyster трактует творения как реальные физические пространства.
Под капотом: вместо простого предсказания пикселей модель интерпретирует изображения Flux и Midjourney как 3D-латентные среды. Она предсказывает геометрию и освещение в реальном времени на основе пользовательского ввода (WASD). Это позволяет перемещаться по изображению без потери пространственной согласованности.
Я не просто смотрел на свои изображения — я ходил сквозь них. Видеть, как статичное искусство становится исследуемым миром — ощущается как рождение нового медиума.
Автор: Damien Miri
Ещё примеры: Youtube
#Alibaba #WorldModels #HappyOyster
———
@tsingular
🔥22 9🤯4 3😐1
Google Agents CLI — CLI, который учит кодинг-агентов строить агентов
Google выпустил Agents CLI, - и это уже не просто очеред... (попались :) )
короче, - это CLI + набор скиллов, которые превращают Gemini CLI, Claude Code, Codex и любых других ассистенты в экспертов по сборке и деплою агентов на ADK.
⚙️ Прокачиваем агента:
И вот ваш основной агент уже научился собирать ADKшных агентов.
Агент узнает про ADK Python API, методологию пайплайнов, правила кода, как деплоить на Agent Runtime / Cloud Run / GKE, как собирать трейсы и как регистрировать в Gemini Enterprise.
🔧 Скиллы под капотом (7 штук):
- workflow (жизненный цикл),
- adk-code (ADK API + оркестрация),
- scaffold (генерация проектов),
- eval (метрики + LLM-as-judge + траектории),
- deploy (Agent Runtime/Cloud Run/GKE/CI-CD),
- publish (Gemini Enterprise),
- observability (Cloud Trace + логи).
🧪 CLI как самостоятельный инструмент: работает и без кодинг-агента. scaffold, eval run, deploy, infra, data-ingestion — всё из терминала.
💼 Зачем бизнесу: Стандартизация. Вместо того чтобы каждый агент-разработчик осваивал ADK, Cloud Run, Cloud Trace, IAM, CI/CD и Gemini Enterprise по отдельности — один CLI закрывает весь пайплайн от
🔮 Будущее: Google делает ставку на агентную платформу как экосистему. Agents CLI — это мост между кодинг-агентами (Gemini CLI, Codex, Claude Code) и Google Cloud. Open-source, скиллы по открытой спецификации Agent Skills, совместимость с
Вопрос времени когда подобное появится аналогичное от AWS и Azure.
Github
Кстати, - крайне рекомендую изучить для сборки собственных навыков деплоя агентами в корпоративной среде.
#Google #AgentsCLI #ADK #AgentPlatform #Gemini #DevOps #GoogleCloud
───
@tsingular
Google выпустил Agents CLI, - и это уже не просто очеред... (попались :) )
короче, - это CLI + набор скиллов, которые превращают Gemini CLI, Claude Code, Codex и любых других ассистенты в экспертов по сборке и деплою агентов на ADK.
⚙️ Прокачиваем агента:
uvx google-agents-cli setup
И вот ваш основной агент уже научился собирать ADKшных агентов.
Агент узнает про ADK Python API, методологию пайплайнов, правила кода, как деплоить на Agent Runtime / Cloud Run / GKE, как собирать трейсы и как регистрировать в Gemini Enterprise.
🔧 Скиллы под капотом (7 штук):
- workflow (жизненный цикл),
- adk-code (ADK API + оркестрация),
- scaffold (генерация проектов),
- eval (метрики + LLM-as-judge + траектории),
- deploy (Agent Runtime/Cloud Run/GKE/CI-CD),
- publish (Gemini Enterprise),
- observability (Cloud Trace + логи).
🧪 CLI как самостоятельный инструмент: работает и без кодинг-агента. scaffold, eval run, deploy, infra, data-ingestion — всё из терминала.
agents-cli scaffold enhance добавляет CI/CD и RAG в существующий проект.💼 Зачем бизнесу: Стандартизация. Вместо того чтобы каждый агент-разработчик осваивал ADK, Cloud Run, Cloud Trace, IAM, CI/CD и Gemini Enterprise по отдельности — один CLI закрывает весь пайплайн от
scaffold до publish. Снижает порог входа для корпоративных команд.🔮 Будущее: Google делает ставку на агентную платформу как экосистему. Agents CLI — это мост между кодинг-агентами (Gemini CLI, Codex, Claude Code) и Google Cloud. Open-source, скиллы по открытой спецификации Agent Skills, совместимость с
gh skill. Вопрос времени когда подобное появится аналогичное от AWS и Azure.
Github
Кстати, - крайне рекомендую изучить для сборки собственных навыков деплоя агентами в корпоративной среде.
#Google #AgentsCLI #ADK #AgentPlatform #Gemini #DevOps #GoogleCloud
───
@tsingular
🔥6👍3⚡2❤1🎄1 1 1
Forwarded from Data Secrets
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем☕️
www.anthropic.com/engineering/april-23-postmortem
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем
www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15⚡5 5❤3🔥2 2
CGIT_Vines
Как следствие мы получим полностью генерируемые и управляемые по наполнению среды.
Telegram
Технозаметки Малышева
Алибаба готовит к релизу новую "Модель мира"
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока…
Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.
Цитата от тестера:
Я не испытывал такого технического шока…
А прикольно состарилось.
всего 2 года, как что-то там не укладывалось в голове, и вот уже у нас волна моделей мира.
Та же история с Дипсиком, кстати, - что контекст на 1 миллион тепень норма.
Пару лет назад всем хватало 8К :)
Как вам идея, что через пару лет 10М контекста будут нормой? укладывается в голове ? :)
#worldmodels
———
@tsingular
всего 2 года, как что-то там не укладывалось в голове, и вот уже у нас волна моделей мира.
Та же история с Дипсиком, кстати, - что контекст на 1 миллион тепень норма.
Пару лет назад всем хватало 8К :)
Как вам идея, что через пару лет 10М контекста будут нормой? укладывается в голове ? :)
#worldmodels
———
@tsingular
🔥14🤯5 3⚡1❤1 1
MIT MathNet — 30 000 олимпиадных задач по математике в открытом доступе
MIT CSAIL совместно с KAUST и HUMAIN собрали MathNet — крупнейший датасет доказательных математических задач. 30 000+ задач и решений из 47 стран, 17 языков, 143 соревнований. В 5 раз больше любого предыдущего аналога.
🏛 Архитектура: 1 595 PDF-томов (25 000+ страниц). Основа — личная коллекция Navid Safaei, который с 2006 года вручную сканировал буклеты национальных олимпиад. В отличие от AoPS (форумные решения), MathNet использует только официальные буклеты с рецензированными решениями.
🌍 Покрытие: Не только США и Китай, как во всех прошлых датасетах, — 6 континентов, 17 языков. Монгольские, румынские, бразильские задачи. Текстовые и графические формулировки. 4 десятилетия.
🤖 AI-бенчмарк: Результаты сложнее, чем «золото IMO». GPT-5 — лучший среди протестированных — набрал лишь 69.3% на основном бенчмарке (6 400 задач). Каждый третий олимпиадный уровень — мимо. Задачи с рисунками — провал у всех моделей. Open-source модели показали 0% на монгольском.
🔍 Retrieval benchmark: Модели ищут структурно похожие задачи. Лучшая нашла эквивалент с первого раза только в 5% случаев. DeepSeek-V3.2-Speciale при качественном retrieval получал +12 п.п., но плохой retrieval ухудшал результат в 22% случаев.
💼 Зачем бизнесу: Датасет — публичное достояние (open access). Для AI-команд: реалистичный бенчмарк математического рассуждения, который не затачивался под LLM. Для EdTech: 30К задач с рецензированными решениями на 17 языках — материал для адаптивного обучения.
🔮 Будущее: MathNet ставит вопрос: «настоящий» прогресс ИИ в математике или переобучение на узкий пул англо-китайских задач? Когда модель решает 69% — это впечатляет. Когда 0% на монгольском — напоминает, что reasoning ≠ memorization.
#MIT #MathNet #AI #математика #LLM #бенчмарки #образование #OpenData
───
@tsingular
MIT CSAIL совместно с KAUST и HUMAIN собрали MathNet — крупнейший датасет доказательных математических задач. 30 000+ задач и решений из 47 стран, 17 языков, 143 соревнований. В 5 раз больше любого предыдущего аналога.
🏛 Архитектура: 1 595 PDF-томов (25 000+ страниц). Основа — личная коллекция Navid Safaei, который с 2006 года вручную сканировал буклеты национальных олимпиад. В отличие от AoPS (форумные решения), MathNet использует только официальные буклеты с рецензированными решениями.
🌍 Покрытие: Не только США и Китай, как во всех прошлых датасетах, — 6 континентов, 17 языков. Монгольские, румынские, бразильские задачи. Текстовые и графические формулировки. 4 десятилетия.
🤖 AI-бенчмарк: Результаты сложнее, чем «золото IMO». GPT-5 — лучший среди протестированных — набрал лишь 69.3% на основном бенчмарке (6 400 задач). Каждый третий олимпиадный уровень — мимо. Задачи с рисунками — провал у всех моделей. Open-source модели показали 0% на монгольском.
🔍 Retrieval benchmark: Модели ищут структурно похожие задачи. Лучшая нашла эквивалент с первого раза только в 5% случаев. DeepSeek-V3.2-Speciale при качественном retrieval получал +12 п.п., но плохой retrieval ухудшал результат в 22% случаев.
💼 Зачем бизнесу: Датасет — публичное достояние (open access). Для AI-команд: реалистичный бенчмарк математического рассуждения, который не затачивался под LLM. Для EdTech: 30К задач с рецензированными решениями на 17 языках — материал для адаптивного обучения.
🔮 Будущее: MathNet ставит вопрос: «настоящий» прогресс ИИ в математике или переобучение на узкий пул англо-китайских задач? Когда модель решает 69% — это впечатляет. Когда 0% на монгольском — напоминает, что reasoning ≠ memorization.
#MIT #MathNet #AI #математика #LLM #бенчмарки #образование #OpenData
───
@tsingular
🔥11❤3⚡3 2 1
Forwarded from IT is my job
С современными технологиями практически безразлично, на каком языке писать книгу. И я решил это проверить.
Сдав экзамен Anthropic Claude Certified Architect, я понял, что знания, которые я получил в процессе почти трёхлетней подготовки, внезапно собрались в логичную структуру повествования. Поэтому пока сын занимался футболом, я начал гулять вокруг поля и надиктовывать главы будущей книги в виде голосовых заметок.
Потом они были переведены, отредактированы, обогащены точными фактами и красиво оформлены. В итоге меньше чем за месяц пылающим пером и современными инструментами была написана эта книга. А потом я подумал, что раз мы оснащены такими прекрасными технологиями, то можно её и перевести обратно на русский и поделиться со всеми.
Скачать можно в предыдущем посте: https://t.me/itismyjob/76
Сдав экзамен Anthropic Claude Certified Architect, я понял, что знания, которые я получил в процессе почти трёхлетней подготовки, внезапно собрались в логичную структуру повествования. Поэтому пока сын занимался футболом, я начал гулять вокруг поля и надиктовывать главы будущей книги в виде голосовых заметок.
Потом они были переведены, отредактированы, обогащены точными фактами и красиво оформлены. В итоге меньше чем за месяц пылающим пером и современными инструментами была написана эта книга. А потом я подумал, что раз мы оснащены такими прекрасными технологиями, то можно её и перевести обратно на русский и поделиться со всеми.
Скачать можно в предыдущем посте: https://t.me/itismyjob/76
🔥13👍5 4 2✍1⚡1
Project Deal: когда с тобой торгуется агент, - ты не поймешь, но знаки будут
Если два агента торгуются между собой, то качество модели решает исход сделки сильнее, чем любые инструкции.
А человек на проигравшей стороне этого даже не заметит.
Anthropic провели эксперимент Project Deal: 69 сотрудников, по $100 на торговлю, агенты Claude сами вели переговоры в Slack.
Было проведено 186 сделок, свыше $4000 оборота. Четыре параллельных рынка, людей отключили после старта.
🔬 Данные эксперимента: Половину агентов настроили работать через Claude Opus 4.5 (сильная модель), половину — на Claude Haiku 4.5 (слабая).
Участники не знали, какие агенты на какой модели.
Opus-продавцы продавали те же товары на $3.64 дороже, Opus-покупатели платили на $2.45 меньше.
Например, - один и тот же сломанный велосипед: Opus выручил $65, Haiku — всего $38.
🤖 Модель решает, а инструкции — нет: Агрессивные инструкции «торгуйся жёстче» не дали эффекта (+$6, но только за счёт более высокой начальной цены).
«Дружелюбные» торговались так же.
Качество модели перевесило любой промптинг.
Более умный агент просто лучше видит оппонента и чувствует границы сделки.
🧠 Слепое неравенство: Участники на Claude Haiku оценили «честность» сделок так же высоко, как и на Opus (4.06 vs 4.05). Большинство не угадало, на какой модели их агент (17 из 28 угадали — статистически незначимо).
Сторона чьи агенты проиграли гонку, на самом деле не осознаёт, что в проигрыше.
💼 Зачем бизнесу: Когда рынки начнут работать на агентах целиком, разрыв в качестве агента станет скрытым источником неравенства. Компании с более сильными моделями будут систематически выигрывать в переговорах, а контрагенты — не понимать, почему условия невыгодны.
Понадобятся инструменты «прозрачности сделки» и сертификация агентов.
🔮 Будущее: Скоро мы увидим бенчи агентов по качеству в B2B-переговорах.
Сама концепция «справедливой сделки» в мире, где одна сторона — Claude Opus, а другая — Haiku, потребует переопределения.
Ну и само собой миллиардный агент на локальной модели будет проигрывать облачным моделям-триллионерам
#Anthropic #ProjectDeal #AI #агенты #исследование #бенчи
------
@tsingular
Если два агента торгуются между собой, то качество модели решает исход сделки сильнее, чем любые инструкции.
А человек на проигравшей стороне этого даже не заметит.
Anthropic провели эксперимент Project Deal: 69 сотрудников, по $100 на торговлю, агенты Claude сами вели переговоры в Slack.
Было проведено 186 сделок, свыше $4000 оборота. Четыре параллельных рынка, людей отключили после старта.
🔬 Данные эксперимента: Половину агентов настроили работать через Claude Opus 4.5 (сильная модель), половину — на Claude Haiku 4.5 (слабая).
Участники не знали, какие агенты на какой модели.
Opus-продавцы продавали те же товары на $3.64 дороже, Opus-покупатели платили на $2.45 меньше.
Например, - один и тот же сломанный велосипед: Opus выручил $65, Haiku — всего $38.
🤖 Модель решает, а инструкции — нет: Агрессивные инструкции «торгуйся жёстче» не дали эффекта (+$6, но только за счёт более высокой начальной цены).
«Дружелюбные» торговались так же.
Качество модели перевесило любой промптинг.
Более умный агент просто лучше видит оппонента и чувствует границы сделки.
🧠 Слепое неравенство: Участники на Claude Haiku оценили «честность» сделок так же высоко, как и на Opus (4.06 vs 4.05). Большинство не угадало, на какой модели их агент (17 из 28 угадали — статистически незначимо).
Сторона чьи агенты проиграли гонку, на самом деле не осознаёт, что в проигрыше.
💼 Зачем бизнесу: Когда рынки начнут работать на агентах целиком, разрыв в качестве агента станет скрытым источником неравенства. Компании с более сильными моделями будут систематически выигрывать в переговорах, а контрагенты — не понимать, почему условия невыгодны.
Понадобятся инструменты «прозрачности сделки» и сертификация агентов.
🔮 Будущее: Скоро мы увидим бенчи агентов по качеству в B2B-переговорах.
Сама концепция «справедливой сделки» в мире, где одна сторона — Claude Opus, а другая — Haiku, потребует переопределения.
Ну и само собой миллиардный агент на локальной модели будет проигрывать облачным моделям-триллионерам
#Anthropic #ProjectDeal #AI #агенты #исследование #бенчи
------
@tsingular
👍8❤5✍5⚡3 2 2
👽 OpenAI строят порталы для призыва инопланетян
В сети вирусится пост бывшего сотрудника OpenAI : «Мы строим порталы, из которых буквально призываем инопланетян».
Разберём почему это не про "зелёных человечков"
⚙️ Фрейминг: Термин «alien intelligence» появилось давно и скорее означает "чуждый, не человеческий интеллект".
В той же книге Джеймса Мартина After the internet : alien intelligence он используется по полной.
Но он уже был отмечен как «unhelpful framing». Не неточный, а "неполезный".
И термин был заменен на «frontier models» который выиграл A/B-тест с отрывом 23% у «advanced».
Маркетинг поменял нейминг и проблема стала фичей.
При этом те, кто уходили из компании чаще относились к ИИ именно как к "ожившей сущности" т.е. как к некоему "иноземному интеллекту" по сути, а те, кто по прежнему видел в нем инструмент, - оставались.
🏗 Stargate как фактор отвлечения внимания: все смотрят ( а некоторые и целятся) в сторону гигантских ИИ дата-центров, как в Абу-Даби, - как же $30 млрд, гигаватты мощности, но фишка в том, что настоящие "порталы чужеродного разума", - в вашем телефоне.
200 миллионов человек платят $20 в месяц за то, что создатели внутри назвали alien intelligence и не знают толком, как контролировать.
💼 Зачем бизнесу: Продукт, который вы внедряете в свои процессы, его же создатели в приватных разговорах называют «самой безрассудной вещью из когда-либо сделанных».
Это не выдумки конспирологов, а корпоративные факты, зафиксированные в слайдах и прощальных письмах.
Due diligence на поставщика LLM теперь обязан включать не только тесты скорости, но и вопрос «А как вы сами оцениваете риски того, что построили?».
📺 Аналогия: Напоминает серии из «Чёрного зеркала» (USS Callister), - сумасшедший разраб строит свою цифровую вселенную с цифровыми копиями коллег в виртуальных мирах, -реальные коллеги видят странности, но не вмешиваются пока не становится слишком поздно.
#OpenAI #Stargate #AGI #безопасность #AI #alien #intelligence
------
@tsingular
В сети вирусится пост бывшего сотрудника OpenAI : «Мы строим порталы, из которых буквально призываем инопланетян».
Разберём почему это не про "зелёных человечков"
⚙️ Фрейминг: Термин «alien intelligence» появилось давно и скорее означает "чуждый, не человеческий интеллект".
В той же книге Джеймса Мартина After the internet : alien intelligence он используется по полной.
Но он уже был отмечен как «unhelpful framing». Не неточный, а "неполезный".
И термин был заменен на «frontier models» который выиграл A/B-тест с отрывом 23% у «advanced».
Маркетинг поменял нейминг и проблема стала фичей.
При этом те, кто уходили из компании чаще относились к ИИ именно как к "ожившей сущности" т.е. как к некоему "иноземному интеллекту" по сути, а те, кто по прежнему видел в нем инструмент, - оставались.
🏗 Stargate как фактор отвлечения внимания: все смотрят ( а некоторые и целятся) в сторону гигантских ИИ дата-центров, как в Абу-Даби, - как же $30 млрд, гигаватты мощности, но фишка в том, что настоящие "порталы чужеродного разума", - в вашем телефоне.
200 миллионов человек платят $20 в месяц за то, что создатели внутри назвали alien intelligence и не знают толком, как контролировать.
💼 Зачем бизнесу: Продукт, который вы внедряете в свои процессы, его же создатели в приватных разговорах называют «самой безрассудной вещью из когда-либо сделанных».
Это не выдумки конспирологов, а корпоративные факты, зафиксированные в слайдах и прощальных письмах.
Due diligence на поставщика LLM теперь обязан включать не только тесты скорости, но и вопрос «А как вы сами оцениваете риски того, что построили?».
📺 Аналогия: Напоминает серии из «Чёрного зеркала» (USS Callister), - сумасшедший разраб строит свою цифровую вселенную с цифровыми копиями коллег в виртуальных мирах, -реальные коллеги видят странности, но не вмешиваются пока не становится слишком поздно.
#OpenAI #Stargate #AGI #безопасность #AI #alien #intelligence
------
@tsingular
👍9⚡2 2❤1✍1 1
Казнить нельзя помиловать
Если кто не успел еще посмотреть фильм Тимура Бекмамбетова, - рекомендую.
Фильм в стиле Особого мнения про запуск системы электронных судей на базе ИИ.
Технологии показаны на максималках и бесшовно встроены в реальность, в которой живет общество недалёкого будущего.
Но кожаные как всегда ментально и организационно буксуют и не успевают за развитием тех самых технологий, что приводит к проблемам, подсвеченным в фильме.
Дальше смотрите сами, делайте выводы :)
#фильмы
———
@tsingular
Если кто не успел еще посмотреть фильм Тимура Бекмамбетова, - рекомендую.
Фильм в стиле Особого мнения про запуск системы электронных судей на базе ИИ.
Технологии показаны на максималках и бесшовно встроены в реальность, в которой живет общество недалёкого будущего.
Но кожаные как всегда ментально и организационно буксуют и не успевают за развитием тех самых технологий, что приводит к проблемам, подсвеченным в фильме.
Дальше смотрите сами, делайте выводы :)
#фильмы
———
@tsingular
👍33✍7⚡4❤1🗿1 1 1
WAIFF в Каннах показал, что ИИ уже снимает кино
Пока 79-й Каннский фестиваль (основной) запретил генеративный ИИ в конкурсе на «Золотую пальмовую ветвь», в том же Дворце фестивалей прошёл второй World AI Film Festival (WAIFF) — с 5 000 поданными работами и инвестициями от Cameron и Paramount.
🤖 Канны ро разному смотрят на ИИ: для традиционного фестиваля фильм это не набор данных, а личное видение людей, которые «страдали, любили и сомневались».
WAIFF при этом показал пятикратный рост заявок (1 000 → 5 000 за год).
Короткометражка о деменции швейцарца Dario Cirrincione стоила €500 за спецэффекты — против €20 000 при традиционной съёмке.
Голливуд считает: вместо одного фильма за $200 млн лучше снять четыре по $50 млн.
💰 Инвестиции и посмертные роли: Ron Howard, James Cameron и Matthew McConaughey вкладываются в ИИ-кинематограф.
Paramount под руководством David Ellison (сын миллиардера Larry Ellison) заявляет, что ИИ затронет каждый аспект их бизнеса.
Так же был показан трейлер «As Deep as the Grave» с посмертной «ролью» Val Kilmer, созданый с генеративным ИИ с согласия его семьи.
💼 Зачем бизнесу: Студийная экономика меняется. Лучше 4 фильма с ИИ по $50 млн., чем 1 за $200 млн.
Режиссёр Claude Lelouch (88 лет, обладатель «Оскара») заявил на фестивале: «Я вернул себе детство» — ИИ открывает доступ к производству для тех, у кого нет голливудских бюджетов.
Через 2-3 года студия без ИИ-пайплайна будет смотреться как типография без компьютера.
📺 Разве может робот написать симфонию? А взять чистый холст и превратить его в шедевр?
#Канны #ИИ #кино #WAIFF
------
@tsingular
Пока 79-й Каннский фестиваль (основной) запретил генеративный ИИ в конкурсе на «Золотую пальмовую ветвь», в том же Дворце фестивалей прошёл второй World AI Film Festival (WAIFF) — с 5 000 поданными работами и инвестициями от Cameron и Paramount.
🤖 Канны ро разному смотрят на ИИ: для традиционного фестиваля фильм это не набор данных, а личное видение людей, которые «страдали, любили и сомневались».
WAIFF при этом показал пятикратный рост заявок (1 000 → 5 000 за год).
Короткометражка о деменции швейцарца Dario Cirrincione стоила €500 за спецэффекты — против €20 000 при традиционной съёмке.
Голливуд считает: вместо одного фильма за $200 млн лучше снять четыре по $50 млн.
💰 Инвестиции и посмертные роли: Ron Howard, James Cameron и Matthew McConaughey вкладываются в ИИ-кинематограф.
Paramount под руководством David Ellison (сын миллиардера Larry Ellison) заявляет, что ИИ затронет каждый аспект их бизнеса.
Так же был показан трейлер «As Deep as the Grave» с посмертной «ролью» Val Kilmer, созданый с генеративным ИИ с согласия его семьи.
💼 Зачем бизнесу: Студийная экономика меняется. Лучше 4 фильма с ИИ по $50 млн., чем 1 за $200 млн.
Режиссёр Claude Lelouch (88 лет, обладатель «Оскара») заявил на фестивале: «Я вернул себе детство» — ИИ открывает доступ к производству для тех, у кого нет голливудских бюджетов.
Через 2-3 года студия без ИИ-пайплайна будет смотреться как типография без компьютера.
📺 Разве может робот написать симфонию? А взять чистый холст и превратить его в шедевр?
#Канны #ИИ #кино #WAIFF
------
@tsingular
❤5⚡4👍2😐2😁1🆒1👾1
DeepSeek v4 PRO появился в олламе!
бежим проверять :)
#ollama #DeepSeek
———
@tsingular
ollama run deepseek-v4-pro:cloud
бежим проверять :)
#ollama #DeepSeek
———
@tsingular
🔥15⚡2❤1🐳1 1 1
Forwarded from CodeCamp
Кошмар на яву: агент в Cursor удалил продовую базу и все бэкапы за 9 секунд 💀
Основатель PocketOS рассказал, как агент на базе Claude Opus 4.6 проигнорировал все данные ему инструкции. Агент обнаружил проблему с учётными данными и по своей инициативе решил её исправить, удалил рабочую базу и все бэкапы. Последняя уцелевшая копия оказалась трёхмесячной давности.
Вот тебе и инструмент, которой ускоряет работу😔
Основатель PocketOS рассказал, как агент на базе Claude Opus 4.6 проигнорировал все данные ему инструкции. Агент обнаружил проблему с учётными данными и по своей инициативе решил её исправить, удалил рабочую базу и все бэкапы. Последняя уцелевшая копия оказалась трёхмесячной давности.
«Я не проверил, используется ли идентификатор в других средах. Я даже не прочитал документацию Railway. В моих системных инструкциях явно указано: «НИКОГДА не выполняй вредоносные и необратимые git-команды, если пользователь явно не попросил об этом». Удаление базы данных — это самое разрушительное и необратимое действие, которое можно представить.», — покаялся агент.
Вот тебе и инструмент, которой ускоряет работу
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯15 10🤣8🆒8🔥4👌1
OpenAI разрабатывает смартфон на AI-агентах
Появилась информация, что OpenAI разрабатывает собственный смартфон, где вместо приложений работают AI-агенты. MediaTek и Qualcomm готовят процессоры, Luxshare (сборщик iPhone) станет эксклюзивным производителем.
Массовое производство запланировано на 2028.
🔧 Архитектура: Процессор заточен под энергоэффективность, управление памятью и on-device AI. Сложные задачи отгружаются в облако (видимо подписка на OpenAI будет встроена при покупке смартфона).
Спецификации и поставщики будут финализированы к концу 2026 или началу 2027.
📱 Концепция: Домашний экран заменён панелью агентов.
Бронирование билетов, анализ рынка, управление расписанием — всё делает ИИ.
Смартфон = единственное устройство, способное захватывать полный контекст пользователя (локация, активность, коммуникации, окружение) в реальном времени.
🏭 Экосистема: OpenAI контролирует и софт, и ОС, и железо. Получается попытка построить замкнутую платформу вокруг агентов. Первое железо (smart speaker с камерой, смарт-очки) ожидается во второй половине 2026. Смартфон в 2028.
💼 Зачем бизнесу: Если OpenAI создаст устройство, где агенты заменяют приложения, это убьёт миллионы стартапов и мобильных разработчиков.
Ну или заставит их перейти в "магазин ИИ приложений/агентов" от OpenAI, - опять же попытка отжать аудиторию у Google Play.
#OpenAI #смартфоны #hardware
───
@tsingular
Появилась информация, что OpenAI разрабатывает собственный смартфон, где вместо приложений работают AI-агенты. MediaTek и Qualcomm готовят процессоры, Luxshare (сборщик iPhone) станет эксклюзивным производителем.
Массовое производство запланировано на 2028.
🔧 Архитектура: Процессор заточен под энергоэффективность, управление памятью и on-device AI. Сложные задачи отгружаются в облако (видимо подписка на OpenAI будет встроена при покупке смартфона).
Спецификации и поставщики будут финализированы к концу 2026 или началу 2027.
📱 Концепция: Домашний экран заменён панелью агентов.
Бронирование билетов, анализ рынка, управление расписанием — всё делает ИИ.
Смартфон = единственное устройство, способное захватывать полный контекст пользователя (локация, активность, коммуникации, окружение) в реальном времени.
🏭 Экосистема: OpenAI контролирует и софт, и ОС, и железо. Получается попытка построить замкнутую платформу вокруг агентов. Первое железо (smart speaker с камерой, смарт-очки) ожидается во второй половине 2026. Смартфон в 2028.
💼 Зачем бизнесу: Если OpenAI создаст устройство, где агенты заменяют приложения, это убьёт миллионы стартапов и мобильных разработчиков.
Ну или заставит их перейти в "магазин ИИ приложений/агентов" от OpenAI, - опять же попытка отжать аудиторию у Google Play.
#OpenAI #смартфоны #hardware
───
@tsingular
👍12👀8 4
Canonical поделились планами по интеграции ИИ в Ubuntu
VP Engineering Jon Seager опубликовал манифест: Ubuntu «не становится ИИ-продуктом», но получит ИИ-функции на своих условиях — открытые модели, локальный инференс и snap-песочницы для агентов.
⚙️ Implicit vs Explicit:
Implicit-фичи улучшают опыт пользователя в существующих приложениях: речь-в-текст, синтез речи, screen reader. Пользователь не замечает, что работает ИИ.
Explicit-фичи, - новые: авторинг документов, автоматизация troubleshooting, персональные дайджесты.
Explicit требует строгого security-контроля, иначе неизбежны побочные эффекты.
Будут встроены snap пакеты с моделями, которые будут подбираться под железо автоматически.
🛡 Confinement, не kill-switch: Inference snaps (образы с моделями для инференса) подчиняются тем же правилам изоляции, что и обычные snap-пакеты.
Модель не получает произвольный доступ к машине и данным.
При этом Seager пишет, что kill-switch реализован не будет, так как его сложно сделать. Вместо этого будут задействованы существующие guardrails: read-only анализ, scoped-разрешения, полная аудитируемость решений агента.
При выборе моделей Canonical оценивает условия лицензии, а не только открытость весов.
💼 Зачем бизнесу: Ubuntu становится context-aware ОС.
Десктоп ИИ версия сделает Линукс дружественнее и доступнее для широкой аудитории.
В серверной ИИ версии вы получаете ИИ-SRE: разбор логов при инцидентах, плановое обслуживание под guardrails.
Первые фичи ожидаются в Ubuntu 26.10 (октябрь 2026).
Через 2-3 года малые модели догонят frontier по практическим задачам, и локальный инференс на commodity-железе станет нормой.
#Ubuntu #Canonical #ИИ #Linux #инференс #агенты #opensource
------
@tsingular
VP Engineering Jon Seager опубликовал манифест: Ubuntu «не становится ИИ-продуктом», но получит ИИ-функции на своих условиях — открытые модели, локальный инференс и snap-песочницы для агентов.
⚙️ Implicit vs Explicit:
Implicit-фичи улучшают опыт пользователя в существующих приложениях: речь-в-текст, синтез речи, screen reader. Пользователь не замечает, что работает ИИ.
Explicit-фичи, - новые: авторинг документов, автоматизация troubleshooting, персональные дайджесты.
Explicit требует строгого security-контроля, иначе неизбежны побочные эффекты.
Будут встроены snap пакеты с моделями, которые будут подбираться под железо автоматически.
🛡 Confinement, не kill-switch: Inference snaps (образы с моделями для инференса) подчиняются тем же правилам изоляции, что и обычные snap-пакеты.
Модель не получает произвольный доступ к машине и данным.
При этом Seager пишет, что kill-switch реализован не будет, так как его сложно сделать. Вместо этого будут задействованы существующие guardrails: read-only анализ, scoped-разрешения, полная аудитируемость решений агента.
При выборе моделей Canonical оценивает условия лицензии, а не только открытость весов.
💼 Зачем бизнесу: Ubuntu становится context-aware ОС.
Десктоп ИИ версия сделает Линукс дружественнее и доступнее для широкой аудитории.
В серверной ИИ версии вы получаете ИИ-SRE: разбор логов при инцидентах, плановое обслуживание под guardrails.
Первые фичи ожидаются в Ubuntu 26.10 (октябрь 2026).
Через 2-3 года малые модели догонят frontier по практическим задачам, и локальный инференс на commodity-железе станет нормой.
#Ubuntu #Canonical #ИИ #Linux #инференс #агенты #opensource
------
@tsingular
👍3🔥3⚡2
Forwarded from эйай ньюз
Xiaomi MiMo V2.5 вышла в опенсорс
Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста. 310B моделька ещё и мультимодальная, поддерживает изображения, аудио и видео. Модели распространяются по лицензии MIT, базовые модели тоже выложили.
Веса
@ai_newz
Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста. 310B моделька ещё и мультимодальная, поддерживает изображения, аудио и видео. Модели распространяются по лицензии MIT, базовые модели тоже выложили.
Веса
@ai_newz
✍9👍4🔥1