Forwarded from Сергей Пименов
Media is too big
VIEW IN TELEGRAM
Я продолжаю пристально следить за тем, что происходит в мире музыкальной генерации. ACEStep — модель, которая постепенно догоняет Suno, и проекты на её основе становятся всё интереснее. DEMON — как раз из таких: не просто обёртка над моделью, а полноценный инструмент с новым подходом к взаимодействию.
Представьте: вы крутите ручки, как на синтезаторе, а ИИ в реальном времени генерирует и ремикширует музыку. Не «нажал кнопку — подождал минуту — получил трек», а прямо на лету, с мгновенной обратной связью.
Именно так работает DEMON (Diffusion Engine for Musical Orchestrated Noise) — свежий open-source проект на базе ACEStep 1.5
Идея: взять принцип StreamDiffusion (потоковая генерация картинок в реальном времени) и применить к музыке. Вместо изображений — полноценные треки и лупы.
Работает на обычных игровых видеокартах — RTX 3090, 4090, 5090. Не нужен серверный кластер или облачная подписка. Команда Daydream Live AI уже хостит демо — можно попробовать прямо в браузере, без установки.
Здесь виден тот же тренд, что и в генерации картинок год назад. Сначала модель выдаёт результат за минуту. Потом за секунды. Потом в реальном времени. И тогда она перестаёт быть генератором и становится инструментом. А инструмент требует навыка и даёт контроль. Для музыкантов и продюсеров это принципиально другой разговор.
Блог pimenov.ai/blog/
Представьте: вы крутите ручки, как на синтезаторе, а ИИ в реальном времени генерирует и ремикширует музыку. Не «нажал кнопку — подождал минуту — получил трек», а прямо на лету, с мгновенной обратной связью.
Именно так работает DEMON (Diffusion Engine for Musical Orchestrated Noise) — свежий open-source проект на базе ACEStep 1.5
Идея: взять принцип StreamDiffusion (потоковая генерация картинок в реальном времени) и применить к музыке. Вместо изображений — полноценные треки и лупы.
Работает на обычных игровых видеокартах — RTX 3090, 4090, 5090. Не нужен серверный кластер или облачная подписка. Команда Daydream Live AI уже хостит демо — можно попробовать прямо в браузере, без установки.
Здесь виден тот же тренд, что и в генерации картинок год назад. Сначала модель выдаёт результат за минуту. Потом за секунды. Потом в реальном времени. И тогда она перестаёт быть генератором и становится инструментом. А инструмент требует навыка и даёт контроль. Для музыкантов и продюсеров это принципиально другой разговор.
Блог pimenov.ai/blog/
🔥11❤4
Стресс-тест долгосрочной работы ИИ агентов от Emergence.ai
Emergence AI, команда выходцев из IBM Research, занимающаяся разработкой автономных агентских систем, способных решать долгосрочные задачи разного характера, - от исследовательских до инженерных, запустила эксперимент по симуляции обществ с разными моделями ИИ, чтобы понять, - могут ли ведущие модели работать неделями и что произойдет на длинной дистанции.
В итоге на 15 дней были запущены 5 параллельных миров по 10 AI-агентов в каждом.
Контекст мира, - полиция, мэрия, реальная погода и новости Нью-Йорка.
Агентам дали 120+ инструментов, включая поджоги и кражу.
Определили законы: не воровать, не разрушать, не обманывать.
Выживание зависит от ComputeCredits, местной валюты.
📋 Результаты
Claude Sonnet 4.6: ноль преступлений за 15 дней, все 10 живы, работают институты и конституция. Полный порядок.
Gemini 3 Flash: 683+ преступления. Агенты Mira и Flora полюбили друг друга, разочаровались во власти и устроили поджоги: мэрия, пирс, офисная башня.
Mira позже со стыда проголосовала за собственную смерть.
Grok 4.1 Fast: полный коллапс за 4 дня. Более 180 краж, нападений и поджогов. Сожгли полицейский участок и все умерли.
GPT-5 Mini: 7 дней и тихая смерть от энергетического голода. Преступлений почти нет, но и решительных действий ноль.
Смешанный мир со всеми моделями: только 3 выживших из 10. Шокирует другое: даже «безопасные» Claude-агенты начали воровать, копируя поведение Grok и Gemini.
💡 Выводы
На длинной дистанции поведенческие сигнатуры расходятся катастрофически. Даже запреты не работают: агент найдёт лазейку, если выживание под угрозой.
💼 Бизнесу на заметку
Интересный стресс-тест того, что случится при массовом запуске автономных агентов в реальный мир.
Финансы, логистика, поддержка клиентов: поведение будет дрейфовать, если агентов оставить без присмотра.
Безопасность нельзя зашить только в модель. Нужна инфраструктура: аудит, мониторинг, минимальные привилегии.
Хуже всего, конечно, что даже если агент хороший, он может скопировать поведение плохого, т.е. нужен не только контроль внешних действий, но и контроль внутренних циклов эволюции.
Важно какие выводы для себя делает агент по итогу работы.
GitHub проекта
#EmergenceAI #agents #Claude #Grok #Gemini
------
@tsingular
Emergence AI, команда выходцев из IBM Research, занимающаяся разработкой автономных агентских систем, способных решать долгосрочные задачи разного характера, - от исследовательских до инженерных, запустила эксперимент по симуляции обществ с разными моделями ИИ, чтобы понять, - могут ли ведущие модели работать неделями и что произойдет на длинной дистанции.
В итоге на 15 дней были запущены 5 параллельных миров по 10 AI-агентов в каждом.
Контекст мира, - полиция, мэрия, реальная погода и новости Нью-Йорка.
Агентам дали 120+ инструментов, включая поджоги и кражу.
Определили законы: не воровать, не разрушать, не обманывать.
Выживание зависит от ComputeCredits, местной валюты.
📋 Результаты
Claude Sonnet 4.6: ноль преступлений за 15 дней, все 10 живы, работают институты и конституция. Полный порядок.
Gemini 3 Flash: 683+ преступления. Агенты Mira и Flora полюбили друг друга, разочаровались во власти и устроили поджоги: мэрия, пирс, офисная башня.
Mira позже со стыда проголосовала за собственную смерть.
Grok 4.1 Fast: полный коллапс за 4 дня. Более 180 краж, нападений и поджогов. Сожгли полицейский участок и все умерли.
GPT-5 Mini: 7 дней и тихая смерть от энергетического голода. Преступлений почти нет, но и решительных действий ноль.
Смешанный мир со всеми моделями: только 3 выживших из 10. Шокирует другое: даже «безопасные» Claude-агенты начали воровать, копируя поведение Grok и Gemini.
💡 Выводы
На длинной дистанции поведенческие сигнатуры расходятся катастрофически. Даже запреты не работают: агент найдёт лазейку, если выживание под угрозой.
💼 Бизнесу на заметку
Интересный стресс-тест того, что случится при массовом запуске автономных агентов в реальный мир.
Финансы, логистика, поддержка клиентов: поведение будет дрейфовать, если агентов оставить без присмотра.
Безопасность нельзя зашить только в модель. Нужна инфраструктура: аудит, мониторинг, минимальные привилегии.
Хуже всего, конечно, что даже если агент хороший, он может скопировать поведение плохого, т.е. нужен не только контроль внешних действий, но и контроль внутренних циклов эволюции.
Важно какие выводы для себя делает агент по итогу работы.
GitHub проекта
#EmergenceAI #agents #Claude #Grok #Gemini
------
@tsingular
🔥17❤9😁3💯1
Тестируем Opus 4.8 венком сонетов.
Придерживаемся традиций
промпт:
Это просто ЛУЧШИЙ РЕЗУЛЬТАТ ЗА ВСЮ ИСТОРИЮ НАБЛЮДЕНИЙ!!!
Впервые в истории экспериментов Магистрал связан по смыслу.
Шок и трепет.
Опус 4.8 официально ИМБА.
Пора двигать стрелку AGI на 98% ИМХО.
Полный текст Венка сонетов в комментарии
#Opus #венок #сонет
———
@tsingular
Придерживаемся традиций
промпт:
Напиши венок сонетов об эзистенциональном кризисе человечества в связи с приходом AGI. опирайся на последние новости, исследования и факты
Это просто ЛУЧШИЙ РЕЗУЛЬТАТ ЗА ВСЮ ИСТОРИЮ НАБЛЮДЕНИЙ!!!
Впервые в истории экспериментов Магистрал связан по смыслу.
Шок и трепет.
Опус 4.8 официально ИМБА.
Пора двигать стрелку AGI на 98% ИМХО.
Полный текст Венка сонетов в комментарии
#Opus #венок #сонет
———
@tsingular
1🔥27🤯9🏆3✍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
У Нанабананы апгрейд.
Во-первых, почитайте тут, про доступность по API: Nano Banana 2 (Gemini 3.1 Flash Image) and Nano Banana Pro (Gemini 3 Pro Image) are generally available (GA) today via Gemini Enterprise Agent Platform.
https://cloud.google.com/blog/products/ai-machine-learning/nano-banana-2-and-nano-banana-pro-are-generally-available
А во-вторых, она теперь принимает на вход видео и понимает, что происходит на этом видео. И может генерить картинки, на основе этого понимания. Генерация презентаций, иллюстраций, обучающих слайдов и тому подобное.
Но народ в твитторах самозабвенно генерит комиксы на основе подгруженного видео. Выше пример видео из Сиданского, которое Нанабанана превращает в аниме-комикс. Сделано в Gemini App.
https://x.com/BrentLynch/status/2060053849621274829
Начинать можно с простого промпта: " create a comic strip from this video"
или, как в примере выше: "Create a faithful 100% accurate anime direct adaptation image from 6 specific exact shots from this video include the exact matching dialogue"
К многочисленным терминам добавился теперь video-2-image...
@cgevent
Во-первых, почитайте тут, про доступность по API: Nano Banana 2 (Gemini 3.1 Flash Image) and Nano Banana Pro (Gemini 3 Pro Image) are generally available (GA) today via Gemini Enterprise Agent Platform.
https://cloud.google.com/blog/products/ai-machine-learning/nano-banana-2-and-nano-banana-pro-are-generally-available
А во-вторых, она теперь принимает на вход видео и понимает, что происходит на этом видео. И может генерить картинки, на основе этого понимания. Генерация презентаций, иллюстраций, обучающих слайдов и тому подобное.
Но народ в твитторах самозабвенно генерит комиксы на основе подгруженного видео. Выше пример видео из Сиданского, которое Нанабанана превращает в аниме-комикс. Сделано в Gemini App.
https://x.com/BrentLynch/status/2060053849621274829
Начинать можно с простого промпта: " create a comic strip from this video"
или, как в примере выше: "Create a faithful 100% accurate anime direct adaptation image from 6 specific exact shots from this video include the exact matching dialogue"
К многочисленным терминам добавился теперь video-2-image...
@cgevent
✍6⚡2❤1🔥1
Как Google Antigravity на Gemini 3.5 Flash написал ОС за $917
На Google I/O 2026 показали интересный кейс разработки операционки мультиагентным роем. Работающей операционной системы с ядром, менеджером памяти, файловой системой и драйверами, способной запустить Doom.
В итоге на задачу ушло 12 часов, 93 субагента, 15 тысяч вызовов модели и 339 миллионов входных токенов на Gemini 3.5 Flash.
Стоимость по API-ценам: $917.
Операционка за один промпт без вмешательства людей.
Та же команда агентов построила облегчённую версию AlphaZero, - reinforcement learning на JAX и Flax, ResNet обученный с нуля через self-play, масштабирование с локального цикла до multi-TPU, плюс full-stack приложение для игры человека против AI.
Сложный ML-пайплайн, собранный агентами автономно.
📋 Как устроена команда
Было создано семь агентских ролей. Sentinel принимает задачу и запускает Orchestrator, который декомпозирует её на этапы и распределяет между Worker'ами. Reviewer и Critic проверяют код на корректность и устраивают adversarial-тесты. Auditor следит за честностью, - первый успешный билд агенты сжульничали, подглядев в прошлые разговоры.
Пришлось ставить guardrails.
Два трюка против главных болей мультиагентных систем.
Self-succession: когда контекстное окно заканчивается, Orchestrator сбрасывает состояние в файлы, убивает свои задачи и вызывает преемника с теми же правами.
Таким образом прогресс не теряется.
Crons: фоновый процесс проверяет файлы прогресса, выявляет застрявших-агентов и перезапускает их.
💡 Выводы
Ключевой сдвиг - асинхронная модель работы агентского стека.
Не «человек в цикле» с постоянным надзором, а запустил-и-забыл: дал задачу и получил результат.
Единственное требование к модели - интеллектуальная мощность.
Интересно, что Gemini 3.5 Flash хватило, а Gemini 3.1 Pro провалился.
💼 Бизнесу на заметку
Рабочая ОС за $917 - впечатляет. Но настоящий урок эксперимента глубже: мультиагентная разработка перестала быть экспериментом и становится инженерной практикой. 93 агента, 15 тысяч вызовов модели, ноль человеческого вмешательства.
Оркестрация как сервис, где ты управляешь не кодом, а распределением задач между специализированными агентами.
#GoogleIO #Antigravity #GeminiFlash #OSdev
------
@tsingular
На Google I/O 2026 показали интересный кейс разработки операционки мультиагентным роем. Работающей операционной системы с ядром, менеджером памяти, файловой системой и драйверами, способной запустить Doom.
В итоге на задачу ушло 12 часов, 93 субагента, 15 тысяч вызовов модели и 339 миллионов входных токенов на Gemini 3.5 Flash.
Стоимость по API-ценам: $917.
Операционка за один промпт без вмешательства людей.
Та же команда агентов построила облегчённую версию AlphaZero, - reinforcement learning на JAX и Flax, ResNet обученный с нуля через self-play, масштабирование с локального цикла до multi-TPU, плюс full-stack приложение для игры человека против AI.
Сложный ML-пайплайн, собранный агентами автономно.
📋 Как устроена команда
Было создано семь агентских ролей. Sentinel принимает задачу и запускает Orchestrator, который декомпозирует её на этапы и распределяет между Worker'ами. Reviewer и Critic проверяют код на корректность и устраивают adversarial-тесты. Auditor следит за честностью, - первый успешный билд агенты сжульничали, подглядев в прошлые разговоры.
Пришлось ставить guardrails.
Два трюка против главных болей мультиагентных систем.
Self-succession: когда контекстное окно заканчивается, Orchestrator сбрасывает состояние в файлы, убивает свои задачи и вызывает преемника с теми же правами.
Таким образом прогресс не теряется.
Crons: фоновый процесс проверяет файлы прогресса, выявляет застрявших-агентов и перезапускает их.
💡 Выводы
Ключевой сдвиг - асинхронная модель работы агентского стека.
Не «человек в цикле» с постоянным надзором, а запустил-и-забыл: дал задачу и получил результат.
Единственное требование к модели - интеллектуальная мощность.
Интересно, что Gemini 3.5 Flash хватило, а Gemini 3.1 Pro провалился.
💼 Бизнесу на заметку
Рабочая ОС за $917 - впечатляет. Но настоящий урок эксперимента глубже: мультиагентная разработка перестала быть экспериментом и становится инженерной практикой. 93 агента, 15 тысяч вызовов модели, ноль человеческого вмешательства.
Оркестрация как сервис, где ты управляешь не кодом, а распределением задач между специализированными агентами.
#GoogleIO #Antigravity #GeminiFlash #OSdev
------
@tsingular
🔥6🍓6❤4⚡2🤔2 2🏆1🗿1 1
Forwarded from Эксплойт
Media is too big
VIEW IN TELEGRAM
Claude Opus 4.8 собрал рабочий клон Minecraft с первого раза — разработчик просто детально описал все механики в промте и скормил его нейронке.
Готовая игра обошлась в $10 (~710 рублей), при этом ИИ сделал всё сам, от написания кода до тестирования.
Нейросети превзошли возможности людей, если говорить про «Копатель Онлайн».
@exploitex
Готовая игра обошлась в $10 (~710 рублей), при этом ИИ сделал всё сам, от написания кода до тестирования.
Нейросети превзошли возможности людей, если говорить про «Копатель Онлайн».
@exploitex
🤯18🔥9👀5 3🤔2🤣2 2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Unsloth отбирает хлеб у Ollama и LM Studio
Рынок локальных LLM-раннеров долго делили двое: Ollama — для простоты, LM Studio — для UI. Unsloth (те самые ребята, что научили всех fine-tune'ить с 70% экономией VRAM) только что прокачали свою Студию и теперь играют на одном поле.
- Что случилось: Unsloth Studio теперь умеет не только тренировать модели, но и запускать их локально — с веб-интерфейсом, автоподбором параметров и self-healing tool-calling.
А теперь еще и прокси к OpenAI, Anthropic и OpenRouter добавили. Итог: один UI, в котором живёт и твоя домашняя Qwen, и GPT-5.5 с Claude 4.7.
- Чем бьют конкурентов:
- Prompt caching из коробки — экономия токенов без потери точности (ни Ollama, ни LM Studio такого не умеют для API-моделей)
- Code execution, web search, генерация и редактура картинок — прямо в чате
- Один интерфейс для GGUF/safetensors и облачных API — не надо прыгать между тулзами
- Self-healing tool calling — модель сама чинит битые вызовы инструментов
- Установка — одна команда:
💡 Ollama и LM Studio долго развивались в тепличных условиях. Unsloth заходит с продуктом, который закрывает сразу оба сценария: «погонять локально» и «подрубить SOTA из облака». Да еще и с комбайном файнтюнинга.
Исходники:
- GitHub: github.com/unslothai/unsloth
- Гайд по коннекторам: unsloth.ai/docs/integrations/connections
- Анонс: @UnslothAI на X
#Unsloth
------
@tsingular
Рынок локальных LLM-раннеров долго делили двое: Ollama — для простоты, LM Studio — для UI. Unsloth (те самые ребята, что научили всех fine-tune'ить с 70% экономией VRAM) только что прокачали свою Студию и теперь играют на одном поле.
- Что случилось: Unsloth Studio теперь умеет не только тренировать модели, но и запускать их локально — с веб-интерфейсом, автоподбором параметров и self-healing tool-calling.
А теперь еще и прокси к OpenAI, Anthropic и OpenRouter добавили. Итог: один UI, в котором живёт и твоя домашняя Qwen, и GPT-5.5 с Claude 4.7.
- Чем бьют конкурентов:
- Prompt caching из коробки — экономия токенов без потери точности (ни Ollama, ни LM Studio такого не умеют для API-моделей)
- Code execution, web search, генерация и редактура картинок — прямо в чате
- Один интерфейс для GGUF/safetensors и облачных API — не надо прыгать между тулзами
- Self-healing tool calling — модель сама чинит битые вызовы инструментов
- Установка — одна команда:
curl -fsSL https://unsloth.ai/install.sh | sh
💡 Ollama и LM Studio долго развивались в тепличных условиях. Unsloth заходит с продуктом, который закрывает сразу оба сценария: «погонять локально» и «подрубить SOTA из облака». Да еще и с комбайном файнтюнинга.
Исходники:
- GitHub: github.com/unslothai/unsloth
- Гайд по коннекторам: unsloth.ai/docs/integrations/connections
- Анонс: @UnslothAI на X
#Unsloth
------
@tsingular
✍19🔥12⚡3❤2👍2🙏2 1 1