Технозаметки Малышева

OpenAI обновила голосовые модели в Realtime API

OpenAI перестала относиться к голосу как к надстройке над текстом. Три новые модели в Realtime API: reasoning-голос, переводчик на 70 языков и стриминговый Whisper. Контекстное окно выросло вчетверо.

🤖 GPT-Realtime-2,- голос с reasoning: Первая голосовая модель GPT-5 линейки.
Пять уровней глубины рассуждений: от minimal до xhigh.
Добавлены короткие фразы вроде «сейчас проверю», чтобы слушатель понимал, что агент работает.
Параллельный вызов инструментов с озвучкой действий («проверяю ваш календарь»).
Озвучивание ошибок: «не могу сейчас помочь» вместо молчания.
Контекст вырос с 32K до 128K.

Заявлен +15.2% на BigBench Audio и +13.8% на Audio MultiChallenge относительно Realtime-1.5.
Zillow: +26 процентных пунктов к success rate на сложных звонках (95% vs 69%).

🔗 Translate и Whisper,- два спецмодели: GPT-Realtime-Translate: 70+ языков на вход, 13 на выход, в реальном времени.
BolnaAI: -12.5% WER против конкурентов на хинди, тамиле и телугу.
GPT-Realtime-Whisper: стриминговый speech-to-text, транскрибирует на лету.
Задачи: живые субтитры, автозаметки, голосовые агенты, которые слышат непрерывно.

💼 Зачем бизнесу: Три паттерна voice-AI,- которые раньше собирали руками: voice-to-action (голос → инструменты → результат), systems-to-voice (контекст → голосовая подсказка), voice-to-voice (разговор через языки и задачи).
Realtime-2 приносит в голос ту же рассудительность, что o1/o3 в тексте,- а стоимость снизили с $5/$20 до $4/$16 за миллион токенов.
Голос перестает быть дорогим экспериментом и становится первоклассной нормой.

#OpenAI #Realtime #voice #agents
------
@tsingular

🔥14👍52❤1

1.57K views18:07

MLflow и OpenClaw: гайд по наблюдаемости

MLflow выпустил официальный гайд по трейсингу OpenClaw-агентов. Проблема знакомая: агент автономно решает, какие инструменты дергать, в каком порядке и стоит ли спавнить саб-агентов. Когда всё работает — непонятно почему. Когда ломается — непонятно где.

🔍 Что видно в трейсе: Каждый запуск агента — иерархическое дерево спаунов. LLM-вызовы с полным промптом и ответом, инструментальные вызовы с параметрами и результатами, саб-агенты со своими вложенными шагами.
Токены, тайминги, ошибки — всё под контролем.
ReAct-цикл агента разворачивается в пошаговую хронологию.

🏠 Local-first: MLflow полностью self-hosted, Linux Foundation. Трейсы лежат на вашей машине, ни байта не уходит наружу. Для персонального агента с доступом к почте, календарю и файлам это обязательное требование.

🛡 AI Gateway: Проксирует LLM-вызовы, хранит API-ключи в одном месте (зашифрованные), и даёт глобальный бюджетный лимит по всем провайдерам. Бесконечный retry-loop саб-агента больше не сожрёт бюджет незаметно.

📊 Dashboard + Auto Eval: Дашборд показывает частоту ошибок, популярность инструментов, тренды токенов. Automatic evaluation подсвечивает проблемные паттерны без ручного анализа.

🔄 Цикл самоулучшения: Человеческий фидбек (thumbs down на трейс, заметка по сессии) превращается в датасет. Агент через MLflow CLI/скиллы может читать свои трейсы, видеть негативный фидбек и корректировать скилл-определения. Наблюдение → аннотация → обучение на собственной истории.

⚙️ Установка:

openclaw plugins install @mlflow/mlflow-openclaw

uvx mlflow server --port 5000

openclaw mlflow configure.

Трейсинг автоматический, навыки и конфиг агента менять не нужно.

💼 Зачем бизнесу: Агенты без наблюдаемости — это самолёт без приборной панели. MLflow Tracing даёт тот минимум телеметрии, при котором агент превращается из хайпа в инженерную систему. Трейсы → фидбек → датасет → оценка → итерация. Классический ML-цикл, только на уровне агента.

Для Гермесика бы еще выпустили

#MLflow #OpenClaw #трейсинг #наблюдаемость #агенты #LLM
───
@tsingular

1⚡8👍6🔥4❤1✍1

1.5K viewsedited 19:10

Технозаметки Малышева

Используя Anthropic Mythos Firefox закрыли больше уязвимостей в апреле, чем за 15 месяцев до этого суммарно.

#Mythos #Firefox #cybersecurity
------
@tsingular

⚡12🔥8🤔3🤯3❤‍🔥1

1.55K views20:26

Технозаметки Малышева

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

Не ну без интернета дальше только так.
Без вариантов :)

#юмор #баян
------
@tsingular

🔥16😁14🤣9🤔2

3.42K viewsedited 20:35

Технозаметки Малышева

Noustiny: ИИ режиссёр для Hermes

Хакатонный проект в рамках Nous Creative Hackathon 2026 принес движок, который превращает затравку истории в разветвлённое дерево сценариев с советом ИИ-критиков, клонированным голосом и видеорендером. Построен поверх Hermes Agent.

🤖 Совет критиков на каждом узле: Каждая сцена проходит через совет из трёх ролей: критик непрерывности ловит противоречия, редактор латает дыры, оценщик утверждает или отвергает правку. Вставил новый эпизод посередине дерева: каскад автоматически пересобирает все последующие сцены, пока повествование снова не станет стройным. Два типа сплайса: врезка в канон (каскад срабатывает) и параллельная ветка (каскад молчит).

🔗 12 инструментов, 13 навыков:

Состояние истории: граф дерева с канонической цепочкой, обходчик контекста, трекер лейтмотивов через всю сюжетную арку.

Непрерывность персонажей: генератор 1-4 персонажей с портретами, свободными от авторских прав. Разрешение алиасов (например «Мистер Старк» → Tony Stark). Подбор нужного портрета на каждой сцене. Детектор авторских прав: заменяет защищённые имена на описания перед вызовом генерации изображений.

Голос: подбор персоны и тембра по сюжетному запросу. Скачивание и нормализация аудио через yt-dlp + ffmpeg в 24 кГц. Клонирование голоса через ElevenLabs IVC с таймстемпами, кеш по хешу.

Рендер: один вызов через FastAPI, на выходе готовый MP4.

⚙️ Архитектура: 12 инструментов и 13 навыков, подключаются к любому развёртыванию Hermes. Рендер-цепочка: режиссёр озвучки → сборщик сэмплов → клонирование голоса → сторибук. Четыре инструмента в одном ответе модели, без оркестрации на стороне приложения.
Web-канва: Next.js 16 / React 19, splice-жесты прямо на дереве.

💼 Зачем бизнесу: Разветвлённые нарративы с автокоррекцией: вставил сцену, каскад пересобрал арку. Клонирование голоса через IVC: кинул ссылку на YouTube, получил озвученный MP4 тем же голосом, что и оригинал. Зачистка авторских прав из коробки: защищённые имена автоматически заменяются на описания перед генерацией картинок.

29 звёзд, 4 форка, TypeScript 78% / Python 21%.
Свежий хакатонный прототип (4дня), но конвейер собран на совесть.
Практически замена ComfyUI

#Noustiny #Hermes #видео #навыки
------
@tsingular

1🔥14⚡6❤3✍2🆒1

1.6K views20:42

Технозаметки Малышева

Forwarded from AI Product | Igor Akimov

Специально оставил на утро внимательно почитать и потестить.
Inworld (я кажется их один из фанатов) выпустили Realtime TTS-2 – голосовую модель, заточенную под живой диалог, а не аудиокниги
Уже #1 в голосовой арене на https://artificialanalysis.ai/text-to-speech/leaderboard
То есть выше и OpenAI, и Gemini, и ElevenLabs, а теперь переходят в скорость и бьют по Cartesia, Minimax и быстрые традиционные озвучки.
Теперь еще и на 100 языках (русский и раньше был).
Пишут, что все TTS до этого учились на аудиокнигах и нарративе – модель получает текст, выдаёт звук, никогда не слыша того, кто на другой стороне. Realtime TTS-2 делает лучше – модель слышит всю аудио-историю диалога и подстраивает подачу под состояние пользователя.

Выделяют 4 фишки:
- Voice Direction – режиссёрские ремарки прямо в тексте в скобках. Не пресеты эмоций, не слайдеры, а свободный prompt в стиле LLM. Например: [speak tired but warm, like she just got home] – и модель меняет подачу. Длинные описательные промпты работают лучше коротких лейблов.
- Conversational Awareness – модель получает на вход не транскрипт, а реальное аудио предыдущих реплик. Одна и та же фраза после шутки и после плохой новости звучит по-разному, потому что модель слышала предыдущую реплику.
- Crosslingual – одна идентичность голоса в 100+ языках, включая переключение языка в середине фразы внутри одной генерации. Тембр, высота, характер сохраняются. Никаких флагов языка, никакой библиотеки голосов под каждый язык.
- Advanced Voice Design – генерация нового голоса из текстового описания. Прозой описал персонажа, сохранил как голос, дальше используешь как любой другой. Без референсного аудио.

Заявляют <200мс до первого аудио (то есть на уровне топов), совместимость с OpenAI Realtime API, клонирование голоса по 15 секундам, 3 режима (для персонажей, сбалансированный и для озвучки).

Стоимость - 3.5с за минуту, дешевле практически всего аналогичного качества (Google стоит 3.7, Cartesia 3.9, ElevenLabs 10).

Больше информации и демки: https://inworld.ai/blog/realtime-tts-2

Вот здесь можно лайкнуть на ProductHunt (сегодня у них запуск): https://www.producthunt.com/products/inworld-ai

🔥9⚡2🆒2🥰1

1.44K views05:04

Технозаметки Малышева

Google IO 19-20 мая пройдет.

Записываем в календарик.
Судя по расписанию, будет интересно.

#Google #конференции
———
@tsingular

⚡4✍3❤2

1.57K views06:59

Технозаметки Малышева

Forwarded from Анализ данных (Data analysis)

Ряд пабликов пишут, что Claude начала массово блочить аккаунты россиян

При этом деньги за подписки не возвращают. Весь контент, наработки, код и аналитика улетают в трубу.

Пишите в комментах, как у вас с Клодом, это вброс или реальная проблема ?

👻9🔥7👏2😁2🤣2😢1

1.6K views07:41

Технозаметки Малышева

Пользователи: Ааа.. Клод блокирует! Зашоо! Что делать?

Так же пользователи: ну мы тут подписку за $20 одноразовую покупаем на биржах в обход блокировок, выжимаем на $7К агентами, с tool use и т.д. 24/7 фармим триллионы контекста. Антропик никогда не окупится, - ИИ скам вообще.

МА-ЛАД-ЦЫ! :)

#юмор
———
@tsingular

🤣34😁3👨‍💻2👍1💯1😐1

1.71K viewsedited 08:14

Технозаметки Малышева

Правительство США официально опубликовало материалы про НЛО.

там около 100 PDF и немного видео.
Запустил Гермеса с DeepSeek Pro почитать что там опубликовали.

Удобно конечно что достаточно дать ему ссылку на deepseekOCR в ollame и дальше он сам разбирается как с её помощью все возможное из этих PDF сканов вытащить

через 4 часа обещает дать отчет.
(отчёт уже на 126 страниц)

опубликую в этой ветке

#UFO #НЛО #Hermes
———
@tsingular

🔥40👏18👀5✍3🫡3🤣2

1.3K viewsedited 14:44

Технозаметки Малышева

слушайте, я снова фанат DeepSeek.
зарядил его в несколько Гермесов и OpenCode и вот за всё время он еле еле 1 доллар потратил при том, что все задачи упорно выполняет и доводит до результата.

это просто аттракцион невиданной щедрости, - до конца месяца там скидки под 75% у них на прямом API (0,87 за лям)

а некоторые ушлые роутеры берут сразу без скидки 3.5+ бакса за 1 млн токенов.

Рекомендую, в общем.

#DeepSeek #Hermes
———
@tsingular

👍18🔥4🙏4💯1

1.15K views16:27

Технозаметки Малышева

И, кстати, что интересно - $0.79 это за 40 миллионов токенов работы агентов получается, потому что в основном всё лупит в кэш!!!
Ещё один плюс работы через Гермеса

#Гермес
———
@tsingular

🔥5🤯3⚡2🙏1

972 viewsedited 16:47

Технозаметки Малышева

Forwarded from Russian OSINT

Специалист по кибербезопасности Маркус Хатчинс (известный тем, что остановил распространение шифровальщика WannaCry) провел эксперимент по автоматизации поиска 0-day уязвимостей с помощью ИИ-модели Claude Opus без ограничений безопасности.

По его наблюдениям, современные нейросети не обладают магическими способностями и в реальности плохо понимают архитектуру компьютера. Они работают исключительно как механизмы поиска знакомых паттернов в коде. Маркусу пришлось самостоятельно писать скрипты для подготовки драйверов Windows 11 и выстраивать жесткую логику запросов для направления ИИ в нужное русло. Хатчинс подчеркивает, что ИИ может идеально процитировать теорию (например, безупречно объяснить, что такое технология защиты ASLR или что такое Read/Write примитивы), но она не способна связать эти знания воедино на практике.

Хатчинс заявляет прямо: "Это не LLM учит меня эксплуатации уязвимостей. Это я учу её".
Чтобы ИИ смог выдать хоть какой-то адекватный результат, Маркусу пришлось:

🐍 Написать огромный фреймворк на Python
📞 Самостоятельно декомпилировать ассемблерный код в си-подобный псевдокод (потому что ИИ ужасно работает с реверс-инжинирингом ассемблера)
💻 Пришлось использовать многолетний опыт поиска уязвимостей, буквально описывая для ИИ каждый шаг и каждую потенциальную ошибку

🤖

Поиск уязвимостей остался крайне дорогим и трудоемким процессом. Обработка одного файла стоила около $2, а для обнаружения одной действительно ↔️критической ошибки автору пришлось проанализировать четыре сотни драйверов.

В итоге только этап получения базового отчета обошелся в $800. Исследователь считает, что неопытным 🥷злоумышленникам будет крайне сложно генерировать эксплойты с помощью ИИ без глубоких знаний в реверс-инжиниринге и значительных финансовых вложений.

Внедрение ИИ-инструментов помогает безопасникам защитить свою инфраструктуру, а программисты получают новые возможности для быстрого исправления ошибок в своих продуктах. При этом на первый план выходит проблема неравномерного распределения ресурсов. Крупные технологические гиганты могут позволить себе оплачивать дорогостоящие вычисления, тогда как критически важные проекты с открытым исходным кодом остаются без надежной защиты.

Общественности стоит задуматься над тем, что нужно разработать новые способы совместного финансирования таких проверок для обеспечения безопасности фундаментальных программных решений.

👆Тесты проводились на 🈁 Claude Opus 4.6. Хатчинс тестировал 📖поиск уязвимостей нулевого дня в драйверах уровня ядра (kernel drivers) для Windows 11 от сторонних разработчиков.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡4✍2❤1🤔1

902 views16:51

Технозаметки Малышева

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

Результат прогона Гермеса по коллекции открытых материалов в комментарии

Там же зип файл с текстами

Анимация - Гермес
Музыка - Гермес ->Suno
Сборка - Гермес

#Hermes #UFO
———
@tsingular

🔥5⚡3✍2

712 viewsedited 18:59

About

Blog

Apps

Platform