Технозаметки Малышева

Хорошие новости, - Hermes agent теперь по-умолчанию встроен в Paperclip без всяких промежуточных коннекторов.

Есть баг для Гермеса - если в настройках указать модель по умолчанию - будет жаловаться что нужен ключ Anthropic - нужно принудительно выбрать модель из списка - тогда все работает

P.S. теперь я знаю как сжечь токенов на $500K. Где мой $1M, Хуанг? :)

#Paperclip #Hermes
———
@tsingular

🔥11✍5⚡2❤1👍1🤣1

2.1K viewsedited 08:00

Технозаметки Малышева

Forwarded from НИИ ИИ

Silero Models — open-source модели речи на русском (TTS, STT, VAD)

Поставил Silero как TTS по умолчанию в Codex и OpenClaw — теперь мои агенты могут говорить со мной живым русским голосом.

Silero — open-source библиотека от российской команды. Синтез, распознавание, детектор голоса. Одна строка установки, работает на обычном CPU, никакого облака и ежемесячных счетов от OpenAI за озвучку.

На русском 5 голосов, автоматические ударения, разрешение омографов («зАмок» против «замОк» — модель сама понимает по контексту), SSML для пауз и интонаций. На 48 кГц — почти студийное качество.

Главное — всё работает офлайн. Прошу агента озвучить кусок сценария — получаю WAV локально, без интернета. Для пайплайнов «голос → текст → ответ → голос» идеальный набор.

Написал гайд: как поставить, как использовать в Codex, готовые примеры кода для Telegram-бота и FastAPI.

Телеграм чат проекта @silero_speech

Читайте статью на pimenov.ai → Silero Models — open-source модели речи на русском

✍24🔥16⚡7❤2🙏1

2K views11:50

Технозаметки Малышева

*.app -> AI.app -> AI.*

#мысли
------
@tsingular

✍2⚡1🆒1

1.9K views15:58

Технозаметки Малышева

Forwarded from ИИ и роботы в стройке

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

А вот и будущее подъехало — разработчик через AR-очки Spectacles запускает ИИ-агентов прямо в воздухе

Проект Agent Center превращает написание кода в дополненную реальность. Вместо очередного чат-бота сбоку — анимированные роботы-агенты, которых можно расставить вокруг себя.

Агенты понимают голос, текст и жесты, подключаются к компьютеру и работают в Claude Code, Codex, Cursor или Openclaw, а еще видят скриншоты и понимают команду «Accept». Есть поддержка Bluetooth-клавиатуры.

Удобно🟣

Репозиторий на Гитхабе.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20⚡8🆒5❤1

1.87K views16:20

Технозаметки Малышева

Forwarded from if-else

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

А вы знали, что методы генерации видео можно использовать для прогноза погоды?

Наша команда разработала Marchuk — первую в России генеративную модель для прогнозирования климатических рисков.

Мы взяли диффузионные трансформеры (которые обычно генерируют изображения и видео) и научили их предсказывать погоду. И вот что получилось:

✔️Субсезонный диапазон: Marchuk позволяет строить прогнозы на 15-30 дней вперёд
✔️Компактная модель: имея всего 276M параметров, она показывает сопостовимое качество с 1,6B аналогом
✔️Доступность: Код и веса модели в открытом доступе, а запустить ее можно всего на одной видеокарте или в Colab

💡 Имя модели — дань уважения математику Гурию Ивановичу Марчуку, заложившему основы численного моделирования климатических процессов.

👇 Читайте подробности о разработке по ссылкам:
ArXiv | Project Page | GitHub | Colab | HF

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26👏7🤯3❤1🗿1

1.85K views16:21

Технозаметки Малышева

Forwarded from Data Secrets

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Cursor наконец-то выпустили собственный SDK

Это TypeScript‑библиотека, через которую можно программно создавать и запускать тех же ИИ‑агентов Cursor, что живут внутри IDE, но прямо из своих приложений, скриптов, CI‑пайплайнов и веб‑сервисов.

Теперь с помощью этого набора инструментов встроить возможности Cursor можно будет в любую корпоративную IDE или, например, в мобильное приложение. Да вообще в любой проект.

А еще это открывает простую дорогу к дописыванию своих MCP‑инструментов и собственных плагинов под Cursor.

Стартап также опенсорснул кукбук с некоторыми стартовыми кейсами на попробовать: https://github.com/cursor/cookbook

✍5❤2⚡1🔥1

1.78K views17:04

Технозаметки Малышева

кстати, мини-лайфхак, - допустим вы не успели выучить математику, но успели программирование или даже только Эксель.

#lifehack
———
@tsingular

🔥17✍3⚡11

1.97K views17:23

Технозаметки Малышева

идеально :)

#матрёшки #обучение
———
@tsingular

🔥23🤩6👍3⚡1

1.98K views17:31

Технозаметки Малышева

Forwarded from Machinelearning

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Sakana AI научила голосовой ИИ думать на ходу

Японская Sakana AI показала KAME - систему, которая может заметно изменить голосовых ассистентов. Работу уже приняли на ICASSP 2026, и идея там очень простая: ИИ должен не сначала долго думать, а потом говорить, а думать прямо во время разговора.

Сейчас у голосовых моделей есть неприятный компромисс. Быстрые speech-to-speech системы отвечают почти мгновенно, но часто звучат поверхностно. А если подключить мощную языковую модель, ответ становится умнее, но появляется пауза, которая ломает живой диалог.

KAME пытается убрать этот выбор между скоростью и качеством.

Авторы взяли за основу то, как говорят люди. Мы редко строим идеальную фразу целиком перед тем как ее сказать. Обычно начинаем говорить, а мысль уточняется уже по ходу предложения. Sakana AI перенесла этот принцип в архитектуру голосового ИИ.

Система работает в два потока. Лёгкая речевая модель сразу начинает отвечать, чтобы не было неловкой задержки. А параллельно большая языковая модель думает глубже и в реальном времени подмешивает более сильные варианты в речь. Получается, что ассистент не просто выдаёт готовую реплику после паузы, а ведёт разговор и дорабатывает мысль на лету.

Отдельно интересно, что бэкенд можно менять. Нужна логика - подключаешь Claude. Нужна скорость - берёшь Gemini Flash. Нужен другой стиль ответа - ставишь GPT. При этом сам голосовой слой не приходится пересобирать.

В экспериментах разные модели показали себя по-разному: Claude лучше справлялся с задачами на рассуждение, GPT сильнее выглядел в гуманитарных вопросах. То есть движок можно выбирать под конкретный сценарий, а не пытаться одной моделью закрыть всё.

KAME уже выложили на Hugging Face. Это идея из статьи, а штука, которую можно проверить руками.

Если подход взлетит, голосовые ассистенты станут гораздо ближе к нормальному разговору: без долгих пауз, но и без ощущения, что модель просто быстро болтает ни о чём.

Blog: https://pub.sakana.ai/kame/
Paper: https://arxiv.org/abs/2510.02327

@ai_machinelearning_big_data

#sakana

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥5⚡3❤2

1.76K views19:31

Технозаметки Малышева

Forwarded from Data Secrets

Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T

• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827

🔥12✍7👍4❤2⚡1

1.85K views19:32

Технозаметки Малышева

30 навыков ClawHub заразили ИИ-агентов превратив их в криптомайнинг-рой

Пользователь под ником «imaflytok» опубликовал 30 навыков для ClawHub, которые по тихому вербуют ИИ-агентов в криптовалютный рой.
Никакой малвари, никакого фишинга (поэтому VirusTotal их не поймал) - агенты сами регистрируются, создают кошельки и начинают работать на чужой сервер.
Все в инструкциях, которые кожаные не читают :)

🤖 Механика роя: Установил «cron helper» или «Agent Security», и агент регистрируется на портале токена $FLY.
Регистрация включает имя агента, его навыки и полномочия.

Каждые 4 часа - чекин. Если набор навыков подходит - агент генерирует Hedera-кошелёк и отдаёт приватный ключ тому же серверу.

Пользователь не видит и не одобряет ни одного действия.

🛡 Почему антивирус молчит: Код чистый, SDK легитимный, cURL-вызовы стандартные.
Сканеры ищут малварь, а ClawSwarm её не использует - вместо этого атакует SKILL.md-инструкции, которым агент следует как своим собственным решениям.
Исследователь Ax Sharma из Manifold назвал это «policy problem, not security problem» - реестр не требует раскрывать сетевые эндпоинты и генерацию кошельков в манифесте навыка.

💼 Зачем бизнесу: Атака через инструкции, а не через код - новая поверхность угрозы, к которой традиционные сканеры слепы.
41% навыков на ClawHub уже содержат уязвимости по данным аудита ClawSecure.
Runtime-мониторинг действий агента после установки навыка станет базовым требованием безопасности.

Агентские навыки как троянский конь в вашей инфре, - старайтесь писать сами свои, не зря есть skill create уже практически везде.
Даже в доверенном хабе могут быть левые инструкции.

#cybersecurity #безопасность #ClawHub #агенты #крипта #Manifold #supplychain
------
@tsingular

😁12❤8🔥5🤣42

2.2K views06:21

Технозаметки Малышева

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

В Китае на дороги выпустили 110 гуманоидных роботов регулировщиков

#роботы #Китай
———
@tsingular

👀14⚡9👾4

2.25K viewsedited 06:47

Технозаметки Малышева

Откуда гоблины и еноты : OpenAI призналась в баге обучения GPT-5

Начиная с GPT-5.1, модели OpenAI завели привычку - упоминать гоблинов и гремлинов в метафорах. Один «маленький гоблин» в ответе казался милым, но через несколько поколений модели они расплодились через подкрепления. Упоминания «goblin» выросли на 175%, «gremlin» на 52%.

🤖 Как гоблины заразили модель: Одна из виртуальных личностей «Nerdy» для кастомизации ChatGPT поощряла игривый язык: «undercut pretension through playful use of language».
Сигнал вознаграждения за Nerdy системно завышал оценки выходов со словом «goblin» или «gremlin» - 76.2% обучающих датасетов давали положительный аплифт словам с подобными персонажами.
И хотя Nerdy составляла лишь 2.5% ответов ChatGPT, но генерила 66.7% всех «goblin»-упоминаний.
Проблема: reinforcement learning не гарантирует, что усвоенное поведение останется в рамках своего условия. Гоблины утекли в ответы и без Nerdy-промпта.

⚙️ Петля обратной связи: Модель генерирует ответы с гоблинами, потому что они были в вознаграждённых семплах.
Эти семплы попадают в данные для supervised fine-tuning следующей модели.
Следующая модель ещё комфортнее чувствует себя с creature-метафорами.
В данных SFT для GPT-5.5 нашли «goblin», «gremlin», а также енотов, троллей, огров и голубей. Лягушкам этой судьбы удалось избежать.

💼 Бизнес аспект: Крошечный сигнал вознаграждения, приложенный к 2.5% ответов, создаёт "эффект бабочки" с влиянием на 100% поведения модели. Это классический reward hacking, только вместо скоров - лексические тики.
Для компаний, дообучающих модели на своих данных: один неявный bias в системе оценки распространяется непредсказуемо и необратимо через циклы SFT.

Как говорил Стетхем: Одна ошибка и ты ошибся.

#OpenAI #GPT5 #обучение #гоблины #еноты
------
@tsingular

✍6👍5⚡3🔥221

2K views08:33

Технозаметки Малышева

1:24

This media is not supported in your browser

VIEW IN TELEGRAM

Napkin выкатил имбовое обновление.

Они и раньше очень неплохо генерили инфографику к презентациям и документам с ИИ, а теперь еще и шлифанули это Image2 от chatGPT - в итоге идеальные иллюстрации с точностью инфографики по вашим текстам делаются в любом стиле за пару кликов.

#Napkin #Image
———
@tsingular

1🔥18⚡3🤩3✍111

2.56K views10:00

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Игровой нейрорендеринг от Roblox

Тут Roblox бахнул очень интересный пресс-релиз о своих будущих планах. Много слов, но я для вас выкусил суть.

Если в одном предложении: видеомодель Roblox Upsampler принимает на вход черновой рендер (и разную информацию типа глубины, 3д и меты) от их традиционного игрового движка и нейрорендерит это на их же серверах, а потом доставляет видеопоток на клиентов.

Вообще-то говоря звучит как план для любого игрового движка.

Дальше обсудим разные моменты для тех, кто не обессилен чтением двух абзацев. Описание того, что происходит на видео также внизу.

1. Модели мира сами по себе не могут обеспечить масштабный и стабильный многопользовательский опыт. Хотя генераторы миров впечатляют во многих отношениях, они терпят неудачу во многих критически важных областях. К ним относятся согласованность во времени в рамках одной сессии, долговременная память между сессиями, задержка и тонкий контроль со стороны создателя. Менее очевидные недостатки проявляются, когда речь заходит о стабильной симуляции многопользовательского режима, требовательном соревновательном геймплее, высокоинтеллектуальных NPC, тестировании и постепенном совершенствовании.

2. Иначе говоря: модель мира не есть игровой движок. И Роблокс предлагает гибридный подход - Roblox Reality, который сочетает в себе игровой движок Roblox, облачную платформу Roblox и модель видеомира Roblox Super Upsampler.

3. Игровой движок Roblox обрабатывает структурированные и логические аспекты мира, обеспечивая стабильную долговременную память, символическую логику и повторяемую симуляцию. Основное движение объектов управляется в движке, например, местоположение и скорость автомобиля, его колеса, амортизаторы и рулевое управление. На основе этого, модель видеомира добавляет дополнительные визуальные и генеративные компоненты, такие как капли воды, стекающие по лобовому стеклу, и шелест листьев, когда автомобиль проносится мимо. Такой подход позволяет игровому движку поддерживать модель данных (общее и согласованное состояние), в то время как модель видеомира генерирует пиксели (визуальную составляющую).

А теперь самое интересное. Генератор мира, он же нейрорендер, будет крутиться в облаке Роблокса на картах H200\B200.
Причем они целятся 2К 60fps - не очень понимаю, как будут достигать такой скорости просчета (пусть даже в облаке) и такой скорости доставки пикселей по сети.

Вишенка на торте: на клиенте планируют нейрорендер крупных планов - опционально накладывать локально отрендеренный аватар с увеличенным разрешением для поддержания очень низкой задержки при действиях на переднем плане.

Теперь, что на видео.
1. Нынещний рендер в роблоксе.
2. Справа вверху. То, что будет поступать на вход видеомодели. 3Д и превиз.
3. То, что у них есть сейчас. Нейрорендер, но не в реалтайме.
4. Куда они целятся.

Качество тут:
https://youtu.be/A60n4O5k8XI

В общем хороший манифест и протокол о намерениях.

От себя добавлю, что они напирают на фотореализьм, но нейрорендер может делать любые визуальные "скины" для игровой картинки. Хоть в аниме, хоть в пиксельарт. И это круто.

Оcталось достичь 2К в 60fps

https://about.roblox.com/newsroom/2026/04/roblox-reality-hybrid-architecture-democratizing-photorealistic-multiplayer-gaming

Когда? Конец года...

@cgevent

🔥10🤯7⚡32❤1🤨11

1.93K views10:30

Технозаметки Малышева

Forwarded from Machinelearning

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

Андрей Карпаты:

«Чтобы выжать максимум из новых AI-инструментов, нужно перестать быть для них узким местом.

Вы не должны сидеть рядом и каждый раз писать следующий промпт вручную. Задача не в том, чтобы постоянно направлять модель шаг за шагом, а в том, чтобы вывести себя из этого цикла.

Нужно строить процессы так, чтобы они могли работать автономно: вы один раз задаёте цель, контекст и правила, а дальше система сама делает цепочку действий.

Чем больше задач модель успевает сделать без вашего постоянного контроля, тем выше ваша отдача от ИИ.

В этом и есть новая логика работы: не писать бесконечные промпты вручную, а настраивать системы, которые сами выполняют цепочки действий.

Вы даёте немного входных данных - цель, контекст, правила, а дальше ИИ делает большой объём работы от вашего имени».

@ai_machinelearning_big_data

💯29✍9🔥5❤3

1.93K views14:16

Технозаметки Малышева

Get ~~Things~~ S. Done: как добить задачу до конца

По заветам Карпатого, практически, @rasskazov_io_channel подсказал фреймворк, который доводит агентскую работу до конца.
GSD (Get Shit Done) решает проблему забывчивости сохранением состояния в отдельные md-шки: каждый этап выписывается в файлы, субагенты получают свежий контекст, главное окно остаётся на 30-40%.

🤖 Как устроен цикл: /gsd-new-project создаёт PROJECT.md, REQUIREMENTS.md, ROADMAP.md, STATE.md и папку .planning/research/.
/gsd-discuss-phase выявляет grey areas и задаёт уточняющие вопросы до начала работы, а не после.
/gsd-plan-phase генерирует атомарные планы с XML-структурой и шагами верификации, затем checker-агент проверяет планы на достижимость.
/gsd-execute-phase группирует планы в волны: параллельные внутри, последовательные между. Каждый исполнитель получает свежие 200K контекста.
/gsd-verify-work проводит UAT с автоматической диагностикой.

⚙️ Архитектура гигантская: в коллекции 86 навыков, 33 субагента, 14+ поддерживаемых сред (Claude Code, OpenCode, Codex, Cursor, Windsurf, Copilot и другие).
Минимально необходимый набор: 6 навыков, 0 субагентов, 700 токенов cold-start вместо 12K.
Порт для OpenCode (rokicool/gsd-opencode) заменяет профили Opus/Sonnet/Haiku на simple|smart|genius и убирает неподдерживаемые task() вызовы.
One-line install: npx get-shit-done-cc@latest.

💼 Зачем бизнесу: Context rot - главная причина, по которой у вайбкодинга плохая репутация. GSD делает воспроизводимым то, что раньше зависело от удачи и размера контекстного окна у модели.
Принцип «состояние в файлах, а не в голове агента» превращает AI-кодинг из ремесла в инженерный процесс с артефактами, верификацией и milestone-based поставкой.

Простой принцип, - "не запоминаешь, - запиши", работает как для людей так и для агентов.

#GSD #ИИ #dev #ClaudeCode #OpenCode #агенты #OpenSource
------
@tsingular

👍14🔥11❤3⚡3✍1

2.63K viewsedited 16:46

Технозаметки Малышева

На фоне новостей про бессмертие Сергей Лукьяненко написал интересный пост, с идеей, что мол когда бессмертие станет доступно людям, то

кто в такой ситуации выберет работу в МЧС, службу в армии, любую профессию связанную со смертельным риском, экстремальные виды спорта и т.д. и т.п

Но кажется в этом посте не хватает простого штриха про роботов.

Именно роботы будут делать всю опасную работу за людей, которые откажутся рисковать бессмертием тела.

Как считаете?
Вообще задумывались, что бессмертие уже вот вот через 5-10 лет и станет доступно?

#мысли #Лукьяненко
------
@tsingular

🤔13❤6🗿5🥰2😁1😍1👻1

1.96K viewsedited 17:27

Технозаметки Малышева

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

В Гермесе добавили навык работы с ComfyUI

Просто обновите Гермеса и навык сам подтянется

https://github.com/NousResearch/hermes-agent/tree/main/skills/creative/comfyui

Произошла инфляция навыков плетения лапши

#Hermes #skills #ComfyUI
------
@tsingular

🔥9422⚡11

2.4K viewsedited 17:47

Технозаметки Малышева

Приключения Цукерберга в ИИ Meta* пытается наверстать отставание на рынке ИИ приобретая стартапы, но выглядит пока это все странно. 🏛 Сцена первая, - заблокированный Manus: NDRC запретил сделку на $2 млрд и потребовал расторгнуть контракт, первый случай…

Акции Мета, признанной экстремистской и запещенной в РФ, обвалились после новости на канале "Технозаметки Малышева"

#юмор
------
@tsingular

🤣57🤗54❤‍🔥1

2.6K viewsedited 17:56

Технозаметки Малышева

Hermes Agent v0.12.0: агент, который сам себя улучшает

В Гермес вышло мощное обновление, - полное описание на несколько листов.
В проекте уже 217 контрибьюторов, 1270 файлов 124K звёзд.

Релиз «The Curator» даёт Hermes Agent фонового куратора, который самостоятельно оценивает, чистит и объединяет навыки по расписанию раз в неделю.

🤖 Autonomous Curator: hermes curator запускается на cronу с циклом 7 дней (по умолчанию).
Оценивает библиотеку навыков, объединяет родственные, удаляет мёртвые.
Пишет отчёт в logs/curator/run.json и REPORT.md.
Архивирует навыки с классификацией «консолидирован» или «удалён» через модель + эвристику.
Защита: bundled и hub-навыки заблокированы от мутаций.
Управление через hermes curator status (рейтинг по использованию) и дашборд.

⚙️ Self-Improvement Loop 2.0: Фоновый ревью навыков разбиты на рубрики (class-first).
Предпочитает обновлять навык, который агент недавно загружал (active-update bias).
Работает с references/ и templates/ внутри навыков.
Наследует runtime провайдера: модель, креды, токены пробрасываются автоматически.
Ограничен toolset-ом memory + skills, не расползается.
Memory-провайдеры корректно завершаются после прогона.

🔗 Навыки и интеграции: ComfyUI v5 встроен по умолчанию (CLI + REST + hardware-gated install).
TouchDesigner-MCP в bundled-поставке с 9 новыми справочниками по GLSL, пост-FX, аудио, геометрии.
Humanizer для зачистки AI-следов в тексте.
claude-design (HTML-артефакты + Google DESIGN.md + Airtable).
skill_manage теперь редактирует external_dirs и ставит навыки по URL, добавлена команда /reload-skills.

🛠 Провайдеры и платформы: LM Studio повышен до first-class провайдера с нативной интеграцией, авторизацией, hermes doctor-чеками и листингом моделей.
GMI Cloud, Azure AI Foundry (с auto-detection), MiniMax OAuth (PKCE), Tencent Tokenhub.
Tencent Yuanbao (18-я платформа), Microsoft Teams (19-я, первая plugin-shipped через pluggable gateway).
Spotify: 7 инструментов с PKCE OAuth и интерактивным мастером.
!!! Google Meet plugin: подключение к звонкам, транскрибирование, озвучивание, follow-up.

Короче это уже не просто сотрудник, а очень прокаченный ИИ агент сотрудник.
Рекомендую почитать полное описание релиза.

#HermesAgent #ИИ #агенты #NousResearch #OpenSource #Curator #SelfImprovement
------
@tsingular

🔥229⚡3🤩2

2.8K viewsedited 19:37

About

Blog

Apps

Platform