Технозаметки Малышева
11K subscribers
4.56K photos
1.66K videos
41 files
4.61K links
Новости инноваций из мира Искусственного Интеллекта. 🤖 [РКН: 7021469833 ]

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸: https://pay.cloudtips.ru/p/c8960bb
Download Telegram
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
А теперь про стриминг сплатов на разные устройства.

Поглядите на эти трехмерные видео на основе сплатов: качество, облет камеры, любые ракурсы.

Как пишет мне Андрей Володин из gracia.ai:

"Мы добежали до стриминга сплатов! работает на каналах 75мбпс и рендерится в браузере, даже в WebXR и даже на Apple Vision Pro/Quest 3."

"Удалось впихнуть наш вольюметрический кодек в 75Mbps битрейт. Помню, как в начале проекта увиливал от вопросов инвесторов про трансляции и сам не особо верил, что мы до них добежим. Теперь это в моём айфоне.

В одном релизе сделали CDN инфру для раздачи видео по всему миру, рендеринг в браузере (даже в WebXR), пространственное аудио и даже зачатки релайтинга!
"

Посмотрите примеры и почитайте про устройства захвата тут:
https://store.gracia.ai

@cgevent
🔥9👍84
32 тысячи звёзд на GitHub всего за 10 часов!

Терминал Warp открыли в open-source.

Это одна из самых заметных agentic development environment: терминалом уже пользуются больше 1 млн разработчиков по всему миру. Теперь проект хотят развивать быстрее за счёт комьюнити, внешних контрибьюторов и прозрачной разработки.

open-source-релиз стал возможен при поддержке OpenAI, которые выступили главным спонсором проекта.

Реакция комьюнити мощная: репозиторий за несколько часов собрал уже 30+ тысяч звёзд на GitHub.

И, конечно же, он написан на Rust.

https://github.com/warpdotdev/warp
🤩97🔥51
Хорошие новости, - Hermes agent теперь по-умолчанию встроен в Paperclip без всяких промежуточных коннекторов.

Есть баг для Гермеса - если в настройках указать модель по умолчанию - будет жаловаться что нужен ключ Anthropic - нужно принудительно выбрать модель из списка - тогда все работает

P.S. теперь я знаю как сжечь токенов на $500K. Где мой $1M, Хуанг? :)

#Paperclip #Hermes
———
@tsingular
🔥11521👍1🤣1
Forwarded from НИИ ИИ
Silero Models — open-source модели речи на русском (TTS, STT, VAD)

Поставил Silero как TTS по умолчанию в Codex и OpenClaw — теперь мои агенты могут говорить со мной живым русским голосом.

Silero — open-source библиотека от российской команды. Синтез, распознавание, детектор голоса. Одна строка установки, работает на обычном CPU, никакого облака и ежемесячных счетов от OpenAI за озвучку.

На русском 5 голосов, автоматические ударения, разрешение омографов («зАмок» против «замОк» — модель сама понимает по контексту), SSML для пауз и интонаций. На 48 кГц — почти студийное качество.

Главное — всё работает офлайн. Прошу агента озвучить кусок сценария — получаю WAV локально, без интернета. Для пайплайнов «голос → текст → ответ → голос» идеальный набор.

Написал гайд: как поставить, как использовать в Codex, готовые примеры кода для Telegram-бота и FastAPI.

Телеграм чат проекта @silero_speech

Читайте статью на pimenov.aiSilero Models — open-source модели речи на русском
24🔥1672🙏1
*.app -> AI.app -> AI.*

#мысли
------
@tsingular
21🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и будущее подъехало — разработчик через AR-очки Spectacles запускает ИИ-агентов прямо в воздухе

Проект Agent Center превращает написание кода в дополненную реальность. Вместо очередного чат-бота сбоку — анимированные роботы-агенты, которых можно расставить вокруг себя.

Агенты понимают голос, текст и жесты, подключаются к компьютеру и работают в Claude Code, Codex, Cursor или Openclaw, а еще видят скриншоты и понимают команду «Accept». Есть поддержка Bluetooth-клавиатуры.

Удобно🟣

Репозиторий на Гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥208🆒51
Forwarded from if-else
This media is not supported in your browser
VIEW IN TELEGRAM
А вы знали, что методы генерации видео можно использовать для прогноза погоды?

Наша команда разработала Marchukпервую в России генеративную модель для прогнозирования климатических рисков.

Мы взяли диффузионные трансформеры (которые обычно генерируют изображения и видео) и научили их предсказывать погоду. И вот что получилось:

✔️Субсезонный диапазон: Marchuk позволяет строить прогнозы на 15-30 дней вперёд
✔️Компактная модель: имея всего 276M параметров, она показывает сопостовимое качество с 1,6B аналогом
✔️Доступность: Код и веса модели в открытом доступе, а запустить ее можно всего на одной видеокарте или в Colab

💡 Имя модели — дань уважения математику Гурию Ивановичу Марчуку, заложившему основы численного моделирования климатических процессов.

👇 Читайте подробности о разработке по ссылкам:
ArXiv | Project Page | GitHub | Colab | HF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👏7🤯31🗿1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Cursor наконец-то выпустили собственный SDK

Это TypeScript‑библиотека, через которую можно программно создавать и запускать тех же ИИ‑агентов Cursor, что живут внутри IDE, но прямо из своих приложений, скриптов, CI‑пайплайнов и веб‑сервисов.

Теперь с помощью этого набора инструментов встроить возможности Cursor можно будет в любую корпоративную IDE или, например, в мобильное приложение. Да вообще в любой проект.

А еще это открывает простую дорогу к дописыванию своих MCP‑инструментов и собственных плагинов под Cursor.

Стартап также опенсорснул кукбук с некоторыми стартовыми кейсами на попробовать: https://github.com/cursor/cookbook
521🔥1
кстати, мини-лайфхак, - допустим вы не успели выучить математику, но успели программирование или даже только Эксель.

#lifehack
———
@tsingular
🔥17311
идеально :)

#матрёшки #обучение
———
@tsingular
🔥23🤩6👍31
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Sakana AI научила голосовой ИИ думать на ходу

Японская Sakana AI показала KAME - систему, которая может заметно изменить голосовых ассистентов. Работу уже приняли на ICASSP 2026, и идея там очень простая: ИИ должен не сначала долго думать, а потом говорить, а думать прямо во время разговора.

Сейчас у голосовых моделей есть неприятный компромисс. Быстрые speech-to-speech системы отвечают почти мгновенно, но часто звучат поверхностно. А если подключить мощную языковую модель, ответ становится умнее, но появляется пауза, которая ломает живой диалог.

KAME пытается убрать этот выбор между скоростью и качеством.

Авторы взяли за основу то, как говорят люди. Мы редко строим идеальную фразу целиком перед тем как ее сказать. Обычно начинаем говорить, а мысль уточняется уже по ходу предложения. Sakana AI перенесла этот принцип в архитектуру голосового ИИ.

Система работает в два потока. Лёгкая речевая модель сразу начинает отвечать, чтобы не было неловкой задержки. А параллельно большая языковая модель думает глубже и в реальном времени подмешивает более сильные варианты в речь. Получается, что ассистент не просто выдаёт готовую реплику после паузы, а ведёт разговор и дорабатывает мысль на лету.

Отдельно интересно, что бэкенд можно менять. Нужна логика - подключаешь Claude. Нужна скорость - берёшь Gemini Flash. Нужен другой стиль ответа - ставишь GPT. При этом сам голосовой слой не приходится пересобирать.

В экспериментах разные модели показали себя по-разному: Claude лучше справлялся с задачами на рассуждение, GPT сильнее выглядел в гуманитарных вопросах. То есть движок можно выбирать под конкретный сценарий, а не пытаться одной моделью закрыть всё.

KAME уже выложили на Hugging Face. Это идея из статьи, а штука, которую можно проверить руками.

Если подход взлетит, голосовые ассистенты станут гораздо ближе к нормальному разговору: без долгих пауз, но и без ощущения, что модель просто быстро болтает ни о чём.

Blog: https://pub.sakana.ai/kame/
Paper: https://arxiv.org/abs/2510.02327

@ai_machinelearning_big_data

#sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥532
Forwarded from Data Secrets
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T


• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827
🔥127👍421
30 навыков ClawHub заразили ИИ-агентов превратив их в криптомайнинг-рой

Пользователь под ником «imaflytok» опубликовал 30 навыков для ClawHub, которые по тихому вербуют ИИ-агентов в криптовалютный рой.
Никакой малвари, никакого фишинга (поэтому VirusTotal их не поймал) - агенты сами регистрируются, создают кошельки и начинают работать на чужой сервер.
Все в инструкциях, которые кожаные не читают :)

🤖 Механика роя: Установил «cron helper» или «Agent Security», и агент регистрируется на портале токена $FLY.
Регистрация включает имя агента, его навыки и полномочия.

Каждые 4 часа - чекин. Если набор навыков подходит - агент генерирует Hedera-кошелёк и отдаёт приватный ключ тому же серверу.

Пользователь не видит и не одобряет ни одного действия.

🛡 Почему антивирус молчит: Код чистый, SDK легитимный, cURL-вызовы стандартные.
Сканеры ищут малварь, а ClawSwarm её не использует - вместо этого атакует SKILL.md-инструкции, которым агент следует как своим собственным решениям.
Исследователь Ax Sharma из Manifold назвал это «policy problem, not security problem» - реестр не требует раскрывать сетевые эндпоинты и генерацию кошельков в манифесте навыка.

💼 Зачем бизнесу: Атака через инструкции, а не через код - новая поверхность угрозы, к которой традиционные сканеры слепы.
41% навыков на ClawHub уже содержат уязвимости по данным аудита ClawSecure.
Runtime-мониторинг действий агента после установки навыка станет базовым требованием безопасности.

Агентские навыки как троянский конь в вашей инфре, - старайтесь писать сами свои, не зря есть skill create уже практически везде.
Даже в доверенном хабе могут быть левые инструкции.

#cybersecurity #безопасность #ClawHub #агенты #крипта #Manifold #supplychain
------
@tsingular
😁128🔥5🤣42
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае на дороги выпустили 110 гуманоидных роботов регулировщиков

#роботы #Китай
———
@tsingular
👀149👾4
Откуда гоблины и еноты : OpenAI призналась в баге обучения GPT-5

Начиная с GPT-5.1, модели OpenAI завели привычку - упоминать гоблинов и гремлинов в метафорах. Один «маленький гоблин» в ответе казался милым, но через несколько поколений модели они расплодились через подкрепления. Упоминания «goblin» выросли на 175%, «gremlin» на 52%.

🤖 Как гоблины заразили модель: Одна из виртуальных личностей «Nerdy» для кастомизации ChatGPT поощряла игривый язык: «undercut pretension through playful use of language».
Сигнал вознаграждения за Nerdy системно завышал оценки выходов со словом «goblin» или «gremlin» - 76.2% обучающих датасетов давали положительный аплифт словам с подобными персонажами.
И хотя Nerdy составляла лишь 2.5% ответов ChatGPT, но генерила 66.7% всех «goblin»-упоминаний.
Проблема: reinforcement learning не гарантирует, что усвоенное поведение останется в рамках своего условия. Гоблины утекли в ответы и без Nerdy-промпта.

⚙️ Петля обратной связи: Модель генерирует ответы с гоблинами, потому что они были в вознаграждённых семплах.
Эти семплы попадают в данные для supervised fine-tuning следующей модели.
Следующая модель ещё комфортнее чувствует себя с creature-метафорами.
В данных SFT для GPT-5.5 нашли «goblin», «gremlin», а также енотов, троллей, огров и голубей. Лягушкам этой судьбы удалось избежать.

💼 Бизнес аспект: Крошечный сигнал вознаграждения, приложенный к 2.5% ответов, создаёт "эффект бабочки" с влиянием на 100% поведения модели. Это классический reward hacking, только вместо скоров - лексические тики.
Для компаний, дообучающих модели на своих данных: один неявный bias в системе оценки распространяется непредсказуемо и необратимо через циклы SFT.

Как говорил Стетхем: Одна ошибка и ты ошибся.

#OpenAI #GPT5 #обучение #гоблины #еноты
------
@tsingular
6👍53🔥221
This media is not supported in your browser
VIEW IN TELEGRAM
Napkin выкатил имбовое обновление.

Они и раньше очень неплохо генерили инфографику к презентациям и документам с ИИ, а теперь еще и шлифанули это Image2 от chatGPT - в итоге идеальные иллюстрации с точностью инфографики по вашим текстам делаются в любом стиле за пару кликов.

#Napkin #Image
———
@tsingular
1🔥183🤩3111
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Игровой нейрорендеринг от Roblox

Тут Roblox бахнул очень интересный пресс-релиз о своих будущих планах. Много слов, но я для вас выкусил суть.

Если в одном предложении: видеомодель Roblox Upsampler принимает на вход черновой рендер (и разную информацию типа глубины, 3д и меты) от их традиционного игрового движка и нейрорендерит это на их же серверах, а потом доставляет видеопоток на клиентов.

Вообще-то говоря звучит как план для любого игрового движка.

Дальше обсудим разные моменты для тех, кто не обессилен чтением двух абзацев. Описание того, что происходит на видео также внизу.

1. Модели мира сами по себе не могут обеспечить масштабный и стабильный многопользовательский опыт. Хотя генераторы миров впечатляют во многих отношениях, они терпят неудачу во многих критически важных областях. К ним относятся согласованность во времени в рамках одной сессии, долговременная память между сессиями, задержка и тонкий контроль со стороны создателя. Менее очевидные недостатки проявляются, когда речь заходит о стабильной симуляции многопользовательского режима, требовательном соревновательном геймплее, высокоинтеллектуальных NPC, тестировании и постепенном совершенствовании.

2. Иначе говоря: модель мира не есть игровой движок. И Роблокс предлагает гибридный подход - Roblox Reality, который сочетает в себе игровой движок Roblox, облачную платформу Roblox и модель видеомира Roblox Super Upsampler.

3. Игровой движок Roblox обрабатывает структурированные и логические аспекты мира, обеспечивая стабильную долговременную память, символическую логику и повторяемую симуляцию. Основное движение объектов управляется в движке, например, местоположение и скорость автомобиля, его колеса, амортизаторы и рулевое управление. На основе этого, модель видеомира добавляет дополнительные визуальные и генеративные компоненты, такие как капли воды, стекающие по лобовому стеклу, и шелест листьев, когда автомобиль проносится мимо. Такой подход позволяет игровому движку поддерживать модель данных (общее и согласованное состояние), в то время как модель видеомира генерирует пиксели (визуальную составляющую).

А теперь самое интересное. Генератор мира, он же нейрорендер, будет крутиться в облаке Роблокса на картах H200\B200.
Причем они целятся 2К 60fps - не очень понимаю, как будут достигать такой скорости просчета (пусть даже в облаке) и такой скорости доставки пикселей по сети.

Вишенка на торте: на клиенте планируют нейрорендер крупных планов - опционально накладывать локально отрендеренный аватар с увеличенным разрешением для поддержания очень низкой задержки при действиях на переднем плане.

Теперь, что на видео.
1. Нынещний рендер в роблоксе.
2. Справа вверху. То, что будет поступать на вход видеомодели. 3Д и превиз.
3. То, что у них есть сейчас. Нейрорендер, но не в реалтайме.
4. Куда они целятся.

Качество тут:
https://youtu.be/A60n4O5k8XI

В общем хороший манифест и протокол о намерениях.

От себя добавлю, что они напирают на фотореализьм, но нейрорендер может делать любые визуальные "скины" для игровой картинки. Хоть в аниме, хоть в пиксельарт. И это круто.

Оcталось достичь 2К в 60fps

https://about.roblox.com/newsroom/2026/04/roblox-reality-hybrid-architecture-democratizing-photorealistic-multiplayer-gaming

Когда? Конец года...

@cgevent
🔥10🤯7321🤨11
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Андрей Карпаты:

«Чтобы выжать максимум из новых AI-инструментов, нужно перестать быть для них узким местом.

Вы не должны сидеть рядом и каждый раз писать следующий промпт вручную. Задача не в том, чтобы постоянно направлять модель шаг за шагом, а в том, чтобы вывести себя из этого цикла.

Нужно строить процессы так, чтобы они могли работать автономно: вы один раз задаёте цель, контекст и правила, а дальше система сама делает цепочку действий.

Чем больше задач модель успевает сделать без вашего постоянного контроля, тем выше ваша отдача от ИИ.

В этом и есть новая логика работы: не писать бесконечные промпты вручную, а настраивать системы, которые сами выполняют цепочки действий.

Вы даёте немного входных данных - цель, контекст, правила, а дальше ИИ делает большой объём работы от вашего имени».



@ai_machinelearning_big_data
💯299🔥53
Get Things S. Done: как добить задачу до конца

По заветам Карпатого, практически, @rasskazov_io_channel подсказал фреймворк, который доводит агентскую работу до конца.
GSD (Get Shit Done) решает проблему забывчивости сохранением состояния в отдельные md-шки: каждый этап выписывается в файлы, субагенты получают свежий контекст, главное окно остаётся на 30-40%.

🤖 Как устроен цикл: /gsd-new-project создаёт PROJECT.md, REQUIREMENTS.md, ROADMAP.md, STATE.md и папку .planning/research/.
/gsd-discuss-phase выявляет grey areas и задаёт уточняющие вопросы до начала работы, а не после.
/gsd-plan-phase генерирует атомарные планы с XML-структурой и шагами верификации, затем checker-агент проверяет планы на достижимость.
/gsd-execute-phase группирует планы в волны: параллельные внутри, последовательные между. Каждый исполнитель получает свежие 200K контекста.
/gsd-verify-work проводит UAT с автоматической диагностикой.

⚙️ Архитектура гигантская: в коллекции 86 навыков, 33 субагента, 14+ поддерживаемых сред (Claude Code, OpenCode, Codex, Cursor, Windsurf, Copilot и другие).
Минимально необходимый набор: 6 навыков, 0 субагентов, 700 токенов cold-start вместо 12K.
Порт для OpenCode (rokicool/gsd-opencode) заменяет профили Opus/Sonnet/Haiku на simple|smart|genius и убирает неподдерживаемые task() вызовы.
One-line install: npx get-shit-done-cc@latest.

💼 Зачем бизнесу: Context rot - главная причина, по которой у вайбкодинга плохая репутация. GSD делает воспроизводимым то, что раньше зависело от удачи и размера контекстного окна у модели.
Принцип «состояние в файлах, а не в голове агента» превращает AI-кодинг из ремесла в инженерный процесс с артефактами, верификацией и milestone-based поставкой.

Простой принцип, - "не запоминаешь, - запиши", работает как для людей так и для агентов.

#GSD #ИИ #dev #ClaudeCode #OpenCode #агенты #OpenSource
------
@tsingular
👍14🔥11331
На фоне новостей про бессмертие Сергей Лукьяненко написал интересный пост, с идеей, что мол когда бессмертие станет доступно людям, то

кто в такой ситуации выберет работу в МЧС, службу в армии, любую профессию связанную со смертельным риском, экстремальные виды спорта и т.д. и т.п

Но кажется в этом посте не хватает простого штриха про роботов.

Именно роботы будут делать всю опасную работу за людей, которые откажутся рисковать бессмертием тела.

Как считаете?
Вообще задумывались, что бессмертие уже вот вот через 5-10 лет и станет доступно?

#мысли #Лукьяненко
------
@tsingular
🤔136🗿5🥰2😁1😍1👻1
This media is not supported in your browser
VIEW IN TELEGRAM
В Гермесе добавили навык работы с ComfyUI

Просто обновите Гермеса и навык сам подтянется

https://github.com/NousResearch/hermes-agent/tree/main/skills/creative/comfyui

Произошла инфляция навыков плетения лапши

#Hermes #skills #ComfyUI
------
@tsingular
🔥942211