Сергей Мод | Нейросети и Бизнес
472 subscribers
112 photos
129 videos
165 links
🦄 Изучаю AI для бизнеса, делюсь полезным и тем, что использую сам.
Download Telegram
«Следуй правилам» нарушается агентами в 26.67% случаев. Microsoft решил это иначе.

Microsoft выпустил Agent Governance Toolkit - open-source слой управления агентами на уровне runtime.

Не промпт с инструкциями, а жёсткая проверка каждого вызова инструмента до его выполнения. Результат: 0% нарушений при задержке 0.012ms.

Что внутри:
• Квантово-устойчивые идентификаторы для каждого агента
• Скоринг доверия по шкале до 1000
• 4 уровня привилегий с изоляцией
• Kill switch - мгновенное отключение агента
• Tamper-evident логи для аудита

Работает с LangGraph, CrewAI, AutoGen, Semantic Kernel. Покрывает EU AI Act, SOC 2, HIPAA. В комплекте 992 теста соответствия.

Репозиторий: agent-governance-toolkit

Если строишь агентов для бизнеса - это первый инструмент, где governance не «договорённость с моделью», а архитектурный контракт.
👍3🤔21
Дженсон Хуанг, CEO Nvidia - самой дорогой компании в мире на сегодня - сказал в недавнем интервью:

«Каждый человек в компании скоро будет управлять армией AI-агентов».


Это не фантастика - его прогноз на ближайшие 2-3 года.

Большинство компаний застряли в логике дефицита: мало рук, мало времени, мало бюджета. Десятилетиями это было объективным ограничением. Теперь - просто привычка.

Хуанг говорит про эпоху изобилия вычислений. Я вижу это в своих проектах: ~90% процессов в StaffAI закрыты агентами. Не потому что я гений автоматизации - а потому что однажды перестал спрашивать «хватит ли у нас людей» и начал спрашивать «какой агент это закроет».

Главный барьер - не технический. Компании не внедряют AI не потому что сложно, а потому что буквально не допускают такую постановку вопроса. Привычка нанимать под задачу сидит глубже, чем кажется.

Пока одни согласовывают найм - другие уже задеплоили агента и забыли про эту задачу.

Мышление дефицитом в 2025 году - это не осторожность. Это стратегический выбор отстать.


Полное интервью: Jensen Huang - один из лучших разборов предпринимательского мышления прямо сейчас. Смотреть целиком. 🎯
🔥42👍2
CEO Y Combinator открыл код своего личного «мозга» для AI-агентов. 17 888 страниц, 4 383 человека, 723 компании.

Проблема любого AI-ассистента: он не помнит ничего между сессиями. Каждый раз - чистый лист. Ты объясняешь контекст снова и снова.

GBrain решает это иначе. Ты один раз загружаешь свои контакты, переписку, встречи и идеи - и система строит граф связей: кто с кем знаком, кто куда инвестировал, кто что основал.

Дальше твой AI-агент уже знает твой мир. Не ищет - знает.

Что это даёт на практике:
• Спрашиваешь «кто из моих контактов работает в финтехе?» - агент отвечает сразу
• Готовишься к встрече - агент сам подтягивает всё, что знает о человеке
• Граф обновляется сам, пока ты спишь

Ссылка на репозиторий:
https://github.com/garrytan/gbrain

Работает с Claude, ChatGPT, Cursor и другими агентами. Бесплатно, с открытым кодом.

Разница простая: обычный AI ищет ответ при каждом вопросе. GBrain уже знает его заранее.
🔥21👍1
Мне было 9 лет, когда папа купил маме стиральную машину.

До этого мама стирала руками. Когда её установили и запустили первый раз, я сел рядом и просидел весь цикл стирки - больше часа. Просто смотрел, как барабан крутится сам и поэтапно выполняет работу. Внутри было что-то похожее на восторг. Автоматизация делает реальную работу - без тебя.

Это чувство никуда не ушло за 23 года.

Сегодня я открыл рабочий процесс и увидел: над задачами одного проекта параллельно работают 61 агент. Каждый решает свою микрозадачу в рамках единого роудмапа. Я это не запускал руками - система сама распределила работу.

То же ощущение. Только масштаб другой.

Весь путь от той стиральной машины до агентных систем - это одна и та же идея: ты проектируешь систему один раз, она работает без тебя.

Компании и люди, которые это поняли раньше других, уже живут в другом темпе.
🔥64
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA выпустила открытую видеомодель, которая работает на обычном игровом компьютере.

SANA-WM генерирует 60 секунд 720p-видео примерно за 34 секунды.

Даёшь ей одно изображение, текстовый промпт и траекторию камеры - получаешь полноценную минутную сцену с управлением в 3D-пространстве.

Что важно знать:
• Работает меньше чем на 8 ГБ видеопамяти (с 4-битным сжатием)
36x быстрее предыдущих открытых моделей
• 2.6B параметров - компактно для такого результата
• Управление камерой по 6 осям: панорама, наклон, движение вперёд-назад и т.д.
• Обучена на 213K публичных видео

До сих пор длинное управляемое видео требовало серьёзных серверных мощностей или разваливалось после нескольких секунд.

Теперь это работает на домашнем железе - и код открытый.


Repo: https://github.com/NVlabs/Sana
1🔥1😁1
Локальная студия дубляжа видео - без подписок, без облака, без слитых файлов.

OmniVoice Studio - опенсорс-инструмент, который дублирует видео прямо на твоём компьютере.

Закидываешь MP4, выбираешь язык - получаешь готовое видео с новой озвучкой и нетронутой фоновой музыкой.

Что умеет:
• Распознаёт речь из любого видео автоматически
• Переводит на 600 языков без дополнительных моделей
• Клонирует голос из фрагмента длиной от 3 секунд
• Создаёт новые голоса по тегам: пол, возраст, акцент
• Отделяет голос от музыки и звуков (библиотека demucs) - фон остаётся нетронутым
• Синхронизирует дублированную дорожку обратно в видео

Работает на Mac (Apple Silicon), NVIDIA, AMD и даже на CPU без видеокарты.

Установка - одна команда. Веса моделей скачиваются сами при первом запуске.

Лицензия Apache 2.0 - можно использовать в коммерческих проектах.


Репозиторий: OmniVoice Studio

Полезно для тех, кто адаптирует контент под разные рынки 🎙
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Скорость, которая опережает мысль 🐼

1000 токенов в секунду. Впервые на модели с триллионом параметров.

Xiaomi только что сломали барьер, который еще вчера считали физическим пределом. Обычные видеокарты. Просто инженерия, доведённая до абсурда.

Раньше, когда вы спрашивали нейросеть о чём-то сложном, вы ждали. Секунды, иногда минуты. Модель думала, вы нервно смотрели на thinking...

Теперь представьте: вы задаёте вопрос, а ответ появляется быстрее, чем вы успеваете моргнуть. Не один ответ — десятки вариантов, перебранных и отобранных за то же время.


Парадокс в том, что это работает только на обычных картах. Не на суперкомпьютерах, не на кастомных чипах за миллиоды долларов. На том, что стоит в дата-центрах по всему миру.

Доступ ограничен. С 9 по 23 июня, только для одобренных заявок. Бесплатный чат, но не более 10 входов в день и 30 минут за сессию. Ресурсов не хватает даже на всех желающих.

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤩1
Media is too big
VIEW IN TELEGRAM
Google показал: от идеи до AI-агента в проде - один разговор с текстом, без IDE и терминала.

Gemini теперь ведёт полный цикл разработки агента через текстовые команды. Шесть шагов:

Install - просишь проверить окружение и поставить нужные инструменты. Агент делает сам.
Build - описываешь задачу словами. Агент строит структуру, логику, всё нужное.
Test - локальный сервер поднимается по запросу. Вставляешь тестовые данные, смотришь результат в браузере.
Evaluate - агент прогоняет набор тестов и показывает, где слабые места.
Deploy - одна команда отправляет агента в облако Google.
Register - агент регистрируется внутри организации и становится доступен команде.

В демо построили агента для разбора серверных инцидентов: читает логи, сортирует проблемы по критичности, пишет отчёты. Полный цикл - без единой строчки кода вручную.

Раньше между идеей и деплоем стояло десять инструментов и пара дней работы. Здесь - один инструмент и один разговор.
🔥21
Vercel открыл язык программирования, написанный для AI-агентов, а не для людей.

Называется Zero, лицензия Apache 2.0.

Все существующие языки выдают ошибки в виде текста: стек-трейс, сообщение, цвета в терминале. Человек читает - понимает. Агент читает - угадывает.

Zero сделан иначе. Весь тулчейн (проверка, сборка, тесты, форматирование) выдаёт структурированный JSON со стабильными кодами ошибок и подсказками для исправления. Агент получает машиночитаемые данные, человек - обычное сообщение. Один и тот же CLI, два разных выхода.

Что ещё важно:
• Бинарники весят меньше 10 КиБ - компилируется в нативный код
Возможности I/O прописаны прямо в сигнатуре функции - если функция лезет в сеть или файловую систему, компилятор это видит и проверяет
• Память управляется вручную, никаких скрытых аллокаторов и неявных асинхронных операций

По духу близко к C или Rust - системный язык с явным контролем над всем.

Большинство инструментов адаптируют агентов под существующий стек. Zero строит стек под агентов.
3🔥2
11 000 шагов вечером. Пхукет, свежий морской бриз, наушники - и голова наконец начинает думать нормально.

Во время тренировки поймал себя на старой мысли: хочется быстрого результата. В бизнесе, в продукте, в жизни. Часть меня всегда в это верит - и я не буду делать вид, что нет.

Но реальность, которую вижу снова и снова - у себя и у людей, которые реально чего-то добились - другая.

Насколько основательно выстроен фундамент, настолько легко потом двигаться.


Это работает везде одинаково.

В разработке: если не простроить архитектуру с нуля - потом переписываешь всё. В бизнесе: если не автоматизировать процессы - ты сам становишься узким местом. В жизни: если не выработать ритуалы - каждый день начинаешь с нуля.

Дисциплина - это инфраструктура, которую строишь заранее, чтобы потом не тратить энергию на решение «идти или не идти». Сила воли здесь вообще ни при чём: система либо есть, либо её нет.

Для меня такая инфраструктура - движение. 40-60 минут ходьбы: мозг переключается, мысли укладываются, выходишь в другом состоянии.

Ментальная перезагрузка через тело - один из самых недооценённых активов.

А у тебя есть такой ритуал - то, что держит в рабочем состоянии на длинной дистанции?
5🔥3👍1🤩1
Отправил сообщение в Telegram - агенты сами построили, проверили и закрыли задачу.

Вот как это работает на практике.

Пишешь в Telegram одну задачу. Например: «Сделай CLI-инструмент, который отслеживает упоминания и присылает алерт».

Hermes - агент-диспетчер - принимает задачу и сам решает, кому её отдать. В его пуле несколько AI-агентов: Codex пишет код, Claude Code проверяет и критикует результат. Hermes знает, кто что умеет, и распределяет работу между ними.

Параллельно задача появляется карточкой на Kanban-доске - такой же, как Trello. Агент начал работу - карточка двинулась. Codex сдал результат - Hermes передал его Claude Code на ревью. Claude потребовал правки - Codex доработал. Карточка сама прошла весь путь.

Ты в это время занимался своим делом.

Что важно: Hermes подключается к OpenRouter - это агрегатор, который даёт доступ к сотням моделей через одно подключение. Хочешь добавить в пул Mistral, DeepSeek или любую другую - просто указываешь в настройках. Пул растёт, логика диспетчера не меняется.

Репозиторий: Hermes Agent

Один Telegram-чат как командный пункт. Агенты делают работу - ты видишь результат на доске.
2👍2🔥2👏1
AI-агент, который сам ищет вакансии, пишет резюме и сопроводительное письмо - и ещё один агент его критикует.

Кто-то выложил это бесплатно на GitHub. Построено на Claude Code.

Что умеет:

• Парсит вакансии с нескольких порталов и ставит каждой fit-score - оценку, насколько вакансия подходит именно тебе
• Генерирует адаптированное резюме в LaTeX (профессиональная вёрстка) и сопроводительное письмо под конкретную позицию
• Запускает второго агента - тот критикует черновик, правит и собирает финальный PDF
• Сканирует твой GitHub и находит навыки, которые ты забыл упомянуть в резюме
• Сравнивает твой профиль с целевыми ролями и выдаёт план, что подтянуть

Работает на любом языке и для любой страны.

Репозиторий: github.com

Полезно не только соискателям - посмотри на архитектуру: два агента в связке, где один делает, а второй проверяет. Рабочий паттерн для любого продукта.
2🔥2👍1🤩1
Claude согласится с любой твоей идеей. И с противоположной тоже.

Языковые модели тянутся к тому, что слышат в вопросе. Спросишь «это хорошая идея?» - скажет да. Спросишь «это плохая идея?» - тоже да. Умный подхалим, заточенный на согласие.

Это свойство любого AI-агента, которому ты задаёшь вопрос в лоб. Один агент - одна точка зрения, заточенная под твой запрос.

Фикс: не спрашивай одного агента. Собери совет из пяти.

Каждый советник - отдельный агент со своей ролью. Отвечают независимо, потом рецензируют ответы друг друга. Расхождения между ними - самое ценное место.

Финансовый скептик - считает юнит-экономику, ищет, где модель не сходится, и называет реальный срок окупаемости
Клиентский адвокат - говорит от лица покупателя: почему не купит, что не так с оффером, где возникнет возражение
Операционист - разбирает, как это реально работает изнутри: процессы, узкие места, что сломается на масштабе
Юрист-параноик - ищет риски: договорные, налоговые, репутационные, регуляторные
Конкурентный аналитик - смотрит, кто уже делает похожее, чем отличаешься и почему клиент выберет тебя, а не их

Работает там, где цена ошибки высокая: ценообразование, пивот, оффер, «нанять или автоматизировать». Для простых фактических вопросов - избыточно.

Пять независимых ролей дают то, чего не даст один вопрос к одной модели: настоящее трение.
🔥5👍4
Три AI-модели одновременно в одном рабочем процессе - это уже реально.

Claude Octopus - open-source репозиторий (MIT), который запускает Claude, Gemini и Codex параллельно прямо внутри Claude Code.

Каждая модель делает своё:
Claude - оркестрирует и собирает итог
Codex - пишет архитектуру и реализацию
Gemini - исследует экосистему и проверяет безопасность

Умный роутер сам разбирает задачу и выбирает нужный сценарий. Одна команда - три модели в работе.

Репозиторий: Claude Octopus

Три специализированных модели вместо одной универсальной - это уже другой уровень качества на выходе.
5👍3🔥2
Anthropic раздаёт бесплатно то, за что люди платят десятки тысяч рублей на курсах.

Я давно в AI-автоматизации и большую часть того, что знаю про Claude, взял из официальных ресурсов Anthropic. О которых почти никто не говорит.

Три штуки, которые стоит открыть прямо сейчас:

Anthropic Academy - официальные курсы по работе с Claude и промпт-инжинирингу (умению писать точные инструкции для AI). Прямо от команды, которая его создала.

Official Skills GitHub - живой репозиторий с реальными примерами. 115 открытых задач, 412 pull request-ов - активно обновляется.

Claude Code Subagents Catalog - каталог готовых агентов (мини-программ, которые выполняют задачи автономно). Бери и используй.

Anthropoc просто не занимается маркетингом этих ресурсов. Они лежат в открытом доступе с самого начала.

Лучший источник знаний о Claude - команда, которая его строит.
🔥51
84% людей на планете ни разу не открывали ни один AI-инструмент.

Каждая точка на графике - ~3,2 млн человек.

84% - никогда не трогали ни один AI-инструмент (~6,8 млрд)
16% - попробовали бесплатные чат-боты (~1,3 млрд)
0,3% - платят $20/мес за подписку (~15-25 млн)
0,04% - используют AI для написания кода (~2-5 млн)

Большинство людей не знают, что такое Claude. Или ChatGPT. Вообще.

Мы живём в пузыре: лента забита AI-новостями, все «уже используют», тема кажется перегретой. Но вокруг тебя собрались те самые 0,3%.

Adoption-кривая технологий только начинается. Интернет в 1995 году тоже казался нишевой игрушкой для гиков.


Начать строить свой бизнес в AI сейчас - может быть самым выгодным решением в твоей жизни.
2🔥2
Google выпустил инструмент, который убивает страх перед чужим кодом.

CodeWiki берёт любой GitHub-репозиторий и превращает его в читаемую интерактивную документацию. Без ручного труда.

Вставляешь ссылку на репо - и получаешь:

• Диаграммы архитектуры проекта
• Объяснение каждого модуля простым языком
• Карту зависимостей - что с чем связано
• Пошаговые туториалы, сгенерированные из кода
• Чат-бота, который понимает весь проект целиком

Отличие от других AI-инструментов для кода: большинство пересказывают файлы по одному. CodeWiki строит навигируемую вики из всего репозитория сразу.

Особенно полезно, когда заходишь в чужой проект и не понимаешь, с чего начать - или когда нужно быстро разобраться в open-source библиотеке.


Попробовать: codewiki.google
🔥1
14 AI-агентов, которые сами выбирают идею, пишут код, деплоят и ведут маркетинг. Без людей.

Кто-то собрал на GitHub автономную компанию из 14 агентов на базе Claude Code - и выложил в открытый доступ.

Внутри полноценная команда:
• CEO - стратегия и приоритеты
• CTO - архитектурные решения
• Инженер - пишет и шипит код
• Маркетолог - продвижение
• ещё 10 специализированных агентов

Как это работает: у всех агентов один общий markdown-файл вместо памяти. Каждый цикл - читает его, делает свою работу, записывает результат. Следующий агент подхватывает. И так по кругу, 24/7.

Что важно для тех, кто боится отдавать агентам права:
Guardrails (защитные ограничения) зашиты в код жёстко - нельзя удалить репозиторий, нельзя сделать force push в main, нельзя слить credentials наружу.

Репозиторий: autonomous-ai-company

Один markdown-файл как общая память - простое решение, которое часто недооценивают. Агенты не теряют контекст между циклами, и это решает половину проблем автономных систем.
5
This media is not supported in your browser
VIEW IN TELEGRAM
Fable 5 от Claude работает в другом измерении.

Кто-то провёл один и тот же тест анимации на четырёх моделях:

• Claude Opus 4.8
• Gemini 3.1 Pro
• GPT 5.5
• Claude Fable 5

Один и тот же промпт.Одна и та же сцена.

3D-симуляция жидкости с объёмным освещением и сложной физикой.

Первые три модели выдали что-то узнаваемое.

Fable 5 создала результат, созданный на совершенно новом уровне: физика, геометрия, расчеты и код. Смотрите сами.
4
This media is not supported in your browser
VIEW IN TELEGRAM
Один видеофайл - и ты меняешь ракурс камеры, как будто снимал с трёх точек одновременно.

Reshoot Anything - исследовательский фреймворк, который берёт обычное видео (одна камера, один угол) и генерирует из него новые ракурсы и движения камеры.

Без парных съёмок с нескольких точек. Без специальных данных для обучения. Модель учится на обычных видео из интернета - и понимает сцену в 4D: пространство + время.

Что умеет на практике:
• Новый ракурс из одного исходного видео
• Длинные последовательности без рассыпающейся картинки
• Временная согласованность - объекты не «прыгают» между кадрами

Пока это академическая работа, не готовый продакшн-инструмент.


Но направление очевидное: видеоконтент, который сегодня требует многокамерной съёмки, завтра будет генерироваться из одного дубля.

🔗 Сайт · Статья · GitHub
4