Сергей Мод | Нейросети и Бизнес
472 subscribers
112 photos
129 videos
165 links
🦄 Изучаю AI для бизнеса, делюсь полезным и тем, что использую сам.
Download Telegram
Это была самая масштабная презентация Google за всю историю.

13 AI-обновлений, которые реально расширяют возможности человека.

Вот что стоит внимания:

1. Gemini Live

Наводишь камеру — и сразу получаешь голосовой отклик от ИИ. Он понимает, что перед ним, реагирует на визуальные детали и работает с твоими задачами, картами и календарём.

2. Imagen 4

Новейшая генеративная модель для изображений. Высокое качество, точная передача текста и мгновенный отклик. Визуальный контент — за секунды.

3. Veo 3

Создаёт видео со звуком, движением и даже диалогами Это была самая масштабная презентация Google за всю историю.

4. Deep Research

Загружаешь любые материалы — Gemini объединяет их с открытыми источниками и возвращает понятный, логичный отчёт. Работа с информацией — на новом уровне.

5. Project Astra

ИИ, который понимает, где ты и что происходит. Умный, контекстный и проактивный ассистент с голосом и зрением.

6. Google Flow

AI-платформа для создания видеоисторий. Пишешь идею — получаешь сценарий, визуал и монтаж. Всё с помощью Imagen, Veo и Gemini.

7. Agent Mode в Gemini

Ты ставишь цель — он делает всё сам: от поиска данных до финального результата. Без ручной рутины.

8. Google Jules

Разработчики теперь не одни. Jules помогает писать код, тестировать, обновлять и чинить. Плюс GitHub и облако — в комплекте.

9. AI Mode в Google Поиске

Превращает поиск в диалог. Не просто ответы — готовые действия: от советов до бронирований.

10. AI-перевод в Google Meet

Перевод речи во время звонка с сохранением голоса и интонации. По-настоящему глобальное общение.

11. Google Beam

Платформа для объёмного видео. Преобразует 2D в 3D, отслеживает движения, создаёт эффект присутствия.

12. Gemma 3n

Open-source AI, который запускается даже на телефоне с 2 ГБ ОЗУ. Поддерживает текст, звук, изображения.

13. Virtual Try-On

Примерка одежды по фото прямо в поиске. Загружаешь снимок — и видишь, как всё сидит.

---

Запись конференции Google I/O 2025
4🤔3🔥2
Автономному агенту Hermes наконец дали нормальный веб-интерфейс. MIT, ~10k звёзд, ноль шага сборки.

Hermes - агент, который живёт на сервере: запоминает контекст, гоняет cron-задачи пока ты спишь, становится умнее со временем.

Проблема была одна - управлять им можно было только из терминала или мессенджера. Что он делает внутри - чёрный ящик.

Hermes WebUI это закрывает.

Трёхпанельный UI: сессии слева, чат по центру, файлы рабочего пространства справа. Всё что было в CLI - теперь в браузере.

Что внутри:
• Стриминг ответов с карточками вызовов инструментов - видишь аргументы и результат каждого вызова
• Сворачиваемые карточки reasoning для Claude extended thinking
• Подтверждение перед опасными shell-командами
• Cron-задачи, память и навыки - редактируешь прямо в браузере
• OpenAI, Anthropic, Google, OpenRouter из коробки

Пишется на Python + ванильный JS. Никакого webpack, никакого npm install.

Простыми словами: взял существующего Hermes-агента, запустил WebUI - и сразу видишь, что агент делает, думает и помнит.


Ищи на GitHub по названию Hermes WebUI - найдёшь за 10 секунд. Если уже щупал Hermes - расскажи в комментах, как используешь 👇
4🔥2👏1
Media is too big
VIEW IN TELEGRAM
Одна фотография - и через 5 минут у тебя готовый 3D-мир с физикой и звуком.

Инструмент называется image-blaster - open-source, работает как навык Claude.

Бросаешь картинку в папку, даёшь команду - и пайплайн сам делает всё:

• 3D-модели каждого объекта на фото
• Фон как статичный сплат для сцены
• Зацикленный эмбиент-звук
• Физически корректные звуковые эффекты

Есть хитрый момент: каждый объект, который промоделировали, стирается с исходника. Остаётся чистый фоновый слой - и сцена получается пригодной для исследования.

Экспорт прямо в Unity, Unreal, Godot или Blender.

То, что раньше занимало у 3D-художника несколько дней - теперь стартует с одной фотографии.


Ищи на GitHub по названию image-blaster. Попробовать можно уже сейчас - проект открытый. 🎮
1👍1🤩1
«Следуй правилам» нарушается агентами в 26.67% случаев. Microsoft решил это иначе.

Microsoft выпустил Agent Governance Toolkit - open-source слой управления агентами на уровне runtime.

Не промпт с инструкциями, а жёсткая проверка каждого вызова инструмента до его выполнения. Результат: 0% нарушений при задержке 0.012ms.

Что внутри:
• Квантово-устойчивые идентификаторы для каждого агента
• Скоринг доверия по шкале до 1000
• 4 уровня привилегий с изоляцией
• Kill switch - мгновенное отключение агента
• Tamper-evident логи для аудита

Работает с LangGraph, CrewAI, AutoGen, Semantic Kernel. Покрывает EU AI Act, SOC 2, HIPAA. В комплекте 992 теста соответствия.

Репозиторий: agent-governance-toolkit

Если строишь агентов для бизнеса - это первый инструмент, где governance не «договорённость с моделью», а архитектурный контракт.
👍3🤔21
Дженсон Хуанг, CEO Nvidia - самой дорогой компании в мире на сегодня - сказал в недавнем интервью:

«Каждый человек в компании скоро будет управлять армией AI-агентов».


Это не фантастика - его прогноз на ближайшие 2-3 года.

Большинство компаний застряли в логике дефицита: мало рук, мало времени, мало бюджета. Десятилетиями это было объективным ограничением. Теперь - просто привычка.

Хуанг говорит про эпоху изобилия вычислений. Я вижу это в своих проектах: ~90% процессов в StaffAI закрыты агентами. Не потому что я гений автоматизации - а потому что однажды перестал спрашивать «хватит ли у нас людей» и начал спрашивать «какой агент это закроет».

Главный барьер - не технический. Компании не внедряют AI не потому что сложно, а потому что буквально не допускают такую постановку вопроса. Привычка нанимать под задачу сидит глубже, чем кажется.

Пока одни согласовывают найм - другие уже задеплоили агента и забыли про эту задачу.

Мышление дефицитом в 2025 году - это не осторожность. Это стратегический выбор отстать.


Полное интервью: Jensen Huang - один из лучших разборов предпринимательского мышления прямо сейчас. Смотреть целиком. 🎯
🔥42👍2
CEO Y Combinator открыл код своего личного «мозга» для AI-агентов. 17 888 страниц, 4 383 человека, 723 компании.

Проблема любого AI-ассистента: он не помнит ничего между сессиями. Каждый раз - чистый лист. Ты объясняешь контекст снова и снова.

GBrain решает это иначе. Ты один раз загружаешь свои контакты, переписку, встречи и идеи - и система строит граф связей: кто с кем знаком, кто куда инвестировал, кто что основал.

Дальше твой AI-агент уже знает твой мир. Не ищет - знает.

Что это даёт на практике:
• Спрашиваешь «кто из моих контактов работает в финтехе?» - агент отвечает сразу
• Готовишься к встрече - агент сам подтягивает всё, что знает о человеке
• Граф обновляется сам, пока ты спишь

Ссылка на репозиторий:
https://github.com/garrytan/gbrain

Работает с Claude, ChatGPT, Cursor и другими агентами. Бесплатно, с открытым кодом.

Разница простая: обычный AI ищет ответ при каждом вопросе. GBrain уже знает его заранее.
🔥21👍1
Мне было 9 лет, когда папа купил маме стиральную машину.

До этого мама стирала руками. Когда её установили и запустили первый раз, я сел рядом и просидел весь цикл стирки - больше часа. Просто смотрел, как барабан крутится сам и поэтапно выполняет работу. Внутри было что-то похожее на восторг. Автоматизация делает реальную работу - без тебя.

Это чувство никуда не ушло за 23 года.

Сегодня я открыл рабочий процесс и увидел: над задачами одного проекта параллельно работают 61 агент. Каждый решает свою микрозадачу в рамках единого роудмапа. Я это не запускал руками - система сама распределила работу.

То же ощущение. Только масштаб другой.

Весь путь от той стиральной машины до агентных систем - это одна и та же идея: ты проектируешь систему один раз, она работает без тебя.

Компании и люди, которые это поняли раньше других, уже живут в другом темпе.
🔥64
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA выпустила открытую видеомодель, которая работает на обычном игровом компьютере.

SANA-WM генерирует 60 секунд 720p-видео примерно за 34 секунды.

Даёшь ей одно изображение, текстовый промпт и траекторию камеры - получаешь полноценную минутную сцену с управлением в 3D-пространстве.

Что важно знать:
• Работает меньше чем на 8 ГБ видеопамяти (с 4-битным сжатием)
36x быстрее предыдущих открытых моделей
• 2.6B параметров - компактно для такого результата
• Управление камерой по 6 осям: панорама, наклон, движение вперёд-назад и т.д.
• Обучена на 213K публичных видео

До сих пор длинное управляемое видео требовало серьёзных серверных мощностей или разваливалось после нескольких секунд.

Теперь это работает на домашнем железе - и код открытый.


Repo: https://github.com/NVlabs/Sana
1🔥1😁1
Локальная студия дубляжа видео - без подписок, без облака, без слитых файлов.

OmniVoice Studio - опенсорс-инструмент, который дублирует видео прямо на твоём компьютере.

Закидываешь MP4, выбираешь язык - получаешь готовое видео с новой озвучкой и нетронутой фоновой музыкой.

Что умеет:
• Распознаёт речь из любого видео автоматически
• Переводит на 600 языков без дополнительных моделей
• Клонирует голос из фрагмента длиной от 3 секунд
• Создаёт новые голоса по тегам: пол, возраст, акцент
• Отделяет голос от музыки и звуков (библиотека demucs) - фон остаётся нетронутым
• Синхронизирует дублированную дорожку обратно в видео

Работает на Mac (Apple Silicon), NVIDIA, AMD и даже на CPU без видеокарты.

Установка - одна команда. Веса моделей скачиваются сами при первом запуске.

Лицензия Apache 2.0 - можно использовать в коммерческих проектах.


Репозиторий: OmniVoice Studio

Полезно для тех, кто адаптирует контент под разные рынки 🎙
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Скорость, которая опережает мысль 🐼

1000 токенов в секунду. Впервые на модели с триллионом параметров.

Xiaomi только что сломали барьер, который еще вчера считали физическим пределом. Обычные видеокарты. Просто инженерия, доведённая до абсурда.

Раньше, когда вы спрашивали нейросеть о чём-то сложном, вы ждали. Секунды, иногда минуты. Модель думала, вы нервно смотрели на thinking...

Теперь представьте: вы задаёте вопрос, а ответ появляется быстрее, чем вы успеваете моргнуть. Не один ответ — десятки вариантов, перебранных и отобранных за то же время.


Парадокс в том, что это работает только на обычных картах. Не на суперкомпьютерах, не на кастомных чипах за миллиоды долларов. На том, что стоит в дата-центрах по всему миру.

Доступ ограничен. С 9 по 23 июня, только для одобренных заявок. Бесплатный чат, но не более 10 входов в день и 30 минут за сессию. Ресурсов не хватает даже на всех желающих.

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤩1
Media is too big
VIEW IN TELEGRAM
Google показал: от идеи до AI-агента в проде - один разговор с текстом, без IDE и терминала.

Gemini теперь ведёт полный цикл разработки агента через текстовые команды. Шесть шагов:

Install - просишь проверить окружение и поставить нужные инструменты. Агент делает сам.
Build - описываешь задачу словами. Агент строит структуру, логику, всё нужное.
Test - локальный сервер поднимается по запросу. Вставляешь тестовые данные, смотришь результат в браузере.
Evaluate - агент прогоняет набор тестов и показывает, где слабые места.
Deploy - одна команда отправляет агента в облако Google.
Register - агент регистрируется внутри организации и становится доступен команде.

В демо построили агента для разбора серверных инцидентов: читает логи, сортирует проблемы по критичности, пишет отчёты. Полный цикл - без единой строчки кода вручную.

Раньше между идеей и деплоем стояло десять инструментов и пара дней работы. Здесь - один инструмент и один разговор.
🔥21
Vercel открыл язык программирования, написанный для AI-агентов, а не для людей.

Называется Zero, лицензия Apache 2.0.

Все существующие языки выдают ошибки в виде текста: стек-трейс, сообщение, цвета в терминале. Человек читает - понимает. Агент читает - угадывает.

Zero сделан иначе. Весь тулчейн (проверка, сборка, тесты, форматирование) выдаёт структурированный JSON со стабильными кодами ошибок и подсказками для исправления. Агент получает машиночитаемые данные, человек - обычное сообщение. Один и тот же CLI, два разных выхода.

Что ещё важно:
• Бинарники весят меньше 10 КиБ - компилируется в нативный код
Возможности I/O прописаны прямо в сигнатуре функции - если функция лезет в сеть или файловую систему, компилятор это видит и проверяет
• Память управляется вручную, никаких скрытых аллокаторов и неявных асинхронных операций

По духу близко к C или Rust - системный язык с явным контролем над всем.

Большинство инструментов адаптируют агентов под существующий стек. Zero строит стек под агентов.
3🔥2
11 000 шагов вечером. Пхукет, свежий морской бриз, наушники - и голова наконец начинает думать нормально.

Во время тренировки поймал себя на старой мысли: хочется быстрого результата. В бизнесе, в продукте, в жизни. Часть меня всегда в это верит - и я не буду делать вид, что нет.

Но реальность, которую вижу снова и снова - у себя и у людей, которые реально чего-то добились - другая.

Насколько основательно выстроен фундамент, настолько легко потом двигаться.


Это работает везде одинаково.

В разработке: если не простроить архитектуру с нуля - потом переписываешь всё. В бизнесе: если не автоматизировать процессы - ты сам становишься узким местом. В жизни: если не выработать ритуалы - каждый день начинаешь с нуля.

Дисциплина - это инфраструктура, которую строишь заранее, чтобы потом не тратить энергию на решение «идти или не идти». Сила воли здесь вообще ни при чём: система либо есть, либо её нет.

Для меня такая инфраструктура - движение. 40-60 минут ходьбы: мозг переключается, мысли укладываются, выходишь в другом состоянии.

Ментальная перезагрузка через тело - один из самых недооценённых активов.

А у тебя есть такой ритуал - то, что держит в рабочем состоянии на длинной дистанции?
5🔥3👍1🤩1
Отправил сообщение в Telegram - агенты сами построили, проверили и закрыли задачу.

Вот как это работает на практике.

Пишешь в Telegram одну задачу. Например: «Сделай CLI-инструмент, который отслеживает упоминания и присылает алерт».

Hermes - агент-диспетчер - принимает задачу и сам решает, кому её отдать. В его пуле несколько AI-агентов: Codex пишет код, Claude Code проверяет и критикует результат. Hermes знает, кто что умеет, и распределяет работу между ними.

Параллельно задача появляется карточкой на Kanban-доске - такой же, как Trello. Агент начал работу - карточка двинулась. Codex сдал результат - Hermes передал его Claude Code на ревью. Claude потребовал правки - Codex доработал. Карточка сама прошла весь путь.

Ты в это время занимался своим делом.

Что важно: Hermes подключается к OpenRouter - это агрегатор, который даёт доступ к сотням моделей через одно подключение. Хочешь добавить в пул Mistral, DeepSeek или любую другую - просто указываешь в настройках. Пул растёт, логика диспетчера не меняется.

Репозиторий: Hermes Agent

Один Telegram-чат как командный пункт. Агенты делают работу - ты видишь результат на доске.
2👍2🔥2👏1
AI-агент, который сам ищет вакансии, пишет резюме и сопроводительное письмо - и ещё один агент его критикует.

Кто-то выложил это бесплатно на GitHub. Построено на Claude Code.

Что умеет:

• Парсит вакансии с нескольких порталов и ставит каждой fit-score - оценку, насколько вакансия подходит именно тебе
• Генерирует адаптированное резюме в LaTeX (профессиональная вёрстка) и сопроводительное письмо под конкретную позицию
• Запускает второго агента - тот критикует черновик, правит и собирает финальный PDF
• Сканирует твой GitHub и находит навыки, которые ты забыл упомянуть в резюме
• Сравнивает твой профиль с целевыми ролями и выдаёт план, что подтянуть

Работает на любом языке и для любой страны.

Репозиторий: github.com

Полезно не только соискателям - посмотри на архитектуру: два агента в связке, где один делает, а второй проверяет. Рабочий паттерн для любого продукта.
2🔥2👍1🤩1
Claude согласится с любой твоей идеей. И с противоположной тоже.

Языковые модели тянутся к тому, что слышат в вопросе. Спросишь «это хорошая идея?» - скажет да. Спросишь «это плохая идея?» - тоже да. Умный подхалим, заточенный на согласие.

Это свойство любого AI-агента, которому ты задаёшь вопрос в лоб. Один агент - одна точка зрения, заточенная под твой запрос.

Фикс: не спрашивай одного агента. Собери совет из пяти.

Каждый советник - отдельный агент со своей ролью. Отвечают независимо, потом рецензируют ответы друг друга. Расхождения между ними - самое ценное место.

Финансовый скептик - считает юнит-экономику, ищет, где модель не сходится, и называет реальный срок окупаемости
Клиентский адвокат - говорит от лица покупателя: почему не купит, что не так с оффером, где возникнет возражение
Операционист - разбирает, как это реально работает изнутри: процессы, узкие места, что сломается на масштабе
Юрист-параноик - ищет риски: договорные, налоговые, репутационные, регуляторные
Конкурентный аналитик - смотрит, кто уже делает похожее, чем отличаешься и почему клиент выберет тебя, а не их

Работает там, где цена ошибки высокая: ценообразование, пивот, оффер, «нанять или автоматизировать». Для простых фактических вопросов - избыточно.

Пять независимых ролей дают то, чего не даст один вопрос к одной модели: настоящее трение.
🔥5👍4
Три AI-модели одновременно в одном рабочем процессе - это уже реально.

Claude Octopus - open-source репозиторий (MIT), который запускает Claude, Gemini и Codex параллельно прямо внутри Claude Code.

Каждая модель делает своё:
Claude - оркестрирует и собирает итог
Codex - пишет архитектуру и реализацию
Gemini - исследует экосистему и проверяет безопасность

Умный роутер сам разбирает задачу и выбирает нужный сценарий. Одна команда - три модели в работе.

Репозиторий: Claude Octopus

Три специализированных модели вместо одной универсальной - это уже другой уровень качества на выходе.
5👍3🔥2
Anthropic раздаёт бесплатно то, за что люди платят десятки тысяч рублей на курсах.

Я давно в AI-автоматизации и большую часть того, что знаю про Claude, взял из официальных ресурсов Anthropic. О которых почти никто не говорит.

Три штуки, которые стоит открыть прямо сейчас:

Anthropic Academy - официальные курсы по работе с Claude и промпт-инжинирингу (умению писать точные инструкции для AI). Прямо от команды, которая его создала.

Official Skills GitHub - живой репозиторий с реальными примерами. 115 открытых задач, 412 pull request-ов - активно обновляется.

Claude Code Subagents Catalog - каталог готовых агентов (мини-программ, которые выполняют задачи автономно). Бери и используй.

Anthropoc просто не занимается маркетингом этих ресурсов. Они лежат в открытом доступе с самого начала.

Лучший источник знаний о Claude - команда, которая его строит.
🔥51