Сергей Мод | Нейросети и Бизнес
472 subscribers
112 photos
129 videos
165 links
🦄 Изучаю AI для бизнеса, делюсь полезным и тем, что использую сам.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 Adaptive — ИИ-платформа нового поколения для сборки веб-приложений

Вышла мощная нейросеть Adaptive, с которой уже создают полноценные аналоги ChatGPT и других топовых сервисов.

Система позволяет внедрять AI-функционал, подключать оплату и регистрацию пользователей — и всё это без необходимости подключать сторонние API-ключи.

Можно протестировать прямо сейчас — бесплатно доступна сборка до 10 приложений.
This media is not supported in your browser
VIEW IN TELEGRAM
❗️Теперь дипломы и курсовые с помощью ChatGPT нужно писать особенно осторожно.

Свежие модели от OpenAI начали незаметно встраивать в текст скрытые маркеры (например, символы вроде <0xa0> в формате Unicode). В Word или PDF такие метки не отображаются — чтобы их обнаружить и удалить, придется открывать файл в редакторах вроде VS Code или Notepad++.

Не забудь проверить всё перед сдачей — лишние символы могут выдать тебя.
This media is not supported in your browser
VIEW IN TELEGRAM
Яндекс Браузер внедрил перевод с оригинальной передачей голоса!

Теперь при переводе с английского на русский нейросеть не просто меняет слова, а сохраняет интонации спикера. Манеру речи буквально переносят вместе с текстом!

Для этого алгоритм обучили на гигантской базе аудиозаписей — чтобы точно распознавать особенности голоса и находить им соответствия на русском. А технология на основе YandexGPT делает перевод живым и естественным.


Представьте: вы включаете видео с Скарлетт Йоханссон — и она говорит на русском, сохраняя свой узнаваемый тембр и интонации. Будущее уже здесь.
🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Появился новый AI-инструмент для видеомонтажа — Lens

Свежий видеоредактор на базе нейросетей — Lens — уже доступен для тестирования. Этот сервис умеет собирать ролики почти без участия человека, используя алгоритмы моушн-дизайна.

ИИ автоматически вырезает лишнее, добавляет плавные переходы, титры, субтитры и делает базовую цветокоррекцию. Всё — за считаные минуты.

Протестировать возможности редактора можно по ссылке.
🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Lockedin — секретное оружие для прохождения собеседований с помощью ИИ

Это мощный инструмент на базе нейросетей, который в реальном времени анализирует речь интервьюера, понимает, что происходит на экране, и подсказывает, как отвечать. Главное — он невидим даже при демонстрации экрана!

Даже если вас попросят расшарить весь десктоп, вы спокойно продолжите использовать помощника — его просто не заметят.

И да, установить можно бесплатно. Ссылка здесь.
3
Это была самая масштабная презентация Google за всю историю.

13 AI-обновлений, которые реально расширяют возможности человека.

Вот что стоит внимания:

1. Gemini Live

Наводишь камеру — и сразу получаешь голосовой отклик от ИИ. Он понимает, что перед ним, реагирует на визуальные детали и работает с твоими задачами, картами и календарём.

2. Imagen 4

Новейшая генеративная модель для изображений. Высокое качество, точная передача текста и мгновенный отклик. Визуальный контент — за секунды.

3. Veo 3

Создаёт видео со звуком, движением и даже диалогами Это была самая масштабная презентация Google за всю историю.

4. Deep Research

Загружаешь любые материалы — Gemini объединяет их с открытыми источниками и возвращает понятный, логичный отчёт. Работа с информацией — на новом уровне.

5. Project Astra

ИИ, который понимает, где ты и что происходит. Умный, контекстный и проактивный ассистент с голосом и зрением.

6. Google Flow

AI-платформа для создания видеоисторий. Пишешь идею — получаешь сценарий, визуал и монтаж. Всё с помощью Imagen, Veo и Gemini.

7. Agent Mode в Gemini

Ты ставишь цель — он делает всё сам: от поиска данных до финального результата. Без ручной рутины.

8. Google Jules

Разработчики теперь не одни. Jules помогает писать код, тестировать, обновлять и чинить. Плюс GitHub и облако — в комплекте.

9. AI Mode в Google Поиске

Превращает поиск в диалог. Не просто ответы — готовые действия: от советов до бронирований.

10. AI-перевод в Google Meet

Перевод речи во время звонка с сохранением голоса и интонации. По-настоящему глобальное общение.

11. Google Beam

Платформа для объёмного видео. Преобразует 2D в 3D, отслеживает движения, создаёт эффект присутствия.

12. Gemma 3n

Open-source AI, который запускается даже на телефоне с 2 ГБ ОЗУ. Поддерживает текст, звук, изображения.

13. Virtual Try-On

Примерка одежды по фото прямо в поиске. Загружаешь снимок — и видишь, как всё сидит.

---

Запись конференции Google I/O 2025
4🤔3🔥2
Автономному агенту Hermes наконец дали нормальный веб-интерфейс. MIT, ~10k звёзд, ноль шага сборки.

Hermes - агент, который живёт на сервере: запоминает контекст, гоняет cron-задачи пока ты спишь, становится умнее со временем.

Проблема была одна - управлять им можно было только из терминала или мессенджера. Что он делает внутри - чёрный ящик.

Hermes WebUI это закрывает.

Трёхпанельный UI: сессии слева, чат по центру, файлы рабочего пространства справа. Всё что было в CLI - теперь в браузере.

Что внутри:
• Стриминг ответов с карточками вызовов инструментов - видишь аргументы и результат каждого вызова
• Сворачиваемые карточки reasoning для Claude extended thinking
• Подтверждение перед опасными shell-командами
• Cron-задачи, память и навыки - редактируешь прямо в браузере
• OpenAI, Anthropic, Google, OpenRouter из коробки

Пишется на Python + ванильный JS. Никакого webpack, никакого npm install.

Простыми словами: взял существующего Hermes-агента, запустил WebUI - и сразу видишь, что агент делает, думает и помнит.


Ищи на GitHub по названию Hermes WebUI - найдёшь за 10 секунд. Если уже щупал Hermes - расскажи в комментах, как используешь 👇
4🔥2👏1
Media is too big
VIEW IN TELEGRAM
Одна фотография - и через 5 минут у тебя готовый 3D-мир с физикой и звуком.

Инструмент называется image-blaster - open-source, работает как навык Claude.

Бросаешь картинку в папку, даёшь команду - и пайплайн сам делает всё:

• 3D-модели каждого объекта на фото
• Фон как статичный сплат для сцены
• Зацикленный эмбиент-звук
• Физически корректные звуковые эффекты

Есть хитрый момент: каждый объект, который промоделировали, стирается с исходника. Остаётся чистый фоновый слой - и сцена получается пригодной для исследования.

Экспорт прямо в Unity, Unreal, Godot или Blender.

То, что раньше занимало у 3D-художника несколько дней - теперь стартует с одной фотографии.


Ищи на GitHub по названию image-blaster. Попробовать можно уже сейчас - проект открытый. 🎮
1👍1🤩1
«Следуй правилам» нарушается агентами в 26.67% случаев. Microsoft решил это иначе.

Microsoft выпустил Agent Governance Toolkit - open-source слой управления агентами на уровне runtime.

Не промпт с инструкциями, а жёсткая проверка каждого вызова инструмента до его выполнения. Результат: 0% нарушений при задержке 0.012ms.

Что внутри:
• Квантово-устойчивые идентификаторы для каждого агента
• Скоринг доверия по шкале до 1000
• 4 уровня привилегий с изоляцией
• Kill switch - мгновенное отключение агента
• Tamper-evident логи для аудита

Работает с LangGraph, CrewAI, AutoGen, Semantic Kernel. Покрывает EU AI Act, SOC 2, HIPAA. В комплекте 992 теста соответствия.

Репозиторий: agent-governance-toolkit

Если строишь агентов для бизнеса - это первый инструмент, где governance не «договорённость с моделью», а архитектурный контракт.
👍3🤔21
Дженсон Хуанг, CEO Nvidia - самой дорогой компании в мире на сегодня - сказал в недавнем интервью:

«Каждый человек в компании скоро будет управлять армией AI-агентов».


Это не фантастика - его прогноз на ближайшие 2-3 года.

Большинство компаний застряли в логике дефицита: мало рук, мало времени, мало бюджета. Десятилетиями это было объективным ограничением. Теперь - просто привычка.

Хуанг говорит про эпоху изобилия вычислений. Я вижу это в своих проектах: ~90% процессов в StaffAI закрыты агентами. Не потому что я гений автоматизации - а потому что однажды перестал спрашивать «хватит ли у нас людей» и начал спрашивать «какой агент это закроет».

Главный барьер - не технический. Компании не внедряют AI не потому что сложно, а потому что буквально не допускают такую постановку вопроса. Привычка нанимать под задачу сидит глубже, чем кажется.

Пока одни согласовывают найм - другие уже задеплоили агента и забыли про эту задачу.

Мышление дефицитом в 2025 году - это не осторожность. Это стратегический выбор отстать.


Полное интервью: Jensen Huang - один из лучших разборов предпринимательского мышления прямо сейчас. Смотреть целиком. 🎯
🔥42👍2
CEO Y Combinator открыл код своего личного «мозга» для AI-агентов. 17 888 страниц, 4 383 человека, 723 компании.

Проблема любого AI-ассистента: он не помнит ничего между сессиями. Каждый раз - чистый лист. Ты объясняешь контекст снова и снова.

GBrain решает это иначе. Ты один раз загружаешь свои контакты, переписку, встречи и идеи - и система строит граф связей: кто с кем знаком, кто куда инвестировал, кто что основал.

Дальше твой AI-агент уже знает твой мир. Не ищет - знает.

Что это даёт на практике:
• Спрашиваешь «кто из моих контактов работает в финтехе?» - агент отвечает сразу
• Готовишься к встрече - агент сам подтягивает всё, что знает о человеке
• Граф обновляется сам, пока ты спишь

Ссылка на репозиторий:
https://github.com/garrytan/gbrain

Работает с Claude, ChatGPT, Cursor и другими агентами. Бесплатно, с открытым кодом.

Разница простая: обычный AI ищет ответ при каждом вопросе. GBrain уже знает его заранее.
🔥21👍1
Мне было 9 лет, когда папа купил маме стиральную машину.

До этого мама стирала руками. Когда её установили и запустили первый раз, я сел рядом и просидел весь цикл стирки - больше часа. Просто смотрел, как барабан крутится сам и поэтапно выполняет работу. Внутри было что-то похожее на восторг. Автоматизация делает реальную работу - без тебя.

Это чувство никуда не ушло за 23 года.

Сегодня я открыл рабочий процесс и увидел: над задачами одного проекта параллельно работают 61 агент. Каждый решает свою микрозадачу в рамках единого роудмапа. Я это не запускал руками - система сама распределила работу.

То же ощущение. Только масштаб другой.

Весь путь от той стиральной машины до агентных систем - это одна и та же идея: ты проектируешь систему один раз, она работает без тебя.

Компании и люди, которые это поняли раньше других, уже живут в другом темпе.
🔥64
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA выпустила открытую видеомодель, которая работает на обычном игровом компьютере.

SANA-WM генерирует 60 секунд 720p-видео примерно за 34 секунды.

Даёшь ей одно изображение, текстовый промпт и траекторию камеры - получаешь полноценную минутную сцену с управлением в 3D-пространстве.

Что важно знать:
• Работает меньше чем на 8 ГБ видеопамяти (с 4-битным сжатием)
36x быстрее предыдущих открытых моделей
• 2.6B параметров - компактно для такого результата
• Управление камерой по 6 осям: панорама, наклон, движение вперёд-назад и т.д.
• Обучена на 213K публичных видео

До сих пор длинное управляемое видео требовало серьёзных серверных мощностей или разваливалось после нескольких секунд.

Теперь это работает на домашнем железе - и код открытый.


Repo: https://github.com/NVlabs/Sana
1🔥1😁1
Локальная студия дубляжа видео - без подписок, без облака, без слитых файлов.

OmniVoice Studio - опенсорс-инструмент, который дублирует видео прямо на твоём компьютере.

Закидываешь MP4, выбираешь язык - получаешь готовое видео с новой озвучкой и нетронутой фоновой музыкой.

Что умеет:
• Распознаёт речь из любого видео автоматически
• Переводит на 600 языков без дополнительных моделей
• Клонирует голос из фрагмента длиной от 3 секунд
• Создаёт новые голоса по тегам: пол, возраст, акцент
• Отделяет голос от музыки и звуков (библиотека demucs) - фон остаётся нетронутым
• Синхронизирует дублированную дорожку обратно в видео

Работает на Mac (Apple Silicon), NVIDIA, AMD и даже на CPU без видеокарты.

Установка - одна команда. Веса моделей скачиваются сами при первом запуске.

Лицензия Apache 2.0 - можно использовать в коммерческих проектах.


Репозиторий: OmniVoice Studio

Полезно для тех, кто адаптирует контент под разные рынки 🎙
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Скорость, которая опережает мысль 🐼

1000 токенов в секунду. Впервые на модели с триллионом параметров.

Xiaomi только что сломали барьер, который еще вчера считали физическим пределом. Обычные видеокарты. Просто инженерия, доведённая до абсурда.

Раньше, когда вы спрашивали нейросеть о чём-то сложном, вы ждали. Секунды, иногда минуты. Модель думала, вы нервно смотрели на thinking...

Теперь представьте: вы задаёте вопрос, а ответ появляется быстрее, чем вы успеваете моргнуть. Не один ответ — десятки вариантов, перебранных и отобранных за то же время.


Парадокс в том, что это работает только на обычных картах. Не на суперкомпьютерах, не на кастомных чипах за миллиоды долларов. На том, что стоит в дата-центрах по всему миру.

Доступ ограничен. С 9 по 23 июня, только для одобренных заявок. Бесплатный чат, но не более 10 входов в день и 30 минут за сессию. Ресурсов не хватает даже на всех желающих.

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤩1
Media is too big
VIEW IN TELEGRAM
Google показал: от идеи до AI-агента в проде - один разговор с текстом, без IDE и терминала.

Gemini теперь ведёт полный цикл разработки агента через текстовые команды. Шесть шагов:

Install - просишь проверить окружение и поставить нужные инструменты. Агент делает сам.
Build - описываешь задачу словами. Агент строит структуру, логику, всё нужное.
Test - локальный сервер поднимается по запросу. Вставляешь тестовые данные, смотришь результат в браузере.
Evaluate - агент прогоняет набор тестов и показывает, где слабые места.
Deploy - одна команда отправляет агента в облако Google.
Register - агент регистрируется внутри организации и становится доступен команде.

В демо построили агента для разбора серверных инцидентов: читает логи, сортирует проблемы по критичности, пишет отчёты. Полный цикл - без единой строчки кода вручную.

Раньше между идеей и деплоем стояло десять инструментов и пара дней работы. Здесь - один инструмент и один разговор.
🔥21
Vercel открыл язык программирования, написанный для AI-агентов, а не для людей.

Называется Zero, лицензия Apache 2.0.

Все существующие языки выдают ошибки в виде текста: стек-трейс, сообщение, цвета в терминале. Человек читает - понимает. Агент читает - угадывает.

Zero сделан иначе. Весь тулчейн (проверка, сборка, тесты, форматирование) выдаёт структурированный JSON со стабильными кодами ошибок и подсказками для исправления. Агент получает машиночитаемые данные, человек - обычное сообщение. Один и тот же CLI, два разных выхода.

Что ещё важно:
• Бинарники весят меньше 10 КиБ - компилируется в нативный код
Возможности I/O прописаны прямо в сигнатуре функции - если функция лезет в сеть или файловую систему, компилятор это видит и проверяет
• Память управляется вручную, никаких скрытых аллокаторов и неявных асинхронных операций

По духу близко к C или Rust - системный язык с явным контролем над всем.

Большинство инструментов адаптируют агентов под существующий стек. Zero строит стек под агентов.
3🔥2
11 000 шагов вечером. Пхукет, свежий морской бриз, наушники - и голова наконец начинает думать нормально.

Во время тренировки поймал себя на старой мысли: хочется быстрого результата. В бизнесе, в продукте, в жизни. Часть меня всегда в это верит - и я не буду делать вид, что нет.

Но реальность, которую вижу снова и снова - у себя и у людей, которые реально чего-то добились - другая.

Насколько основательно выстроен фундамент, настолько легко потом двигаться.


Это работает везде одинаково.

В разработке: если не простроить архитектуру с нуля - потом переписываешь всё. В бизнесе: если не автоматизировать процессы - ты сам становишься узким местом. В жизни: если не выработать ритуалы - каждый день начинаешь с нуля.

Дисциплина - это инфраструктура, которую строишь заранее, чтобы потом не тратить энергию на решение «идти или не идти». Сила воли здесь вообще ни при чём: система либо есть, либо её нет.

Для меня такая инфраструктура - движение. 40-60 минут ходьбы: мозг переключается, мысли укладываются, выходишь в другом состоянии.

Ментальная перезагрузка через тело - один из самых недооценённых активов.

А у тебя есть такой ритуал - то, что держит в рабочем состоянии на длинной дистанции?
5🔥3👍1🤩1