Сергей Мод | Нейросети и Бизнес

❗️Теперь дипломы и курсовые с помощью ChatGPT нужно писать особенно осторожно.

Свежие модели от OpenAI начали незаметно встраивать в текст скрытые маркеры (например, символы вроде <0xa0> в формате Unicode). В Word или PDF такие метки не отображаются — чтобы их обнаружить и удалить, придется открывать файл в редакторах вроде VS Code или Notepad++.

Не забудь проверить всё перед сдачей — лишние символы могут выдать тебя.

370 views23:17

0:35

Яндекс Браузер внедрил перевод с оригинальной передачей голоса!

Теперь при переводе с английского на русский нейросеть не просто меняет слова, а сохраняет интонации спикера. Манеру речи буквально переносят вместе с текстом!

Для этого алгоритм обучили на гигантской базе аудиозаписей — чтобы точно распознавать особенности голоса и находить им соответствия на русском. А технология на основе YandexGPT делает перевод живым и естественным.

Представьте: вы включаете видео с Скарлетт Йоханссон — и она говорит на русском, сохраняя свой узнаваемый тембр и интонации. Будущее уже здесь.

🤯1

442 views17:02

0:55

🎬 Появился новый AI-инструмент для видеомонтажа — Lens

Свежий видеоредактор на базе нейросетей — Lens — уже доступен для тестирования. Этот сервис умеет собирать ролики почти без участия человека, используя алгоритмы моушн-дизайна.

ИИ автоматически вырезает лишнее, добавляет плавные переходы, титры, субтитры и делает базовую цветокоррекцию. Всё — за считаные минуты.

Протестировать возможности редактора можно по ссылке.

🤯1

515 viewsedited 16:27

0:32

🔥 Lockedin — секретное оружие для прохождения собеседований с помощью ИИ

Это мощный инструмент на базе нейросетей, который в реальном времени анализирует речь интервьюера, понимает, что происходит на экране, и подсказывает, как отвечать. Главное — он невидим даже при демонстрации экрана!

Даже если вас попросят расшарить весь десктоп, вы спокойно продолжите использовать помощника — его просто не заметят.

И да, установить можно бесплатно. Ссылка здесь.

❤3

657 viewsedited 19:56

0:19

0:38

0:23

Это была самая масштабная презентация Google за всю историю.

13 AI-обновлений, которые реально расширяют возможности человека.

Вот что стоит внимания:

1. Gemini Live

Наводишь камеру — и сразу получаешь голосовой отклик от ИИ. Он понимает, что перед ним, реагирует на визуальные детали и работает с твоими задачами, картами и календарём.

2. Imagen 4

Новейшая генеративная модель для изображений. Высокое качество, точная передача текста и мгновенный отклик. Визуальный контент — за секунды.

3. Veo 3

Создаёт видео со звуком, движением и даже диалогами Это была самая масштабная презентация Google за всю историю.

4. Deep Research

Загружаешь любые материалы — Gemini объединяет их с открытыми источниками и возвращает понятный, логичный отчёт. Работа с информацией — на новом уровне.

5. Project Astra

ИИ, который понимает, где ты и что происходит. Умный, контекстный и проактивный ассистент с голосом и зрением.

6. Google Flow

AI-платформа для создания видеоисторий. Пишешь идею — получаешь сценарий, визуал и монтаж. Всё с помощью Imagen, Veo и Gemini.

7. Agent Mode в Gemini

Ты ставишь цель — он делает всё сам: от поиска данных до финального результата. Без ручной рутины.

8. Google Jules

Разработчики теперь не одни. Jules помогает писать код, тестировать, обновлять и чинить. Плюс GitHub и облако — в комплекте.

9. AI Mode в Google Поиске

Превращает поиск в диалог. Не просто ответы — готовые действия: от советов до бронирований.

10. AI-перевод в Google Meet

Перевод речи во время звонка с сохранением голоса и интонации. По-настоящему глобальное общение.

11. Google Beam

Платформа для объёмного видео. Преобразует 2D в 3D, отслеживает движения, создаёт эффект присутствия.

12. Gemma 3n

Open-source AI, который запускается даже на телефоне с 2 ГБ ОЗУ. Поддерживает текст, звук, изображения.

13. Virtual Try-On

Примерка одежды по фото прямо в поиске. Загружаешь снимок — и видишь, как всё сидит.

---

Запись конференции Google I/O 2025

❤4🤔3🔥2

1.04K views05:58

❤1👍1🔥1

128 views01:19

Автономному агенту Hermes наконец дали нормальный веб-интерфейс. MIT, ~10k звёзд, ноль шага сборки.

Hermes - агент, который живёт на сервере: запоминает контекст, гоняет cron-задачи пока ты спишь, становится умнее со временем.

Проблема была одна - управлять им можно было только из терминала или мессенджера. Что он делает внутри - чёрный ящик.

Hermes WebUI это закрывает.

Трёхпанельный UI: сессии слева, чат по центру, файлы рабочего пространства справа. Всё что было в CLI - теперь в браузере.

Что внутри:
• Стриминг ответов с карточками вызовов инструментов - видишь аргументы и результат каждого вызова
• Сворачиваемые карточки reasoning для Claude extended thinking
• Подтверждение перед опасными shell-командами
• Cron-задачи, память и навыки - редактируешь прямо в браузере
• OpenAI, Anthropic, Google, OpenRouter из коробки

Пишется на Python + ванильный JS. Никакого webpack, никакого npm install.

Простыми словами: взял существующего Hermes-агента, запустил WebUI - и сразу видишь, что агент делает, думает и помнит.

Ищи на GitHub по названию Hermes WebUI - найдёшь за 10 секунд. Если уже щупал Hermes - расскажи в комментах, как используешь 👇

❤4🔥2👏1

122 views01:19

0:00

Media is too big

Одна фотография - и через 5 минут у тебя готовый 3D-мир с физикой и звуком.

Инструмент называется image-blaster - open-source, работает как навык Claude.

Бросаешь картинку в папку, даёшь команду - и пайплайн сам делает всё:

• 3D-модели каждого объекта на фото
• Фон как статичный сплат для сцены
• Зацикленный эмбиент-звук
• Физически корректные звуковые эффекты

Есть хитрый момент: каждый объект, который промоделировали, стирается с исходника. Остаётся чистый фоновый слой - и сцена получается пригодной для исследования.

Экспорт прямо в Unity, Unreal, Godot или Blender.

То, что раньше занимало у 3D-художника несколько дней - теперь стартует с одной фотографии.

Ищи на GitHub по названию image-blaster. Попробовать можно уже сейчас - проект открытый. 🎮

❤1👍1🤩1

101 views06:08

«Следуй правилам» нарушается агентами в 26.67% случаев. Microsoft решил это иначе.

Microsoft выпустил Agent Governance Toolkit - open-source слой управления агентами на уровне runtime.

Не промпт с инструкциями, а жёсткая проверка каждого вызова инструмента до его выполнения. Результат: 0% нарушений при задержке 0.012ms.

Что внутри:
• Квантово-устойчивые идентификаторы для каждого агента
• Скоринг доверия по шкале до 1000
• 4 уровня привилегий с изоляцией
• Kill switch - мгновенное отключение агента
• Tamper-evident логи для аудита

Работает с LangGraph, CrewAI, AutoGen, Semantic Kernel. Покрывает EU AI Act, SOC 2, HIPAA. В комплекте 992 теста соответствия.

Репозиторий: agent-governance-toolkit

Если строишь агентов для бизнеса - это первый инструмент, где governance не «договорённость с моделью», а архитектурный контракт.

👍3🤔2❤1

97 views08:53

Дженсон Хуанг, CEO Nvidia - самой дорогой компании в мире на сегодня - сказал в недавнем интервью:

«Каждый человек в компании скоро будет управлять армией AI-агентов».

Это не фантастика - его прогноз на ближайшие 2-3 года.

Большинство компаний застряли в логике дефицита: мало рук, мало времени, мало бюджета. Десятилетиями это было объективным ограничением. Теперь - просто привычка.

Хуанг говорит про эпоху изобилия вычислений. Я вижу это в своих проектах: ~90% процессов в StaffAI закрыты агентами. Не потому что я гений автоматизации - а потому что однажды перестал спрашивать «хватит ли у нас людей» и начал спрашивать «какой агент это закроет».

Главный барьер - не технический. Компании не внедряют AI не потому что сложно, а потому что буквально не допускают такую постановку вопроса. Привычка нанимать под задачу сидит глубже, чем кажется.

Пока одни согласовывают найм - другие уже задеплоили агента и забыли про эту задачу.

Мышление дефицитом в 2025 году - это не осторожность. Это стратегический выбор отстать.

Полное интервью: Jensen Huang - один из лучших разборов предпринимательского мышления прямо сейчас. Смотреть целиком. 🎯

🔥4❤2👍2

103 viewsedited 12:52

CEO Y Combinator открыл код своего личного «мозга» для AI-агентов. 17 888 страниц, 4 383 человека, 723 компании.

Проблема любого AI-ассистента: он не помнит ничего между сессиями. Каждый раз - чистый лист. Ты объясняешь контекст снова и снова.

GBrain решает это иначе. Ты один раз загружаешь свои контакты, переписку, встречи и идеи - и система строит граф связей: кто с кем знаком, кто куда инвестировал, кто что основал.

Дальше твой AI-агент уже знает твой мир. Не ищет - знает.

Что это даёт на практике:
• Спрашиваешь «кто из моих контактов работает в финтехе?» - агент отвечает сразу
• Готовишься к встрече - агент сам подтягивает всё, что знает о человеке
• Граф обновляется сам, пока ты спишь

Ссылка на репозиторий:
https://github.com/garrytan/gbrain

Работает с Claude, ChatGPT, Cursor и другими агентами. Бесплатно, с открытым кодом.

Разница простая: обычный AI ищет ответ при каждом вопросе. GBrain уже знает его заранее.

🔥2❤1👍1

103 viewsedited 05:44

Мне было 9 лет, когда папа купил маме стиральную машину.

До этого мама стирала руками. Когда её установили и запустили первый раз, я сел рядом и просидел весь цикл стирки - больше часа. Просто смотрел, как барабан крутится сам и поэтапно выполняет работу. Внутри было что-то похожее на восторг. Автоматизация делает реальную работу - без тебя.

Это чувство никуда не ушло за 23 года.

Сегодня я открыл рабочий процесс и увидел: над задачами одного проекта параллельно работают 61 агент. Каждый решает свою микрозадачу в рамках единого роудмапа. Я это не запускал руками - система сама распределила работу.

То же ощущение. Только масштаб другой.

Весь путь от той стиральной машины до агентных систем - это одна и та же идея: ты проектируешь систему один раз, она работает без тебя.

Компании и люди, которые это поняли раньше других, уже живут в другом темпе.

🔥6❤4

93 views09:35

0:00

NVIDIA выпустила открытую видеомодель, которая работает на обычном игровом компьютере.

SANA-WM генерирует 60 секунд 720p-видео примерно за 34 секунды.

Даёшь ей одно изображение, текстовый промпт и траекторию камеры - получаешь полноценную минутную сцену с управлением в 3D-пространстве.

Что важно знать:
• Работает меньше чем на 8 ГБ видеопамяти (с 4-битным сжатием)
• 36x быстрее предыдущих открытых моделей
• 2.6B параметров - компактно для такого результата
• Управление камерой по 6 осям: панорама, наклон, движение вперёд-назад и т.д.
• Обучена на 213K публичных видео

До сих пор длинное управляемое видео требовало серьёзных серверных мощностей или разваливалось после нескольких секунд.

Теперь это работает на домашнем железе - и код открытый.

Repo: https://github.com/NVlabs/Sana

❤1🔥1😁1

101 viewsedited 12:21

Локальная студия дубляжа видео - без подписок, без облака, без слитых файлов.

OmniVoice Studio - опенсорс-инструмент, который дублирует видео прямо на твоём компьютере.

Закидываешь MP4, выбираешь язык - получаешь готовое видео с новой озвучкой и нетронутой фоновой музыкой.

Что умеет:
• Распознаёт речь из любого видео автоматически
• Переводит на 600 языков без дополнительных моделей
• Клонирует голос из фрагмента длиной от 3 секунд
• Создаёт новые голоса по тегам: пол, возраст, акцент
• Отделяет голос от музыки и звуков (библиотека demucs) - фон остаётся нетронутым
• Синхронизирует дублированную дорожку обратно в видео

Работает на Mac (Apple Silicon), NVIDIA, AMD и даже на CPU без видеокарты.

Установка - одна команда. Веса моделей скачиваются сами при первом запуске.

Лицензия Apache 2.0 - можно использовать в коммерческих проектах.

Репозиторий: OmniVoice Studio

Полезно для тех, кто адаптирует контент под разные рынки 🎙

🔥1

101 views14:25

1:14

Скорость, которая опережает мысль

🐼

1000 токенов в секунду. Впервые на модели с триллионом параметров.

Xiaomi только что сломали барьер, который еще вчера считали физическим пределом. Обычные видеокарты. Просто инженерия, доведённая до абсурда.

Раньше, когда вы спрашивали нейросеть о чём-то сложном, вы ждали. Секунды, иногда минуты. Модель думала, вы нервно смотрели на thinking...

Теперь представьте: вы задаёте вопрос, а ответ появляется быстрее, чем вы успеваете моргнуть. Не один ответ — десятки вариантов, перебранных и отобранных за то же время.

Парадокс в том, что это работает только на обычных картах. Не на суперкомпьютерах, не на кастомных чипах за миллиоды долларов. На том, что стоит в дата-центрах по всему миру.

Доступ ограничен. С 9 по 23 июня, только для одобренных заявок. Бесплатный чат, но не более 10 входов в день и 30 минут за сессию. Ресурсов не хватает даже на всех желающих.

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1🤩1

82 views05:21

0:00

Media is too big

Google показал: от идеи до AI-агента в проде - один разговор с текстом, без IDE и терминала.

Gemini теперь ведёт полный цикл разработки агента через текстовые команды. Шесть шагов:

• Install - просишь проверить окружение и поставить нужные инструменты. Агент делает сам.
• Build - описываешь задачу словами. Агент строит структуру, логику, всё нужное.
• Test - локальный сервер поднимается по запросу. Вставляешь тестовые данные, смотришь результат в браузере.
• Evaluate - агент прогоняет набор тестов и показывает, где слабые места.
• Deploy - одна команда отправляет агента в облако Google.
• Register - агент регистрируется внутри организации и становится доступен команде.

В демо построили агента для разбора серверных инцидентов: читает логи, сортирует проблемы по критичности, пишет отчёты. Полный цикл - без единой строчки кода вручную.

Раньше между идеей и деплоем стояло десять инструментов и пара дней работы. Здесь - один инструмент и один разговор.

🔥2❤1

93 views07:51

Vercel открыл язык программирования, написанный для AI-агентов, а не для людей.

Называется Zero, лицензия Apache 2.0.

Все существующие языки выдают ошибки в виде текста: стек-трейс, сообщение, цвета в терминале. Человек читает - понимает. Агент читает - угадывает.

Zero сделан иначе. Весь тулчейн (проверка, сборка, тесты, форматирование) выдаёт структурированный JSON со стабильными кодами ошибок и подсказками для исправления. Агент получает машиночитаемые данные, человек - обычное сообщение. Один и тот же CLI, два разных выхода.

Что ещё важно:
• Бинарники весят меньше 10 КиБ - компилируется в нативный код
• Возможности I/O прописаны прямо в сигнатуре функции - если функция лезет в сеть или файловую систему, компилятор это видит и проверяет
• Память управляется вручную, никаких скрытых аллокаторов и неявных асинхронных операций

По духу близко к C или Rust - системный язык с явным контролем над всем.

Большинство инструментов адаптируют агентов под существующий стек. Zero строит стек под агентов.

❤3🔥2

99 views13:21