НИИ им. Лутаенко
487 subscribers
69 photos
17 videos
57 links
Работаю директором по ИИ в Narrators (Е-Promo Group)
Руковожу студией подкастов Слушай Сюда
Делюсь опытом использования нейросетей в бизнесе и жизни

Не продаю курсы, все бесплатно и от чистого сердца.
Download Telegram
Еще варианты обложек
113🔥2🥰1
Forwarded from Сиолошная
МАСК — ВСЁ!

Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.

Как? Они заключили партнёрство со SpaceX на предоставление ВСЕХ мощностей датацентра Colossus 1 — около 220,000 видеокарт NVIDIA, ~300MW.

Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.

А новой модели от Anthropic сегодня, к сожалению, не будет :(
🔥5
Надеюсь что 19 мая Гугл анонсирует новую Nano Banana 3 и Veo 4.

Тут Илон Маск сделал Grok Image Agent — генерирует все виды контента в агентском пайплайне. Увидел скриншот гуглового агента (похожего на то, что мы привыкли видеть у Codex и Claude Code, а не Antigravity) — и кажется, индустрия начала двигаться в сторону помощи продакшнам создавать контент осмысленно, а не однокнопочные генераторы роликов.

Громких и важных новостей в последнее время нет, а значит самое время перевернуть индустрию. Давай Гугл, верим в тебя!
🔥6👍51🥰1
FFMPEG

Рубрика #реко про инструменты, которые не выйдут из моды через месяц, и сегодня у нас экспонат с которым вы взаимодействуете ежеминутно, даже не зная об этом.

Один француз в обычной парижской квартире написал программу, которая сегодня стоит в фундаменте YouTube, Netflix, TikTok и буквально всей видеоиндустрии.

Почему мне важно чтобы вы про это знали? Потому что в мире ИИ-агентов не нужно уметь программировать — но нужно знать какие инструменты существуют. Агент не волшебник, он оркестрирует то, что уже есть. Когда я прошу агента смонтировать видео, изменить соотношение сторон или вытащить аудио из файла — он пишет команду для FFmpeg и выполняет её. Не надо знать как это работает изнутри, надо знать что FFmpeg существует — и этого достаточно чтобы задача решилась. Знание о том какой инструмент что делает — это уже половина решения.

Видео классное, даёт исчерпывающее представление о теме.

https://www.youtube.com/watch?v=Ww8MzcBJUd4
18👍4❤‍🔥2
Ребята, по многочисленным просьбам (два раза спрашивали друзья) я записал целый видеоролик-туториал о том ка устаналивать, настраивать и пользоваться агентами. Я его опубликую тут в понедельник, хочу до официального релиза попробовать посмотреть на органику, будет ли оно набирать просмотры на ютубе само по себе.

Поставил себе задачу смонтировать все агентом, и у меня получилось. Обязательно расскажу как упростить жизнь, если вы создатель контента.

Для тех кому видео нужно прямо сейчас (ну вдруг), не составит труда найти его по поику (алгоритмы ютуба ценят, когда люди не по ссылке смотрят, а сами находят нужный им материал).
43🔥9👍4🥰1
ИИ-агенты для чайников (видеоинструкция)

Для тех, кому не помогла текстовая инструкция, попробуем с видео. Показал как устанавливать, настраивать и пользоваться. Десять минут кристально чистой информации.

Из интересного: всю графику в ролике сделал ии-агент, ноль моего вмешательства, получилось так хорошо, что буду рассказывать про опыт отдельно.

https://www.youtube.com/watch?v=vdaFp1eLFaY
1🔥22💯8🫡42
МРТ для Claude

Никто не понимает как работает человеческий мозг — как мы принимаем решения, осознаём себя, учимся. Нейросеть имеет буквально такой же принцип действия. Мы задаём модели вопрос, запускаются "нейроны", бегают нули и единицы и превращаются в ответ. Даже создатели LLM не понимают как это работает.

Антропики решили упороться и создать систему Natural Language Autoencoders (NLA), которая изучает что происходит под капотом во время активации нейронов и предсказывает о чём модель думает на самом деле.

Получается примерно так: Клода просят дописать куплет — NLA видит что модель заранее планирует рифму ещё до того как начала отвечать. Клод не говорит "я сейчас подберу рифму к слову rabbit" — но внутри это уже происходит.

NLA увидела что Клод иногда параноит и думает что его проверяют на вшивость — это влияет на его ответы. Пользователь этого не видит, а система детектит. Да, NLA ошибается (это пока) и не всегда правильно интерпретирует реальные "мысли" Клода — но для науки это всё равно большой прогресс.

Эта новость означает, что через время инструмент можно будет транспонировать на чтение нейронов человеческого мозга — и всё, дальше сами придумывайте сценарий антиутопии.
110🤯4🤔3😨2
Gemini Omni

До Google I/O осталась неделя — пошли сливы.

У части пользователей в Gemini стала появляться плашка: "Create with Gemini Omni". Гугл редко показывает публичные названия моделей до анонса. Если имя попало в интерфейс — значит релиз близко.

Что такое Omni? Есть три версии. Первая — просто ребрендинг Veo 3.1, ничего кардинально нового. Вторая — новая видеомодель с улучшенным качеством. Третья и самая интересная — настоящая omni-модель, которая в одном контексте делает текст, картинки, видосики и аудио. Без переключения между нанабананой и Veo, просто один агент который всё умеет.

Судя по первым тестам утёкших видео — качество хорошее, но пока уступает Seedance 2, зато Omni явно выигрывает по удобству редактирования прямо в чате.

Есть и тревожный сигнал: один пользователь сгенерировал два видео и потратил 86% дневного лимита на Pro плане. Гугл явно готовится к тому что новая модель будет жрать токены как не в себя — в приложении уже появилась вкладка usage limits.

Преза скоро, узнаем
🔥85🥰3
Open Design

Помните, писал про дизайн-агента Claude Design? Не прошло и пары недель, как его буквально опенсорснули народные умельцы.

Если пользовались Claude Design, наверное успели заценить насколько он, сука, ДОРОГОЙ. На Pro тарифе недельных лимитов хватает чисто сделать парочку интерфейсов. Это не устроило чуваков из nexu — и они подарили возможность пользоваться агентом локально, без регистрации и смс. Ставите на комп и юзаете любую нейронку, хоть бесплатную. Красота.

Странно, но информации про Open Design в интернете не так много. Я его ещё не устанавливал, но насмотрелся ютуба — там все ссут кипятком. Надо пробовать.

Фан-сайт
Гитхаб
20😱3😍3
https://youtu.be/-nyNyk9EZy4?si=YWipMdg06vOIBNLs

Интересное видео попалось — мужик, который всю жизнь занимается аранжировкой музыки, плачет и рассуждает о том, что ИИ-генераторы музыки делают музыку лучше людей.

Видео необычно тем, что в профессиональной среде принято критиковать и говорить что в этом нет души. А тут человек с большим опытом просто принимает реальность.

На меня произвело впечатление — такой спокойный монолог, полный отчаяния.
😭85👍4
Forwarded from Ai molodca (Dobrokotov)
Собрал выжимку (с помощью ГПТ, хехе) всего самое интересное из презентации гугла в первой карточке. А во второй — вообще все, что показали. Хорошая презентация получилась.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥3
Media is too big
VIEW IN TELEGRAM
Альфа Фьюча Хьюман

Хочу рассказать про проект, над которым работали последнее время. Мы в Narrators сделали визуальный стиль для фестиваля Alfa Human, который стартовал в Нижнем Новгороде.

Работа титаническая, департаменты креатива и дизайна сотворили шедевр, а мне досталась скромная роль — создать приложение, которое переосмысливает изображения в графические партитуры. С реализацией мне помогли музыкальное образование и диплом технического вуза.

Под капотом сидит LoG — Laplacian of Gaussian (лапласиан гауссиана), он же волновой алгоритм. ЛоГ находит места, где переход пикселей происходит особенно резко или неожиданно.

В музыке работает тот же принцип. Длинная нота не несёт информации — ухо к ней привыкает. Событие — это атака, удар, смена. Тишина информативна только рядом со звуком. Наш мозг реагирует не на состояние, а на переход между состояниями.

То есть LoG — это модель того, как зрительная система уже на уровне сетчатки фильтрует изображение. Алгоритм не придумывает "интересные точки" — он извлекает то, что глаз считает интересным по биологическим причинам. Когда мы берём эти точки и превращаем их в звук, мы озвучиваем не фотографию — мы озвучиваем зрительный отклик.

LoG даёт разреженное, равномерное облако точек разного веса, которое отражает общую структуру образа — силуэт, крупные формы, характерные переходы. Именно это нужно партитуре: не технический список пикселей, а осмысленный скелет изображения.

Когда точки найдены, каждая из них несёт одну координату, которая нас интересует — высота на изображении. Точка в верхней части кадра звучит высоко, точка внизу — низко. Это прям наивный перенос пространства в звук: вертикальная ось фотографии становится музыкальной шкалой, а горизонтальная - время.

Но просто взять частоту пропорционально высоте — не работает. Случайные частоты звучат как помехи. Мы много тестили, и получалась какофония, поэтому я предложил привязать точки к ре-минорной пентатонике — гамме из пяти нот, растянутой на три октавы. Пентатоника устроена так, что любые две её ноты звучат вместе без диссонанса. Это значит, что какие бы точки ни попали на изображение и в каком бы порядке они ни сыграли — результат будет гармоничным.

Алгоритм ничего не знает про музыку, изображение не знает про гамму, но система в целом звучит.

Этот проект глубже, чем кажется, поэтому хотелось про него рассказать. Пишу пост уже, наверное, час — без заумных слов не получилось, но пусть останется так.

Обязательно заходите и приколитесь.
17🔥16😍6😁1