{AI} love you | Нейросет
290 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
Самая модная нейросеть в моменте (в минувший уикенд, сразу после релиза) — HeyGen. Она переводит видео на 8 языков (с близким тембром к исходному голосу) и перерисовывает движение губ под новое произношение. По сути, три известные нейросети (языковой перевод, клонирование+синтез голоса и lips sync) под одним капотом. HeyGen попадал ко мне в закладки еще в июне, но теперь пробил массовость за счет открытия доступа для всех, виральности переводимых видео-мемов и уникальной комбинации нейросетей под капотом. Все чаще именно видео-нейросети собирают куш внимания, до этого — Pika и Runway Gen-2.

P.s. из ограничений HeyGen не сможет воспроизвести эмоциональный накал драматических сцен в кино.

#video #translation #speech #lips_sync #релиз
This media is not supported in your browser
VIEW IN TELEGRAM
Лучшее AI-видео до сих пор

Источник

#video #top
This media is not supported in your browser
VIEW IN TELEGRAM
Плюс к видео. На демо показан результат работы нейросети ProPainter, удаляющей лишние предметы с видео. В мае меня поразила эта функцию внутри Topaz, теперь появилась open-source модель. Самое смешное, что человек исчезает, а его тень - нет 😆

Источник

#video #inpaint #opensource
AI-обложка журнала ПЖ про искусственный интеллект

#image #video #aiart
Выныриваю из дел к вам. За неделю набралось много материала, но из свежего поделюсь только видео, за прогрессом которого приятно наблюдать. Протестировал несколько сервисов, что не на слуху: GenMo, MoonValley, AnimateDiff. Любой заметит, где они лажают, но не каждый заметит, где они уже не лажают 😆

#video #test
This media is not supported in your browser
VIEW IN TELEGRAM
В четверг обновили генератор видео Runway Gen-2. Всех поражает качество изображения и консистентность при смене кадров. На паре тестовых генераций всё еще заметил дефекты с движением объектов внутри кадра и человеческой анатомией. Однако то, что вы видите — это непревзойденное качество.

#release #video #gen2
Media is too big
VIEW IN TELEGRAM
Один из неочевидных результатов конференции OpenAI — это возникновение авто-комментаторов видео.

Энтузиасты быстро (буквально за несколько часов после релиза) догадались, что:
— видео можно раздербанить на кадры
— отправить их в GPT Vision на распознавание
— получившиеся описания кадров склеить единым повествованием
— озвучить текст синтетическим голосом
— добавить аудиодорожку к видео

#video #speech #openai #case
This media is not supported in your browser
VIEW IN TELEGRAM
+1 пример. Из жизни спортивных авто-комментаторов.

#video #speech #case
This media is not supported in your browser
VIEW IN TELEGRAM
Новая нейросеть с виральными видео 😃 Научились вмонтировать сторонние сущности в реальное видео. Качество низкое, но идея свежая.

Название — Viggle AI (доступна бесплатно в Discord).

#release #video
Воскресное.

Недавно OpenAI открыл доступ к SORA для избранных видеомейкеров. Одна из опубликованных в итоге короткометражек сделана полностью на AI-сгенерированном материале, но с понятной и яркой человеческой историей, без отвлекающих артефактов. Ребята из shy kids придумали как избежать случайность технологии и подчинить картинку придуманной истории, пост-продакшен естественно никуда не делся. На мой взгляд, это пример хорошего видео, в котором есть всё, кроме съемки реальной реальности.

#video #sora #weekend
#ОбзорГены №3

{ Пульс }

⚡️ GPT-4 вернул лидерство среди LLM и стал заметно лучше в математике / рассуждениях.
⚡️ ChatGPT-момент в генерации песен. Кроме того, новичок Udio обошел Suno.
⚡️ Общение с цифровым аватаром — создали первую open-source сборку, где можно пообщаться с ИИ, как по зуму.
⚡️ ИИ видит сквозь стены благодаря Wi-Fi — анализ Wi-Fi волн позволяет ИИ фиксировать присутствие людей.

{ Свежак }

🔠 Adobe добавит AI в видеоредактор Premiere — причем как свои нейросети, так и сторонние (Sora).
🔠 YandexGPT 3 Pro появилась в голосовом помощнике «Алиса».
🔠 Amazon включил в состав совета директоров Эндрю Ына (Andrew Ng) — одного из наиболее уважаемых экспертов в AI-индустрии.

{ Текстуры }

AI Index Report 2024 — ежегодный отчет от Стенфорда про тренды в AI.
Системный промпт Claude — пример лаконичного промптинга.
Карта ИИ-стартапов 2024 года — самая полная ИИ-карта.
43% студентов используют в учебе ИИ — исследование от НИУ-ВШЭ с подтверждением мысли о повальном использовании ChatGPT среди студентов.
VoiceCraft: Zero-Shot редактор речи — прототип аудиоредактора, где речь можно изменять правкой текста.

{ Находки }

😯 Noctie — Шахматный ИИ-тренер.
😯 Real-time 3D generation — связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
😯 gpt-llm-trainer — упрощает процесс до-обучения ИИ-моделей под конкретную задачу.

{ Перекресток мнений }

AI-FOMO. Никто не успевает за событиями в AI-мире. Это нормально. Успевать — кажется, вообще неважно, потому что отношения с ИИ надолго сохранятся, хотя будут и трансформироваться. Сейчас мы используем самые сильные нейросети как исполнителя, а позже (когда они станут умнее нас) будем учиться у самых сильных нейросетей как студент / подмастерье. Опоздать здесь нельзя.

#llm #text #music #speech #video #research #games #fomo #edu #map #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №5

Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.

{ Свежак }

🔠 GPT-5 (или около того) появилась на чатбот арене под загадочным названием gpt2.
🔠 Релиз нового поколения ИИ-аватаров от Synthesia (конкурента HeyGen).
🔠 Вышла версия LLaMA-3-8B (легковесная) с контекстным окном в 1 миллион токенов (!), как у Gemini 1.5.
🔠 Китайский генератор видео Vidu первым приблизился к качеству, заданному Sora от OpenAI.

{ Пульс }

⚡️ Медицинская модель OpenBioLLM 70B вышла на первое место по тестам на медицинских задачах (даже выше GPT-4).
⚡️ LMSYS разработали новый бенчмарк Arena Hard v0.1 на основе анализа пользовательских запросов на Chatbot Arena.
⚡️ Складывается новый тип устойчивых моделей — генерация изображения человека по одному (!) обучающему фото. Новая модель из этого класса — Consistent ID.
⚡️ Аналогичная ситуация в виртуальных примерочных (одеть человека в заданную одежду), качество моделей растет. Две новые — IDM-VTON и Magic Clothing.
⚡️ По-настоящему важно: прорыв в редактировании человеческого ДНК с помощью ИИ.

{ Текстуры }

ChatGPT-3.5 всё — пора пользоваться другими LLM.
Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер: остается много человеческого труда.
Тренды в GenAI от Степана Гершуни.
Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.

{ Находки }

😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).

{ Перекресток мнений }

Цикл обновления GenAI. Несмотря на постоянное FoMO в GenAI, на мой взгляд, сложились четкие циклы. За один год базовая модель устаревает (сменяется поколение моделей), каждые три месяца — происходит значимый шаг вперед. Это всё применимо только для тех классов моделей, которые прошли свой "ChatGPT-момент" (X), то есть массовая аудитория почувствовала и научилась извлекать ценность технологии. По ту сторону X сейчас: LLM, RAG-чатботы, Code Interpretator, VLM (Vision-модели), генерация / restyle / inpainting / upscale изображения, depth-анимация, расшифровка речи, TTS (синтез речи), генерация музыки и их композ. Всё.

#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.

Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).

И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.

#release #text #video #rag
#ОбзорГены №7

Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.

{ Свежак }

🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.

{ Пульс }

⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).

{ Текстуры }

Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
Еще один туториал про запуск LLM локально — правильный навык.
Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
Гениальные предметы интерьера, созданные через ИИ-перенос стиля.

{ Находки }

😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.

{ Перекресток мнений }

GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.

#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
Первый бенчмарк для video-to-answer

Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.

#video #multimodal #benchmark
#ОбзорГены №8

Две добротные недели. Всё крутится, всё движется.

{ Свежак }

🔠 Apple наконец внедрил AI в iPhone, пожалуй, самая сильная фича — голосовое управление приложениями.
🔠 Случилось аж два мощных релиза среди видеогенераторов: Kling и Luma. Последние очевидно используют свое лидерство в 3D.
🔠 Выложили веса Stable Diffusion 3 Medium — культовой визуальной нейросетки для сообщества. Полный open-source уходит в прошлое.
🔠 Anthropic запустил AI-агентов на базе чат-бота Claude.
🔠 Eleven Labs теперь генерирует любые звуки, не только речь.

{ Пульс }

⚡️ У Udio появился Audio2Audio режим. Режим редактирования — это первый шаг к полной адаптации новой технологии.
⚡️ В мире анимации фурор вызвала межкадровая интерполяция от ToonCrafter. Посмотрите сами.
⚡️ Окончательное решение вопроса с джейлбрейкерами: близко к тому, чтобы мошенничество с LLM пресекалось на уровне нейронов.
⚡️ В мире животных: учёные принялись за распознание лая собак.

{ Текстуры }

Грядет Action Engineцентр интернета действий
Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
Гайд, как использовать GPT-Vision для настоящего OCR
Как достать любой кастомный промпт из GPT?
Обзор российских агрегаторов ботов (без vpn)
AI-инструменты для маркетинга
"Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
Актуальная цитата из Стругацких

{ Находки }

😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.

{ Перекресток мнений }

С чего начать? Apple на этой неделе выступил не как технологический лидер, а как отраслевой гигант, которого конкуренция вынудила внедрить AI. Другие крупные компании ощущают себя схоже: AI не угрожает их положению на рынке, а вот конкуренты с глубоко внедренным AI угрожают. Если присмотреться к тому, что именно внедряют корпорации, то можно увидеть "консервативный" AI: суммаризация, перевод, генерация картинок, общение с документом. Топ-4 для старта.

#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
😮🔥😮🔥😮

В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).

Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.

Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.

#release #video