{AI} love you | Нейросет
290 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №7

Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.

{ Свежак }

🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.

{ Пульс }

⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).

{ Текстуры }

Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
Еще один туториал про запуск LLM локально — правильный навык.
Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
Гениальные предметы интерьера, созданные через ИИ-перенос стиля.

{ Находки }

😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.

{ Перекресток мнений }

GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.

#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
Image Reference

В визуальный генератор Leonardo AI недавно завезли мощный инструментарий контроля по входным изображениям: Style / Character / Content Reference. Вчера случайно воспользовался ими, когда обратились с быстрым запросом, который не получалось самостоятельно решить. Киллерфича, на мой взгляд — то, что различные инструменты контроля объединили в один удобный UI прямо в строке ввода промпта. Можно загрузить по одной картинке для каждого типа контроля. Результат выше — это первая попытка.

Напоминаю про Leonardo AI, что это лучший сервис поверх Stable Diffusion с отличным бесплатным лимитом в день.

#image #stablediffusion #reference
Action Engine Optimization (AEO)

Youtube-канал Marketing Against the Grain продолжает поставлять инсайты на стыке GenAI и маркетинга. В предыдущих сериях были важные мысли про AI-подрыв поиска (и соответственно органического трафика), возрастающую роль Youtube и маркетинговые LLM-опросы (в итоге я сделал кейс про это).

В новом выпуске ключевая мысль, что на смену Search Engine может прийти Action Engine. Поисковой движок распределяет интернет-трафик между отранжированными веб-сайтами, а движок действий может распределять "трафик" (лучше сказать ИИ-запросы) между отранжированными AI-агентами или API, которые будут совершать действия от имени пользователя. То есть после запроса ИИ-ассистенту: "Запиши меня в парикмахерскую сегодня вечером" — начинается конкуренция между AI-агентами и API за то, что именно будет выбрано для осуществления одной конкретной записи в парикмахерскую.

Очень вовремя случилась масштабная утечка Google о том, что лежит в основе ранжирования веб-сайтов в поисковике. Много полезных деталей из текущей (уходящей) эпохи. Интересно, что именно у Google все шансы построить первый полномасштабный Action Engine благодаря лидерству в поиске.

#aiagent #marketing #search #action
Первый бенчмарк для video-to-answer

Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.

#video #multimodal #benchmark
Forwarded from Сиолошная
Картинка с метриками.

Ключевые выводы:
1. GPT-4o лучше GTP-4V, выходит, OpenAI не врали, когда говорили, что модель мультимодальна с самого начала.
2. Gemini существенно лучше для анализа видео любой длительности, и чем длиннее видео — тем больше разница.
3. Субтитры могут существенно накинуть в качестве. Ну, не зря модели всё же языковые
4. Открытые модели отстают от флагманских, но в коротких видео (до 2 минут) кое-как можно использовать.
5. Чем длиннее видео, тем хуже качество — что логично, ведь у модели куда больше шанс ошибиться, не учесть то или подумать другое.
6. OpenAI пора бы тоже выпускать модели с длинным контекстом 👶
7. Мне не хватило анализа изменения качества по годам/месяцам релиза видео. Думаю, что если бы мы увидели падение метрик на последнем квартале 23-го, то можно было бы смело говорить про переобучение. А так — хз, может модели видели, может, нет 🤷‍♂️
8. И странно, что они не замерили качество Gemini с теми же кадрами, что брали для GPT-4o/других моделей, чтобы проверить разницу метрик именно за счёт контекста.

Я бы рад сравнить метрики с человеческими, чтобы понять, насколько модельки далеки, но авторы не написали, какое качество было бы у людей, которые смотрят видео в первый раз. Думаю, на long-категории (30-60 минут) люди бы очень сильно провалились и были хуже моделей уже сейчас.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №8

Две добротные недели. Всё крутится, всё движется.

{ Свежак }

🔠 Apple наконец внедрил AI в iPhone, пожалуй, самая сильная фича — голосовое управление приложениями.
🔠 Случилось аж два мощных релиза среди видеогенераторов: Kling и Luma. Последние очевидно используют свое лидерство в 3D.
🔠 Выложили веса Stable Diffusion 3 Medium — культовой визуальной нейросетки для сообщества. Полный open-source уходит в прошлое.
🔠 Anthropic запустил AI-агентов на базе чат-бота Claude.
🔠 Eleven Labs теперь генерирует любые звуки, не только речь.

{ Пульс }

⚡️ У Udio появился Audio2Audio режим. Режим редактирования — это первый шаг к полной адаптации новой технологии.
⚡️ В мире анимации фурор вызвала межкадровая интерполяция от ToonCrafter. Посмотрите сами.
⚡️ Окончательное решение вопроса с джейлбрейкерами: близко к тому, чтобы мошенничество с LLM пресекалось на уровне нейронов.
⚡️ В мире животных: учёные принялись за распознание лая собак.

{ Текстуры }

Грядет Action Engineцентр интернета действий
Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
Гайд, как использовать GPT-Vision для настоящего OCR
Как достать любой кастомный промпт из GPT?
Обзор российских агрегаторов ботов (без vpn)
AI-инструменты для маркетинга
"Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
Актуальная цитата из Стругацких

{ Находки }

😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.

{ Перекресток мнений }

С чего начать? Apple на этой неделе выступил не как технологический лидер, а как отраслевой гигант, которого конкуренция вынудила внедрить AI. Другие крупные компании ощущают себя схоже: AI не угрожает их положению на рынке, а вот конкуренты с глубоко внедренным AI угрожают. Если присмотреться к тому, что именно внедряют корпорации, то можно увидеть "консервативный" AI: суммаризация, перевод, генерация картинок, общение с документом. Топ-4 для старта.

#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
😮🔥😮🔥😮

В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).

Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.

Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.

#release #video
Claude снова побил GPT-4(o)

Только вчера думал, что Anthropic сдали: уступили второе место Gemini, а еще отключили большое контекстное окно в бесплатной версии Claude (ограничили примерно 25 страницами русскоязычного текста). Это было вчера.

#release #llm #leaderboard #benchmark