Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №7
Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.
{ Свежак }
🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.
{ Пульс }
⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).
{ Текстуры }
✅ Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
✅ Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
✅ Еще один туториал про запуск LLM локально — правильный навык.
✅ Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
✅ Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
✅ Гениальные предметы интерьера, созданные через ИИ-перенос стиля.
{ Находки }
😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.
{ Перекресток мнений }
❓ GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.
#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
✅ Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
✅ Еще один туториал про запуск LLM локально — правильный навык.
✅ Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
✅ Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
✅ Гениальные предметы интерьера, созданные через ИИ-перенос стиля.
{ Находки }
😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.
{ Перекресток мнений }
#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
Image Reference
В визуальный генератор Leonardo AI недавно завезли мощный инструментарий контроля по входным изображениям: Style / Character / Content Reference. Вчера случайно воспользовался ими, когда обратились с быстрым запросом, который не получалось самостоятельно решить. Киллерфича, на мой взгляд — то, что различные инструменты контроля объединили в один удобный UI прямо в строке ввода промпта. Можно загрузить по одной картинке для каждого типа контроля. Результат выше — это первая попытка.
Напоминаю про Leonardo AI, что это лучший сервис поверх Stable Diffusion с отличным бесплатным лимитом в день.
#image #stablediffusion #reference
В визуальный генератор Leonardo AI недавно завезли мощный инструментарий контроля по входным изображениям: Style / Character / Content Reference. Вчера случайно воспользовался ими, когда обратились с быстрым запросом, который не получалось самостоятельно решить. Киллерфича, на мой взгляд — то, что различные инструменты контроля объединили в один удобный UI прямо в строке ввода промпта. Можно загрузить по одной картинке для каждого типа контроля. Результат выше — это первая попытка.
Напоминаю про Leonardo AI, что это лучший сервис поверх Stable Diffusion с отличным бесплатным лимитом в день.
#image #stablediffusion #reference
Action Engine Optimization (AEO)
Youtube-канал Marketing Against the Grain продолжает поставлять инсайты на стыке GenAI и маркетинга. В предыдущих сериях были важные мысли про AI-подрыв поиска (и соответственно органического трафика), возрастающую роль Youtube и маркетинговые LLM-опросы (в итоге я сделал кейс про это).
В новом выпуске ключевая мысль, что на смену Search Engine может прийти Action Engine. Поисковой движок распределяет интернет-трафик между отранжированными веб-сайтами, а движок действий может распределять "трафик" (лучше сказать ИИ-запросы) между отранжированными AI-агентами или API, которые будут совершать действия от имени пользователя. То есть после запроса ИИ-ассистенту: "Запиши меня в парикмахерскую сегодня вечером" — начинается конкуренция между AI-агентами и API за то, что именно будет выбрано для осуществления одной конкретной записи в парикмахерскую.
Очень вовремя случилась масштабная утечка Google о том, что лежит в основе ранжирования веб-сайтов в поисковике. Много полезных деталей из текущей (уходящей) эпохи. Интересно, что именно у Google все шансы построить первый полномасштабный Action Engine благодаря лидерству в поиске.
#aiagent #marketing #search #action
Youtube-канал Marketing Against the Grain продолжает поставлять инсайты на стыке GenAI и маркетинга. В предыдущих сериях были важные мысли про AI-подрыв поиска (и соответственно органического трафика), возрастающую роль Youtube и маркетинговые LLM-опросы (в итоге я сделал кейс про это).
В новом выпуске ключевая мысль, что на смену Search Engine может прийти Action Engine. Поисковой движок распределяет интернет-трафик между отранжированными веб-сайтами, а движок действий может распределять "трафик" (лучше сказать ИИ-запросы) между отранжированными AI-агентами или API, которые будут совершать действия от имени пользователя. То есть после запроса ИИ-ассистенту: "Запиши меня в парикмахерскую сегодня вечером" — начинается конкуренция между AI-агентами и API за то, что именно будет выбрано для осуществления одной конкретной записи в парикмахерскую.
Очень вовремя случилась масштабная утечка Google о том, что лежит в основе ранжирования веб-сайтов в поисковике. Много полезных деталей из текущей (уходящей) эпохи. Интересно, что именно у Google все шансы построить первый полномасштабный Action Engine благодаря лидерству в поиске.
#aiagent #marketing #search #action
YouTube
Ai Agents: The Future Marketers You Can't Afford to Ignore
Steal our favorite AI Prompts featured on the show. Get it here [Free Resource] ➡️ https://clickhubspot.com/zob
How will AI agents revolutionize marketing strategies in 2024?
Kipp and Kieran dive into the transformative impact of AI agents on search, content…
How will AI agents revolutionize marketing strategies in 2024?
Kipp and Kieran dive into the transformative impact of AI agents on search, content…
Первый бенчмарк для video-to-answer
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
Forwarded from Сиолошная
Картинка с метриками.
Ключевые выводы:
1. GPT-4o лучше GTP-4V, выходит, OpenAI не врали, когда говорили, что модель мультимодальна с самого начала.
2. Gemini существенно лучше для анализа видео любой длительности, и чем длиннее видео — тем больше разница.
3. Субтитры могут существенно накинуть в качестве. Ну, не зря модели всё же языковые
4. Открытые модели отстают от флагманских, но в коротких видео (до 2 минут) кое-как можно использовать.
5. Чем длиннее видео, тем хуже качество — что логично, ведь у модели куда больше шанс ошибиться, не учесть то или подумать другое.
6. OpenAI пора бы тоже выпускать модели с длинным контекстом👶
7. Мне не хватило анализа изменения качества по годам/месяцам релиза видео. Думаю, что если бы мы увидели падение метрик на последнем квартале 23-го, то можно было бы смело говорить про переобучение. А так — хз, может модели видели, может, нет🤷♂️
8. И странно, что они не замерили качество Gemini с теми же кадрами, что брали для GPT-4o/других моделей, чтобы проверить разницу метрик именно за счёт контекста.
Я бы рад сравнить метрики с человеческими, чтобы понять, насколько модельки далеки, но авторы не написали, какое качество было бы у людей, которые смотрят видео в первый раз. Думаю, на long-категории (30-60 минут) люди бы очень сильно провалились и были хуже моделей уже сейчас.
Ключевые выводы:
1. GPT-4o лучше GTP-4V, выходит, OpenAI не врали, когда говорили, что модель мультимодальна с самого начала.
2. Gemini существенно лучше для анализа видео любой длительности, и чем длиннее видео — тем больше разница.
3. Субтитры могут существенно накинуть в качестве. Ну, не зря модели всё же языковые
4. Открытые модели отстают от флагманских, но в коротких видео (до 2 минут) кое-как можно использовать.
5. Чем длиннее видео, тем хуже качество — что логично, ведь у модели куда больше шанс ошибиться, не учесть то или подумать другое.
6. OpenAI пора бы тоже выпускать модели с длинным контекстом
7. Мне не хватило анализа изменения качества по годам/месяцам релиза видео. Думаю, что если бы мы увидели падение метрик на последнем квартале 23-го, то можно было бы смело говорить про переобучение. А так — хз, может модели видели, может, нет
8. И странно, что они не замерили качество Gemini с теми же кадрами, что брали для GPT-4o/других моделей, чтобы проверить разницу метрик именно за счёт контекста.
Я бы рад сравнить метрики с человеческими, чтобы понять, насколько модельки далеки, но авторы не написали, какое качество было бы у людей, которые смотрят видео в первый раз. Думаю, на long-категории (30-60 минут) люди бы очень сильно провалились и были хуже моделей уже сейчас.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №8
Две добротные недели. Всё крутится, всё движется.
{ Свежак }
🔠 Apple наконец внедрил AI в iPhone, пожалуй, самая сильная фича — голосовое управление приложениями.
🔠 Случилось аж два мощных релиза среди видеогенераторов: Kling и Luma. Последние очевидно используют свое лидерство в 3D.
🔠 Выложили веса Stable Diffusion 3 Medium — культовой визуальной нейросетки для сообщества. Полный open-source уходит в прошлое.
🔠 Anthropic запустил AI-агентов на базе чат-бота Claude.
🔠 Eleven Labs теперь генерирует любые звуки, не только речь.
{ Пульс }
⚡️ У Udio появился Audio2Audio режим. Режим редактирования — это первый шаг к полной адаптации новой технологии.
⚡️ В мире анимации фурор вызвала межкадровая интерполяция от ToonCrafter. Посмотрите сами.
⚡️ Окончательное решение вопроса с джейлбрейкерами: близко к тому, чтобы мошенничество с LLM пресекалось на уровне нейронов.
⚡️ В мире животных: учёные принялись за распознание лая собак.
{ Текстуры }
✅ Грядет Action Engine — центр интернета действий
✅ Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
✅ Гайд, как использовать GPT-Vision для настоящего OCR
✅ Как достать любой кастомный промпт из GPT?
✅ Обзор российских агрегаторов ботов (без vpn)
✅ AI-инструменты для маркетинга
✅ "Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
✅ Актуальная цитата из Стругацких
{ Находки }
😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.
{ Перекресток мнений }
❓ С чего начать? Apple на этой неделе выступил не как технологический лидер, а как отраслевой гигант, которого конкуренция вынудила внедрить AI. Другие крупные компании ощущают себя схоже: AI не угрожает их положению на рынке, а вот конкуренты с глубоко внедренным AI угрожают. Если присмотреться к тому, что именно внедряют корпорации, то можно увидеть "консервативный" AI: суммаризация, перевод, генерация картинок, общение с документом. Топ-4 для старта.
#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Две добротные недели. Всё крутится, всё движется.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Грядет Action Engine — центр интернета действий
✅ Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
✅ Гайд, как использовать GPT-Vision для настоящего OCR
✅ Как достать любой кастомный промпт из GPT?
✅ Обзор российских агрегаторов ботов (без vpn)
✅ AI-инструменты для маркетинга
✅ "Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
✅ Актуальная цитата из Стругацких
{ Находки }
😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.
{ Перекресток мнений }
#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
😮🔥😮🔥😮
В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).
Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.
Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.
#release #video
В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).
Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.
Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.
#release #video
Claude снова побил GPT-4(o)
Только вчера думал, что Anthropic сдали: уступили второе место Gemini, а еще отключили большое контекстное окно в бесплатной версии Claude (ограничили примерно 25 страницами русскоязычного текста). Это было вчера.
#release #llm #leaderboard #benchmark
Только вчера думал, что Anthropic сдали: уступили второе место Gemini, а еще отключили большое контекстное окно в бесплатной версии Claude (ограничили примерно 25 страницами русскоязычного текста). Это было вчера.
#release #llm #leaderboard #benchmark