Самая модная нейросеть в моменте (в минувший уикенд, сразу после релиза) — HeyGen. Она переводит видео на 8 языков (с близким тембром к исходному голосу) и перерисовывает движение губ под новое произношение. По сути, три известные нейросети (языковой перевод, клонирование+синтез голоса и lips sync) под одним капотом. HeyGen попадал ко мне в закладки еще в июне, но теперь пробил массовость за счет открытия доступа для всех, виральности переводимых видео-мемов и уникальной комбинации нейросетей под капотом. Все чаще именно видео-нейросети собирают куш внимания, до этого — Pika и Runway Gen-2.
P.s. из ограничений HeyGen не сможет воспроизвести эмоциональный накал драматических сцен в кино.
#video #translation #speech #lips_sync #релиз
P.s. из ограничений HeyGen не сможет воспроизвести эмоциональный накал драматических сцен в кино.
#video #translation #speech #lips_sync #релиз
This media is not supported in your browser
VIEW IN TELEGRAM
Плюс к видео. На демо показан результат работы нейросети ProPainter, удаляющей лишние предметы с видео. В мае меня поразила эта функцию внутри Topaz, теперь появилась open-source модель. Самое смешное, что человек исчезает, а его тень - нет 😆
Источник
#video #inpaint #opensource
Источник
#video #inpaint #opensource
Выныриваю из дел к вам. За неделю набралось много материала, но из свежего поделюсь только видео, за прогрессом которого приятно наблюдать. Протестировал несколько сервисов, что не на слуху: GenMo, MoonValley, AnimateDiff. Любой заметит, где они лажают, но не каждый заметит, где они уже не лажают 😆
#video #test
#video #test
This media is not supported in your browser
VIEW IN TELEGRAM
В четверг обновили генератор видео Runway Gen-2. Всех поражает качество изображения и консистентность при смене кадров. На паре тестовых генераций всё еще заметил дефекты с движением объектов внутри кадра и человеческой анатомией. Однако то, что вы видите — это непревзойденное качество.
#release #video #gen2
#release #video #gen2
Media is too big
VIEW IN TELEGRAM
Один из неочевидных результатов конференции OpenAI — это возникновение авто-комментаторов видео.
Энтузиасты быстро (буквально за несколько часов после релиза) догадались, что:
— видео можно раздербанить на кадры
— отправить их в GPT Vision на распознавание
— получившиеся описания кадров склеить единым повествованием
— озвучить текст синтетическим голосом
— добавить аудиодорожку к видео
#video #speech #openai #case
Энтузиасты быстро (буквально за несколько часов после релиза) догадались, что:
— видео можно раздербанить на кадры
— отправить их в GPT Vision на распознавание
— получившиеся описания кадров склеить единым повествованием
— озвучить текст синтетическим голосом
— добавить аудиодорожку к видео
#video #speech #openai #case
This media is not supported in your browser
VIEW IN TELEGRAM
Новая нейросеть с виральными видео 😃 Научились вмонтировать сторонние сущности в реальное видео. Качество низкое, но идея свежая.
Название — Viggle AI (доступна бесплатно в Discord).
#release #video
Название — Viggle AI (доступна бесплатно в Discord).
#release #video
Воскресное.
Недавно OpenAI открыл доступ к SORA для избранных видеомейкеров. Одна из опубликованных в итоге короткометражек сделана полностью на AI-сгенерированном материале, но с понятной и яркой человеческой историей, без отвлекающих артефактов. Ребята из shy kids придумали как избежать случайность технологии и подчинить картинку придуманной истории, пост-продакшен естественно никуда не делся. На мой взгляд, это пример хорошего видео, в котором есть всё, кроме съемки реальной реальности.
#video #sora #weekend
Недавно OpenAI открыл доступ к SORA для избранных видеомейкеров. Одна из опубликованных в итоге короткометражек сделана полностью на AI-сгенерированном материале, но с понятной и яркой человеческой историей, без отвлекающих артефактов. Ребята из shy kids придумали как избежать случайность технологии и подчинить картинку придуманной истории, пост-продакшен естественно никуда не делся. На мой взгляд, это пример хорошего видео, в котором есть всё, кроме съемки реальной реальности.
#video #sora #weekend
YouTube
air head 🎈 a sora short
our first experiment with openai's text-to-video model, sora.
the challenge we set for ourselves was to achieve consistency from generation to generation and successfully paint a portrait of a single character using sora. this is the result of that experimentation.…
the challenge we set for ourselves was to achieve consistency from generation to generation and successfully paint a portrait of a single character using sora. this is the result of that experimentation.…
#ОбзорГены №3
{ Пульс }
⚡️ GPT-4 вернул лидерство среди LLM и стал заметно лучше в математике / рассуждениях.
⚡️ ChatGPT-момент в генерации песен. Кроме того, новичок Udio обошел Suno.
⚡️ Общение с цифровым аватаром — создали первую open-source сборку, где можно пообщаться с ИИ, как по зуму.
⚡️ ИИ видит сквозь стены благодаря Wi-Fi — анализ Wi-Fi волн позволяет ИИ фиксировать присутствие людей.
{ Свежак }
🔠 Adobe добавит AI в видеоредактор Premiere — причем как свои нейросети, так и сторонние (Sora).
🔠 YandexGPT 3 Pro появилась в голосовом помощнике «Алиса».
🔠 Amazon включил в состав совета директоров Эндрю Ына (Andrew Ng) — одного из наиболее уважаемых экспертов в AI-индустрии.
{ Текстуры }
✅ AI Index Report 2024 — ежегодный отчет от Стенфорда про тренды в AI.
✅ Системный промпт Claude — пример лаконичного промптинга.
✅ Карта ИИ-стартапов 2024 года — самая полная ИИ-карта.
✅ 43% студентов используют в учебе ИИ — исследование от НИУ-ВШЭ с подтверждением мысли о повальном использовании ChatGPT среди студентов.
✅ VoiceCraft: Zero-Shot редактор речи — прототип аудиоредактора, где речь можно изменять правкой текста.
{ Находки }
😯 Noctie — Шахматный ИИ-тренер.
😯 Real-time 3D generation — связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
😯 gpt-llm-trainer — упрощает процесс до-обучения ИИ-моделей под конкретную задачу.
{ Перекресток мнений }
❓ AI-FOMO. Никто не успевает за событиями в AI-мире. Это нормально. Успевать — кажется, вообще неважно, потому что отношения с ИИ надолго сохранятся, хотя будут и трансформироваться. Сейчас мы используем самые сильные нейросети как исполнителя, а позже (когда они станут умнее нас) будем учиться у самых сильных нейросетей как студент / подмастерье. Опоздать здесь нельзя.
#llm #text #music #speech #video #research #games #fomo #edu #map #promptgramming
{ Пульс }
{ Свежак }
{ Текстуры }
✅ AI Index Report 2024 — ежегодный отчет от Стенфорда про тренды в AI.
✅ Системный промпт Claude — пример лаконичного промптинга.
✅ Карта ИИ-стартапов 2024 года — самая полная ИИ-карта.
✅ 43% студентов используют в учебе ИИ — исследование от НИУ-ВШЭ с подтверждением мысли о повальном использовании ChatGPT среди студентов.
✅ VoiceCraft: Zero-Shot редактор речи — прототип аудиоредактора, где речь можно изменять правкой текста.
{ Находки }
😯 Noctie — Шахматный ИИ-тренер.
😯 Real-time 3D generation — связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
😯 gpt-llm-trainer — упрощает процесс до-обучения ИИ-моделей под конкретную задачу.
{ Перекресток мнений }
#llm #text #music #speech #video #research #games #fomo #edu #map #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DL Paper Reviews
Новая версия GPT-4 умеет решать олимпиадные задачки по математике на порядок круче, чем это делала предыдущая версия.
На соревновании, которое кстати еще идет, до апдейта GPT-4 решал только одну задачу и то с длинным промтом (по факту это подсказка).
…
На соревновании, которое кстати еще идет, до апдейта GPT-4 решал только одну задачу и то с длинным промтом (по факту это подсказка).
…
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №5
Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.
{ Свежак }
🔠 GPT-5 (или около того) появилась на чатбот арене под загадочным названием gpt2.
🔠 Релиз нового поколения ИИ-аватаров от Synthesia (конкурента HeyGen).
🔠 Вышла версия LLaMA-3-8B (легковесная) с контекстным окном в 1 миллион токенов (!), как у Gemini 1.5.
🔠 Китайский генератор видео Vidu первым приблизился к качеству, заданному Sora от OpenAI.
{ Пульс }
⚡️ Медицинская модель OpenBioLLM 70B вышла на первое место по тестам на медицинских задачах (даже выше GPT-4).
⚡️ LMSYS разработали новый бенчмарк Arena Hard v0.1 на основе анализа пользовательских запросов на Chatbot Arena.
⚡️ Складывается новый тип устойчивых моделей — генерация изображения человека по одному (!) обучающему фото. Новая модель из этого класса — Consistent ID.
⚡️ Аналогичная ситуация в виртуальных примерочных (одеть человека в заданную одежду), качество моделей растет. Две новые — IDM-VTON и Magic Clothing.
⚡️ По-настоящему важно: прорыв в редактировании человеческого ДНК с помощью ИИ.
{ Текстуры }
✅ ChatGPT-3.5 всё — пора пользоваться другими LLM.
✅ Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер:остается много человеческого труда .
✅ Тренды в GenAI от Степана Гершуни.
✅ Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
✅ Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.
{ Находки }
😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).
{ Перекресток мнений }
❓ Цикл обновления GenAI. Несмотря на постоянное FoMO в GenAI, на мой взгляд, сложились четкие циклы. За один год базовая модель устаревает (сменяется поколение моделей), каждые три месяца — происходит значимый шаг вперед. Это всё применимо только для тех классов моделей, которые прошли свой "ChatGPT-момент" (X), то есть массовая аудитория почувствовала и научилась извлекать ценность технологии. По ту сторону X сейчас: LLM, RAG-чатботы, Code Interpretator, VLM (Vision-модели), генерация / restyle / inpainting / upscale изображения, depth-анимация, расшифровка речи, TTS (синтез речи), генерация музыки и их композ. Всё.
#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ ChatGPT-3.5 всё — пора пользоваться другими LLM.
✅ Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер:
✅ Тренды в GenAI от Степана Гершуни.
✅ Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
✅ Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.
{ Находки }
😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).
{ Перекресток мнений }
#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
OpenAIs New SECRET "GPT2" Model SHOCKS Everyone" (OpenAI New gpt2 chatbot)
OpenAIs New SECRET "GPT2" Model SHOCKS Everyone" (OpenAI New gpt2 chatbot)
How To Not Be Replaced By AGI https://youtu.be/AiDR2aMye5M
Stay Up To Date With AI Job Market - https://www.youtube.com/@UCSPkiRjFYpz-8DY-aF_1wRg
AI Tutorials - https://www.you…
How To Not Be Replaced By AGI https://youtu.be/AiDR2aMye5M
Stay Up To Date With AI Job Market - https://www.youtube.com/@UCSPkiRjFYpz-8DY-aF_1wRg
AI Tutorials - https://www.you…
#ОбзорГены №6
Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".
{ Свежак }
🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.
{ Пульс }
⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.
{ Текстуры }
✅ Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
✅ Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
✅ "Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
✅ 30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
✅ Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
✅ Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.
{ Находки }
😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.
{ Перекресток мнений }
❓ Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.
#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
✅ Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
✅ "Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
✅ 30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
✅ Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
✅ Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.
{ Находки }
😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.
{ Перекресток мнений }
#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Prompt Generator - Anthropic
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.
Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).
И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.
#release #text #video #rag
Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).
И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.
#release #text #video #rag
#ОбзорГены №7
Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.
{ Свежак }
🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.
{ Пульс }
⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).
{ Текстуры }
✅ Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
✅ Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
✅ Еще один туториал про запуск LLM локально — правильный навык.
✅ Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
✅ Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
✅ Гениальные предметы интерьера, созданные через ИИ-перенос стиля.
{ Находки }
😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.
{ Перекресток мнений }
❓ GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.
#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
✅ Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
✅ Еще один туториал про запуск LLM локально — правильный навык.
✅ Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
✅ Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
✅ Гениальные предметы интерьера, созданные через ИИ-перенос стиля.
{ Находки }
😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.
{ Перекресток мнений }
#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
Первый бенчмарк для video-to-answer
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
#ОбзорГены №8
Две добротные недели. Всё крутится, всё движется.
{ Свежак }
🔠 Apple наконец внедрил AI в iPhone, пожалуй, самая сильная фича — голосовое управление приложениями.
🔠 Случилось аж два мощных релиза среди видеогенераторов: Kling и Luma. Последние очевидно используют свое лидерство в 3D.
🔠 Выложили веса Stable Diffusion 3 Medium — культовой визуальной нейросетки для сообщества. Полный open-source уходит в прошлое.
🔠 Anthropic запустил AI-агентов на базе чат-бота Claude.
🔠 Eleven Labs теперь генерирует любые звуки, не только речь.
{ Пульс }
⚡️ У Udio появился Audio2Audio режим. Режим редактирования — это первый шаг к полной адаптации новой технологии.
⚡️ В мире анимации фурор вызвала межкадровая интерполяция от ToonCrafter. Посмотрите сами.
⚡️ Окончательное решение вопроса с джейлбрейкерами: близко к тому, чтобы мошенничество с LLM пресекалось на уровне нейронов.
⚡️ В мире животных: учёные принялись за распознание лая собак.
{ Текстуры }
✅ Грядет Action Engine — центр интернета действий
✅ Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
✅ Гайд, как использовать GPT-Vision для настоящего OCR
✅ Как достать любой кастомный промпт из GPT?
✅ Обзор российских агрегаторов ботов (без vpn)
✅ AI-инструменты для маркетинга
✅ "Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
✅ Актуальная цитата из Стругацких
{ Находки }
😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.
{ Перекресток мнений }
❓ С чего начать? Apple на этой неделе выступил не как технологический лидер, а как отраслевой гигант, которого конкуренция вынудила внедрить AI. Другие крупные компании ощущают себя схоже: AI не угрожает их положению на рынке, а вот конкуренты с глубоко внедренным AI угрожают. Если присмотреться к тому, что именно внедряют корпорации, то можно увидеть "консервативный" AI: суммаризация, перевод, генерация картинок, общение с документом. Топ-4 для старта.
#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Две добротные недели. Всё крутится, всё движется.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Грядет Action Engine — центр интернета действий
✅ Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
✅ Гайд, как использовать GPT-Vision для настоящего OCR
✅ Как достать любой кастомный промпт из GPT?
✅ Обзор российских агрегаторов ботов (без vpn)
✅ AI-инструменты для маркетинга
✅ "Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
✅ Актуальная цитата из Стругацких
{ Находки }
😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.
{ Перекресток мнений }
#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
😮🔥😮🔥😮
В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).
Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.
Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.
#release #video
В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).
Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.
Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.
#release #video