{AI} love you | Нейросет
273 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
За время моего погружения AI-образование появилось много новостей. Удивительно, но стабильным ньюсмейкером становится Text-to-3D, как-нибудь сделаю обзор. Генерация 3D — это вход в metaverse и смена представления о виртуальной реальности с серфинга по экрану на сновидение с полным погружением. Мы сейчас совсем не там, многие даже никогда не надевали шлем виртуальной реальности.

Но сегодня хочу рассказать про более прозаичную новость. Китайцы создали языковую нейросеть с самым большим контекстным окном (350 тыс. иероглифов), и туда поместилась "Анна Каренина", а "Война и мир" еще нет. На днях общался с приятелем о пользе LLM и архитектуре решений, которые люди начинают строить на базе LLM. Дошел до интересной мысли, что размер контекстного окна в ChatGPT является комфортным с точки зрения возможности контроля входных и выходных данных (грубо говоря, пара страниц Word). И вход, и выход человек может прочесть, соответственно самостоятельно вынести суждение о надежности результата. А теперь представьте, что вы не читали "Анну Каренину", а языковая модель вам выдает саммари на 1 страницу. Большинство людей посчитает это саммари бесполезным потому, что не доверяет ИИ. Эта задачка четко выводит человека из зоны комфорта и заставляет довериться тому, в чем он не уверен. Тут как раз и возникает профессиональное требование к архитектуре решения, которое будет надежным. И вообще в этой ситуации возникают профессионалы, которые берут на себя ответственность.

Я всё более склоняюсь к тому, что именно сжатие информации при помощи GenAI обладает наибольшим экономическим потенциалом, а вовсе не генерация контента с нуля.

Источник

#text #news #3d
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI показали крошки от того, на что новая модель GPT-4o способна. В демо сконцентрировались на голосовом общении (впечатляющем!), но посмотрите, что случилось с визуалом 👆:
— генерация рукописного текста
— идеальная передача печатного текста
— наконец, инфографика ✔️
— брендирование (перенос лого из входного изображения)
— генерация 3D на основе 6 консистентных изображений 👇🏻

Первая true-multimodal модель, где на вход и на выход подаются все модальности, с которыми нейросети вообще справляются. Плюс на стыке модальностей очевидно возникли новые способности, которых не было у mono-modal моделей по отдельности. В очередной раз OpenAI выпустили лидирующую general use модель.

#openai #speech #image #3d #vision #consistency