{AI} love you | Нейросет
284 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
Возвращаюсь.

В конце прошлого года почувствовал кризис жанра, случился разрыв между повесткой гиков и новичков, слишком многое произошло за 2023 год. Первоначально я собирался ориентировать канал для GenAI-новичков, но со временем сдвинулся в сторону cutting-edge. В 2024-м невозможно быть GenAI-новичком, точнее придется пересказывать массу фактов, которые уже стали общим местом. Отсюда выработал новый срединный фокус — prompt-gramming, или программирование на естественном языке. Со временем я осознал, что GenAI нынешнего поколения не прямо для всех и каждого, а скорее для тех, кто по жизни структурирует реальность вокруг и "программирует" процессы (пусть даже без использования формальных языков). Для prompt-gramming не нужно быть технарем (с пониманием, как устроена компьютерная инфраструктура), но и без стремления управлять энтропией не обойтись.

Программирование на естественном языке стало возможно благодаря высокой надежности в имитации формальных, программных языков в GenAI (особенно Python / Javascript / Markdown / HTML / CSV). Имитация тегирования как формального языка описания изображений тоже доведена до совершенства, поэтому визуальные нейросети уже отвоевали себе место под солнцем. Мне кажется, люди ценят их даже выше, чем языковые нейросети. Ловите тест от The New York Times, где вы не сможете отличить настоящее лицо человека от сгенерированного нейросетью (причем не новейшей).

#promptgramming #image
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №2

Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.

{ Свежак }

🔠 Spotify запустил плейлисты, которые собираются по текстовым запросам (пример LLM рекомендательной системы, которую я несколько раз подсвечивал)
🔠 SberDevices представили Giga Acoustic Model — семейство моделей для обработки звучащей речи, обученных на русском языке. В частности у них появился GigaAM-Emo для определения эмоций по речи как русскоязычный аналог Hume.ai
🔠 Cohere выпустили Command R+ — прекрасную open-sourse LLM, для которой не нужен супер компьютер (но 2x3090). Вообще Cohere — теневые лидеры в поставке LLM-моделей для RAG-чатботов и других корпоративных решений.
🔠 Теперь ChatGPT может редактировать изображения DALL-E (делать inpainting выделенной области).

{ Пульс }

⚡️ AssemblyAI со своей моделью Universal-1 перехватили пальму первенства по качеству расшифровки аудио в текст
⚡️ Anthropic обнаружили новый способ взлома LLM (с длинным контекстом) — many-shot jailbreaking. Этот прием возник именно из-за длинного контекста.
⚡️ DeepMind представили исследование про генерацию токенов в LLM с разным количеством ресурсов / энергии. Это движение в сторону так называемой "Системы 2", когда LLM будет способна "напрягаться", чтобы спланировать свой ответ и лишь потом его генерировать.

{ Текстуры }

Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.

{ Перекресток мнений }

Позиционирование естественного интеллекта. Присутствие ИИ в определенных задачах (tasks) фрустрирует людей и проблематизирует их место в работе (job). На мой взгляд, у людей возникла путаница между результатом и процессом. ИИ часто обыгрывает человека в определенной задаче по результату, используя совсем не человеческий процесс. Нейросети вообще натренированы на результат с попыткой хакнуть процесс. При этом для ИИ достижим отличный результат далеко не во всех сферах, а еще далеко не всегда результат — это главное. Иногда главное — это присутствие в процессе, для которого самое важное мгновенно оценивать изменяющийся контекст и адекватно на него реагировать.

#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №3

{ Пульс }

⚡️ GPT-4 вернул лидерство среди LLM и стал заметно лучше в математике / рассуждениях.
⚡️ ChatGPT-момент в генерации песен. Кроме того, новичок Udio обошел Suno.
⚡️ Общение с цифровым аватаром — создали первую open-source сборку, где можно пообщаться с ИИ, как по зуму.
⚡️ ИИ видит сквозь стены благодаря Wi-Fi — анализ Wi-Fi волн позволяет ИИ фиксировать присутствие людей.

{ Свежак }

🔠 Adobe добавит AI в видеоредактор Premiere — причем как свои нейросети, так и сторонние (Sora).
🔠 YandexGPT 3 Pro появилась в голосовом помощнике «Алиса».
🔠 Amazon включил в состав совета директоров Эндрю Ына (Andrew Ng) — одного из наиболее уважаемых экспертов в AI-индустрии.

{ Текстуры }

AI Index Report 2024 — ежегодный отчет от Стенфорда про тренды в AI.
Системный промпт Claude — пример лаконичного промптинга.
Карта ИИ-стартапов 2024 года — самая полная ИИ-карта.
43% студентов используют в учебе ИИ — исследование от НИУ-ВШЭ с подтверждением мысли о повальном использовании ChatGPT среди студентов.
VoiceCraft: Zero-Shot редактор речи — прототип аудиоредактора, где речь можно изменять правкой текста.

{ Находки }

😯 Noctie — Шахматный ИИ-тренер.
😯 Real-time 3D generation — связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
😯 gpt-llm-trainer — упрощает процесс до-обучения ИИ-моделей под конкретную задачу.

{ Перекресток мнений }

AI-FOMO. Никто не успевает за событиями в AI-мире. Это нормально. Успевать — кажется, вообще неважно, потому что отношения с ИИ надолго сохранятся, хотя будут и трансформироваться. Сейчас мы используем самые сильные нейросети как исполнителя, а позже (когда они станут умнее нас) будем учиться у самых сильных нейросетей как студент / подмастерье. Опоздать здесь нельзя.

#llm #text #music #speech #video #research #games #fomo #edu #map #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №4

Минувшая неделя отметилась очередью релизов, а также интересно наблюдать за применением AI в отраслях от маркетинга до спорта.

{ Свежак }

🔠 LLaMa-3 — новый лидер среди open source LLM. Результаты ChatBot Arena. На Hugging Face опубликовали обучающий датасет LLaMA-3.
🔠 Adobe выпустил Acrobat AI Assistant — чат-бот для поиска по PDF, также компания представила VideoGigaGAN — 8х апскейлер для видео.
🔠 Boston Dynamics представила Atlas, нового гуманоида на электродвигателях вместо поршней.
🔠 Вышла Reka Core — мультимодальная языковая модель, которая по Vision не хуже лидеров.
🔠 Яндекс релизнул сервис Нейро (аналог Perplexity).

{ Пульс }

⚡️ Легковесные LLM (LLaMA-3 8B / CodeQwen1.5-7B), размещаемые локально, обошли ChatGPT-3.5.
⚡️ Грядет новое поколение анимированных аватаров — VASA от Microsoft.
⚡️ Исследование: LLM лучше людей в фактчекинге.

{ Текстуры }

Мысли про prompt-gramming (программирование на естественном языке) — ожидаем бум программируемой электроники.
Каким станет веб-сайт в эпоху AI-чатботов / агентов — маркетологи не готовы полностью от него отказаться, но веб-сайт будет совершенно иным.
Как запустить LLaMA-3 8В на локальном компьютере — используйте LM Studio.
Как AI научился рекомендовать тактические приемы при угловых в футболе — разбор проекта DeepMind.
Примеры применения Knowledge Maps в LLM-чатботах — подборка от тг-канала "LLM под капотом".
Подборка ИИ-сервисов для ученых — от исследовательницы.
Учёные, исследовавшие ДНК кишечной микрофлоры, встроили в Borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК. В игру поиграло более 4 млн человек.

{ Находки }

😯 Lightning AI — альтернатива Google Colab для запуска нейросетей и GenAI-приложений.
😯 Vision Arena — таблица лидеров среди Vision-моделей.
😯 Waicas — всемирный конкурс среди создателей AI-инфлюенсеров.

{ Перекресток мнений }

Великий ограничитель. В добавление к предыдущему посту интересный момент, что речь не о тотальной нехватки энергии, а о сконцентрированной в одном месте. Грубо говоря, датацентры (сверхкомпьютеры) начнут строить сразу вместе с электростанциями. Многие в индустрии ждут и надеются на прорыв в термоядерном синтезе, что символично для моего родного Троицка. Вряд ли советские ученые 1970-х думали, что создают технологию для искусственного интеллекта 😃

#llm #text #rag #robotics #research #promptgramming #industry #energy
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude — самый растущий LLM-чатбот в моменте 🔥

Данные подтверждают интуицию, что Claude заметно прибавил после релиза третьей версии модели. Согласно SimilarWeb, веб-трафик в марте вырос более чем в два раза. Несмотря на относительно низкую базу, это внушительный результат. Отметил бы еще, что в эти месяцы они успели выпустить туториал по промптингу в Google Sheets (!) и отличную библиотеку промптов. А в перформансе Claude превосходит ChatGPT по некоторым типам задачам, один из неожиданных юзкейсов опишу на следующей неделе.

Источник графика

#llm #text #promptgramming #stats
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №7

Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.

{ Свежак }

🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.

{ Пульс }

⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).

{ Текстуры }

Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
Еще один туториал про запуск LLM локально — правильный навык.
Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
Гениальные предметы интерьера, созданные через ИИ-перенос стиля.

{ Находки }

😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.

{ Перекресток мнений }

GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.

#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM