{AI} love you | Нейросет
273 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
#ОбзорГены

Что не могло пройти мимо радаров на минувшей неделе, а также неожиданно нашло отклик? Возникла потребность еженедельно бросать якорь в области GenAI — оставлять на память ключевые события: релизы, новости, материалы и темы.

{ Свежак }

🔠 Adobe анонсировал ControlNet для Firefly под названием Structure reference. Можно сгенерировать изображение на основе структуры (depth и др.) input-изображения. Давно есть в Stable Diffusion, однако нет ни у DALL-E, ни у Midjourney.
🔠 Hume.ai выпустили голосового чатбота со способностью распознавать эмоции. Самобытная компания, названная по имени великого шотландского философа-эмпириста, обучает именно эмоциональные модели в разных модальностях (текст / изображение / речь / видео). Давно слежу за ними, использую их технологию в одном проекте.

{ Пульс }

⚡️ Claude 3 Opus опередил GPT-4 (последней версии) на Chatbot Arena Leaderboard, где пользователи вслепую голосуют за лучший ответ одной из двух моделей. А еще бесплатный Claude "на голову" лучше бесплатного ChatGPT, правда с более жесткими ограничениями на пользование.
⚡️ Модель YandexGPT 3 Pro можно дообучить под свои нужды в сервисе DataSphere. Яндекс стабильно отстает примерно на 1 год от OpenAI, зато они остаются лидерами для российских разработчиков, которые по тем или иным причинам не могут использовать зарубежные модели.

{ Текстуры }

Знаменитый Andrew Ng рассказал об AI Agentic workflows — по его мнению, результатов GPT-5 в zero-shot версии можно добиться уже сейчас за счет правильного Agentic workflow (итеративная генерация + добавление внешних инструментов). Авто-планирование шагов и мульти-агентные фреймворки, по его мнению, пока недостаточно надежны.
Ресерч по AI-детекторам — отличный разбор того, можно ли достоверно определить является ли текст ИИ-сгенерированным? Короткий ответ — нет.
ChatGPT справляется с задачами на программирование с leetcode — пользовательский разбор.

{ Перекресток мнений }

GPTs c кастомными функциями. Есть мнение, что GPT-store еще не успев полноценно заработать, уже превратился в помойку с тысячами не отличимых друг от друга GPT-ассистентами. Я соглашусь с этим мнением в том, что пока затраты на поиск и тестирование сторонних GPTs превышает выгоду. Однако всё меняет одна черта — наличие внешних (кастомных) функций, нереализованных внутри ChatGPT. В качестве примера Photo Realistic GPT, который под капотом использует Stable Diffusion вместо DALL-E.

#image #hume #text #claude #llm #finetuning #gpts #aiagent #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №2

Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.

{ Свежак }

🔠 Spotify запустил плейлисты, которые собираются по текстовым запросам (пример LLM рекомендательной системы, которую я несколько раз подсвечивал)
🔠 SberDevices представили Giga Acoustic Model — семейство моделей для обработки звучащей речи, обученных на русском языке. В частности у них появился GigaAM-Emo для определения эмоций по речи как русскоязычный аналог Hume.ai
🔠 Cohere выпустили Command R+ — прекрасную open-sourse LLM, для которой не нужен супер компьютер (но 2x3090). Вообще Cohere — теневые лидеры в поставке LLM-моделей для RAG-чатботов и других корпоративных решений.
🔠 Теперь ChatGPT может редактировать изображения DALL-E (делать inpainting выделенной области).

{ Пульс }

⚡️ AssemblyAI со своей моделью Universal-1 перехватили пальму первенства по качеству расшифровки аудио в текст
⚡️ Anthropic обнаружили новый способ взлома LLM (с длинным контекстом) — many-shot jailbreaking. Этот прием возник именно из-за длинного контекста.
⚡️ DeepMind представили исследование про генерацию токенов в LLM с разным количеством ресурсов / энергии. Это движение в сторону так называемой "Системы 2", когда LLM будет способна "напрягаться", чтобы спланировать свой ответ и лишь потом его генерировать.

{ Текстуры }

Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.

{ Перекресток мнений }

Позиционирование естественного интеллекта. Присутствие ИИ в определенных задачах (tasks) фрустрирует людей и проблематизирует их место в работе (job). На мой взгляд, у людей возникла путаница между результатом и процессом. ИИ часто обыгрывает человека в определенной задаче по результату, используя совсем не человеческий процесс. Нейросети вообще натренированы на результат с попыткой хакнуть процесс. При этом для ИИ достижим отличный результат далеко не во всех сферах, а еще далеко не всегда результат — это главное. Иногда главное — это присутствие в процессе, для которого самое важное мгновенно оценивать изменяющийся контекст и адекватно на него реагировать.

#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №3

{ Пульс }

⚡️ GPT-4 вернул лидерство среди LLM и стал заметно лучше в математике / рассуждениях.
⚡️ ChatGPT-момент в генерации песен. Кроме того, новичок Udio обошел Suno.
⚡️ Общение с цифровым аватаром — создали первую open-source сборку, где можно пообщаться с ИИ, как по зуму.
⚡️ ИИ видит сквозь стены благодаря Wi-Fi — анализ Wi-Fi волн позволяет ИИ фиксировать присутствие людей.

{ Свежак }

🔠 Adobe добавит AI в видеоредактор Premiere — причем как свои нейросети, так и сторонние (Sora).
🔠 YandexGPT 3 Pro появилась в голосовом помощнике «Алиса».
🔠 Amazon включил в состав совета директоров Эндрю Ына (Andrew Ng) — одного из наиболее уважаемых экспертов в AI-индустрии.

{ Текстуры }

AI Index Report 2024 — ежегодный отчет от Стенфорда про тренды в AI.
Системный промпт Claude — пример лаконичного промптинга.
Карта ИИ-стартапов 2024 года — самая полная ИИ-карта.
43% студентов используют в учебе ИИ — исследование от НИУ-ВШЭ с подтверждением мысли о повальном использовании ChatGPT среди студентов.
VoiceCraft: Zero-Shot редактор речи — прототип аудиоредактора, где речь можно изменять правкой текста.

{ Находки }

😯 Noctie — Шахматный ИИ-тренер.
😯 Real-time 3D generation — связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
😯 gpt-llm-trainer — упрощает процесс до-обучения ИИ-моделей под конкретную задачу.

{ Перекресток мнений }

AI-FOMO. Никто не успевает за событиями в AI-мире. Это нормально. Успевать — кажется, вообще неважно, потому что отношения с ИИ надолго сохранятся, хотя будут и трансформироваться. Сейчас мы используем самые сильные нейросети как исполнителя, а позже (когда они станут умнее нас) будем учиться у самых сильных нейросетей как студент / подмастерье. Опоздать здесь нельзя.

#llm #text #music #speech #video #research #games #fomo #edu #map #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №4

Минувшая неделя отметилась очередью релизов, а также интересно наблюдать за применением AI в отраслях от маркетинга до спорта.

{ Свежак }

🔠 LLaMa-3 — новый лидер среди open source LLM. Результаты ChatBot Arena. На Hugging Face опубликовали обучающий датасет LLaMA-3.
🔠 Adobe выпустил Acrobat AI Assistant — чат-бот для поиска по PDF, также компания представила VideoGigaGAN — 8х апскейлер для видео.
🔠 Boston Dynamics представила Atlas, нового гуманоида на электродвигателях вместо поршней.
🔠 Вышла Reka Core — мультимодальная языковая модель, которая по Vision не хуже лидеров.
🔠 Яндекс релизнул сервис Нейро (аналог Perplexity).

{ Пульс }

⚡️ Легковесные LLM (LLaMA-3 8B / CodeQwen1.5-7B), размещаемые локально, обошли ChatGPT-3.5.
⚡️ Грядет новое поколение анимированных аватаров — VASA от Microsoft.
⚡️ Исследование: LLM лучше людей в фактчекинге.

{ Текстуры }

Мысли про prompt-gramming (программирование на естественном языке) — ожидаем бум программируемой электроники.
Каким станет веб-сайт в эпоху AI-чатботов / агентов — маркетологи не готовы полностью от него отказаться, но веб-сайт будет совершенно иным.
Как запустить LLaMA-3 8В на локальном компьютере — используйте LM Studio.
Как AI научился рекомендовать тактические приемы при угловых в футболе — разбор проекта DeepMind.
Примеры применения Knowledge Maps в LLM-чатботах — подборка от тг-канала "LLM под капотом".
Подборка ИИ-сервисов для ученых — от исследовательницы.
Учёные, исследовавшие ДНК кишечной микрофлоры, встроили в Borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК. В игру поиграло более 4 млн человек.

{ Находки }

😯 Lightning AI — альтернатива Google Colab для запуска нейросетей и GenAI-приложений.
😯 Vision Arena — таблица лидеров среди Vision-моделей.
😯 Waicas — всемирный конкурс среди создателей AI-инфлюенсеров.

{ Перекресток мнений }

Великий ограничитель. В добавление к предыдущему посту интересный момент, что речь не о тотальной нехватки энергии, а о сконцентрированной в одном месте. Грубо говоря, датацентры (сверхкомпьютеры) начнут строить сразу вместе с электростанциями. Многие в индустрии ждут и надеются на прорыв в термоядерном синтезе, что символично для моего родного Троицка. Вряд ли советские ученые 1970-х думали, что создают технологию для искусственного интеллекта 😃

#llm #text #rag #robotics #research #promptgramming #industry #energy
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №5

Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.

{ Свежак }

🔠 GPT-5 (или около того) появилась на чатбот арене под загадочным названием gpt2.
🔠 Релиз нового поколения ИИ-аватаров от Synthesia (конкурента HeyGen).
🔠 Вышла версия LLaMA-3-8B (легковесная) с контекстным окном в 1 миллион токенов (!), как у Gemini 1.5.
🔠 Китайский генератор видео Vidu первым приблизился к качеству, заданному Sora от OpenAI.

{ Пульс }

⚡️ Медицинская модель OpenBioLLM 70B вышла на первое место по тестам на медицинских задачах (даже выше GPT-4).
⚡️ LMSYS разработали новый бенчмарк Arena Hard v0.1 на основе анализа пользовательских запросов на Chatbot Arena.
⚡️ Складывается новый тип устойчивых моделей — генерация изображения человека по одному (!) обучающему фото. Новая модель из этого класса — Consistent ID.
⚡️ Аналогичная ситуация в виртуальных примерочных (одеть человека в заданную одежду), качество моделей растет. Две новые — IDM-VTON и Magic Clothing.
⚡️ По-настоящему важно: прорыв в редактировании человеческого ДНК с помощью ИИ.

{ Текстуры }

ChatGPT-3.5 всё — пора пользоваться другими LLM.
Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер: остается много человеческого труда.
Тренды в GenAI от Степана Гершуни.
Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.

{ Находки }

😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).

{ Перекресток мнений }

Цикл обновления GenAI. Несмотря на постоянное FoMO в GenAI, на мой взгляд, сложились четкие циклы. За один год базовая модель устаревает (сменяется поколение моделей), каждые три месяца — происходит значимый шаг вперед. Это всё применимо только для тех классов моделей, которые прошли свой "ChatGPT-момент" (X), то есть массовая аудитория почувствовала и научилась извлекать ценность технологии. По ту сторону X сейчас: LLM, RAG-чатботы, Code Interpretator, VLM (Vision-модели), генерация / restyle / inpainting / upscale изображения, depth-анимация, расшифровка речи, TTS (синтез речи), генерация музыки и их композ. Всё.

#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №7

Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.

{ Свежак }

🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.

{ Пульс }

⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).

{ Текстуры }

Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
Еще один туториал про запуск LLM локально — правильный навык.
Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
Гениальные предметы интерьера, созданные через ИИ-перенос стиля.

{ Находки }

😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.

{ Перекресток мнений }

GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.

#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №8

Две добротные недели. Всё крутится, всё движется.

{ Свежак }

🔠 Apple наконец внедрил AI в iPhone, пожалуй, самая сильная фича — голосовое управление приложениями.
🔠 Случилось аж два мощных релиза среди видеогенераторов: Kling и Luma. Последние очевидно используют свое лидерство в 3D.
🔠 Выложили веса Stable Diffusion 3 Medium — культовой визуальной нейросетки для сообщества. Полный open-source уходит в прошлое.
🔠 Anthropic запустил AI-агентов на базе чат-бота Claude.
🔠 Eleven Labs теперь генерирует любые звуки, не только речь.

{ Пульс }

⚡️ У Udio появился Audio2Audio режим. Режим редактирования — это первый шаг к полной адаптации новой технологии.
⚡️ В мире анимации фурор вызвала межкадровая интерполяция от ToonCrafter. Посмотрите сами.
⚡️ Окончательное решение вопроса с джейлбрейкерами: близко к тому, чтобы мошенничество с LLM пресекалось на уровне нейронов.
⚡️ В мире животных: учёные принялись за распознание лая собак.

{ Текстуры }

Грядет Action Engineцентр интернета действий
Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
Гайд, как использовать GPT-Vision для настоящего OCR
Как достать любой кастомный промпт из GPT?
Обзор российских агрегаторов ботов (без vpn)
AI-инструменты для маркетинга
"Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
Актуальная цитата из Стругацких

{ Находки }

😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.

{ Перекресток мнений }

С чего начать? Apple на этой неделе выступил не как технологический лидер, а как отраслевой гигант, которого конкуренция вынудила внедрить AI. Другие крупные компании ощущают себя схоже: AI не угрожает их положению на рынке, а вот конкуренты с глубоко внедренным AI угрожают. Если присмотреться к тому, что именно внедряют корпорации, то можно увидеть "консервативный" AI: суммаризация, перевод, генерация картинок, общение с документом. Топ-4 для старта.

#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Please open Telegram to view this post
VIEW IN TELEGRAM