{AI} love you | Нейросет
276 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
Всячески избегал крупных релизов недели (хотя все вокруг писали, пересылали и говорили мне об этом), но Microsoft сломал меня этой ночью. Случился типичный новый эпизод сериала об AI, который происходит прежде всего на экране, потому что обычным людям трудно поспевать за тестированием нового функционала, о котором собственно повествуют релизы. Что произошло со вторника по четверг?

1. Google интегрировал AI-ассистента Bard во все свои облачные инструменты для работы (так называемый Google Workspace): Gmail, Drive, YouTube, Maps и т.д. Об этом было объявлено еще на конференции Google в августе. Теперь дошло до реализации, и... это доступно российским аккаунтам. Больше никаких вечеринок с VPN.
Основная новость не в связке, например, Bard + YouTube (она тривиальна и давно решалась через плагины), а в связке всего со всем (почти как в фильме "Всё везде и сразу"). Почти тотальная AI-прошивка существующих сервисов. Интригой остается только способность Bard обратиться и прочитать все личные данные во всех сервисах (у него недостаточно контекста / памяти для этого, но это наживное).

2. OpenAI (хедлайнер заголовков из AI-мира) обновил свой генератор изображений DALL-E до 3-ей версии. До обновления DALL-E вылетел из топ-3 лидирующих визуальных нейросеток (Midjourney, Adobe Firefly, Stable Diffusion). Теперь претендент на возвращение. Вчера смотрел A/B сравнение с Midjourney, и обнаружил одно ключевое конкурентное преимущества: DALL-E хорошо работает с запросами на естественном языке (без специальной prompt-структуры). Скорее всего под капотом DALL-E есть оптимизатор промптов на основе GPT-4.

3. Microsoft повторил трюк Google для операционной системы Windows 11. Его AI-ассистента зовут Microsoft Copilot, и теперь он будет (еще нет) внутри Word, Excel, PowerPoint, Paint и др. Вторая тотальная AI-прошивка, теперь уже не-облачных сервисов. Обе прошивки действуют на основе языковых нейросетей и в моменте повышают значимость языкового промптинга (чему я обучаю в рамках курса).

Уверен, что Microsoft организовал свою вчерашнюю презентацию, чтобы сбить вау-эффект от интеграции Google Bard и присвоить часть эффекта от релиза DALL-E 3, который появится, например, внутри Paint. Драматургия AI-сервиса именно по-недельная, когда YouTube-обзорщики подводят итоги недели.

#bard #openai #release #dalle #copilot
Протестировал обновления Bard. Есть хорошая и плохая новость:

Плохая. Никакие Bard Extensions не добрались до России (также по-прежнему нужно включать VPN).

Хорошая. Обновления Bard, которые произошли в июле, уже большой шаг вперед (пропустил их). На скриншотах два полезных применения Bard:
1. Беседа вокруг картинки (действует на основе Google Объектив)
2. Таблицу, созданную внутри Bard, можно автоматом превратить в Google Sheets

Обзор интересных применений Bard Extensions можно увидеть здесь. Ожидаемо Bard не прочитывает весь ваш Google Диск, а лишь через векторный (семантический) поиск находит фрагменты, которые далее суммирует в ответе. Также он галлюцинирует не меньше ChatGPT, зато кнопка double-check - это бомба (круче, чем Perplexity).

#release #bard #review
Обновил свой Windows 11 с учетом релизов прошлой недели (от обещаний уже дошло до дела). Пришлось чуть поморочиться, нет авто-обновления для РФ, зато в интернете уже есть гайды. Microsoft Copilot работает только через VPN.

Особо не тестировал, из первых применений два:
- можно открыть программу изнутри чата (например, калькулятор), чтобы не искать иконку на рабочем столе или в глубинах "Пуска"
- можно сгенерировать картинку на основе DALL-E (например, лого к каналу - с первой попытки вышло неплохо)

В-общем, от меня уважение и признание, правда я не фанат Microsoft-интерфейса, поэтому вряд ли буду часто использовать.

#copilot #release #image
👆 мне подсказали, что картинка сгенерирована уже версией DALL-E 3, которая еще недоступна на сайте OpenAI (!). Судя по первым обзорам, с ней полный порядок, возможно это даже лучшая (!) визуальная нейросетка до выхода Midjourney v6. Если обновите Microsoft, то станете одними из первых, кто успел ее затестить.

#dalle #image #release
На прошлой неделе Adobe устроил канонаду релизов из того, что они уже запустили в свои продукты, и того, что только планируют. Одним словом, перепроизвели новости, поэтому кое-что даже не поместилось в традиционные обзоры, которые разошлись по интернету. Хочу рассказать про проект, который произвел на меня сильное впечатление, правда его внедрение впереди, и он оказался как раз среди затерявшихся в медиа.

Проект называется GlyphEase — узкоспециальная нейросеть для дизайнеров, создающая полноценный шрифт по нескольким отрисованным буквам и текстовому промпту. На двух картинках вы видите input и output, потребовалось всего три буквы, чтобы создать "хлебный" шрифт с укусами. Отличный пример, как нейросети помогают решать узкоспециальные задачи: дизайнер создает уникальный шрифт, выполнив около 10% объема механической работы (3 из 25 букв) и близко к 100% творческой работы (уникальный визуальный паттерн). Наконец, это еще один шажок в сторону генерации интересной инфографики.

#release #design #uiux #not_yet
Закончил работу над статьей "Как превратить ChatGPT в учебного ассистента?", где подытоживаю свои наработки. Публикация чуть затягивается, поэтому делюсь свежей находкой, поразившей меня на днях.

Несколько исследователей (в том числе из Adobe) создали нейросеть, преобразующую Rich Text (особую разметку текста, как в Word) в изображение. Получилось, что с помощью цвета текста можно управлять цветом детали на изображении, а также управлять результатом благодаря выбору шрифта и сноскам 🔥

Модель опубликована в октябре и еще не засвечена в обзорах, релиз прошел ниже радаров, но заявленный уровень контроля феноменален.

Источник

#image #SD #release #paper
This media is not supported in your browser
VIEW IN TELEGRAM
В четверг обновили генератор видео Runway Gen-2. Всех поражает качество изображения и консистентность при смене кадров. На паре тестовых генераций всё еще заметил дефекты с движением объектов внутри кадра и человеческой анатомией. Однако то, что вы видите — это непревзойденное качество.

#release #video #gen2
Опять могучие новости 🤌

#release #text #chatgpt
Tech-сообщество в восторге от вчерашних релизов OpenAI. Лидер есть лидер. Я бы даже сказал, что революция GenAI, начавшаяся год назад, сегодня закончилась и перешла в иную стадию. Прежде всего это появление GPT-store — маркетплейса кастомных ИИ-ассистентов, которые умеют не только болтать (как в Character.ai и Poe), а видеть / говорить / искать / действовать (за счет GPT-Vision, Code Interpreter и DALL-E 3). Это прототип альтернативного рынка труда. Предприимчивые люди будут создавать ИИ-ассистентов и объединять их в организации. Создать ИИ-ассистента — значит подобрать эталонный текст и запромптить логику поведения — всё программирование идет на естественном языке, впервые в истории.

Уникальный момент.

Если у OpenAI всё получится, то вокруг него образуется редкий пучок синергии. В AI все пробуют community-building, но по-настоящему получилось только у Stable Diffusion с платформой CivitAI как центральной точкой. Но для Stable Diffusion нужны классические программисты (создавать extensions) и энтузиасты (тренировать LoRA / Checkpoint), а для GPT-Store порог входа ниже. Нужно знать один из топ-10 мировых языков, уникальный датасет и иметь проектное / проблемное мышление, чтобы догадаться до оптимального решения кастомной задачи.

#release #text #chagpt #opinion
This media is not supported in your browser
VIEW IN TELEGRAM
В text-to-image произошел важный релиз. Вышла LoRA (до-обученная надстройка к базовой нейросети), которая ускоряет генерацию картинок в 5-10 раз в зависимости от железа. Благодаря этому наиболее мощное пользовательское (не-серверное) железо Nvidia 4090 ушло в subsecond интервал (меньше 1 секунды на генерацию). Если же использовать серверное железо, то возникает real-time редактирование при помощи текста (см. видео) 🔥

Источник

#release #image #gpu
Midjourney почти успели уступить лидерство в визуальных нейросетях, но еще поборятся.

#image #release
This media is not supported in your browser
VIEW IN TELEGRAM
Новая нейросеть с виральными видео 😃 Научились вмонтировать сторонние сущности в реальное видео. Качество низкое, но идея свежая.

Название — Viggle AI (доступна бесплатно в Discord).

#release #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.

Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).

И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.

#release #text #video #rag
This media is not supported in your browser
VIEW IN TELEGRAM
😮🔥😮🔥😮

В генерации видео происходит что-то невообразимое. Все один за другим преодолевают зловещую долину между качеством Sora и условным Pika Labs. Три релиза подряд (один китайский, два американских).

Происходит что-то именно революционное: все предыдущие видео-генераторы слегка анимировали изображение (зачастую через zoom in/out и тому подобное), а теперь в архитектуру генерации предположительно добавляют World Model (понимание пространства). И это работает, это становится стандартом.

Видео к посту от Runway — компании, придумавшей Stable Diffusion и запустившей генерацию видео через Gen-1. Теперь они представляют Gen-3, практически GPT-3.

#release #video
Claude снова побил GPT-4(o)

Только вчера думал, что Anthropic сдали: уступили второе место Gemini, а еще отключили большое контекстное окно в бесплатной версии Claude (ограничили примерно 25 страницами русскоязычного текста). Это было вчера.

#release #llm #leaderboard #benchmark