Transformer
1.47K subscribers
19 photos
7 videos
3 files
50 links
Про ИИ и стартапы.

Денис Волхонский @den_vol. Рекламу не продаю
Download Telegram
Написал пост с 12 идеями стартапов, которые можно сделать на основе ChatGPT.

Это моя новая email рассылка на английском про ИИ и стартапы. Внизу страницы есть форма, чтобы подписаться. Каждый четверг буду присылать что-то новое и полезное, так что подписывайтесь.

https://syntha.beehiiv.com/p/12-startup-ideas-one-can-implement-with-chatgpt
🔥3
​​Большинство современных приложений и сервисов для хранения данных используют базы данных. Чтобы доставать из них данные, был придуман специальный язык — SQL. Типичный запрос, переведённый мной на русский язык, будет выглядеть примерно так:

Выбери пользователей из таблицы ПОЛЬЗОВАТЕЛЬ, у которых год рождения больше 1990 и пол мужской, соедини с таблицей РАБОТОДАТЕЛЬ по столбцу работа, отфильтруй тех, у кого опыт работы больше 5 лет, отсортируй по зарплате.

Для опытного инженера это не сложно, но всё равно требует времени, чтобы его написать. Но часто такие запросы нужно писать аналитикам, менеджерам и людям, далёким от SQL. Тогда это может оказаться сущим адом.

Стартап AI2SQL решил использовать GPT-3, чтобы упростить программистам жизнь. Всё, что вам нужно — ввести запрос на английском языке. На выходе получаете готовый SQL запрос.

Стоит сервис $7-17 долларов в месяц в зависимости от тарифа. На данный момент стартап зарабатывает $1000 в месяц.
👍7🔥1
Как распознать текст, сгенерированный ИИ

Open AI выпустила модель, которая может идентифицировать текст, сгенерированный искусственным интеллектом. Он использует дообученную версию GPT, которая предсказывает одну из пяти меток: "very unlikely", "unlikely", "unclear if it is", "possibly", или "likely” AI-generated. Думаю, что что-то подобное уже встроено в поисковик гугла, чтобы не пускать в топы выдачи сгенерированный контент.

По сути — это классификатор. А любой классификатор можно обмануть. Существует такая область исследований ИИ как Adversarial Attacks. Она очень распространена на картинках.

Представьте, у вас есть очень хороший классификатор, который отличает разные породы животных. Суть атаки не него заключается в том, что вы изменяете картинку так, чтобы он ошибся. Причём делаете вы это незаметно человеческому глазу.

Разберём на примере. У нас есть фото кошки. Мы хотим, чтобы классификатор принял кошку за собаку. При этом внешне она должна остаться кошкой на фото. Обычно в таких случаях можно взять числа на выходе из другой нейросети для собаки(!), и прибавить эти числа к значениям пикселей на фото кошки. Если всё правильно сделать, то атакуемая нейросеть начнёт выдавать класс “собака” для фото кошки.

Я бы ожидал, что подобные атаки появятся для текстовых классификаторов. Возможно, в виде сервисов “сгенерируй текст, который даже гугл не отличит от настоящего”. Что приведёт к развитию методов обнаружения таких атак. ИИ против ИИ. Раунд.
🔥12👍7🤔2
Картинки, иллюстрирующие принцип адверсариал атаки
👍131
Написал статью про новые методы редактирования изображений с помощью генеративных сеток: Prompt-to-Prompt и InstructPix2Pix.

https://syntha.beehiiv.com/p/new-generative-ai-open-source-models-for-image-editing
👍61🔥1
​​Сколько стоит создать иконку для приложения? На фриланс бирже Fiver за такое просят 5-10 долларов за иконку. Заказ обещают выполнить за 24 часа.

На днях наткнулся на сервис IconifyAI, который заменяет фрилансеров нейросетью. Сервис решает ровно одну функцию — генерацию иконки для вашего приложения.

Вы выбираете объект, которых хотите видеть на иконке, стиль, цвет и форму. Спустя пару минут получаете целый набор иконок. Пятнадцать штук обойдутся в десять долларов.

Предположу, что под капотом работает либо Stable Diffusion, либо DALLE 2. Обе нейронки позволяют генерировать изображения из текстового описания (это называется prompt). Чтобы получить от нейросети иконки, нужно лишь правильным образом составить prompt. Например, “app icon with a realistic dog sitting on a chair, round shape, blue and yellow colors”. Задача IconifyAI — правильно сформировать prompt и отправить API запрос на сервер.

Интересно, что основателю проекта пятнадцать лет, что не может не восхищать.

Думаю, стоит обновить логотип этого канала на сгенерированный нейросетью (я использовал Midjourney). 👇
🔥10👍5😁1
Channel photo updated
Написал статью про 11 стартапов в области генеративного ИИ для изображений. Базы данных сгенерированных изображений, генерация аватаров, профилей для сайтов знакомств и виртуальная пересадка волос.

https://syntha.beehiiv.com/p/11-generative-ai-startups-without-chatgpt
👍13🔥1😁1
Картинки генерировать ± умеем. Что дальше?

Модели Stable Diffusion, Midjourney и DALLE-2 показали впечатляющие результаты в генерации изображений. Закономерный вопрос: а как генерировать видео? Про это расскажу в этом и следующем посте.

Видео — структура более сложная, чем картинки. Можно сказать, что видео — это набор картинок, плавно перетекающих из одной в другую. Если мы хотим сгенерировать изображение размером 512x512 пикселя, то нам нужно предсказать 3x512x512=786,432 значения. Если же мы хотим сгенерировать всего лишь секунду видео, то нам нужно сгенерировать 30 таких кадров, а это 23,592,960 значений.

Обучать такие модели сильно сложнее. Поэтому встаёт вопрос: можно ли использовать существующие модели для картинок, чтобы генерировать видео? В недавней работе **Tune-A-Video** авторы показали, что да, можно.

Их метод дообучает натренированную модель для генерации картинок, используя всего лишь одну пару текст-видео. После этого вы можете генерировать похожие видео, меняя стиль видео, объект на видео или другие детали. Например, заменить человека на обезьяну или зайца на льва.

Работает, конечно, не идеально. Но это значительный шаг к генерации качественного видео. Ниже приложу примеры. А ещё больше примеров можете посмотреть на сайте проекта: https://tuneavideo.github.io/.
👍6🔥3
Первое видео для дообучения. Остальные сгенерированы со следующими промптами:

- Spider Man is skiing on the beach, cartoon style
- Wonder Woman, wearing a cowboy hat, is skiing
- A man, wearing pink clothes, is skiing at sunset
👍8🔥41
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем про генерацию видео (сделаю вид, что с предыдущего поста прошло два дня).

ModelScope — это новая диффузионная модель для генерации видео из текста. Она работает аналогично генеративному ИИ для изображений: превращает запрос в видео.

У модели есть несколько ограничений:

1. Она работает только с разрешением 256x256. Но это нормально: мы только в начале бума генерации видео.
2. Слово «Shutterstock» присутствует почти на каждом видео в их демо 🤦‍♂️. Интересно, откуда они получили данные для обучения.

Посмотрите, что можно сделать с такой моделью.

Google Colab
👍125🔥2
Начнём с того, что на видео автор канала делает скручивания на пресс в пластилиновой и бумажной вселенных. Вот что такое мультивселенная безумия на самом деле, Доктор Стрэндж!

Сделать это возможно с новой моделью для обработки видео Gen-1. Что может эта модель:

1. Стилизовать видео на основе картинки (как это сделал я)
2. Стилизовать видео на основе текстового промпта
3. Изменять участки видео на основе текстового промпта (inpainting)

Модель уже доступна всем желающим, попробовать можно тут. Как её можно использовать:

- Создавать свои мультфильмы на основе видео, снятого на телефон. Вот так можно сделать из своего туалета целую студию.
- Соединять ChatGPT с сервисами по созданию видео. Пусть машины работают.

У этой модели уже вышло продолжение Gen-2, которое пока не в общем доступе. Расскажу об этом в следующем посте.
👍777🔥2