Теперь вернемся к основной теме, Large Scale Reward Modeling. Проблема с подходом выше в том, что он плохо масштабируется - чтобы собрать в 10 раз больше данных, нужно заплатить в 10 раз больше за разметку. А ещё такая разметка очень дорога, если хочется получить чистые, выверенные данные, а не рандомные клики. OpenAI в своих экспериментах на момент 21го года использовали порядка 50-60к размеченных пар. По меркам машинного обучения и NLP это не то чтобы много.
Автор работы в рамках OpenAI Schoolars задался вопросом: можно ли получать эти данные в больших количествах и почти бесплатно? Ведь у нас есть интернет, и нужно просто поискать. Ответ нашелся быстро - Reddit. Это почти идеальная система, ведь на ней есть сотни тысяч постов, для каждого из них сотни комментариев, и можно придумать способы оценки этих самых комментариев. Много лайков за час, да еще и медальки получил? Скорее всего, это классный текст, уместный. За 4 года получил 3 апвоута и 1 дизлайк? Meh.
Что было сделано:
- соскраплен сабреддит /r/WritingPrompts, где люди в ответ на начало истории пытаются дописать продолжение (идеально для генеративных моделей!)
- собран автоматический датасет пар сравнений комментариев-ответов. Пара формируется только среди ответов +- одинаковой длины, +- одного времени публикации, но при этом с разницей в рейтинге (апвоуты минус дизлайки) больше 100
- из датасета эвристиками вытащено и провалидировано ~900 примеров. Отложено для замера метрик, о них ниже.
- на этом натренирована модель оценки, которая говорит, что один комментарий лучше или хуже другого. Всего в трейне порядка 350к пар, что существенно больше датасетов, используемых OpenAI. Понятно, что сам датасет шумнее, и ограничен в домене, но всё же.
- на отложенной выборке замерены метрики моделей разных размеров и обученных на разном проценте данных (см. скриншот). Лушчий результат accuracy в районе 74%. Не кажется таким хорошим, однако тут всплывает проблема сравнения предпочтений. Даже в рамках исследователей OpenAI обычно согласованность оценок на уровне 75-78%. То есть это потолок, в который мы упираемся. Грусть :(
Видно, что большая модель GPT-2 учится почти моментально, и затем выходит на плато. Модели поменьше постепенно догоняют её, хотя совсем маленькая (117M) всё же отстает значимо.
🖥 Что можно сделать дальше (и что не было сделано), или идея для пет-проджекта:
используя эту Reward Model (она опубликована, кстати, как и датасет), с помощью RL обучить генеративные модели дописывать комментарии на Reddit. Затем запустить бота, который публикует их и через API собирает разметку, дообучая RM уже напрямую из свежесобранного фидбека. Улучшаем модель, и так по кругу! RL from Human Feedback в чистом виде! Начать читать по теме можно тут или тут.
...или придумать что-то своё. Перетянуть на другой сабреддит, на другой форум, повторить то же на русском - да что угодно!
...а человек, защитивший проект, с тех пор работает в OpenAI. Морали нет😁
Автор работы в рамках OpenAI Schoolars задался вопросом: можно ли получать эти данные в больших количествах и почти бесплатно? Ведь у нас есть интернет, и нужно просто поискать. Ответ нашелся быстро - Reddit. Это почти идеальная система, ведь на ней есть сотни тысяч постов, для каждого из них сотни комментариев, и можно придумать способы оценки этих самых комментариев. Много лайков за час, да еще и медальки получил? Скорее всего, это классный текст, уместный. За 4 года получил 3 апвоута и 1 дизлайк? Meh.
Что было сделано:
- соскраплен сабреддит /r/WritingPrompts, где люди в ответ на начало истории пытаются дописать продолжение (идеально для генеративных моделей!)
- собран автоматический датасет пар сравнений комментариев-ответов. Пара формируется только среди ответов +- одинаковой длины, +- одного времени публикации, но при этом с разницей в рейтинге (апвоуты минус дизлайки) больше 100
- из датасета эвристиками вытащено и провалидировано ~900 примеров. Отложено для замера метрик, о них ниже.
- на этом натренирована модель оценки, которая говорит, что один комментарий лучше или хуже другого. Всего в трейне порядка 350к пар, что существенно больше датасетов, используемых OpenAI. Понятно, что сам датасет шумнее, и ограничен в домене, но всё же.
- на отложенной выборке замерены метрики моделей разных размеров и обученных на разном проценте данных (см. скриншот). Лушчий результат accuracy в районе 74%. Не кажется таким хорошим, однако тут всплывает проблема сравнения предпочтений. Даже в рамках исследователей OpenAI обычно согласованность оценок на уровне 75-78%. То есть это потолок, в который мы упираемся. Грусть :(
Видно, что большая модель GPT-2 учится почти моментально, и затем выходит на плато. Модели поменьше постепенно догоняют её, хотя совсем маленькая (117M) всё же отстает значимо.
используя эту Reward Model (она опубликована, кстати, как и датасет), с помощью RL обучить генеративные модели дописывать комментарии на Reddit. Затем запустить бота, который публикует их и через API собирает разметку, дообучая RM уже напрямую из свежесобранного фидбека. Улучшаем модель, и так по кругу! RL from Human Feedback в чистом виде! Начать читать по теме можно тут или тут.
...или придумать что-то своё. Перетянуть на другой сабреддит, на другой форум, повторить то же на русском - да что угодно!
...а человек, защитивший проект, с тех пор работает в OpenAI. Морали нет
Please open Telegram to view this post
VIEW IN TELEGRAM
Официально, по слухам, релизное окно GPT-4 должно быть декабрь 2022 - февраль 2023. Никаких новостей so far...
хахах а представьте её не релизнули потому что натренили модель 1.5 триллиона параметров и оказалось, что никаких новых свойств у нее нет - ZeroSHOT не улучшился, знания между языками не перетекают, Chain-of-Thought не дает прироста по отношению к GPT-3
и они сидят такие😐 😩 💀 думают как бюджет $75M на тренировку модели теперь отбить
хахах а представьте её не релизнули потому что натренили модель 1.5 триллиона параметров и оказалось, что никаких новых свойств у нее нет - ZeroSHOT не улучшился, знания между языками не перетекают, Chain-of-Thought не дает прироста по отношению к GPT-3
и они сидят такие
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет 👋 !
Сегодня большой день - я первый раз публикую статью на Хабре. Мне очень нравится идея подробного объяснения, которое может поглотить читателей не на один вечер. Хотелось достигнуть того, что публикация станет интересна широкому кругу лиц - и новичкам в мире Машинного Обучения, и специалистам в области обработки текстов, и даже рядовому читателю без профильных знаний ML.
Я выбрал насущную тему, которая у многих на слуху и активно обсуждается в чатах. Речь пойдет о👣 ChatGPT и её проблемах с точки зрения обработки фактической информации реального мира (даты/имена/места/...).
❔ Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы? Как может выглядеть новый интерфейс взаимодействия? Какие основные проблемы есть на пути интеграции? И могут ли модели сёрфить интернет бок о бок с традиционными поисковиками?
На эти и многие другие вопросы я постарался ответить в блогпосте. В нем больше 30 страниц текста😨 , однако информация разбита по уровням "техничности" и охватывает множество смежных тем. Каждый может погрузиться так глубоко, как этого захочет. Внутри даже присутствует глоссарий для удобства восприятия текста.
🖥 Ссылка: habr.com/ru/company/ods/blog/709222/
🌃 А ещё подписывайтесь на мой авторский канал в телеграм!
💬 Там в комментариях я с радостью отвечу на все возникающие вопросы 😊
Сегодня большой день - я первый раз публикую статью на Хабре. Мне очень нравится идея подробного объяснения, которое может поглотить читателей не на один вечер. Хотелось достигнуть того, что публикация станет интересна широкому кругу лиц - и новичкам в мире Машинного Обучения, и специалистам в области обработки текстов, и даже рядовому читателю без профильных знаний ML.
Я выбрал насущную тему, которая у многих на слуху и активно обсуждается в чатах. Речь пойдет о
На эти и многие другие вопросы я постарался ответить в блогпосте. В нем больше 30 страниц текста
🌃 А ещё подписывайтесь на мой авторский канал в телеграм!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
ChatGPT как инструмент для поиска: решаем основную проблему
Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а...
Вполне логично, что тренд на AI и на новые модели для генерации текстов и изображений (DALL-E 2, StableDiffusion, GPT3, ChatGPT) будет продолжаться, их не перестанут тренировать завтра, остановив прогресс. Но на чём учить эти модели? Уже сейчас в качестве датасетов используют выгрузки значимой части интернета (под терабайт текстов) и более 5 миллиардов изображений (LAION-5B).
Это и есть watermarking - добавление чего-то незаметного для человека, но считываемого машиной. Оно не должно портить качество текста, делать его менее богатым с точки зрения языка. Watermarking осложняется тем, что модели выкладываются в опенсурс, и у пользователей есть доступ к коду - а значит любой хитрый метод можно будет почти гарантировано выключить: в текущем виде NSFW-фильтр в StableDiffusion отключается в 3 строчки кода). В таком случае вотермарку надо как-то "зашить" в веса модели.
Другое дело - работа по API, как GPT3 у OpenAI
Sam Altman (CEO OpenAI) считает, что в этом не так много смысла - желающий обмануть систему сможет это сделать.
Однако в его компании рабоатет Scott Aaronson, изучающий проблему. И об этой задаче с потенциальными решениями он пишет в своём блоге (конкретный пост), и читает лекции с объяснением криптографического подхода к задаче пометки текста.
TLDR: водяной знак работает путем случайного выбора «белого списка» токенов из словаря, а затем немного завышает вероятности их появления при генерации. С помощью статистических методов можно узнать, является ли текст сгенерированным (зная whitelist). Согласитесь, что глупо ожидать от человека, что он всегда пишет текст, используя строго определенные слова?
Для примера, пусть есть текст в 36 токенов. Человек в среднем пишет 9±2.6 слова из белого списка. А для модели часто более 25 слов будут "помеченными". Отсюда легко рассчитать p-value, ну и обнаружить факт генерации
Пишите в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Я честно постарался, но не смог найти почему.
BuzzFeed объявили (пост от СЕО), что будут использовать AI для генерации контента. Пока речи про ChatGPT или конкретные альтернативы не идёт, но рост цены акций за сутки составил внушительные 119%.
> in 2023, you’ll see AI inspired content move from an R&D stage to part of our core business
AI - новый buzzword для поднятия бабок?
Я не уверен, что рост исключительно на этой новости, но чего-то иного крупного релевантного не нашел. И по времени скачка на бирже совпадает - хотя утром еще были новости от META про поддержку сайтов, помогающих с контентом (видно, что реакции до полудня по NY не было).
Крч го пилить, ну не знаю, Телеграм, где посты в каналах пишутся нейронками!🗒
BuzzFeed объявили (пост от СЕО), что будут использовать AI для генерации контента. Пока речи про ChatGPT или конкретные альтернативы не идёт, но рост цены акций за сутки составил внушительные 119%.
> in 2023, you’ll see AI inspired content move from an R&D stage to part of our core business
Я не уверен, что рост исключительно на этой новости, но чего-то иного крупного релевантного не нашел. И по времени скачка на бирже совпадает - хотя утром еще были новости от META про поддержку сайтов, помогающих с контентом (видно, что реакции до полудня по NY не было).
Крч го пилить, ну не знаю, Телеграм, где посты в каналах пишутся нейронками!
Please open Telegram to view this post
VIEW IN TELEGRAM
Кстати с этим сливом 44 гигов исходного кода Яндекса есть и одна хорошая новость:
🤡 теперь на собесах яндексоидов можно просить показать их код и оценить оптимальность
Please open Telegram to view this post
VIEW IN TELEGRAM
Листал Твиттер, нашел тред, где автор делится лучшими промптами и бизнес-идеями с использованием ChatGPT. Выделенная опция привлекла внимание санитаров моё внимание - использование LLM для трейдинга криптой.
Видимо, я немного отстаю от области🤬 и машины уже давно умеют торговые стратегии писать
30 лайков (сердечки) под сообщением и я покупаю этот модуль, чтобы поделиться кеками с вами!
UPD: для ясности, я не буду делиться всем доком, только общей идеей и скриншотами с кеками (которые я ожидаю, потому что это bullshit). Не считаю, что этично и законно распространять платные материалы без ведома автора.
Видимо, я немного отстаю от области
30 лайков (сердечки) под сообщением и я покупаю этот модуль, чтобы поделиться кеками с вами!
UPD: для ясности, я не буду делиться всем доком, только общей идеей и скриншотами с кеками (которые я ожидаю, потому что это bullshit). Не считаю, что этично и законно распространять платные материалы без ведома автора.
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока я смеюсь с того, что купил за 20$ (такое даже показывать стыдно), мне второй раз в личку написали, что в канале есть реклама - хотя в запиненном сообщении с информацией обо мне (самое первое) написано " А ещё тут не будет рекламы, по крайней мере платной - буду репостить только то, что считаю полезным из других каналов".
Обратите внимание, что это реклама не от меня, а от самого телеграма - она появляется во всех каналах с более чем N подписчиков. Я к ней отношения не имею, деньги не получаю и отключить никак не могу.
Более того телеграм такой хитрый, что сам автор канала её, рекламу, никогда у себя не увидит :)
(а еще можно купить премиум подписку телеграма и не видеть рекламы нигде)
Обратите внимание, что это реклама не от меня, а от самого телеграма - она появляется во всех каналах с более чем N подписчиков. Я к ней отношения не имею, деньги не получаю и отключить никак не могу.
Более того телеграм такой хитрый, что сам автор канала её, рекламу, никогда у себя не увидит :)
(а еще можно купить премиум подписку телеграма и не видеть рекламы нигде)
Сиолошная
Листал Твиттер, нашел тред, где автор делится лучшими промптами и бизнес-идеями с использованием ChatGPT. Выделенная опция привлекла внимание санитаров моё внимание - использование LLM для трейдинга криптой. Видимо, я немного отстаю от области 🤬 и машины…
Знаете, я правда хотел написать какой-то обзор с шутками, но даже такого не выйдет - весь курс это ссылка на Notion-страницу, где 🚨 !!!ВНИМАНИЕ!!!🚨 в 6-7 разных вкладок собрано под сотню YouTube видео! Ни сопроводительного текста, ни примеров - просто набор ютуб видео. Это какой-то следующий уровень плохости, с которого даже не покекать 🥴 (
Причём половина видео, если не больше - это введение в крипту для новичков, потом NFT, потом DeFI. Затем несколько уроков по Prompt Engineering, а дальше - примеры.
Уже угадали примеры чего? ВИДЕО НА ЮТУБЕ😂 , где другие ютуберы используют ChatGPT и что-то пробуют с криптой/NFT. Говорят примерно "если получится это запустить, то это может принести деньги" 😂 . Мне даже времени проматывать видео было жалко, не говоря про 20$.
😫 Я бы сказал, что я разочарован тем, что недооценил желание людей зарабатывать делая нихрена - просто видосики вставить по запросу, даже связать их текстом той же ChatGPT было лень.
🚫 Чтобы хоть как-то добавить ценности этому посту, расскажу историю из далекого декабря 2022го года. Мой знакомый, работающий в фонде в Лондоне, попросил ChatGPT написать трейдинговую стратегию. С его слов, она даже имела какой-то смысл, но была проста. Почти без фиксов в коде запустилась. Он оставил её играть на месяцок с виртуальным балансом, и сначала модель даже получила +5-8% прибыли на крипто-парах! Но затем ушла в -60%, и её выключили. Конец истории 🤧
💨 Бесплатным бонусом к курсу шел набор из 500 промптов, ссылка вот. Миллионером вы после клика не станете, но зато можете посмотреть, куда и как люди пытаются модельку приложить, и что получается. Можно повысить свою "насмотренность", чтобы самому в среднем писать prompts чуть лучше.
Причём половина видео, если не больше - это введение в крипту для новичков, потом NFT, потом DeFI. Затем несколько уроков по Prompt Engineering, а дальше - примеры.
Уже угадали примеры чего? ВИДЕО НА ЮТУБЕ
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Возможно вам попадалось видео на ютубе, где один достаточно популярный бигтех-блоггер жаловался на реджект после собеседования в стартап с 22 летним СЕО (вот оно). Это было 3 года назад, и стартап тот назывался Scale AI. По сути это Толока на стероидах, то…
Вот нас и стало 1250...и 1. Поздравляю всех причастных, остальным соболезную 🥂
Пора и норм контент постить, а не шуточки.
Выше я уже писал про хакатон Scale.AI по промпт-инженерингу (и объяснял, что это такое). Подоспел твиттер-тред от СЕО с упоминанием призовых мест и работ, достойных внимания. Выделю некоторые из них:
Третье место: рэп-баттл (демо, где можно поиграться). Указываете две персоны, GPT3 генерит текст, WaveNet генерит голос, StableDiffusion аватарки баттлящих. Рэп, конечно, не очень прикладная задача, но можно адаптировать под дебаты (и самому выступать как переговорщик с одной из сторон), или как диалоговую систему с умершими людьми (слышал, что пару лет назад стартапы даже под такую идею деньги поднимали. Мол, обучи нейронку на сообщениях твоей матери и поговори с её аватаром)
Управление браузером через генерацию Selenium-команд. Код доступен. Интересно, что в эту же сторону копал человек, который придумал трансформер - Ashish Vaswani. Он ушел из Google Research и основал компанию Adept, которая в прошлом году представила модель Act-1: эта нейронка по команде выполняет действия в браузере, кликает по вкладкам и вбивает текст в формы. Правда Ashish уже ушел и из этой компании в секретный проект (не указано на LinkedIn) - видимо, постеснялся, что детишки на хакатоне делают реплику его продукта и решил отступить! А так как он ушел в декабре, после выхода ChatGPT, можно сделать смелое утверждение, что его проекст связан с чем-то схожим.
Добавление памяти диалоговым ассистентам через извлечение сущностей и помещение их в промпт как key-value (код). Очень крутая идея, полезна в большом количестве приложений LLM и должна скоро появиться во всех собираемых на коленке ассистентах, особенно встраиваемых в сайты.
Пора и норм контент постить, а не шуточки.
Выше я уже писал про хакатон Scale.AI по промпт-инженерингу (и объяснял, что это такое). Подоспел твиттер-тред от СЕО с упоминанием призовых мест и работ, достойных внимания. Выделю некоторые из них:
Третье место: рэп-баттл (демо, где можно поиграться). Указываете две персоны, GPT3 генерит текст, WaveNet генерит голос, StableDiffusion аватарки баттлящих. Рэп, конечно, не очень прикладная задача, но можно адаптировать под дебаты (и самому выступать как переговорщик с одной из сторон), или как диалоговую систему с умершими людьми (слышал, что пару лет назад стартапы даже под такую идею деньги поднимали. Мол, обучи нейронку на сообщениях твоей матери и поговори с её аватаром)
Управление браузером через генерацию Selenium-команд. Код доступен. Интересно, что в эту же сторону копал человек, который придумал трансформер - Ashish Vaswani. Он ушел из Google Research и основал компанию Adept, которая в прошлом году представила модель Act-1: эта нейронка по команде выполняет действия в браузере, кликает по вкладкам и вбивает текст в формы. Правда Ashish уже ушел и из этой компании в секретный проект (не указано на LinkedIn) - видимо, постеснялся, что детишки на хакатоне делают реплику его продукта и решил отступить! А так как он ушел в декабре, после выхода ChatGPT, можно сделать смелое утверждение, что его проекст связан с чем-то схожим.
Добавление памяти диалоговым ассистентам через извлечение сущностей и помещение их в промпт как key-value (код). Очень крутая идея, полезна в большом количестве приложений LLM и должна скоро появиться во всех собираемых на коленке ассистентах, особенно встраиваемых в сайты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
LESSSS GOOOOOO ищем новые промпты, абузим математику
New prompt included btw. Воспроизвелось в двух разных сессиях, так что мб и не выученный ответ, а и вправду промпт. Добавились детали относительно прошлой версии.
Если вы вдруг не заметили, мы живём в удивительное время - появляется множество инновационных технологий, поражающих воображение...а кто-то подаёт на них в суд. Вот, например, иск к создателю модели StableDiffusion. Это полностью опенсурсная и доступная каждому нейронка, умеющая генерировать изображения по текстовому запросу. Фотореалистичные, скетчи, в стиле художников, да хоть что - всё это возможно.
Но художникам и артистам, разумеется, такой расклад не нравится - на ArtStation (инстаграм-линкедин для художников) даже прошла забастовка со слоганом "No AI". Основной же поинт иска - модель тренируется на изображениях, права на которые не принадлежат Stability (авторам StableDiffusion). Представьте: вы загрузили ламповую фотографию с тусовки с однокурсниками в инстаграм, а потом её спарсили и обучили модель. Скажете, что ничего такого?
Проблема в том, что модели могут выучивать и запоминать конкретные данные, конкретные картинки. То есть я могу подобрать такой запрос про вечеринку с друзьями, что смогу синтезировать ваше загруженное изображение. Это уже немного неприятно, особенно если учесть тот факт, что в тренировочной выборке StableDiffusion больше 5 миллиардов изображений со всего интернета, в том числе из приватных папок (которые когда-то были открытыми). Не могу сейчас найти ссылку, но был случай, как доктор сфотографировал пациентку в 2013м году, фото появилось на сайте клиники или в его блоге, не важно. И совсем недавно пациентка узнала, что модель была обучена на этой фотографии, его можно "извлечь" (сгенерировать) из модели с минимальными потерями😱 .
Увидел статью свежую, которая показывает, как из разных архитектур достаются изображения, насколько они совпадают с тренировочными (спойлер: есть немного шумов и искажений, см. аттач, но в целом очень похоже). Такие аругменты можно приложить к упомянутому иску, и вот тут уже судья-присяжные будут иначе смотреть на подобные модели, ведь можно сказать, что они запоминают и воспроизводят контент (без прав на это).
Ссылка: arxiv.org/abs/2301.13188
Но говорить, что "модели выучивают и ничего не придумывают" рано - удалось достать только ~100 изображений (авторы разметили руками топ-1000 самых похожих генераций для самых частых промптов, и все же там были не дубликаты в большинстве своём) из, напомню, 5 миллиардов тренировочных.
Но художникам и артистам, разумеется, такой расклад не нравится - на ArtStation (инстаграм-линкедин для художников) даже прошла забастовка со слоганом "No AI". Основной же поинт иска - модель тренируется на изображениях, права на которые не принадлежат Stability (авторам StableDiffusion). Представьте: вы загрузили ламповую фотографию с тусовки с однокурсниками в инстаграм, а потом её спарсили и обучили модель. Скажете, что ничего такого?
Проблема в том, что модели могут выучивать и запоминать конкретные данные, конкретные картинки. То есть я могу подобрать такой запрос про вечеринку с друзьями, что смогу синтезировать ваше загруженное изображение. Это уже немного неприятно, особенно если учесть тот факт, что в тренировочной выборке StableDiffusion больше 5 миллиардов изображений со всего интернета, в том числе из приватных папок (которые когда-то были открытыми). Не могу сейчас найти ссылку, но был случай, как доктор сфотографировал пациентку в 2013м году, фото появилось на сайте клиники или в его блоге, не важно. И совсем недавно пациентка узнала, что модель была обучена на этой фотографии, его можно "извлечь" (сгенерировать) из модели с минимальными потерями
Увидел статью свежую, которая показывает, как из разных архитектур достаются изображения, насколько они совпадают с тренировочными (спойлер: есть немного шумов и искажений, см. аттач, но в целом очень похоже). Такие аругменты можно приложить к упомянутому иску, и вот тут уже судья-присяжные будут иначе смотреть на подобные модели, ведь можно сказать, что они запоминают и воспроизводят контент (без прав на это).
Ссылка: arxiv.org/abs/2301.13188
Но говорить, что "модели выучивают и ничего не придумывают" рано - удалось достать только ~100 изображений (авторы разметили руками топ-1000 самых похожих генераций для самых частых промптов, и все же там были не дубликаты в большинстве своём) из, напомню, 5 миллиардов тренировочных.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Увидел за сегодня уже третью статью/проект, связанные с Neural Rendering. Это метод, основанный на нейронных сетях, который может создавать новые изображения и видеоматериалы на основе существующих (для некоторого пространства). Как пример - делаете 20 фоток…
Немногим ранее писал про нейрорендеринг. Думаю, не все знакомы с тем, что это такое, и как может применяться. Наткнулся вот на такое видео в твиттере с созданием Dolly Zoom Effect (по-русски называется транстрав, лол), как делают в голливудских картинах.
И это уже возможно делать на мощностях смартфона, с его же камерой. Не уверен, используется ли там Lidar, встроенный в айфон, но знаю, что можно делать подобное и без него - геометрия (3д модель) сцены получается просто из видео / набора кадров, и затем можно двигать виртуальную камеру в "выученном" пространстве, чтобы создавать пролеты, менять фокус, итд.
UPD: тема рендеринга кажется оч интересной, хочу про нее понятную статью с объяснениями накатать, ухххх
И это уже возможно делать на мощностях смартфона, с его же камерой. Не уверен, используется ли там Lidar, встроенный в айфон, но знаю, что можно делать подобное и без него - геометрия (3д модель) сцены получается просто из видео / набора кадров, и затем можно двигать виртуальную камеру в "выученном" пространстве, чтобы создавать пролеты, менять фокус, итд.
UPD: тема рендеринга кажется оч интересной, хочу про нее понятную статью с объяснениями накатать, ухххх
Спасибо телеграм, что при наличии двух ссылок не даешь выбрать вторую как превью
Поэтому вот ссылка отдельно, чтоб демо подгрузилось, и вам не пришлось тыкать ВПН+Твиттер
получается просто из видео / набора кадров.
https://fxtwitter.com/i/status/1620118281393954818
Если кто не понял - на превью не настоящая сцена, А ОТРЕНДЕРЕННАЯ НЕЙРОНКОЙ по фотографиям/видел
Поэтому вот ссылка отдельно, чтоб демо подгрузилось, и вам не пришлось тыкать ВПН+Твиттер
получается просто из видео / набора кадров.
https://fxtwitter.com/i/status/1620118281393954818
Если кто не понял - на превью не настоящая сцена, А ОТРЕНДЕРЕННАЯ НЕЙРОНКОЙ по фотографиям/видел
FixTweet
Karen X. Cheng (@karenxcheng)
Using NeRF for creative filmmaking shots -
I finally made a tutorial for this! You can shoot & edit this entirely on your phone @LumaLabsAI
(sound on for narrated instructions) https://t.co/JhvqjW0vKN
I finally made a tutorial for this! You can shoot & edit this entirely on your phone @LumaLabsAI
(sound on for narrated instructions) https://t.co/JhvqjW0vKN
Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔
Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.
Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.
Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.
Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)
💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.
Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.
Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.
Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.
Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры работы в режиме ответа на вопрос по изображению. Экземпляр с пиццей и котом справа сниз - вообще шикарен)
в целом ничего удивительного, такое было и раньше (хотя метрики в описываемом подходе все же выше на задаче "ответ на вопрос по картинке", 65% правильных ответов против 56.3% у модели от Google), но тут тренируется ВСЕГО 188М параметров, а текстово-картиночные модели используются as is, не требуя изменений.
в целом ничего удивительного, такое было и раньше (хотя метрики в описываемом подходе все же выше на задаче "ответ на вопрос по картинке", 65% правильных ответов против 56.3% у модели от Google), но тут тренируется ВСЕГО 188М параметров, а текстово-картиночные модели используются as is, не требуя изменений.
https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/
Finally: we’re launching a classifier trained to distinguish between AI-written and human-written text.
> In our evaluations on a “challenge set” of English texts, our classifier correctly identifies 26% of AI-written text (true positives) as “likely AI-written,” while incorrectly labeling human-written text as AI-written 9% of the time (false positives).
Метрики не то чтобы огонь, однако лучше, чем их прошлая работа по отношению к GPT-2.
Интересно собирали датасет: We collected this dataset from a variety of sources that we believe to be written by humans, such as the pretraining data and human demonstrations on prompts submitted to InstructGPT. We divided each text into a prompt and a response. On these prompts we generated responses from a variety of different language models trained by us and other organizations
То есть работает не только с GPT-шками, но и с другими моделями.
Ну и из очевидного: AI-written text can be edited to evade the classifier.
Finally: we’re launching a classifier trained to distinguish between AI-written and human-written text.
> In our evaluations on a “challenge set” of English texts, our classifier correctly identifies 26% of AI-written text (true positives) as “likely AI-written,” while incorrectly labeling human-written text as AI-written 9% of the time (false positives).
Метрики не то чтобы огонь, однако лучше, чем их прошлая работа по отношению к GPT-2.
Интересно собирали датасет: We collected this dataset from a variety of sources that we believe to be written by humans, such as the pretraining data and human demonstrations on prompts submitted to InstructGPT. We divided each text into a prompt and a response. On these prompts we generated responses from a variety of different language models trained by us and other organizations
То есть работает не только с GPT-шками, но и с другими моделями.
Ну и из очевидного: AI-written text can be edited to evade the classifier.