Сложно поверить, но это реально сниппет кода из статьи OpenAI… Ну хоть что-то релизят в опенсорс
😁59
Пока все публикуют что-то краcивое, вот моя подборка самых стремных артефактов stable diffusion
🔥22😱7❤3
К вопросу о том, где можно потестить Stable Diffusion, если нет своего железа и/или возможности платить за Dream Studio – мы в Ex-Human подняли его у себя на сервере, чтобы можно генерировать прямо из бота в телеграм ✨
🟣 🟣 🟣 🟣 🟣
https://t.me/txt2image_exhuman_bot
https://t.me/txt2image_exhuman_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
stable_diffusion_exhuman_bot
Generate images by entering text description 👍
Check out our app: https://botif.ai/
Developed by https://exh.ai/
Check out our app: https://botif.ai/
Developed by https://exh.ai/
🔥23❤6🤩2
Forwarded from DLStories
Media is too big
VIEW IN TELEGRAM
Смотрите, какая штука стала популярной в Твиттере: Adept.ai обещают выпустить ATC-1: крутого диджитал-помощника на основе Transformer
ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.
Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.
Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).
Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)
Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.
Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.
Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).
Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)
Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
👍11🔥2💯2🥴1
И еще один мем из твиттера – кажется, кто-то взломал весь интранет Uber. Некий хакер заспамил сотрудника сообщениями с сылкой, которая на самом деле вела к добавлению в интранет нового пользователя, потом написал ему в WhatsApp от лица работника Uber IT и сказал все акцептить. Потом нашел все пароли от AWS, GCP и OneLogin. И после взлома написал коментарий ко всем тикетам + отправил всем сотрудникам уведомление в Slack, что все взломал (только ему сначала никто не поверил 🤡)
В дополнение сообщают, что сейчас все запросы в поисковике под VPN убера ведут на сайт с порнографией и подписью ‘Fuck you wankers’
Думайте об этой истории, если у вас была плохая рабочая пятница
В дополнение сообщают, что сейчас все запросы в поисковике под VPN убера ведут на сайт с порнографией и подписью ‘Fuck you wankers’
Думайте об этой истории, если у вас была плохая рабочая пятница
👍14😁5😱2💩2🤨2
Недавно OpenAI выложили (и действительно прямо в опен-сорс!) модель для распознавания речи Whisper. Подробнее про нее можно прочитать в посте от Мишин Лернинг – если кратко, то кажется, что никакой магии, просто очень большой и хорошо размеченный многоязычный датасет, служебные токены, которые определяют текущую задачу (транскибирование, перевод, таймстемпы и т.д.), и плейн ванилла трансформер
Так вот, Андрей Карпатый не стал терять времени, и затранскрибировал этой сеткой все подкасты Lex Fridman – https://karpathy.ai/lexicap/
До этого он еще убедился, что Whisper достаточно хорошо знает технические и математические термины (типа GPU, LSTM, RNN и все такое прочее), так что при транскрибировании эта информация не коверкается
Ждем теперь записи всех выпусков программы Статус
Так вот, Андрей Карпатый не стал терять времени, и затранскрибировал этой сеткой все подкасты Lex Fridman – https://karpathy.ai/lexicap/
До этого он еще убедился, что Whisper достаточно хорошо знает технические и математические термины (типа GPU, LSTM, RNN и все такое прочее), так что при транскрибировании эта информация не коверкается
Ждем теперь записи всех выпусков программы Статус
❤27👎2👍1
Text Inversion is the next big thing? 🤔
Относительно недавно вышла статья от NVIDIA – An Image is Worth One Word. В ней они показывают, как можно тот или иной концепт преобразовать в псевдо-слово, то есть создать в латентном пространстве эмбеддинг несуществующего токена, который будет максимально точно отражать заданный концепт, основываясь на примерах, которые вы предоставите
Так можно натренировать модель всегда генерить именно тот объект, который вы задумали, при чем в любом сеттинге, стиле и с любыми атрибутами. В пейпере авторы заставляют модель запомнить по нескольким фотографиям определенную фигурку полосатого котенка как некий объект S*, чтобы потом генерить “Banksy art of S∗”, “A S∗ themed lunchbox” и так далее
Подробно пр метод можно почитать в статье, в целом идея такова:
– Берем входное описание ‘A photo of zubabobr’. Здесь zubabobr – несуществующий токен. Параллельно заготавливаем несколько картинок с примерами zubabobr. Слово zubabobr получает эмбеддинг v*, его мы обучаем
– Прогоняем эмбеддинги через трансформер, с помощью них кондишеним генерацию Stable Diffusion из случайного шума. Плюс, на каждом этапе позволяем модели подсматривать примеры картинок с zubabobr
– ???
– Profit, теперь мы можем генерить zubabobr и знаем его эмбеддинг
Идея очень быстро была реализована:
✨На huggingface есть Concepts Library – там можно через их UI по нескольким примерам натренировать свои концепты, а также посмотреть концепты других юзеров в открытом доступе
Что самое прикольное, концепты могут обозначать еще и стиль, так что можно генерить что-то типа «A photo of <my_concepts/zubabobr> in a style of <sd-concepts-library/80s-anime-ai-being>»
✨Или можно по харду – не тюнить свой эмбеддинг, а тюнить всю модель с помощью DreamBooth (смысл тот же, это позволяет создать identifier вашего собственного класса). Более подробный пост про него есть у тоже моушн
Относительно недавно вышла статья от NVIDIA – An Image is Worth One Word. В ней они показывают, как можно тот или иной концепт преобразовать в псевдо-слово, то есть создать в латентном пространстве эмбеддинг несуществующего токена, который будет максимально точно отражать заданный концепт, основываясь на примерах, которые вы предоставите
Так можно натренировать модель всегда генерить именно тот объект, который вы задумали, при чем в любом сеттинге, стиле и с любыми атрибутами. В пейпере авторы заставляют модель запомнить по нескольким фотографиям определенную фигурку полосатого котенка как некий объект S*, чтобы потом генерить “Banksy art of S∗”, “A S∗ themed lunchbox” и так далее
Подробно пр метод можно почитать в статье, в целом идея такова:
– Берем входное описание ‘A photo of zubabobr’. Здесь zubabobr – несуществующий токен. Параллельно заготавливаем несколько картинок с примерами zubabobr. Слово zubabobr получает эмбеддинг v*, его мы обучаем
– Прогоняем эмбеддинги через трансформер, с помощью них кондишеним генерацию Stable Diffusion из случайного шума. Плюс, на каждом этапе позволяем модели подсматривать примеры картинок с zubabobr
– ???
– Profit, теперь мы можем генерить zubabobr и знаем его эмбеддинг
Идея очень быстро была реализована:
✨На huggingface есть Concepts Library – там можно через их UI по нескольким примерам натренировать свои концепты, а также посмотреть концепты других юзеров в открытом доступе
Что самое прикольное, концепты могут обозначать еще и стиль, так что можно генерить что-то типа «A photo of <my_concepts/zubabobr> in a style of <sd-concepts-library/80s-anime-ai-being>»
✨Или можно по харду – не тюнить свой эмбеддинг, а тюнить всю модель с помощью DreamBooth (смысл тот же, это позволяет создать identifier вашего собственного класса). Более подробный пост про него есть у тоже моушн
👍6🔥1🤯1
Forwarded from AbstractDL
🔥Grokking наконец обнаружили на нормальных датасетах! (by MIT)
И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.
Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!
Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.
Статья
P.S. про grokking я рассказывал тут.
И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.
Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!
Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.
Статья
P.S. про grokking я рассказывал тут.
❤10🔥5🤯2🌚2👍1
Новый забавный спейс на HF – CLIP Interrogator.
Изначально предполагалось, что его можно юзать, чтобы получить описание картинки как хороший промт, который потом можно отправить в генеративную модель и получить похожие картинки. Но в твиттере очень быстро это приспособили, чтобы получать roast своим фотографиям. Вот например у девушки получилось описание фото «unsettling grin, matlab, portrait of an ai». У кого-то еще в реплаях было описание «covid as a person»
Что странно, SD действительно по описанию генерит что-то очень похожее 🌚
Изначально предполагалось, что его можно юзать, чтобы получить описание картинки как хороший промт, который потом можно отправить в генеративную модель и получить похожие картинки. Но в твиттере очень быстро это приспособили, чтобы получать roast своим фотографиям. Вот например у девушки получилось описание фото «unsettling grin, matlab, portrait of an ai». У кого-то еще в реплаях было описание «covid as a person»
Что странно, SD действительно по описанию генерит что-то очень похожее 🌚
👍8❤3
Google тут выпустил новую модель FLAN. Примечательна она тем, что скейлили ее и up, и down (540B и 3B). FLAN 3B бьет на few-shot и на BIG-Bench GPT 175B, и подходит очень близко к PaLM 62B
Какой-то особой хитрости тут нет, как всегда все упирается в тенировочные данные. Обучали с помощью Chain-of-thought (про это я рассказывала тут) – если попросить модель расписать свой ход размышления или даже просто добавить к промту let’s think step by step, она будет перформить гораздо лучше. Раньше это реализовывали именно post hoc через промтинг, а это первая модель, где тренировали на данных с CoT
Плюс, к этому насобирали еще 1800+ разных задач, типа question answering (включая с привлечением внешних ресурсов, когда модель сама может подсмотреть в ту же Википедию), topic classification, cause effect classification, commonsense reasoning, сode repair и многие другие
В целом мне нравится модель тем, что еще раз доказывает, что scaling is not all you need, качество данных, как показал еще PaLM, очень сильно решает. Чем больше разных задач вы предложите модели, тем лучше она будет генерализоваться, даже на других задачах, которые во время обучения модель не встречала. Авторы специально не включали часть тасков в обучение, чтобы потом проверять на них – туда попали, например, задачки по математике, логике и вопросы по философии
Какой-то особой хитрости тут нет, как всегда все упирается в тенировочные данные. Обучали с помощью Chain-of-thought (про это я рассказывала тут) – если попросить модель расписать свой ход размышления или даже просто добавить к промту let’s think step by step, она будет перформить гораздо лучше. Раньше это реализовывали именно post hoc через промтинг, а это первая модель, где тренировали на данных с CoT
Плюс, к этому насобирали еще 1800+ разных задач, типа question answering (включая с привлечением внешних ресурсов, когда модель сама может подсмотреть в ту же Википедию), topic classification, cause effect classification, commonsense reasoning, сode repair и многие другие
В целом мне нравится модель тем, что еще раз доказывает, что scaling is not all you need, качество данных, как показал еще PaLM, очень сильно решает. Чем больше разных задач вы предложите модели, тем лучше она будет генерализоваться, даже на других задачах, которые во время обучения модель не встречала. Авторы специально не включали часть тасков в обучение, чтобы потом проверять на них – туда попали, например, задачки по математике, логике и вопросы по философии
👍16🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
Новый крутой пейпер про дистилляцию RL-алгоритмов от DeepMind. Их Algorithm Distillation позволяет модели во время инференса улучшать свою стратегию решения, самостоятельно исследовать окружающий мир, и это без промтинга и без файнтюна под конкретную задачу. И в целом генерализация гораздо выше, чем у предыдущих методов
Попыток скрестить RL и трансформеры уже было достаточно (например, Gato и Decision Transformer), но это не RL в полном смысле слова. Такие модели могут предсказывать следующее действие актора, но для этого им нужен промт с предыдущими состояниями, действиями и reward’ами, сами они не могут в explore and exploit, а также они не могут самостоятельно на инференсе обучиться под новые задачи. Также они учатся сразу на лучшей стратегии, поэтому не могут ее сами итеративно улучшать
Для обучения Algorithm Distillation брали learning histories RL-алгоритмов (например, DQN) на отдельных задачах. При чем, историю делали достаточно длинной, чтобы в нее попадало несколько эпизодов, и можно было пронаблюдать, как улучшается стратагия –> благодаря этому, AD учится не только предсказывать текущую стратегию, но и сразу улучшенную. Что прикольно, в некоторых задачах был еще и partial observation, то есть когда передается не все состояние игры, а только какая-то его часть, известная игроку
На инференсе AD находит лучшую стратегию даже быстрее, чем исходные алгоритмы, которые были дистилированны (! хотя не побивает их перфоманс в целом), сам исследует пространство и сам генерирует себе контекст. Способность исследовать, кстати, оценивали на задаче Dark Room, где большая часть действий и состояний дают reward = 0, то есть без исследования решить ее не получится
📝 Тред от одного из авторов про модель
Попыток скрестить RL и трансформеры уже было достаточно (например, Gato и Decision Transformer), но это не RL в полном смысле слова. Такие модели могут предсказывать следующее действие актора, но для этого им нужен промт с предыдущими состояниями, действиями и reward’ами, сами они не могут в explore and exploit, а также они не могут самостоятельно на инференсе обучиться под новые задачи. Также они учатся сразу на лучшей стратегии, поэтому не могут ее сами итеративно улучшать
Для обучения Algorithm Distillation брали learning histories RL-алгоритмов (например, DQN) на отдельных задачах. При чем, историю делали достаточно длинной, чтобы в нее попадало несколько эпизодов, и можно было пронаблюдать, как улучшается стратагия –> благодаря этому, AD учится не только предсказывать текущую стратегию, но и сразу улучшенную. Что прикольно, в некоторых задачах был еще и partial observation, то есть когда передается не все состояние игры, а только какая-то его часть, известная игроку
На инференсе AD находит лучшую стратегию даже быстрее, чем исходные алгоритмы, которые были дистилированны (! хотя не побивает их перфоманс в целом), сам исследует пространство и сам генерирует себе контекст. Способность исследовать, кстати, оценивали на задаче Dark Room, где большая часть действий и состояний дают reward = 0, то есть без исследования решить ее не получится
📝 Тред от одного из авторов про модель
👍5
Еще одно из внезапных умений новой Midjourney V4 – очень крутой пиксель-арт
🔥42❤7❤🔥1👍1