LEFT JOIN
50.1K subscribers
914 photos
27 videos
6 files
1.14K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Совершенно удивительные достижения из мира AI

Еще одна новость про AI-модель: DALL·E 2 — новая система искусственного интеллекта, которая может создавать реалистичные изображения и рисунки исходя из описания на естественном языке. Ну, то есть, вы даете на вход модели данные: “An astronaut riding a horse in a photorealistic style”, а получаете вот такое изображение ⚡️
А еще модель может:
▫️ добавлять и удалять элементы, принимая во внимание тени, отражения и текстуры
▫️ вдохновиться оригиналом картины, рисунка или фотографии и создать изображение в похожем стиле
Модель уже очень занимательно повертели в этой статье. Брам Адамс тоже проверил, как работает модель: особенно интересно, как она придумывает постеры и обложки для музыкальных альбомов. Музыканты теперь могут вообще не тратить на то время, а лишь набрасывать идеи и поручать DALL·E всю креативную работу.
У меня и моей команды совершенно нет слов, это настоящий прорыв в мире AI. Не терпится пощупать и проверить все своими руками (подали заявку, ждем)!

#leftjoin_ai
👏33👍2
Шиншилла, которая всех победила

Продолжаем новости из мира AI: недавно было проведено исследование-сравнение различных современных языковых моделей. В результате, новая языковая модель Chinchilla 70B значительно превосходит результаты таких моделей, как Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B). Исследователи обнаружили, что, несмотря на использование различных процедур подбора и обученных моделей, эти три подхода дают сопоставимые прогнозы для оптимального масштабирования параметров и токенов с помощью FLOP.
В общем, если вы работаете с языковыми моделями, то пора пробовать новую.

#leftjoin_ai
👏10👍7
👨‍🎨 Как работает DALL-E 2? 🖼

В одном из последних постов рассказали вам про новую AI-модель и поделились кучей ссылок с примерами её работы. Давайте попробуем разобраться, что за магия происходит в модели и как она создает совершенно новые изображения с помощью короткого текстового описания.
💭 Итак, если объяснять процессы, которые происходят в модели простым языком, то глобально их три: модель получает текстовое описание, которое декодируется и попадает в пространство текстовых эмбедингов (математический способ представления информации). Затем они попадают в пространство эмбедингов изображений, где идет поиск наилучшего совпадения. После этого полученный эмбединг декодируется и мы получаем изображение. Вуаля!

📺 В основе модели лежит модель CLIP, которая занимается прямо противоположным: подбирает наиболее точное описание к каждому изображению. Как вы понимаете, для обеих моделей совершенно необходимо огроменное количество данных, а именно пар (изображение–точное описание). Вручную такое сделать достаточно трудно (руки и глаза точно устанут), поэтому данные собраны со всего Интернета.

🧪 Также, при построении DALL-E 2 использовались диффузионные модели. Сейчас мы быстро постараемся это понять, если к этому моменту вы еще не перегружены информацией. Эти модели берут изображение и постепенно добавляют к нему различные шумы до тех пор пока изображение не меняется до неузнаваемости. Затем, они пытаются провернуть этот процесс задом наперед: воссоздать исходное изображение. Таким образом, модель учится самостоятельно генерировать изображения (или любую другую информацию, например, музыку).

🔗 Сила DALL-E 2 заключается в большом количестве парных данных (естественного языка–изображения), которые доступны в Интернете. Использование таких данных не только устраняет недочеты, вызванные трудоемким процессом ручной маркировки данных. В первую очередь, шумный и даже неконтролируемый характер таких данных лучше всего отражает реальные данные, к которым должны быть устойчивы модели глубокого обучения.

Если все эти выводы кажутся вам непонятными или недостаточными, то в этом видео девушка еще более подробно (на примере схем и изображений) рассказывает о том, как именно работает DALL-E 2 и почему каждый этап обработки важен и незаменим.

#leftjoin_ai
👍20
👨‍🎨 DALL-E не всемогущ? 🖌

Мы уже рассказывали вам про AI-модель, которая генерирует удивительные (и очень точные!) изображения на основе текстового описания. Сегодня нам хочется чуть поумерить всеобщие восторги и разобрать некоторые ограничения модели, которые не видны на первый взгляд.

📍Недостаток информации: Иногда модели нужно давать очень много уточнений, чтобы получить то, что нужно
📍Трудности в понимании контекста: В то же время, когда описание слишком длинное, модель чаще ошибается и хуже оценивает контекст (особенно, со словами, которые имеют несколько разных значений)
📍Никто не может знать всего: DALL-E может попросту не знать (не иметь никаких данных) о том, что вы хотите получить
📍У всего есть предел: Модель не может работать со слишком длинными описаниями с большим количеством дополнений
📍Все смешалось в доме Облонских: Модель может смешивать описания и присваивать определенные черты не тем объектам, которым нужно
📍Странные изображения: Если вы хотите создать изображение с совершенно разными (несочетающимися) деталями, то модель вероятнее всего вас не поймет
📍Художник, а не писатель: если вы хотите сгенетировать изображение с текстом или подписью, буквы могут быть ненастоящими
📍И, точно, не математик: Если вы хотите получить более 4 обьектов на изображении, то по мере роста числа обьектов, вероятность получить нужное количество неуклонно падает
📍Лица всем художникам даются с трудом: Зачастую лица людей на изображениях выглядят неправдоподобно, как у сломанной куклы или робота

Если какое-то из ограничений осталось не вполне понятным и вообще таковым не кажется, то в этом треде есть визуальные объяснения, которые помогают понять, в чем же все-таки дело.
Конечно, все эти нюансы никак не отменяют того, что это самая качетсвенная современная модель для создания и преобразования изображений. Просто всегда есть куда стремиться и что улучшить, не так ли?

#leftjoin_ai
🔥7👍4
🎨 Is it real or is it fake? 🤖
За последние несколько недель мы часто рассказывали вам про AI-модель DALL-E: про ее устройство и ограничения. Теперь пришла пора проверить, насколько внимательно вы читали наши посты и насколько хорошо модель создает реалистичные изображения. This Image Does Not Exist – простой тест, в котором вам показываются настоящие и сгенерированные моделью изображения, а вам нужно предположить, кто его создал. Например, изображение выше: как думаете, кто его создал? Ставьте ❤️, если вы думаете, что изображение реальное и 🔥, если думаете, что его создала DALL-E

#leftjoin_ai
69🔥69👍2
💭 Anything you can Imagen 🌏

Про модель генерации DALL-E 2 (очевидно созвучную фамилии великого художника Дали) мы написали несколько подробных постов: про запуск модели, про устройство модели и про её ограничения. Однако, это не все, что просходит в сфере AI на данный момент. 24 мая Google тоже выпустили модель "text-to-image", которая называется Imagen (созвучно imagine – представлять, воображать). К сожалению, Google пока что не открыл доступ к модели по причине возможного злоупотребления полученными результатами.

🤔 Imagen работает с естественным языком, например «Золотистый ретривер в синем клетчатом берете и водолазке с красными точками», а затем используя "замороженный кодировщик" T5-XXL, преобразует этот текст во эмбединги. Затем «условная диффузионная модель» отображает встроенный текст в маленькое изображение размером 64x64. На последнем этапе Imagen использует текстовые диффузионные модели сверхвысокого разрешения для повышения дискретизации изображения 64x64 до 256x256 и 1024x1024. Чуть подробнее об этом рассказывают здесь.
Поскольку вы уже погружены в контекст работы DALL-E 2 (если нет, скорее погрузитесь), то мы сделаем акцент на отличиях моделей.

🎨 Во-первых, многие отмечают разницу в реалистичности изображений. DALL-E 2 превосходно создаст картину в определенном стиле с заданными объектами, а реальные изображения почти всегда вызывают сомнения. Imagen же поражает «беспрецедентным фотореализмом» и по оценкам Google, Imagen побеждает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности.

🛠 Во-вторых, Imagen сильно превосзодит предшественника в работе с деталями. Вы можете задать очень подробное описание объектов и их расположения и, скорее всего, результат даже превзойдет ваши ожидания. В то время как DALL-E 2 скорее всего либо перегрузится, либо упустит какую-то часть деталей.

📦 В третьих, коротко опишем разницу в устройстве моделей. Несмотря на то что модели создавались параллельно и разработки не пересекались, смысловые блоки элементов, преобразующих текст в изображение, достаточно похожи. Однако, одним из основных отличий является первый этап – text encoding. Разработчики Google AI используют большую обученную модель, похожую на GPT-3, для того чтобы понять текст так хорошо, как только это можжет сделать AI система. Вместо того, чтобы обучить текстовую и генерирующию изображения модели, они используют предобученную модель и "замораживают" ее на время обучения модели генерации изображений. Исходя из исследования, сопровождающего выход модели, именно это сильно улучшило эффективность модели.

#leftjoin_ai
👍11🥰1
🖥 Кто может объяснить работу кода лучше, чем машина? 🤔
На сегодняшний момент одно из самых крутых применений языковой AI-модели GPT-3создание объяснений того, как работает код. Суть в том, что вы можете подать на вход модели блок кода, написанный на Python, JavaScipt, SQL или другом языке, и попросить объяснить его, а также задавать вопросы, в духе "Что делает эта функция?"

🔮 Конечно, как у использования любой другой модели, у GPT-3 есть важные нюансы: вам нужно хорошо разбираться в вопросах кодинга, работе AI-моделей и эффективности выполнения команд по времени и памяти, чтобы проверять и понимать полученные объяснения, а также, чтобы подмечать некоторые неточности. Несмотря на это, GPT-3 предлагает разработчикам (которые, например, разбираются с чужим кодом) фантастические возможности для работы.

🚴‍♂️ Как пишет автор заметки, "такие инструменты, как GPT-3, можно отнести к категории «велосипеды для ума». В первую очередь вы должны уметь на нём кататься!"

#leftjoin_ai
👍26🔥3
🤔 Печенье, которого не существует 🍪
Давно не рассказывали, что там новенького в мире AI-моделей для генерации изображений, пора исправляться!

🆕 Что новенького?
Разработчики обучили четыре модели StyleGAN2 (Generative adversarial network) для генерации изображений еды. Код, оптимизированный для обучения TPU, а также предварительно обученные модели находятся в открытом доступе. Результаты весьма интересные (и реалистичные), вы даже можете попробовать сгенерировать изображения сами в этом Collab-ноутбуке.

💸 Почему просто не использовать DALL-E 2?
Авторы шутят, что они бедные и не хотят тратиться, но есть и более аргументированное объяснение. Дело в том, что диффузионные и авторегрессионные модели (DALL·E 2, Craiyon (ранее DALL·E mini), ruDALL-E) сейчас и так на пике популярности, о них слышно из каждого утюга. Поэтому авторы решили пойти в другом направлении и сравнить результаты известных моделей и StyleGAN2, которая только набирает популярность.

📸 Что особенного в моделях GAN?
Основное, что отличает эту модель от других: фотореализм. В статье вы можете увидеть, что именно у GAN получаются самые правдоподобные снимки, а вот у DALL-E 2, например, изображения кажутся либо сильно отретушированными , либо нарисованными.

👨‍🦰Кстати, еще есть другой интересный ресурс на базе GAN: This Person Does Not Exist, здесь собраны синтетические фоографии лиц разных людей. Которых, как следует из названия, не существует.

#leftjoin_ai
👍21
🛤 MidJourney и почему о ней скоро все заговорят?
Сегодня мы хотим вам рассказать про новую модель для генерации изображений – MidJourney. Подробно об идее создания, процессе обучения и результатах основатель MidJourney Дэвид Хольц рассказал в интервью The Verge, а у нас – коротко о главном.

🤔 Что в ней особенного?
Если некоторые из моделей, о которых мы рассказывали, были заточены под фотореализм или графический дизайн, то MidJourney в большей степени вдохновляется произведениями искусства. К тому же, разработчики MidJourney провернули нечто необычное – создали одно из самых больших комьюнити в Discord, которое одновременно дает доступ к использованию модели и предоставляет пространство для общения и обсуждения полученных результатов.

💸 Как попробовать MidJourney?
Зарегистрируйте бесплатную учетную запись, и вы получите 25 попыток и доступ ко всем изображениям, которыми поделились в Discord чатах. После этого нужно будет определиться с подпиской — 10 или 30 долларов в месяц, в зависимости от количества изображений, которые вы хотите сгенерировать, и от того, нужны и вам права на эти изображения.

📒 Зачем вообще нужны такие нейросети?
В прошлом веке мануфактуры заменили мастерские, а сейчас – роботы продолжают вытеснять человеческие профессии. Сейчас, когда сгенерированные изображения находятся на пике популярности, многие компании используют изображения в коммерческих целях: Cosmopolitan и The Economist использовали AI-модели для создания обложек выпусков (Однако, авторы последнего в статье пришли к выводу, что пользоваться моделью на постоянной основе они пока не планируют).

👨‍🎨 Дизайнеров и иллюстраторов ждет конец карьеры?
А вот и нет: результаты работы AI-моделей дизайнеры могут легко использовать в своей работе, ведь они – превосходный источник идей. А когда креативные идеи бывали лишними?

Кстати, для вашего удобства теперь все заметки, посвященные современным AI-моделям, теперь собраны под хештегом #leftjoin_ai ❤️
👍23
Stable Diffusion – AI-модель, к которой наконец есть доступ
В конце августа компания Stability.ai, которую основал Эмад Мостак, объявила о запуске новой AI-модели для создания изображений – Stable Diffusion.

Давайте сравним с DALL·E 2 и Imagen
Цель проекта Stability.ai – создание open-source AI-моделей, которые поощряет открытое использование, а не только применение в исследовательских целях. Этот подход разнится с другими технологическими компаниями, например, OpenAI, которая охраняет секреты моделей GPT-3 и DALL·E 2, или Google, которая даже не собиралась давать пользователям доступ к моделям PaLM, Imagen или Parti.

Эмад Мостак извлек уроки из ошибок OpenAI. Вирусный успех открытой модели Craiyon указывает на главный недостаток DALL·E – закрытое тестирование модели. Люди не столько хотят смотреть, как другие создают удивительные изображения, сколько хотят сделать это сами. Поэтому Stability.ai предоставила готовый к использованию веб-сайт DreamStudio для тех, кто не хочет или не знает, как программировать.

Что еще стоит знать об этой модели?
Во-первых, если сравнивать Stable Diffusion с DALL·E 2 и Midjourney, то неоспоримое преимущество первой – это open-source основа. Это означает, что на основе Stable Diffusion можно бесплатно создавать приложения для творческих задач преобразования текста в изображение.

Это уже происходит! Энтузиасты разработали плагин Figma для создания дизайнов из текстовых подсказок и Lexica.art – поисковик для изображений и идей. Кроме того, разработчики Midjourney реализовали функцию, которая позволила пользователям сочетать ее со Stable Diffusion, что привело к удивительным результатам, однако, функция временно приостановлена из-за возможных негативных эффектов.

Во-вторых, в сравнении с open-source моделями DALL·E mini (Craiyon) и Disco Diffusion, Stable Diffusion создает удивительные фотореалистичные и художественные изображения, которые ничем не уступают моделям OpenAI или Google.

По традиции, оставляйте реакции 🔥, если хотите еще больше постов рубрики #leftjoin_ai
🔥36👍8
Как быть вежливым и не тратить на это время
Опытные (и не очень) специалисты в области данных часто получают письма рекрутеров, в которых они не заинтересованы, ведь бóльшую часть времени люди не ищут новую работу. В итоге, очередное такое неактуальное письмо летит в архив еще до того как его открывают, а новые письма продолжают приходить.
Конечно, постоянно поступающие предложения пройти собеседование — это не то что бы серьезная проблема. Однако, почему бы не попробовать автоматизировать её решение?

Зачем отвечать на эти письма (а не игнорировать их)
💁‍♂️ Это вежливо;
📨 Это спасает почтовый ящик от появления последующих писем-напоминаний;
👬 Это помогает поддерживать теплые отношения с рекрутерами и может здорово выручить вас в будущем.

Как найти и быстро ответить на эти письма
Мэтт Билью придумал как частично автоматизировать этот процесс и описал его в короткой статье блога. Начать нужно с фильтрации входящих писем на предмет предложения о работе, а затем сформировать отдельную папку. К сожалению, эта часть решения не автоматизирована, хотя, возможно, существует более элегантное решение. Когда появится свободное время, просмотреть этот список непрочитанных писем и отправить ответ.
После этого отправку ответов автоматически выполняет скрипт. Основа этого скрипта – языковая модель OpenAI GPT-3. Самым легким решением было бы создание готового шаблона для копипаста, но легкая персонализация никому не повредит и поможет сохранить отношения с рекрутером. Автоматизацию задачи извлечения имени рекрутера и названия компании из электронного письма Мэтт выложил в свой GitHub.

Такое использование AI-модели показывает, что достижения в сфере искуственного интеллекта напрямую могут влиять на нашу жизнь, в данном случае, экономя время на отправку персонализированного ответа на письмо.

Делитесь в комментариях, какими автоматизированными решениями вы пользуетесь или о каких уже слышали?
#leftjoin_ai
🔥1682👍2🤔2
🎨 Как AI генерирует картинки: версия для тех, кто так и не разобрался 😏
The Washington Post опубликовали статью с подробным разбором того, как работает Stable Diffusion 2.0. Взяв интервью у разработчиков и разбив этап генерации изображения на отдельные шаги, журналисты создали доступный и наглядный гайд для знакомства с моделью.

«‎Опять графики и скриншоты!» — воскликните вы. Нет, в этот раз все гораздо интереснее!

На странице статьи вам будет предложено четыре условия для AI, на основе которых сеть сформирует изображение. Далее, вы пройдете весь путь модели от того, какими картинками ее кормили в младенчестве и как, будучи зрелой и натренированной, она научилась генерировать то, что вы получили в качестве результата после выбора четырех условий.

Один из самых интересных этапов — это работа модели с цифровым шумом. Оказывается, чтобы научить Stable Diffusion 2.0 генерировать изображения, разработчики сначала научили ее видеть «спрятанные» объекты в картинках с разным уровнем шума.

Ставьте ❤️, если статья вам понравилась, и пишите в комментарии, какие аспекты работы Stable Diffusion 2.0 вам больше всего интересны!
#leftjoin_ai
82👍2