эйай ньюз
47.7K subscribers
1.14K photos
521 videos
7 files
1.45K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy
Download Telegram
Зарелизили Code Llama-70B топовая модель для геренации кода!

Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.

CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.

Запросить веса можно тут.

@ai_newz
Тем временем подъехали полевые тесты шлема Apple Vision Pro за $3500.

@ai_newz
Иногда стоит освежать базу. Я сегодня вечером читаю Линейную Алгебру.

Наверное одна из лучших книг по Линалу - это учебник "Introduction To Linear Algebra" Гилберта Стрэнга, профессора из MIT.

Американские учебники в целом лучше объясняют интуицию за математическими объектами по сравнению с советскими. Тут и мотивация и примеры использования в других областях науки. Очень рекомендую для поднятия или повторения базы по линейной алгебре именно учебник Стрэнга, у него как раз в прошлом году вышло 6-ое издание. #книги

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Просто оставлю это фото здесь. Ждите инсайтов.

@ai_newz
Ну, хватит саспенса.

Сегодня я был в гостях во Фрайбурге у своих кентов из Stability AI, основных авторов Stable Diffusion.

Кто не знает, мы учились в одной лабе в Heidelberg University, впоследствии переехавшей в LMU в Мюнхен.

На фото Фредди печатает для меня их последнюю статью про новую text-to-image модель, которую они засабмитили сегодня на ICML.

@ai_newz
Llama2d: 2D Positional Embeddings for Webpage Structural Understanding

Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.

Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.

Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.

Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.

@ai_newz
⚡️Как ускорить диффузию ч1 - Model Distillation

Начинаю серию постов про основные методы для ускорения диффузионных моделей, т.к это один из моих главных научных интересов. В первой части поговорим про дистилляцию. Говорить будем в разрезе text2img, но многие из этих техник могут применяться и для видео.

Мы знаем, что диффузии из коробки требуется много прогонов по сети (шагов), чтобы сгенерить картинку во время инференса. Поэтому появился целый пласт работ, которые выдают вообще адовые ускорения. Ну такой вот примерно рецепт усредненный для дистиляции text2image моделей, потому что вариаций масса: берешь огромную модель учителя, которая генерит медленно, но качественно, и учишь студента предсказывать за 1-4 шага выходы учителя, полученные за много шагов. Магическим образом это работает. Но есть много нюансов, понять которые можно из следующих работ:

Model Distillation:
Guidance and Progressive Distillation - классика жанра, где впервые провели дистилляцию до 4 шагов.
Consistency Models - Более хитрая дистилляция, где на каждом шагу пытаемся предсказать конечный результат.
Improved Techniques for Training Consistency Models - то же самое, но с улучшенным расписанием шагов
SnapFusion - пруним архитектуру Unet и дистиллируем в меньшее число шагов с помощью Progressive Distillation.
InstaFlow - формулируем диффузии как линейный Flow Matching и дистиллируем в несколько раундов, пока не достигнем генерации за один шаг.
UfoGen - это Diffusion + GAN, где дискриминатор инициализируется UNet-ом диффузии.
Adversarial Diffusion Distillation (SDXL-Turbo) это дистилляция Diffusion + GAN, но дискриминатор тут основан на фичах DINOv2.
Latent Adversarial Diffusion Distillation (SD3 Turbo) — тоже самое только в latent фичах.
Imagine Flash — моя статья о дистилляции в 3 шага.

>> Читать часть 2

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Hardware EM @ Apple ⮕ Head of Hardware @ Midjourney

Давно не обсуждали Midjourney. В твиттере пробежал слух, что мол Midjourney переманила к себе одного из сеньерных чуваков, который возглавлял хардварную команду в Apple, работавшей над Vision Pro.

Я его нашел на линкедине (имя писать не стану), и чел не только работал над Vision Pro, так он еще и у Маска в Neuralink был Member Of Technical Staff по хардвару. То есть парень очень опытный. И вот теперь он стал Head of Hardware в Midjourney.

Интересно, какого рода девайс затевают в Midjourney? Это может быть как что-то вроде VR очков с полностью генерируемым контентом, так и какой-то wearable device, который стримит вам диффузионный контент прямо в мозг 🤯 (шутка).

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
К слово о Midjourney, наткнулся на очень стильные генерации Midjourney V6 в стиле Grimes по мотивам шедевров.

Шикарное качество и стиль!

1. “Mona Lisa” by Leonardo da Vinci
2. “Girl with a Pearl Earring” by Johannes Vermeer
3. “The Scream” by Edvard Munch
4. “The Kiss” by Gustav Klimt
5. “American Gothic” by Grant Wood
6. “Self-Portrait with a Straw Hat” by Vincent van Gogh ❤️

___

Кто-то спросил в комментах к предыдущему посту: "Можно ли купить акции Midjourney?". Круче — можно пойти к ним работать.

@ai_newz