AbstractDL
11.5K subscribers
244 photos
16 videos
282 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
Гугл представил Gemini — семейство мультимодальных моделей

Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️

Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.

P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.

Статья, блог
👍43
This media is not supported in your browser
VIEW IN TELEGRAM
Я выиграл Yandex ML Prize! (ex. премия Сегаловича)

За научные исследования в области графов знаний, языковых и мультимодальных моделей
👍333🎉196🔥5020👎7
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPoet: языковая модель для генерации и редактирования видео БЕЗ диффузий (by Google)

Да, это возможно! Рано выкинули Dall·E-1 на помойку истории, авторегрессионная генерация всё ещё на коне! Гугл представил модель, которая умеет создавать картинки, видео и аудио + редактировать всё это по тексту.

VideoPoet — это префиксная языковая модель (8B) с общим словарём для всех модальностей, при этом видео-ролики кодируются всего лишь в 1280 токенов. А промпт энкодится при помощи T5-XL и добавляется через линейную проекцию в префикс (просто безумие!). Дополнительно тут есть модуль super-resolution, ведь изначально видео генерируется в разрешении 128x128.

Статья, блог
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
Точечное редактирование знаний внутри LLM (by Alibaba)

Тут вышел крутейший обзор всех методов редактирования памяти языковых моделей! Авторы собрали всё внутри единого фреймворка, и теперь можно в пару строчек кода подправить мозги вашей LLM 🌚

Статья, GitHub
👍90
🔥Завершено обучение TinyLlama

Это крошечная (1.1B) версия Llama-2, которой за 4 месяца скормили 3 триллиона токенов (SlimPajama + StarCoder).

Авторам огромный респект, т.к. они опубликовали все промежуточные чекпоинты, chat-версию и даже очень шустрый код для претрейна!

Статья, GitHub, Huggingface
👍138
This media is not supported in your browser
VIEW IN TELEGRAM
Depth Anything (by TikTok)

Новая сота в monocular depth estimation, код и веса уже в открытом доступе! Никаких супер инноваций, просто огромный датасет с псевдо-разметкой.

Статья, Github, huggingface
👍81👎1
SliceGPT: сжимаем LLM, уменьшая размерность эмбеддингов (by Microsoft)

Языковые модели обладают избыточной, не используемой ёмкостью — что-то похожее мы уже видели в статье про мёртвые нейроны. А тут авторы предлагают убрать всё лишнее ортогональными преобразованиями с последующим отбрасыванием малоактивных строк и столбцов из матриц весов.

Выглядит это так, будто бы размерность эмбеддингов итоговой модели стала на 10-30% меньше, а перплексия и метрики почти не ухудшаются, особенно у крупных моделей (Llama-70B и OPT-66B). При этом в коде инференса ничего менять не надо.

P.S. Забавно, но модели вроде Phi-2 сжимаются гораздо менее охотно, возможно они эффективнее используют свою ёмкость.

Статья, GitHub (soon)
👍79
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!

У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.

То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.

Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.

В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.

Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.

@ai_newz
👍49
This media is not supported in your browser
VIEW IN TELEGRAM
SORA: генерация видео от OpenAI

Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!

Пишут, что это гибрид диффузии и GPT, то есть они, вероятно, вернулись к авторегрессионной генерации (как первый DALL-E)
We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT

Благодаря этому модель "видит" все сгенерированные кадры и демонстрирует невероятную консистентность! Даже если объект временно ушёл за пределы видео, то он может вернуться обратно без искажений. Ещё известно, что они используют синтетические кэпшны как в DALLE-3.

Блог
👍93👎1
Gemma: открытые LLM от Google

Представлены две модели размером 2B и 7B с коммерческими лицензиями. В техрепорте пишут, что это младшие братья Gemini
similar architectures, data, and training recipes

Забавно, что авторы используют огромный byte-level токенизатор в 256к токенов, при этом называя его маленьким сабсетом полного токенизатора Gemini (сколько там токенов тогда?). Кстати это одна из немногих моделей с weight sharing между матрицей эмбеддингов и LM головой. Учились эти две модели на датасетах размером 2Т и 6Т токенов. В остальном сильно похоже на Llama2.

Статья, huggingface
👍43
Do Large Language Models Latently Perform Multi-Hop Reasoning? (by Google)

Авторы обнаружили, что если вопрос сформулирован неявно, то LLM уже во время его чтения "пытаются" подставить промежуточный шаг рассуждений в латентном пространстве. Например, для эмбеддингов последних токенов этого вопроса
Сколько людей живут в крупнейшем городе Европы?

растут логиты, соответствующие слову "Стамбул".

Выходит, что на промежуточных слоях происходит multi-hop reasoning. Пока авторы нашли подтверждение этому максимум до 2 шагов рассуждений, причём качество первого шага растёт по мере увеличения модели, а вот второй шаг размазывается по всем слоям и почему-то не сильно зависит от размеров LLM.

Статья
👍65
Forwarded from Сиолошная
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.

На всех достаточно важных бенчмарках Opus показывают существенный прирост относительно GPT-4.

Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.

— Добавили новую модальность, модель принимает на вход картинки (а значит и видеоряд — как последовательность кадров)
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно. Для сравнения GPT-4-turbo стоит $10/$30
— Также обещают, что самая мощная модель имеет «more advanced agentic capabilities», что бы это ни значило :)
— Вдобавок, к модели подключили интерпретатор кода и возможность добавлять свои собственные инструменты
— Самый большой прирост метрик — на задачах, связанных с математикой. Даже без примеров в промпте модель показывает себя лучше, чем Gemini Ultra / GPT-4. Круто, если не переобучение, особенно в контексте того, что модели — НАПОМНЮ, ЭТО МНОГИЕ УПУСКАЮТ — будут использоваться для АВТОМАТИЗАЦИИ научных исследований.

Модели доступны по API сегодня всем, никакого листа ожидания больше нет. Для подписчиков Pro на сайте уже должна быть доступна модель Opus, а Sonet достанется бесплатным пользователям. Заходите: claude.ai

Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐 Почему? Потому что релиз Арракиса (кодовое название проекта в OpenAI) отложили до выпуска Дюны 2 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49👎1💩1
Галлюцинации LLM можно определять по внутренней размерности активаций (by CISCO)

На мой взгляд один из самых красивых и простых способов выявлять враньё языковых моделей. Внутренняя размерность активаций — это что-то вроде сложности манифолда на котором лежат промежуточные эмбеддинги (кину в комменты пример).

И вот оказывается, когда LLM выдумывает что-то несуществующее, то размерность эмбеддингов со средних слоёв значительно подрастает (см. гистограммы). Таким образом, по всплескам размерности можно определить, где именно модель галлюцинирует, а где говорит правду.

Статья
👍153
Forwarded from эйай ньюз
🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"

Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.

↪️ B200 GPU обещает до 20 петафлопс производительности в FP4 и 208 миллиардов транзисторов. Ваша GTX 1080 Ti нервно курит в сторонке.

↪️ В одной B200 будет 192GB памяти с пропускной способностью 8 ТБ/с. Идеально для LLM моделей, которые жрут память как не в себя и требуют большую пропускную способность.

↪️ GB200 "суперчип" объединяет 2 таких B200 GPU с одним Grace CPU (на ARM архитектуре). Nvidia хвастается, что это в 30 раз производительнее для инференса в LLM в FP4 по сравнению с H100.

↪️ Ключевая фишка - второе поколение трансформерного движка, который удваивает вычислительную мощность, пропускную способность и размер модели. Но хз, какая потеря точности будет после конвертации в FP4.

↪️ Nvidia утверждает, что GB200 снижает стоимость и энергопотребление в 25 раз по сравнению с H100 (опять же, в FP4).

↪️ Теперь будет поддерживаться и новый формат - FP6, золотая середина по скорости и точности между FP4 и FP8. Но бенчмарков не показали.

↪️ FP64 на уровне 45 терафлопс на GPU (против 60 у H100). Для нейронок double precision не релевантен, поэтому они особо и не парятся ускорять тут.

↪️ Тренировка GPT-MoE с 1.8 триллиона параметров требовала 90 дней на 8,000 GH100 и 15МВт энергии. Теперь достаточно 2,000 GB200 и 4МВт. То есть во время тренировки 1x GB200 примерно в 4 раза быстрее чем 1x H100.

↪️ На инференсе GPT-3 с 175 млрд параметров, GB200 "всего" в 7 раз быстрее H100. Ну ладно, не все сразу.

Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.

Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.

А потребительские версии Blackwell ожидаются не раньше 2025 года.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55
Quiet-STaR: думательные токены вместо Chain-of-Thought

Очень интересная идея, как обобщить CoT-промптинг, приближая его к подобию мыслительного процесса человека (говорить не всё, что думаешь).

Для этого авторы предложили позволить LLM иногда «думать», — старт и конец такой мысли определяются обучаемыми RL спецтокенами, а вот сама мысль чаще всего состоит из какой-то белиберды, уменьшающей перплексию дальнейшего текста.

В отличие от CoT, тут нет требования писать внятно, поэтому то, что генерится внутри мысли далеко не всегда получается интерпретировать. Тем не менее, это сильно бустит метрики и практически не замедляет инференс, т.к. генерация идёт параллельно.

Понятное дело, что это не работает без дообучения, но я попросил чатгпт притвориться, что она использует эти мыслительные токены, и спросил её помогло ли это ответить на мой вопрос. Она сказала что помогло 😁

Статья
👍108🔥1
Mistral-7B-v0.2

Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sliding-Window-Attention (SWA) и увеличили контекст до 32к токенов. Других деталей нет, но думаю это что-то вкусное.

P.S. HF репозиторий не официальный, но голые веса можно найти в недрах сайта Mistral

Huggingface, raw weights
👍42👎4
Как устроено пространство, в котором думают языковые модели?

Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.

Статья, хабр
👍124🔥1
VAR: Image Generation via Next-Scale Prediction (by Bytedance)

Вы наверняка слышали про авторегрессионный подход к генерации изображений (imageGPT, Dalle-1). Но у этих методов было очень большое ограничение — картиночные токены приходилось "выпрямлять" в 1D последовательность, которая становилась слишком длинной. Поэтому они работали плохо и медленно, уступив место диффузиям.

Авторы VAR предложили мозговзрывательный способ генерировать изображения при помощи GPT без необходимости делать это неприятное "выпрямление" —  вместо авторегрессии по пикселям\токенам они делают "next-scale prediction", то есть предсказывают сразу всю матрицу VQVAE токенов за один forward pass. Теперь один шаг авторегрессии — это шаг увеличения разрешения (см. картинку). К моему удивлению, для этого потребовалось совсем немного модификаций оригинальной GPT-2 архитектуры (текстовой).

Такой подход работает просто молниеносно, а законы масштабирования сильно лучше, чем у диффузий. По метрикам VAR бьёт всех на class-conditional датасетах (генерации по тексту пока нет, но над этим уже работают). А тем временем весь код и веса уже в открытом доступе.

P.S. Думаю, что это один из самых перспективных методов генерации изображений (и видео?) на данный момент.

Статья, GitHub, Huggingface
👍91🔥1
Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA)

Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40!

Самое главное — эта модификация совместима со всеми диффузионными моделями.

Статья
👍79🔥1