Forwarded from эйай ньюз
Теперь в LLama официально завезли поддержку изображений! До этого мы имели в open-source только сторонние поделки вроде LLaVa и InternVL (они брали Llama3 за основу и тюнили).
Теперь модель понимает графики и диаграммы, описывает изображения и может находить на них объекты по описаниям.
Например, пользователь может спросить, в каком месяце его компания имела лучшие продажи, и модель даст ответ на основе доступных графиков.
Есть несколько размеров:
- Маленькая модель - 11B параметров
- Средняя - 90B. Обходит GPT-4o-mini по Vision бенчам.
- Более легковесные text-only модели: 1B и 3B параметров. Как раз, чтобы бегать локально на девайсах. 3B обходит Gemma 2 и Phi-3.5 - Mini.
- Контекст 128,000 токенов, как и в LLama 3.1
С легковесными моделями можно создавать персонализированые приложения с агентами в закрытой среде - например, резюмировать ваши сообщения, емейлы или отправлять приглашения в календарь.
И теперь с Llama 3.2 ждём очередной большой скачок качества Multimodal LLM в опенсорсе!
Блогпост
Веса на HF
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Есть вот такая табличка по VL моделькам. Именно на ней Qwen лучше всего себя показывает (хотя вот метрики на релизе llama лучше).
Так же вышла серия моделей Molmo (в базе там Qwen2), которая тоже не плохо себя показывает:
https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19
Попробовать можно тут:
https://molmo.allenai.org/
Так же вышла серия моделей Molmo (в базе там Qwen2), которая тоже не плохо себя показывает:
https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19
Попробовать можно тут:
https://molmo.allenai.org/
И вот такая вышла ещё мультимодальная LLM на основе gemma2-9b:
https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Forwarded from rizzearch
Transformers need glasses! Information over-squashing in language tasks
мы уже упоминали о том, что трансформеры могут быть чувствительны к чувствительным инпутам, и авторы недалеко отошли от этих выводов, но и заметили еще другое интересно
они выявили нестабильность не на уровне леернормы/весов, как в прошлой работе, а на уровне внутренних репрезентаций токенов. как оказывается, чем длиннее последовательность, тем ближе репрезентации последних токенов становятся друг к другу (и неразличимыми впоследствии. это при условии, что последовательности более-менее похожи, но не одинаковы) + происходит серьезная затычка с флоу информации на последних токенах через декодер, поскольку у них намного меньше путей по прокидыванию этой самой информации по сравнению с более ранними токенами
ну и получаем то, что получаем. на вход идет чувствительная задача ⇒ трансформер точно так же чувствительно (плохо) и неидеально отвечает. при том верно для большого и маленького скейла. эмпирическое подкрепление их теории сделано на 7б модели (в принципе экспы провоили га гемини и гемме)
однако вместе с этими выводами пришли и интересные инсайты
- в трансформере присутствует U-shape тенденция к запоминанию: таска лучше решается, если релевантные для нее токены находятся рядом с началом/концом последовательности
- если “разбавлять” чувствительную последовательность, например, добавлять периодически запятые, то репрезентации становятся более различимыми и все идет smoother
довольно занятно, ибо такие же фичи свойственны и человеческой способности к запоминанию, да и решение с запятыми по сути так же помогает нам не сбиться с адекватного поглощения текстовой информации
👀LINK
мы уже упоминали о том, что трансформеры могут быть чувствительны к чувствительным инпутам, и авторы недалеко отошли от этих выводов, но и заметили еще другое интересно
они выявили нестабильность не на уровне леернормы/весов, как в прошлой работе, а на уровне внутренних репрезентаций токенов. как оказывается, чем длиннее последовательность, тем ближе репрезентации последних токенов становятся друг к другу (и неразличимыми впоследствии. это при условии, что последовательности более-менее похожи, но не одинаковы) + происходит серьезная затычка с флоу информации на последних токенах через декодер, поскольку у них намного меньше путей по прокидыванию этой самой информации по сравнению с более ранними токенами
ну и получаем то, что получаем. на вход идет чувствительная задача ⇒ трансформер точно так же чувствительно (плохо) и неидеально отвечает. при том верно для большого и маленького скейла. эмпирическое подкрепление их теории сделано на 7б модели (в принципе экспы провоили га гемини и гемме)
однако вместе с этими выводами пришли и интересные инсайты
- в трансформере присутствует U-shape тенденция к запоминанию: таска лучше решается, если релевантные для нее токены находятся рядом с началом/концом последовательности
- если “разбавлять” чувствительную последовательность, например, добавлять периодически запятые, то репрезентации становятся более различимыми и все идет smoother
довольно занятно, ибо такие же фичи свойственны и человеческой способности к запоминанию, да и решение с запятыми по сути так же помогает нам не сбиться с адекватного поглощения текстовой информации
👀LINK
Forwarded from Data Secrets
PyTorch поймали тренд и запустили собственную библиотеку для квантизации и ускорения моделей
Называется она очень прикольно – torchao🔵
Код, конечно, в основном на pytorch. Вот некоторые выборочные метрики из блога:
➡️ ускорение на 97% для инференса Llama 3 8B с автоквантом весов в int4
➡️ пиковое сокращение VRAM на 73% для инференса Llama 3.1 8B с квантизацией KV кэша
➡️ ускорение претрейнинга Llama 3 70B на 50% с обучением под float8
Звучит мощно, в общем. Подробности – в блогпосте
Называется она очень прикольно – torchao
Код, конечно, в основном на pytorch. Вот некоторые выборочные метрики из блога:
Звучит мощно, в общем. Подробности – в блогпосте
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну, как говорится, молодая была не молода. Но пусть будет новой идеей 😁
Forwarded from Data Secrets
Там Anthropic предложили новую технику для RAG. Разбираемся:
Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа
В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.
Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.
Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").
Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.
В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!
Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа
В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.
Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.
Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").
Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.
В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!
Forwarded from AbstractDL
WavTokenizer: SOTA токенизатор аудио
Кажется, это прорыв. Ему хватает всего 75 токенов в секунду, чтобы поставить рекорд в качестве реконструкции речи. При этом всё работает довольно сносно и для 45 ток/с. Предыдущие решения даже близко не стояли!
Как авторам это удалось? Просто набор удачных технических трюков поверх Encodec:
- отказались от dilated conv в декодере в пользу Fourier Transform
- расширили окно внимания до 3 сек
- оптимальная инициализация кодбука через k-means
- единый квантайзер вместо иерархического
- большой словарь аудио-токенов (10^12)
Такие токенизаторы используются для Text-to-Speech моделей, для мультимодальных LLM (GPT-4o) и для генерации музыки. Код и веса в открытом доступе.
Статья, GitHub, demo, Hugging Face
Кажется, это прорыв. Ему хватает всего 75 токенов в секунду, чтобы поставить рекорд в качестве реконструкции речи. При этом всё работает довольно сносно и для 45 ток/с. Предыдущие решения даже близко не стояли!
Как авторам это удалось? Просто набор удачных технических трюков поверх Encodec:
- отказались от dilated conv в декодере в пользу Fourier Transform
- расширили окно внимания до 3 сек
- оптимальная инициализация кодбука через k-means
- единый квантайзер вместо иерархического
- большой словарь аудио-токенов (10^12)
Такие токенизаторы используются для Text-to-Speech моделей, для мультимодальных LLM (GPT-4o) и для генерации музыки. Код и веса в открытом доступе.
Статья, GitHub, demo, Hugging Face
Forwarded from Data Blog
🍁 Привет, друзья!
Как обещала — подготовила пост по значениям Шепли! :)
В посте отмечено:
- Интуитивное определение
- Математическое определение
- Историческая справка
- Как метод работает на практике и ключевые моменты графика значений
Читать здесь!
Буду рада вашей обратной связи, реакциям и репостам!
И поздравляю с последним днем сентября 😌
Всегда ваш,
Дата-Автор!
Как обещала — подготовила пост по значениям Шепли! :)
В посте отмечено:
- Интуитивное определение
- Математическое определение
- Историческая справка
- Как метод работает на практике и ключевые моменты графика значений
Читать здесь!
Буду рада вашей обратной связи, реакциям и репостам!
И поздравляю с последним днем сентября 😌
Всегда ваш,
Дата-Автор!
Teletype
SHAPley values
Значения Шепли — концепция из теории кооперативных игр. С 2017 года она нашла себя и в области ИИ. В этой статье предлагаю узнать о них больше! :)
Forwarded from Машин лернинг
/Как упростить чтение статей?/
Решила поизучать, как люди успевают читать столько статей и быть в курсе событий (учитывая, что количество статей сейчас экспоненциально множится), но пока нашла классные ресурсы, которые упрощают поиск/анализ/хранение статей:
🔺 Connected Papers рисует граф связанных с данной статей, можно увидеть авторов, год, где опубликована, количество цитирований, абстракт. Строит граф на основе пересечения цитируемых публикаций, то есть, чем больше в двух статья общих процитированных статей, тем ближе будет similarity. Как следствие, статьи, которые цитируют друг друга, но не имеют большого пересечения references, будут далеко друг от друга в графе.
🔺 Arxiv Sanity сервис, придуманный Андреем Карпаты, ищет свежие статьи по запросу, рекомендует для каждого тэга статьи на основе SVM c tf-idf фичами эбстрактов. Можно выбрать статьи похожие на данную, агрегирует статьи с архива с 2021 года по текущий момент (всего 226264 статей, и только из категорий cs.CV, cs.LG, cs.CL, cs.AI, cs.NE, cs.RO)
🔺 Daily papers — топ 10-20 статей, выбранных ключевыми community на HF, как и в Arxiv Sanity есть опция показать похожие на данную статьи (напишите в комментариях @librarian-bot и Semantic Scholar API подберет похожую)
🔺 Papers with Code ищет статьи со ссылками на код, релевантные поисковому запросу, а CatalyzeX будет искать код из статьи по всему интернету
🔺 Consensus — такой правдометр:) Задаете вопрос в свободной форме, например, "Does exercise improve cognition?", приложение находит 20 статей, анализиирует их, Consensus Meter показывает, что 75% "за", 15% "возможно", 10% "против". Прикольно! Но правда по запросу "Can we create an AI detector text classifier with 100% accuracy?" мне ответили, что исследований пока на эту тему недостаточно)
🔺 Zotero очень удобное приложение для хранения статей и сбор цитирований (сама не пользовалась, но много где highly recommend)
🔺 Paper reviews: прежде чем читать статью, круто бы найти на нее обзор, прочитать его, а потом вернуться к оригиналу (так обычно тратится меньше времени). Я или просто гуглю, или мне нравится ютуб-канал Yannic Kilcher, или, конечно, тг-канал gonzo-обзоры ML статей.
🔺 Ну и напоследок, послание самой себе в том числе — чтобы больше читать, нужно сделать это привычкой. Чтобы это стало привычкой, нужно завести ритуал — например, c 10 до 11 в будние дни читаешь статьи. Обязательно делать заметки (я люблю Obsidian и просто раскрашиваю текст внутри pdf), иначе все забывается моментально. Ну и если Zoteto умеет хранить статьи умным образом, тоже было бы полезно.
💥Если у вас есть какие-то любимые приложения/способы, облегчающие поиск/чтение/запоминание статей, буду рада, если поделитесь в комментариях.
#science
Решила поизучать, как люди успевают читать столько статей и быть в курсе событий (учитывая, что количество статей сейчас экспоненциально множится), но пока нашла классные ресурсы, которые упрощают поиск/анализ/хранение статей:
💥Если у вас есть какие-то любимые приложения/способы, облегчающие поиск/чтение/запоминание статей, буду рада, если поделитесь в комментариях.
#science
Please open Telegram to view this post
VIEW IN TELEGRAM
Connectedpapers
Connected Papers | Find and explore academic papers
A unique, visual tool to help researchers and applied scientists find and explore papers relevant to their field of work.
Как сделать семантический поиск без qdrant, faiss и прочих модных штук?
А с помощью старого PostgreSQL и https://github.com/pgvector/pgvector
А с помощью старого PostgreSQL и https://github.com/pgvector/pgvector
GitHub
GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres
Open-source vector similarity search for Postgres. Contribute to pgvector/pgvector development by creating an account on GitHub.
Forwarded from XOR
На Stack Overflow на 25% уменьшилось количество вопросов и ответов.
🟢 Это связывают с тем, что программисты теперь обращаются к ChatGPT, а не к коллегам.
🟢 При чем разработчики на Python и JavaScript чаще других используют ИИ.
🟢 Иронично, но это затруднит обучение будущих моделей ИИ, ведь для ChatGPT брали данные в том числе и с Stack Overflow. 🤔
@xor_journal
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from gonzo-обзоры ML статей
У OpenAI сегодня DevDay, вот один человек не поленился текстовый стрим сделать:
https://simonwillison.net/2024/Oct/1/openai-devday-2024-live-blog/
Из самого интересного для меня наверное Realtime API (пока для текста и аудио) через WebSocket.
Также дистилляция моделей, файнтюн vision моделей, и столь популярный нынче prompt caching. Я в начале года писал, что к этому должно прийти, вот все и пришли :)
https://simonwillison.net/2024/Oct/1/openai-devday-2024-live-blog/
Из самого интересного для меня наверное Realtime API (пока для текста и аудио) через WebSocket.
Также дистилляция моделей, файнтюн vision моделей, и столь популярный нынче prompt caching. Я в начале года писал, что к этому должно прийти, вот все и пришли :)
Simon Willison’s Weblog
OpenAI DevDay 2024 live blog
I’m at OpenAI DevDay in San Francisco, and I’m trying something new: a live blog, where this entry will be updated with new notes during the event. See OpenAI DevDay: …
Forwarded from Сиолошная
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:
1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии🫡
2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!
Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).
3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.
4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.
5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.
=====
И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://t.me/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:
Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.
Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.
И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»
Ждём 2025-го! o2, GPT-4.5/5,😯
1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии
2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!
Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).
3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.
4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.
5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.
=====
И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://t.me/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:
Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.
Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.
И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»
Ждём 2025-го! o2, GPT-4.5/5,
Please open Telegram to view this post
VIEW IN TELEGRAM