Dealer.AI
Кхм... Спасибо. Но нет..
Отправлю Сене, а то чую его ждёт судьба того, кто на меме с ним... 👇
👍3👎1
Forwarded from Love. Death. Transformers.
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
😁21🤡4👍1🔥1😢1
Пошутили и хватит. Народ любит другой контент.
Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.
А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!
Либа тут: https://github.com/microsoft/autogen
Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.
А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!
Либа тут: https://github.com/microsoft/autogen
Telegram
Dealer.AI
Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать…
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать…
👍12
Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech
https://habr.com/ru/articles/767560/
Поддержим!
https://habr.com/ru/articles/767560/
Поддержим!
Хабр
Проблема омографов в ударениях и как я ее решал
Меня зовут Денис (tg: @chckdskeasfsd ), и это история о том, почему в опенсурсе нет TTS с нормальными ударениями, и как я пытался это исправить. Обзор проблемы Одной из немаловажных задач в синтезе...
👍13🔥3👎2
Рекомендательный штурвал какой-то.
If you know, what i mean... ;)
UPD. Поэтому я порекомендую видео про рекомендации в модели рекомендации... Ну вы поняли.
https://t.me/tinkoffai/311
If you know, what i mean... ;)
UPD. Поэтому я порекомендую видео про рекомендации в модели рекомендации... Ну вы поняли.
https://t.me/tinkoffai/311
Telegram
Жёлтый AI
Олег записал два ролика – о том, как обучали модель для предсказания покупок, с которой залетели на ECIR в Ирландию; и о том, как они запихали рекомендации в модели для рекомендаций, чтобы рекомендовать рекомендательные системы 🚌
😁5
Dealer.AI
Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech https://habr.com/ru/articles/767560/ Поддержим!
Кажется, колыхнул нормально.
НКРЯ, похоже, совсем не так охотно делится своими данными.
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/
НКРЯ, похоже, совсем не так охотно делится своими данными.
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/
Roem.ru
Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним
В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное: Пользователь morosowdm (в составе // Роем в вашем Телеграме: https://t.me/roemru
🤬9🤡1
Dealer.AI
Кажется, колыхнул нормально. НКРЯ, похоже, совсем не так охотно делится своими данными. https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/
А я всё ещё напоминаю про https://github.com/natasha/corus , вроде и лицензия MIT. Саше Кукушкину спасибо за подборку.
GitHub
GitHub - natasha/corus: Links to Russian corpora + Python functions for loading and parsing
Links to Russian corpora + Python functions for loading and parsing - natasha/corus
👍12
Forwarded from Complete AI (Andrey Kuznetsov)
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
🔥20😱4❤2🤯1
Ни Giga себе
(тебе)
Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).
UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.
(тебе)
Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).
UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.
Хабр
GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера
Коль желаешь, читай статью Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество...
🔥11👎1
Sparse Universal Transformer
Когда роутить можно даже чью-то мамку...
Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.
В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.
Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.
В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976
От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer
Приятного погружения.
Когда роутить можно даже чью-то мамку...
Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.
В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.
Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.
В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976
От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer
Приятного погружения.
X (formerly Twitter)
Soumith Chintala (@soumithchintala) on X
i might have heard the same 😃 -- I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
😁9👍2❤1
Любители мишек ликуют? Вышел Pandas 2.0 с pyarrow обёрткой.
С pyarrow говорят быстрее, чем без.
А что предпочитаешь ты для EDA и DataProcessing?
Голосуем:
🐼 - пандас
🤖- vaex/polars
🙈- чистый python
Пишем в комментариях)
Немного подробностей.
https://telegra.ph/Pandas-200--gejmchejndzher-v-rabote-data-sajentistov-10-19
З. Ы. У меня в целом 🤖🙊🐼 в зависимости от ситуации
С pyarrow говорят быстрее, чем без.
А что предпочитаешь ты для EDA и DataProcessing?
Голосуем:
🐼 - пандас
🤖- vaex/polars
🙈- чистый python
Пишем в комментариях)
Немного подробностей.
https://telegra.ph/Pandas-200--gejmchejndzher-v-rabote-data-sajentistov-10-19
З. Ы. У меня в целом 🤖🙊🐼 в зависимости от ситуации
Telegraph
Pandas 2.0.0 — геймчейнджер в работе дата-сайентистов?
Многофункциональная и универсальная библиотека pandas заняла достойное место в сердце каждого дата-сайентиста. Практически невозможно представить себе работу с данными — начиная с их ввода/вывода до очистки и преобразования — без import pandas as pd. И теперь…
👍5❤2🙈2👎1🔥1🤔1
Forwarded from Градиентное погружение (Максим Герасимов)
🔥TensorRT-LLM
👉Ваш любимый нейронный ускоритель получил расширение!
TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.
Что интересного?
💡Интеграция с NVIDIA Triton Inference Server
💡Поддержка Multiple GPU
💡Python API (очень напоминает API HF)
💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc
💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4
💡Beam-search & Greedy-search
... и многое другое!
Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE
@gradientdip
Конечно, сейчас проект сыроват, но все впереди
Github
Performance (не нашел сравнения с обычным TensorRT)
Документация
👉Ваш любимый нейронный ускоритель получил расширение!
TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.
Что интересного?
💡Интеграция с NVIDIA Triton Inference Server
💡Поддержка Multiple GPU
💡Python API (очень напоминает API HF)
💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc
💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4
💡Beam-search & Greedy-search
... и многое другое!
Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE
@gradientdip
Конечно, сейчас проект сыроват, но все впереди
Github
Performance (не нашел сравнения с обычным TensorRT)
Документация
❤8👍1🔥1
Новый взгляд на log-simoid pair-ranking loss.
Тут ребятки наделали шума простой модификацией, которая даёт весомый буст , ещё и память экономит во всех смыслах. И на батче и в целом моделька меньше, а делает по качеству ту, что больше.
https://t.me/lovedeathtransformers/6477
Я даже немного возбудился.
Вру, очень даже возбудился.
Пойду попробую модификацию от log sigmoid в своём пайпе.
прямая ссылка: https://teletype.in/@alexwortega/sYpRYOfkDYz
Тут ребятки наделали шума простой модификацией, которая даёт весомый буст , ещё и память экономит во всех смыслах. И на батче и в целом моделька меньше, а делает по качеству ту, что больше.
https://t.me/lovedeathtransformers/6477
Я даже немного возбудился.
Вру, очень даже возбудился.
Пойду попробую модификацию от log sigmoid в своём пайпе.
прямая ссылка: https://teletype.in/@alexwortega/sYpRYOfkDYz
Telegram
Love. Death. Transformers.
#чтивонаночь
Давно собирался рассказать про самый интересный папир среди text-image contrastive моделей.
Ребята учат за день 400м модель которая лучше чем модель которая училась месяц, так еще и outperform_ят 5B модели.
Sigmoid loss for Image-Text Pt дамы…
Давно собирался рассказать про самый интересный папир среди text-image contrastive моделей.
Ребята учат за день 400м модель которая лучше чем модель которая училась месяц, так еще и outperform_ят 5B модели.
Sigmoid loss for Image-Text Pt дамы…
❤8👍3❤🔥2🗿1
Не поиском едины.
Вчера вечером посмотрел интересное от Яндекса.
Митап ML в Белграде. Команда поиска рассказывала о своём опыте с LLM.
Мне были интересны первые два доклада. Поэтому мои заметки ниже.
Доклад 1. Про генерацию рекламных предложений в поиске:
Ситуация такая, что ребята делают генерацию шаблонов предложений на GPTlike. Далее при помощи DSSM-BERT + catboost выдают лучший кандидат. Радует, что схема классическая, энкодеры и бустинги всё ещё живут и помогают в выдаче. А не "давайте всё перенесём на генеративные с К бошками, пусть и генерит и реранкит".
От себя. Я бы в кандидаты добавил кроме сгенерированных шаблонов, созданные при помощи людей, преднаписанные или вообще конструктор на аннотаторах (модели такие а-ля NER, topic и тп), где в шаблоны просто филятся кандидаты по полям. Далее это всё вместе уже с генеративной реранкал, чтобы добавить надёжности.
Доклад 2. Сладкий RLHF в LLM для поиска.
(Крч хайп, балдёж и всё такое.)
Очень интересный срез опыта команды alignment LLM в поиске.
Рассказали важное, tldr:
1. Ещё раз напомнили, что PPO не стабильно и делают DPO.
2. Схема CCE => DPO работает хорошо.
3. Best of N или RL для бедных, всё ещё лутает и на батч генерации и на инференсе.
4. DPO требователен к размеру сета.
5. Умный сэмплинг с параметров, ранее полезных для оценки на корзинках, даёт направленное выравнивание.
Теперь подробнее про DPO пункты 2-4:
В общем, ребята не юзают PPO, но берут reward модельку для получения синтетики. А именно, гоняют пассажи и генерации к ним через модель награды и кормят DPO алгоритму эту разметку, получают +5% качества.
Потом идут ещё дальше, и берут
топ2 по скору пары из reward для дообучения в cross entropy (по сути ещё шаг файнтюна) с их LLM. После врубают DPO и модель радостно сходится и даёт ещё +4% win rate.
При этом, CE шаг работает с DPO дословно: ТОЛЬКО в последовательности сначала sft-CE на top2 потом DPO. Отмечают, что ещё DPO требователен к размеру дата сета и нужно порядка 50-100к пар, чтобы завелось.
Ну и такой сэмплинг не только помогает на обучении, но и на генерации ответа, выбор топ1 по награде даёт лучший winrate +7%. Правда зовут они это фильтрацией😁
В общем, зачемкозе баян CE+DPO и почему это работает?
Такие вопросы я задал себе. И подумав, предположил, что дело в направленной сходимости к некоторой области весов сети. Эту область мы достигаем через reward sampling+CE файнтюн (как прям при прогреве ???). Далее уже в этой области мы при помощи DPO доусаживаем веса до оптимального набораи не разлетаемся к хренам. Таким образом ,CE подход напоминает направленную регуляризацию, по аналогии с KLD в PPO? А почему бы не делать для надежности сходимости в PPO также. N шагов с CE, K шагов с PPO и по кругу 🤔
Замечание: тк в центре всего тут reward моделька, то её нужно натренировать максимально качественно и надёжно. Быть уверенным , что она реально хорошо отражает preferences. От себя добавлю, для обучения такой модели нужен сбалансированный сет, без перекосов по стилю и длине текстов. Иначе ваша награда быстро найдёт как разделить такие тексты (по тому же стилю или длине).
На сладкое пункт 5. Что это за такой сэмплинг умный?
Ответ простой. Давайте будем просить размечать генерации не только как хороший/плохой, а ставить доп параметры: безопасный, интересный, информативный и тп.
Далее будем использовать это one-hot кодирования для того, чтобы сэмплить примеры с нужным набором 0/1 по данным осям. Так мы получили на батч генерации направленное выравнивание по нужным нам свойства на оценке метрик! Вот западает у вас безопасность и интересность, берём и семплим где стоят у примеров 1ки по этим параметрам. Но ребята пошли дальше, и разбили такие наборы на группы и раздали веса (экспертно или на прогонах выбрали) для сэмплирования, аля вероятности взять в батч. Ещё +1.5% к качеству. Красиво, молодцы.😏
Фух, вроде всё. Советую очень посмотреть это 📹 по ссылке во вложении. Я кайфанул, думаю вы тоже оцените.
Вчера вечером посмотрел интересное от Яндекса.
Митап ML в Белграде. Команда поиска рассказывала о своём опыте с LLM.
Мне были интересны первые два доклада. Поэтому мои заметки ниже.
Доклад 1. Про генерацию рекламных предложений в поиске:
Ситуация такая, что ребята делают генерацию шаблонов предложений на GPTlike. Далее при помощи DSSM-BERT + catboost выдают лучший кандидат. Радует, что схема классическая, энкодеры и бустинги всё ещё живут и помогают в выдаче. А не "давайте всё перенесём на генеративные с К бошками, пусть и генерит и реранкит".
От себя. Я бы в кандидаты добавил кроме сгенерированных шаблонов, созданные при помощи людей, преднаписанные или вообще конструктор на аннотаторах (модели такие а-ля NER, topic и тп), где в шаблоны просто филятся кандидаты по полям. Далее это всё вместе уже с генеративной реранкал, чтобы добавить надёжности.
Доклад 2. Сладкий RLHF в LLM для поиска.
(Крч хайп, балдёж и всё такое.)
Очень интересный срез опыта команды alignment LLM в поиске.
Рассказали важное, tldr:
1. Ещё раз напомнили, что PPO не стабильно и делают DPO.
2. Схема CCE => DPO работает хорошо.
3. Best of N или RL для бедных, всё ещё лутает и на батч генерации и на инференсе.
4. DPO требователен к размеру сета.
5. Умный сэмплинг с параметров, ранее полезных для оценки на корзинках, даёт направленное выравнивание.
Теперь подробнее про DPO пункты 2-4:
В общем, ребята не юзают PPO, но берут reward модельку для получения синтетики. А именно, гоняют пассажи и генерации к ним через модель награды и кормят DPO алгоритму эту разметку, получают +5% качества.
Потом идут ещё дальше, и берут
топ2 по скору пары из reward для дообучения в cross entropy (по сути ещё шаг файнтюна) с их LLM. После врубают DPO и модель радостно сходится и даёт ещё +4% win rate.
При этом, CE шаг работает с DPO дословно: ТОЛЬКО в последовательности сначала sft-CE на top2 потом DPO. Отмечают, что ещё DPO требователен к размеру дата сета и нужно порядка 50-100к пар, чтобы завелось.
Ну и такой сэмплинг не только помогает на обучении, но и на генерации ответа, выбор топ1 по награде даёт лучший winrate +7%. Правда зовут они это фильтрацией
В общем, зачем
Такие вопросы я задал себе. И подумав, предположил, что дело в направленной сходимости к некоторой области весов сети. Эту область мы достигаем через reward sampling+CE файнтюн (как прям при прогреве ???). Далее уже в этой области мы при помощи DPO доусаживаем веса до оптимального набора
Замечание: тк в центре всего тут reward моделька, то её нужно натренировать максимально качественно и надёжно. Быть уверенным , что она реально хорошо отражает preferences. От себя добавлю, для обучения такой модели нужен сбалансированный сет, без перекосов по стилю и длине текстов. Иначе ваша награда быстро найдёт как разделить такие тексты (по тому же стилю или длине).
На сладкое пункт 5. Что это за такой сэмплинг умный?
Ответ простой. Давайте будем просить размечать генерации не только как хороший/плохой, а ставить доп параметры: безопасный, интересный, информативный и тп.
Далее будем использовать это one-hot кодирования для того, чтобы сэмплить примеры с нужным набором 0/1 по данным осям. Так мы получили на батч генерации направленное выравнивание по нужным нам свойства на оценке метрик! Вот западает у вас безопасность и интересность, берём и семплим где стоят у примеров 1ки по этим параметрам. Но ребята пошли дальше, и разбили такие наборы на группы и раздали веса (экспертно или на прогонах выбрали) для сэмплирования, аля вероятности взять в батч. Ещё +1.5% к качеству. Красиво, молодцы.
Фух, вроде всё. Советую очень посмотреть это 📹 по ссылке во вложении. Я кайфанул, думаю вы тоже оцените.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
ML Party Белград — 25 октября 2023
Добро пожаловать на вечерний митап для ML-инженеров от Яндекса. В этот раз поговорим про прикладной проект на стыке технологий машинного обучения и ecom-продукта, обсудим этапы задачи матчинга предложений на товары и потери на разных стадиях, а также рассмотрим…
👍18❤5🔥3