BlockchainRLHF O.o
UPD. Ссылка для трудящихся
https://www.sciencedirect.com/science/article/pii/S1574013721000769
UPD. Ссылка для трудящихся
https://www.sciencedirect.com/science/article/pii/S1574013721000769
🔥4👍3
Неделя заканчивается с кофе соревок.
Есть теперь любителям шатать соревнования, чем заняться на выходных.
TG запускает контест по детекции кода на разных языках из тестовых сабжей. Можно юзать паблик датку.
https://t.me/contest/330
Есть теперь любителям шатать соревнования, чем заняться на выходных.
TG запускает контест по детекции кода на разных языках из тестовых сабжей. Можно юзать паблик датку.
https://t.me/contest/330
Telegram
Telegram Contests
🏆 Telegram ML Competition
Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023
Telegram…
Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023
Telegram…
👍2
Всем привет, мы строили строили и наконец построили!
Первая супер-библиотека по spelling corruption SAGE.
Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.
UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!
Интересно?
Го читать на хабр!
https://habr.com/ru/companies/sberdevices/articles/763932/
Наша библиотека SAGE:
https://github.com/ai-forever/sage
AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
Первая супер-библиотека по spelling corruption SAGE.
Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.
UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!
Интересно?
Го читать на хабр!
https://habr.com/ru/companies/sberdevices/articles/763932/
Наша библиотека SAGE:
https://github.com/ai-forever/sage
AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
Telegram
Dealer.AI
Друзья, сегодня проходит второй день Конференции Диалог2023.
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…
🔥39❤5👍4
Закончился LLM Exam сорев на kaggle.
Постановка:
Задача состояла в том,чтобы по запросу провести ранжирование ответов A,B,C,D,E исходя из релевантности. Ничего не напоминает?)
От себя:
Мне так и не удалось на полную в нём поучаствовать, тк загрузка full. Но с удовольствием делился идеями с друзьями по цеху. Вот тут ссылка на топ решение. Мне оно не интересно, тк много "грубой силы". Посмотрите сами.
А вот, чтобы я выделил так это другие решения из топ10 (те что в золоте также). Их можно разделить на два типа, а третий я напишу от себя. Его пока никто не описал из участников.
Итак первый подход - каноничный RAG. Берём обкачиваем вики и в индекс кладём его: в Elastic и/или в FAISS, предварительно заэмбеддив с К энкодеров. Далее уже берём LLM претрен соту которой доверяем и по запросу идём в индексы, собираем с них выдачу и кидаем в контекст промта-запроса для LLM. Делаем генерацию для упорядочения ответов.
Метод два. Reward для бедных на DeBERTa в режиме multiple choice + индекс вики с Эластика, + к примеру ещё метаранкер можно кросс энкодер можно бустинг.
Мой вариант. Reward на LLM. Берём ту большуюбабаху LLM которая по-вашему мнению или по MMLU лучшая по претрену. Далее выкачиваем с HF rlhf сеты для webgpt+wiki stem , учим reward поверх стейтов LLM. Далее берём пары промт + abсde варианты выдачи и кормим в эту reward LLM . Она выдаёт ранги, по ним сортируем.
Плохо? Берём вики обкачиваем крупный банк текстов также уже берём эластик или faiss+e5/mini-lm-mmarco и тп, кидаем уже доп подсказку для LLM reward. E2E дообучая, можно даже в LoRa , чтобы стейты заморозить и быстро до усадить.
Как-то так. Интересно, кто-нибудь такое сделал?
Ваши варианты в комментариях.
Постановка:
Задача состояла в том,чтобы по запросу провести ранжирование ответов A,B,C,D,E исходя из релевантности. Ничего не напоминает?)
От себя:
Мне так и не удалось на полную в нём поучаствовать, тк загрузка full. Но с удовольствием делился идеями с друзьями по цеху. Вот тут ссылка на топ решение. Мне оно не интересно, тк много "грубой силы". Посмотрите сами.
А вот, чтобы я выделил так это другие решения из топ10 (те что в золоте также). Их можно разделить на два типа, а третий я напишу от себя. Его пока никто не описал из участников.
Итак первый подход - каноничный RAG. Берём обкачиваем вики и в индекс кладём его: в Elastic и/или в FAISS, предварительно заэмбеддив с К энкодеров. Далее уже берём LLM претрен соту которой доверяем и по запросу идём в индексы, собираем с них выдачу и кидаем в контекст промта-запроса для LLM. Делаем генерацию для упорядочения ответов.
Метод два. Reward для бедных на DeBERTa в режиме multiple choice + индекс вики с Эластика, + к примеру ещё метаранкер можно кросс энкодер можно бустинг.
Мой вариант. Reward на LLM. Берём ту большую
Плохо? Берём вики обкачиваем крупный банк текстов также уже берём эластик или faiss+e5/mini-lm-mmarco и тп, кидаем уже доп подсказку для LLM reward. E2E дообучая, можно даже в LoRa , чтобы стейты заморозить и быстро до усадить.
Как-то так. Интересно, кто-нибудь такое сделал?
Ваши варианты в комментариях.
Kaggle
Kaggle - LLM Science Exam
Use LLMs to answer difficult science questions
👍13❤4
Dealer.AI
Кхм... Спасибо. Но нет..
Отправлю Сене, а то чую его ждёт судьба того, кто на меме с ним... 👇
👍3👎1
Forwarded from Love. Death. Transformers.
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
😁21🤡4👍1🔥1😢1
Пошутили и хватит. Народ любит другой контент.
Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.
А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!
Либа тут: https://github.com/microsoft/autogen
Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.
А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!
Либа тут: https://github.com/microsoft/autogen
Telegram
Dealer.AI
Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать…
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать…
👍12
Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech
https://habr.com/ru/articles/767560/
Поддержим!
https://habr.com/ru/articles/767560/
Поддержим!
Хабр
Проблема омографов в ударениях и как я ее решал
Меня зовут Денис (tg: @chckdskeasfsd ), и это история о том, почему в опенсурсе нет TTS с нормальными ударениями, и как я пытался это исправить. Обзор проблемы Одной из немаловажных задач в синтезе...
👍13🔥3👎2
Рекомендательный штурвал какой-то.
If you know, what i mean... ;)
UPD. Поэтому я порекомендую видео про рекомендации в модели рекомендации... Ну вы поняли.
https://t.me/tinkoffai/311
If you know, what i mean... ;)
UPD. Поэтому я порекомендую видео про рекомендации в модели рекомендации... Ну вы поняли.
https://t.me/tinkoffai/311
Telegram
Жёлтый AI
Олег записал два ролика – о том, как обучали модель для предсказания покупок, с которой залетели на ECIR в Ирландию; и о том, как они запихали рекомендации в модели для рекомендаций, чтобы рекомендовать рекомендательные системы 🚌
😁5
Dealer.AI
Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech https://habr.com/ru/articles/767560/ Поддержим!
Кажется, колыхнул нормально.
НКРЯ, похоже, совсем не так охотно делится своими данными.
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/
НКРЯ, похоже, совсем не так охотно делится своими данными.
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/
Roem.ru
Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним
В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное: Пользователь morosowdm (в составе // Роем в вашем Телеграме: https://t.me/roemru
🤬9🤡1
Dealer.AI
Кажется, колыхнул нормально. НКРЯ, похоже, совсем не так охотно делится своими данными. https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/
А я всё ещё напоминаю про https://github.com/natasha/corus , вроде и лицензия MIT. Саше Кукушкину спасибо за подборку.
GitHub
GitHub - natasha/corus: Links to Russian corpora + Python functions for loading and parsing
Links to Russian corpora + Python functions for loading and parsing - natasha/corus
👍12
Forwarded from Complete AI (Andrey Kuznetsov)
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
🔥20😱4❤2🤯1
Ни Giga себе
(тебе)
Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).
UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.
(тебе)
Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).
UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.
Хабр
GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера
Коль желаешь, читай статью Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество...
🔥11👎1
Sparse Universal Transformer
Когда роутить можно даже чью-то мамку...
Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.
В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.
Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.
В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976
От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer
Приятного погружения.
Когда роутить можно даже чью-то мамку...
Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.
В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.
Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.
В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976
От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer
Приятного погружения.
X (formerly Twitter)
Soumith Chintala (@soumithchintala) on X
i might have heard the same 😃 -- I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
😁9👍2❤1