Forwarded from эйай ньюз
Увидел в Threads анекдот: Bloomberg потратил ~$10 миллионов (в AWS SageMaker) на тренировку BloombergGPT (50B параметров на 700B токенов), специально для финансовых задач. Иииии.... модель всухую проиграла на этих же финансовых тасках GPT-4, которая вышла за две недели до этого.
И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).
Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого😂
@ai_newz
И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).
Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
😁33💯2
Внимание, возможны репутационные осадки в виде фрикаделек LLMок.
На прошедшей конференции EACL была статья про утечки тест сетов бенчей в LLMки. Между прочим получила приз.
Поэтому рынок LLM может сильно перевернуться, когда добавят оценку утечки данных на общепринятые бенчмарки. Многие модели потеряют репутацию, если обнаружится утечка, и многие компании начнут в скором времени переобучать свои LLM без утечек и вообще будет весело :)
На прошедшей конференции EACL была статья про утечки тест сетов бенчей в LLMки. Между прочим получила приз.
Поэтому рынок LLM может сильно перевернуться, когда добавят оценку утечки данных на общепринятые бенчмарки. Многие модели потеряют репутацию, если обнаружится утечка, и многие компании начнут в скором времени переобучать свои LLM без утечек и вообще будет весело :)
😁22❤3🤔2
Forwarded from Salute AI (Alexander Gavrilov)
5 апреля | 12:00 | онлайн и офлайн в Москве
SberDevices зовёт в гости ML-разработчиков и Data Science-специалистов на конференцию R&D команд SberDevices по развитию GigaChat, NLP, Vision и Audio.
Будем изучать LLM и CV, распознавать жесты, генерировать вокал и 3D-модели, общаться с книгами и путешествовать по VR-галерее.
Программа:
🖥 Регистрируйтесь и выберите формат:📹 Онлайн на YouTube🕒 Офлайн в Москве. Приходите к 11:00.
‼️ Важно:
Адрес места проведения пришлем 4 апреля вместе с приглашением на митап.
#конференция_GIGA_RND_DAY
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4
Яндекс выпустил целую линейку больших языковых моделей третьего поколения. YandexGPT 3 эффективнее решает сложные задачи и вообще лучше понимает контекст. Самое интересное, что смогли улучшить фактологию и надежность предоставляемой информации из генерации.
Первая нейросеть из линейки — это YandexGPT 3 Pro, которая может обрабатывать существенно больше запросов за единицу времени – чем предыдущие модели. А еще она способна представлять данные в формате JSON (JavaScript Object Notation).
Новые возможности для заказчиков: компании могут дообучать YandexGPT 3 Pro на собственных данных, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. Дообученную версию затем можно встроить в продукты через API (попробовать в демке тоже можно), при этом, стоимость использования новой нейросети снизилась почти в два раза.
Жду теперь энтузиастов, которые оценят новую версию на общепринятых публичных бенчмарках. Хотя по инфо из статьи имеется 100 бесплатных запросов в деморежиме. Но умельцы, уверен, найдутся.
Первая нейросеть из линейки — это YandexGPT 3 Pro, которая может обрабатывать существенно больше запросов за единицу времени – чем предыдущие модели. А еще она способна представлять данные в формате JSON (JavaScript Object Notation).
Новые возможности для заказчиков: компании могут дообучать YandexGPT 3 Pro на собственных данных, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. Дообученную версию затем можно встроить в продукты через API (попробовать в демке тоже можно), при этом, стоимость использования новой нейросети снизилась почти в два раза.
Жду теперь энтузиастов, которые оценят новую версию на общепринятых публичных бенчмарках. Хотя по инфо из статьи имеется 100 бесплатных запросов в деморежиме. Но умельцы, уверен, найдутся.
🔥20👎13👍3❤🔥2
Видели такое?
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
Удобно?
https://nn.labml.ai/
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
Удобно?
https://nn.labml.ai/
👍31🔥8❤7
Co-co Jamba
Знаю, что уже много где было, НО: https://www.ai21.com/blog/announcing-jamba
На MOE, трансформер и мама любит мамба и Сережа тоже(с)
+ Жирный контекст на GPU (до 140k)
.....
и много кеков с Mr. President track
UPD чекп на 🤗
Знаю, что уже много где было, НО: https://www.ai21.com/blog/announcing-jamba
На MOE, трансформер и мама любит мамба и Сережа тоже(с)
+ Жирный контекст на GPU (до 140k)
.....
и много кеков с Mr. President track
UPD чекп на 🤗
AI21
Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model
Debuting the first production-grade Mamba-based model delivering best-in-class quality and performance.
👍9❤2
Dealer.AI
Примоднимся сегодня чутка. https://t.me/latech/805
https://www.youtube.com/live/Vx7JQ--OBoI?si=fOrCFJLqTzng3aP_
и я там был,мед пиво пил, за CLIP вопрос задавал, чехол на ноутбук забрал.
Metric learning живее всех, два из трех докладов про sbert for RecSys и CLIP.
и я там был,
Metric learning живее всех, два из трех докладов про sbert for RecSys и CLIP.
YouTube
Lamoda Tech DS Meetup. Fashion is ML Profession
Форма обратной связи: https://forms.gle/HeJU9VWeArEQqSgX6
Lamoda Tech в соц. сетях:
Telegram-канал: https://t.me/latech
Хабр: https://habr.com/ru/companies/lamoda/articles/
Lamoda Tech в соц. сетях:
Telegram-канал: https://t.me/latech
Хабр: https://habr.com/ru/companies/lamoda/articles/
🔥12👍7👎1
Dealer.AI
Восстанови промт, если сможешь. Новое соревнование на kaggle: LLM Prompt Recovery | Kaggle По уже новой традиции соревок с LLM (к примеру LLM detect): - Трейна неть (ходите генерите сами) 🤨 - Тест 1400 семплов, но мы его вам не дадим, у вас докУментов…
Это шоу "восстанови prompt или умри". Продолжение.
Тут, крч, уже коллеги писали, что с Gemma вышел косяк на косяке, удивительно,что оно работает. А тут такое дело, что соревка по промптам, как раз на том же семействе и уже докатилося до дискуссий на kaggle.
А Дядя, тем временем, думает, как быть участникам, как побеждать, куда двигаться? Напомню, опорных стилей измененных промтов на руках нет. Ну только один:)
Варианты:
1. Пробинг на LB или "случайное" блуждание с LLM на perplexity, благо, что за модель известно. Брать, генерить систем промпты для подбора стиля переписывания и следить за скором на лб или за перплексией локально.
2. Более направленное движение для п.1. Уже если подумать получше, то перевернуть задачу: у нас есть стартовый промпт, переписанный промпт X и генерация от Х. Давайте подбирать словосочетания/токены в изначальном промпте и следить за perplexity(Generation/X). Тут уже важна стратегия, например, меняем на синонимы или синонимичные фразы.
И выбирать те изменения, которые минимизируют перплексию.
3) Тоже самое, что в п. 2., но учим reward модельку, оценивающую prompt+gen. Также фиксируется генерация, далее можно перебирать, как в п. 2. токены или словосочетания, но уже максимизируем reward. Сетов для reward можно отрыть кучу на hf datasets, а в качестве базовой тушки взять, естественно, Gemma из сорева и сверху на last-token эмб кинуть пару слоев или сделать LoRA тюн. Как учить reward модельки тоже нагуглите.
В случае п. 2-3, остается все еще несколько сложностей: правила замены токенов, глубина замены (те каждое слово или К из М). Но тут уже ваши фантазии и эвристики, к сожалению таков уж сорев. В казино порой шансы те же, но выигрыш крупнее (шучу).
Успехов!
UPD. Самая боль будет, если промпты переписывали НЕ с целью улучшить генерацию. Тогда ток п. 1. работает с пробингом ЛБ, плак.
Тут, крч, уже коллеги писали, что с Gemma вышел косяк на косяке, удивительно,что оно работает. А тут такое дело, что соревка по промптам, как раз на том же семействе и уже докатилося до дискуссий на kaggle.
А Дядя, тем временем, думает, как быть участникам, как побеждать, куда двигаться? Напомню, опорных стилей измененных промтов на руках нет. Ну только один:)
Варианты:
1. Пробинг на LB или "случайное" блуждание с LLM на perplexity, благо, что за модель известно. Брать, генерить систем промпты для подбора стиля переписывания и следить за скором на лб или за перплексией локально.
2. Более направленное движение для п.1. Уже если подумать получше, то перевернуть задачу: у нас есть стартовый промпт, переписанный промпт X и генерация от Х. Давайте подбирать словосочетания/токены в изначальном промпте и следить за perplexity(Generation/X). Тут уже важна стратегия, например, меняем на синонимы или синонимичные фразы.
И выбирать те изменения, которые минимизируют перплексию.
3) Тоже самое, что в п. 2., но учим reward модельку, оценивающую prompt+gen. Также фиксируется генерация, далее можно перебирать, как в п. 2. токены или словосочетания, но уже максимизируем reward. Сетов для reward можно отрыть кучу на hf datasets, а в качестве базовой тушки взять, естественно, Gemma из сорева и сверху на last-token эмб кинуть пару слоев или сделать LoRA тюн. Как учить reward модельки тоже нагуглите.
В случае п. 2-3, остается все еще несколько сложностей: правила замены токенов, глубина замены (те каждое слово или К из М). Но тут уже ваши фантазии и эвристики, к сожалению таков уж сорев. В казино порой шансы те же, но выигрыш крупнее (шучу).
Успехов!
UPD. Самая боль будет, если промпты переписывали НЕ с целью улучшить генерацию. Тогда ток п. 1. работает с пробингом ЛБ, плак.
Telegram
Love. Death. Transformers.
понимаете да?
типа 50 человек+ команда, никто не проверил что вообще с перфомансом hf версии модели.
я блять удивлен что gemeni вообще работает. JAX проклятый
багфикс блог, огромный респект ребятам из unsloth
типа 50 человек+ команда, никто не проверил что вообще с перфомансом hf версии модели.
я блять удивлен что gemeni вообще работает. JAX проклятый
багфикс блог, огромный респект ребятам из unsloth
❤5👍1
Я сам когда-то увлекался размерностями, но на примере фрактальной геометрии, очень напоминает эти концепции.
Полезное чтиво 👇
Полезное чтиво 👇
Forwarded from AbstractDL
Как устроено пространство, в котором думают языковые модели?
Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.
Статья, хабр
Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.
Статья, хабр
👍22🔥8❤3👏1
LLM отправили на олимпиаду по матише. 🧑🎓
Новый сорев по NLP на kaggle. Над решать олимпиадные задачки при помощи LLM. Вопреки тренду тут и тут, train сетик имеется🤙 Да еще даже есть указание откуда он взялся, те можно наскрапать поболее датки.
Что тут можно посоветовать:
1. Юзать модель LLEMMA и идеи из статьи.
2. Обратить внимание на статьи могут ли LLM решать мат задачки, быть калькуляторами и как: раз, два, три и думаю еще найдете.
3. Обратить внимание на токенизатор в ваших LLM, порой полезны модели с single цифрой на token , те токенизация по 0,1,2...,9.
4. Работать в few shot режиме, но хитро, используя RAG систему. По принципу: обкачал этот ресурс, закэшил, сверху взял ретривер и по задаче из теста возвращаешь топК задач из кэша с условием и ответом. Далее по примеру текущей задачи кидаем в промт выгруженные похожие задачи с индекса и просим по аналогии решить текущую тестовую аля: "смотри LLM вот 1+1=2, 3+3=6, а тогда скок будет 4+5=?" Естествннно там будет пример сложнее, надеюсь, концепт поняли.
5. Пункт дополняет 4ый. Нагенерить синту из известных задач с разными параметрами и ответами, от них зависящими. Было 1+1=2 стало 3+3=6 и тп. Как? Думайте сами)
UPD.
6.Совсем забыл про MultiHop и Chain of thought) Можно разумеется юзать техники пошагового рассуждения статьи: раз, два.
+ два сета от NVIDIA спасибо @tsimboyolga
-https://huggingface.co/datasets/TIGER-Lab/MathInstruct
-https://huggingface.co/datasets/nvidia/OpenMathInstruct-1
Успехов)
Новый сорев по NLP на kaggle. Над решать олимпиадные задачки при помощи LLM. Вопреки тренду тут и тут, train сетик имеется
Что тут можно посоветовать:
1. Юзать модель LLEMMA и идеи из статьи.
2. Обратить внимание на статьи могут ли LLM решать мат задачки, быть калькуляторами и как: раз, два, три и думаю еще найдете.
3. Обратить внимание на токенизатор в ваших LLM, порой полезны модели с single цифрой на token , те токенизация по 0,1,2...,9.
4. Работать в few shot режиме, но хитро, используя RAG систему. По принципу: обкачал этот ресурс, закэшил, сверху взял ретривер и по задаче из теста возвращаешь топК задач из кэша с условием и ответом. Далее по примеру текущей задачи кидаем в промт выгруженные похожие задачи с индекса и просим по аналогии решить текущую тестовую аля: "смотри LLM вот 1+1=2, 3+3=6, а тогда скок будет 4+5=?" Естествннно там будет пример сложнее, надеюсь, концепт поняли.
5. Пункт дополняет 4ый. Нагенерить синту из известных задач с разными параметрами и ответами, от них зависящими. Было 1+1=2 стало 3+3=6 и тп. Как? Думайте сами)
UPD.
6.Совсем забыл про MultiHop и Chain of thought) Можно разумеется юзать техники пошагового рассуждения статьи: раз, два.
+ два сета от NVIDIA спасибо @tsimboyolga
-https://huggingface.co/datasets/TIGER-Lab/MathInstruct
-https://huggingface.co/datasets/nvidia/OpenMathInstruct-1
Успехов)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤4
Forwarded from что-то на DL-ском
Нашла очень приятную презентацию, которая может служить шпаргалкой к созданию мультиязычной😛 большой языковой модели из претрена в основном на одном языке
Материал не новый, но тут собрано все. В деталях и с примерами.
💛 Как расширить токенайзер модели
💛 Как дообучить так, чтобы модель перестала тупить на редких языках
💛 Как лучше инициализировать эмбединговый слой
💛 А какие данные взять
💛 Ну и кончено большое количество примеров в конце
Материал не новый, но тут собрано все. В деталях и с примерами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤3
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Богдан Булатов "Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 8 Апреля, 19.00 (по Москве)
Add to Google Calendar
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 Богдан Булатов "Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 8 Апреля, 19.00 (по Москве)
Add to Google Calendar
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Google Workspace
Google Calendar - Easier Time Management, Appointments & Scheduling
Learn how Google Calendar helps you stay on top of your plans - at home, at work and everywhere in between.
🔥5❤1👍1
JetMoe: и в MLP и в гриву и на свою Attention голову.
Интересный эксперимент с тем, куда бы еще втащить MoE: в MLP было, в LoRA адаптеры было, в QKV даже видел вроде. Но как же мы забыли, что вполне на поверхности роутить бошки внимания. И вот ребята запилили такое.
Хвастают тем что потратили 96 h100 около 2 недель претрена. Сделали 8b модельку, с 2.2b активными параметрами на инфере и обходящую на MTBench 13b Llama2.
Интересный эксперимент с тем, куда бы еще втащить MoE: в MLP было, в LoRA адаптеры было, в QKV даже видел вроде. Но как же мы забыли, что вполне на поверхности роутить бошки внимания. И вот ребята запилили такое.
Хвастают тем что потратили 96 h100 около 2 недель претрена. Сделали 8b модельку, с 2.2b активными параметрами на инфере и обходящую на MTBench 13b Llama2.
👍11🦄4