RL это буквально fuck around and find out (с)
из одного крутого AI чатика
UPD. Пример эксплуатируй или исследуй.
За цитату мерси https://t.me/boris_again
из одного крутого AI чатика
UPD. Пример эксплуатируй или исследуй.
За цитату мерси https://t.me/boris_again
❤12🔥2👍1
Ох люблю своих подписчиков/студентов/школьников и просто активных умнарей.
Спасибо @chckdskeasfsd
Приветствую сообщество! Сегодня решил выложить в опенсурс свою диалоговую систему вместе со всеми моделями и кодом.
Скачать можно тут: https://github.com/Den4ikAI/Anfice-chatbot
Сделано на основе FRED-T5-XL и нескольких энкодеров (подробности на гите)
Если будете тестировать, просьба написать фидбек в лс
Демо бот: https://t.me/anficechatbot, @anficechatbot
Спасибо @chckdskeasfsd
Приветствую сообщество! Сегодня решил выложить в опенсурс свою диалоговую систему вместе со всеми моделями и кодом.
Скачать можно тут: https://github.com/Den4ikAI/Anfice-chatbot
Сделано на основе FRED-T5-XL и нескольких энкодеров (подробности на гите)
Если будете тестировать, просьба написать фидбек в лс
Демо бот: https://t.me/anficechatbot, @anficechatbot
GitHub
GitHub - Den4ikAI/Anfice-chatbot: Диалоговая система на базе FRED-T5
Диалоговая система на базе FRED-T5. Contribute to Den4ikAI/Anfice-chatbot development by creating an account on GitHub.
🔥13👍1😁1
MoE(я) прелесть или Switch Transformers в каждый дом.
Как говорится, повторенье - матьмученья учения. Поговорим уже о давно отшумевшем mixture of experts подходе (далее MoE) на примере Switch transformers.
В целом MoE это продукт синтеза двух базовых подходов обычной feed forward mlp и gating/routing из GRU RNN.
Задача ансамбля MoE состоит в том, чтобы:
1. Увеличить репрезентативность и вариативность отображений ffn.
2. Сохранить при увеличении числа весов модели, за счёт роутинга небольшую потерю в вычислительной мощности.
3. Динамически регулировать ëмкость сети в зависимости от входных данных.
При этом если посмотреть на схему MoE в Switch transformers мы видим всё тот же знакомый механизм голосования при помощи soft-max . Однако, в отличии от классического MoE выбирается топ-1 эксперт.
Эксперимент:
Недавно вот попробовал заменить в нашем подходе вырезанные из BERT 6 слоёв по 768 dim. На свой классик трансформер со Switch MoE в каждом блоке вместо FFN.
Конфигурация была такая: 3 блока трансформера, 4 головы внимания и 4 эксперта в MoE. Размерность отображения эксперта и трансформера 256.
Итог. Мы достигаем тех же показателей по метрикам на задаче диалогового моделирования , но уменьшили размер модели получения эмбеддингов контекста в 17 раз!
UPD. Если хотите потрогать сами вот на HF сорс.
Как говорится, повторенье - мать
В целом MoE это продукт синтеза двух базовых подходов обычной feed forward mlp и gating/routing из GRU RNN.
Задача ансамбля MoE состоит в том, чтобы:
1. Увеличить репрезентативность и вариативность отображений ffn.
2. Сохранить при увеличении числа весов модели, за счёт роутинга небольшую потерю в вычислительной мощности.
3. Динамически регулировать ëмкость сети в зависимости от входных данных.
При этом если посмотреть на схему MoE в Switch transformers мы видим всё тот же знакомый механизм голосования при помощи soft-max . Однако, в отличии от классического MoE выбирается топ-1 эксперт.
Эксперимент:
Недавно вот попробовал заменить в нашем подходе вырезанные из BERT 6 слоёв по 768 dim. На свой классик трансформер со Switch MoE в каждом блоке вместо FFN.
Конфигурация была такая: 3 блока трансформера, 4 головы внимания и 4 эксперта в MoE. Размерность отображения эксперта и трансформера 256.
Итог. Мы достигаем тех же показателей по метрикам на задаче диалогового моделирования , но уменьшили размер модели получения эмбеддингов контекста в 17 раз!
UPD. Если хотите потрогать сами вот на HF сорс.
research.google
Mixture-of-Experts with Expert Choice Routing
Posted by Yanqi Zhou, Research Scientist, Google Research, Brain Team The capacity of a neural network to absorb information is limited by the numb...
👍14🔥5
Летней стажировки пост.
Пришло лето, а значит пора не только сдавать сессию, но и искать место на практику, которая станет стартом Вашей карьеры.
Сегодня вакансия в оч крутую и на мой взгляд перспективную по домену команду Knowledge graph QA.
Стажер-аналитик на 3 месяца в SaluteDevices
Локация: Москва, м. Кутузовская или удалённо из любой точки в РФ
Задачи:
* улучшение текущих пайплайнов разметки данных и создание новых
* построение дашбордов
* прогон и оценка результатов работы вопросно-ответной системы
Ожидания:
* хороший уровень Python 3
* sql, bash, git, dvc
* базовое понимание ML и NLP
Будет плюсом:
* опыт разметки данных (Toloka, Tagme)
* работа с Kibana (ELK)
От нас:
* зп 57к руб. gross
* атмосфера стартапа внутри большой компании
* отсутствие проблем с вычислительными мощностями
* конференции и обучение
* современный и удобный Agile-офис по желанию
* бесплатный фитнес-зал, бесплатная парковка на территории офиса, снеки, чай, кофе.
От себя скажу, что будет возможность поработать даже с GPT like моделями, тк ODQA и Knowledge Graph QA необходимы для лучшей фактологии при генерации, да и само направление графов знаний имхо перспективное.
Контакты @zu_ann
Пришло лето, а значит пора не только сдавать сессию, но и искать место на практику, которая станет стартом Вашей карьеры.
Сегодня вакансия в оч крутую и на мой взгляд перспективную по домену команду Knowledge graph QA.
Стажер-аналитик на 3 месяца в SaluteDevices
Локация: Москва, м. Кутузовская или удалённо из любой точки в РФ
Задачи:
* улучшение текущих пайплайнов разметки данных и создание новых
* построение дашбордов
* прогон и оценка результатов работы вопросно-ответной системы
Ожидания:
* хороший уровень Python 3
* sql, bash, git, dvc
* базовое понимание ML и NLP
Будет плюсом:
* опыт разметки данных (Toloka, Tagme)
* работа с Kibana (ELK)
От нас:
* зп 57к руб. gross
* атмосфера стартапа внутри большой компании
* отсутствие проблем с вычислительными мощностями
* конференции и обучение
* современный и удобный Agile-офис по желанию
* бесплатный фитнес-зал, бесплатная парковка на территории офиса, снеки, чай, кофе.
От себя скажу, что будет возможность поработать даже с GPT like моделями, тк ODQA и Knowledge Graph QA необходимы для лучшей фактологии при генерации, да и само направление графов знаний имхо перспективное.
Контакты @zu_ann
🤡16👍12❤4🔥1🙈1
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
Коллеги из #ODS подсветили интересную статью про self-supervised learning.
Идея:
По промтам генерить картинки и генерации в виде позитивных пар из топ-К использовать для дообучения. Да тут включается мой любимый metric/contrastive learning.
В итоге CLIP полученный на обучении с такой процедурой генерации картинок на 20млн пар, оказывается лучше чем classic CLIP, обученный на 50млн.
Но.
Нужно понимать, что модели, которые генерят новых кандидатов, вполне могли видеть те же данные что и классический CLIP. А значит, скорее всего, мы просто аугментируем и дополняем знания изначальной родительской модели через промтинг.
И даже есть статья, которая подтверждает, что увеличение числа негативных и позитивных примеров, которые видят модели, обученные на принципах contrastive/metric learning даёт значимый буст качества.
В исследовании гугла, даже показывается, что увеличение размера ТОЛЬКО негатив кэша уже улучшает "насмотренность" таких моделей и как следствие метрики на downstream. Причём, не обязательно пересчитывать эмбеды кэша, каждую эпоху, достаточно даже раз в N эпох.
В общем, работа подтверждает предыдущие исследования, и даёт возможность использования генеративных моделей для улучшения уже имеющихся прото-моделей.
Источник:
https://t.me/opendatascience/1905
Коллеги из #ODS подсветили интересную статью про self-supervised learning.
Идея:
По промтам генерить картинки и генерации в виде позитивных пар из топ-К использовать для дообучения. Да тут включается мой любимый metric/contrastive learning.
В итоге CLIP полученный на обучении с такой процедурой генерации картинок на 20млн пар, оказывается лучше чем classic CLIP, обученный на 50млн.
Но.
Нужно понимать, что модели, которые генерят новых кандидатов, вполне могли видеть те же данные что и классический CLIP. А значит, скорее всего, мы просто аугментируем и дополняем знания изначальной родительской модели через промтинг.
И даже есть статья, которая подтверждает, что увеличение числа негативных и позитивных примеров, которые видят модели, обученные на принципах contrastive/metric learning даёт значимый буст качества.
В исследовании гугла, даже показывается, что увеличение размера ТОЛЬКО негатив кэша уже улучшает "насмотренность" таких моделей и как следствие метрики на downstream. Причём, не обязательно пересчитывать эмбеды кэша, каждую эпоху, достаточно даже раз в N эпох.
В общем, работа подтверждает предыдущие исследования, и даёт возможность использования генеративных моделей для улучшения уже имеющихся прото-моделей.
Источник:
https://t.me/opendatascience/1905
research.google
Efficient Training of Retrieval Models using Negative Cache
👍7❤2
Forwarded from Complete AI (Andrey Kuznetsov)
🚀MI-Modal In-Context Instruction Tuning (MIMIC-IT): в рамках проекта Otter 🦦 Microsoft делится самым большим инструктивным визуально-текстовым датасетом
Otter - это одна из свежих визуально-текстовых моделей (visual language model, VLM), построенная на OpenFlamingo. Для обучения Otter использовался собранный датасет MIMIC-IT, содержащий 2.8М пар связанных мультиязычных (без русского🙁) мультимодальных инструкций с ответами, среди которых 2.2М инструкций получены для визуальных данных (изображения и видео). При создании сета использовались разные сценарии, симулирующие естественные диалоги: описание изображений/видео, сравнение изображений, ответы на вопросы, понимание сцены и возможных действий в помещении (в качестве изображений тут использовался сет из снятых в помещении фотографий) и др. Инструкции и ответы генерировались с помощью API ChatGPT-0301, на использование которого было потрачено около 20к $. Визуальные данные для «поставлялись» в ChatGPT через алгоритмы аннотирования (описание, детекция объектов и тд.)
Итого: большой инструктивный сет с различными мультимодальными контекстами для обучения модели пониманию сцен на фото и видео (perception), а также логическим выводам (reasoning).
📌Paper
📌Проект
📌GitHub
📌Youtube
@complete_ai
Otter - это одна из свежих визуально-текстовых моделей (visual language model, VLM), построенная на OpenFlamingo. Для обучения Otter использовался собранный датасет MIMIC-IT, содержащий 2.8М пар связанных мультиязычных (без русского🙁) мультимодальных инструкций с ответами, среди которых 2.2М инструкций получены для визуальных данных (изображения и видео). При создании сета использовались разные сценарии, симулирующие естественные диалоги: описание изображений/видео, сравнение изображений, ответы на вопросы, понимание сцены и возможных действий в помещении (в качестве изображений тут использовался сет из снятых в помещении фотографий) и др. Инструкции и ответы генерировались с помощью API ChatGPT-0301, на использование которого было потрачено около 20к $. Визуальные данные для «поставлялись» в ChatGPT через алгоритмы аннотирования (описание, детекция объектов и тд.)
Итого: большой инструктивный сет с различными мультимодальными контекстами для обучения модели пониманию сцен на фото и видео (perception), а также логическим выводам (reasoning).
📌Paper
📌Проект
📌GitHub
📌Youtube
@complete_ai
👍7😢1
В своём прошлом посте говорил о слухах, что AMD будет поддерживать вычисления DL моделей на GPU и колабиться с PyTorch
И вот свершилось!
Лиза Су, также продемонстрировала, что на новой gpu для Deep learning AMD MI300X влезает фулл LLM класса Falcon40B. Звучит многообещающе. Да и в целом, конкуренция это хорошо.
З. Ы. Да я в курсе, что Лиза Су дальняя родственница Хуанга из NVIDIA. Но вы наверняка и не знали, что интел и NVIDIA были долго кормовой базой для AMD, пока правительство не врубило антимонопольные штучки и позволило уйти в свободный полёт AMD. Опять же конкуренция важная штука для капитализма.
И вот свершилось!
Лиза Су, также продемонстрировала, что на новой gpu для Deep learning AMD MI300X влезает фулл LLM класса Falcon40B. Звучит многообещающе. Да и в целом, конкуренция это хорошо.
З. Ы. Да я в курсе, что Лиза Су дальняя родственница Хуанга из NVIDIA. Но вы наверняка и не знали, что интел и NVIDIA были долго кормовой базой для AMD, пока правительство не врубило антимонопольные штучки и позволило уйти в свободный полёт AMD. Опять же конкуренция важная штука для капитализма.
Telegram
Dealer.AI
Внезапно лента выдала мне интересное.
Говорят, что скоро NVIDIA будет не нужОн, AMD решения в тч Radeon взяли в оборот на Pytorch2 🤔
Говорят, что скоро NVIDIA будет не нужОн, AMD решения в тч Radeon взяли в оборот на Pytorch2 🤔
👍5❤2🔥2
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
А вот Лиза Су показывает риал-тайм демку инференса модельки Falcon 40B на MI300X.
Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥
@ai_newz
Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥
@ai_newz
🔥14👍1
Друзья, сегодня проходит второй день Конференции Диалог2023.
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka, @go_bobert. А также Ваш покорный слуга.
Скоро, надеюсь, мы порадуем Вас открытой версией кода.
А пока, смотрите интересные доклады, набирайтесь знаний и идей.
UPD. Прямая ссылка на статью:
https://www.dialog-21.ru/media/5914/martynovnplusetal056.pdf
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka, @go_bobert. А также Ваш покорный слуга.
Скоро, надеюсь, мы порадуем Вас открытой версией кода.
А пока, смотрите интересные доклады, набирайтесь знаний и идей.
UPD. Прямая ссылка на статью:
https://www.dialog-21.ru/media/5914/martynovnplusetal056.pdf
❤9👍3
Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать тут.
Исследователи из MIT и Google Brain предлагают новый подход к улучшению качества рассуждений и итоговых генераций LLM путём дополнения Chain of Thoughts взаимным общением между моделями.
Они были вдохновлены одним из адептов агентного ИИ Марвином Мински и его работой Society of Mind, также в интернете есть книжка воть.
Немного предыстории:
Мински, основатель лаборатории искусственного интеллекта Массачусетского технологического института, представил свою теорию о том, как работает разум.
Он предположил, что это не единое целое, а скорее сложная система, состоящая из множества более мелких и простых процессов, которые Мински назвал “агентами”.
Эти агенты, каждый из которых прост сам по себе, работают вместе, создавая разумное поведение, то поведение, которое ИИ каждый день пытается имитировать у нас, людей.
Я и сам грешен, признаюсь, защищал магистерскую работу по роевому интеллекту и был адептом агентного ИИ. Поэтому данный подход очень близок мне.
А теперь к делу.
Основная идея состоит в том, чтобы собрать агентов на некоторой дебат-арене. В этой среде запрос/промт кормят каждому из агентов-LLM , а их ответы перекрестно выдают всем остальным агентам. При этом, контекст который на каждом шаге принимает конкретная LLM состоит из его рассуждения и рассуждения соседей. Через 3-4 итерации таких дебатов, модели сходятся к одной стабильной генерации. Т.е. подобно людям во время дискуссии они приходят к общим выводам.
Если более внятно алго такой:
1.
При этом данный процесс побуждает модели строить ответы, которые согласуются как с их внутренней критикой, так и разумны в свете ответов других агентов.
Полученный кворум моделей может одновременно поддерживать несколько цепочек рассуждений и возможных ответов, прежде чем предлагать окончательный ответ.
Т. е. CoT можно и нужно комбинировать с Society of Mind.
В конце хочу рассказать немного про эксперименты лаборатории ИИ MIT.
Методика была оценена в трех тестах:
1. Правильное изложение фактов о биографии известного ученого-компьютерщика.
2. Проверка достоверности в вопросах о фактических знаниях
3. Предсказание следующего наилучшего хода в шахматной партии.
В итоге Society of Mind превзошел другие варианты во всех категориях, как показано в таблице 1. под постом.
У меня остаётся только один вопрос конечно - это критерий останова этих дебатов. Где он? Это замер перплексии или BLEU генерации, или что? Жду ваши варианты ответа в комментариях.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать тут.
Исследователи из MIT и Google Brain предлагают новый подход к улучшению качества рассуждений и итоговых генераций LLM путём дополнения Chain of Thoughts взаимным общением между моделями.
Они были вдохновлены одним из адептов агентного ИИ Марвином Мински и его работой Society of Mind, также в интернете есть книжка воть.
Немного предыстории:
Мински, основатель лаборатории искусственного интеллекта Массачусетского технологического института, представил свою теорию о том, как работает разум.
Он предположил, что это не единое целое, а скорее сложная система, состоящая из множества более мелких и простых процессов, которые Мински назвал “агентами”.
Эти агенты, каждый из которых прост сам по себе, работают вместе, создавая разумное поведение, то поведение, которое ИИ каждый день пытается имитировать у нас, людей.
Я и сам грешен, признаюсь, защищал магистерскую работу по роевому интеллекту и был адептом агентного ИИ. Поэтому данный подход очень близок мне.
А теперь к делу.
Основная идея состоит в том, чтобы собрать агентов на некоторой дебат-арене. В этой среде запрос/промт кормят каждому из агентов-LLM , а их ответы перекрестно выдают всем остальным агентам. При этом, контекст который на каждом шаге принимает конкретная LLM состоит из его рассуждения и рассуждения соседей. Через 3-4 итерации таких дебатов, модели сходятся к одной стабильной генерации. Т.е. подобно людям во время дискуссии они приходят к общим выводам.
Если более внятно алго такой:
1.
Для заданного запроса несколько экземпляров языковой модели сначала генерируют отдельные ответы-кандидаты.
2.Каждый отдельный экземпляр модели читает и критикует ответы всех других моделей и использует этот контент для обновления своего собственного ответа.
3.Затем этот шаг повторяется в течение нескольких раундов, пока мы не получим окончательный ответ.При этом данный процесс побуждает модели строить ответы, которые согласуются как с их внутренней критикой, так и разумны в свете ответов других агентов.
Полученный кворум моделей может одновременно поддерживать несколько цепочек рассуждений и возможных ответов, прежде чем предлагать окончательный ответ.
Т. е. CoT можно и нужно комбинировать с Society of Mind.
В конце хочу рассказать немного про эксперименты лаборатории ИИ MIT.
Методика была оценена в трех тестах:
1. Правильное изложение фактов о биографии известного ученого-компьютерщика.
2. Проверка достоверности в вопросах о фактических знаниях
3. Предсказание следующего наилучшего хода в шахматной партии.
В итоге Society of Mind превзошел другие варианты во всех категориях, как показано в таблице 1. под постом.
У меня остаётся только один вопрос конечно - это критерий останова этих дебатов. Где он? Это замер перплексии или BLEU генерации, или что? Жду ваши варианты ответа в комментариях.
YouTube
1. Introduction to 'The Society of Mind'
MIT 6.868J The Society of Mind, Fall 2011
View the complete course: http://ocw.mit.edu/6-868JF11
Instructor: Marvin Minsky
In this lecture, students discuss the introduction to The Emotion Machine, expectations and overview of the class, and general understanding…
View the complete course: http://ocw.mit.edu/6-868JF11
Instructor: Marvin Minsky
In this lecture, students discuss the introduction to The Emotion Machine, expectations and overview of the class, and general understanding…
🔥18
Таблица 2.
В этом примере исследователи берут пробы как ChatGPT, так и Bard, чтобы ответить на сложный вопрос на который они оба отвечают неправильно.
Однако затем мы передаем ответы каждого агента другому, и происходит волшебство; ChatGPT, используя свой предыдущий ответ и первый ответ Bard в качестве контекста, теперь способен дать верный.
В этом примере исследователи берут пробы как ChatGPT, так и Bard, чтобы ответить на сложный вопрос на который они оба отвечают неправильно.
Однако затем мы передаем ответы каждого агента другому, и происходит волшебство; ChatGPT, используя свой предыдущий ответ и первый ответ Bard в качестве контекста, теперь способен дать верный.
❤9👍4🔥4
А вот тут можно послушать про нашу self-chat арену для болтания наших диалоговых моделек.
Спасибо за доклад и работу @d_voo.
Да, да именно кусочек её доклада я вставил и в свой про Retrieval NLP+RLHF.
Спасибо за доклад и работу @d_voo.
Да, да именно кусочек её доклада я вставил и в свой про Retrieval NLP+RLHF.
YouTube
Data Fest 2023, день 7: оффлайн в Москве 26 мая (+онлайн доклады)
Data Fest 2023 набирает обороты!
Сегодня стрим устроен так:
С 11 до 12 - NLP доклады в spatial.chat
...перерыв...
С 15 до 17:30 - DS/ML Open Source доклады в spatial.,chat
С 17:30 - трансляция докладов в гостях у Яндекса
Информация мероприятие доступна…
Сегодня стрим устроен так:
С 11 до 12 - NLP доклады в spatial.chat
...перерыв...
С 15 до 17:30 - DS/ML Open Source доклады в spatial.,chat
С 17:30 - трансляция докладов в гостях у Яндекса
Информация мероприятие доступна…
❤9👍3
Личное мнение, как старого ML' щика, в отрыве того, где я работаю и что делаю. Для меня самый рок-н-ролл в RL у нас делают эти ребята.
Заходите, лайкате решения и конечно наслаждайтесь использованием.
Заходите, лайкате решения и конечно наслаждайтесь использованием.
Telegram
Жёлтый AI
Парни вы издеваетесь??? Мы вам дали четкий план, как развиваться в offline RL, а вы так и сидите без аксептов.
Ещё раз, мы выпустили новый релиз CORL, в котором добавили больше датасетов, а также добавили offline-to-online RL.
Помимо этого, мы пошли дальше…
Ещё раз, мы выпустили новый релиз CORL, в котором добавили больше датасетов, а также добавили offline-to-online RL.
Помимо этого, мы пошли дальше…
👍5❤2🥴2🔥1💯1
Сейчас по чатам расходится эта ссылка. GPT-4 это ансамбль.
https://twitter.com/soumithchintala/status/1671267150101721090
Все хлопают в ладоши и ставят огоньки и лайки. Но лишь в паре люди задались вопросами:
1. Эксперты это что? Если МоЕ оно так не работает оно внутри одной модельки, следует что-то своё подразумевается.
2. Далее 8 копий на разных данных и тасках. Сколько тасок на копию 2? Раз 16 вызовов на 8. Или это двушаговый CoT ?
Предлагаю обсудить в комментариях данный пост.
https://twitter.com/soumithchintala/status/1671267150101721090
Все хлопают в ладоши и ставят огоньки и лайки. Но лишь в паре люди задались вопросами:
1. Эксперты это что? Если МоЕ оно так не работает оно внутри одной модельки, следует что-то своё подразумевается.
2. Далее 8 копий на разных данных и тасках. Сколько тасок на копию 2? Раз 16 вызовов на 8. Или это двушаговый CoT ?
Предлагаю обсудить в комментариях данный пост.
X (formerly Twitter)
Soumith Chintala (@soumithchintala) on X
i might have heard the same 😃 -- I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
🤔1