LLM гамает в DOOM. 😠
Один энтузиаст тоже любит в выходные (и не только) гамать в игры. Тут он решил пригласить LLM на game рандеву в DOOM, заодно проверить как оно.
Для эксперимента автор не мог взять GPT-4 из-за ограничений с визуалом, поэтому выбор пал на GPT-4V. Но и тут не все так просто, нужно было придумать сетап для игры. Чтобы кормить нарезанные скрины мира он разработал приложуху VISION. Далее подкинул еще текстовое состояние и передавал это все в агента. Управление LLM также осуществлялось в текстовой форме и преобразованием текста в команды. Врубил память в агенте и прописал доп правила/инструкции на взаимодействие с игрой аля хождение по уровню, атаки и открывание дверей.
Что получилось?
Агент оказался не вполне полноценным, например, забывание, если враги оказались вне зоны видимости. Вороги тем временем оставались живы и могли и далее атаковать.
Также наблюдались зависания и повторения. Далее при попытке разобраться с ошибками поведения, автор просил объяснений от агента, но тот галлюционировал и слова порой связать не мог.
В любом случае, интересный эксперимент, показывающий возможности к симуляциям и поведению в среде LLM, как агентов. Думаю к версии GPT5+ все будет еще веселее и пугающе.👍
Один энтузиаст тоже любит в выходные (и не только) гамать в игры. Тут он решил пригласить LLM на game рандеву в DOOM, заодно проверить как оно.
Для эксперимента автор не мог взять GPT-4 из-за ограничений с визуалом, поэтому выбор пал на GPT-4V. Но и тут не все так просто, нужно было придумать сетап для игры. Чтобы кормить нарезанные скрины мира он разработал приложуху VISION. Далее подкинул еще текстовое состояние и передавал это все в агента. Управление LLM также осуществлялось в текстовой форме и преобразованием текста в команды. Врубил память в агенте и прописал доп правила/инструкции на взаимодействие с игрой аля хождение по уровню, атаки и открывание дверей.
Что получилось?
Агент оказался не вполне полноценным, например, забывание, если враги оказались вне зоны видимости. Вороги тем временем оставались живы и могли и далее атаковать.
Также наблюдались зависания и повторения. Далее при попытке разобраться с ошибками поведения, автор просил объяснений от агента, но тот галлюционировал и слова порой связать не мог.
В любом случае, интересный эксперимент, показывающий возможности к симуляциям и поведению в среде LLM, как агентов. Думаю к версии GPT5+ все будет еще веселее и пугающе.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Will GPT-4 Run DOOM?
We show that GPT-4's reasoning and planning capabilities extend to the 1993 first-person shooter Doom. This large language model (LLM) is able to run and play the game with only a few...
👍15🤯5👎2❤1🤔1👨💻1
https://t.me/lovedeathtransformers/7262
База, о которой я писал еще на заре канала и LLM хайпа. Воо туть.
База, о которой я писал еще на заре канала и LLM хайпа. Воо туть.
😁6🔥3💯2
Вот это размерчик. 314b на MoE конечно.
https://github.com/xai-org/grok
источник:
https://twitter.com/itsandrewgao/status/1769447953708765198
https://github.com/xai-org/grok
источник:
https://twitter.com/itsandrewgao/status/1769447953708765198
😁11👍2❤1
Люблю опты на графах, а RL на графах как решение оптов - еще интереснее.
https://t.me/sberlogabig/386
https://t.me/sberlogabig/386
Telegram
(sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI вебинар/обсуждение :
👨🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве
Add to Google Calendar
Вводное обсуждение по…
👨🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве
Add to Google Calendar
Вводное обсуждение по…
🔥9
"Квантизируй меня полностью" или мануал по квантизации от Yandex.
Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.
В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.
Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.
Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.
В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.
Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.
Хабр
Quantization Deep Dive, или Введение в современную квантизацию
Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая...
👍36🔥10❤7🤡1
Мои в телевизоле ❤️ 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Salute AI (Alexander Gavrilov)
Прямо сейчас проходит международная конференция EACL 2024 👩🔬👨💻
На Мальте компания SberDevices в лице Team Lead AGI NLP Алены Феногеновой и NLP ML-инженера Марка Баушенко представляют исследование команды в области обработки естественного языка (NLP): "A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages".
В рамках работы над проектом SAGE команды R&D SberDevices разработали генеративной подход к коррекции орфографии.
Решение SberDevices вызвало большой интерес и дискуссию среди экспертов, так как оно опережает по качеству для русского языка:
- открытые решения (Yandex.Speller, HunSpell, JamSpell)
- модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003).
Подход также работает на английском языке и может быть адаптирован под другие.
🌐 Ребята расскажут научному сообществу об исследовании в рамках постерной сессии на EACL 2024 до 22.03. Подробно об исследовании команды можно прочитать в академической статье.
🔥 — если тоже гордишься, что труд коллег получает международное признание!
#EACL2024 #SberDevices #SAGE #AGI_NLP #NeuralNetworks #RND
P.S. в апреле выйдет обновление SAGE.
Подпишитесь, чтобы не пропустить 👉 канал/ группа
На Мальте компания SberDevices в лице Team Lead AGI NLP Алены Феногеновой и NLP ML-инженера Марка Баушенко представляют исследование команды в области обработки естественного языка (NLP): "A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages".
В рамках работы над проектом SAGE команды R&D SberDevices разработали генеративной подход к коррекции орфографии.
Решение SberDevices вызвало большой интерес и дискуссию среди экспертов, так как оно опережает по качеству для русского языка:
- открытые решения (Yandex.Speller, HunSpell, JamSpell)
- модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003).
Подход также работает на английском языке и может быть адаптирован под другие.
🔥 — если тоже гордишься, что труд коллег получает международное признание!
#EACL2024 #SberDevices #SAGE #AGI_NLP #NeuralNetworks #RND
Подпишитесь, чтобы не пропустить 👉
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍11👎2
Чья бы это не была грязная партия, погибли и пострадали люди. Террору нет места нигде.
Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
ТАСС
Жителей Москвы и Подмосковья попросили сдать кровь для пострадавших в "Крокус сити холле"
Сделать это можно будет 23 марта с 08:00. Читайте ТАСС в. МОСКВА, 23 марта. /ТАСС/. Жителей Москвы и Московской области просят сдать донорскую кровь для пострадавших в результате теракта в "Крокус сити холле". "После сегодняшней трагедии в "Крокусе" многим…
👍51🕊41❤9😢5👌1
Forwarded from эйай ньюз
Увидел в Threads анекдот: Bloomberg потратил ~$10 миллионов (в AWS SageMaker) на тренировку BloombergGPT (50B параметров на 700B токенов), специально для финансовых задач. Иииии.... модель всухую проиграла на этих же финансовых тасках GPT-4, которая вышла за две недели до этого.
И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).
Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого😂
@ai_newz
И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).
Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
😁33💯2
Внимание, возможны репутационные осадки в виде фрикаделек LLMок.
На прошедшей конференции EACL была статья про утечки тест сетов бенчей в LLMки. Между прочим получила приз.
Поэтому рынок LLM может сильно перевернуться, когда добавят оценку утечки данных на общепринятые бенчмарки. Многие модели потеряют репутацию, если обнаружится утечка, и многие компании начнут в скором времени переобучать свои LLM без утечек и вообще будет весело :)
На прошедшей конференции EACL была статья про утечки тест сетов бенчей в LLMки. Между прочим получила приз.
Поэтому рынок LLM может сильно перевернуться, когда добавят оценку утечки данных на общепринятые бенчмарки. Многие модели потеряют репутацию, если обнаружится утечка, и многие компании начнут в скором времени переобучать свои LLM без утечек и вообще будет весело :)
😁22❤3🤔2
Forwarded from Salute AI (Alexander Gavrilov)
5 апреля | 12:00 | онлайн и офлайн в Москве
SberDevices зовёт в гости ML-разработчиков и Data Science-специалистов на конференцию R&D команд SberDevices по развитию GigaChat, NLP, Vision и Audio.
Будем изучать LLM и CV, распознавать жесты, генерировать вокал и 3D-модели, общаться с книгами и путешествовать по VR-галерее.
Программа:
🖥 Регистрируйтесь и выберите формат:📹 Онлайн на YouTube🕒 Офлайн в Москве. Приходите к 11:00.
‼️ Важно:
Адрес места проведения пришлем 4 апреля вместе с приглашением на митап.
#конференция_GIGA_RND_DAY
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4
Яндекс выпустил целую линейку больших языковых моделей третьего поколения. YandexGPT 3 эффективнее решает сложные задачи и вообще лучше понимает контекст. Самое интересное, что смогли улучшить фактологию и надежность предоставляемой информации из генерации.
Первая нейросеть из линейки — это YandexGPT 3 Pro, которая может обрабатывать существенно больше запросов за единицу времени – чем предыдущие модели. А еще она способна представлять данные в формате JSON (JavaScript Object Notation).
Новые возможности для заказчиков: компании могут дообучать YandexGPT 3 Pro на собственных данных, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. Дообученную версию затем можно встроить в продукты через API (попробовать в демке тоже можно), при этом, стоимость использования новой нейросети снизилась почти в два раза.
Жду теперь энтузиастов, которые оценят новую версию на общепринятых публичных бенчмарках. Хотя по инфо из статьи имеется 100 бесплатных запросов в деморежиме. Но умельцы, уверен, найдутся.
Первая нейросеть из линейки — это YandexGPT 3 Pro, которая может обрабатывать существенно больше запросов за единицу времени – чем предыдущие модели. А еще она способна представлять данные в формате JSON (JavaScript Object Notation).
Новые возможности для заказчиков: компании могут дообучать YandexGPT 3 Pro на собственных данных, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. Дообученную версию затем можно встроить в продукты через API (попробовать в демке тоже можно), при этом, стоимость использования новой нейросети снизилась почти в два раза.
Жду теперь энтузиастов, которые оценят новую версию на общепринятых публичных бенчмарках. Хотя по инфо из статьи имеется 100 бесплатных запросов в деморежиме. Но умельцы, уверен, найдутся.
🔥20👎13👍3❤🔥2
Видели такое?
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
Удобно?
https://nn.labml.ai/
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
Удобно?
https://nn.labml.ai/
👍31🔥8❤7
Co-co Jamba
Знаю, что уже много где было, НО: https://www.ai21.com/blog/announcing-jamba
На MOE, трансформер и мама любит мамба и Сережа тоже(с)
+ Жирный контекст на GPU (до 140k)
.....
и много кеков с Mr. President track
UPD чекп на 🤗
Знаю, что уже много где было, НО: https://www.ai21.com/blog/announcing-jamba
На MOE, трансформер и мама любит мамба и Сережа тоже(с)
+ Жирный контекст на GPU (до 140k)
.....
и много кеков с Mr. President track
UPD чекп на 🤗
AI21
Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model
Debuting the first production-grade Mamba-based model delivering best-in-class quality and performance.
👍9❤2