Forwarded from Мысли Рвачева
📊 Advanced Data Analysis от OpenAI: Эволюция аналитики данных
Не так давно я столкнулся с функцией Advanced Data Analysis, которую предоставляет OpenAI. Для тех, кто не в курсе, это нечто большее, чем просто инструмент для анализа данных.
Как это работает? Ваши данные обрабатываются на серверах компании с помощью gpt-4. И эта модель может не только написать код, но и исполнить его. И хотя это может показаться техническим, результаты порой поражают.
Что мне понравилось:
Автоматизация работы с эксель-таблицами - фильтрация, прогнозирование.
Конвертация данных между форматами.
Генерация дополнительных данных.
Построение и интерпретация графиков.
Возможность работы с медиафайлами (хотя я им пока мало пользовался).
Представьте: у меня есть данные о клиентах. Я задаю модели вопросы, и она быстро выдает ответы. Наиболее удивительно то, как модель может предложить разные способы анализа или аппроксимации данных.
Тем не менее, есть и недостатки. Модель иногда интерпретирует запросы по-своему, и нужно дважды проверять результаты. Есть определенные нюансы, на которые следует обратить внимание, чтобы получить наилучший результат.
Для тех, кто хочет попробовать: функция доступна в настройках OpenAI. Перейдите в Settings & Beta, затем выберите Beta features и активируйте "Advanced data analysis". Обратите внимание: эта функция доступна только для платных пользователей OpenAI Plus.
Но в итоге? Для меня это настоящая революция в аналитике. То, что раньше занимало часы в Excel или Python, теперь можно сделать за минуты.
Кто бы мог подумать, что будущее аналитики так близко? Как вы думаете, готовы ли мы к таким изменениям?
Пример использования:
1) https://www.youtube.com/watch?v=Axm_at_LuCA
2) https://www.youtube.com/watch?v=PBZVCjkTGrY
#ai #gpt #analytics #openai
Не так давно я столкнулся с функцией Advanced Data Analysis, которую предоставляет OpenAI. Для тех, кто не в курсе, это нечто большее, чем просто инструмент для анализа данных.
Как это работает? Ваши данные обрабатываются на серверах компании с помощью gpt-4. И эта модель может не только написать код, но и исполнить его. И хотя это может показаться техническим, результаты порой поражают.
Что мне понравилось:
Автоматизация работы с эксель-таблицами - фильтрация, прогнозирование.
Конвертация данных между форматами.
Генерация дополнительных данных.
Построение и интерпретация графиков.
Возможность работы с медиафайлами (хотя я им пока мало пользовался).
Представьте: у меня есть данные о клиентах. Я задаю модели вопросы, и она быстро выдает ответы. Наиболее удивительно то, как модель может предложить разные способы анализа или аппроксимации данных.
Тем не менее, есть и недостатки. Модель иногда интерпретирует запросы по-своему, и нужно дважды проверять результаты. Есть определенные нюансы, на которые следует обратить внимание, чтобы получить наилучший результат.
Для тех, кто хочет попробовать: функция доступна в настройках OpenAI. Перейдите в Settings & Beta, затем выберите Beta features и активируйте "Advanced data analysis". Обратите внимание: эта функция доступна только для платных пользователей OpenAI Plus.
Но в итоге? Для меня это настоящая революция в аналитике. То, что раньше занимало часы в Excel или Python, теперь можно сделать за минуты.
Кто бы мог подумать, что будущее аналитики так близко? Как вы думаете, готовы ли мы к таким изменениям?
Пример использования:
1) https://www.youtube.com/watch?v=Axm_at_LuCA
2) https://www.youtube.com/watch?v=PBZVCjkTGrY
#ai #gpt #analytics #openai
YouTube
ChatGPT Advanced Data Analysis (Data Analytics in a few minutes!)
Do you think data analytics was a complex and time-consuming task? This is no longer true. OpenAI has recently unveiled Advanced Data Analysis. Now, with Advanced Data Analysis, anyone can perform data analytics in just a few minutes.
Telecom data: http…
Telecom data: http…
Forwarded from LEFT JOIN
LlamaIndex — фреймворк для работы с LLM и данными разных форматов
Он упрощает как обучение нейросетей, так и обработку больших объемов информации. В него можно загружать таблицы, тексты, презентации, графики, изображениями, API, веб-страницы — практически любые виды данных. LlamaIndex индексирует и анализирует их, чтобы ускорить поиск информации и интеграцию с внешними приложениями и нейросетями.
Что это дает на практике?
🔵 Удобный интерфейс для взаимодействия с LLM. Можно загрузить в LlamaIndex документ, а затем попросить краткое содержание или задать конкретный вопрос. Фреймворк обработает данные и запрос пользователя, передаст их нейросети, а та уже выдаст ответ.
🔵 Объединение разных источников информации и моделей в одну систему. Задать вопрос ChatGPT можно и без дополнительных инструментов, но если у вас много разных видов данных, удобнее собрать их в кучу в единый индекс, который и создает LlamaIndex.
🔵 Структурированные данные для обучения LLM.
В общем, LlamaIndex — удобный и гибкий инструмент, который может упростить работу, если вы часто экспериментируете с нейросетями.
Он упрощает как обучение нейросетей, так и обработку больших объемов информации. В него можно загружать таблицы, тексты, презентации, графики, изображениями, API, веб-страницы — практически любые виды данных. LlamaIndex индексирует и анализирует их, чтобы ускорить поиск информации и интеграцию с внешними приложениями и нейросетями.
Что это дает на практике?
В общем, LlamaIndex — удобный и гибкий инструмент, который может упростить работу, если вы часто экспериментируете с нейросетями.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Newprolab: обучение DE и DS
В OpenAI теперь есть опенсорсная коллекция примеров и гайдов по использованию OpenAI API - там много чего интересного!
https://cookbook.openai.com/
https://cookbook.openai.com/
Forwarded from Sber AI
Энтузиазм или озабоченность: зачем ИИ программистам?
Граждане рисуют нейрохудожниками и играются с ИИ-чат-ботами, а кодеры просто делают свою работу. Для них ИИ является инструментом прямо сейчас. Но насколько важным и полезным? Это прямо шескпировский вопрос😏
В GitLab тоже захотели это выяснить и опросили более 1 000 профи-разработчиков во всём мире. Результаты интересные. Вот, например, 83% считают, что для конкурентоспособности ИИ, конечно, надо внедрять, а 79% прямо тревожатся, что он получит доступ к конфиденциальной информации и интеллектуальной собственности.
Учитывая, что это почти равные доли, ситуация как в анекдоте с обезьяной, которая не знала куда себя записать — в умные или в красивые.
Ещё цифры:
🔹 51% считает ИИ ключевым для повышения производительности
🔹 81% хочет, чтобы их подготовили к использованию ИИ
🔹 75% могут обучиться этому в своих же компаниях. Но…
🔹 В 65% случаев компании планируют нанять новых специалистов
На генерацию кода программеры тратят 25% времени, но в 60% случаев ИИ может повысить производительность.
Однозначных ответов пока нет. Но ясно одно: многому придётся учиться ☝️
Граждане рисуют нейрохудожниками и играются с ИИ-чат-ботами, а кодеры просто делают свою работу. Для них ИИ является инструментом прямо сейчас. Но насколько важным и полезным? Это прямо шескпировский вопрос
В GitLab тоже захотели это выяснить и опросили более 1 000 профи-разработчиков во всём мире. Результаты интересные. Вот, например, 83% считают, что для конкурентоспособности ИИ, конечно, надо внедрять, а 79% прямо тревожатся, что он получит доступ к конфиденциальной информации и интеллектуальной собственности.
Учитывая, что это почти равные доли, ситуация как в анекдоте с обезьяной, которая не знала куда себя записать — в умные или в красивые.
Ещё цифры:
🔹 51% считает ИИ ключевым для повышения производительности
🔹 81% хочет, чтобы их подготовили к использованию ИИ
🔹 75% могут обучиться этому в своих же компаниях. Но…
🔹 В 65% случаев компании планируют нанять новых специалистов
На генерацию кода программеры тратят 25% времени, но в 60% случаев ИИ может повысить производительность.
Однозначных ответов пока нет. Но ясно одно: многому придётся учиться ☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Yandex Cloud
В тестировании YandexGPT приняли участие 800 компаний, больше всего — ИТ, ритейл и банки.
Компании проверили возможности YandexGPT в нескольких десятках сценариев применения больших языковых моделей. Специалисты Yandex Cloud поделили эти сценарии на шесть основных групп: контентные задачи, создание чат-ботов и виртуальных ассистентов, обобщение и агрегация данных по рабочим чатам, отзывам; анализ и классификация запросов пользователей; ответы на вопросы пользователей и выделение сущностей из текстов.
На основе этих запросов в новой версии продукта добавились новые возможности:
Теперь в ходе текстового диалога с пользователем YandexGPT помнит контекст — например, если пользователь задал вопрос, получил ответ и затем просит дополнительно уточнить информацию по тому же вопросу.
Возможность использовать в YandexGPT модель, дообученную на пользовательских данных. Например, это может быть полезно в областях, которые оперируют специфическими понятиями и терминами.
Способ представления слов в виде числовых векторов, благодаря которому сервис лучше понимает значения слов в зависимости от контекста.
Бизнесу доступна новая нейросеть, которая намного лучше справляется с задачами стилизации, пересказа и анализа, создания текстов и ответов на вопросы.
До конца года продукт будет доступен клиентам Yandex Cloud в формате публичного превью. Его можно будет использовать для разработки приложений или в тестовом окружении. Подробнее по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот сейчас будет круто: команда энтузиастов создала модель Open Interpreter — копию Code Interpreter в ChatGPT, но работающую локально.
Благодаря этому вы можете делать что угодно со своим компьютером с помощью текстовых команд — сделать краткую выжимку со статьи Word, изменить настройки системы или управлять браузером.
Доступно полностью бесплатно, установить можно с GitHub.
https://t.me/exploitex/9595
Благодаря этому вы можете делать что угодно со своим компьютером с помощью текстовых команд — сделать краткую выжимку со статьи Word, изменить настройки системы или управлять браузером.
Доступно полностью бесплатно, установить можно с GitHub.
https://t.me/exploitex/9595
Forwarded from Александр Ершов | AI и бизнес
AI программист
Я пользуюсь GitHub Copilot для ускорения процесса разработки. Он может писать небольшие куски кода, документацию к методам и классам, предлагать как исправить баг, если ему отправить текст из логов и указать конкретный файл или даже кусок кода с ошибкой. Но он не может заменить программиста, даже джуниора.
Ему не хватает:
• Возможности держать в контексте весь проект, а не только один файл.
• Возможности реально запускать и проверять те изменения в коде, которые он предложил.
• Доступа к интернету для поиска актуальной информации / документации, а не только к той, на которой обучена LLM.
Вчера я наткнулся на сервис Devin, который пытается решить эти проблемы. Devin представляет из себя LLM + браузер для поиска актуальной информации + виртуальное окружение для запуска и проверки изменений + кодовый редактор.
На их сайте есть примеры решения реальных задач с Upwork end-to-end. Например, тут стоит задача разобраться как запустить computer vision модель из GitHub репозитория.
• Devin сам делает git pull
• Ставит нужные зависимости
• Исправляет ошибки в зависимостях и коде
• И запускает модель
Звучит круто, хочеться попробовать на своих примерах в реальности. Когда дадут доступ к бете, опишу что вышло 😉
Я пользуюсь GitHub Copilot для ускорения процесса разработки. Он может писать небольшие куски кода, документацию к методам и классам, предлагать как исправить баг, если ему отправить текст из логов и указать конкретный файл или даже кусок кода с ошибкой. Но он не может заменить программиста, даже джуниора.
Ему не хватает:
• Возможности держать в контексте весь проект, а не только один файл.
• Возможности реально запускать и проверять те изменения в коде, которые он предложил.
• Доступа к интернету для поиска актуальной информации / документации, а не только к той, на которой обучена LLM.
Вчера я наткнулся на сервис Devin, который пытается решить эти проблемы. Devin представляет из себя LLM + браузер для поиска актуальной информации + виртуальное окружение для запуска и проверки изменений + кодовый редактор.
На их сайте есть примеры решения реальных задач с Upwork end-to-end. Например, тут стоит задача разобраться как запустить computer vision модель из GitHub репозитория.
• Devin сам делает git pull
• Ставит нужные зависимости
• Исправляет ошибки в зависимостях и коде
• И запускает модель
Звучит круто, хочеться попробовать на своих примерах в реальности. Когда дадут доступ к бете, опишу что вышло 😉
Forwarded from Neurohive
Gorilla: open source модель для вызова 1600+ сторонних API
Gorilla получает на вход запрос на естественном языке и находит семантически и синтаксически правильное API для вызова. С помощью Gorilla впервые продемонстрировано, как использовать LLMs для точного вызова более 1 600 API (их число постоянно растет).
Модель обученна на основе LLaMA и превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в документации и принимает во внимание ограничения API. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.
Для оценки возможностей модели авторы создали набор данных APIBench, который включает в себя API HuggingFace, TorchHub и TensorHub. Если хотите добавить свое API, просто создайте пул-реквест в репозитории и напишите авторам на электронную почту.
#StateoftheArt
Gorilla получает на вход запрос на естественном языке и находит семантически и синтаксически правильное API для вызова. С помощью Gorilla впервые продемонстрировано, как использовать LLMs для точного вызова более 1 600 API (их число постоянно растет).
Модель обученна на основе LLaMA и превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в документации и принимает во внимание ограничения API. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.
Для оценки возможностей модели авторы создали набор данных APIBench, который включает в себя API HuggingFace, TorchHub и TensorHub. Если хотите добавить свое API, просто создайте пул-реквест в репозитории и напишите авторам на электронную почту.
#StateoftheArt
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Grok выложили в открытый доступ
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
🔸 Лицензия Apache 2.0.
👉 GitHub | Release
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
> tokenizer.EncodeAsPieces('Языковая модель Grok')
> ['▁Я', 'зы', 'кова', 'я', '▁мо', 'дель', '▁Gro', 'k']🔸 Лицензия Apache 2.0.
👉 GitHub | Release
Forwarded from GPT/ChatGPT/AI Central Александра Горного
This media is not supported in your browser
VIEW IN TELEGRAM
Devin — автономный AI-программист, который умеет самостоятельно разрабатывать приложения
Devin получает текстовый запрос от пользователя, составляет план разработки и, следуя плану, пишет нужный код. По ходу разработки нейросеть самостоятельно скачивает нужные файлы, изучает документацию и исправляет ошибки в коде.
—
@aioftheday — новости вокруг искусственного интеллекта
Devin получает текстовый запрос от пользователя, составляет план разработки и, следуя плану, пишет нужный код. По ходу разработки нейросеть самостоятельно скачивает нужные файлы, изучает документацию и исправляет ошибки в коде.
—
@aioftheday — новости вокруг искусственного интеллекта
Forwarded from Sber AI
Новый чемпион опенсорса: DBRX победила Grok (и всех остальных)
И это несмотря на то, что размеры детища Маска превышают разработку от Databricks в два раза.
Больше подробностей:
⌛ LLM использует архитектуру Mixture of Experts
⌛ общее количество параметров 132 млрд, из которых 36 активны при любом вводе
⌛ обучена с помощью 3 000 H100 и 12 трлн токенов текстовых данных и кода
⌛ максимальная длина контекста — 32 тысячи токенов
⌛ датасет — более совершенный, чем тот, что использовали для обучения моделей семейства MPT
⌛ в модели задействовано в два раза больше экспертов: 16 (активных 4) при 8 у конкурентов (при активных 2)
⌛ соответственно, в 65 раз больше возможных комбинаций экспертов
DBRX Base и DBRX Instruct доступны для скачивания на Hugging Face. Репозиторий моделей DBRX можно найти на GitHub.
Больше информации в блоге разработчика.
Изображение DBRX
И это несмотря на то, что размеры детища Маска превышают разработку от Databricks в два раза.
Больше подробностей:
DBRX Base и DBRX Instruct доступны для скачивания на Hugging Face. Репозиторий моделей DBRX можно найти на GitHub.
Больше информации в блоге разработчика.
Изображение DBRX
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Я – Дата Инженер
Мой список GPT, которыми я пользуюсь:
1. You.com
2. OpenChat
3. Mistral
4. Julius - может читать загружаемые данные
Причем Julius – это прям Jupyter Notebook, где в ячейках на Input сидит ChatGPT и читает ваш промпт, а в ячейках на вывод пишется и автоматически запускается код. Т.е. например я загрузил CSV файл, попросил проанализировать, и в ответ GPT начинает писать код на pandas и тут же его запускает. По факту конечно GPT не анализирует ваши данные, он лишь пишет код и дает команду на запуск. В ответ получает json с датафреймом, который можно распечатать в той же ячейке. А это считайте, как текст. Ну а с текстом chat работать умеет. Тут он просто его пересказывает.
Чисто в теории я уже думаю, что нет проблем запустить таким образом и spark приложение. Будет подольше, но в целом логика та же. Т.е. все что нужно – это дать нейронке читать содержимое ячеек пользователя.
Следующий шаг – дать возможность нейронке именно обучаться на данных. Очевидно, что это будет занимать куда больше времени. Но что если дать обучить на условном сэмпле одного дня в 1Тб, а дальше уже писать код, ориентированный на специфику хранения данных.
Если есть мысли на это счет, wellcome в комменты. А также можете поделиться своими ссылками на полезные AI
https://awclub.github.io/catalog/ - Библиотека всех AI
Please open Telegram to view this post
VIEW IN TELEGRAM
В BigQuery слева-сверху окна редактора запросов появилась кнопка ввода промта. Умение писать SQL запросы постепенно обесценивается, но и скорость написания запросов и исправление ошибок становится быстрее.
@killer_ferature
@killer_ferature
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#LLaMa 3 добавили в #VSCode.
Ставите расширение CodeGPT для VSCode и потом ставите Ollama, после чего в терминале пишем:
В настройках расширения, где «Select a mode» выбираете LLaMa 3 и пользуемся.
#LLaMa3 #CodeGPT #Ollama
Ставите расширение CodeGPT для VSCode и потом ставите Ollama, после чего в терминале пишем:
ollama pull llama3:8bВ настройках расширения, где «Select a mode» выбираете LLaMa 3 и пользуемся.
#LLaMa3 #CodeGPT #Ollama
🔥1
Forwarded from Cross Join - канал о разработке (Anton Okolelov)
Написал статью про семантический поиск с помощью посгреса и OpenAI API.
Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?
TLDR:
1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
2. Сохраняем векторы в базе с помощью pgvector.
3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
4. Ускоряем индексами.
Как всегда, буду рад плюсикам на Хабре:
https://habr.com/ru/companies/karuna/articles/809305/
Канал Cross Join. Подпишись
Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?
TLDR:
1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
2. Сохраняем векторы в базе с помощью pgvector.
3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
4. Ускоряем индексами.
Как всегда, буду рад плюсикам на Хабре:
https://habr.com/ru/companies/karuna/articles/809305/
Канал Cross Join. Подпишись
💬 Amazon открыла больший доступ к своему корпоративному чат-боту Q. Инструмент также обзавелся новыми функциями.
Новая функция Amazon Q Developer помогает с кодированием, тестированием и отладкой приложений. Разработчики могут запрашивать у чат-бота список ресурсов AWS и автоматизировать задачи.
🧑💻 Amazon Q Apps позволяет создавать приложения на базе генеративного ИИ даже без опыта кодирования. Для этого достаточно описать нужный тип программы в запросе.
#Amazon #Q
Новая функция Amazon Q Developer помогает с кодированием, тестированием и отладкой приложений. Разработчики могут запрашивать у чат-бота список ресурсов AWS и автоматизировать задачи.
🧑💻 Amazon Q Apps позволяет создавать приложения на базе генеративного ИИ даже без опыта кодирования. Для этого достаточно описать нужный тип программы в запросе.
#Amazon #Q
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Все про агенты в LLM🌸
#nlp #про_nlp #nlp_papers #agirussia
Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.
🟣 Что такое агент?
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах
Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.
🟣 Что добавить в агента?
— Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память: RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.
🟣 Как оценивать агентов?
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!
🟣 Открытые вопросы
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать
— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов
Полезные ссылки:
🟣 AgentBench Github
🟣 WebArena link
🟣 Agent Landscape SurveyAgent Landscape Survey arxiv
🟣 The Rise and Potential of Large Language Model Based Agents: A Survey arxiv
🟣 блог Lilian Weng - autonomous agents link
🟣 Agent protocol link
🟣 ICLR 2024 Workshop on LLM Agents link
#nlp #про_nlp #nlp_papers #agirussia
Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах
Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.
— Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память: RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать
no_action_needed, заставить его потратить все оплаченные API лимиты— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов
Полезные ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - Significant-Gravitas/AutoGPT: AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission…
AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission is to provide the tools, so that you can focus on what matters. - Significant-Gravitas/AutoGPT