Forwarded from Cross Join - канал о разработке (Anton Okolelov)
Написал статью про семантический поиск с помощью посгреса и OpenAI API.
Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?
TLDR:
1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
2. Сохраняем векторы в базе с помощью pgvector.
3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
4. Ускоряем индексами.
Как всегда, буду рад плюсикам на Хабре:
https://habr.com/ru/companies/karuna/articles/809305/
Канал Cross Join. Подпишись
Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?
TLDR:
1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
2. Сохраняем векторы в базе с помощью pgvector.
3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
4. Ускоряем индексами.
Как всегда, буду рад плюсикам на Хабре:
https://habr.com/ru/companies/karuna/articles/809305/
Канал Cross Join. Подпишись
💬 Amazon открыла больший доступ к своему корпоративному чат-боту Q. Инструмент также обзавелся новыми функциями.
Новая функция Amazon Q Developer помогает с кодированием, тестированием и отладкой приложений. Разработчики могут запрашивать у чат-бота список ресурсов AWS и автоматизировать задачи.
🧑💻 Amazon Q Apps позволяет создавать приложения на базе генеративного ИИ даже без опыта кодирования. Для этого достаточно описать нужный тип программы в запросе.
#Amazon #Q
Новая функция Amazon Q Developer помогает с кодированием, тестированием и отладкой приложений. Разработчики могут запрашивать у чат-бота список ресурсов AWS и автоматизировать задачи.
🧑💻 Amazon Q Apps позволяет создавать приложения на базе генеративного ИИ даже без опыта кодирования. Для этого достаточно описать нужный тип программы в запросе.
#Amazon #Q
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Все про агенты в LLM🌸
#nlp #про_nlp #nlp_papers #agirussia
Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.
🟣 Что такое агент?
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах
Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.
🟣 Что добавить в агента?
— Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память: RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.
🟣 Как оценивать агентов?
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!
🟣 Открытые вопросы
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать
— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов
Полезные ссылки:
🟣 AgentBench Github
🟣 WebArena link
🟣 Agent Landscape SurveyAgent Landscape Survey arxiv
🟣 The Rise and Potential of Large Language Model Based Agents: A Survey arxiv
🟣 блог Lilian Weng - autonomous agents link
🟣 Agent protocol link
🟣 ICLR 2024 Workshop on LLM Agents link
#nlp #про_nlp #nlp_papers #agirussia
Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах
Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.
— Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память: RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать
no_action_needed, заставить его потратить все оплаченные API лимиты— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов
Полезные ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - Significant-Gravitas/AutoGPT: AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission…
AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission is to provide the tools, so that you can focus on what matters. - Significant-Gravitas/AutoGPT
#w29 чт 18.07 в 19:00 UseTech
LLM vs Copilot для написания фронтенда: приглашаем на Usetech FronTalk
https://usetech-event.timepad.ru/event/2960310
LLM vs Copilot для написания фронтенда: приглашаем на Usetech FronTalk
https://usetech-event.timepad.ru/event/2960310
👍2
Forwarded from Data Science | Machinelearning [ru]
😍Автоматизация Code Review с помощью LLM
В этой статье мы подробно рассмотрим жизненный цикл ревью и подход RAG, разработанный в Faire для выполнения различных контекстно-специфических автоматизированных ревью.
Читать...
В этой статье мы подробно рассмотрим жизненный цикл ревью и подход RAG, разработанный в Faire для выполнения различных контекстно-специфических автоматизированных ревью.
Читать...
Свежая подборка нейронок для кодеров:
Safurai – полноценный ассистент с ИИ внутри, хорошо справляется с рутиной.
BLACKBOX – превратит ваш запрос в код, предварительно проанализировав 100млн+ репозиториев.
Snyk – сыщик для багов.
Metabob – нейросеть, которая может фиксить коды, даже сгенерированные с помощью ИИ.
JamGPT – Chrome расширение для поиска багов в коде.
Safurai – полноценный ассистент с ИИ внутри, хорошо справляется с рутиной.
BLACKBOX – превратит ваш запрос в код, предварительно проанализировав 100млн+ репозиториев.
Snyk – сыщик для багов.
Metabob – нейросеть, которая может фиксить коды, даже сгенерированные с помощью ИИ.
JamGPT – Chrome расширение для поиска багов в коде.
Forwarded from Нейроканал
Продвинутый промптинг в ChatGPT
В Tproger подготовили 20 промтов, которые помогут сделать нейросеть вашим верным помощником. Здесь и про оптимизацию кода, и про регулярки, и про генерацию документации.
#gpt #
@neuro_channel
В Tproger подготовили 20 промтов, которые помогут сделать нейросеть вашим верным помощником. Здесь и про оптимизацию кода, и про регулярки, и про генерацию документации.
#gpt #
@neuro_channel
This media is not supported in your browser
VIEW IN TELEGRAM
— Чат-бот научился анализировать данные в Excel с помощью Python;
— По текстовому запросу Copilot сгенерирует, вставит и выполнит код;
— Нарисует диаграмму и график на основе вашей базы данных;
— Copilot знает все финансовые операции и работает с любыми формулами;
— Сделает выводы, удалит пустые ячейки и возьмет на себя всю бухгалтерию.
Обновленный Copilot доступен бесплатно для всех в Excel, PowerPoint, Outlook, Word и OneDrive.
#нейросети #neural
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM под капотом
Как ставить задачи по кодингу для o1?
У Игоря есть лонг-рид про принципы работы o1. Я же расскажу про ментальную модель, которую я использую для работы с o1-preview.
Я ставлю задачи, как если бы ставил их очень опытному разработчику (обучен на всем корпусе), который нахватался вредных привычек (обучен на всех постах людей, которые любят усложнять и городить), но понимает меня с полуслова (o1 не требует prompt engineering).
Если скоуп задачи очерчен конкретно, то можно ограничиться коротким промптом:
Если же я прошу переписать код или переделать архитектуру под новую фичу, то у модели могут быть разные варианты решения. Тут я разбиваю задачу на два шага - Explore + Implement.
В первом шаге прошу предложить варианты решений с указанием приоритетов (простой код, без башен абстракций). И вставляю сразу исходники целыми файлами, скажем, с кусками кода на vue.js + pinia + tailwind css + axios + vite + lucide + custom icon resolver + python FastAPI. o1-preview разберется.
А вторым шагом говорю - "слушай, мне нравятся варианты 2-5, 10 и 12-16. Интегрируй их в рабочий код, чтобы мне оставалось только скопипастить"
В 95% случаях код работает сразу! Это большая экономия времени по сравнению с ручным промптингом на базе Sonnet 3.5 или топовых GPT-4
Ваш, @llm_under_hood 🤗
PS: Показатели o1 на моих продуктовых бенчмарках
У Игоря есть лонг-рид про принципы работы o1. Я же расскажу про ментальную модель, которую я использую для работы с o1-preview.
Я ставлю задачи, как если бы ставил их очень опытному разработчику (обучен на всем корпусе), который нахватался вредных привычек (обучен на всех постах людей, которые любят усложнять и городить), но понимает меня с полуслова (o1 не требует prompt engineering).
Если скоуп задачи очерчен конкретно, то можно ограничиться коротким промптом:
Rewrite this course template in golang to follow style of my own website. You can reuse all of my styles and drop the external css (as used by the course).
<golang template to rewrite>
<full html source of my website, as copied from browser>
Если же я прошу переписать код или переделать архитектуру под новую фичу, то у модели могут быть разные варианты решения. Тут я разбиваю задачу на два шага - Explore + Implement.
В первом шаге прошу предложить варианты решений с указанием приоритетов (простой код, без башен абстракций). И вставляю сразу исходники целыми файлами, скажем, с кусками кода на vue.js + pinia + tailwind css + axios + vite + lucide + custom icon resolver + python FastAPI. o1-preview разберется.
Take a look at this code from my multi-mode (a la vim or old terminal apps) block-based content editor.
I want to build on the keyboard interface and introduce a simple way to have simple commands with small popup. E.g. after doing "A" in "view" mode, show user a popup that expects H,T,I, or V.
Or, after pressing "P" in view mode - show a small popup that has an text input waiting for the permission role for the page.
Don't implement the changes, just think through how to extend existing code to make logic like that simple.
Remember, I like simple code, I don't like spaghetti code and many small classes/files.
А вторым шагом говорю - "слушай, мне нравятся варианты 2-5, 10 и 12-16. Интегрируй их в рабочий код, чтобы мне оставалось только скопипастить"
Write me files that incorporate your suggestions: 1-6, 8,9, 12
В 95% случаях код работает сразу! Это большая экономия времени по сравнению с ручным промптингом на базе Sonnet 3.5 или топовых GPT-4
Ваш, @llm_under_hood 🤗
PS: Показатели o1 на моих продуктовых бенчмарках
Forwarded from Стать специалистом по машинному обучению
🚀 Яндекс разработал AI-ассистента для работы с кодом
С помощью сервиса разработчики смогут по фрагменту кода сгенерировать наиболее вероятное его продолжение. Это поможет упростить написание и редактирование кода и ускорить продуктовую разработку в компаниях. Ассистент протестировали тысячи разработчиков Яндекса, 60% из которых стали постоянными пользователями сервиса.
Использование Yandex Code Assistant помогает повысить эффективность работы: доверьте рутинные операции AI и сосредоточьтесь на решении более сложных задач, чтобы ускорить разработку и сократить Time to market. Да и просто делает жизнь разработчиков проще и счастливее.
⚙️ Для кого
Инструмент полезен разработчикам любого уровня, а также техническим руководителям, которые хотят оптимизировать процессы и повысить продуктивность своих команд.
→ Как попробовать
Yandex Code Assistant доступен бесплатно на облачной платформе Yandex Cloud в режиме Preview. Для тестирования оставьте заявку.
С помощью сервиса разработчики смогут по фрагменту кода сгенерировать наиболее вероятное его продолжение. Это поможет упростить написание и редактирование кода и ускорить продуктовую разработку в компаниях. Ассистент протестировали тысячи разработчиков Яндекса, 60% из которых стали постоянными пользователями сервиса.
Использование Yandex Code Assistant помогает повысить эффективность работы: доверьте рутинные операции AI и сосредоточьтесь на решении более сложных задач, чтобы ускорить разработку и сократить Time to market. Да и просто делает жизнь разработчиков проще и счастливее.
⚙️ Для кого
Инструмент полезен разработчикам любого уровня, а также техническим руководителям, которые хотят оптимизировать процессы и повысить продуктивность своих команд.
→ Как попробовать
Yandex Code Assistant доступен бесплатно на облачной платформе Yandex Cloud в режиме Preview. Для тестирования оставьте заявку.
Forwarded from ИИволюция 👾 (Сергей Пахандрин)
Скоро работа разработчиков и AI-инженеров: лежишь на диване, смотришь сериал, а код пишется силой мысли. И даже тут найдётся место для прокрастинации — ну ведь так лениво думать и "рождать" эти самые мысли!
😁 😁 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI-Движ
Zep AI — open-source платформа, строительные блоки для создания ИИ-приложений на основе больших языковых моделей (LLM)
Zеp в связке с no-code инструментом n8n отлично работает для быстрого прототипирования.
Основной функционал:
- Векторная база данных
- Хранение истории чата с обогащением данных
- Средства моделирования пользователей и сеансов
- Гибридный поиск в сообщениях и документах
- SDK для Python и TypeScript для легкой интеграции
- Интеграция LangChain
- Интеграция с LlamaIndex
Zеp в связке с no-code инструментом n8n отлично работает для быстрого прототипирования.
Основной функционал:
- Векторная база данных
- Хранение истории чата с обогащением данных
- Средства моделирования пользователей и сеансов
- Гибридный поиск в сообщениях и документах
- SDK для Python и TypeScript для легкой интеграции
- Интеграция LangChain
- Интеграция с LlamaIndex
Forwarded from AI-Движ
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги показали впечатляющую ИИ связку для кодеров — Cursor & Claude 3.5 Sonnet
Недавно мимо пронёсся коллега на сверхсветовой скорости. Всё что я успел разобрать - это ссылка по которой можно попробовать это AI-чудо:
Кодеры, что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 🏆 Data Feeling | AI (Aleron Milenkin)
Замечаю рост популярности впечатляющей связки среди ИИ кодеров — Cursor & Claude 3.5 Sonnet
Недавно мимо пронёсся коллега на сверхсветовой скорости. Всё что я успел разобрать - это ссылка по которой можно попробовать AI чудо:
Отзовитесь в комментах! Кто уже использует курсор? Какие лайфхаки еще есть?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 🏆 Data Feeling | AI (Aleron Milenkin)
Будущее уже наступило
Зацените видос. Рассказал, как можно делать web приложения быстро и без программирования.
Зацените видос. Рассказал, как можно делать web приложения быстро и без программирования.
Forwarded from 🏆 Data Feeling | AI (Aleron M)
This media is not supported in your browser
VIEW IN TELEGRAM
Основные фишки для кодинга:
— Моментально переносит код на другой язык программирования;
— Возможность улучшать, редактировать и фиксить полученный код в окне ответа;
— Код-ревью от алгоритма, исправление ошибок и комментирование.
При работе с текстом в Canvas можно:
— Регулировать стиль и сложность текста прямо на ходу;
— Проверять текста на ошибки, понятность и логическую последовательность;
— Редактировать длину текста без нового промта.
Платным подписчикам доступ уже открыт, а владельцы бесплатных аккаунтов смогут попробовать «холсты», когда закончится бета-тест.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 🏆 Data Feeling | AI (Aleron Milenkin)
Media is too big
VIEW IN TELEGRAM
Еще одна мощная штука для фанатов Jupyter Notebook
Codeium можно как расширение установить в среду и повысить эффективность работы в несколько раз.
🔛 Если накидайте бустов до 10-го уровня, то скину видео-пример, как автокомплитеть код для обучения catboost’а по фолдам для любой таблицы или train loop’а для текстового датасета при обучение transformer’ов.
👾 Как же я кайфую от того, что застал этот AI бум 🧠
Codeium можно как расширение установить в среду и повысить эффективность работы в несколько раз.
Please open Telegram to view this post
VIEW IN TELEGRAM