Генеративный Мир
211 subscribers
80 photos
1 file
67 links
"Генеративный мир" — про ИИ и про людей, которые его создают.

Автор - Ксения Плесовских, руководитель компании Нейроэксперт
@ksenia_plesovskikh
Download Telegram
Готовый проект с агентами-исследователями. Схема достаточно стандартная- несколько ролей и возможность задавать вопросы конкретному агенту, навыки онлайн поиска... но что впечатлило - это 12 200 звезд на гитхабе. Столько человек не могут ошибаться 🙂

Скрин с демо. Может работать локально с любыми сетями. Бесплатно скачиваем и бесплатно пользуемся🙂
#llm #AI #RAG #ИИ
👍3🔥1
Взлет_и_падение_автономных_агентов_Лукаш_Ковейша.pdf
844.4 KB
Делюсь интересной точкой зрения на перспективы развития автономных мультиагентов. Это не просто агенты, которые умеют делать конкретную задачу, как в openai, а группы думающих ботов, которые без участия человека имитируют групповую деятельность или трудятся в одиночку. У них был год на взлет, но тот, так и не состоялся. Причина в их достаточно медленной сходимости к результату, они склонны дублировать действия и выбирать неоптимальные шаги.
Но действительно ли мы видим закат, казавшейся перспективной технологии?
Лично я верю в их будущее, просто для него сняты еще не все технологические барьеры, и когда все окончательно наиграются и устанут от онлайн-консультантов с RAG, рынок захочет чего-то по-настоящему интеллектуального
#llm #AI #RAG #ИИ
👍51
Пока вы спали, китайцы выпустили новую модель Qwen2.
В ней:
- Предварительно обученные и настроенные с помощью инструкций модели 5 размеров, включая Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B и Qwen2-72B ;
- Прошла обучение работе с данными еще на 27 языках, помимо английского и китайского, русский тоже присутствует;
- Качество приближено к GPT4;
- Значительно улучшена производительность в программировании и математике;
- Расширенная длина контекста поддерживает до 128 000 токенов с помощью Qwen2-7B-Instruct и Qwen2-72B-Instruct.
Есть лицензия Apache 2.0 кроме 72B
источник
huggingface
#llm #AI #ИИ #QWEN2
👍41
⚡️OpenAI представила модель CriticGPT для проверки точности ответов GPT4 и GPT4o
По мере того, как мы совершенствуемся в рассуждениях и моделировании поведения, ChatGPT становится более точным, а его ошибки — более тонкими. Из-за этого инструкторам по искусственному интеллекту может быть сложно обнаружить неточности, когда они действительно происходят, что значительно усложняет задачу сравнения, которая обеспечивает работу RLHF. Это фундаментальное ограничение RLHF, и оно может затруднить согласование моделей, поскольку они постепенно становятся более осведомленными, чем любой человек, который мог бы предоставить обратную связь.

Чтобы помочь с этой задачей, мы научили CriticGPT писать критические замечания, подчеркивающие неточности в ответах ChatGPT.

Есть и ограничения:
- работает только с коротким контекстом
-пропускает часть галлюцинаций
-ловит не все типы ошибок
Источник
#openai #ai #llm #gpt4
👍21
Сегодня мой пост будет необычен. Я нашла интересную статью в журнале нашей академии наук. И посвящена она важной для чат-ботов теме прогнозирования намерений пользователя.
Авторы предложили подход, в котором соединены 3 сущности: кластерный анализ, графы и нейросети.
Как работает:
1. Сначала все фразы диалога кластеризуются на основе семантического сходства. Каждый кластер становится будущими вершинами многодольного графа со схожим контекстом диалога. Фрагмент диалога будет выглядеть как подграф.
2. Для каждого кластера формируются вектора с помощью Cluster2Vec.
3. Тут есть несколько подходов, напрмер, Markov Chain вычисляет самую вероятную следующую вершину, графовые сети внимания учитывают степень важности сообщений, поступающих из соседних вершин. И именно графовые сети побеждают в бенчмаркинге и сильно превосходят обычное сходство векторов.

Кому, как и мне интересна тема сочетания графов с генеративным ИИ, рекомендую к прочтению
источник
#ai #llm #ии
👍5
Интересная находка с ICML, фреймворк для параллельного вызова функций с помощью LLM. В процессе решения задачи LLMCompiler разбивает решение на несколько задач, определяет, какие из них могут быть выполнены параллельно и организует многофункциональный вызов. Результаты: 3,7х ускорения, 6,7х экономии на токенах, 9х повышения точности.
Авторы обещают, что будет работать не только с open AI моделями, но и моделями с открытым исходным кодом.

Код фреймворка тоже открытый, забираем и испытываем

#AI #LLM #ICML #fucntioncalling
👍7
Мучает вопрос, как проверить качество RAG?

Google разработал набор данных FRAMES (F actuality , R etrieval, And reasoning ME asurement Set ) , включающий 824 сложных вопроса, требующих использования нескольких источников информации, в данном случае речь про разные страницы Википедии.

Аннотаторы добавили дополнительный контекст для устранения неоднозначности ответов, которые могут меняться со временем. Например, вопрос типа «Какая страна была обладателем Кубка мира ФИФА в последний раз, когда Лигу чемпионов УЕФА выиграл клуб из Лондона?» был изменен на «По состоянию на 1 августа 2024 года, какая страна была обладателем Кубка мира ФИФА в последний раз, когда Лигу чемпионов УЕФА выиграл клуб из Лондона?»

датасет
источник
#AI #LLM #RAG
🔥4
Вышел файнтюн llama 3.1 8b - Hawkish 8B, адаптированная к сфере финансового анализа.

Модель была дополнительно обучена на наборе 50 млн токенов, связанных с финансовыми темами, охватывающими такие темы, как экономика, фиксированный доход, акции, корпоративное финансирование, производные инструменты и управление портфелем.

Hawkish 8B превосходит Meta Llama-3.1-8B-Instruct более чем на 12% в специализированных финансовых тестах и ​​почти на 15% в вопросах, связанных с математикой.

Ей удалось сдать экзамен CFA (мировой стандарт в области финансового анализа и инвестиций) уровня 1, набрав средневзвешенный балл 71,3%, в то время как для людей средний балл составляет 65% и это первый случай среди генеративных моделей.

#AI #LLM #FINTECH

скачать модель
🔥6
🔥2👍1
Китайцы решили обогнать GPT-4 и представили новую и бесплатную! модель MiniMax-Text-01 на 456B параметров очень близкую по качеству к GPT-4 и Claude 3.5 Sonnet. Рекордом модели является огромное контекстное окно в 4 млн токенов. Есть возможность общаться через веб или api. API пока в пробной версии, тарифы не указаны.
Статья про модель

#AI #LLM
🔥6
Китайцы продолжают удивлять. Мы привыкли, что обычно большие модели сравнивают с большими, маленькие с маленькими. А тут полный бенчмарк линейки моделей DeepSeek R1 и даже версия уровня 1.5B бьет на отдельных датасетах большие GPT-4O, O1и даже Claude-3.5-Sonnet.

Это означает, что пришло время, когда модель уровня GPT-4O уже может разместиться не только на персональном ПК, но и на смартфоне.

На huggingface написано, что чтобы R1 попробовать бесплатно, нужно зайти в чат DeepSeek, где изначально предлагается V3 и нажать кнопку DeepThink для переключения в R1. Проверила, работает!

API

Наша команда уже применяет DeepSeek V3 для повышения своей эффективности. А как у вас?

#AI #LLM #Deepseek
🔥3👏1
🔥 Интеграции без границ и кода

Postman выпустил инструмент, который позволяет в визуальном конструкторе интегрироваться с сотнями тысяч API и делать в них запросы с помощью промптов

Кому полезно:
- любым разработчикам, кто раньше писал код для взаимодействия с API. теперь интеграционный код можно просто скопировать себе.
- пользователям, которым нужны данные с разных источников, инструмент умеет ходить в API в режиме реального времени

Есть бесплатный тариф

https://voyager.postman.com/video/agentic-workflow-4-v10-xl.mp4
https://voyager.postman.com/video/toolgen-5.mp4

#AI #LLM
👍3🔥3
Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini🔥🔥🔥

Это открытая модель, которую можно запустить на обычной пользовательской GPU 4090!

Созданная на основе Mistral Small 3 , эта новая модель отличается улучшенной производительностью текста, многомодальным пониманием и расширенным контекстным окном до 128 тыс. токенов. Модель превосходит сопоставимые модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость вывода 150 токенов в секунду.

Источник
HF
#AI #LLM
🔥3
Когда ИИ не помощник: обратная сторона автоматизации в разработке
История нашей команды, которая решила лететь на «космолете» ИИ — и едва не разбилась о реальность.

Нейросети обещают сократить сроки проектов в разы. Но вместо взлета — чекап списка неожиданных проблем. Расскажу, как мы столкнулись с обратной стороной симбиоза человека и алгоритма.

Джуны не могут, синьоры не хотят
«Космолет ИИ» требует пилота с опытом. Джун, не освоивший архитектуру и паттерны, слепо доверяет нейросети — и получает код, который даже компилятор стыдится запускать. А синьор? Он предпочитает старый добрый ручной контроль: «Зачем тратить час на объяснение ИИ, если я сделаю за 20 минут?»
Реальный кейс: два разработчика тайно игнорировали ИИ, пока код-ревью не вскрыло правду. Решение? Учим людей ставить задачи. Без этого — как лететь без карты.

«Я просил не это!»: Почему ИИ игнорирует ваши желания
«Сделай красивую кнопку» — для ИИ это 50 оттенков синего и анимация, от которой глаза болят. Один из сотрудников потратил день, пытаясь заставить нейросеть реализовать простой алгоритм, а на следующий день сроки поджимали и уже пришлось делать самому.

Проблема: ИИ — не телепат.
Решение: внедряем стандарт требований к промптам: «Цель, контекст, ограничения».

Учимся «разговаривать» с моделью: цепочки рассуждений (reasoning) вместо односложных команд.

ИИ-шизофрения: сегодня новая фича, завтра — откат в каменный век
На днях ИИ подарил мне гениальный код, гибкий, адаптируемый под другие задачи. Но едва я попросила довнести в него еще один функционал, как он заменил его на более простую версию. я обратила на это внимание лишь спустя несколько часов, было обидно, потому что пришлось откатываться и начинать заново.

Что делать?

Фиксируем «контрольные точки» через TDD и частые коммиты. Я рекомендую коммитить после каждой новой правки кода, а чтобы сохранять его читаемость - делать в отдельной ветке и потом применять стратегию слияния, когда все промежуточные этапы скрываются и мы видим код до начала работы и код после.

А мы точно хотим это масштабировать?

Несмотря ни на что, мой ответ - да! Но успеха добьется тот, у кого получится нарастить правильную методологию, поэтому теперь беру на себя больше задач с кодом, делегирую ИИ даже самые незначительные мелочи и веду дневник проблем, а потом анализирую, почему они возникли. На основе анализа рождается методика. В следующих постах поделюсь лайфхаками, которые уже нашла для того, чтобы контролировать качество результата

#AI #ИИ #LLM
#КсенияПлесовских
🔥4
🔥 40 часов в огне. Оцениваю эффективность разработки через ИИ.

Идет 3 месяц моего эксперимента с разработкой через ИИ. Шишки набиты, на выходе начал получаться осмысленный результат, но вот приросла ли эффективность? Задумалась, после того, как потратила почти рабочую неделю своего личного времени на относительно небольшой микросервис.

Еще на этапе старта было понятно, что ИИ - это не волшебная кнопка, и что писать с его помощью код тоже нужно уметь, но обретая цифровую команду, я ожидала, что управлять ей будет как минимум проще - меньше лени, сопротивления, ИИ не устает и не смотрит видосики, когда от него ждут результат. Реальность же внесла коррективы. В некоторых местах кода я буквально начала узнавать черты ребят из своей команды и чуть ли не называть их по именам. Вот в коде после бага с незаполнением поля, появился тест, проверяющий … да, заполнение этого поля, хотя оно одно из многих, с кем аналогичный баг может случиться. А вот - функционал, который дублирует ранее созданный класс, чтобы быть использованным в еще одном месте кода. Невольно начинаешь думать, может быть это я делаю что-то не так?

Вот мои наблюдения — возможно, они помогут и вам избежать ошибок.

ИИ — ЭТО КОМАНДА, И ЕЙ НУЖНО УПРАВЛЯТЬ!
Один диалог с моделью — это как один сотрудник: нельзя давать ему все задачи сразу .
Идеально иметь 5 «помощников» — разные роли, разные задачи.
* Менеджер (пока это я сама): раскладывает задачи по этапам.
* Архитектор + Аналитик (ИИ): проектируют структуру и требования. Это можно делать в одном чате и сюда же отнести разработку перечня необходимых тестов.
* Разработчик + Ревьюер (ИИ): пишут код и проверяют его. Разделяй и властвуй!  2 разных диалога, один только пишет, другой - только проверяет.
* Тестировщик (ИИ): пишет автоматизированные тесты по ранее разработанному перечню,  «Покрой тестами» — не его стихия, тут ИИ ленится, как студент перед сессией.

Применимы ли здесь принципы и знания менеджмента? да, вполне, с адаптацией под специфику. Радует, что хотя бы 1:1 проводить не требуется)

У ИИ ЕСТЬ СВОЙ СТИЛЬ КОДА — КАК У ЛЮДЕЙ!
Каждая модель пишет код по-своему.
* Одна любит «сухой» синтаксис, другая — «разговорные» комментарии.
* Некоторые лучше справляются с алгоритмами, другие — с документацией.
Смотреть нужно не только на качество, но и выбирать «своего специалиста», чей стиль разработки откликается собственному. А возможно - делегировать разные роли разным моделям.


РЕЗУЛЬТАТ — это не только скорость, но и ДИСЦИПЛИНА
Работа с ИИ заставляет стать строже с самим собой . Теперь я тщательно слежу за:
проектированием архитектуры ,
компонентов кода,
потоками данных ,
составляю список тестов — даже тех, что раньше бы пропустила
Результат? Код стал не просто качественнее, а универсальнее . ИИ не принимает «халтуру» — он вынуждает мыслить системно. Поэтому считать нужно не только потраченные на разработку часы, но и насколько больше получилось сделать относительно привычного темпа работы.


ТЕСТИРОВАНИЕ СТАЛО БОЛЕЕ ВАЖНЫМ, ЧЕМ КОД
С кодом всё понятно: ошибка — исправил, новые требования — добавил. Но ИИ-тестировщик пока «ленивый» и сам факт наличия в коде тестов не говорит о том, что проверен весь функционал, и что ожидаемый результат в этих тестах - действительно то, что нам нужно. Чем больше я погружаюсь в эту тему, тем больше встает вопросов для проработки, результатами буду делиться в будущих постах.

⚠️ ПРЕДУПРЕЖДЕНИЕ :
* Присутствие тестов не гарантирует , что всё проверено.
* ИИ может «забыть» часть функционала или повторять однотипные проверки.
Решение : четко формулируйте тест-кейсы отдельно от кода и проверяйте их на соответствие целям.

ПРОМПТЫ - НЕ САМОЦЕЛЬ!

Чего вы точно не увидите в моих публикациях - это того, какой промпт лучше позволит решить ту или иную задачу. Почему? у меня их нет, я веду диалог как с обычным разработчиком и формулирую задачи в привычном мне формате.

P.S. Если вы тоже пробуете ИИ в разработке — делитесь опытом в комментариях! Как вы организовываете работу с ИИ?

#AI #ИИ #LLM #Технологии
#КсенияПлесовских
👍5🔥2
🔥Два месяца труда и мы выпустили новый релиз ИИ ассистента закупок

Зачем?
Упрощает закупки всевозможных расходников для производства. Получив заявку от отдела закупок со списком закупаемых товаров, бот делает запрос КП по базе поставщиков, попутно отвечая на вопросы, потом все обрабатывает, формирует сводную ведомость, выбирает победителя, запрашивает счет.

В техническом плане проект достаточно челленжный и сильно отличается от обычного чат-бота.
Расскажу по-подробнее, с какими нюансами столкнулись и как решали.

1. Много участников диалога и разные роли. В закупке всегда есть инициатор и группа поставщиков. Бот взаимодействует с каждым. Для инициатора он должен быть в контексте всей закупки, для поставщика оперировать только диалогом с этим конкретным поставщиком и ничего не перепутать.

2. Распределенность во времени. Закупка может идти больше недели, поэтому никаких пользовательских сессий и памяти на клиенте, абсолютно весь контекст должен быть надежно припаркован на стороне сервера.

3. Только серверная логика. Собственно и клиента тут тоже нет, почтовый интерфейс затягивает данные в наш сервис и отправляет ответы пользователям, входной канал сообщений всего один - почтовый адрес бота, а дальше задача - понять - это новая закупка или письмо от поставщика, тогда на какую именно закупку. Чтобы не думать о том, кто заказывал гвозди, сейчас держим id закупки в теме письма. Ну и конечно же актуален вопрос спама, на почту бота как и на любую другую могут лететь абсолютно разные письма, наша задача их игнорировать.

4. Юридическая значимость. Помимо стандартного диалога бот фиксирует все события в базе, отправляет КП и сводные ведомости в файловое хранилище. Такие вещи нельзя доверить ни промптам ни function calling, слишком важна ответственность за случайно пропавшее КП с лучшей ценой. Гибридная логика нашей платформы работает так:
- определяем тип письма по его содержанию, за это отвечает ИИ.
- в зависимости от типа письма запускаем ту или иную цепочку агентов, это происходит в коде. И прежде чем это сделать, сервисный слой платформы находит все данные по заявке и формирует контекст, поэтому сами агенты полностью изолированы от инфраструктуры, они лишь выкидывают статусы и события по итогам своей работы, которые снова обрабатываются в коде. Сами агенты заняты бизнес-логикой - анализируют документы через ИИ, извлекают оттуда данные, обрабатывают, у каждого своя роль, кто-то валидирует файлы, кто-то приводит данные в единый вид, например, срок поставки у разных поставщиков может длиться 7 календарных дней или 1 неделю, по итогам работы агента все будет унифицировано.

Когда агент закончил свою работу, сервисный слой забирает его результат. обновляет события в базе и контекст следующего агента.

Эту логику мы тщетно пытались найти в готовых решениях, но увы ничего не подошло. Поэтому инфраструктурная обвязка сделана с нуля, а вот агенты спроектированы так, чтобы уметь конфигурироваться через пользовательский интерфейс. Для конфигурации присматривались к langflow, но кто пробовал, тот знает, насколько он деревянный и плохо подходит для внедрения корпоративным заказчикам, поэтому остановились на следующей архитектуре:

1. Нижний слой - инфраструктура, основа платформы, которая обеспечивает взаимодействие с базой и шиной данных, почтовыми, API и другими интерфейсами, у нас уже готова.

2. Средний слой - бизнес-логика, агенты могут быть в целом любые, мы проектировали так, чтобы внутри класса агента можно было подставить хоть langchain, хоть API на сторонний сервис.

3. Верхний слой - ui оболочка для конфигурации пользователями на основе LiteGraph. По сути такой же интерфейс как в langflow, только отделимый от логики, чтобы накрыть конфигурацию именно нашей платформы.

Что дальше?
Впереди опытная эксплуатация на производственном предприятии, с ее итогами вернусь недели через 3

#КсенияПлесовских
#Нейроэксперт
#ИИвЗакупках #Закупки #AI #LLM
🔥6👍4