Генеративный Мир

Готовый проект с агентами-исследователями. Схема достаточно стандартная- несколько ролей и возможность задавать вопросы конкретному агенту, навыки онлайн поиска... но что впечатлило - это 12 200 звезд на гитхабе. Столько человек не могут ошибаться 🙂

Скрин с демо. Может работать локально с любыми сетями. Бесплатно скачиваем и бесплатно пользуемся🙂
#llm #AI #RAG #ИИ

👍3🔥1

141 viewsedited 09:44

Генеративный Мир

Взлет_и_падение_автономных_агентов_Лукаш_Ковейша.pdf

844.4 KB

Делюсь интересной точкой зрения на перспективы развития автономных мультиагентов. Это не просто агенты, которые умеют делать конкретную задачу, как в openai, а группы думающих ботов, которые без участия человека имитируют групповую деятельность или трудятся в одиночку. У них был год на взлет, но тот, так и не состоялся. Причина в их достаточно медленной сходимости к результату, они склонны дублировать действия и выбирать неоптимальные шаги.
Но действительно ли мы видим закат, казавшейся перспективной технологии?
Лично я верю в их будущее, просто для него сняты еще не все технологические барьеры, и когда все окончательно наиграются и устанут от онлайн-консультантов с RAG, рынок захочет чего-то по-настоящему интеллектуального
#llm #AI #RAG #ИИ

👍5❤1

154 viewsedited 18:46

Генеративный Мир

Пока вы спали, китайцы выпустили новую модель Qwen2.
В ней:
- Предварительно обученные и настроенные с помощью инструкций модели 5 размеров, включая Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B и Qwen2-72B ;
- Прошла обучение работе с данными еще на 27 языках, помимо английского и китайского, русский тоже присутствует;
- Качество приближено к GPT4;
- Значительно улучшена производительность в программировании и математике;
- Расширенная длина контекста поддерживает до 128 000 токенов с помощью Qwen2-7B-Instruct и Qwen2-72B-Instruct.
Есть лицензия Apache 2.0 кроме 72B
источник
huggingface
#llm #AI #ИИ #QWEN2

👍4❤1

165 views04:56

Генеративный Мир

Husky-v1 open source агент, предназначенный для решения сложных многоходовых задач - код, финансы, математика, таблицы и базы знаний

https://github.com/agent-husky/Husky-v1
#llm #ai #husky

GitHub

GitHub - agent-husky/Husky-v1: Code for Husky, an open-source language agent that solves complex, multi-step reasoning tasks. Husky…

Code for Husky, an open-source language agent that solves complex, multi-step reasoning tasks. Husky v1 addresses numerical, tabular and knowledge-based reasoning tasks. - agent-husky/Husky-v1

🔥4👍1

155 views19:09

Генеративный Мир

⚡️OpenAI представила модель CriticGPT для проверки точности ответов GPT4 и GPT4o

По мере того, как мы совершенствуемся в рассуждениях и моделировании поведения, ChatGPT становится более точным, а его ошибки — более тонкими. Из-за этого инструкторам по искусственному интеллекту может быть сложно обнаружить неточности, когда они действительно происходят, что значительно усложняет задачу сравнения, которая обеспечивает работу RLHF. Это фундаментальное ограничение RLHF, и оно может затруднить согласование моделей, поскольку они постепенно становятся более осведомленными, чем любой человек, который мог бы предоставить обратную связь.

Чтобы помочь с этой задачей, мы научили CriticGPT писать критические замечания, подчеркивающие неточности в ответах ChatGPT.

Есть и ограничения:
- работает только с коротким контекстом
-пропускает часть галлюцинаций
-ловит не все типы ошибок
Источник
#openai #ai #llm #gpt4

👍2❤1

307 viewsedited 10:35

Генеративный Мир

Сегодня мой пост будет необычен. Я нашла интересную статью в журнале нашей академии наук. И посвящена она важной для чат-ботов теме прогнозирования намерений пользователя.
Авторы предложили подход, в котором соединены 3 сущности: кластерный анализ, графы и нейросети.
Как работает:
1. Сначала все фразы диалога кластеризуются на основе семантического сходства. Каждый кластер становится будущими вершинами многодольного графа со схожим контекстом диалога. Фрагмент диалога будет выглядеть как подграф.
2. Для каждого кластера формируются вектора с помощью Cluster2Vec.
3. Тут есть несколько подходов, напрмер, Markov Chain вычисляет самую вероятную следующую вершину, графовые сети внимания учитывают степень важности сообщений, поступающих из соседних вершин. И именно графовые сети побеждают в бенчмаркинге и сильно превосходят обычное сходство векторов.

Кому, как и мне интересна тема сочетания графов с генеративным ИИ, рекомендую к прочтению
источник
#ai #llm #ии

👍5

390 viewsedited 19:31

Генеративный Мир

Интересная находка с ICML, фреймворк для параллельного вызова функций с помощью LLM. В процессе решения задачи LLMCompiler разбивает решение на несколько задач, определяет, какие из них могут быть выполнены параллельно и организует многофункциональный вызов. Результаты: 3,7х ускорения, 6,7х экономии на токенах, 9х повышения точности.
Авторы обещают, что будет работать не только с open AI моделями, но и моделями с открытым исходным кодом.

Код фреймворка тоже открытый, забираем и испытываем

#AI #LLM #ICML #fucntioncalling

👍7

324 viewsedited 07:35

Генеративный Мир

Простым языком о том, как GROQ смог обогнать NVIDIA по скорости вычислений для LLM
https://digitalocean.ru/n/novyj-yazykovoj-processor

Спасибо Марату за ссылку)

#AI #LLM #GROQ #NVIDIA

Цифровой океан

Микрочип LPU

В феврале 2024 года малоизвестный стартап Groq представил LPU* — специальный микрочип, который делает ответ языковых моделей молниеносным. Новый процессор сходу показал десятикратное преимущество перед традиционными решениями на GPU. Вероятно, скоро такой…

👍5

343 views14:30

Генеративный Мир

Сегодня по миру разлетается новость, что производитель AI чипов SambaNova выпустил инференс LLM моделей со скоростью отдачи 1000 токенов в секунду. Проверила, действительно работает очень быстро, есть готовые тестовые запросы, но я сделала свой на русском…

спустя 3 месяца после выхода тестового инференса SambaNova,наконец-то появился API для пользователей

Он бесплатный, но с ограничениями. Попробовать можно тут
#AI #LLM #LLAMA #SAMBANOVA

🔥3👍1

281 viewsedited 11:38

Генеративный Мир

Наиболее полезные посты на этом канале

Применение ИИ в бизнесе
Генеративный ИИ в МДМ
Бот для 1С
Рекомендательная система для интернет-магазина

Полезные ИИ библиотеки, фреймворки, модели

RagBuilder
Фреймворк для параллельного вызова LLM
Метрики качества генеративного ИИ
Прогнозирование намерений пользователя
Языки программирования на LLM

Публикации
Что не так с Вашим кодом, сгенерированным LLM
Отчет о патентном ландшафте в генеративном ИИ 2024
Аналитический отчет Стенфордского университета про ИИ за 24 год

#AI #LLM

Генеративный ИИ

Еще с 2 кейсами практического применения генеративного ИИ сейчас участвуем в конкурсе докладов на конференцию "Инфостарт".

Первый кейс в продолжение истории с закупками позволяет делать матчинг товаров в 1С МДМ. МДМ - (master data mangement) - место где…

❤2

529 views08:27

Генеративный Мир

Мучает вопрос, как проверить качество RAG?

Google разработал набор данных FRAMES (F actuality , R etrieval, And reasoning ME asurement Set ) , включающий 824 сложных вопроса, требующих использования нескольких источников информации, в данном случае речь про разные страницы Википедии.

Аннотаторы добавили дополнительный контекст для устранения неоднозначности ответов, которые могут меняться со временем. Например, вопрос типа «Какая страна была обладателем Кубка мира ФИФА в последний раз, когда Лигу чемпионов УЕФА выиграл клуб из Лондона?» был изменен на «По состоянию на 1 августа 2024 года, какая страна была обладателем Кубка мира ФИФА в последний раз, когда Лигу чемпионов УЕФА выиграл клуб из Лондона?»

датасет
источник
#AI #LLM #RAG

🔥4

543 viewsedited 14:29

Генеративный Мир

Вышел файнтюн llama 3.1 8b - Hawkish 8B, адаптированная к сфере финансового анализа.

Модель была дополнительно обучена на наборе 50 млн токенов, связанных с финансовыми темами, охватывающими такие темы, как экономика, фиксированный доход, акции, корпоративное финансирование, производные инструменты и управление портфелем.

Hawkish 8B превосходит Meta Llama-3.1-8B-Instruct более чем на 12% в специализированных финансовых тестах и почти на 15% в вопросах, связанных с математикой.

Ей удалось сдать экзамен CFA (мировой стандарт в области финансового анализа и инвестиций) уровня 1, набрав средневзвешенный балл 71,3%, в то время как для людей средний балл составляет 65% и это первый случай среди генеративных моделей.

#AI #LLM #FINTECH

скачать модель

huggingface.co

mukaj/Llama-3.1-Hawkish-8B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥6

396 views08:38

Генеративный Мир

Forwarded from Генеративный Мир

Генеративный ИИ

🔥2👍1

306 views07:43

Генеративный Мир

Китайцы решили обогнать GPT-4 и представили новую и бесплатную! модель MiniMax-Text-01 на 456B параметров очень близкую по качеству к GPT-4 и Claude 3.5 Sonnet. Рекордом модели является огромное контекстное окно в 4 млн токенов. Есть возможность общаться через веб или api. API пока в пробной версии, тарифы не указаны.
Статья про модель

#AI #LLM

🔥6

352 views10:45

Генеративный Мир

Китайцы продолжают удивлять. Мы привыкли, что обычно большие модели сравнивают с большими, маленькие с маленькими. А тут полный бенчмарк линейки моделей DeepSeek R1 и даже версия уровня 1.5B бьет на отдельных датасетах большие GPT-4O, O1и даже Claude-3.5-Sonnet.

Это означает, что пришло время, когда модель уровня GPT-4O уже может разместиться не только на персональном ПК, но и на смартфоне.

На huggingface написано, что чтобы R1 попробовать бесплатно, нужно зайти в чат DeepSeek, где изначально предлагается V3 и нажать кнопку DeepThink для переключения в R1. Проверила, работает!

API

Наша команда уже применяет DeepSeek V3 для повышения своей эффективности. А как у вас?

#AI #LLM #Deepseek

🔥3👏1

321 views06:09

Генеративный Мир

🔥 Интеграции без границ и кода

Postman выпустил инструмент, который позволяет в визуальном конструкторе интегрироваться с сотнями тысяч API и делать в них запросы с помощью промптов

Кому полезно:
- любым разработчикам, кто раньше писал код для взаимодействия с API. теперь интеграционный код можно просто скопировать себе.
- пользователям, которым нужны данные с разных источников, инструмент умеет ходить в API в режиме реального времени

Есть бесплатный тариф

https://voyager.postman.com/video/agentic-workflow-4-v10-xl.mp4
https://voyager.postman.com/video/toolgen-5.mp4

#AI #LLM

👍3🔥3

381 viewsedited 07:28

Генеративный Мир

Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini🔥🔥🔥

Это открытая модель, которую можно запустить на обычной пользовательской GPU 4090!

Созданная на основе Mistral Small 3 , эта новая модель отличается улучшенной производительностью текста, многомодальным пониманием и расширенным контекстным окном до 128 тыс. токенов. Модель превосходит сопоставимые модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость вывода 150 токенов в секунду.

Источник
HF
#AI #LLM

🔥3

305 viewsedited 06:02

Генеративный Мир

Когда ИИ не помощник: обратная сторона автоматизации в разработке
История нашей команды, которая решила лететь на «космолете» ИИ — и едва не разбилась о реальность.

Нейросети обещают сократить сроки проектов в разы. Но вместо взлета — чекап списка неожиданных проблем. Расскажу, как мы столкнулись с обратной стороной симбиоза человека и алгоритма.

Джуны не могут, синьоры не хотят
«Космолет ИИ» требует пилота с опытом. Джун, не освоивший архитектуру и паттерны, слепо доверяет нейросети — и получает код, который даже компилятор стыдится запускать. А синьор? Он предпочитает старый добрый ручной контроль: «Зачем тратить час на объяснение ИИ, если я сделаю за 20 минут?»
Реальный кейс: два разработчика тайно игнорировали ИИ, пока код-ревью не вскрыло правду. Решение? Учим людей ставить задачи. Без этого — как лететь без карты.

«Я просил не это!»: Почему ИИ игнорирует ваши желания
«Сделай красивую кнопку» — для ИИ это 50 оттенков синего и анимация, от которой глаза болят. Один из сотрудников потратил день, пытаясь заставить нейросеть реализовать простой алгоритм, а на следующий день сроки поджимали и уже пришлось делать самому.

Проблема: ИИ — не телепат.
Решение: внедряем стандарт требований к промптам: «Цель, контекст, ограничения».

Учимся «разговаривать» с моделью: цепочки рассуждений (reasoning) вместо односложных команд.

ИИ-шизофрения: сегодня новая фича, завтра — откат в каменный век
На днях ИИ подарил мне гениальный код, гибкий, адаптируемый под другие задачи. Но едва я попросила довнести в него еще один функционал, как он заменил его на более простую версию. я обратила на это внимание лишь спустя несколько часов, было обидно, потому что пришлось откатываться и начинать заново.

Что делать?

Фиксируем «контрольные точки» через TDD и частые коммиты. Я рекомендую коммитить после каждой новой правки кода, а чтобы сохранять его читаемость - делать в отдельной ветке и потом применять стратегию слияния, когда все промежуточные этапы скрываются и мы видим код до начала работы и код после.

А мы точно хотим это масштабировать?

Несмотря ни на что, мой ответ - да! Но успеха добьется тот, у кого получится нарастить правильную методологию, поэтому теперь беру на себя больше задач с кодом, делегирую ИИ даже самые незначительные мелочи и веду дневник проблем, а потом анализирую, почему они возникли. На основе анализа рождается методика. В следующих постах поделюсь лайфхаками, которые уже нашла для того, чтобы контролировать качество результата

#AI #ИИ #LLM
#КсенияПлесовских

🔥4

251 views05:30

Генеративный Мир

🔥 40 часов в огне. Оцениваю эффективность разработки через ИИ.

Идет 3 месяц моего эксперимента с разработкой через ИИ. Шишки набиты, на выходе начал получаться осмысленный результат, но вот приросла ли эффективность? Задумалась, после того, как потратила почти рабочую неделю своего личного времени на относительно небольшой микросервис.

Еще на этапе старта было понятно, что ИИ - это не волшебная кнопка, и что писать с его помощью код тоже нужно уметь, но обретая цифровую команду, я ожидала, что управлять ей будет как минимум проще - меньше лени, сопротивления, ИИ не устает и не смотрит видосики, когда от него ждут результат. Реальность же внесла коррективы. В некоторых местах кода я буквально начала узнавать черты ребят из своей команды и чуть ли не называть их по именам. Вот в коде после бага с незаполнением поля, появился тест, проверяющий … да, заполнение этого поля, хотя оно одно из многих, с кем аналогичный баг может случиться. А вот - функционал, который дублирует ранее созданный класс, чтобы быть использованным в еще одном месте кода. Невольно начинаешь думать, может быть это я делаю что-то не так?

Вот мои наблюдения — возможно, они помогут и вам избежать ошибок.

ИИ — ЭТО КОМАНДА, И ЕЙ НУЖНО УПРАВЛЯТЬ!
Один диалог с моделью — это как один сотрудник: нельзя давать ему все задачи сразу .
Идеально иметь 5 «помощников» — разные роли, разные задачи.
* Менеджер (пока это я сама): раскладывает задачи по этапам.
* Архитектор + Аналитик (ИИ): проектируют структуру и требования. Это можно делать в одном чате и сюда же отнести разработку перечня необходимых тестов.
* Разработчик + Ревьюер (ИИ): пишут код и проверяют его. Разделяй и властвуй! 2 разных диалога, один только пишет, другой - только проверяет.
* Тестировщик (ИИ): пишет автоматизированные тесты по ранее разработанному перечню, «Покрой тестами» — не его стихия, тут ИИ ленится, как студент перед сессией.

Применимы ли здесь принципы и знания менеджмента? да, вполне, с адаптацией под специфику. Радует, что хотя бы 1:1 проводить не требуется)

У ИИ ЕСТЬ СВОЙ СТИЛЬ КОДА — КАК У ЛЮДЕЙ!
Каждая модель пишет код по-своему.
* Одна любит «сухой» синтаксис, другая — «разговорные» комментарии.
* Некоторые лучше справляются с алгоритмами, другие — с документацией.
Смотреть нужно не только на качество, но и выбирать «своего специалиста», чей стиль разработки откликается собственному. А возможно - делегировать разные роли разным моделям.

РЕЗУЛЬТАТ — это не только скорость, но и ДИСЦИПЛИНА
Работа с ИИ заставляет стать строже с самим собой . Теперь я тщательно слежу за:
✅ проектированием архитектуры ,
✅ компонентов кода,
✅ потоками данных ,
✅ составляю список тестов — даже тех, что раньше бы пропустила
Результат? Код стал не просто качественнее, а универсальнее . ИИ не принимает «халтуру» — он вынуждает мыслить системно. Поэтому считать нужно не только потраченные на разработку часы, но и насколько больше получилось сделать относительно привычного темпа работы.

ТЕСТИРОВАНИЕ СТАЛО БОЛЕЕ ВАЖНЫМ, ЧЕМ КОД
С кодом всё понятно: ошибка — исправил, новые требования — добавил. Но ИИ-тестировщик пока «ленивый» и сам факт наличия в коде тестов не говорит о том, что проверен весь функционал, и что ожидаемый результат в этих тестах - действительно то, что нам нужно. Чем больше я погружаюсь в эту тему, тем больше встает вопросов для проработки, результатами буду делиться в будущих постах.

⚠️ ПРЕДУПРЕЖДЕНИЕ :
* Присутствие тестов не гарантирует , что всё проверено.
* ИИ может «забыть» часть функционала или повторять однотипные проверки.
Решение : четко формулируйте тест-кейсы отдельно от кода и проверяйте их на соответствие целям.

ПРОМПТЫ - НЕ САМОЦЕЛЬ!

Чего вы точно не увидите в моих публикациях - это того, какой промпт лучше позволит решить ту или иную задачу. Почему? у меня их нет, я веду диалог как с обычным разработчиком и формулирую задачи в привычном мне формате.

P.S. Если вы тоже пробуете ИИ в разработке — делитесь опытом в комментариях! Как вы организовываете работу с ИИ?

#AI #ИИ #LLM #Технологии
#КсенияПлесовских

👍5🔥2

368 viewsedited 12:54

Генеративный Мир

🔥Два месяца труда и мы выпустили новый релиз ИИ ассистента закупок

Зачем?
Упрощает закупки всевозможных расходников для производства. Получив заявку от отдела закупок со списком закупаемых товаров, бот делает запрос КП по базе поставщиков, попутно отвечая на вопросы, потом все обрабатывает, формирует сводную ведомость, выбирает победителя, запрашивает счет.

В техническом плане проект достаточно челленжный и сильно отличается от обычного чат-бота.
Расскажу по-подробнее, с какими нюансами столкнулись и как решали.

1. Много участников диалога и разные роли. В закупке всегда есть инициатор и группа поставщиков. Бот взаимодействует с каждым. Для инициатора он должен быть в контексте всей закупки, для поставщика оперировать только диалогом с этим конкретным поставщиком и ничего не перепутать.

2. Распределенность во времени. Закупка может идти больше недели, поэтому никаких пользовательских сессий и памяти на клиенте, абсолютно весь контекст должен быть надежно припаркован на стороне сервера.

3. Только серверная логика. Собственно и клиента тут тоже нет, почтовый интерфейс затягивает данные в наш сервис и отправляет ответы пользователям, входной канал сообщений всего один - почтовый адрес бота, а дальше задача - понять - это новая закупка или письмо от поставщика, тогда на какую именно закупку. Чтобы не думать о том, кто заказывал гвозди, сейчас держим id закупки в теме письма. Ну и конечно же актуален вопрос спама, на почту бота как и на любую другую могут лететь абсолютно разные письма, наша задача их игнорировать.

4. Юридическая значимость. Помимо стандартного диалога бот фиксирует все события в базе, отправляет КП и сводные ведомости в файловое хранилище. Такие вещи нельзя доверить ни промптам ни function calling, слишком важна ответственность за случайно пропавшее КП с лучшей ценой. Гибридная логика нашей платформы работает так:
- определяем тип письма по его содержанию, за это отвечает ИИ.
- в зависимости от типа письма запускаем ту или иную цепочку агентов, это происходит в коде. И прежде чем это сделать, сервисный слой платформы находит все данные по заявке и формирует контекст, поэтому сами агенты полностью изолированы от инфраструктуры, они лишь выкидывают статусы и события по итогам своей работы, которые снова обрабатываются в коде. Сами агенты заняты бизнес-логикой - анализируют документы через ИИ, извлекают оттуда данные, обрабатывают, у каждого своя роль, кто-то валидирует файлы, кто-то приводит данные в единый вид, например, срок поставки у разных поставщиков может длиться 7 календарных дней или 1 неделю, по итогам работы агента все будет унифицировано.

Когда агент закончил свою работу, сервисный слой забирает его результат. обновляет события в базе и контекст следующего агента.

Эту логику мы тщетно пытались найти в готовых решениях, но увы ничего не подошло. Поэтому инфраструктурная обвязка сделана с нуля, а вот агенты спроектированы так, чтобы уметь конфигурироваться через пользовательский интерфейс. Для конфигурации присматривались к langflow, но кто пробовал, тот знает, насколько он деревянный и плохо подходит для внедрения корпоративным заказчикам, поэтому остановились на следующей архитектуре:

1. Нижний слой - инфраструктура, основа платформы, которая обеспечивает взаимодействие с базой и шиной данных, почтовыми, API и другими интерфейсами, у нас уже готова.

2. Средний слой - бизнес-логика, агенты могут быть в целом любые, мы проектировали так, чтобы внутри класса агента можно было подставить хоть langchain, хоть API на сторонний сервис.

3. Верхний слой - ui оболочка для конфигурации пользователями на основе LiteGraph. По сути такой же интерфейс как в langflow, только отделимый от логики, чтобы накрыть конфигурацию именно нашей платформы.

Что дальше?
Впереди опытная эксплуатация на производственном предприятии, с ее итогами вернусь недели через 3

#КсенияПлесовских
#Нейроэксперт
#ИИвЗакупках #Закупки #AI #LLM

🔥6👍4

82 viewsedited 16:03

About

Blog

Apps

Platform