SimpleAGI
93 subscribers
21 photos
1 file
22 links
Здесь ты найдешь понятные лайфхаки и примеры использования LLM в повседневной жизни и бизнесе.

Подпишись, чтобы вместе шаг за шагом разбираться в технологиях, которые уже меняют наше будущее.
Download Telegram
Наконец-то поставил vllm на свою NVIDIA 5090! Делюсь пошаговой инструкцией в своём стиле – чтобы вы не наступали на грабли и сразу начали тестить модели.

1. Создаём локальную среду
python3 -m venv .venv
source .venv/bin/activate


2. Устанавливаем ночную сборку PyTorch
pip3 install --pre torch torchvision torchaudio \
--index-url https://download.pytorch.org/whl/nightly/cu128


3. Клонируем репозиторий vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm


4. Собираем и устанавливаем vllm
python use_existing_torch.py
pip install -r requirements/build.txt
export MAX_JOBS=6 # подберите под своё железо, без этого — риск зависаний
pip install --no-build-isolation -e .

5. Организуем структуру проекта
/home/nikita/PROJECTS/
├── my_project/ # ваш основной проект
└── vllm/ # клон репозитория vllm
├── vllm/ # исходники библиотеки
├── setup.py
└── …


Так удобно держать всё раздельно и подключать vllm как локальный пакет.

⏱️ Установка заняла у меня ~20 минут. Чертовски рад, теперь можно запускать агентов и гонять модели.
⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
в этой картинке 10 часов времени. Томный субботний день.
Надеюсь, что вы "веселитесь" иначе.
Я тут пропал на долго. Сначала пытался проект выше довести до ума и даже что-то получилось.

API сервис по работе с локальными LLM
Есть возможность загружать модели с HF в хранилище.
Выбирать модель для инициализации.
Выгружать модель из памяти.
Передавать вопросы, как с chat_template, так и просто текстом.

В целом доволен, Я умничка 😎

А для работы сделал:
Бот в корп. месседжере для сотрудников
- html файлы конвертирует в Markdown,
- Из .md через LLM создает базу вопросов и ответов по документации.
- Заполняет 2 JSON базы со связью между вопросами и путями до файлов.
- Проверяет все дубликаты файлов и не обрабатывает их.
- Обновляет файлы если они изменились.
- Пользователь прям из бота может загрузить новый html файл и он попадет в базу.
- И сам RAG , хоть и простенький, но достаточный.
- Пользователь задает вопрос по документациям - бот отвечает исходя из контекста.

Надеюсь этот ад скоро закончится.
С понедельника отпуск и жду его как никогда)
Please open Telegram to view this post
VIEW IN TELEGRAM
Канал то действительно называется SimpleAGI,
Так что сегодня разбираемся, как потрогать RAG и попробовать самому поиграть с Markdown файлами.

Написал проект, с подробными комментариями, ссылками на полезные странички, постарался максимально подробно на примере продемонстрировать работу системы обращения к внешним данным.
Сплиттер,
FAISS,
модель FRIDA,
BM25s,
Ollama,

Столько интересного, мама-мия))

P.S.
Пост и проект сделан по предложению из чата.
Так что заходите и друзей приглашайте)

GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут важное обновление вышло у Google Gemini.
Если у вас есть какие-то сложные задачи или объемные, то попробуйте.
Я пока что очень доволен.

Ну и жду, когда в VSCode перестанет 500 ошибка на gemini выпадать за 30 баксов в месяц)
Попытался восстановить промпт Gemini, а если точнее, её рассуждений перед финальным ответом.

Не сказал бы, что рассуждения идеальны, но вектор точно верный.

Как же хочется выжать хоть из какого-то решения максимум для своих задач.
На днях вышла Qwen3-Embedding-0.6B,
Весит 1.2 Гб

Решил сравнить её с топовой моделью для русского языка: FRIDA
Весит 3 Гб

Сравнивал на своем датасете из юридический, банковских, законодательных статьях.

Результат интересен, хоть и выборка не очень большая.

Единственное ограничение - Qwen показывает хорошие результаты только с flash_attention_2, а его не на каждую машину получится поставить
Правильно говорят, чем больше данных, тем точнее ответ.
FRIDA всё же ТОП для своего размера в RU сегменте.

Зря хайпанул)
Собрал системную инструкцию для агентов в IDE.
Чисто питонячая и, как по мне, рабочая.

Кажись уже нет большой разницы на каком языке взаимодействовать с моделями, так что на русском языке.

Если кто будет пробовать, оставьте отзыв, мне прям интересно!👍
GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
как-то очень тяжело с теорией дообучения моделей.
Надеюсь, что какая-то часть информации в голове сохранится.

Ну и хочется верить, что лучше учиться,
чем Не учиться😐
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.youtube.com/live/0_DjDdfqtUE
Трансляция APPLE по своим продуктам. Потенциально должны представить собственную LLM.
Может быть интересно.

Ставлю на то, что бесполезно)
Please open Telegram to view this post
VIEW IN TELEGRAM
Моя, в определенном смысле гордость.
Скрипт для выгрузки проекта в единый markdown файл.
Чем это полезно?

- Ты можешь собрать весь свой проект и грузануть в любую LLM которая поможет тебе в нем разобраться и завайбкодиться по самые уши.

Так же можно использовать и для других проектов, в которых нужно разобраться.

Вряд ли это из "Simple", но это безумно полезно

https://github.com/nikitaCodeSave/save_project_for_vibe/blob/main/create_all_repo_md.py
SimpleAGI
Канал то действительно называется SimpleAGI, Так что сегодня разбираемся, как потрогать RAG и попробовать самому поиграть с Markdown файлами. Написал проект, с подробными комментариями, ссылками на полезные странички, постарался максимально подробно на примере…
В продолжение к исходному Двухступенчатому RAG,
Который рассмотрели в прошлый раз, написал чуть обновленную версию уже с полноценной логикой гибридного поиска.
Разница в том, что результаты векторного и полнотекстового поиска определяются параллельно, на выбор по двум логикам:
RRF фокус на ранги(места в топе) по двум подходам и определяет итоговый top_k чанков.

Взвешенное суммирование расстояний(преобразованных) - суммируются Скоры по каждому поиску и ранжируется уже исходя из финального скора.

Всё так же много комментариев, пояснений.
Размещен в соседней ветке, так что можно прыгать от базовой версии к гибриду.

GitHub
Сегодня выйдет o3 pro.

Будем тыкать с удовольствием.
Нужно только придумать под какие задачи)
Пу-пу-пу, Приятности)
Сегодня завершились все круги ада по повышению Грейда на работе.
Вроде бы я рад, но утверждение данного повышения, внимание(!!!), 3 месяца.

Эх бюрократия бюрократичная)
Надеюсь, что в канале есть весомая часть действительно далеких от глубин AI и со стороны наблюдающих.

Есть популярное в медиа мнение, что AI могут заменить работников, перестроить экономику и избавиться от слоев профессий.

Я понимаю из-за чего появляются такие новости, и как влияют кликбейтные новости на людей.
Но задница моя горит и ничего с этим не поделать.

Система мульти-агентов, которые совершают взаимодействие между моделями и совершают рабочие сценарии в роли каких-либо работников - по факту, в данный момент миф.
Огромное количество компаний автоматизирует бизнес процессы, но основная цель этой автоматизации - повысить производительность отделов, но никак не заменить.
Всё, что пытается заменить человека в b2b сфере идет в ногу с потерей стабильности и качества. Люди всё так же нужны и будут нужны в любой профессии, только лишь появляются новые инструменты для повышения КПД деятельности.

Такое развитие технологий усложняет ли поиск работы ?
Вероятно - да. Нужно набираться навыков взаимодействия с этой технологией и изучить на базовом уровне, как работать и увеличивать свою продуктивность.
Но не более того.
Из любопытного:
Разработка автоматизации решений конкретного бизнеса под замену отделов сотрудников будет стоить многих годовых расходов на "людей" и не со 100% вероятностью будет успех.
Да и такие попытки могут себе позволить только мировые гиганты.
Как правило, мы не работаем в таких компаниях, хоть и очень хочется)

То, с какими проблемами встречаются разработчики, пытаясь применить новые технологии - это кринж и смех, так что делите на 100 всё, что читаете в новостях.