Наконец-то поставил vllm на свою NVIDIA 5090! Делюсь пошаговой инструкцией в своём стиле – чтобы вы не наступали на грабли и сразу начали тестить модели.
1. Создаём локальную среду
2. Устанавливаем ночную сборку PyTorch
3. Клонируем репозиторий vllm
4. Собираем и устанавливаем vllm
5. Организуем структуру проекта
Так удобно держать всё раздельно и подключать vllm как локальный пакет.
⏱️ Установка заняла у меня ~20 минут. Чертовски рад, теперь можно запускать агентов и гонять модели.
⌨️
1. Создаём локальную среду
python3 -m venv .venv
source .venv/bin/activate
2. Устанавливаем ночную сборку PyTorch
pip3 install --pre torch torchvision torchaudio \
--index-url https://download.pytorch.org/whl/nightly/cu128
3. Клонируем репозиторий vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm
4. Собираем и устанавливаем vllm
python use_existing_torch.py
pip install -r requirements/build.txt
export MAX_JOBS=6 # подберите под своё железо, без этого — риск зависаний
pip install --no-build-isolation -e .
5. Организуем структуру проекта
/home/nikita/PROJECTS/
├── my_project/ # ваш основной проект
└── vllm/ # клон репозитория vllm
├── vllm/ # исходники библиотеки
├── setup.py
└── …
Так удобно держать всё раздельно и подключать vllm как локальный пакет.
⏱️ Установка заняла у меня ~20 минут. Чертовски рад, теперь можно запускать агентов и гонять модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
Я тут пропал на долго. Сначала пытался проект выше довести до ума и даже что-то получилось.
API сервис по работе с локальными LLM
Есть возможность загружать модели с HF в хранилище.
Выбирать модель для инициализации.
Выгружать модель из памяти.
Передавать вопросы, как с chat_template, так и просто текстом.
В целом доволен, Я умничка😎
А для работы сделал:
Бот в корп. месседжере для сотрудников
- html файлы конвертирует в Markdown,
- Из .md через LLM создает базу вопросов и ответов по документации.
- Заполняет 2 JSON базы со связью между вопросами и путями до файлов.
- Проверяет все дубликаты файлов и не обрабатывает их.
- Обновляет файлы если они изменились.
- Пользователь прям из бота может загрузить новый html файл и он попадет в базу.
- И сам RAG , хоть и простенький, но достаточный.
- Пользователь задает вопрос по документациям - бот отвечает исходя из контекста.
Надеюсь этот ад скоро закончится.
С понедельника отпуск и жду его как никогда)
API сервис по работе с локальными LLM
Есть возможность загружать модели с HF в хранилище.
Выбирать модель для инициализации.
Выгружать модель из памяти.
Передавать вопросы, как с chat_template, так и просто текстом.
В целом доволен, Я умничка
А для работы сделал:
Бот в корп. месседжере для сотрудников
- html файлы конвертирует в Markdown,
- Из .md через LLM создает базу вопросов и ответов по документации.
- Заполняет 2 JSON базы со связью между вопросами и путями до файлов.
- Проверяет все дубликаты файлов и не обрабатывает их.
- Обновляет файлы если они изменились.
- Пользователь прям из бота может загрузить новый html файл и он попадет в базу.
- И сам RAG , хоть и простенький, но достаточный.
- Пользователь задает вопрос по документациям - бот отвечает исходя из контекста.
Надеюсь этот ад скоро закончится.
С понедельника отпуск и жду его как никогда)
Please open Telegram to view this post
VIEW IN TELEGRAM
Канал то действительно называется SimpleAGI,
Так что сегодня разбираемся, как потрогать RAG и попробовать самому поиграть с Markdown файлами.
Написал проект, с подробными комментариями, ссылками на полезные странички, постарался максимально подробно на примере продемонстрировать работу системы обращения к внешним данным.
Сплиттер,
FAISS,
модель FRIDA,
BM25s,
Ollama,
Столько интересного, мама-мия))
P.S.
Пост и проект сделан по предложению из чата.
Так что заходите и друзей приглашайте)
GitHub
Так что сегодня разбираемся, как потрогать RAG и попробовать самому поиграть с Markdown файлами.
Написал проект, с подробными комментариями, ссылками на полезные странички, постарался максимально подробно на примере продемонстрировать работу системы обращения к внешним данным.
Сплиттер,
FAISS,
модель FRIDA,
BM25s,
Ollama,
Столько интересного, мама-мия))
P.S.
Пост и проект сделан по предложению из чата.
Так что заходите и друзей приглашайте)
GitHub
GitHub
GitHub - nikitaCodeSave/SimpleAgi_RAG
Contribute to nikitaCodeSave/SimpleAgi_RAG development by creating an account on GitHub.
Тут важное обновление вышло у Google Gemini.
Если у вас есть какие-то сложные задачи или объемные, то попробуйте.
Я пока что очень доволен.
Ну и жду, когда в VSCode перестанет 500 ошибка на gemini выпадать за 30 баксов в месяц)
Если у вас есть какие-то сложные задачи или объемные, то попробуйте.
Я пока что очень доволен.
Ну и жду, когда в VSCode перестанет 500 ошибка на gemini выпадать за 30 баксов в месяц)
Gemini
Google Gemini
Gemini is your personal, proactive, and powerful AI assistant from Google. Try it for free to help with work, school, and at home for whatever inspires you.
На днях вышла Qwen3-Embedding-0.6B,
Весит 1.2 Гб
Решил сравнить её с топовой моделью для русского языка: FRIDA
Весит 3 Гб
Сравнивал на своем датасете из юридический, банковских, законодательных статьях.
Результат интересен, хоть и выборка не очень большая.
Единственное ограничение - Qwen показывает хорошие результаты только с flash_attention_2, а его не на каждую машину получится поставить
Весит 1.2 Гб
Решил сравнить её с топовой моделью для русского языка: FRIDA
Весит 3 Гб
Сравнивал на своем датасете из юридический, банковских, законодательных статьях.
Результат интересен, хоть и выборка не очень большая.
Единственное ограничение - Qwen показывает хорошие результаты только с flash_attention_2, а его не на каждую машину получится поставить
Собрал системную инструкцию для агентов в IDE.
Чисто питонячая и, как по мне, рабочая.
Кажись уже нет большой разницы на каком языке взаимодействовать с моделями, так что на русском языке.
Если кто будет пробовать, оставьте отзыв, мне прям интересно!👍
GitHub
Чисто питонячая и, как по мне, рабочая.
Кажись уже нет большой разницы на каком языке взаимодействовать с моделями, так что на русском языке.
Если кто будет пробовать, оставьте отзыв, мне прям интересно!
GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Instruction_copilot/big_python_06_2025.md at main · nikitaCodeSave/Instruction_copilot
Описания инструкция для работы с проектом используя агента - nikitaCodeSave/Instruction_copilot
как-то очень тяжело с теорией дообучения моделей.
Надеюсь, что какая-то часть информации в голове сохранится.
Ну и хочется верить, что лучше учиться,
чем Не учиться😐
Надеюсь, что какая-то часть информации в голове сохранится.
Ну и хочется верить, что лучше учиться,
чем Не учиться
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.youtube.com/live/0_DjDdfqtUE
Трансляция APPLE по своим продуктам. Потенциально должны представить собственную LLM.
Может быть интересно.
Ставлю на то, что бесполезно)
Трансляция APPLE по своим продуктам. Потенциально должны представить собственную LLM.
Может быть интересно.
Ставлю на то, что бесполезно)
YouTube
WWDC 2025 — June 9 | Apple
Get a sleek peek at what’s to come this WWDC. This year’s week of technology, community, and creativity with developers across the world kicks off on June 9 at 10 a.m. PT. Set a reminder, turn on your notifications, and we’ll send you an update before the…
Моя, в определенном смысле гордость.
Скрипт для выгрузки проекта в единый markdown файл.
Чем это полезно?
- Ты можешь собрать весь свой проект и грузануть в любую LLM которая поможет тебе в нем разобраться и завайбкодиться по самые уши.
Так же можно использовать и для других проектов, в которых нужно разобраться.
Вряд ли это из "Simple", но это безумно полезно
https://github.com/nikitaCodeSave/save_project_for_vibe/blob/main/create_all_repo_md.py
Скрипт для выгрузки проекта в единый markdown файл.
Чем это полезно?
- Ты можешь собрать весь свой проект и грузануть в любую LLM которая поможет тебе в нем разобраться и завайбкодиться по самые уши.
Так же можно использовать и для других проектов, в которых нужно разобраться.
Вряд ли это из "Simple", но это безумно полезно
https://github.com/nikitaCodeSave/save_project_for_vibe/blob/main/create_all_repo_md.py
GitHub
save_project_for_vibe/create_all_repo_md.py at main · nikitaCodeSave/save_project_for_vibe
Contribute to nikitaCodeSave/save_project_for_vibe development by creating an account on GitHub.
SimpleAGI
Канал то действительно называется SimpleAGI, Так что сегодня разбираемся, как потрогать RAG и попробовать самому поиграть с Markdown файлами. Написал проект, с подробными комментариями, ссылками на полезные странички, постарался максимально подробно на примере…
В продолжение к исходному Двухступенчатому RAG,
Который рассмотрели в прошлый раз, написал чуть обновленную версию уже с полноценной логикой гибридного поиска.
Разница в том, что результаты векторного и полнотекстового поиска определяются параллельно, на выбор по двум логикам:
RRF фокус на ранги(места в топе) по двум подходам и определяет итоговый top_k чанков.
Взвешенное суммирование расстояний(преобразованных) - суммируются Скоры по каждому поиску и ранжируется уже исходя из финального скора.
Всё так же много комментариев, пояснений.
Размещен в соседней ветке, так что можно прыгать от базовой версии к гибриду.
GitHub
Который рассмотрели в прошлый раз, написал чуть обновленную версию уже с полноценной логикой гибридного поиска.
Разница в том, что результаты векторного и полнотекстового поиска определяются параллельно, на выбор по двум логикам:
RRF фокус на ранги(места в топе) по двум подходам и определяет итоговый top_k чанков.
Взвешенное суммирование расстояний(преобразованных) - суммируются Скоры по каждому поиску и ранжируется уже исходя из финального скора.
Всё так же много комментариев, пояснений.
Размещен в соседней ветке, так что можно прыгать от базовой версии к гибриду.
GitHub
GitHub
GitHub - nikitaCodeSave/SimpleAgi_RAG at hybrid-search
Contribute to nikitaCodeSave/SimpleAgi_RAG development by creating an account on GitHub.
SimpleAGI
Собрал системную инструкцию для агентов в IDE. Чисто питонячая и, как по мне, рабочая. Кажись уже нет большой разницы на каком языке взаимодействовать с моделями, так что на русском языке. Если кто будет пробовать, оставьте отзыв, мне прям интересно!👍 GitHub
Очередное обновление промпта для агентов в IDE, попытка найти тот самый, чтоб агент помогал решать проблемы, а не создавал новые)
Новый подход с отсылками на топовые модели и общие, но важные правила.
В целом, выглядит, как плакат в опенспейсе)
GitHub
Новый подход с отсылками на топовые модели и общие, но важные правила.
В целом, выглядит, как плакат в опенспейсе)
GitHub
GitHub
Instruction_copilot/rus_python_10-06-2025.md at main · nikitaCodeSave/Instruction_copilot
Описания инструкция для работы с проектом используя агента - nikitaCodeSave/Instruction_copilot
Сегодня завершились все круги ада по повышению Грейда на работе.
Вроде бы я рад, но утверждение данного повышения, внимание(!!!), 3 месяца.
Эх бюрократия бюрократичная)
Вроде бы я рад, но утверждение данного повышения, внимание(!!!), 3 месяца.
Эх бюрократия бюрократичная)
Надеюсь, что в канале есть весомая часть действительно далеких от глубин AI и со стороны наблюдающих.
Есть популярное в медиа мнение, что AI могут заменить работников, перестроить экономику и избавиться от слоев профессий.
Я понимаю из-за чего появляются такие новости, и как влияют кликбейтные новости на людей.
Но задница моя горит и ничего с этим не поделать.
Система мульти-агентов, которые совершают взаимодействие между моделями и совершают рабочие сценарии в роли каких-либо работников - по факту, в данный момент миф.
Огромное количество компаний автоматизирует бизнес процессы, но основная цель этой автоматизации - повысить производительность отделов, но никак не заменить.
Всё, что пытается заменить человека в b2b сфере идет в ногу с потерей стабильности и качества. Люди всё так же нужны и будут нужны в любой профессии, только лишь появляются новые инструменты для повышения КПД деятельности.
Такое развитие технологий усложняет ли поиск работы ?
Вероятно - да. Нужно набираться навыков взаимодействия с этой технологией и изучить на базовом уровне, как работать и увеличивать свою продуктивность.
Но не более того.
Из любопытного:
Разработка автоматизации решений конкретного бизнеса под замену отделов сотрудников будет стоить многих годовых расходов на "людей" и не со 100% вероятностью будет успех.
Да и такие попытки могут себе позволить только мировые гиганты.
Как правило, мы не работаем в таких компаниях, хоть и очень хочется)
То, с какими проблемами встречаются разработчики, пытаясь применить новые технологии - это кринж и смех, так что делите на 100 всё, что читаете в новостях.
Есть популярное в медиа мнение, что AI могут заменить работников, перестроить экономику и избавиться от слоев профессий.
Я понимаю из-за чего появляются такие новости, и как влияют кликбейтные новости на людей.
Но задница моя горит и ничего с этим не поделать.
Система мульти-агентов, которые совершают взаимодействие между моделями и совершают рабочие сценарии в роли каких-либо работников - по факту, в данный момент миф.
Огромное количество компаний автоматизирует бизнес процессы, но основная цель этой автоматизации - повысить производительность отделов, но никак не заменить.
Всё, что пытается заменить человека в b2b сфере идет в ногу с потерей стабильности и качества. Люди всё так же нужны и будут нужны в любой профессии, только лишь появляются новые инструменты для повышения КПД деятельности.
Такое развитие технологий усложняет ли поиск работы ?
Вероятно - да. Нужно набираться навыков взаимодействия с этой технологией и изучить на базовом уровне, как работать и увеличивать свою продуктивность.
Но не более того.
Из любопытного:
Разработка автоматизации решений конкретного бизнеса под замену отделов сотрудников будет стоить многих годовых расходов на "людей" и не со 100% вероятностью будет успех.
Да и такие попытки могут себе позволить только мировые гиганты.
Как правило, мы не работаем в таких компаниях, хоть и очень хочется)
То, с какими проблемами встречаются разработчики, пытаясь применить новые технологии - это кринж и смех, так что делите на 100 всё, что читаете в новостях.