Forwarded from Нескучный Data Science (Евгений Смирнов)
Media is too big
VIEW IN TELEGRAM
🔥 10 правил: как проектировать LLM-приложение
Недостаточно просто взять одну хорошую LLM для того чтобы построить полноценный продукт, так вы получите дорогую негибкую и ненадежную черную коробку. @vikulin_ai рассказывает, как правильно дизайнить решения с LLM чтобы нивелировать вышеперечисленные проблемы.
Ключевые советы:
1️⃣ Выберите архитектуру решения: ml workflow или агенты.
2️⃣ Всегда используйте RAG.
3️⃣ Используйте structed output.
4️⃣ Применяйте все фичи поисковых движков в retrive-части RAGа - не ограничивайтесь эмбеддингами.
5️⃣ Сделайте лучшие метрики качества.
6️⃣ Обрабатывайте экстремально плохие кейсы при помощи GurdRails.
7️⃣ Вставляйте агентов, где важно итеративно подумать.
8️⃣ Реализуйте механизм доспрашивания что справляться с неполными или неточными вопрос.
9️⃣ Дистиллируйте LLM чтобы оптимально использовать ресурсы.
1️⃣ 0️⃣ Оркестрируйте различные по сложности модели для экономии ресурсов.
👉 Порекомендовал своей команде посмотреть конференцию True Tech Day в рабочее время, сам смотрю на выходных, советую и вам, ведь многие доклады топ и доступны в записи.
Ставьте 🔥 , если вам зашло выступление так же, как и мне и если вы хотите видеть больше топовых докладов в канале.
Недостаточно просто взять одну хорошую LLM для того чтобы построить полноценный продукт, так вы получите дорогую негибкую и ненадежную черную коробку. @vikulin_ai рассказывает, как правильно дизайнить решения с LLM чтобы нивелировать вышеперечисленные проблемы.
Ключевые советы:
👉 Порекомендовал своей команде посмотреть конференцию True Tech Day в рабочее время, сам смотрю на выходных, советую и вам, ведь многие доклады топ и доступны в записи.
Ставьте 🔥 , если вам зашло выступление так же, как и мне и если вы хотите видеть больше топовых докладов в канале.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Вячеслав Колосков
2. Ну RAG точно не всегда нужен для продуктов с LLM.
3. Тоже не всегда нужен. А может и вреден в некоторых случаях - вроде как SO влияет на когнетивные способности модели.
4. Не все фичи одинаково полезны. Не надо их все врубать только потому что можете.
9. Нельзя делать оптимизацию ради оптимизации. Дистиляция делает модель тупее, это надо учитывать (а лучше проверять на тестах).
10. Чем сложнее система тем выше вероятность ошибки.
3. Тоже не всегда нужен. А может и вреден в некоторых случаях - вроде как SO влияет на когнетивные способности модели.
4. Не все фичи одинаково полезны. Не надо их все врубать только потому что можете.
9. Нельзя делать оптимизацию ради оптимизации. Дистиляция делает модель тупее, это надо учитывать (а лучше проверять на тестах).
10. Чем сложнее система тем выше вероятность ошибки.
Forwarded from Neural Kovalskii
MCP от Anthropic: почему я не рекомендую его для production (и что использовать вместо)
Я делаю не только RAG! Мнение сформировалось в процессе экспериментов
За часть инфы спасибо Deep Research!
Я снова вижу большое количество обсуждений новых "крутых" MCP-серверов для тех или иных решений - будь то Telegram-клиент (кстати хороший контент) или очередной сервер к Figma и снова наводит на мысли и вот какие они
И каждый раз думаю: ребят, а вы понимаете, что строите?
Маркетинг vs реальность
Anthropic обещает в своем первом принте
"universal, open standard for connecting AI systems with data sources"
"replacing fragmented integrations with a single protocol"
Enterprise-партнеры типа Block и Apollo
А на практике получается:
Из 5286 MCP-серверов на Glama.ai реально работают единицы
Даже топовые серверы типа Vizro от McKinsey имеют свыше 200+ открытых багов
Официальный MCP SDK тоже 200+ открытых issues
На Reddit пишут: "Единственный рабочий клиент - Claude Desktop, это не универсальное решение, а расширение экосистемы Anthropic"
Consumer vs Enterprise: где проходит красная линия
Вот тут я понял главное различие!
В consumer-сценариях MCP работает:
Пользователь просто повторит запрос, если что-то сломалось
Ошибка = неудобство, но не потеря денег
Локальные файлы, персональные данные
"Поиграться с новой технологией"
В enterprise MCP убивает все:
2-5% ошибок = недопустимо для production
Каждый сбой = потеря выручки, репутации, данных
Нужны SLA, мониторинг, аудит безопасности
Требуется интеграция в существующую инфраструктуру
Что говорят разработчики из траншей(собирал диприсерч)
На Hacker News один участник жалуется: "MCP слишком сложен, требует специальных средств отладки и фактически дублирует функционал обычного REST API"
Другой тут же делится опытом: "Справился со своей задачей быстрее, просто предоставив LLM спецификацию OpenAPI - без MCP"
Один разработчик написал, что для запуска MCP-серверов в Docker ему пришлось подключить 100 путей и бандлить 1000+ зависимостей - система превратилась в "ужасное решение"
Еще одно мнение владельца канала https://t.me/llm_under_hood
Статистика проблем MCP
CData отмечает: "MCP не предлагает полноценных механизмов обработки ошибок"
SSE-соединения делают протокол stateful - это убивает горизонтальное масштабирование
Один комментатор на Hacker News: "непонятные ошибки, доводящие до истерики, и постоянно меняющиеся документы"
Что работает надежно
REST API + structured output = 0.1-0.5% error rate
HTTP статус-коды, привычная отладка
Интеграция в CI/CD за часы, а не недели
Мой вердикт после глубокого анализа
Согласно исследованию, MCP пока что остается "технологией для потребительских и экспериментальных сценариев".
Для быстрых прототипов и личных проектов - MCP может быть интересен
Для серьезного бизнеса - лучше идти проверенными путями: REST API + LLM с structured output
Важно на старте детально разобраться и не бежать на волне хайпа!
А как у вас дела с MCP?
- Кто пробовал в production?
- Сталкивались с багами из моего списка?
- Или может есть success stories?
Хочется честного обсуждения без фанбойства и хайпа. Поделитесь реальным опытом (желательно в прод!)
Я делаю не только RAG! Мнение сформировалось в процессе экспериментов
За часть инфы спасибо Deep Research!
Я снова вижу большое количество обсуждений новых "крутых" MCP-серверов для тех или иных решений - будь то Telegram-клиент (кстати хороший контент) или очередной сервер к Figma и снова наводит на мысли и вот какие они
И каждый раз думаю: ребят, а вы понимаете, что строите?
Маркетинг vs реальность
Anthropic обещает в своем первом принте
"universal, open standard for connecting AI systems with data sources"
"replacing fragmented integrations with a single protocol"
Enterprise-партнеры типа Block и Apollo
А на практике получается:
Из 5286 MCP-серверов на Glama.ai реально работают единицы
Даже топовые серверы типа Vizro от McKinsey имеют свыше 200+ открытых багов
Официальный MCP SDK тоже 200+ открытых issues
На Reddit пишут: "Единственный рабочий клиент - Claude Desktop, это не универсальное решение, а расширение экосистемы Anthropic"
Consumer vs Enterprise: где проходит красная линия
Вот тут я понял главное различие!
В consumer-сценариях MCP работает:
Пользователь просто повторит запрос, если что-то сломалось
Ошибка = неудобство, но не потеря денег
Локальные файлы, персональные данные
"Поиграться с новой технологией"
В enterprise MCP убивает все:
2-5% ошибок = недопустимо для production
Каждый сбой = потеря выручки, репутации, данных
Нужны SLA, мониторинг, аудит безопасности
Требуется интеграция в существующую инфраструктуру
Что говорят разработчики из траншей(собирал диприсерч)
На Hacker News один участник жалуется: "MCP слишком сложен, требует специальных средств отладки и фактически дублирует функционал обычного REST API"
Другой тут же делится опытом: "Справился со своей задачей быстрее, просто предоставив LLM спецификацию OpenAPI - без MCP"
Один разработчик написал, что для запуска MCP-серверов в Docker ему пришлось подключить 100 путей и бандлить 1000+ зависимостей - система превратилась в "ужасное решение"
Еще одно мнение владельца канала https://t.me/llm_under_hood
Я скорее про то, что MCP реализация - это что-то такое простое, наглядное и просто интегрируемое. Бери, вставляй в своего клиента и запускай.
Особенно, если сейчас сделают удобно это вставлять в n8n и всякие чатики. Настолько удобно, что любой сможет накликать.
И потом можно представить себе, насколько много будет запросов
Вот я тут настроил работающий чат с MCP для Google Docs & Salesforce. Он автоматом принимает запросы от пользователей в чате, уточняет в моих прайсах и заводит им заказ. Все работает почти хорошо, только чуть-чуть допилить осталось - иногда глючит, я же не программист. Тут работы всего на день. Кто сделает?
я думаю, что пройдет несколько месяцев и до людей начнет доходить, что MCP Servers - это как LangChain, только вид сбоку)
Статистика проблем MCP
CData отмечает: "MCP не предлагает полноценных механизмов обработки ошибок"
SSE-соединения делают протокол stateful - это убивает горизонтальное масштабирование
Один комментатор на Hacker News: "непонятные ошибки, доводящие до истерики, и постоянно меняющиеся документы"
Что работает надежно
REST API + structured output = 0.1-0.5% error rate
HTTP статус-коды, привычная отладка
Интеграция в CI/CD за часы, а не недели
Мой вердикт после глубокого анализа
Согласно исследованию, MCP пока что остается "технологией для потребительских и экспериментальных сценариев".
Для быстрых прототипов и личных проектов - MCP может быть интересен
Для серьезного бизнеса - лучше идти проверенными путями: REST API + LLM с structured output
Важно на старте детально разобраться и не бежать на волне хайпа!
А как у вас дела с MCP?
- Кто пробовал в production?
- Сталкивались с багами из моего списка?
- Или может есть success stories?
Хочется честного обсуждения без фанбойства и хайпа. Поделитесь реальным опытом (желательно в прод!)
Forwarded from Neural Kovalskii
Vibe Coding Notes
Сегодня я собрал для вас подборку постов, на мой взгляд самую лучшую прокопку реальных кейсов AI кодинга
Как и в случае с нашими тестами RTX 4090, где я выжимаю максимум производительности, эти материалы помогут вам эффективно использовать AI-инструменты в работе
Внутри: практические советы по Cursor, реальные кейсы автоматизации, нестандартные применения AI-инструментов, рабочие workflow и обзоры инструментов типа Stitch, Context7 и Lovable.
Каждый автор делится тем, что сам использует в работе. Никакой воды - только то, что реально экономит время и решает задачи.
-Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии
- Vibe Cursor Coding
- AI / Vibe coding - советы и best practices
- Как получилось, что юристы используют среду для разработчиков?
- Stitch: от вайб-кодинга к вайб-дизайну и обратно
- Как я бросил курсорить и начал шотганить
- Context7 — один из лучших инструментов для AI-разработки
- Топовый AI Coding Workflow: Cursor & AI Studio
- Как Cursor AI превращает текст в готовые макеты Figma
- Простое веб-приложение за 30 минут с помощью Lovable
Если материал зайдет - подписывайтесь на авторов. Я сам читаю каждого из них и рекомендую
Сегодня я собрал для вас подборку постов, на мой взгляд самую лучшую прокопку реальных кейсов AI кодинга
Как и в случае с нашими тестами RTX 4090, где я выжимаю максимум производительности, эти материалы помогут вам эффективно использовать AI-инструменты в работе
Внутри: практические советы по Cursor, реальные кейсы автоматизации, нестандартные применения AI-инструментов, рабочие workflow и обзоры инструментов типа Stitch, Context7 и Lovable.
Каждый автор делится тем, что сам использует в работе. Никакой воды - только то, что реально экономит время и решает задачи.
-Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии
- Vibe Cursor Coding
- AI / Vibe coding - советы и best practices
- Как получилось, что юристы используют среду для разработчиков?
- Stitch: от вайб-кодинга к вайб-дизайну и обратно
- Как я бросил курсорить и начал шотганить
- Context7 — один из лучших инструментов для AI-разработки
- Топовый AI Coding Workflow: Cursor & AI Studio
- Как Cursor AI превращает текст в готовые макеты Figma
- Простое веб-приложение за 30 минут с помощью Lovable
Если материал зайдет - подписывайтесь на авторов. Я сам читаю каждого из них и рекомендую
Forwarded from Варим МЛ
Недавно прочитал очень крутую темку - The Ultra-Scale Playbook: Training LLMs on GPU Clusters от HuggingFace. Чтиво долгое, так что подготовил выжимку на русском, чтоб было понятно, надо ли вам тратить время на оригинал.
#Жека #llm #machinelearning
#Жека #llm #machinelearning
Telegraph
Обучаем LLM на GPU-кластерах
Наткнулся на очень крутую вещь - The Ultra-Scale Playbook: Training LLMs on GPU Clusters. Если вам интересны темы оптимизации обучения нейронок, внутренностей Пайторча, параллелизации обучения LLM - рекомендую прочитать целиком. Здесь я подготовил краткую…
Forwarded from дAI потестить!
Все знают что такое FFMPEG?
Если в двух словах, это монтажка из консоли. Установка здесь.
Как мне FFMPEG упрощает жизнь:
Достать первый кадр (использую при инпэйнте видео или его стилизации)
Разбить видео на кадры png (можно покадрово поправить в фотошопе)
Собрать png в видео (после правок вернуть все как было)
Изменить разрешение на HD
Удаляем повторяющиеся кадры (иногда генераторы видео выдают не правдивый fps. Кадры дублируются. Чтобы убрать лишнее я использую эту команду, и повышаю fps в Topaz )
Вырезаем кусок видео
#tips
Если в двух словах, это монтажка из консоли. Установка здесь.
Как мне FFMPEG упрощает жизнь:
Достать первый кадр (использую при инпэйнте видео или его стилизации)
ffmpeg -i input.mp4 -frames:v 1 output.png
Разбить видео на кадры png (можно покадрово поправить в фотошопе)
ffmpeg -i input.mp4 frame%05d.png
Собрать png в видео (после правок вернуть все как было)
ffmpeg -framerate 25 -i %5d.png -c:v libx264 -r 25 output.mp4
Изменить разрешение на HD
ffmpeg -i 1.mp4 -s 1280x720 result.mp4
Удаляем повторяющиеся кадры (иногда генераторы видео выдают не правдивый fps. Кадры дублируются. Чтобы убрать лишнее я использую эту команду, и повышаю fps в Topaz )
ffmpeg -i 1.mp4 -vf mpdecimate,setpts=N/25/TB -an 2.mp4
Вырезаем кусок видео
ffmpeg -i <source.mp4> -ss hh:mm:ss.mss -to hh:mm:ss.mss -c copy <cut.mp4>
#tips
Forwarded from дAI потестить!
Генерируем картинки бесплатно в https://app.ltx.studio/
Хотел скачать новую модель LTX Video и случайно попал на сайт app.ltx.studio. А там так много интересного.
1. Теперь можно тренировать своих персонажей в видео (но за деньги 😢)
2. Можно анимировать лица (похоже это https://github.com/KwaiVGI/LivePortrait )
3. Анимировать картинки при помощи LTX (ну про качесвто ltx вы сами все знаете😊)
4. И даже есть комплексный пайплайн, как имея лишь идею "снять" нейрофильм.
Короче, целый завод по производству нейроконтента отвратительного качества 😊😊 .
Но что действительно заинтересовало, это модель txt2img.
Потестить можно тут https://app.ltx.studio/image-workspace.
Это скорее всего не Flux, не Ideogram, не SD 3.5. Что то свое?
С анатомией беда, но лица и стилистика понравились. Флюксодевочек не ждите😂.
По поводу цены. Дают 3600 секунд компьюта в месяц, и похоже этого может хватить на долго😊😊.
P.S. Делитесь в комментах что получается. Я тестил только на портретах🧐
#imggen
Хотел скачать новую модель LTX Video и случайно попал на сайт app.ltx.studio. А там так много интересного.
1. Теперь можно тренировать своих персонажей в видео (но за деньги 😢)
2. Можно анимировать лица (похоже это https://github.com/KwaiVGI/LivePortrait )
3. Анимировать картинки при помощи LTX (ну про качесвто ltx вы сами все знаете😊)
4. И даже есть комплексный пайплайн, как имея лишь идею "снять" нейрофильм.
Короче, целый завод по производству нейроконтента отвратительного качества 😊😊 .
Но что действительно заинтересовало, это модель txt2img.
Потестить можно тут https://app.ltx.studio/image-workspace.
Это скорее всего не Flux, не Ideogram, не SD 3.5. Что то свое?
С анатомией беда, но лица и стилистика понравились. Флюксодевочек не ждите😂.
По поводу цены. Дают 3600 секунд компьюта в месяц, и похоже этого может хватить на долго😊😊.
P.S. Делитесь в комментах что получается. Я тестил только на портретах
#imggen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Тимлид Очевидность | Евгений Антонов
Планирование и люди
Если вы работаете в крупной или средней компании, то вы, возможно, имеете дело с квартальным или полугодовым планированием.
То есть трудитесь не в режиме «каждую неделю что-то новое, поэтому тушим, где загорелось», а «пообещайте N добрых дел на ближайшие 3–6 месяцев и уложитесь в сроки и цифры».
А ещё у вас там может быть перформанс-ревью, результат которого влияет на премию сотрудника и, в некоторой мере, его карьерные возможности.
Здесь мне есть что посоветовать начинающим руководителям, которые в такую систему погружаются. Тут нужно найти тонкий баланс между бизнесом и людьми.
Распределить задачи эффективно
Не для всех ваших сотрудников (даже если они одного грейда) одинаково хорошо подойдут любые задачи. Если вы хорошо знаете, кто из ваших ребят над чем лучше работает, вы сможете осуществить через свою команду сильно больше планов, а при этом люди будут задолбаны намного меньше.
Кто-то умеет хорошо погружаться в технические дебри, кто-то, наоборот, вширь знает все ваши сервисы, кто-то может легко договориться со смежниками, кто-то хорошо работает один, кому-то, напротив, нужен напарник, а кого-то демотивирует определенный тип задач.
Хорошо понимая всё это, вы можете и эффективно распределить задачи, и постараться в планах равномерно учесть нагрузку на исполнителей. Не попасть в ситуацию, где все задачи наиболее подходят только части команды.
Учесть потребности людей
У людей могут быть свои пожелания по задачам.
Например, кто-то педалил долгую и нудную задачу много месяцев. Он в этом специалист, но сейчас ему надо отдохнуть, переключиться.
Или кому-то страсть как захотелось карьерного роста, и он ищет чего-то амбициозного, какого-то вызова, масштаба.
А кто-то захотел притормозить, и ему бы сейчас спокойно поработать.
Подобрать возможности для роста
Неоднократно ко мне приходили за консультацией люди из разных бигтехов, которые рассказывали примерно одну и ту же историю: они хотят расти, но руководитель им выдает задачи, которые не то что на нормальную оценку на перф-ревью не тянут, но даже заранее декларируется, что эти полгода предлагается работать, а в конце получить пониженную оценку и урезанную премию.
Так что я считаю важным, чтобы у тимлида был план не только на нормальный перформанс для каждого сотрудника, но и резервные планы: если у человека будет много сил, желания, мотивации пооверперформить, что ему такого выдать, чтобы потом оно нормально зачлось, а не ушло в похлопывание по плечу.
Не заколебать
Ну и очередной очевидный совет для опытных ребят, но тоже нередко видел эту проблему. Люди планируют по оптимистичному сценарию и не закладывают никакого буфера на пожары и неопределенности.
В результате у такого руководителя, чтобы получить оценку «нормально», надо жестко педалить, овертаймить и выпрыгивать из портков.
Итог
В системах с планированием и перф-ревью хорошему тимлиду нужно уметь балансировать на двух, так сказать, стульях. Необходимо покрыть нужды бизнеса, но при этом и соблюсти правильное распределение задач в команде, исходя из личных особенностей, мотивов и чаяний сотрудников.
Тогда и компания будет довольна, и люди, и вы сами как руководитель будете чувствовать себя хорошо (лично я так чувствую).
Если вы работаете в крупной или средней компании, то вы, возможно, имеете дело с квартальным или полугодовым планированием.
То есть трудитесь не в режиме «каждую неделю что-то новое, поэтому тушим, где загорелось», а «пообещайте N добрых дел на ближайшие 3–6 месяцев и уложитесь в сроки и цифры».
А ещё у вас там может быть перформанс-ревью, результат которого влияет на премию сотрудника и, в некоторой мере, его карьерные возможности.
Здесь мне есть что посоветовать начинающим руководителям, которые в такую систему погружаются. Тут нужно найти тонкий баланс между бизнесом и людьми.
Распределить задачи эффективно
Не для всех ваших сотрудников (даже если они одного грейда) одинаково хорошо подойдут любые задачи. Если вы хорошо знаете, кто из ваших ребят над чем лучше работает, вы сможете осуществить через свою команду сильно больше планов, а при этом люди будут задолбаны намного меньше.
Кто-то умеет хорошо погружаться в технические дебри, кто-то, наоборот, вширь знает все ваши сервисы, кто-то может легко договориться со смежниками, кто-то хорошо работает один, кому-то, напротив, нужен напарник, а кого-то демотивирует определенный тип задач.
Хорошо понимая всё это, вы можете и эффективно распределить задачи, и постараться в планах равномерно учесть нагрузку на исполнителей. Не попасть в ситуацию, где все задачи наиболее подходят только части команды.
Учесть потребности людей
У людей могут быть свои пожелания по задачам.
Например, кто-то педалил долгую и нудную задачу много месяцев. Он в этом специалист, но сейчас ему надо отдохнуть, переключиться.
Или кому-то страсть как захотелось карьерного роста, и он ищет чего-то амбициозного, какого-то вызова, масштаба.
А кто-то захотел притормозить, и ему бы сейчас спокойно поработать.
Подобрать возможности для роста
Неоднократно ко мне приходили за консультацией люди из разных бигтехов, которые рассказывали примерно одну и ту же историю: они хотят расти, но руководитель им выдает задачи, которые не то что на нормальную оценку на перф-ревью не тянут, но даже заранее декларируется, что эти полгода предлагается работать, а в конце получить пониженную оценку и урезанную премию.
Так что я считаю важным, чтобы у тимлида был план не только на нормальный перформанс для каждого сотрудника, но и резервные планы: если у человека будет много сил, желания, мотивации пооверперформить, что ему такого выдать, чтобы потом оно нормально зачлось, а не ушло в похлопывание по плечу.
Не заколебать
Ну и очередной очевидный совет для опытных ребят, но тоже нередко видел эту проблему. Люди планируют по оптимистичному сценарию и не закладывают никакого буфера на пожары и неопределенности.
В результате у такого руководителя, чтобы получить оценку «нормально», надо жестко педалить, овертаймить и выпрыгивать из портков.
Итог
В системах с планированием и перф-ревью хорошему тимлиду нужно уметь балансировать на двух, так сказать, стульях. Необходимо покрыть нужды бизнеса, но при этом и соблюсти правильное распределение задач в команде, исходя из личных особенностей, мотивов и чаяний сотрудников.
Тогда и компания будет довольна, и люди, и вы сами как руководитель будете чувствовать себя хорошо (лично я так чувствую).
Forwarded from .ml
Многие компании сёрвят LLM
Кто-то использует готовые инструменты, которые предоставляют OpenAI-compatible эндпоинты: например, DeepSeek, развёрнутый через vllm serve. Кому-то не хватает OpenAI-compatible протокола. А кому-то хочется и того, и другого — например, нам в Точке.
Это непростая инженерная задача, которую нам пришлось решать. Вот мы и написали статью о том, как поднимали свою LLM-инфраструктуру. Текст исключительно инженерный и больше про дизайн всей системы целиком, чем про, например, наши внутренние патчи в популярный фреймворк vllm.
Читайте, комментируйте и рассказывайте, как у вас дела с LLM!
Кто-то использует готовые инструменты, которые предоставляют OpenAI-compatible эндпоинты: например, DeepSeek, развёрнутый через vllm serve. Кому-то не хватает OpenAI-compatible протокола. А кому-то хочется и того, и другого — например, нам в Точке.
С одной стороны, мы хотим уметь ходить в LLM-провайдеры, которые поддерживают общепринятый формат. А с другой стороны у нас есть внутренняя LLM, которую нельзя полностью совместить с OpenAI-протоколом, потому что она поддерживает дополнительные виды контента внутри сообщений и ещё много других плюшек(про них тоже как-нибудь расскажем 👀) .
Это непростая инженерная задача, которую нам пришлось решать. Вот мы и написали статью о том, как поднимали свою LLM-инфраструктуру. Текст исключительно инженерный и больше про дизайн всей системы целиком, чем про, например, наши внутренние патчи в популярный фреймворк vllm.
Читайте, комментируйте и рассказывайте, как у вас дела с LLM!