Ну а пока топовые перцентили замерли в ожидании предстоящей трансляции OpenAI, вернемся к нашим баранам. Я уже упоминал чатик LLM под капотом и парадигму Knowledge Map (knowledge map — это про построение эффективных RAG систем), которая там активно пропагандируется. Недавно удалось побывать (к сожалению, большую часть удалось послушать только в записи) на семинаре по этой теме. Семинар платный, поэтому я не буду забирать хлеб у авторов и расписывать все фишки, остановлюсь только на общих моментах.
Как мне кажется, ядро концепции в том, где находится точка сборки (привет Кастанеде). Обычно инженеры исходят из технологии и думают, как бизнес-задачу впихнуть в уже существующий стек. Если задача решается не очень хорошо, пробуем усложнить нашу технологию. Например, если наивный RAG дал течь, закидываем в него дополнительные плюшки в виде разных стратегий чанкинга, реранка, тюна векторайзера и так далее. Это даже может сработать и повысить метрики (особенно если вы их сами и подобрали). Но можно пойти и другим путем: во главу угла поставить бизнес и трансформировать саму технологию.
Кажется, что это то же самое, только в профиль, но нет. В первом подходе мы копаемся в технологии, во втором — в бизнес-процессе. Для инженера это бывает тяжко, так как надо из тонкого мира лосов и тензоров упасть в грешный мир человеческих страстей.
Еслидолго смотреть в бездну общаться с бизнесом, то базовая интуиция knowledge map формируется сама собой. Для одного нашего внутреннего клиента я как-то наклепал модельку по лекалам knowledge map и даже придумал название — enhanced retrieval. Правда, не дошел до понимания, что такой подход можно масштабировать практически для любой задачи. В общем, спасибо Ринату за семинар, было полезно, для себя нашел много интересных идей.
Как мне кажется, ядро концепции в том, где находится точка сборки (привет Кастанеде). Обычно инженеры исходят из технологии и думают, как бизнес-задачу впихнуть в уже существующий стек. Если задача решается не очень хорошо, пробуем усложнить нашу технологию. Например, если наивный RAG дал течь, закидываем в него дополнительные плюшки в виде разных стратегий чанкинга, реранка, тюна векторайзера и так далее. Это даже может сработать и повысить метрики (особенно если вы их сами и подобрали). Но можно пойти и другим путем: во главу угла поставить бизнес и трансформировать саму технологию.
Кажется, что это то же самое, только в профиль, но нет. В первом подходе мы копаемся в технологии, во втором — в бизнес-процессе. Для инженера это бывает тяжко, так как надо из тонкого мира лосов и тензоров упасть в грешный мир человеческих страстей.
Если
Итак, долгожданный релиз состоялся. Грег Брокман в кожанке (видимо, отжал её у Дженсена Хуанга) продемонстрировал голосовые возможности новой модельки. Что ж, очень впечатляет, работникам колл-центров точно стоит напрячься. Все необходимые элементы для создания терминаторов теперь в наличии, осталось напечатать баблишко и начать строить заводы.
Кстати, о деньгах. Люди задаются вопросом, как же теперь OpenAI будет зарабатывать, если лучшая модель доступна бесплатно. Будут зарабатывать на апишке, тем более после такого вкусного релиза количество желающих автоматизировать всё и вся в своём бизнесе только вырастет. Инсайдеры из долины также сообщают, что в ходе борьбы башен было решено выделить Саме 7 триллионов (правда не 7, а 5), поэтому собирать копейки с подписок вроде как не комильфо, надо работать по-крупному.
Кстати, о деньгах. Люди задаются вопросом, как же теперь OpenAI будет зарабатывать, если лучшая модель доступна бесплатно. Будут зарабатывать на апишке, тем более после такого вкусного релиза количество желающих автоматизировать всё и вся в своём бизнесе только вырастет. Инсайдеры из долины также сообщают, что в ходе борьбы башен было решено выделить Саме 7 триллионов (правда не 7, а 5), поэтому собирать копейки с подписок вроде как не комильфо, надо работать по-крупному.
Случайно натолкнулся на клевый сервис для скрейпинга Jina AI, который упрощает парсинг информации с внешних ресурсов для её подачи в формате, удобном для LLM-ок. Может стать альтернативой красивому супчику, особенно если нужно собрать быстрый прототип.
Фишечки:
Легко: Просто добавьтеводы
Бесплатно: Для доступа по апишке дают 1М бесплатных токенов, просто как ридер работает вообще бесплатно (видимо пока есть баблишко от инвесторов).
Веб-поиск: Можно включить
Можно потыкать ноутбук
Фишечки:
Легко: Просто добавьте
https://r.jina.ai/
к любому url, и получите контент страницы в чистом и удобном формате. Бесплатно: Для доступа по апишке дают 1М бесплатных токенов, просто как ридер работает вообще бесплатно (видимо пока есть баблишко от инвесторов).
Веб-поиск: Можно включить
https://s.jina.ai/
к запросу. Например, если ваш запрос Когда будет релиз gpt-5?
, url будет выглядеть так: https://s.jina.ai/Когда%20будет%20релиз%20gpt-5%3F
. Reader извлекает топ-5 результатов, посещает каждый url и применяет r.jina.ai
к каждому из них. Можно потыкать ноутбук
Были вопросы про раскрытие подробностей подхода knowledge map, как раз подъехал доклад на эту тему от автора:
https://youtu.be/1z9yCZTS73o
https://youtu.be/1z9yCZTS73o
YouTube
Knowledge Maps - как бороться с галлюцинациями в RAG-системах?
Давайте поговорим про борьбу с галлюцинациями в современных RAG системах. Почему возникают галлюцинации, и как нам с ними бороться?
Мы возьмем в качестве примера галлюцинации классическую систему на базе векторной RAG-системы и посмотрим, как она безудержно…
Мы возьмем в качестве примера галлюцинации классическую систему на базе векторной RAG-системы и посмотрим, как она безудержно…
Apple представила свою технологию Apple Intelligence, которая будет интегрирована в различные приложения, включая Siri, и добавила чат-бот OpenAI ChatGPT на свои устройства. Но в процесс неожиданно ворвался товарищ Илон:
Маск предупреждает, что запретит устройства Apple, если OpenAI будет интегрирован на уровне операционной системы
Как и предупреждали классики, по мере продвижения к развитому сингуляризму, классовая борьба будет только усиливаться. Пока мы видим борьбу внутри класса.
https://www.reuters.com/technology/elon-musk-says-he-will-ban-apple-devices-if-it-integrates-os-with-openai-2024-06-10/#:~:text=Musk%20warns%20that%20he%20will,integrated%20at%20operating%20system%20level
Маск предупреждает, что запретит устройства Apple, если OpenAI будет интегрирован на уровне операционной системы
Как и предупреждали классики, по мере продвижения к развитому сингуляризму, классовая борьба будет только усиливаться. Пока мы видим борьбу внутри класса.
https://www.reuters.com/technology/elon-musk-says-he-will-ban-apple-devices-if-it-integrates-os-with-openai-2024-06-10/#:~:text=Musk%20warns%20that%20he%20will,integrated%20at%20operating%20system%20level
Reuters
Apple WWDC 2024: ChatGPT comes to iPhone; 'Apple Intelligence' unveiled
Apple unveiled a long-awaited AI strategy on Monday, integrating its new "Apple Intelligence" technology across its suite of apps including Siri and bringing OpenAI's chatbot ChatGPT to its devices.
Ну а пока тихий шепоток голосом покойного актёра Янковского сообщил нам о релизе Claude 3.5 Sonnet, хочется снова поспекулировать о будущем. У этого прекрасного завтра, на мой взгляд, будет три опоры:
1. ИИ и роботизация. Очевидный тренд, который только набирает обороты, никакой зимы не наблюдается (и даже заморозков), наоборот, в эту топку сейчас собираются с энтузиазмом закидывать триллионы долларов. И да, general пофиксит 95% рабочих мест, а может и все 99%.
2. Космос. Хочется верить в светлые идеалы товарища Илона, что у нас будут возможности для исследования других планет, добыча полезных ископаемых из астероидов, создание орбитальных станций - вот это вот все, но главным драйвером развития индустрии будет всё-таки грядущее военное противостояние претендентов на гегемонию. Уже сейчас терминалы старлинка активно используются в конфликте на Украине (причём с обеих сторон). Вопрос милитаризации космоса является лишь вопросом времени, уже витают и такие инициативы. Ну а военная гонка – это снова про триллионы долларов.
3. WEB3. Наверняка вам прилеталдикпик ссылка на тапалку хомяка в личку от левого чувака, которого вы едва знаете, а если нет, то скоро прилетит. В погоню за халявой вовлеклись уже 150 млн человек. Это кажется безумием, но один немецкий философ уже предупреждал нас, что всё разумное действительно, а всё действительное разумно. Децентрализованный мир требует и децентрализованных финансов, а значит массы нужно вовлекать в новую технологию. Да, умные ребята на этом ещё и неплохо заработают, но глобально это переход в новую фазу. И через несколько лет (запомните этот твит) вам на кошелёк упадут хлебкоины и пивкоины от Доброго Государства, ну или Доброй Корпорации в зависимости от локации, которые вы попытаетесь свапнуть на что-то более полезное в том самом web3.
1. ИИ и роботизация. Очевидный тренд, который только набирает обороты, никакой зимы не наблюдается (и даже заморозков), наоборот, в эту топку сейчас собираются с энтузиазмом закидывать триллионы долларов. И да, general пофиксит 95% рабочих мест, а может и все 99%.
2. Космос. Хочется верить в светлые идеалы товарища Илона, что у нас будут возможности для исследования других планет, добыча полезных ископаемых из астероидов, создание орбитальных станций - вот это вот все, но главным драйвером развития индустрии будет всё-таки грядущее военное противостояние претендентов на гегемонию. Уже сейчас терминалы старлинка активно используются в конфликте на Украине (причём с обеих сторон). Вопрос милитаризации космоса является лишь вопросом времени, уже витают и такие инициативы. Ну а военная гонка – это снова про триллионы долларов.
3. WEB3. Наверняка вам прилетал
YouTube
Кровосток - Шепоток
Смонтировала видео из фильма Романа Михайлова и Федора Лаврова "Сказка для старых"
Пора наконец-то вспомнить про тематику блога. На прошедших выходных завершился хакатон ЛЦТ. От Самолета на этот раз была задачка по NLP.
Изначально была идея придумать что-то по чат-ботам, но я решил, что будет достаточно сложно нужным образом формализовать задачу в виде понятных для участников метрик (разве что по методологии RAGAS или вытягивать какие-то конкретные факты из данных), и можно будет огрести хейта, поэтому выбрал золотую классику NERa.
Целью хакатона было создать алгоритм, который анализирует транскрибированные тексты разговоров и определяет, была ли предложена скидка и каков её размер. Участникам предоставлялись тексты телефонных разговоров (с анонимизацией, естественно), а также метки для каждого слова, всего 4 типа:
- B-discount (лейбл скидки)
- B-value (лейбл значения скидки)
- I-value
- O (нецелевые токены)
Задачей было наиболее точно (использовалась взвешенная F-мера с весами для различных меток) предсказать все эти метки. На первый взгляд все достаточно просто, но были и подводные камни:
1. Шумная обучающая выборка, которая была получена из толоки. На приватном лидерборде данные были из того же распределения, но около 15% было переразмечено вручную.
2. Данных не так много (около 3.5к текстов, большая часть без целевых меток)
3. Одна попытка для получения скора на лидерборде.
Полное описание задачи и данные можно посмотреть здесь.
На задачу было более 40 регистраций, сабмиты отправили 19 команд, лидером оказалась команда Madgnome, которая на лидерборде выбила максимальный скор 0.874.
Также хочу еще раз поздравить моего коллегу CV-шника Алексея Лугового, который затащил первое место на этом хакатоне по задачке от Газпромбанка.
Изначально была идея придумать что-то по чат-ботам, но я решил, что будет достаточно сложно нужным образом формализовать задачу в виде понятных для участников метрик (разве что по методологии RAGAS или вытягивать какие-то конкретные факты из данных), и можно будет огрести хейта, поэтому выбрал золотую классику NERa.
Целью хакатона было создать алгоритм, который анализирует транскрибированные тексты разговоров и определяет, была ли предложена скидка и каков её размер. Участникам предоставлялись тексты телефонных разговоров (с анонимизацией, естественно), а также метки для каждого слова, всего 4 типа:
- B-discount (лейбл скидки)
- B-value (лейбл значения скидки)
- I-value
- O (нецелевые токены)
Задачей было наиболее точно (использовалась взвешенная F-мера с весами для различных меток) предсказать все эти метки. На первый взгляд все достаточно просто, но были и подводные камни:
1. Шумная обучающая выборка, которая была получена из толоки. На приватном лидерборде данные были из того же распределения, но около 15% было переразмечено вручную.
2. Данных не так много (около 3.5к текстов, большая часть без целевых меток)
3. Одна попытка для получения скора на лидерборде.
Полное описание задачи и данные можно посмотреть здесь.
На задачу было более 40 регистраций, сабмиты отправили 19 команд, лидером оказалась команда Madgnome, которая на лидерборде выбила максимальный скор 0.874.
Также хочу еще раз поздравить моего коллегу CV-шника Алексея Лугового, который затащил первое место на этом хакатоне по задачке от Газпромбанка.
CNBC выпустил репортаж про то, как человекоподобные роботы захватывают мир. Если коротко, то:
- Люди стареют и не хотят размножаться, поэтому капиталисты будут клепать роботов еще более усиленно. Например, Agility Robotics уже строят заводы с мощностью до 10 000 роботов в год.
- Рынок гуманоидных роботов стремительно растет, и ожидается, что к 2035 году он достигнет 38 миллиардов долларов.
- Илон Маск еще более оптимистичен и полагает, что роботы могут поднять рыночную капитализацию Tesla до 25 триллионов долларов.
- Китай активно инвестирует в развитие гуманоидных роботов и уже лидирует на мировом рынке промышленных роботов, обогнав Японию.
Тут встает вопрос, почему именно гуманоидные. Думаю, что этот форм-фактор наиболее приспособлен к человеческой среде. Мы просто не замечаем, насколько все вокруг заточено для двуногих кожаных. Например, робот-курьер на колесиках вряд ли осилит подъем на 5 этаж хрущевки, чтобы доставить питательный протеиновый брикет из кузнечиков для Senior AI Ethics Specialist. А вот андроида можно будет запихнуть практически в любой бизнес, не меняю в нем практически ничего. И тут интересно, насколько быстро будут строить заводы и инфраструктуру для обслуживания этих роботов.
https://m.youtube.com/watch?v=v0uKLCZocjs&pp=ygUpaHR0cHM6Ly9tLnlvdXR1YmUuY29tL3dhdGNoP3Y9djB1S0xDWm9janM%3D
- Люди стареют и не хотят размножаться, поэтому капиталисты будут клепать роботов еще более усиленно. Например, Agility Robotics уже строят заводы с мощностью до 10 000 роботов в год.
- Рынок гуманоидных роботов стремительно растет, и ожидается, что к 2035 году он достигнет 38 миллиардов долларов.
- Илон Маск еще более оптимистичен и полагает, что роботы могут поднять рыночную капитализацию Tesla до 25 триллионов долларов.
- Китай активно инвестирует в развитие гуманоидных роботов и уже лидирует на мировом рынке промышленных роботов, обогнав Японию.
Тут встает вопрос, почему именно гуманоидные. Думаю, что этот форм-фактор наиболее приспособлен к человеческой среде. Мы просто не замечаем, насколько все вокруг заточено для двуногих кожаных. Например, робот-курьер на колесиках вряд ли осилит подъем на 5 этаж хрущевки, чтобы доставить питательный протеиновый брикет из кузнечиков для Senior AI Ethics Specialist. А вот андроида можно будет запихнуть практически в любой бизнес, не меняю в нем практически ничего. И тут интересно, насколько быстро будут строить заводы и инфраструктуру для обслуживания этих роботов.
https://m.youtube.com/watch?v=v0uKLCZocjs&pp=ygUpaHR0cHM6Ly9tLnlvdXR1YmUuY29tL3dhdGNoP3Y9djB1S0xDWm9janM%3D
YouTube
Why Nvidia, Tesla, Amazon And More Are Betting Big On AI-Powered Humanoid Robots
Humanoid robots are catching the attention, and billions of investment dollars, from big tech companies like Amazon, Google, Nvidia and Microsoft. Elon Musk is betting the future of Tesla on these machines, predicting its robot, Optimus, could propel it to…
Периодически натыкаюсь на исследования, например вот это об успехах внедрения генеративного ИИ в бизнес. Внезапно у значительной части эффективных менеджеров накапливается разочарование в эффективности технологии. Тут как бы ждали, что ИИ все автоматизирует и заработает еще больше денег, но на практике зарабатывает в основном OpenAI и другие провайдеры. Почему так?
1. В первую очередь проблема в самих внедряющих. Технология новая, и экспертиза есть только у ограниченного круга лиц, как правило технарей, а для внедрения нужны грамотные консультанты, которые могут разобраться в процессах компании и понять, где действительно нужен генеративный ИИ, а где с головой хватит линейной регрессии.
2. Есть проблема в самой технологии: текущие модели пока не могут самостоятельно выстраивать архитектуру для бизнеса. Т.е вы сначала долго и упорно копаетесь в бизнес-процессах, понимаете, где и как хранятся нужные данные, выстраиваете между ними связи, и только потом можно построить экспертную систему, которая в потенциале может заменить какого-то специалиста. А как правило, вы просто можете снять с него нагрузку, а не заменить полностью. Чтобы грамотно это сделать, возвращаемся к пункту 1.
3. Наконец, сам бизнес - это система, построенная из людей, в которой очень много хаоса и многие связи существуют только на уровне межличностных коммуникаций, то есть вы не сможете ее понять, не пообщавшись с достаточным количеством людей.
И тут можно вспомнить предыдущий пост. Может показаться, что андроиды будут заменять исключительно низкоквалифицированные рабочие места. Но это совершенно не так. Помимо роботов-исполнителей, будут и роботы-вершители.
И вот однажды, хмурым осенним утром, вы подключитесь к привычному дейлику, и ваш тимлид представит нового участника команды, назовем его Порфирий Петрович.
Порфирий дружелюбно представится и подмигнет красным глазом. Он будет внимательно слушать, кивать и задавать уточняющие вопросы. Затем он устроит встречи один на один с каждым членом команды, возможно, будут и другие комбинации участников. Затем Порфирий придет в офис, дружелюбно кивая и мигая глазом, будет внимательно наблюдать за происходящим и опять-таки устраивать встречи.
Он изучит каждый отдел и каждую строчку в базе данных, возможно, даже придет на склад и покурит со своими собратьями. Наконец, лосс-функция придет к минимуму, и в сетке Порфирия зародится модель бизнеса компании, которая будет согласована с его ворлд-моделью. Ну а дальше Порфирий создаст план повышения эффективности и будет его придерживаться.
1. В первую очередь проблема в самих внедряющих. Технология новая, и экспертиза есть только у ограниченного круга лиц, как правило технарей, а для внедрения нужны грамотные консультанты, которые могут разобраться в процессах компании и понять, где действительно нужен генеративный ИИ, а где с головой хватит линейной регрессии.
2. Есть проблема в самой технологии: текущие модели пока не могут самостоятельно выстраивать архитектуру для бизнеса. Т.е вы сначала долго и упорно копаетесь в бизнес-процессах, понимаете, где и как хранятся нужные данные, выстраиваете между ними связи, и только потом можно построить экспертную систему, которая в потенциале может заменить какого-то специалиста. А как правило, вы просто можете снять с него нагрузку, а не заменить полностью. Чтобы грамотно это сделать, возвращаемся к пункту 1.
3. Наконец, сам бизнес - это система, построенная из людей, в которой очень много хаоса и многие связи существуют только на уровне межличностных коммуникаций, то есть вы не сможете ее понять, не пообщавшись с достаточным количеством людей.
И тут можно вспомнить предыдущий пост. Может показаться, что андроиды будут заменять исключительно низкоквалифицированные рабочие места. Но это совершенно не так. Помимо роботов-исполнителей, будут и роботы-вершители.
И вот однажды, хмурым осенним утром, вы подключитесь к привычному дейлику, и ваш тимлид представит нового участника команды, назовем его Порфирий Петрович.
Порфирий дружелюбно представится и подмигнет красным глазом. Он будет внимательно слушать, кивать и задавать уточняющие вопросы. Затем он устроит встречи один на один с каждым членом команды, возможно, будут и другие комбинации участников. Затем Порфирий придет в офис, дружелюбно кивая и мигая глазом, будет внимательно наблюдать за происходящим и опять-таки устраивать встречи.
Он изучит каждый отдел и каждую строчку в базе данных, возможно, даже придет на склад и покурит со своими собратьями. Наконец, лосс-функция придет к минимуму, и в сетке Порфирия зародится модель бизнеса компании, которая будет согласована с его ворлд-моделью. Ну а дальше Порфирий создаст план повышения эффективности и будет его придерживаться.
Тем временем сообщество реддита singularity обнаружило новые правки в статье про секретный проект OpenAI Strawberry.
В частности сообщается, что OpenAI тестировала ИИ, который набрал более 90% на наборе данных MATH. Кстати, такой скор уже пробивала моделька гула Math-Specialized 1.5 Pro.
Правда журналисты признают, что пока не понятно, относится ли это к Strawberry, может оказаться, что это апдейт обычной gpt4. Будем наблюдать.
В частности сообщается, что OpenAI тестировала ИИ, который набрал более 90% на наборе данных MATH. Кстати, такой скор уже пробивала моделька гула Math-Specialized 1.5 Pro.
Правда журналисты признают, что пока не понятно, относится ли это к Strawberry, может оказаться, что это апдейт обычной gpt4. Будем наблюдать.
Волож снова возглавил Яндекс Nebius. Решил запрыгнуть в поезд ИИ:
У меня лично ощущение, что AI — это не хайп, а всерьез и надолго. Примерно так же, как было с интернетом и поиском в 90-е: большое изменение, которое происходит раз в поколение
Хехе, зарабатывать собираются на компьюте:
Основными клиентами Nebius должны стать AI-стартапы, которые вслед за крупнейшими игроками делают или собственные нейросети, или приложения на их основе. Им тоже нужно большое количество вычислительных мощностей, но получить их у крупнейших игроков на рынке — вроде Microsoft Azure или AWS — тяжело.
У меня лично ощущение, что AI — это не хайп, а всерьез и надолго. Примерно так же, как было с интернетом и поиском в 90-е: большое изменение, которое происходит раз в поколение
Хехе, зарабатывать собираются на компьюте:
Основными клиентами Nebius должны стать AI-стартапы, которые вслед за крупнейшими игроками делают или собственные нейросети, или приложения на их основе. Им тоже нужно большое количество вычислительных мощностей, но получить их у крупнейших игроков на рынке — вроде Microsoft Azure или AWS — тяжело.
Гпт мини говорите, лучше посмотрим на новый мультиязычный мистраль 12b, на русском отличные метрики, лицензия для коммерческого использования, надо брать
https://mistral.ai/news/mistral-nemo/?ref=upstract.com
https://mistral.ai/news/mistral-nemo/?ref=upstract.com
mistral.ai
Mistral NeMo
Mistral NeMo: our new best small model. A state-of-the-art 12B model with 128k context length, built in collaboration with NVIDIA, and released under the Apache 2.0 license.
Forwarded from Нейронный Кот
SGLang — еще один фреймворк для сервинга LLM
Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)
Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз
С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic🤒 )
В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).
Эвристика для выбора движка была примерно такая:
🟡 Хочешь быстро и просто — используй vLLM
🟠 Хочешь очень быстро и сложно — используй TRT
Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance
ТО ЕСТЬ👆 👆 👆
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM
Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)
Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз
С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic
В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).
Эвристика для выбора движка была примерно такая:
🟡 Хочешь быстро и просто — используй vLLM
🟠 Хочешь очень быстро и сложно — используй TRT
Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance
ТО ЕСТЬ
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM
Please open Telegram to view this post
VIEW IN TELEGRAM