АИ агенты в Amplitude
На прошлой неделе амплитуда заанонсила запуск аи агентов для аналитики.
Amplitude - сервис «все в одном» для трекинга метрик вашего приложения. Шаблоны, подключения данных, создание графиков - все там, чтобы следить за успехами вашего стартапа.
Наконец-то они решили интегрировать АИ и сделать «как курсор но для аналитики». Обещают постановку экспериментов на основе целей. Хотите улучшить конверсию в оплату? Попросите агента: он проанализирует ваши данные, выдвинет гипотезы как их улучшить и может внести даже кое-какие изменения в продукт. Понятно, что не особо большие, но быстрые итерации стартапов станут еще быстрее: эксперименты и гипотезы будут создаваться автоматически с помощью ИИ.
Ждем MCP для Амплитуда - Курсор? Чтобы один выдвигал гипотезы, смотрел на данные и предлагал изменения в продукт, а курсор все это имплементировал.
Короче, ИИ команда все ближе и ближе. Где ИИ агент дизайнер от фигмы?
На прошлой неделе амплитуда заанонсила запуск аи агентов для аналитики.
Amplitude - сервис «все в одном» для трекинга метрик вашего приложения. Шаблоны, подключения данных, создание графиков - все там, чтобы следить за успехами вашего стартапа.
Наконец-то они решили интегрировать АИ и сделать «как курсор но для аналитики». Обещают постановку экспериментов на основе целей. Хотите улучшить конверсию в оплату? Попросите агента: он проанализирует ваши данные, выдвинет гипотезы как их улучшить и может внести даже кое-какие изменения в продукт. Понятно, что не особо большие, но быстрые итерации стартапов станут еще быстрее: эксперименты и гипотезы будут создаваться автоматически с помощью ИИ.
Ждем MCP для Амплитуда - Курсор? Чтобы один выдвигал гипотезы, смотрел на данные и предлагал изменения в продукт, а курсор все это имплементировал.
Короче, ИИ команда все ближе и ближе. Где ИИ агент дизайнер от фигмы?
🤩4
«Нейросети могут сделать нас глупее!»
Пару дней назад увидел новость с таким заголовком с референсом на исследование MIT. И действительно, MIT не так давно провело исследование с использование электроэнцефалограммы – прибора для измерения электрической активности мозга. Давайте посмотрим, что получилось. Вдаваться в детали особо не буду – пробегусь только по выводам, а если хотите оригинал, то 200 страниц научного языка тут.
54 участника исследования поделили на три группы:
-без внешних инструментов
-с использовнием поиска (без AI)
-с использованием AI (gpt-4o)
Все они писали ЭССЕ на одну из трех SAT тем в течении 4-х сессий. Во время написания, у них замеряли активность мозга и на основе этого делали выводы. И пришли вот к чему:
🧠 Память в минусе. Активность мозга, отвечающая за запоминание была существенно меньше, чем у группы без использования инструментов. С использованием поиска на 34%-48% меньше, а у AI группы до 55%
👁️🗨️ Режим «копировать–вставить». У поиск-группы активировались визуальные участки (им приходилось зрительно искать информацию в гугл), а AI-группы эта зона не активировалась – участники просто копировали ответ LLM.
✍️ Потеря авторства. При использовании внешних инструментов, так же уменьшилась активация зон, отвечающих за мониторинг ошибок и оценивания себя. В группе без использования внешних инструментов 17 из 18 участников обозначили полное авторство над написанным текстом, когда в других группах признание было лишь частичным.
📢 Подверженность внешнему мнению. AI-группа была подвержена влиянию самой LLM – у них было меньше уникальных идей и слов. Поиск-группа показала корреляцию с самыми популярными ключевыми словами для запроса по теме эссе.
Исследователи называют накопительный эффект снижения мозговой активности «ментальным долгом». В краткосрочной перспективе это ускоряет работу, но приводит к избеганию умственного напряжения, а в долгосрочной:
-к снижению способностей критического мышления
-повышенной уязвимости к манипуляциям
-сниженной креативности
Пару дней назад увидел новость с таким заголовком с референсом на исследование MIT. И действительно, MIT не так давно провело исследование с использование электроэнцефалограммы – прибора для измерения электрической активности мозга. Давайте посмотрим, что получилось. Вдаваться в детали особо не буду – пробегусь только по выводам, а если хотите оригинал, то 200 страниц научного языка тут.
54 участника исследования поделили на три группы:
-без внешних инструментов
-с использовнием поиска (без AI)
-с использованием AI (gpt-4o)
Все они писали ЭССЕ на одну из трех SAT тем в течении 4-х сессий. Во время написания, у них замеряли активность мозга и на основе этого делали выводы. И пришли вот к чему:
🧠 Память в минусе. Активность мозга, отвечающая за запоминание была существенно меньше, чем у группы без использования инструментов. С использованием поиска на 34%-48% меньше, а у AI группы до 55%
👁️🗨️ Режим «копировать–вставить». У поиск-группы активировались визуальные участки (им приходилось зрительно искать информацию в гугл), а AI-группы эта зона не активировалась – участники просто копировали ответ LLM.
✍️ Потеря авторства. При использовании внешних инструментов, так же уменьшилась активация зон, отвечающих за мониторинг ошибок и оценивания себя. В группе без использования внешних инструментов 17 из 18 участников обозначили полное авторство над написанным текстом, когда в других группах признание было лишь частичным.
📢 Подверженность внешнему мнению. AI-группа была подвержена влиянию самой LLM – у них было меньше уникальных идей и слов. Поиск-группа показала корреляцию с самыми популярными ключевыми словами для запроса по теме эссе.
Исследователи называют накопительный эффект снижения мозговой активности «ментальным долгом». В краткосрочной перспективе это ускоряет работу, но приводит к избеганию умственного напряжения, а в долгосрочной:
-к снижению способностей критического мышления
-повышенной уязвимости к манипуляциям
-сниженной креативности
👍2❤1
Мне кажется, что такое исследование супер важно с точки зрения образования. Как в эпоху LLM и "дешевого" способа получения информации и решения задач, сделать так, чтобы креативность и критическое мышление людей сохранились?
Исследователи предлагают вводить сессии "Без внешних инструментов", чтобы стимулировать работу мозга и не полагаться на их решения все время. Будут ли это делать и соблюдать? Вопрос открытый
Еще интереснее будет наблюдать борьбу ИИ-лобби за повсеместное внедрение ИИ-систем для ускорения работы \ учебы и получения результатов сейчас. В общем, необычное время нас ждет
Исследователи предлагают вводить сессии "Без внешних инструментов", чтобы стимулировать работу мозга и не полагаться на их решения все время. Будут ли это делать и соблюдать? Вопрос открытый
Еще интереснее будет наблюдать борьбу ИИ-лобби за повсеместное внедрение ИИ-систем для ускорения работы \ учебы и получения результатов сейчас. В общем, необычное время нас ждет
👍5
Ресурсы в космосе
Пару месяцев назад прочитал сборник "Я, робот" от Айзека Азимова. Первая работа рассказывает про роботов на Марсе. Тогда я в разговоре с друзьями сказал: "Маск делает Оптимусов (роботы тесла) для того, чтобы отправить их на Марс". Кому-то же нужно подготовить инфраструктуру для людей, когда они прилетят. И недавно он и сам это подтвердил.
Сегодня я задумался: насколько выгодно добывать сырье из ближайших к Земле объектов с целью отправки обратно? Вся космическая экономике строится как раз на идеи экспании и добычи ресурсов за пределами нашей планеты. Считать я это, конечно, сам не буду, но спросил o3-pro.
Самые потенциально выгодные ресурсы:
-Луна и He-3 для термоядерных реакторов. Цена сейчас приблизительно 20 млн$ за кг. Проблема в том, что рынок термоядерной энергии пока не сформирован, но в ближайшие десятилетия крайней занятная перспектива.
-Астероиды и Платина. 42 тыс.$/кг. В теории это может стать рентабельным, если улучшить технологии добычи и поставить это на массовый поток, но вместе с этим упадет и цена, если потребление не возрастет. Вопросительно.
В целом, большая часть добываемых ресурсов в ближайшие десятилетия будет окупаться только на местных добываемых рынках и смысла перевозить что-то на Землю, кроме особенно ценных ресурсов на подобии Гелиума нет. Конечно, стоит учитывать, что наши развед. данные ограничены и возможно, где-то есть астероидный Эльдорадо, но инвестиции в раскопки Земли выглядят пока что более надежно и целесообразно.
Интересно, будет ли новая "золотая" или платиновая лихорадка лет так через 30-40? Лучше уж продавать лопаты, или же дронов для добычи ископаемых.
Если интересна таблица, то вот
Пару месяцев назад прочитал сборник "Я, робот" от Айзека Азимова. Первая работа рассказывает про роботов на Марсе. Тогда я в разговоре с друзьями сказал: "Маск делает Оптимусов (роботы тесла) для того, чтобы отправить их на Марс". Кому-то же нужно подготовить инфраструктуру для людей, когда они прилетят. И недавно он и сам это подтвердил.
Сегодня я задумался: насколько выгодно добывать сырье из ближайших к Земле объектов с целью отправки обратно? Вся космическая экономике строится как раз на идеи экспании и добычи ресурсов за пределами нашей планеты. Считать я это, конечно, сам не буду, но спросил o3-pro.
Самые потенциально выгодные ресурсы:
-Луна и He-3 для термоядерных реакторов. Цена сейчас приблизительно 20 млн$ за кг. Проблема в том, что рынок термоядерной энергии пока не сформирован, но в ближайшие десятилетия крайней занятная перспектива.
-Астероиды и Платина. 42 тыс.$/кг. В теории это может стать рентабельным, если улучшить технологии добычи и поставить это на массовый поток, но вместе с этим упадет и цена, если потребление не возрастет. Вопросительно.
В целом, большая часть добываемых ресурсов в ближайшие десятилетия будет окупаться только на местных добываемых рынках и смысла перевозить что-то на Землю, кроме особенно ценных ресурсов на подобии Гелиума нет. Конечно, стоит учитывать, что наши развед. данные ограничены и возможно, где-то есть астероидный Эльдорадо, но инвестиции в раскопки Земли выглядят пока что более надежно и целесообразно.
Интересно, будет ли новая "золотая" или платиновая лихорадка лет так через 30-40? Лучше уж продавать лопаты, или же дронов для добычи ископаемых.
Если интересна таблица, то вот
🤔1🤯1😱1
ICML 2025
Одна из крупнейших конференций по ИИ в мире. В этом году проходит в Ванкувере. Мою статью про генерацию фактов для гроккинга на нее приняли и мы презентуем там постер. Точнее не мы, а мой коллега из универа. Почему не я, если я главный автор?
Немецкая бюрократия. В марте (это 5!!! Месяцев назад) я потерял свой немецкий ВНЖ, без которого я не могу въехать в Шенген и моя любимая листо-бумажная страна до сих пор не может его восстановить. Обещают это сделать в августе, но я уже пропустил 3 конференции, которые хотел посетить.
Чтобы сильно не расстраиваться, поехал на юг серфить и знакомиться с классными людьми. Одним из них оказалась AI SEO из Siemens и она рассказала, как они оптимизируют свои сайты под ИИ. Напишу чуть позже.
В общем, кому еще больше повезло. Буду держать вас в курсе постеров на конференции с помощью телефонов моих коллег.
Волны, кстати, очень хорошие
Одна из крупнейших конференций по ИИ в мире. В этом году проходит в Ванкувере. Мою статью про генерацию фактов для гроккинга на нее приняли и мы презентуем там постер. Точнее не мы, а мой коллега из универа. Почему не я, если я главный автор?
Немецкая бюрократия. В марте (это 5!!! Месяцев назад) я потерял свой немецкий ВНЖ, без которого я не могу въехать в Шенген и моя любимая листо-бумажная страна до сих пор не может его восстановить. Обещают это сделать в августе, но я уже пропустил 3 конференции, которые хотел посетить.
Чтобы сильно не расстраиваться, поехал на юг серфить и знакомиться с классными людьми. Одним из них оказалась AI SEO из Siemens и она рассказала, как они оптимизируют свои сайты под ИИ. Напишу чуть позже.
В общем, кому еще больше повезло. Буду держать вас в курсе постеров на конференции с помощью телефонов моих коллег.
Волны, кстати, очень хорошие
❤8
Open-source от OpenAI
Давно такого не было для text2text моделей. С GPT-3 еще в далеком 2020 году. Они все же это сделали и вот блог
Получается хорошая базовая модель для чата или простых функций, как классификация интенций. Для больших проектов можно завести свои gpu сервера и платить большим корпорациям меньше.
Ждем тестов на бенчах
-21 млрд и 117 млрд, используется одновременно 3.6 и 5.1
- MoE с выбором эксперта на уровне токена
-4 битное квантирование. Помещается на h100 с 80гб, а маленькая в 16гб
-использование инструментов и следование инструкциям
-есть рассуждения и можно выбрать уровень усилий
-128к контекст
Ссылка
Давно такого не было для text2text моделей. С GPT-3 еще в далеком 2020 году. Они все же это сделали и вот блог
Получается хорошая базовая модель для чата или простых функций, как классификация интенций. Для больших проектов можно завести свои gpu сервера и платить большим корпорациям меньше.
Ждем тестов на бенчах
-21 млрд и 117 млрд, используется одновременно 3.6 и 5.1
- MoE с выбором эксперта на уровне токена
-4 битное квантирование. Помещается на h100 с 80гб, а маленькая в 16гб
-использование инструментов и следование инструкциям
-есть рассуждения и можно выбрать уровень усилий
-128к контекст
Ссылка
GitHub
Release v4.55.0: New openai GPT OSS model! · huggingface/transformers
Welcome GPT OSS, the new open-source model family from OpenAI!
For more detailed information about this model, we recommend reading the following blogpost: https://huggingface.co/blog/welcome-open...
For more detailed information about this model, we recommend reading the following blogpost: https://huggingface.co/blog/welcome-open...
👍2
благодаря созданию опен сурс скелета для последующих претрейнов, OpenAI потенциально собирает коммьюнити программистов и стартаперов вокруг себя, которые будут пользоваться этими открытыми моделями.
Так же, как это было с ламмой (земля ей пухом) и дип сиком. Обе эти модели довольно популярны и на слуху, поэтому и новой модели опен аи перепадет часть славы.
Вопрос, правда, зачем? У b2c клиентов опен аи находится и так в около монополии по сравнению с остальными. Скорее всего для b2b и как раз конкуренции с Claude в кодовых и других инструментах
P.s. Фото 2024, но разница скорее всего стала еще больше
Так же, как это было с ламмой (земля ей пухом) и дип сиком. Обе эти модели довольно популярны и на слуху, поэтому и новой модели опен аи перепадет часть славы.
Вопрос, правда, зачем? У b2c клиентов опен аи находится и так в около монополии по сравнению с остальными. Скорее всего для b2b и как раз конкуренции с Claude в кодовых и других инструментах
P.s. Фото 2024, но разница скорее всего стала еще больше
Кстати, еще вспомнил про кейсы вроде медицины, лигала, биг теха и 99% стартапов в Европе.
Им всем нельзя ходить в апи, тк данные должны быть на собственных серверах. Сейчас некоторые используют приватные от Амазона, к примеру, но теперь могут напрямую хостить модели опен аи у себя.
А там, и сам OpenAI придумает SaaS решение для таких случаев
Им всем нельзя ходить в апи, тк данные должны быть на собственных серверах. Сейчас некоторые используют приватные от Амазона, к примеру, но теперь могут напрямую хостить модели опен аи у себя.
А там, и сам OpenAI придумает SaaS решение для таких случаев
👍1
Forwarded from Сиолошная
Полистал разные бенчмарки, выглядит так, что больше всего, помимо кодинг-агентов, выиграло здравоохранение — модель на 120B в HealthBench почти достигает уровня o3, даже на сложной выборке заданий.
Можно начинать делать онлайн-клинику с AI-докторами — вот тут писал, что все промпты с пилота в Кении опубликованы👀
(правда GPT-OSS обучалась в основном на английских текстах, поэтому для других регионов придётся или тратиться на переводчик, или пытаться вытянуть качество самостоятельно)
Можно начинать делать онлайн-клинику с AI-докторами — вот тут писал, что все промпты с пилота в Кении опубликованы
(правда GPT-OSS обучалась в основном на английских текстах, поэтому для других регионов придётся или тратиться на переводчик, или пытаться вытянуть качество самостоятельно)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🤯1
Паттерны AI agentic систем
👨🦳 Двух-уровневая иерархия агентов
-Основной агент поддерживает диалог, имеет память и контекст, разговаривает с юзером и разбивает задачи. Проджект менеджер своего рода
-Сабагенты нет контекста, памяти. Просто выполняют одну заданную фунцию, например, анализ или суммаризатор.
Сабагенты должны быть своего рода функцией, которую вызываешь и ожидаешь от нее схожего ответа каждый раз. Таким образом его можно распараллелить, протестировать и отлавливать ошибки.
🪑 Коммуникация
Общение между агентами должно быть структурированым.
Каждая задача для сабагента от основного:
•Понятная цель (Найти весь фидбек упомянающий "медленную загрузку")
•Ограниченный контекст (последние 30 дней)
•Формат возвращаемого значения (json, поля)
•Ограниченния (максимум 100 результатов)
Каждый ответ от сабагента основному:
•Статус (готово, ошибка)
•Результат
•Метаданные
•Рекомендации (следующие задачи, предупреждения)
🤔 Специализация агентов
-По возможностям
Исследователи исследуют. Анализаторы работают с данными исследователей. Валидационные проверяют качество.
-По области применения
Юристы понимают право. Финансовые работают с числами. Технические с кодом.
-По модели
Быстрые gpt-5-mini для быстрого ответа. Думающие для сложных вычислений и логики.
🗯 Оркестрация (комбинация агентов)
-Последовательная
Выход предыдущего агента уходит следующему.
-MapReduce
Распределить между множеством агентов и объединить результат. Когда нужно обработать много данных.
-Консенсусная
Несколько агентов решают одну и ту же задачу. Сравнивают результаты и принимают решение. Хорошо для критичных решений
-Иерархическая
Основной агент делегирует сабагентам, которые могут делегировать сабагентам. Использовать стоит редко, так как сложно отлаживать и искать ошибки.
Источник
-Основной агент поддерживает диалог, имеет память и контекст, разговаривает с юзером и разбивает задачи. Проджект менеджер своего рода
-Сабагенты нет контекста, памяти. Просто выполняют одну заданную фунцию, например, анализ или суммаризатор.
Сабагенты должны быть своего рода функцией, которую вызываешь и ожидаешь от нее схожего ответа каждый раз. Таким образом его можно распараллелить, протестировать и отлавливать ошибки.
Общение между агентами должно быть структурированым.
Каждая задача для сабагента от основного:
•Понятная цель (Найти весь фидбек упомянающий "медленную загрузку")
•Ограниченный контекст (последние 30 дней)
•Формат возвращаемого значения (json, поля)
•Ограниченния (максимум 100 результатов)
Каждый ответ от сабагента основному:
•Статус (готово, ошибка)
•Результат
•Метаданные
•Рекомендации (следующие задачи, предупреждения)
-По возможностям
Исследователи исследуют. Анализаторы работают с данными исследователей. Валидационные проверяют качество.
-По области применения
Юристы понимают право. Финансовые работают с числами. Технические с кодом.
-По модели
Быстрые gpt-5-mini для быстрого ответа. Думающие для сложных вычислений и логики.
-Последовательная
Выход предыдущего агента уходит следующему.
Agent 1-> Agent 2 -> Agent 3 -> Result
-MapReduce
Распределить между множеством агентов и объединить результат. Когда нужно обработать много данных.
┌→ Agent 1 ─┐
Input → Agent 2 → Reducer → Result
└→ Agent 3 ─┘
-Консенсусная
Несколько агентов решают одну и ту же задачу. Сравнивают результаты и принимают решение. Хорошо для критичных решений
┌→ Agent 1 ─┐
Task ─→ Agent 2 ─→ Voting/Merge → Result
└→ Agent 3 ─┘
-Иерархическая
Основной агент делегирует сабагентам, которые могут делегировать сабагентам. Использовать стоит редко, так как сложно отлаживать и искать ошибки.
Primary Agent
├─ Subagent A
│ ├─ Sub-subagent A1
│ └─ Sub-subagent A2
└─ Subagent B
Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🙏1
Тестирование 💫AI приложенений💫
Топик большой и сложный. Часть дизайна AI \ ML System. В чем проблема? Когда мы меняем промпт, входные данные или что-либо другое, то хотим удостовериться, что у нас ничего не сломалось, а в идеале улучшилось. Если вы собираетесь работать над проектом больше двух или трех дней, то совсем скоро вам надоест запускать скрипт, вручную вводить 10 разных данных и смотреть результаты. Как же быть? На самом деле правила здесь схожие с тем, что у нас есть в обычном мире software development: юнит, интеграционные и другие тесты.
Гипотеза и метрики
Наша цель – улучшать систему, вводить новые функции и удешевлять производство. Поэтому перед каждым изменением промпта / температуры и других параметров модели формируем гипотезы и метрики. Это могут быть:
-Качество (accuracy, faithfulness, f1, любая другая)
-Стоимость (количество токенов)
-Задержка
Гипотеза может быть:
Уменьшить стоимость на 30%, не потеряв в основной метрике более 3%.
Модульность
Когда мы работаем с большой системой хочется сделать один большой тест всей системы. Это тоже важно, но в первую очередь мы должны рассматривать нашу сложную систему как множество подсистем, чтобы тестировать каждую функцию отдельно. Так проще локализовать баг и исправить его. Например если мы сначала суммаризируем новость, затем делаем анализ, а на основе анализа что-то еще, то у нас будет минимум три разных теста.
Тестируем вход, выход, количество потраченных токенов, вызов функций, задержка – на любом этапе может возникнуть проблема.
Датасеты
Не должен вас удивить, если скажу, что прежде всего нам нужны датасеты. Чем больше, тем лучше. Собираем все, что возможно: пограничные случаи, сложные вопросы, джейлбреки (если вам это важно). Необязательно с самого начала собирать датасет на 1000 всевозможных случаев. Куда проще сделать небольшой набросок, выдумать 10-20 примеров и затем в продакшене находить баги и добавлять эти случаи в набор данных.
Регресс-тесты и версии
Когда у нас есть golden-set для тестирования всех подсистем, смотрим на метрики каждого блока. Версионируем промпты, датасеты и модели – так будет легче найти источник проблемы и откатиться к работающей версии.
Работаем с недетерминизмом
LLM может выдавать разный ответ на один и тот же вопрос. Это происходит из-за ненулевой температуры, разных версий моделей, обновлении библиотек.
-Фиксируем seed (если работаем локально), снижаем температуру
-Делаем 3-5 прогонов и усредняем результаты. Не забываем смотреть на стандартное отклонение.
Как тестируем?
Structured Output – простые тесты. Смотрим на возвращаемые поля и проверяем, что обязательность типы и их значения находятся в адекватном значении. Возраст – int от 0 до 120 условно, Имя – строка.
LLM as Judge – как проверить, что модель действительно вернула логичный ответ? Использовать другую LLM!
Еще есть другие типы тестирования для RAG, Agentic и остальных видов систем, но об этом мб в следующий раз.
Онлайн тестирование
Работа с наборами данных называется оффлайн тестированием. Когда мы заливаем модель в прод, то есть возможность протестировать её в реальных условиях – это онлайн тестирование. Здесь можно посмотреть не только на метрики модели, но и реакцию пользователей на нее.
-Заводим A\B тест, смотрим на бизнес метрики: конверсию, ретеншн, время проведенное на сайте.
Полезные инструменты
OpenEval – OpenSource реализация многих инструментов для тестирования. В том числе LLM as Judge – не нужно реализовывать это с нуля. Есть возможность тестирования RAG, tool calling, Agent systems и множество других.
Langsmith with UX – обертка над OpenEval с UX интерфейсом. Выглядит круто, кодить не нужно. Советую заценить.
Топик большой и сложный. Часть дизайна AI \ ML System. В чем проблема? Когда мы меняем промпт, входные данные или что-либо другое, то хотим удостовериться, что у нас ничего не сломалось, а в идеале улучшилось. Если вы собираетесь работать над проектом больше двух или трех дней, то совсем скоро вам надоест запускать скрипт, вручную вводить 10 разных данных и смотреть результаты. Как же быть? На самом деле правила здесь схожие с тем, что у нас есть в обычном мире software development: юнит, интеграционные и другие тесты.
Гипотеза и метрики
Наша цель – улучшать систему, вводить новые функции и удешевлять производство. Поэтому перед каждым изменением промпта / температуры и других параметров модели формируем гипотезы и метрики. Это могут быть:
-Качество (accuracy, faithfulness, f1, любая другая)
-Стоимость (количество токенов)
-Задержка
Гипотеза может быть:
Уменьшить стоимость на 30%, не потеряв в основной метрике более 3%.
Модульность
Когда мы работаем с большой системой хочется сделать один большой тест всей системы. Это тоже важно, но в первую очередь мы должны рассматривать нашу сложную систему как множество подсистем, чтобы тестировать каждую функцию отдельно. Так проще локализовать баг и исправить его. Например если мы сначала суммаризируем новость, затем делаем анализ, а на основе анализа что-то еще, то у нас будет минимум три разных теста.
Тестируем вход, выход, количество потраченных токенов, вызов функций, задержка – на любом этапе может возникнуть проблема.
Датасеты
Не должен вас удивить, если скажу, что прежде всего нам нужны датасеты. Чем больше, тем лучше. Собираем все, что возможно: пограничные случаи, сложные вопросы, джейлбреки (если вам это важно). Необязательно с самого начала собирать датасет на 1000 всевозможных случаев. Куда проще сделать небольшой набросок, выдумать 10-20 примеров и затем в продакшене находить баги и добавлять эти случаи в набор данных.
Регресс-тесты и версии
Когда у нас есть golden-set для тестирования всех подсистем, смотрим на метрики каждого блока. Версионируем промпты, датасеты и модели – так будет легче найти источник проблемы и откатиться к работающей версии.
Работаем с недетерминизмом
LLM может выдавать разный ответ на один и тот же вопрос. Это происходит из-за ненулевой температуры, разных версий моделей, обновлении библиотек.
-Фиксируем seed (если работаем локально), снижаем температуру
-Делаем 3-5 прогонов и усредняем результаты. Не забываем смотреть на стандартное отклонение.
Как тестируем?
Structured Output – простые тесты. Смотрим на возвращаемые поля и проверяем, что обязательность типы и их значения находятся в адекватном значении. Возраст – int от 0 до 120 условно, Имя – строка.
LLM as Judge – как проверить, что модель действительно вернула логичный ответ? Использовать другую LLM!
Еще есть другие типы тестирования для RAG, Agentic и остальных видов систем, но об этом мб в следующий раз.
Онлайн тестирование
Работа с наборами данных называется оффлайн тестированием. Когда мы заливаем модель в прод, то есть возможность протестировать её в реальных условиях – это онлайн тестирование. Здесь можно посмотреть не только на метрики модели, но и реакцию пользователей на нее.
-Заводим A\B тест, смотрим на бизнес метрики: конверсию, ретеншн, время проведенное на сайте.
Полезные инструменты
OpenEval – OpenSource реализация многих инструментов для тестирования. В том числе LLM as Judge – не нужно реализовывать это с нуля. Есть возможность тестирования RAG, tool calling, Agent systems и множество других.
Langsmith with UX – обертка над OpenEval с UX интерфейсом. Выглядит круто, кодить не нужно. Советую заценить.
👍1
Что для ИИ ценнее, чем сам ИИ? Данные
Если подумать, ИИ — это просто алгоритм оптимизации: он пытается решить поставленную задачу, оптимизируя функцию потерь. Для LLM это предсказание следующего токена, для роботов на основе обучения с подкреплением – успешно засунуть куб в квадратное отверстие. При этом, ИИ требует больше одной демонстрации с коробкой чтобы успешно справиться с задачей.
Сегодня мы упираемся в потолок данных. OpenAI, Claude, Grok — все эти компании уже спарсили весь интернет, открытые и закрытые наборы данных. Это заметно по недавнему релизу GPT-5: да, кое-где добавили технические фишечки и выжали ещё +5–10% точности. Но это не тот большой скачок, который был между 3 и 4, и проблема становится ещё очевиднее. Какое решение? Синтетические данные!
И это нужно не только для робототехники или дронов. Смоделированные пользователи, инструменты, рынки позволяют создавать, а не просто собирать ситуации и данные. К примеру, AlphaGO была натренирована с помощью симуляции игры двух нейросетей и они оптимизировались на потенциально всех возможных партиях в игре, что позволило в итоге превзойти человека.
Недавние достижения в области игровых движков, создаваемых ИИ (например, Matrix Game), потенциально могут применяться не только в играх, но и является прочной базой для ИИ симуляций для роботехники. Ну и напоследок, вот что мы должны ждать от подобных движков:
– Fidelity (правдоподобие): насколько синтетика статистически и поведенчески похожа на реальность
– Coverage (покрытие хвостов): редкие/опасные/дорогие кейсы
– Controllability (управляемость): можно целенаправленно варьировать сложность/объекты/условия
– Diversity (разнообразие): достаточно ли в каждом сегменте данных
Если подумать, ИИ — это просто алгоритм оптимизации: он пытается решить поставленную задачу, оптимизируя функцию потерь. Для LLM это предсказание следующего токена, для роботов на основе обучения с подкреплением – успешно засунуть куб в квадратное отверстие. При этом, ИИ требует больше одной демонстрации с коробкой чтобы успешно справиться с задачей.
Сегодня мы упираемся в потолок данных. OpenAI, Claude, Grok — все эти компании уже спарсили весь интернет, открытые и закрытые наборы данных. Это заметно по недавнему релизу GPT-5: да, кое-где добавили технические фишечки и выжали ещё +5–10% точности. Но это не тот большой скачок, который был между 3 и 4, и проблема становится ещё очевиднее. Какое решение? Синтетические данные!
И это нужно не только для робототехники или дронов. Смоделированные пользователи, инструменты, рынки позволяют создавать, а не просто собирать ситуации и данные. К примеру, AlphaGO была натренирована с помощью симуляции игры двух нейросетей и они оптимизировались на потенциально всех возможных партиях в игре, что позволило в итоге превзойти человека.
Недавние достижения в области игровых движков, создаваемых ИИ (например, Matrix Game), потенциально могут применяться не только в играх, но и является прочной базой для ИИ симуляций для роботехники. Ну и напоследок, вот что мы должны ждать от подобных движков:
– Fidelity (правдоподобие): насколько синтетика статистически и поведенчески похожа на реальность
– Coverage (покрытие хвостов): редкие/опасные/дорогие кейсы
– Controllability (управляемость): можно целенаправленно варьировать сложность/объекты/условия
– Diversity (разнообразие): достаточно ли в каждом сегменте данных
This media is not supported in your browser
VIEW IN TELEGRAM