Технозаметки Малышева

Вот вы спрашиваете, чего я так топлю за Claude.
решил повторить пример выше и вот.
Ну как с ним разговаривать, если он такой умный, что сразу скипает диалог и переходит к итогу.

#Claude
———
@tsingular

👍16🔥1

3.09K viewsedited 06:36

Технозаметки Малышева

Этот мир сошёл с ума.

GPU 🤝 женские сумочки

http://gpupurse.com/

Ловля ИТшников на приманку. :)

#GPU #мода
------
@tsingular

🔥10😁8👍2

2.59K viewsedited 07:39

Технозаметки Малышева

HivisionIDPhotos: AI-инструмент для фото на документы

Новый open-source проект в тренде на GitHub.
HivisionIDPhotos - локально сгенерит профессиональные фото на документы с помощью ИИ.

Ключевые особенности:
• Работает даже на CPU
• есть Веб-интерфейс Gradio и API
• Использует ONNX и OpenCV
• Поднимается в Docker
• Поддерживает различные операции обработки изображений

Инструмент создает локальную веб-страницу для удобства.

Теперь каждый сможет сделать фото на паспорт, не выходя из дома. Фотоателье уходят в прошлое! 📸🏠

#HivisionIDPhotos #фотонадокументы #фотоателье
-------
@tsingular

👍3❤1

3.9K viewsedited 08:31

Технозаметки Малышева

Forwarded from Mashkka про Data Science

🌐

Digest полезных материалов по ML

🤖

Benchmarking of AI Agents

Тема AI-агентов сегодня становится актуальна как никогда. Копнула в сторону их оценки и собрала подборку материалов по бенмаркингу агентов.

1⃣

Статья на Medium по введению в агентов

2⃣

HumanEval и ruHumanEval - классика бенчмаркинга по оценки способностей моделей писать программный код

3⃣

WebArena (статья) платформа для имитации работы Агента в Web среде. Пользователи могут создавать имитацию собственных сред, использовать реализованные на платформе инструменты оценки и тестировать модели на готовых задачах интегрированного в платформу бенчмарка.

4⃣

AgentBench - самый популярный бенчмарк для оценки агентов. Позволяет оценивать модели на основе Chain-of-Thought в средах 8 типов, разделенных на три категории (Code-, Web- и Game-Grounded). Для оценки используются автоматические метрики (Success Rate, F1, Game Progress и т. п.), а общий скор получается усреднением метрик по всем задачам.

5⃣

LLMArena - Арена для агентов, где модели соревнуются между собой в 7 игровых средах разного формата (командные игры, соревнования, настолки и т. п.), заданный с помощью текстового описания в виде набора из трех промптов (System prompt, Observation prompts, Action prompt). Рейтинг моделей строится по скиллам, оцениваемых с помощью TrueSkill.

6⃣

AppWorld - бенчмарк, где агент выступает в роли виртуального ассистента, помогающего виртуальным пользователям выполнять повседневные дела через приложения (составить плейлист для тренировки, заказать пиццу, заплатить другу через splitwise и т. п.). Авторы заморочились и создали с помощью ChatGPT мини сообщество из 107 человек, полностью расписав информации о них в приложении так, чтобы весь граф общения согласовывался между людьми (если Петя записан к тренеру Васе, то у Васе стоит слот на тренировку с Петей в календаре)

7⃣

AI Agent That Matter — большой обзор по бенчмаркингу агентов, авторы которого рассматривают вызовы при оценке агентов и среди них выделяют следующие 5:
➖AI agent evaluations must be cost-controlled.
➖Jointly optimizing accuracy and cost can yield better agent design.
➖Model developers and downstream developers have distinct benchmarking needs.
➖Agent benchmarks enable shortcuts.
➖Agent evaluations lack standardization and reproducibility.
Как итог они приходят к выводу, что при оценке агентов важно критично оценивать не только основную метрику, но и стоимость инференса, и оптимизировать эти величины совместно. Помимо этого, чтобы избежать читинга со стороны моделей важно, чтобы тест отличался по распределению/задачам/доменам от обучающих данных, а оценка на бенчмарке была максимально стандартизирована.

@mashkka_ds

#usefullinks #ml_на_пальцах #полезныематериалы #aiagents

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍3❤1

3.54K views19:22

Технозаметки Малышева