154K subscribers
3.42K photos
444 videos
17 files
4.17K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Llama 4 Maverick занимает 2-е место став 4-й моделью, преодолевшей отметку 1400+ на Арене , уступая лишь Gemini 2.5 Pro!

- №1 в категориях Hard Prompts, Coding, Math, Creative Writing
- Огромный скачок по сравнению с Llama 3 405B: 1268 → 1417.

Maverick входит в пятерку лучших во всех категориях.

А где там у нас claude?

http://lmarena.ai/leaderboard

@ai_machinelearning_big_data

#llama #arena #leaderboard #llm #opensource