194K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡Github
🟡Demo
🟡Paper
🟡Dataset
🟡Checkpoints

@ai_machinelearning_big_data


#agent #ai #ml #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM