Complete AI
6.98K subscribers
393 photos
26 videos
9 files
275 links
Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
⚡️Второй день воркшопов на ECCV’24 также оставил у меня в памяти несколько интересных инсайтов. Я постарался уделить время воркшопам по GenAI для видео, а также внутренним знаниям о визуальных концептах в генеративных моделях.

Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.

Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪

В комментариях выложу фото избранных слайдов по обоим докладам👇

@complete_ai
1️⃣Начинается первый день основной конференции ECCV’24

Почти 7000 очных участников, 75 воркшопов, 30 демо, 650+ speed mentoring для студентов и много других красивых цифр (а еще очень модный свет)

Больше статистики на фотках☝️

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Встретились на ECCV’24 с Артёмом @ai_newz

Обсудили развитие GenAI в мире, новые направления исследований, которые привлекают больше всего внимания на конференции и самые обсуждаемые проблемы в генеративном ИИ

Рад очной встрече с Артёмом и тому, что такие мероприятия как ECCV объединяют исследователей со всего мира и создают плодотворную площадку для коммуникации💪

На фотке радостно передаём привет подписчикам наших каналов👋
Please open Telegram to view this post
VIEW IN TELEGRAM
💪Даёшь большие LLM в каждый чайник

На днях группа ученых из MBZUAI и UESTC выложила тех репорт фреймворка TPI-LLM, который позволяет запускать большие LLM на смартфонах значительно быстрее аналогичных фреймворков (на 80-90%). По памяти тоже выбили рекордные 3.1 Gb для модели LLaMA 2-70B. LLaMA 3.1-70B «кушает» уже 11.3 Gb (но кого сейчас это пугает на смартфонах)

👉Код выложили тут
👉Тех репорт на arXiv
🏁 Конференция ECCV’24 подошла к концу

За последние дни у меня в основном аккумулировались разные интересные постеры, которые сейчас хочу тематически разложить, сделать в облаке папку и пошарить её всем подписчикам — это будет своего рода персонализированная фильтрация всего того контента, который привлёк моё внимание и близок темам, которыми мы занимаемся в лаборатории:

1) мультимодальность и видео, визуальные энкодеры
2) генерация и редактирование изображений и видео
3) embodied AI, VLM в робототехнике
4) генеративное проектирование в задачах синтеза CAD объектов различных форматов
5) эффективные методы представления визуальной информации (отдельно от самих энкодеров)

Если получится сделать мини семинар с разбором интересных статей и просто обзором конференции, то его тоже распространю всем😉

А пока, предлагаю улыбнуться нескольким забавным постерам и необычным участника, которых я заметил за эти дни☝️
🥇 Экономный исследователь
🥈 «Я-свой-постер-оставлю-навечно-тут»
🥉 «Не жалею краску в плоттере»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Запустился второй сезон конкурса Красоты кода — легендарного состязания программистов от Сбера на самый обаятельный и привлекательный код!

В этом сезоне:

⚡️ Пять дисциплин: Frontend, Backend, Mobile, DevOps и AI
⚡️ Три номинации в каждой дисциплине и две общие номинации
⚡️ Призы: iPhone 16, колонка SberBoom и приглашение на оффлайн конференцию HighLoad++ в Москве

Финал на HighLoad++ 2-3 декабря!

Вся-вся информация вот тут

Я буду экспертом в жюри и верю, что красота спасёт мир 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Помимо ECCV’24 прошлая неделя запомнилась ещё двумя крайне знаменательными событиями:

Один из ключевых исследователей в лаборатории FusionBrain, защитил PhD в Сколтехе. Руководителями работы выступили Александр Панченко и ваш покорный слуга

У нас успешно приняли статью «Kandinsky 3: text-to-image synthesis for multifunctional generative framework» на демо трек Core A* конфы EMNLP’24, которая пройдет в середине ноября в Майями🎉
Все мы немного физики💪