VG: Video Courses

Господа!

Мы в этом году снова участвуем в челленджах 11-го CVPR NTIRE (New Trends in Image Restoration and Enhancement, хотя за 11 лет там уже давно далеко не только восстановление и улучшение). И если в прошлом году у нас прошел только один челлендж по улучшению пользовательского видео, то в этом два — челлендж детекторов дипфеков картинок и челлендж предсказания карт салиентности (куда смотрит человек в видео).

Соревнование еще в самом разгаре (на первой картинке внизу таймлайн), но уже можно сказать, что челлендж дипфейков существенно перекрывает по популярности все соревнования, которые мы проводили (сейчас 173 участника и 609 сабмитов)! Более того, оно сейчас на первом месте среди 44 соревнований этого года на всем NTIRE!

Причем по опыту часть сильных участников засылают свои решения в последний момент, а часть засылает, но не дает добро показать их в лидерборде (в том числе сильные, и мы это видим).

Смысл соревнования в том что сегодня детекторы дипфейков уже довольно неплохо работают, однако когда в реальной жизни их результат заливают в соцсеть, его жмут. Иногда жмут сильно (ну типа много пережимали, когда пересылали). И на этих сжатых точность детекторов резко падает. Наш лидерборд строится по результатам после 18 преобразований деградации. Т.е. измеряет лучше всего выживающих.

Всего мы подключили 42 генератора картинок (как опенсорсные, так и коммерческие). В трейн из них ушло 20 генераторов. Датасет постарались сделать максимально без неявных дата-ликов (когда, например, у коллег мера эстетики сгенерированных была заметно выше, чем у реальных, а мерам эстетики, кто помнит, была посвящена наша Highlight paper на ICCV прошлого года... или, например, все реальные картинки были пожаты JPEG, а все сгенерированные вообще не сжимались, что сегодня тоже легко детектится). Тем не менее текущие результаты оказались довольно просты для детекторов (см вторую картинку), хотя решения типа с 0,99 на данных без искажений и 0,80 (огромная ошибка по нынешним временам) на данных с искажениями встречаются.

Но дальше будет интереснее. Самые лучшие решения, это те, где результат лучше всего генерализуется. В идеальном мире у нас не должно быть ситуации, что выходит, новый генератор и детекторы полностью перестают на нем работать. Или все дружно переходят на вышедший в сентябре прошлого года JPEG AI и детекторы массово умирают. В общем для участников будет интрига, насколько изменится датасет в финале, а там точно будут новые генераторы, ибо мы меньше половины генераторов из нашего датасета задействовали (мы заявили 25 генераторов на Validation и 35 на private). Новые сложные преобразования в приватном также заявлены) А для нас будет интрига, кто из участников откроет в конце код (и войдет в финальный лидерборд статьи). Ибо часть участников (включая лидеров) код может не открыть.

Забавно, что сейчас лидер, см скриншот — Ant International (и судя по описанию в профиле это они, да) — сингапурская финансовая компания, часть холдинга Ant Group (наиболее известный продукт — Alipay). Если кто следил, то нашумевший год назад Deepseek был создан также финансистами — китайским хэдж фондом. Сейчас Ant International на первом месте. И интрига в том, потеряют ли они его и откроют ли код. Велика вероятность, что не откроют (особенно если не потеряют))). Но в любом случае очевидно, что код открывших будет внимательно изучен и улучшит другие решения. Ну и мы внимательно изучим, естественно. 😉

Очевидно для нас челлендж — это великолепная возможность проверить качество датасета. Ибо мы планируем самый большой (и самый качественный) датасет такого рода в мире подготовить. И уже много для этого сделали. Также мы планируем следующий челлендж сделать на детекторы дипфейков в видео (намного более сложная тема, в том числе чисто вычислительно для нас).

Буду держать вас в курсе этой интереснейшей темы! 😁

Stay tuned! 😉

#our_successes@vgcourse
@vgcourse

👍7🔥5❤2

1.61K viewsDmitriy Sergeevich, 04:36