VG: Video Courses
1.04K subscribers
349 photos
30 videos
301 links
Канал для объявлений лаборатории машграфики ВМК МГУ и лаборатории анализа видео института ИИ МГУ по курсам на ВМК МГУ, ФКН ВШЭ, AIM МГУ и университета Иннополис. А также для дискуссионных постов про новости в обработке видео и не только.
Download Telegram
Господа!

Поговорим про "медленные" экспоненциальные процессы (в отличие от "быстрых" в ИИ) — про электромобили.

Помню, в далеком 2019 в Шэньчжэне одним из моих сильных впечатлений были 100% электромобилей в такси от никому тогда неизвестной BYD. Сейчас электромобили взлетают в Китае, где в ноябре доля электро в продажах составила 59,4% от всех легковых, а за первые 10 месяцев года — 53,4%, т.е. рост идет хорошими темпами. 😲💪

Причины роста:

1. Ключевая фундаментальная причина — снижение цены. 35-45% в стоимости электромобиля составляет батарея, которая падает по экспоненте (первый график: -8% в прошлом году, 4,4 раз за 10 лет и 13,6 раз за 15 лет). Условно, если 15 лет назад в Тесле аккумулятор занимал до 85%, то в последний год стоимость ходовой электромобиля и машин с ДСВ сравнялись. Достигнут паритет. 🙂

И сейчас электромобиль постепенно будет стоить дешевле и дешевле. 👏

2. Динамика разгона до 100 км/ч. Электромобиль, это по факту спорткар. Отсюда многочисленные ролики Tesla vs Ferrary vs Lamborghini (где Тесла всех делает), Тесла vs Ламборджини Ураган, Тесла vs Бугатти Супер Спорт и, наконец, Xaomi SU7 MAX vs Tesla vs Porsche, где Xaomi (самая дешевая, в 4+ раза дешевле Порше) всех делает. Конечно, они прокачались на паэрбанках и роботах пылесосах и теперь... 😉 Короче, суперкар по цене "обычной" машины, это мы любим 🏎🏎🏎🙂

3. Танковый разворот — улетная опция для парковок. Кого хоть раз в жизни "запирали" на парковке и он уезжал на такси, а потом забирал машину оценит! На видео выше китайская бабушка под семечки снимает двор и чутка фигеет от этой опции 😂 (зацените число надежно запертых машин! 😢🤷‍♂️) Вот так это управляется, можно и вообще боком, и на бездорожье. 🤘

Фишка возможна только на электромобилях, когда регулируется крутящий момент на каждое колесо под единым управлением акселерометров и гироскопа. Забавно, что первыми серийно фишку реализовали китайцы 🇨🇳🐲, а потом уже начали повторять другие производители (не все))). 😉

4. Электромобили существенно дешевле в эксплуатации. Вот любопытное сравнение стоимости проезда 100 миль на бензине и электричестве в 33 странах. В большинстве стран разница в 2-4 раза, в Китае 6 раз, а Аргентине электромобили выгоднее в 12 раз (!). Но важнее, конечно, полная стоимость владения (TCO). В неплохом отчете Ayvens (крупнейшей мультибрендовой лизинговой компании) Car Cost Index 2025 отлично проанализирована TCO по странам. Так BMW i4 дешевле BMW series 3 (эквивалентной по классу, спецификации и обвесу бензиновой) в 21 стране Европы из 27. Причем львиную долю в TCO электромобилей занимает амортизация (читай, старение аккумулятора), которая будет снижаться со снижением цены аккумулятора (первый график).

5. При наличии инфраструктуры время на зарядку меньше времени на заправку. Помню, в Китае прикололи рестораны, парковки перед которыми были массово оборудованы электрозаправками. Аналогично много электропарковок в торговых центрах на парковках компаний и т.п. (суммарно ~20 миллионов "розеток" на ~40 миллионов электромоблей) Там достаточно раз в неделю съездить на работу в ТЦ (доп. время 20 секунд — воткнуться и вынуть по возвращению) и ты заряжен.

Для холодной России все это не так актуально, ибо мало зарядок, снижается эффективность батареи и если у вас не теплый гараж на 5 машин в доме со своей зарядкой, все не так волшебно, как в Китае. Но прогресс не остановить)

В 2025 году BYD впервые обогнала прошлого лидера Теслу, причем очень уверенно (последний график). 💪💪💪

Нас ждут ОЧЕНЬ интересные 10 лет. 🚘🚘🚘 Даже в области "медленных" экспонент! 😉

Больше про скорость прогресса по тегу #speed_of_progress

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141🤔1
Господа!

К нам на ICLR попала в общем-то неплохая статья, получившая (6.0):
* 4: marginally below the acceptance threshold.
* 8: accept, good paper
* 6: marginally above the acceptance threshold.

Это очень хорошие оценки (сужу по нашим статьям туда в том числе) и она с большой вероятностью прошла бы, но...

Авторы навайбкодили интро про диффузионные SR (первая картинка) со статьей "Star: Structure-aware diffusion for video super-resolution" (Xu et al) типа Люка Ван Гула (одного из наиболее продуктивных профессоров в Европе, и, что забавно, научника одного из моих бывших студентов в его бытность аспирантом в Европе))).

А у ICLR очень четкие правила:
Policy 1. Any use of an LLM must be disclosed...
Policy 2. ICLR authors and reviewers are ultimately responsible for their contributions...

Нужно декларировать LLM, даже если используете их для проверки орфографии! С такими правилами нагаллюцинированная ссылка при полном отсутствии декларации использования LLM (вообще не использовали, ага-ага!) — чистый суицид. Закономерный результат — desk reject (вторая картинка). 🤷‍♂️

Вообще с этого года раздел "Use of LLMs" обязателен в приложении к статьям на ICLR. У них почти удвоилось число поданных статей (с 11,6 тысяч в прошлом году до 19,6 тысяч в этом) и жестко фильтровать поток — острая насущная необходимость.

На CVPR в этом году правила мягче, хотя также:
papers containing obvious factual inaccuracies will be rejected when found and may be rejected without review.

Т.е. декларировать использование LLM не нужно, но за косяки будут реджектить не разбираясь.

И дважды подчеркнуто правило:
Prompt injection: Hidden text or instructions to influence reviewers/tools, is strictly prohibited and considered an ethics violation. Submissions containing such attempts will be desk-rejected without review and may face further sanctions.

Очевидно, CVPR делают автопроверку для предварительной фильтрации статей и, похоже, хотят увеличить ее масштаб, поэтому игры с промпт-иньекциями им совершенно лишние.

У ICML 2026 также:
Any attempts at prompt injection are strictly forbidden and will result in desk rejection.

Характерно также, что запрещено задавать LLM вопросы про сильные и слабые стороны статей на ревью:
Not allowed: Ask LLMs about strengths/weaknesses, ask to suggest key points for the review, suggest an outline for the review, or write the full review

Использование LLM для рецензирования — отдельная крайне болезненная тема, доказать которую непросто, хотя у нас за прошлый год было аж 3 случая почти одинаковых рецензий просто у них мысли дословно совпали, да😉 (как судьба статей станет известна, возможно, расскажу))).

Очень интересно наблюдать, как правила использования LLM плавно меняются на всех основных конференциях (NeurIPS, ICCV, ECCV, AAAI и т.д.) в сторону увеличения строгости, но несколько отличаются между собой. Сообщество, очевидно, не успевает за ситуацией и пробует разные стратегии на ходу. 😲🙂

В общем — крайне интересный процесс, спровоцированный быстрым прогрессом (похоже, это только начало)! 😁

А теперь представьте себе, что использование LLM при написании дипломов пришлось бы декларировать! И за любой прокол — защита в следующем году! Ух! 😁 (это я вспоминая, как с прошлого года появилась возможность не только не писать, но и не читать диплом, передавая его от одной модели другой на чистку)))

Вот поэтому эти конференции и со звездочкой! 😉

Работаем! 💪💪 Скоро расскажу про свежие результаты 😁

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥1🤔1
Господа!

У нас праздник — статья Виктории Леоненковой зашла на IEEE International Conference on Pervasive Computing and Communications (Италия, Пиза, середина марта), которая A* устойчиво c 2013 года! Это значит, что у нас уже 8-й человек за 4 года стал первым автором А*, причем статья практически была написана на 4 курсе!
🥳🥳🥳🙂👏🙂🥳🥳🥳

Сейчас Вика в магистратуре в Лондоне (и ей там хорошо). Если брать из наших прошлых студентов, то Максим Синюков (сейчас в аспирантуре в University of Southern California) в позапрошлом году стал соавтором на ECCV (А*), а в прошлом первым автором на ICCV (A*) и он такой не один, так что наш список первых авторов А*, если брать прошлых студентов больше, и это все без читов типа "equal contribution" (когда можно несколько добавить за одну публикацию)! 😁

Также на этой неделе у Георгия Готина (4 курс!) зашла статья в "Big Data and Cognitive Computing" (Q1) 🙂👏🙂🙂👏🙂🙂👏🙂 Заметим, что и эта статья, и статья Виктории написаны в соавторстве с нашей лучшей аспиранткой первого года Екатериной Шумицкой (5 А* на данный момент, что для середины первого года аспирантуры просто это очень-очень-очень празднично 💪💪💪🙂🙂🙂💪💪💪) и лучшей сотрудницей Анастасией Анциферовой. 🙂🙂🙂 Сила! 💪💪💪

Ну и до кучи у Сергея Муравлева (тоже 4 курс!) на этой неделе зашла статья на ICASSP-2026! Это только В, но Барселона на майские это тоже, в принципе, неплохо 😉

А куда на 4 курсе зашла статья у тебя %%USER_NAME%%?

В целом же хотелось бы дойти до ситуации, когда у нас будет 4 А* статьи при поступлении в аспирантуру, как у Кати Шумицкой.

Работаем! Stay tuned! 😁

#pro_conferences #our_successes

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩1310🔥6🥴4👏2🎉2🤔1
Господа!

Тут неделю назад Райан Даль (наиболее известный проект Node.js) написал предельно прямо "the era of humans writing code is over".

А 5 дней назад на Международном Экономическом Форуме в Давосе была дискуссия Демиса Хассабиса и Дарио Амодея, где товарищ Дарио заявил:
У нас в Anthropic есть инженеры, которые говорят: "Я больше вообще не пишу код. Я просто даю модели написать код, потом редактирую его и занимаюсь сопутствующими задачами".
Я думаю — хотя не знаю наверняка — что нас отделяет от 6 до 12 месяцев от момента, когда модель будет выполнять большую часть, а может быть и абсолютно всю работу инженеров-программистов от начала до конца.


Я слежу за темой давно. Два года назад на OpenTalks.ai в Тбилиси я с большим интересом пообщался со специалистами в LLM (а GPT тогда как раз год, как хайпанула, и много докладов было про LLM), причем тогда была накладка с залом и конференция проводилась кулуарно практически для докладчиков с записью для всех. Была отличная возможность обедать и ужинать с докладчиками. И меня тогда поразил жесткий прогноз "через 5 лет 80% программистов или сильно изменятся или потеряют работу". Заметим, Cursor тогда был в стадии глубокой беты и о нем никто не знал.

Тогда же Дженсен Хуанг жег "не отдавайте детей изучать программирование". Хайповал!)

В марте 2025 Дарио заявил, что через 6 месяцев 90% кода будет писать AI, а через год, возможно весь код. Он прообещался, но ненамного, ибо в конце 2025 года (с выходом Claude Opus 4.5 и GPT-5.2 Pro) произошел очередной качественный скачек.

Впрочем еще тогда же в марте Джефф Дин из Гугла говорил, что у них в Google AI генерирует уже 25% кода.

Тем показательнее изменение ситуации сейчас. Вот реакция на последнее выступление Дарио от Product Director @ T-Bank AI:
Год назад на все предикты Дарио большая часть моих знакомых смотрела, крутя палец у виска. Сейчас почти все мои знакомые SWE, начиная от стартапа и заканчивая бигтехом, пишут руками меньше 20% кода, а всё остальное делает агент. Я сам давно уже не программист, поэтому не показатель, но с появлением Cursor и Claude Code редко пишу код руками. С появлением Opus 4.5 — все 100% кода пишутся им в Claude Code. Более того, я в терминале работаю через Claude Code — настолько лень стало писать bash-команды самому.

Опрос знакомых дает похожую картину, кто-то говорит, что производительность выросла примерно в 3 раза за счет, кто-то, что очень много использует подписки. Четкой статистики нет, но очень похожая картина.

Шикарную историю на днях опубликовали в блоге Anthropic. Они 2,5 года назад сделали тестовое задание для предварительного отсева кандидатов. Задание по оптимизации параллельного кода на Python, дававшееся на 4 часа, причем в нем МОЖНО было использовать ИИ. Оно было с хорошей глубиной по сложности, не требовало специфичных знаний и было интересным. Его выполнило более 1000 человек и большинство их текущей команды оптимизации были набраны после его выполнения. НО! В мае 2025 Claude 3.7 Sonnet стал настолько хорош, что 50% кандидатов было выгоднее полностью делегировать Claude выполнение, чем делать самому (ибо время). А Claude Opus 4 за 4 часа обгонял почти всех кандидатов...

Задание пришлось обновлять до 2.0. Время было сокращено до 2 часов, стартовый код стал проще... НО! Это помогло ненадолго.🫨 Claude Opus 4.5 побил ВСЕХ людей на этой задаче за это время. Они обсуждали запретить использовать ИИ (не вариант для Антропик), поменять задачу (не смогли найти!!! 🤔), и сделать синтетическое решение (головоломка, которая зашла)... Автор пишет: "Мне до сих пор грустно отказываться от реальной задачи... Но реализм может быть роскошью, которой у нас больше нет". Реальных задач много в трейне, поэтому на них Claude работает лучше. Лучше всех людей... 🤔 Настоятельно рекомендую прочитать этот грустный пост! ☹️

В Давосе CEO Антропик хвастался, что у них был $100 млн ДОХОД в 2023, $1 млрд в 2024 и $10 млрд в 2025 🤩. Сколько у них будет в 2026? 🚀

Какова твоя стратегия на ближайшие 3 года %%USER_NAME%%? 🤔

Это ведь только начало... 😁

#speed_of_progress

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2🤔2
Господа!

Однако история прошлого поста (благодаря Ивану Молодецких 🤝) получила продолжение! 😲

Антропик выложили код задания в открытый доступ (ссылка в прошлом посте была), и народ создал сайт https://www.kerneloptimization.fun/, на котором подняли среду проверки и прикрутили лидерборд с правилами (не больше 5 сабмитов в час, не больше 30 секунд на задание и т.п.)

Короче! У Антропика в статье было "если у вас будет меньше 1487 циклов, пришлите нам свой код и резюме". 1487 циклов, это 11,5 часов работы Claude Opus 4.5(!!!).

На сайте уже сейчас 150 решений лучше 1487 (!!!). Более того, из них 105 решений лучше результата 1363 циклов Claude Opus 4.5 "in an improved test time compute harness after many hours" (сколько точно часов не раскрывается, но явно заметно больше 11,5).

Однако, если всем миром, то кожаные еще вполне себе могут! 💪😁

В побивших рекорд Claude есть никнеймы вида MaksymSherman и GeorgiZlatarev, твиттер каждого приведен, но в топе заметное число (включая первое место) пустые. Второе место — выпускник Оксфорда из Шотландии.

В общем все, как в исследования группы METR, о которых я писал тут и тут. На длинных дистанциях люди бьют LLM довольно уверенно.

Впрочем, как говорил Хассабис, ситуация в отдельных задачах напоминает шахматы. Сначала программы играли плохо. Потом начали обыгрывать гроссмейстеров. Потом лучше всего играли в связке человек-компьютер, а потом человек в задачах на скорость уже только мешал. 🤷‍♂️😉

В общем кожаные вполне пока могут этому выскочке Claude надрать задницу, причем во вполне товарных количествах! 👏💪👏 Расходимся! 😁 (Кто-то к привычным занятия, а кто-то обдумывать новую стратегию. И именно для них последние два поста). 😉

Stay tuned! Продолжение следует! 😉

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102🤔1
Господа!

У нас очередной праздник!

У Жени Богатырева (2 курс маги) первым автором зашла статья на ICLR 2026 в основной трек!
🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳
🙂💪🙂💪🙂💪🙂💪🙂💪🙂💪🙂
🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳🥳

Итого у нас уже 9-й человек (!) за 4 года пополнил наш клуб первых авторов А*! (и это не считая затащивших в других местах! 😉)

Яндекс, напомню, как и другие компании (включая ооочень известные иностранные), первых авторов любят и не зря! Сегодня это во многом способность быть "быстрее китайцев", что сложно и очень ценится.

У статьи, к слову, была очень непростая судьба.

Первый раз она была подана еще на CVPR 2025 в ноябре 2024 (снята), потом ICML 2025 (Reject), NeurIPS 2025 (снята), AAAI 2026 (Reject) и, наконец, с 5-й переподачи ICLR 2026 (Accept!). 😲

Вдумчивый читатель, сопоставив даты, спросит: так это работа была выполнена в бакалавриате? Типа того! 😁 Это к вопросу о том, как правильно проводить бакалавриат.

Статья постоянно совершенствовалась. По материалу, тексту, подаче. Я уже писал, что у нас иногда на rebuttal (процесс жесткого спора с рецензентами) пишется текста столько же (и даже было больше!), сколько в основной статье! Причем часто этот текст столь же содержателен и хорошо структурирован (это сильно помогает пройти). Как следствие, далее эти материалы идут в supplementary материалы статьи, что сильно помогает пройти следующий rebuttal. 😁 Основной риск тут в novelty — новизне, за отсутствие которой бьют сильнее всего. Если за время этих увлекательных многомесячных циклов появятся похожие работы, это [белый пушной зверек]! 🤧 Нужно начинать новую статью...🤷‍♂️

Короче! Женя (сотоварищи) изначально получили 6444 (не фонтан, это где-то топ-34%). Причем первый ревьювер (с 6) был LLM-reviewer (огромная проблема сейчас), статью не читал и выкатил огромный текст с замечаниями, которые в статье уже покрыты. И не ответил на ответ (жутко дизморалещее поведение, заметим).

У второго и третьего были схожие замечания, что недостаточный novelty и то, что гейн по метрикам был в основном из-за датасета, а не от архитектуры. Ответ был, что в силу того, что модель real-time, сложную архитектуру реализовать по сути невозможно, а гейн у нас из-за того, что взяли идеи от лучших моделей в области. И в introduction фокус статьи поменяли на датасет, сделав его главным contribution (бери хорошие данные делай еще лучше!). После этого оба ревьювера ответили почти одинаково: "Спасибо за детальное объяснение, повышаю оценку до 6".

Последний ревьювер лучше всех разбирался в теме. Помимо вопросов про простоту модели (что вообще-то с точки зрения практики огромный плюс, но у науки свои приоритеты), и т.п. попросил проверить, насколько метод hardware-friendly — перегнать в ONNX и замерить гейн относительно существующих моделей. Женя это добавил, и он даже без комментариев (что создало проблемы) поднял оценку до 6.

Короче, у нас ВТОРОЙ раз в нашей истории ТРИ ревьювера подняли оценки! 🥳🥳🥳 (в прошлый раз это было на ICML 2025 у Саши Гущина). И статья внезапно переместилась в Топ-4% лучших статей (~гарантированное прохождение!!!).

Но судьбе было угодно еще потрепать нервы! 🤷‍♂️ Сайт взломали, ревьюверов деанонимизировали. И они массово бросились поднимать оценки (удивительно! с чего бы??? 😂). В итоге орги приняли соломоново решение сбросить вообще все оценки к начальным 🤔 и перетусовать Area Coordinators (принимающих решения). 😢 Причем переписка сохранилась и новому AC было видно, что двое подняли (а повышение третьего, увы, не видно).

Но все равно этого хватило для прохождения! Уфффф! 😁

Вообще, когда студенты изучают DL и выполняют все эти fast-way-2-win задания, создается иллюзия, что все просто. Берешь данные, архитектору помоднее, фигак-фигак и в продакшн готово 😂. А дальше в реальной жизни оно почему-то так не работает. Вчера общался со своим выпускником, который в Яндекс сейчас увольняет трех подчиненных, не затащивших на испытательном. Наша задача, увеличить число круто затаскивающих, причем в практичных быстрых алгоритмах (см название статьи). 😁

Женю и соавторов еще раз горячо поздравляю! 👏👏👏

Работаем! 😁

#pro_conferences #our_successes

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
25🔥10🤔3
Господа!

Одна из наиболее интересных бенчмарков последнего времени, это METR Time Horizon (про который я писал тык, тык), неделю назад без особой помпы обновился до версии 1.1.

Этот бенчмарк интересен тем, что построен на закрытом датасете (сегодня такие бенчмарки хотя бы относительно что-то показывают), т.е. в первой версии 64 задачи (из 189) было открыто и 125 закрыто. Суммарно на его разметку было потрачено 1500 часов работы людей и он неплохо показывает скорость усложнения задач, с которыми справляются модели.

В Time Horizon 1.1 они:
* на 34% увеличили число задач (до 228)
* удалили 15 задач (посчитанных неудачными)
* обновили 53 задачи (описание, либо уточнена оценка по времени).
* на графике выше видно, что существенно выросло число длинных задач, с одной стороны наиболее дорогих в разметке, с другой — наиболее интересных с текущей скоростью развития агентов.

Увы статьи еще нет, только пост, поэтому неизвестно, сколько новых задач будет раскрыто (есть ссылка на гитхаб, но я его не парсил).

Также много мелких (но важных для точности и удобства оценки) изменений в методике, типа того, что они сменили фреймворк оценки с самописного на получивший популярность. Это явно удешевит развитие.

У меня впечатление, что они прямо старались остаться в рамках старых доверительных интервалов, но в любом случае:

* Общий тренд с 2019 года: время удвоения горизонта ~196 дней (≈7 месяцев), что соответствует предыдущим оценкам

* С 2023 года: время удвоения сократилось со 165 дней (TH1) до 131 дня (TH1.1) — прогресс на 20% быстрее

* С 2024 года: время удвоения составляет всего 89 дней (TH1.1) против 109 дней (TH1)

Это означает, что они констатируют УВЕЛИЧЕНИЕ ВРЕМЕНИ УСПЕШНО РЕШАЕМЫХ ЗАДАЧ БОЛЬШЕ, ЧЕМ В 16 РАЗ ЗА ГОД последние два года! 😲

Важная оговорка — они рассматривают 50% и 80% success rate, что в большинстве задач заметно ниже типичных требований работодателя. Но 80% растет примерно с той же скоростью!

В этой новостью хорошо рифмуется вчерашняя новость, как команда агентов на Opus 4.6 Антропиков за неделю написала полноценный С-компилятор на Rust под платформы x86, ARM и RISC-V (собирать под несколько платформ это очень круто, кто понимает). Агенты потратили 20000$ через API, написали 100000 строк кода компилятора, который может собрать ядро Linux 6.9! Я когда-то пересобирал ручками ядро Linux под не самое стандартное железо, тогда даже на gcc это было эпопеей. Заняло неделю... Кроме этого у них собрались SQLite и Doom (код которых не самый тривиальный из-за оптимизаций).

Здесь впечатляет именно быстрый рост сложности задачи. Если бы в начале 2023 после выхода GPT сказали, что через 3 года агенты будут писать компилятор ядра Линукса за неделю, то крутили бы пальцем у виска примерно все, кто хоть сколько-нибудь понимает в теме. А создатели моделей достигли этого и продолжают увеличивать сложность задач.

Что у них будет следующей планкой по уровню? 🤔

Смотрю на ситуацию в легком обалдении! Пока скорость наступления будущего растет.

Больше материалов на тему:
#speed_of_progress@vgcourse

@vgcourse
3
Господа!

Мы в этом году снова участвуем в челленджах 11-го CVPR NTIRE (New Trends in Image Restoration and Enhancement, хотя за 11 лет там уже давно далеко не только восстановление и улучшение). И если в прошлом году у нас прошел только один челлендж по улучшению пользовательского видео, то в этом два — челлендж детекторов дипфеков картинок и челлендж предсказания карт салиентности (куда смотрит человек в видео).

Соревнование еще в самом разгаре (на первой картинке внизу таймлайн), но уже можно сказать, что челлендж дипфейков существенно перекрывает по популярности все соревнования, которые мы проводили (сейчас 173 участника и 609 сабмитов)! Более того, оно сейчас на первом месте среди 44 соревнований этого года на всем NTIRE!

Причем по опыту часть сильных участников засылают свои решения в последний момент, а часть засылает, но не дает добро показать их в лидерборде (в том числе сильные, и мы это видим).

Смысл соревнования в том что сегодня детекторы дипфейков уже довольно неплохо работают, однако когда в реальной жизни их результат заливают в соцсеть, его жмут. Иногда жмут сильно (ну типа много пережимали, когда пересылали). И на этих сжатых точность детекторов резко падает. Наш лидерборд строится по результатам после 18 преобразований деградации. Т.е. измеряет лучше всего выживающих.

Всего мы подключили 42 генератора картинок (как опенсорсные, так и коммерческие). В трейн из них ушло 20 генераторов. Датасет постарались сделать максимально без неявных дата-ликов (когда, например, у коллег мера эстетики сгенерированных была заметно выше, чем у реальных, а мерам эстетики, кто помнит, была посвящена наша Highlight paper на ICCV прошлого года... или, например, все реальные картинки были пожаты JPEG, а все сгенерированные вообще не сжимались, что сегодня тоже легко детектится). Тем не менее текущие результаты оказались довольно просты для детекторов (см вторую картинку), хотя решения типа с 0,99 на данных без искажений и 0,80 (огромная ошибка по нынешним временам) на данных с искажениями встречаются.

Но дальше будет интереснее. Самые лучшие решения, это те, где результат лучше всего генерализуется. В идеальном мире у нас не должно быть ситуации, что выходит, новый генератор и детекторы полностью перестают на нем работать. Или все дружно переходят на вышедший в сентябре прошлого года JPEG AI и детекторы массово умирают. В общем для участников будет интрига, насколько изменится датасет в финале, а там точно будут новые генераторы, ибо мы меньше половины генераторов из нашего датасета задействовали (мы заявили 25 генераторов на Validation и 35 на private). Новые сложные преобразования в приватном также заявлены) А для нас будет интрига, кто из участников откроет в конце код (и войдет в финальный лидерборд статьи). Ибо часть участников (включая лидеров) код может не открыть.

Забавно, что сейчас лидер, см скриншот — Ant International (и судя по описанию в профиле это они, да) — сингапурская финансовая компания, часть холдинга Ant Group (наиболее известный продукт — Alipay). Если кто следил, то нашумевший год назад Deepseek был создан также финансистами — китайским хэдж фондом. Сейчас Ant International на первом месте. И интрига в том, потеряют ли они его и откроют ли код. Велика вероятность, что не откроют (особенно если не потеряют))). Но в любом случае очевидно, что код открывших будет внимательно изучен и улучшит другие решения. Ну и мы внимательно изучим, естественно. 😉

Очевидно для нас челлендж — это великолепная возможность проверить качество датасета. Ибо мы планируем самый большой (и самый качественный) датасет такого рода в мире подготовить. И уже много для этого сделали. Также мы планируем следующий челлендж сделать на детекторы дипфейков в видео (намного более сложная тема, в том числе чисто вычислительно для нас).

Буду держать вас в курсе этой интереснейшей темы! 😁

Stay tuned! 😉

#our_successes@vgcourse
@vgcourse
👍7🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
Уже в эту среду, 18 февраля пройдет первая лекция спецкурса «‎Интеллектуальные методы обработки видео»‎, на котором вы узнаете:
• Какие существуют современные тренды в обработке видео
• Как правильно использовать машинное обучение и нейросети в этой области
• Почему существуют мыльные картинки и как от них избавиться
• В чем заключается магия пленоптики, или как устроены 4D видео

Если ты учишься на 2-4 курсе и хочешь попасть в видеогруппу нашей лаборатории – этот курс твой счастливый пропуск!

Присоединяйся к чату курса
7👍4
Господа!

Ровно неделю назад я писал про наш новый челленжд по дипфейкам на CVPR NTIRE, который вырвался на 1 место среди 44 челленджей по количеству участников и сабмитов.

Короче! За неделю количество сабмитов УДВОИЛОСЬ (!) до 1231 (условно идет +100 в день, в выходные чуть меньше), а число участников перевалило за 200 (пруф выше).

Мы продолжаем держаться на 1 месте по популярности среди 44 челленджей CVPR NTIRE и по участникам, и по сабмитам! 💪🙂

Сейчас забавно читать, как год назад, 15 февраля 2025 я писал про наше первое участие в NTIRE:
Соревнование по сути только началось (первый этап), а у нас (будучи почищено от тестовых и странных) 45 участников, 22 сабмита (17 из них уникальных). Это ОЧЕНЬ круто!

По сравнению с тремя челленджами ECCV это тогда было реально круто. И вот через год мы драйвим самый большой на данный момент по участникам и сабмитам челлендж NTIRE. Хороший прогресс! 😁

Для нас это серьезное испытание качества нашего свежесозданного датасета. Его, кстати, только на HuggingFace уже скачали больше 500 раз, при том, что мы его выложили там позже (меньше 2 недель назад), поскольку люди жаловались на сложности скачивания с нашего сервера. Т.е. общих скачиваний больше. Очень неплохо заходит, особенно учитывая, что это только часть гораздо более крупного запланированного датасета, на который будет, собственно, основная статья.

Из любопытного:

* Текущий датасет пока (до планового расширения) оказался слишком легким. Борьба сейчас идет за 3-й знак после запятой! 😲 Усложнение уже добавили в табличку (чтобы морально подготовить участников, см вторую картинку).

* В этом плане сейчас место — это переобучение под эти данные (что вредно для генерализации, заметим). Но видно, как китайцы тем не менее кладут новые и новые сабмиты, чтобы выбить побольше. 😉 Забавно было наблюдать, как Ant International сдвинули на 2 место, а потом на 3. Они сначала сняли результат из лидерборда. А потом выложили новый результат, который 1 место выбил. А сейчас они опять на втором) Китайцев хлебом не корми, дай посоревноваться! С ними очень непросто конкурировать.

* Забавно, что на 26 месте сейчас компания Reagvis Labs, которая была создана прошлым летом и работает на рынке детекторов дипфейков на картинках, видео, аудио и документах. Они явно не парятся перезаточкой под данные, но вангую, что в финале их место существенно вырастет (хотя не факт, что они раскроют код).

На днях поговорил с нашим выпускником, который сейчас работает за рубежом в компании, которая также занимается детектом дипфейков. Он много интересного рассказал, в том числе о том, как они в челленджах участвуют с разного рода хитростями (когда код раскрывается, но это свежесозданный вайбкод, например). Будем этот опыт учитывать! 😁

Еще забавно, что на втором месте по популярности NTIRE этого года также бенчмарк детекторов дипфейков, но мы пока удерживаем лидерство 😉

И самый смак, конечно, будет в анализе результатов.

Stay tuned! 😉

#our_successes@vgcourse
@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Всем привет, уже завтра стартует спецкурс «Интеллектуальные методы обработки видео».

На первой лекции мы расскажем о нашей лаборатории и наших проектах, а также наши аспиранты поведают о своем исследовательском пути в ней

Ждем всех желающих в 14:35 в аудитории 612 на ВМК

P.S. на гифке изображен четырехмерный кадр, который вы научитесь получать сами в последнем задании курса)
🔥8👍2
Господа!

Из свежего забавного. На прошлой неделе оживленные споры в рассылке университета Иннополис вызвал анонс выступления Марка Обозова, который типа "руководитель исследовательской команды в Т-банке, мейтнейнер PyTorch и исследователь института ИИ Иннополиса" при том, что ему всего 15 лет. 😲

Сразу скажу, что на странице мейнтейнеров PyTorch найти такую фамилию не удалось, зато удалось найти профиль https://openreview.net/profile?id=~Mark_Obozov1. Для тех, кто не в курсе — большинство А* конференций рецензируются на сайте openreview и по профилю там можно посмотреть, какой опыт у человека. Прямо скажем далеко не у каждого аспиранта ВМК такой же богатый профиль openreview. Я бы даже сказал, что это найти аспиранта с сопоставимым профилем — это редкость 😲😁. При этом статьи в основном за прошлый год, когда молодому человеку было, надо полагать, 14. 🤯

На github в torchtune у Марка 9 место среди контрибьюторов, очень неплохо! 🙂

В качестве научного руководителя у него указан Александр Гасников — ректор университета Иннополис, который не только один из самых молодых ректоров, но и единственный ректор в России, у которого несколько десятков А* статей по ИИ.

Что я по поводу этого всего думаю 😉

Когда-то давно я был олимпиадником и еще будучи школьником получил в научные руководители сотрудника академического института РАН, который сам был вундеркиндом, его жена была вундеркиндом и их ребенок с 6 лет активно программировал и выдающиеся результаты показывал. Этот замечательный человек на своем и пачке чужих примеров популярно объяснил мне, что одной из самых болезненных проблем вундеркиндов является то, что раннее развитие далеко не всегда означает выдающееся развитие в зрелом возрасте. Скорее наоборот — это редкость. 🤷‍♂️

И гораздо чаще возникают ситуации, когда в детстве молодой человек избалован успехами, интервью в СМИ, участием в передачах и т.п., а к 25-30 годам лучшие из сверстников не только догоняют, но и перегоняют. Упс! И это нередко крайне болезненно воспринимается. Тебя уже не показывают каждый месяц по телевизору к радости бабушки 🤔😭

При этом нейропластичность никто не отменял и то, что у вас в раннем возрасте научный руководитель будет ректор университета сильно выше среднего, это очень мощный потенциальный бустинг. Который кто-то использует, а кто-то нет. Все как всегда, короче! 😉

Выступление Марка, кстати, можно посмотреть тут! Там час выступления и 10 минут вопросов. Ничего особенного. Чел просто рано прокачивается делать научные доклады и работать с аудиторией 😉

И дальше для вас вопрос, когда созреете прокачиваться вы. Мы с коллегами наблюдаем сейчас абсолютно рекордное количество желающих прокачаться среди закончивших университет 3-7 лет назад. Ибо они ощущают, что жаренным в воздухе попахивает. Подобная Марку зубастая молодежь весьма бодро шуршит.

Всем конкурентоспособности! 😁

@vgcourse
#neuroplasticity
#нейропластичность
Please open Telegram to view this post
VIEW IN TELEGRAM
15😁4🤔3
Господа!

Работал на прошлой неделе над повышением доходов студентов. 😁

На лекции задал вопросы (со слайдов):
— Кто хочет получать больше 1 млн рублей в месяц?
(лес рук)
— Кто хочет получать больше 1 млн долларов в год?
(смех, лес рук)
— Почему вам будут их платить в 2030 году, учитывая скорость развития ИИ?
(тут аудитория подзависла)

Были варианты:
— Потому что мы будем работать много.
А другие желающие получать много будут работать мало? 😉
— Потому что мы умеем учиться.
Другие не умеют? 😉
— Мы будем предлагать нестандартные решения.
А другие не будут? 😉
— Мы будем уметь находить и извлекать информацию.
А других их не будут уметь? 😉
— Потому что мы будем делать то, что другие не могут.

Ваш покорный слуга:
— Отлично! А что именно вы будете делать, что другие не могут? Я ж не против! А что именно?

И дальше молчание аудитории...

Я, увы, не смог выбить из аудитории второкурсников конкретные знания и навыки, за которые много платят в век ИИ... (уверен, что среди подписчиков ситуация была бы сильно лучше)))

Забавно, что первое домашнее задание цикла "Путь лемминга", который я уже больше 10 лет читаю, заключается ровно в составлении списка, чему нужно научиться в университете. Очень полезное домашнее задание, замечу. Выписать КОНКРЕТНЫЕ навыки, которые будут цениться на интервью на топовые позиции.

В качестве намека: какое-то время назад в статье с характерным названием "Дефицит компетенций стал главным барьером развития искусственного интеллекта" директор по развитию технологий ИИ "Яндекса" Александр Крайнов ехидно отмечал, что хотя по бумагам наши вузы выпускают миллионы миллиардов специалистов в ИИ, Яндекс не может их обнаружить:
"Когда мы приглашаем специалиста, то он должен уметь простую вещь. Он должен взять последнюю научную публикацию по теме ИИ, объяснить, что там написано, сравнить с другими и оценить ее. И это не тестовое задание, это его будущая работа. Теперь внимание, сколько выпускников справляется с такой задачей. Мы видим, что есть буквально три вуза в стране, где мы можем в год брать больше десяти человек, обладающих такими компетенциями. Далее длинный хвост, где можно пригласить одного, двух человека из ВУЗа"

И он прав! Таких людей ОЧЕНЬ мало среди выпускников! Забавно, что прошлым летом я делал пост о том, что такое фундаментальные знания, которые может давать университет сегодня, который очень хорошо рифмуется с уважаемым директором по ИИ:
Хороший критерий — способность самостоятельно (без GPT) читать свежие статьи по теме с топовых конференций типа CVPR, ICML, ICLR, ICCV, ECCV, AAAI etc.

Существует довольно много работающих с младших курсов молодых людей, считающих, что они все им нужное от университета получили, которые этот критерий не проходят. И не считают нужным проходить. И слава богу!

Также деликатно замечу, что способность ЧИТАТЬ, намного слабее способности ПИСАТЬ. И если человек серийно ПИШЕТ в основные треки топовых конференций, он гораздо больше понимает, почему именно статьи написаны так, а не иначе (ибо там много-много байесов, порождающих fake science). И успешнее создает топовые технологии.

У нас за 4 года уже 9 первых авторов А* статей по ИИ (а с выпускниками 11). Тот же Александр Крайнов не раз заявлял, что Яндекс ведет список первых авторов А* для HR (при этом наибольшее число первых авторов А* в России работает почему-то в Сбере 😉)

Как тут шутят в одном известном канале:
2024: Промпт-инженер
2025: Вайб-кодер
2026: Менеджер ИИ-агентов
2027: Безработный

В этом плане вангую, что к 2030 году сегодняшние студенты поделятся на тех, кто будет обоснованно считать, что Яндекс безобразно мало платит (и уйдет получать больше!) и тех, кто лихо промптил и вайбкодил в университете 😂

Все меняется очень быстро! Ответ на первое домашнее задание за 5 лет поменялся очень заметно (и продолжает меняться!). Но вы можете его не делать! Большинство не делает. Как писалось в одной старой книжке "Много званных, но мало избранных". А в это время кто-то тихо и методично прокачивает А* с 14 лет (где он будет в 24, и где будешь в 24 ты?).

Sapienti sat.

Всем конкурентоспособности! 😁

@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍5🔥3🤔2😁1
Господа!

Мы меж тем продолжаем драйвить самый популярный челлендж CVPR NTIRE (на графике выше число участников во всех 44 челленджах, выделены наши два). Видно, что челлендж детекторов дипфейков лидирует с отрывом. 💪💪👍

До окончания соревнования осталось две недели и мы планово выложили набор Hard Validation (ранее Validation 2). Безобразие с борьбой за третий знак тут же прекратилось, набор действительно оказался заметно сложнее (привет, улучшение датасета!))). При том, что мы постарались сохранить достаточно реалистичные искажения (например, сжатие JPEG 2000 и JPEG AI), более реалистичные, чем у конкурента. Сейчас даже у сохранившего первое место Ant International 0.9587. А ведь дальше будет еще одно плановое повышение сложности (писал об этом)! В общем благодаря сравнительно легкому входу удалось собрать много участников и сейчас начинается самая жара. 🔥

Счетчик сабмитов замедлился, поскольку количество посылок в день пришлось ограничить одной (было 5) для уменьшения заточки под датасет, поэтому у нас будет 2 место по сабмитам среди соревнований NTIRE, но зато более адекватные результаты финального лидерборда. Однозначно выбираем второе! 😁

В целом детекторы выступили заметно лучше, чем мы изначально ожидали. Например, у нас нет очень сложного (но все более популярного) кейса — редактирования картинки, когда большая часть дипфейка является реальным изображением. Такие примеры детекторы сломают массово, но такого рода датасет кардинально сложнее и дороже готовить. В общем, есть, куда расти! 😉

Очень греет, что только с huggingface датасет скачали уже ~700 раз (при том, что он выложен в двух местах, а открывших результат в лидерборд участников только 107, т.е. датасет активно качают и не участвующие в соревновании). Он на глазах становится нашим самым популярным датасетом, при том, что будет только маленькой частью большого датасета, который опубликуем с А* статьей. Работа, очевидно, заходит!

Когда опубликуем результаты по генераторам (очевидно, разные детекторы разные генераторы в разным успехом распознают), будут сюрпризы! 🎁

Stay tuned! 😁

#our_successes@vgcourse
@vgcourse
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥7👏2