VG: Video Courses

Дорогие девушки и дамы!

Вас всех с профессиональным праздником! 😁

Кто на канале давно знают, что у нас девушки жгут не по детски! Это Анастасия Анциферова (взяты AAAI, ICLR, ICML, NeurIPS) и Екатерина Шумицкая, ставшая в магистратуре (!!!) автором двух А* статей (таких аспирантов-то поискать).

Так и хочется сказать: "Парни, парни! Вы вообще где? Не спать! А то ИИ заменит нафиг в обнимку с такими девушками!" 😂🤣😂

В общем, девушки, ВЫ КРУТЫ!

С парнями будем вас догонять (уже в этом году)!!! )

💐💐💐💐💐💐💐💐💐💐💐💐💐💐 💐💐
Всех еще раз горячо поздравляем, любим, ценим!
💐💐💐💐💐💐💐💐💐💐💐💐💐💐💐💐

❤28🔥4

1.13K viewsDmitriy Sergeevich, edited 06:05

VG: Video Courses

Господа!

Продолжаем тему развития LLM/агентов. В комментариях к посту с графиком вакансий программистов Виктор писал:

По личному опыту и по отзывам товарищей-леммингов, чтобы LLM могла написать нормальный код, ей нужно все разжевывать

Это правда! Сам не раз тратил заметное время меняя и уточняя запрос.

НО! Тут как обычно важно верно оценивать ситуацию и предсказывать прогресс (если мы о нем говорим, а у меня постоянно речь про тренды).

Умные люди говорят, что лучше всего предсказывают будущее те, кто знает историю. В новейшей истории, т.е. буквально года три назад, в самом начале роста популярностей генеративных моделей когда они генерировали только картинки мы наблюдали взрыв популярности курсов промпт-инженеров. Всего за жалкие 120 тысяч рублей (например))) людей учили правильно составлять запрос, чтобы результат был лучше. 😉

А то просите вы, например, зайца. Нейросеть рисует зайца. Просите рельсы — рисует рельсы. Просите крышу — крышу. Но люди недовольны. Да, это крыша! (Заметим, что еще недавно просто понять такой — это было супер круто). НО это НЕДОСТАТОЧНО КРУТАЯ КРЫША, понимаешь ли! А чтобы она была крутой надо добавить еще в 4 раза больше слов, которые описываю всю ее запредельную крутизну. И с этими словами сеточка действительно рисовала крышу лучше! 😁

Интересно, что еще тогда умные люди предсказывали, что скоро нейросети научатся генерировать промпты. Но нет, мы пойдем учиться их писать (и заплатим за это)! И наши человеческие промпты будут самыми промптными промптами в мире (а курсы — самыми лучшими). Короче, товарищи из Microsoft еще в конце 2022 года написали прикольную статью (картинка из нее наверху), с автоматической докруткой промпта, который кардинально поднимал качество картинки. 🤔

Не подскажите, куда делись все эти промпт-инженеры? 😉 Ах, да! Они теперь пишут промпты для LLM. Дальновидно! Сколько вы поставите на долгую жизнь этого рынка? 😉😂

Но и это не все (продолжение следует)))

❤6

976 viewsDmitriy Sergeevich, edited 10:51

VG: Video Courses

Из забавного текущего (начало тут).

Выпущенный месяц назад Deep Research от Open AI научился по нечеткой постановке задачи (по сути набросу) формулировать очень даже годные уточняющие вопросы (по уровню это уже уточняющие вопросы специалиста), которые позволяют DR намного точнее понимать куда именно копать и давать существенно лучший результат. Неплохо!

На картинке выше пример работы с ним от ~~по сути аспиранта второго года~~ соискателя нашей лаборатории Тимура Мамедова с конкретным примером. Уточняющие вопросы прям очень хорошие! 😲👍

Главная проблема пока — высокая цена обработки такого уровня моделей. Даже на платном тарифном плане в 20$ можно делать всего 10 таких запросов в месяц. Это очень мало! 🤷‍♂️ Но уровень результатов впечатляет и, очевидно, он будет расти (увеличивая количество подписавшихся на тариф 200$ в месяц, где лимит на такие вопросы намного выше).

Из наших свежих примеров. На прошлой неделе мы подавали статьи на ICCV. Для двух статей попробовали запросы к свежеиспеченному Deep Research. К одной он как-то слабо отработал, и вообще похвалил (возможно его ломало ревьювить))), а вот ко второй выкатил правок в количестве, по размеру сопоставимым с самим текстом статьи. За 5 минут примерно. Обрабатывавший эти правки человек за несколько часов породил почти 400 правок к статье (включая вещи замеченные им, которых была почти половина), которые еще два человека еще несколько часов разбирали. Там не все было идеально, но любом случае это прямо заметно поднимает аккуратность и качество текста статьи. 🙂

🙂

Еще раз подчеркну — Deep Research делает по сути наброс, который надо фильтровать, т.е. ХОРОШО РАЗБИРАЮЩИЙСЯ в предмете ЧЕЛОВЕК не просто нужен, а КРИТИЧЕН для качества результата! Но в любом случае это экономит много человеческого труда по шлифовке результата (ну или несколько итераций подачи статьи на конференции, что для А* в принципе не всегда возможно, поскольку результат очень быстро устаревает). 🙂👏

🙂

Заметим, что Тимур, чей запрос на картинке выше, весьма успешно обсуждал с Deep Research, как лучше подавать Novelty статьи. И там были годные идеи, их буквально вот-вот стало можно на таком уровне использовать! 😲

💪

😁

В общем — тема развивается очень быстро! Стараемся оставаться на гребне волны! 😉

Работаем! 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12

1.47K viewsDmitriy Sergeevich, edited 10:55

VG: Video Courses

Господа!

У нас в лаборатории идут интересные эксперименты по извлечению пользы из LLM. Был забавный момент, когда была сделана попытка извлечь результаты, уровня Deep Research описанные в предыдущем посте из разных бесплатно доступных ризонинг моделей (от DeepSeek, ChatGPT & Perplexity), и-и-и-и-и... ничего не получилось. 😲😉

Шок контент тут заключается в том, что если компания хочет, чтобы за ее сервис устойчиво платили, он должен отличаться от бесплатно доступных аналогов в лучшую сторону. 🤷‍♂️✌️ Т.е. OpenAI Deep Research совершенно не случайно думает по 2-5-30 минут, находится за пейволом и при плате в 20$ в месяц доступно всего 10 запросов. Запросы к нему реально обходятся сильно дороже по вычислительным ресурсам и раздавать их на халяву — дорого. Более того, в Plus Deep Research добавили совсем недавно — 25 февраля, после того, как Perplexity в 15 февраля довольно шустро впилила к себе ризонинг модель от DeepSeek и запустила свой Perplexity Deep Research (похуже, но на пятки наступают). Причем если платить OpenAI 200$ в месяц, то доступно 120 запросов в месяц. Тоже не слишком много, но уже не 10, конечно.

Полторы недели назад дядя Сэм выступал перед инвесторами и сказал, что хочет брать 20.000$ в месяц за агента следующего поколения уровня аспиранта. Точнее, там прозвучало, 2.000$ за агента следующего поколения, и 20.000$ за "PhD level". 😲

Какие выводы можно сделать? 🤔

* Они в OpenAI любят цены 2*10^n! Безусловно! ~~Уровень IQ 65 пройден!~~ 😉

* Они, очевидно, ожидают существенного увеличения качества работы моделей в ближайшее время (при том, что вполне себе улучшают хорошими темпами и так). Причем новые модели будут по цене впервые сравнимы с зарплатой человека. 🤔

* Очевидно, что продать такой продукт можно будет ТОЛЬКО если он будет достаточно стабильно демонстрировать действительно качественные результаты, заметно увеличивающие скорость работы, как минимум сравнимые с результатами еще одного человека в команде. В принципе мы уже привыкли, что уровень Human в разных бенчмарках довольно регулярно превосходят, т.е. это довольно привычное явление, но чтобы лучше решалась не сравнительно узкая задача (типа игры в шахматы, Го, или даже Доту 😉 лучше чемпиона мира), а вот прям задачи широкого профиля — это будет крайне любопытно и реальный прорыв с созданием совершенно нового рынка.

* Самое удобное будет, конечно, шарить такого уровня агента на несколько лабораторий 😉 Интересно, как они ограничат количество запросов к агенту на таком тарифном плане? 😉

* Также вангую довольно быстрое снижение цены за такого уровня сервис в течении нескольких лет, очевидно. И это будет революция!

* В целом это означает ускорение развития науки и инженерии, ну и увеличение спроса на тех, кто способен с такими агентами работать. Ибо тянуть будут не все, а посадить неграмотного человека за сколь угодно продвинутого агента, это будет обезьяна, пишущая "Войну и мир" (только хуже, поскольку с первого взгляда не будут видны косяки 😁).

В общем уже очень хочется такого попробовать) Хотя, очевидно, первые версии будут с проблемами — даже сейчас народ рапортует много проблем с Deep Research, но и много крайне полезных примеров также наблюдается.

Смотрю на это с огромным интересом! 😉

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤5👍2

955 viewsDmitriy Sergeevich, edited 16:40

VG: Video Courses

Господа!

Итак, вчера крупными мазками было описано, как улучшаются платные версии LLM и как они планируют улучшаться в ближайшее время. Учитывая какую пользу они уже приносят — это супер актуально и полезно.

Едва ли не главная засада на этом пути, как вчера уже отмечал, стоимость запросов. Да, модель может ответить "хорошо подумав", проанализировав массу источников и прямо заметно на другом уровне. Но это долго и дорого. Особенно это дорого будет для "PhD level" запросов (20 тысяч долларов в месяц — не фунт изюма, куча аспирантов скажет "дайте эти деньги мне, я лучше и дешевле сделаю") 😂😉

Специально для скептиков Epoch.ai тут 3 дня назад опубликовала график, который вы видите наверху. Мы наблюдаем снижение стоимости запросов:

* Для широкого круга вопросов с ответами уровня GPT-3.5 Turbo — в 9 раз в год 🙂

* Для запросов GPT-4 или выше "PhD level" научных вопросов — 40 раз в год 👏

* Для запросов GPT-4o или выше "PhD level" научных вопросов — 900 раз в год 😲

🔥

Заметим, что наибольшее снижение стоимости идет для самых сложных вопросов и оно как бы не 3 порядка в год(!). Безусловно, это эффект низкой базы, поскольку оптимизация такого рода запросов только стартовала, но даже если взять запредельно скромную оценку в 10 раз (а реальная скорость падения цены выше!), это означает, что тарифный план в 20000$ превращается в 2000$ через год и 200$ еще через год. Устраивает! Заверните! 😉

Специально для скептиков — разница в стоимости инференса между NVIDIA P100 и NVIDIA A100 (FLOP per second per dollar) уже 10 раз (!), т.е. даже если вообще ничего не делать с алгоритмом, стоимость хорошо падает уже просто за счет поколений железа. А с алгоритмом, внезапно, идет основная работа. 💪

На практике это будет означать, что компаниям на этом рынке (OpenAI, Perplexity, Anthropic, DeepSeek и еще паре китайских, взлет которых мы увидим в ближайшие пару лет) придется серьезно работать над улучшением результата, чтобы сохранять мотивацию платить (ибо люди умеют считать деньги 💸💸 и быстро перебегут туда, где тот же результат дешевле 😉).

И, коллеги, в очередной раз объявляю "Сall for skeptics" 😉

Интересуют умные аргументы, почему все это счастье не будет развиваться так быстро? Ну или почему результат будет другой? Где вообще комментарии типа "Ну вот всех аспирантов-то и заменят"??? 😉

Очень жду! 😁

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

967 viewsDmitriy Sergeevich, edited 07:44

VG: Video Courses

Коллеги!

Тут оказывается сегодня утром Baidu выпустил новую модель,
причем судя по бенчмаркам качество на уровне GPT-4.5 (это очень круто, учитывая что GPT-4.5 вышла всего 2.5 недели назад!).

Причем не ризонинг модель Baidu Ernie 4.5 может анализировать картинки, диаграммы, документы и даже аудио и при этом стоит меньше GPT-4.5 примерно в 100 раз 😲😲😲:
OpenAI: Input $75 / 1M, Output $150 / 1M
Baidu: Input $0.55 / 1M, Output $2.20 / 1M

Это прям вызов! 💪

🙂

Деликатно замечу, что когда DeepSeek выкатил свою модель значительно дешевле OpenAI, горячие головы говорили, что все это "деньги китайского правительства", а потом были выложены детали и много кода и оказалось, что это блестящая оптимизация. И там действительно было во много раз более эффективная реализация. А DeepSeek пока даже денег инвесторов не берет, ибо деньги инвесторов на начальном этапе — самые дорогие деньги для нормального стартапа и выгоднее продавать доли позднее при более высокой оценке компании. 😁 Интересно, сколько людей про цены Baidu снова скажут подобное? 😉

Короче, я тут утром писал про еще пару китайских LLM, взлет которых мы увидим в ближайшие пару лет. Они не стали ждать пару лет. Они даже несколько часов ждать не стали. Я думаю, что они прочитали вчерашнее сообщение про цены на топовые модели и такие:
— Ну да, утро воскресенья не самое удобное время для релиза. Но надо поддержать коллегу! 😉
Ну, а как иначе-то? Ну не может же быть, что это тренд на кардинальное падение стоимости топовых моделей? Ну ведь не может? (характерный мем 😂)

Новость великолепная, ибо конкуренция в первую очередь заставляет снижать цены и бороться за оптимизацию результатов, а тут поле для оптимизации большое.

Выводы кратко:

* Более сложные модели подешевеют и придут быстрее.

* Но наиболее полезные модели будут за пейволами, ибо стоимость запросов к ним будет большой.

* Снижение себестоимости базовых моделей только ускорит появление "моделей по цене сотрудника", поскольку позволит больше компьюта потратить на запрос и раньше сделать дорогие запросы более полезными.

Как-то так!

Наблюдаем, как OpenAI придется снижать стоимость моделей 😉 Все-таки 100 раз это сильно! 👏👏👏

Кстати, в комментарии к предыдущему посту пришел Антон Конушин и дал свой прогноз по аспирантам 😉

Новость подрезал тут)

И умный скептик все еще warmly welcome! 😁

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4

1.01K viewsDmitriy Sergeevich, edited 15:42

VG: Video Courses

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

Коллеги!

Тут неделю назад CEO Anthropic Дарио Амодеи (топовый LLM стартап на секундочку) дал часовое интервью, в котором заявил, что через 6 месяцев 90% кода будет писать AI, а через год, возможно весь код. Надо сказать, что народ это подвзорвало) Уж больно сроки короткие. 😨

И можно было бы сказать "Да ладно! Это ж стартап! Все их утверждения делить надо!", но тут месяц назад Джефф Динн из Гугла в интервью рассказал, что у них в Google AI генерирует уже 25% кода. Причем они принципиально не пользуются внешними средствами, естественно. Т.е. у них разрабатывается внутренняя среда, в которой AI помогает закрывать несколько кейсов: и автодополнение, и автодокументирование, и автотестирование и т.д. Если все вместе учесть — вполне верится! Причем проекту меньше 1.5 лет и он, очевидно, только начал развиваться. Упс! 😲

А пару недель назад товарищи из Y Combinator (культовый акселератор Кремниевой долины) записали интервью Vibe Coding Is The Future, в котором утверждалось:

The crazy thing is one quarter of the founders said that more than 95% of their code base was AI generated which is like an insane statistic...

Еще раз медленно: четверть основателей стартапов самого крутого акселератора мира рапортуют, что 95% у них уже генерирует AI! Естественно тут же налетели скептики: Да это получается одноразовый код! 😁

Дорогие друзья! Смертность стартапов Кремниевой долины в течении первого года, на секундочку, больше 80% (и еще такой же процент закрывают в следующие 4 года). Так что там и так 96% вероятность, что код в корзину уйдет. А оставшиеся 4% взлетающих все равно надо будет переписывать под требования highload и все такое) В этом смысле код стартапов И ТАК (внезапно!) является одноразовым. И если его получается генерировать быстрее и дешевле, значит его будут генерировать быстрее и дешевле, ибо от этого зависит выживание стартапа вообще говоря (это такой вид спорта).

В общем тема автоматизации кода буквально год, как пошла, а уже есть крайне интересные примеры применения!

Наилучший разбор, который я видел, это "Как мы (не) заменим 90% программистов AI" от Игоря Котенкова и Валерия Бабушкина. Валерий там, прямо скажем местами душнит до токсичности, но Игорь, красава (и его позиция мне близка), отвечает очень четенько. 🙂

В разборе в часовом формате говорят и о всех вышеупомянутых примерах и еще несколько шикарных примеров приводят, хорошо разбирая тему.

Ну и надо трезво понимать, что сегодня новости о быстром развитии подобных тулов крайне нервно воспринимаются программистами (особенно которым 35+ и которые перекатились в IT из условных физики, математики и прочего почвоведения — кстати, замечательные дисциплины! 😁). По комментариям это очень хорошо видно. Поэтому и Валерий, и Игорь крайне аккуратны в подборе слов. А приводящий много примеров Игорь говорит о том, что рынок труда программистом может вырасти еще в 10-100 раз (и в Яндексе будет работать 3 миллиона программистов, да, а в Google 14 миллионов, это я ехидно продолжаю его мысль в наиболее приятном для широких программистских масс ключе 😉).

Надо хорошо понимать, что в свете прошлого поста прогресс в этой области будет ускоряться. Поэтому вопрос, который стоит себе задать — а почему вы будете конкурентоспособны на этом новом рынке? 🤔

Но можно и не задавать) 😉

Я про это пишу только потому, что аудитория этого канала сильно моложе "среднепрограммисткой", имеет профильное образование и все шансы допрокачаться до очень высокой степени конкурентоспособности. 💪

Выводы — самостоятельно 😉

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

1.12K viewsDmitriy Sergeevich, edited 12:13

VG: Video Courses

Господа!

У нас хорошая новость! У Георгия Бычкова (кстати, того самого, ВКР которого стала лучшей ВКР AIM в прошлом году) вчера принята статья на конференцию ICME 2025 (IEEE International Conference on Multimedia & Expo). Это конференция уровня А, не А*, но тоже очень и очень хорошо! Георгий — студент магистратуры ВМК, первый автор статьи и почти всю работу затащил сам! Это очень круто! 👏

🙂

💪

Статья, как видит внимательный читатель, посвящена атаке с использованием универсальной добавки (Universal Adversarial Perturbation), которая удобна тем, что требует минимальных расходов на этапе применения атаки, т.е. ее очень легко применять. Причем рассматривается атака методом черного ящика (мы не знаем, как устроена нейросеть, которую мы атакуем), что кардинально усложняет задачу. Но при этом делает ее практичнее 😉

Ну и замечу, что мы все более активно начинаем заниматься защитами! 😁 (Интересно, что защиты в том числе можно применять для идентификации атак, типа которых мы не знаем 😲😉)

А Георгия горячо поздравляем с принятой статьей! 👏🎉👏🎉👏🎉👏

#pro_conferences #our_successes

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30❤4👍1🎉1🤩1

936 viewsDmitriy Sergeevich, edited 15:51

VG: Video Courses

Господа!

Тут в комментариях возникал вопрос про А* конференции. Выскажусь по наболевшему)

В науке в большинстве областей крайне ценятся журнальные публикации, а конференции — потусоваться. Есть такой показатель Impact Factor (IF) — сколько раз в среднем цитируют одну статью в за определенный диапазон времени. В большинстве областей IF журналов в 3-5 раз выше, чем у конференций (чего только коллекция Nature Journals стоит). А в AI ситуация обратная, IF трудов конференций в 2-5 раз выше, чем у журналов т.е. конференции круче.

Почему так?

1. Область развивается сверхбыстро. И именно конференции с четкими прогнозируемыми дедлайнами и короткими сроками подходят лучше.

2. Легче найти топовых рецензентов. Мало кто любит ревьювить из хороших авторов (~~чукча не читатель, чукча писатель~~). Конференции насильно загоняют ~~почти~~ всех авторов в ревьюверы (или снимают твою статью с публикации). 😉

3. Меньше жести с рецензиями. Сайт openreview.net, где хостятся многие А* конференции — это праздник. Во-первых, великолепное распределение статей (очень хороший матчинг), во-вторых, рецензии раскрывают прямо во время процесса для всех. И народ ОЧЕНЬ любит в твиттер даже минимальную жесть кидать. Это сильно дисциплинирует всех.

Из свежего. Нам тут на днях пришла рецензия из уважаемого Q1 AI журнала c реджектом. Из приколов:

* В начале указано, что журнал очень солидный и предоставляет минимум 2 рецензии (дословно "has been reviewed by at least two active members of the relevant research community") и дальше приведена ОДНА ~~рецензия~~ отписка. И в письме, и в системе. Это точно солидный журнал? 😉

* Рецензия короткая — в твиттер поместится)

* Большая часть рецензии — не содержит конкретики просто наброс ("обзор мал" - хотя не мал, "вклад описан слишком подробно" 🤯, "авторам нужно предоставить более убедительные доказательства своего исследования" БЕЗ указания, ЧТО ИМЕННО неубедительно! 🤬) В принципе такую рецензию можно кидать НА ЛЮБУЮ статью) Очень удобно! 😉 Солидный, говорите? 😉

* Вишенка на торте — отдельное замечание, что в тексте использованы разные кавычки. Серьезное замечание. Такое долго исправлять, конечно. 😉

* И наконец, рецензировали они 5 месяцев... 🙈🙊

Я тут недавно писал, как OpenAI Deep Research за 5 МИНУТ набросал замечаний по объему больше, чем объем самой статьи (и много по делу), а тут за 5 МЕСЯЦЕВ смогли родить только одну короткую отписку (и много из пальца), при том, что положено две.

Комментарии только нецензурные, и это Q1 журнал в принципе-то приличный!

Еще штрихи к картине маслом: Я почти ежедневно вычищаю из почтового ящика какое-то количество "научного спама". Причем, если от конференций обычно приходит 1-2 письма ("Call for papers" & "Deadline extended"), то от журналов предложения идут сплошным потоком. Достаточно опубликоваться в A*/Q1, как попадаешь в их базы и начинается... Причем если от рассылок конференций обычно легко отписаться, то у журналов в черный список адрес добавляешь, и дальше приходит со другого адреса, т.е. они для увеличения охвата рекламы более веселые приемы используют.

Что я после всего этого думаю (про журналы и не только)? 😉

1. На графике выше крутой бурный рост числа принятых статей на топовой A* конференции. Народ голосует ногами 😉

2. Журналам в этой ситуации явно сложно. Идет отток топовых людей, они снижают критерии, им не хватает рецензентов, у них падает уровень (не критерий, конечно, но у нас довольно мало журнальных статей стало попадать в обзоры/доклады).

3. Горячие головы говорят, что журналы умрут) Думаю, нет, но измениться им точно придется) ~~Хотя бы начать использовать ChatGPT Deep Research в для рецензирования~~

Деликатно замечу, что цитирования сильно влияют на многие рейтинги университетов/факультетов, а у МГУ мало А*. Если не увеличивать, МГУ будет скатываться в рейтингах, что уже отчасти происходит.

P.S. График построен ChatGPT примерно за 6 запросов, поскольку я хотел несколько конференций на одном графике, но она нормально сдюжила только NIPS 😁🤷‍♂️😁 Будет интересно, как она справится с этой задачей через год. 😉

#pro_conferences

❤3🔥2👍1

1.01K viewsDmitriy Sergeevich, edited 10:49

VG: Video Courses

Господа!

Тут довольно любопытная статья выложена на архиве несколько дней назад "Measuring AI Ability to Complete Long Tasks".

Несложно заметить, что модели работают все лучше и лучше. А в каких попугаях измерять улучшение?

Их ключевая идея, это размечать задачи во времени, которое на них тратит средний человек. И дальше смотреть, как справляются модели с задачами в терминах времени.

Короче! На верхнем графике указано с каким количеством задач по сложности во времени модель справляется в 50% случаев.

По вертикали шкала логарифмическая и получилась сравнительно красивая почти линейная зависимость, из которой следует оценка экспоненциального роста: примерно каждые 7 месяцев модели справляются с вдвое более сложными по времени задачами. 🤔

🙂

В подтверждение своего подхода они на подобную шкалу переложили данные любимого мной в этом сезоне SWE-bench (там тоже есть разметка во времени). И получили тоже очень близкую оценку даже для 80% success rate (нижний график).

Статья на 45 страниц и там есть на чем позалипать.

В качестве критики:

* 169 задач — выглядит маловато (с другой стороны они, похоже, взяли минимальное число, при котором доверительные интервалы на что-то разумное похожи), но в любом случае основной черрипик (если он есть ради красоты идеи) может быть именно в этом.

* Фундаментальная проблема подхода: Очевидно, с увеличением сложности задач разметка времени решения человеком будет становиться заметно дороже и сложнее, а в ближайшее время ровно такие задачи интересны. На задачах, которые требовали больше 4 часов, у них human success rate ниже 30%... 🤷‍♂️

* Взять за основу графика 50% или даже 80% success rate модели — это по сути оценивать "тех, кто допрыгнул". Не думаю, что сотрудник, который ошибается в 50% будет очень полезен. 😉 Очевидно, процентиль была взята для удобства прогноза на данный момент и судя по supplementary для 100% на данный момент график не такой красивый 😉

С другой стороны авторы явно понимают проблемы и спешат застолбить сам подход к предсказанию скорости прогресса, явно проговаривая, что еще нужно сделать, чтобы его улучшить. Там 25 авторов и работа выглядит очень неплохо проработанной.

В целом при текущем тренде условно к концу 2027 года модели будут с 50% success rate справляться с задачами, требующими 8 часов работы человека (возможно больше!), а к концу десятилетия — требующими недели работы человека (возможно раньше!). 100% success rate будет подтягиваться, видимо, медленнее, так что время у нас, дорогие кожаные, пока точно есть 😁 ~~вопрос на что его потратить~~

Интересная работа. Надо будет найти ее на openreview через какое-то время и почитать, как ее покритиковали 😉

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.23K viewsDmitriy Sergeevich, 17:10

VG: Video Courses

Господа!

С нами ВЧЕРА приключилась прикольная история! Пришли ревью с ICML 2025 (A*) и в одной статье оказалось две одинаковых рецензии!!! 😲😲😲😂🤣😂

Ну как "одинаковых", на 98%, если быть точным (см. скриншот). Причем обратите внимание на первый абзац (нижние картинки). Он буква в букву, но в конце предложений стоят точки, характерные предложений в китайском языке ("точки с дырочкой"))), причем в разных местах 😲. Тут был переводчик с китайского, походу 😉

Обсудили ситуацию с коллегами, народ посмеялся, но вообще тенденция интересная. Зимой 2022/23 годов взлетел ChatGPT, зимой 2023/24 года многие замечали конкретно улучшившийся английский язык в статьях китайцев (казалось бы, доктор, какая связь? 😂), зима 2024/25 — народ начинает массово применять LLM для ревью, как для самой работы, так и при подготовке. Текст прогоняется через несколько LLM для исправления weaknesses (я писал, что мы это тоже начали делать), улучшаются формулировки Novelty и т.д.

Причем при использовании нескольких LLM (или активного промптинга) тут, очевидно, возможна blackbox adversarial attack на улучшение оценки ~~метрики~~ статьи. И это наша специализация сейчас — аккурат 5 дней назад у нас статья по blackbox атакам на метрики зашла на ICME. В общем будем применять наработки и для текста, а не только для картинок 😉

Естественно написали Author AC Confidential Comments, где все детально описали (в т.ч. прогнали ревью через детекторы LLM):

I am writing to bring to your attention a concern regarding the reviews for our submission to ICML, titled "Guardians of Image Quality: Benchmarking Defenses Against Adversarial Attacks on Image Quality Metrics" (Paper ID: 4478). While we deeply appreciate the reviewers' time and efforts in evaluating our work, we have noticed that two out of the four reviews (specifically, those from Dhjc and Dmx9) we received are nearly identical, with approximately 98% overlap in content according to https://gotranscript.com/text-compare#diff. This raises concerns that these reviews may have been AI-generated rather than being independent evaluations.

The duplicated reviews not only share identical sentences and structure but also repeat the same points word for word, including specific critiques and suggestions. We wanted to bring this to your attention to ensure that our work receives a fair and thorough evaluation. Side-by-side comparison can be seen here: https://imgur.com/a/pdNVc7j

We ran detectors for AI-generated text and the results are:

According to https://app.gptzero.me/

Review from Dhjc is 71% AI-generated

Review from Dmx9 is 71% AI-generated

According to https://copyleaks.com/ai-content-detector

Review from Dhjc is 100% AI-generated

Review from Dmx9 is 99.2% AI-generated

Moreover, both Summaries in reviews contains "。" punctuation mark, which is highly unusual and, in our opinion, is highly unlikely to appear in two independent human-written reviews.

We fully respect the review process and understand the challenges involved in coordinating and managing large-scale peer reviews. Our primary concern is that these seemingly duplicate reviews may not provide independent assessments, which could impact the quality of feedback and the overall decision regarding our submission.

Уже получили ответ:

Hi

Thanks for bringing up this issue. I shared the same concern with you. I will discuss with SAC/PC what actions we should take regarding these reviews.

But meanwhile, please still try your best to prepare the rebuttal.

We will keep you posted. Your AC

В общем наш AC разделяет наши опасения и обсудит ситуацию с вышестоящими. Ну и просит не расслабляться, что правильно)

В общем, я тут 3 дня назад описывал историю со свежеполученными рецензиями из Q1 журнала, где ревьювер походу не заглядывал в статью. Как видим, на А* конференциях ревьюверы тоже ~~лентяи~~ очень ценят свое время и оптимизируют работу 😂. НО! Все быстро, ревьюверы А* в курсе прогресса и используют LLM, поэтому все не так топорно как в Q1, ну и моментально адекватно отвечают (это важно!!!)!

Ждем продолжения истории! 😁

Stay tuned! 😉

#pro_conferences

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4

1.94K viewsDmitriy Sergeevich, 06:08

VG: Video Courses

Господа!

Я уже несколько раз упоминал Code Monkey в последнее время (пруф1, пруф2) — довольно распространенный на западе мем, означающий программирование без понимания основ ("In simpler term, it's someone who doesn't understand the fundamentals of programming and works on mostly unimportant stuff. Basically anybody (even a monkey) could do it, monkey-see monkey-do, it's about as complicated as that").

Вы таки не поверите, но у нас свежий пруф, что они существуют! Обезьянка пришла к нам и сдала задание по деблюрингу в курсе CV&VP AI Masters! 😂🤣😂

Обезьянка 🐒 молодец. Обезьянка разобралась с простой магией деблюринга. Но обезьянка сделала только половину задания! 🙉 Обезьянка должна развивать свой brain. NAFNet вышел уже 3 года назад. 🐵 Обезьянка знает English и понимает, что оригинальная статья названа "Simple Baselines for Image Restoration" не случайно 😟

Также следует заметить, что доля заданий, выполненных явно с AI-ассистентом (в худшем случае без понимания как это все работает) подросла. Переслал наиболее яркий пример Юрию Дорну, создателю программы AI Masters, его ответ был краток и категоричен:

Я думаю, не засчитывать и ставить нули

Обезьянка молодец! 🐒 Обезьянка старалась сама! ☺️ Обезьянке понравилось задание! Обезьянка loves optimized blurry bananas! 🤗 Но следующие задания будут сложнее! ДА. А дядя Юра строгий! 😱 Если обезьянка будет трудиться, то в финале обгонит многих-многих! И станет как минимум ~~человеком~~ senior 😉, у которого много-много-много bananas🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌🍌

А в целом — отличный юмор, который скрашивает проверку работ 👏😂

Stay tuned! 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6❤1👎1

1.41K viewsDmitriy Sergeevich, 11:32

VG: Video Courses

Господа!

Недавно я писал про чудную историю с ICML 2025, когда 2 рецензии из 4 на одну из наших статей почти полностью совпали.

Коллеги прислали ссылку на твит Andrei Lupu:

Did you know that \textcolor{white} text is still visible to LLMs?
Anyway, don't use LLMs to write your reviews. Your co-authors will thank you.

С которым также произошла похожая история (LLM-generated review, подробнее тут), которую он отрапортовал в Ethics Violation и еще 26 марта получил ответ, что рецензии удалены, а статьи рецензентов сняты с ICML 2025. За что "их соавторы будут таким рецензентам благодарны".

Нам такой же по сути ответ пришел от Program Chair 01.04 (на картинке выше). Рецензии тоже обнулили и статьи рецензентов с конференции сняли. В общем — все довольно оперативно и довольно жестко.

Интересно, что перед получением этого ответа Area Chair (руководитель уровнем ниже) написал рецензентам что-то строгое и они оперативно обновили рецензии, а мы подготовили всем рецензентам ответы. Причем очень подробные.

Как писал Саша Гущин, первый автор статьи:

фан-факт:
длина всех ответов на ребаттле: ~14900 символов
кол-во символов во всей статье не считая аппендикса: ~13900 символов

Т.е. общая длина ответов рецензентам превысила длину статьи!

💪

🙂

Ну и прекрасный фан-факт: ко вчера 3 из 4 ревьюверов статьи подняли свои оценки!!! 😁 Из них двое правда, похоже, в первый раз прочитав статью, но тем не менее! 😉😁 В любом случае очень радует, что большая работа по подготовке ответов не прошла даром. 👍

Теперь остается рулетка с emergency reviewer, но тут уж так сложилось. 🤷‍♂️

В общем сложность прохождения рецензирования на А* заметно выше, чем в журнале, по крайней мере в области ИИ. Есть товарищи, которые со мной не согласятся, но у меня есть еще один фан-факт, последний на сегодня:
В центрах ИИ (большой госпрограмме поддержки ИИ в стране) правила финансирования статей заметно различаются, но в среднем размер премирования за А* на ИИ конференции ПРИМЕРНО В 2 РАЗА ВЫШЕ чем за Q1 публикации в ИИ журнале.

Это хорошая косвенная оценка сложности подобных публикаций на данный момент (что А* конференции сейчас идут к вершине хайпа я писал).

Буду держать вас дальше в курсе этой драматичной (на данный момент для LLM-ревьюверов и их соавторов) истории.

Stay tuned! 😁

#pro_conferences

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.72K viewsDmitriy Sergeevich, edited 14:29

VG: Video Courses

Господа!

Последние годы я начинаю наш старейший спецкурс краткой версией "Леммингов" (выжимкой из цикла "Как программисту преуспеть по жизни"), где в том числе пунктиром даю понятие "периода полураспада знаний".

Смысл простой — осознать, от каких факторов зависит срок, в течении которого вы забудете полученные знания ~~на следующий день после экзамена~~.

На мой вкус это критичнейшая тема для любого студента, который собирается работать по специальности.

Четыре дня назад Anthropic выкатил "Anthropic Education Report: How University Students Use Claude". Они своими штатными средствами анализа чатов общения с Claude проанализировали полмиллиона (574+ тысячи) чатов пользователей с адресами американских университетов (отфильтрованные *.edu).

Все чаты они классифицировали на прямые ответы и сотрудничество, а также на решение проблем и создание результата. Условно:

* Прямое решение проблемы
Запросы типа "реши дифференциальное уравнение"

* Прямое создание результата
Запросы: "Напиши программу, которая ..." ("Напиши эссе..." etc)

* Сотрудничество в решении проблемы
Запросы: "Объясни основы программирования с примерами на Питоне"

* Сотрудничество в создании результата
Запросы: "Посмотри мой текст и дай по нему замечания"

Любопытно, что чатов с сотрудничеством набирается около 53%, т.е. студенты довольно часто не просто сгружают домашки LLM. В данном случае это, очевидно, можно рассматривать как огромный шаг вперед по сравнению с Google Lens в режиме "домашнее задание", когда доля "Прямого решения" у школьников была около 100% 🤦‍♂️😁 (писал про это подробно тут).

Можно было бы кричать "Ура!", если бы не было остальных 47% 😉 Очевидно, что у студентов появилась возможность автоматически или полуавтоматически делать довольно сложные домашние задания, которой раньше не было. Примерно то же мы наблюдаем в наших спецкурсах, когда доля решений с использованием Copilot/Cursor/GPT явно растет.

Когда-то считалось, что ИИ в будущем сильно облегчит труд учителей (проверяющих сочинения, например), однако на практике ИИ на данный момент существенно облегчил труд учеников 🤷‍♂️😉😉😉

Фундаментальных проблемы тут две:
1. Определить автоматическое решение минимум на порядок сложнее, чем автоматически решить.
2. Платежеспособность учеников/студентов в России примерно на два порядка превышает платежеспособность учителей/преподавателей.

Итого — 3 порядка разницы минимум. Это много. 🤔

Так в ИТМО, где я являюсь председателем ГЭК магистров, гордятся, что проверяют все магистерские диссертации в Антиплагиате. Но не секрет, что основные деньги Антиплагиат зарабатывает на студентах, которые итеративно скармливают ему свои работы до тех пор, пока % плагиата не упадет до зачетного. А вузам они делают огромные оптовые скидки, чтобы завлечь побольше, РОВНО чтобы мотивировать студентов больше им платить в розницу. 🤷‍♂️😁 Ничего личного, просто бизнес-модель. 😉

До кучи, Google тут вчера выкатил https://notebooklm.google, который позволяет оптом обрабатывать до 50 источников и строить по конспекты, майндмапы, рефераты, ~~введения в дипломы~~ и т.п.

Как следствие таких прекрасных новостей... Вангую, что в ближайшие 3 года период полураспада знаний у текущих студентов заметно уменьшится. Т.е. доля студентов, которые не будут знать элементарных профессиональных вещей сильно возрастет.

Хороший вопрос, что с этим делать (и надо ли). Мое мнение — пока не будет дорого платного образования (когда преподавателям будут хорошо платить за решение этой проблемы), проблема решаться не будет (а студенты будут счастливы, легко сдавая курсы))). И даже в платном случае... Наблюдаю за дискуссиями на эту тему в чате преподавателей ФКН (самого крупного IT факультета России, на секундочку, набор бакалавров в 4 раза превосходит ВМК) и вижу, что проблема так просто не решается. 🤷‍♂️

Это шикарная новость для тех, кто собирается быть конкурентоспособным, я считаю (ибо конкуренция в топе рынка труда в России явно будет снижаться)! 😁

Sapienti sat. 😉

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉5❤3🤔1

1.42K viewsDmitriy Sergeevich, edited 08:35

VG: Video Courses

Коллеги!

Хорошая новость — у нашего сотрудника Сергея Лаврушкина сотоварищи приняли статью в журнал "Multimedia Systems" (Q1, что означает первая квантиль по цитируемости).

В статье предложены две новые атаки на VMAF — наиболее популярную на данный момент метрику качества сжатого видео. Ранее мы уже публиковали несколько атак, продолжаем добрую традицию. А поскольку нехорошо только ломать, предложили также новую версию VMAF, которую удалось сделать несколько более надежной, чем VMAF NEG (к сожалению, много там наиграть уже довольно сложно). По сути продолжаем углублять тему атак на VMAF, а также копаем тему создания более устойчивой метрики.

Сергею сотоварищи горячие поздравления!
🎉👏🎉👏🎉👏🎉👏🎉👏🎉👏🎉👏🎉

#our_successes

🔥24❤4👍2🤔1

1.79K viewsDmitriy Sergeevich, 19:15

VG: Video Courses

Channel name was changed to «VG: Video Courses»

15:01

VG: Video Courses

Господа!

У нас очередной праздник!

Статью на ICML, ту самую, у которой было 2 LLM-ревьювера, все статьи которых сняли с конференции, где текст ребаттала превысил по размеру текст статьи и 3 из 4 ревьюверов подняли свои оценки в итоге ПРИНЯЛИ! УРА-А-А!!! 💃

💃

Что хотелось бы отметить. Получается, что за последние 4 года 4 наших студента/аспиранта стали первыми авторами на А* конференциях!

🙂

Первый автор (которых бывает несколько с характерной звездочкой equal contribution, но у нас все чисто первые) — это обычно человек, сделавший основной вклад в статью и нередко основной организатор процесса.

В общем — пока держим темп +1 человек в год 💪 (что очень неплохо)

По тому, сколько сейчас статей находится в работе есть все шансы выйти на уровень +2 человека в год (плотно работаем над этим)! 😁

Замечу, что еще недавно Яндекс хвастался, что они подают А* больше, чем любой университет России, а с недавних пор с первого места их уверенно оттеснил Сбер (в лице AIRI). Происходит так потому, что они активно нанимают таких людей, причем платят очень хорошо, ибо западные компании таких людей нанимают с неменьшим удовольствием (рекламу вакансии с требованием А* и размер зарплаты там я показываю на лекциях).

А нанимают с радостью, поскольку способность затащить А* сегодня по факту означает способность конкурировать с китайскими лабораториями, что в текущих условиях массового разгрома российских лабораторий компаниями очень и очень непросто (за что я наши компании люблю безмерно просто). Напомню, сотрудники нашей лаборатории за предыдущие 5 лет дали 12 А*, а весь МГУ 20 с хвостиком, о чем я писал в посте "лучшего ученого МГУ" и это в том числе по причине очень небольшого количества оставшихся "живых" лабораторий (не мы много дали, остальных мало). 🤷‍♂️

В общем — хотя нам очень непросто, но держимся и планируем нарастить темпы! 💪

💪

Хотелось бы отдельно особо поблагодарить Центр доверенного ИИ ИСП РАН за поддержку публикаций, институт ИИ МГУ за поддержку лаборатории и ответственных за суперкомпьютер МГУ-270 за поддержку тяжелейшей вычислительной составляющей исследований! 🤝

🙂

🤝

Также внимательный читатель заметит, что работа посвящена бенчмарку защит от состязательных атак. Суммарно у нас уже реализовано уже 30 разных защит (на 35 атак, выложено меньше) и уже хорошо видно, как быстро растет сложность этой предельно новой области. В общем не только эффективно ломаем (за что нас справедливо корили), но и защищаем! На страже (as guards) против нового вида атак, в общем! 😉😁

Горячие поздравления всем нашим ребятам, причастным к этой работе! 👏

👏

Празднуем и работаем дальше! 😁
🎉🎉🎉

🥳

💃

🏆

💃

🥳

🎉🎉🎉

#pro_conferences #our_successes

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26❤7👍1

8.29K viewsDmitriy Sergeevich, edited 13:16

About

Blog

Apps

Platform