VG: Video Courses

Господа!

Я опять с хорошей новостью! 😁

1 августа я писал, про то, что мы планируем прикольную тему со стиранием вотермарков на проектную смену в Сириус, по которой 16 сентября стартовал челлендж "Erasing the Invisible: A Stress-test challenge for Image Watermarking". Два месяца назад, если кто помнит, писал про то, что команда была успешно собрана, великолепно отстрелялась на проектной смене и заняла предварительно неплохие места в челлендже.

Но цыплят по осени считают. Во-первых, многие сильные команды заливают свои решения в последний момент (чтобы не бустить конкурентов), во-вторых, задаче ведь не просто "стереть невидимое" (сделать так, чтобы вотермарк точно не читался тривиально: пикселы в ноль и профит 😁). Задача минимально изменить картинку при этом.

А поскольку, как вы прекрасно знаете из лекций, метрики качества отражают человеческое не полностью, последним этапом соревнования было субъективное сравнение, когда пять топовых решений сравнивались вслепую людьми.

В скобках замечу, что с такими успехами по стиранию вотермарков на горизонте запредельно остро встает вопрос, а как вообще детектировать дипфейки? Ибо топовые компании отчитываются — мы, мол, пометили свою генерацию, с нас взятки гладки. Но, эти метки, как выясняется, довольно эффективно стираются... Есть заметная вероятность, что мы еще вернемся к этой истории, ибо она обещает быть крайне интересной!

А сейчас спешу отчитаться — ребята заняли 5 место из 77 команд!!! Результаты объявили 10 декабря, сертификат только-только прислали! ~~А ты как провел осень %%USERNAME%%???)))~~

Челлендж прошел в рамках A* конференции NeurIPS и, конечно, занять топовое место в международном челлендже — это великолепный результат! )

🎉🥇🏆🎉🥇🏆🎉🥇🏆🎉
От всей души горячо поздравляю команду, это шикарное достижение! 👏

👏

🎉🥇🏆🎉🥇🏆🎉🥇🏆🎉

#pro_conferences

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤3

1.02K viewsDmitriy Sergeevich, edited 11:14

VG: Video Courses

Господа!

Целых полтора месяца не писал про SWE-bench, а там за это время небезызвестная компания OpenAI декларирует скачек с 53% до 71.7% 😲

В прошлый я восторгался прогрессу 7.6% за месяц с небольшим. А тут 17.7% за полтора месяца... Упс... Это что ж деется то 🤯

🤯

Напомню, бенчмарк создан год назад и основан на разметке реальных issues (багрепортов) гитхаба, позволяющих автоматически проверять что баг пофиксили и сложность багов варьируется от 15 минут до 4 часов работы программиста.

Развитие бенчмарка за год:

* Март 2024 — SWE-bench Lite: сокращенная версия бенчмарка, позволяющая быстрее проводить тестирование, что особенно полезно для предварительной оценки моделей (ускорение разработки).

* Июнь 2024 — Docker-версия: обеспечивает простоту установки и воспроизводимость тестирования в различных средах (снова ускорение разработки).

* Август 2024 — SWE-bench Verified: в сотрудничестве с OpenAI был создан SWE-bench Verified — поднабор из 500 задач, более глубоко проверенных разработчиками (пофиксили возможность моделей читерить при исправлении багов).

* Октябрь 2024 — SWE-bench Multimodal: позволяет оценивать способность ИИ-систем анализировать и исправлять ошибки, используя как текстовую, так и визуальную информацию (критично для интерфейсов и не только).

При этом очень похоже, что 2 года бенчмарк "не продержится" (будет решен чуть меньше, чем полностью и потеряет смысл).

Следующими шагами логично ожидать:

* Более сложный бенчмарк, куда соберут только задачи, требующие от 3+ часов работы программиста на багфикс (но такой довольно дорого собирать и размечать, хотя все крупные участники гонки типа OpenAI, Amazon, Bytedance etc в этом заинтересованы и шанс есть).

* Появление аналога Арены, например, когда репозиториям гитхаба будет предложено поучаствовать в арене сабмитами issues, под требование за ограниченное время проверять пул-реквест с багфиксом и давать обратную связь по качеству багфикса (если люди не будут за короткое время давать обратную связь по багфиксу, компаниям не будет иметь смысла финансировать участие в такой арене, но для того же гитхаба это вполне реально решить, например, отправляя новые issues на багфикс в первую очередь для тех, кто быстрее и детальнее проверил прошлые).

Именно проверка на реальных примерах (а не на ограниченных датасетах бенчмарков) позволить по опыту существенно забустить область, но ситуация для этого должна "созреть". Тут она дозревает поразительно быстро.

Сейчас Github Issues Arena выглядит как фантастика, но честно говоря текущие достижения о3 выглядели нереально фантастично всего 3 года назад, поэтому ждать, вангую, недолго.

Традиционно напомню, что CEO NVIDIA в феврале 2024 призывал не отдавать детей учиться программированию. Вы уже учитесь. Ваши действия? 😉 Мы ищем тех, кто хочет оставаться конкурентоспособным и через 10, и через 20 лет (что будет очень непросто, похоже, но победитель получит много, очень много). 😁

Ну и про второй график:

o3 scores a 2727 ELO on Codeforces which places it 175th in the global ranking. That's better than ~99.9% of humans on the website (who already tend to be far above average)

Подробнее тут: GPT-o3 can become a red coder? Там прикольные комментарии ред-кодеров, их жестко рвет, конечно...

Картинка отсюда

#SWE_benchmarking
#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

1.2K viewsDmitriy Sergeevich, edited 08:35

VG: Video Courses

Господа, тут в популярном канале приведен перевод интересной истории с Реддита о том, как младшая сестра человека в США в 11 лет выполняет домашнее задание смотря модный корейский сериал в параллельном окне и даже не пытаясь включить мозг 🤯😲😉 Умножить 60 на 3? Нееет... Прибавить 24 к 7? Боже упаси...

Самый залайканный ответ — человек прикалывается над параллельным просмотром сериала (про заработок через участие в игре на выживание), а самый залайканный ответ на этот ответ: "Она просто готовится к своему финансовому будущему". Иронично, да)

Далее народ залайкал:

Ее первый экзамен без материалов и без использования устройств покажет все, чему она научилась.

И ответ на него:

И ее все равно переведут в следующий класс, несмотря ни на что.

В общем кто в курсе — в США уже давно довольно заметные проблемы в образовании, особенно в STEM.

Также сказывается то, что в большинстве школ в США выставленные ученику оценки относятся к категории личных данных. Учитель не может на весь класс объявлять отметки учащихся (а то его забуллят нафиг, как за высокие, так и за низкие и виновен в этом будет, естественно, скотина-учитель).

Если кто не смотрел, то потратьте 9 минут на великолепную короткометражку "Альтернативная математика" (26 номинаций и 16 наград на фестивалях), она о том, как ПРАВИЛЬНО преподавать математику в школе) (на ютубе у перевода было 2.2 миллиона просмотров, а у англоязычного 13). Кстати, правильный ответ в конце фильма 20 002 000, конечно, там математическая ошибка, если что! 😉

Россия в этом плане пока отстает. Классы без оценок у нас есть только в некоторых частных школах, LLM пользуется меньший процент школьников и т.п. Но плавно движемся туда же.

В обсуждениях истории народ вспоминает Идиократию (фильм не самый умный, но много трендов там уловили, увы, точно) и вангует, что ваше поколение миллениалов будет самым умным по среднему IQ по сравнению со следующими поколениями. К тому идет! Впрочем, кто расслабится, окажется там же...

На этом фоне я в большим интересом смотрю за новостями из Китая:

В Китае впервые ввели полный запрет на использование мобильных на территории школ

Такой запрет приняли в городе Чжэнчжоу, провинция Хэнань. Школы города обязали строго следить за тем, чтобы ученики не проносили телефоны на территорию кампуса, «за исключением случаев, когда это необходимо для обучения». Чтобы ученик мог пронести телефон на территорию учебного кампуса, родители должны написать заявление.

Лютый фашизм, согласитесь!) (напишите об этом в комментариях)))

Известный популяризатор математики профессор Савватеев утверждает, что Китай остается последней страной, где на данный момент есть массовое качественное преподавание математики (и очень высока мотивация, кстати). Остальные скоро будут сколько в 3 минутах секунд у Сири, Алисы, Алексы, Маруси и прочих ассистентов спрашивать... На высшем образовании это тоже скажется, естественно.

Всем приятного просмотра двух пролинкованных роликов (25 минут суммарно) и мудрых выводов! 😉

Как-то так интересно мир меняется! 🤷‍♂️😲😉

#speed_of_progress

👍5❤2🔥1😢1

1.1K viewsDmitriy Sergeevich, edited 09:56

VG: Video Courses

Коллеги!

У нас первый accept статьи в 2025 году) Причем первый автор — Георгий Готин с 3 курса, т.е. свежий набор.

Конференция VISAPP (The International Conference on Computer Vision Theory and Applications) не самый топ, но надо же с чего-то начинать на 3 курсе молодому студенту первым автором 😉

Это первая статья нового набора. По срокам это не рекорд, рекорд у нас был года три назад, когда первая статья свеженабранного третьекурсника зашла в последних числах августа еще до формального начала учебы на 3 курсе) Но там человек мощно впахивал (и сейчас учится в Калифорнии).

Заметим, что сегодня еще добавляется политическая лотерея. У нас был случай также в позапрошлом году, когда две статьи приняли на конференцию, но местный оргкомитет просто не дал оплатить за них оргвзнос. Было обидно — пройти отбор международного программного комитета и словить desk reject по причине неуплаты оргвзноса, который мы хотели и могли оплатить.

К счастью, должен заметить что такого "наука должна быть политизирована!" явно больше на менее серьезных конференциях (куда как раз бакалавры подаются), и почти нет на топовых, куда, если кто следит, народ из Москвы ездит вполне себе толпами.

Ну и статья, как заметил внимательный читатель, посвящена атакам на метрики качества видео, интереснейшая и активно взлетающая тема сейчас (как и вообще тема атак, защит и в целом повышения устойчивости алгоритмов).

Также сейчас куча российских компаний начали чувствовать, что их продукты будут заметно отличаться от конкурентов (это я деликатно), если они не будут туда новые технологии впаивать. А впаять новую технологию сегодня, ~~тупо~~ адаптировав опенсорс получается сильно не всегда. Отсюда спрос на специалистов, за которыми приходят (в том числе ко мне) и жалуются, что нанять не могут. О том, как разговор складывается дальше будет в надеюсь, в разумный срок написанной наконец второй части "О русской науке" (первая — лучшая статья Хабра в номинации "Образование в IT", кто не читал рекомендую многобукв))).

В общем вопреки всему работаем (пишущих активно статьи со студентами в университетах в IT остается совсем мало, уж слишком велик на них спрос))) 😉

Еще раз поздравляю Георгия, а также его соавторов Екатерину Шумицкую и Анастасию Анциферову! Отличный результат! ) 👏🎉👍👏🎉👍👏🎉👍

#pro_conferences

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🔥8👍6👏3

1.25K viewsDmitriy Sergeevich, 10:57

VG: Video Courses

Господа!

Из текущего прекрасного. Тестируем новый модный SR. Работает он очень классно (съевшие на SR собаку наши ребята говорят, что прямо новый уровень). Но и косячит... тоже классно.

Зацените, как он творчески доработал логотип (причем по-разному наверху и внизу)! 😁😁😁

А еще он решил, что этой майке пошли бы пуговицы. И ничтоже сумняшесь впаял их, не подумав про шов! 😂🤣😂

Выделение на картинке, кстати, это область, которую разрабатываемая сейчас метрика артефактов считает багом. Вообще ловля артефактов SR становится все сложнее и интереснее 😁 Задание на артефакты SR мы в осеннем семестре сделали в магистерском курсе. Возможно, адаптируем его под бакалавров.

Ну и активнее всего SR сегодня встраивают в умные телевизоры. В этом плане мне очень понравился первый абзац раздела телевизоров с недавнего очень годного обзора Consumer Electronic Show 2025, которое на днях закончилось в США:

TVs are always fun, and it is difficult to resist shopping. AI made its way into TV with lots of claimed use of AI for audio and video processing that I am pretty sure everyone reading this disables.

Выделение мое. Хорошо чувствуется, как ему захотят свежие AI фичи 😁

В общем "Скоро в каждом телевизоре!" (с) 🤷‍♂️😉

Ну а мы поможем в меру сил повысить качество SR. Компании хорошо понимают, как это важно. А людям можно попробовать показать, в какой модели годный алгоритм, а где что-то совсем страшное ради галочки для маркетинга впаяли. Интересная тема, короче.

👍2❤1

1.06K viewsDmitriy Sergeevich, 11:42

VG: Video Courses

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Господа!

Многие, наверное, уже в курсе, что неделю назад Марк Цукерберг в интервью Джо Рогану сказал, что в 2025 году они в (запрещенной) Meta, как и другие компании работают над написанием кода с помощью ИИ на уровне мидл-программистов. И да, поначалу это будет дорого и сложно, но в какой-то момент большая часть кода ваших приложений будет написана ИИ.

Вообще само интервью почти на 3 часа (7+ млн просмотров, почти 60 тысяч комментариев) и большая его часть — про цензуру в соцсетях. Но определенное бурление тезис про замену мидлов на AI, конечно, вызвал! 😉😉😉

Мне больше всего понравился контраргумент: "Это тот самый чувак, который гарантировал, что Метавселенная произведет революцию в мире 2 года назад?" Он очень удобен своей универсальностью. Когда нам нравится какой-то тезис, мы вспоминаем успешные проекты компании, когда не нравится — приводим список неудач. Оппонент повержен! Profit! 😂

Естественно, оценить реальный прогресс на таком уровне невозможно (хотя это наиболее частый уровень споров в соцсетях))).

Помню, 5 лет назад я говорил человеку, который собирался учиться на дизайнера, что нейросети быстро доберутся до дизайна и через 4 года (к моменту окончания учебы) ситуация сильно поменяется. Но тогда я мог привести в пример только статьи, как нейросети успешно генерируют мазки кисти. Мазки, Карл! Генеративного ИИ в современном понимании еще не было, но, очевидно, к тому шло! Но мне не верили) А потом я сам был в шоке, как скоро мой прогноз сбылся.

А 3,5 года назад говорил человеку, учившемуся на филолога (и уже зарабатывавшему копирайтингом), что нейросети скоро придут тексты. Но тогда в качестве аргумента приводил Яндекс Балабола, ныне отключенную сеть уровня GPT 1.5, которая могла только продолжать историю (иногда прикольно, но чаще неудачно). И как просел рынок копирайтинга сейчас!

К счастью для вас программисты совершенно не случайно весьма высокооплачиваемая специальность и там совершенно не случайно не так просто добраться до Senior и тем более до Staff Research Scientist и Principal Engineer в AI (и выше). Объем вещей, которые нужно не просто знать, а хорошо понимать для того, чтобы успешно вывозить проекты, становится реально большим!

Другое дело, что если у вас появляется ассистент, который, например, знает все опенсорсные библиотеки мира, их плюсы и минусы, проанализировал все их issues на гитхабе и знает, что у них работает хорошо, что плохо, ну и, естественно, знает какие задачи вам нужно решать и умеет их матчить. С таким ассистентом скорость и эффективность вашего программирования реально резко возрастает (ибо кто в компаниях давно, хорошо знает, как много велосипедов там изобретается постоянно). А такие помощники уже, очевидно, не за горами. И не только такие.

Кстати, если знаете умного прошаренного скептика, который может аргументировать не на уровне "у них были неудачи, я верю, что тут тоже будет неудача", а на уровне почему сложно решить конкретную задачу оценки и матчинга опенсорсных библиотек, буду очень признателен за контакт! 🙏 У меня в окружении в основном технооптимисты 🤷‍♂️😁, техноскептика не хвтаает!

Ну и пролью немного бальзама на душу скептикам 😁

Есть такой "Парадокс Джевонса", смысл его в том, что иногда увеличение эффективности использования какого-то ресурса вопреки интуиции приводит не к уменьшению его использования, а к увеличению, поскольку это становится экономически эффективно. В своей работе "Угольный вопрос", опубликованной аккурат 160 лет назад Джевонс заметил, что существенное повышение КПД использования угля привело не к уменьшению спроса на него, а, напротив, к увеличению, поскольку это стало выгодно.

В наших терминах это означает, что существенное снижение себестоимости написания программ может привести заметному увеличению объема их написания, что создаст дополнительный спрос.

Но расслабляться рано, поскольку в любом случае отрасль сильнейшим образом изменится и успевать за этими изменениями будет очень непросто!

Всем успешно успевать! 😁

❤12

1.18K viewsDmitriy Sergeevich, 05:16

VG: Video Courses

Господа!

В дополнение к предыдущему посту про замену мидлов на ИИ по итогам обратной связи)

Ключевое: необходимо относиться к текущим LLM, как к самой ранней стадии развития технологии (всего 2 года бурного развития, вспомните какими были смартфоны через 2 года после первого iPhone))). Тем, кто не погружен в тему LLM плотно настоятельно рекомендую посмотреть годичной давности часовую лекцию Андрея Карпаты (ранее директор по AI в Tesla и сооснователь OpenAI, я бы вижину человека доверял) Intro to Large Language Models (1 час, 2,4 миллиона просмотров). На 0:42 он там говорит о LLM OS будущего, сравнивая саму LLM с ядром (или CPU), у которой в ближайшие годы разовьется периферия (и, кстати, assistant-model, давшая возможность общаться с LLM чатом — это в каком-то смысле как раз такая "периферия"). Он там довольно много прогнозов сделал, которые уже понемногу воплощаются. Очевидно их воплощение заметно существенно расширит возможности LLM OS.

Еще интереснее лекция Яна Лекуна (лауреат премии Тьюринга за формирование направления глубокого обучения и вице-президент Мета по ИИ) From Machine Learning to Autonomous Intelligence. Там на 1:32 собственно слайды всего около 45 минут. Лекун уверен, что генеративные модели, которые сегодня на самой вершине хайпа (на секундочку G в GPT = Generative) завтра потеряют популярность, уступив место, возможно, менее креативным, но более точным (с точки зрения галлюцинаций и полезности) моделям. Ну и еще несколько смелых прогнозов об отказе от вероятностных моделей, контрастивного обучения и обучения с подкреплением. Причем для каждого направления он обосновывает замену, потенциально имеющую большую эффективность.

Вывод: у LLM очень много резервов для совершенствования. Что мы и будем наблюдать в ближайшие годы.

Но интереснее всего оказалось письмо Эндрю Ына (сооснователь Coursera, руководил Google Brain, учредитель DeepLearning.AI) в рассылке DeepLearning.AI 6 дней назад.

Там идут мысли почти как рассуждения про парадокс Джевонса из прошлого поста:

Writing software, especially prototypes, is becoming cheaper. This will lead to increased demand for people who can decide what to build. AI Product Management has a bright future!

Программирование подешевеет, и это увеличит спрос на тех, кто может этим управлять.

Given a clear specification for what to build, AI is making the building itself much faster and cheaper. This will significantly increase demand for people who can come up with clear specs for valuable things to build.

В общем то, что ИИ будет писать быстрее и дешевле не обсуждается. Вопрос — кто будет ставить четкие задачи ИИ? Ответ Эндрю — AI PM. Ну и вывод:

The demand for good AI Product Managers will be huge.

Вангую, что народ поделится:

* на тех, кто конкретно подсядет на использование генеративных инструментов в качестве ЗАМЕНЫ собственной прокачки.

* и тех немногих, кто прокачается до уровня, который не будет заменяться "более быстрым и дешевым AI".

За что, собственно, постоянно топлю.

Ловите бонус в качестве необязательного ~~и нетривиального~~ ДЗ от Эндрю: 😉

* AI PMs need to understand how to manage successful AI development (очень непросто, скажу я вам).

* Skilled in utilizing data to drive AI innovation and create richer data-driven solutions (тоже кажется простым только делавшим "short way to win" решения домашек)))

* Skilled in handling ambiguity and adapting to unpredictable AI outcomes (да уж, в наших палестинах артефакты процессинга сегодня никто не умеет менеджить, их так и продают потребителям!!! Поэтому те, кто будут уметь... продолжите это предложение)

* Proficient in ongoing education to align AI innovations with user needs and product goals. (Кажется легким только с виду, процент заканчивающих ШАД и AI Masters тому свидетели)))

* Skilled in ensuring ethical AI practices, accelerating feedback loops, and creating prototypes to advance product development.

Цели определены, задачи поставлены! Погнали! 😁

❤6

1.37K viewsDmitriy Sergeevich, 07:09

VG: Video Courses

Итак, господа, жалких 2 недели назад, я писал про свежее интервью Цукерберга, где тот говорил про замену программистов нейросетями, а чутка позднее, какие перспективы есть у LLM, с точки зрения Карпаты и ЛеКуна, а также что нужно прокачивать, чтобы остаться актуальным с точки зрения Эндрю Ына (его 5 целей на прокачку, которые будут востребованы при массовом приходе AI в программирование).

За эти две недели события явно ускорились. Во-первых, Трамп посулил 500 миллиардов долларов OpenAI & Co (правда не своих, а от ОАЭ через японский фонд, но...), далее 140 миллиардов долларов своим компаниями пообещало правительство Китая + о крупных тратах в десятки миллиардов заявили Google, X, Microsoft и другие. Это важно. Ибо уже сегодня хорошо видно, что для того, чтобы раскатать современную мощную LLM в сервис вот прямо очень сильно не хватает мощностей. С такими деньгами мощности будут.

Во-вторых, шороху навел релиз моделей DeepSeek, конечно. Как минимум китайская компания впервые догнала OpenAI (что даже обвалило американские рынки в какой-то момент). Моделька очень интересная! Настоятельно рекомендую зарегистрироваться там + поставить приложение на телефон (VPN не требуется). Отвечает модель очень неплохо, хотя и галлюцинирует, и ошибки делает. Я поймал ее на простой ошибке в запросе на русском языке (который отловил только поскольку она цепочку рассуждений привела), а когда тот же запрос на английском сделал - все корректно отработала. Причем в отличие от OpenAI она вообще не парилась, что ответы на языках разные. Да, разные. Используй ответ английской версии, он более правильный, чувак 😉 Ну и к вопросу о вычислительных мощностях, только я вошел во вкус с DeepSeek, как на прошлой неделе на нее обрушилась волна популярности и она сначала перестала отвечать вообще, а сейчас там

Due to technical issues, the search service is temporarily unavailable

Честно говоря не понимаю людей, которые до сих пор гуглят. По-моему глагол "загугли" устарел в прошлом году, с тех пор как ChatGPT начала очень годно агрегировать данные поисковых запросов. А еще есть Perplexity.ai. А теперь и DeepSeek.

Крутизна DeepSeek в том, что они выложили веса (причем в куче вариантов) бесплатно, в том числе для коммерческого использования. В итоге Perplexity оперативно подсуетились и подхватили ~~падающее знамя~~ возможность вызвать модель DeepSeek (т.е. можно с ней экспериментировать у них, и вообще переключать модели).

DeepSeek очень неплохо умеет в код и уже совершенно очевидно, что с такими моделями студенты смогут:
* решать домашние задания
* сдавать эссе по гуманитарным курсам
* писать дипломы
и т.д. еще быстрее, чем раньше)

В этом плане качество образования ленивых (коих немало) в очередной раз снизится 🤷‍♂️😉

Интересно, что сравнительно недавно (буквально с прошлого семестра) ChatGPT научилась вполне себе годно объяснять теоремы из университетских курсов на уровне репетитора. Это то самое годное использование прогресса LLM, которое позволяет оставить в голове после курсов не меньше, а больше! (что, впрочем, требует больше дисциплины) 😁

Ну и к заглавному графику. На нем представлен прогресс в плане удешевления расчетов разных сетей с показателями 44%, 82% и 86% по бенчмарку MMLU, где представлены задачи по 57 направлениям (философия, лингвистика, психология, география, астрономия, математика, физика, анатомия, генетика, международное право и далее по списку). Вертикальная шкала логарифмическая.

Хорошо видно, как за год-полтора удалось в 10+ раз снизить стоимость запросов! Сложнее всего это было сделать для наиболее продвинутых сетей (что логично), но и по ним прогресс заметный.

К тому моменту, как вы доучитесь, эта волна как раз дойдет до массового применения в production!

Be prepared! 😁

#speed_of_progress

👍3

1.02K viewsDmitriy Sergeevich, edited 08:30

VG: Video Courses

Ну и до кучи!

Очень интересный график прогресса по разным бенчмаркам, выровненный относительно человека.

Тут есть и старый добрый MNIST, который 15 лет служил верой и правдой (хотя если вы сегодня его в своей статье примените, то это будет красная тряпка для ревьюверов))), есть и ImageNet.

Понятно, что скептики тут же скажут — да модели просто все это выучили! Ну, учитывая, что мы тут занимались машинным и глубоким ОБУЧЕНИЕМ, то выучили, конечно 😂 Другое дело, что они реально научились отличать не только кошек и собак, но и, например, собак разных пород, лучше людей, распознавать речь разной дикцией лучше людей, решать математические задачи лучше людей, наконец, решать научные вопросы лучше аспирантов 😉 (см. бенчмарки выше).

В принципе мне не важно, запомнила модель знания или нет, если она их по делу применяет и не глючит в выдаче результата.

Ну и мы видим, что "срок жизни" бенчмарков сильно уменьшился. Вроде создается сложный бенчмарк, но его хватает буквально на 4 года.

Вы живете в запредельно интересное время! Мощнейший переход количества в качество в скорости ОБРАБОТКИ разнородной информации произойдет, похоже, в ближайшие 2-3 года. Т.е. если интернет был 30 лет назад революцией в скорости ПЕРЕДАЧИ информации, то DL сейчас резко ускоряет ее обработку (в широком смысле слова). Будет не скучно!

Из свежего интересного — буквально вчера OpenAI выкатила Deep Research, агента, которому можно ставить довольно высокоуровневые задачи, и который уходит "подумать" надолго, но и результат в среднем выше. ~~Наконец-то заменят ученых!~~ Очень похоже, что цена написания дипломов на заказ этой весной сильно упадет! 😂

Вангую — ценным станет понимать, что выдает модель. Это реально сложно.

В общем — прокачиваться будет кому-то проще, а кому-то сложнее. Делайте свой выбор! 😉

Оба графика из International AI Safety Report (January 2025). Отчет на 298 страниц, там еще много интересных графиков 😉

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤3

1.06K viewsDmitriy Sergeevich, edited 08:33

VG: Video Courses

Коллеги,

Один из главных минусов LLM — это галлюцинации, когда LMM радостно и правдоподобно выдумывает ответ. 🤷‍♂️😁

Вообще мне кажется, что преподавателям общаться с LLM как-то проще. Любой преподаватель, принимавший устный экзамен, видел этих самых "галлюцинаций" море (когда ответ с самым уверенным видом выдумывается 😉). Причем особенно тема сильна на госах, где вопросы из кучи разных тем, довольно часто обновляются и заметно реже преподаватели глубоко компетентны во всех вопросах 😉

Но ровно там, кстати, у любого нормального преподавателя формируется навык по косвенным признакам (+ допвопросу) понять, это галлюцинация или нет 😂🤣😂

С моделями работа тоже идет, в том числе путем обучения моделей говорить "я не знаю" — не самая тривиальная задача, заметим. Одно из направлений — бенчмарки уровня галлюцинаций. Делать их сложно и там есть большие проблемы с разметкой и ошибками первого-второго рода, но некоторый скрининг они дают. Например, Hughes Hallucination Evaluation Model (HHEM) Benchmark, график из которого приведен на заглавной картинке. С его методикой не все волшебно (она заточена на RAG + есть вопросы к точности модели), но в целом это численная оценка и хорошо видно, как она довольно быстро снижается.

Интересно, что график уже устарел и две свежих модели от Google обогнали недельной давности модель от Open AI, т.е. соревнование идет довольно бодро 😲😲😲

💪

Ну и кто пропустил, Андрей Карпаты (ранее директор по AI в Tesla и сооснователь OpenAI), про которого я довольно регулярно пишу (раз, два, три) выпустил лекцию "Deep Dive into LLMs" на 3,5 часа. Там уже полмиллиона просмотров за 4 дня и, очевидно, будет намного больше! У человека однозначно талант очень кратко, емко и достаточно четко (без серьезных искажений при упрощении) излагать материал. Это реально сложно. Я посмотрел уже больше половины (не успел все за выходные))) и весьма рекомендую, как впрочем, и предыдущие видео Андрея.

Из интересного: на обучение GPT-2 в 2019 году затратили примерно $40.000. Летом 2024 Карпаты показал, как можно примерно повторить результат, затратив $672. Сейчас, зимой 2025 он оценивает, что результат можно повторить за $100 (из-за прогресса железа, доступных почищенных данных и алгоритмов). Прогресс в 400 раз за 6 лет!!! 😲 Сильно! Интересно, через сколько лет воспроизведение GPT 3.5 можно будет давать в качестве задания спецкурса? 😉 В любом случае мне очень импонирует его сравнение обучения модели со сжатием с потерями (с очень нетривиальной оценкой качества результата, кстати).

Галлюцинациям (их причинам, а также методам по их уменьшению) Карпаты посвящает заметный кусок изложения, очень понятно объясняя, почему при использовании поиска уровень галлюцинаций сокращается, как его в принципе можно сокращать, почему это не так просто и как это будут делать.

Кстати, давно не видел комментариев типа "да что может этот стохастический попугай!".

Не знаете почему? 😉

P.S. Почему специалисты очень часто неверно прогнозируют развитие экспоненциальных процессов я когда-то подробно описывал на Хабре. Там в начале пачка примеров типа:

«У телефона слишком много недостатков, чтобы его можно было серьезно рассматривать, как средство коммуникации. Устройство не представляет для нас никакой ценности», — писали специалисты Western Union, тогда крупнейшей телеграфной компании в 1876 году.

Я бы не переоценивал потенциала LLM, но и недооценивать его не стоит. Серьезные недостатки технологии лечатся очень быстро и... оно взлетает.

Всем лучшего понимания идущих процессов! 😁

#speed_of_progress

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥3

1.09K viewsDmitriy Sergeevich, edited 08:05

VG: Video Courses

Ну и к вопросу о взлете.

ChatGPT поставила рекорд, добравшись до 6 места самых популярных вебсайтов мира в январе. Они обогнали Твиттер. Это сильно.

Прирост почти на 6%, очевидно связанный с пачкой громких релизов.

Единственный вопрос, который меня мучает, глядя на эту статистику: интересно, кто до сих пор ходит на yahoo.com? 🤔🤔🤔

А вообще на месте гугла я бы напрягся. Правда они на месте ровно не сидят, судя по лидерству в бенчмарке предыдущего поста.

Мы живем в очень интересное время!)

❤3👍2

1.11K viewsDmitriy Sergeevich, edited 08:16

VG: Video Courses

Уже в следующую среду, 19 февраля стартует спецкурс «Интеллектуальные методы обработки видео».

Что интересного?
- Актуальные задачи обработки видео
- Базовые навыки работы с видео на Python
- Реализация детектора смены сцен с помощью ML
- Работа с 4D-видео
- Разработка и обучение нейросети для видеоанализа

Первая лекция пройдет в 14:35 19 февраля в 609 аудитории на ВМК

Если ты учишься на 2-4 курсе и хочешь попасть в видеогруппу нашей лаборатории – этот курс твой счастливый пропуск!

Присоединяйтесь к чату курса

❤7

1.01K viewsAleksandr Kostychev, 13:20

VG: Video Courses

Господа!

Сэм Альтман тут неделю назад выступал в Токио и сказал следующее (на 20 минуте примерно):

«Наша первая ризонинг модель была где-то на уровне ТОП-миллион лучших программистов мира. И люди думали, что это очень впечатляет. Это было как вау-эффект в AI. Затем мы добились ТОП-10000. o3, мы говорили про это в декабре, находится в ТОП-175. Наши внутренние бенчмарки сейчас в районе ТОП-50, и к концу года это будет ТОП-1, так что это удивительная скорость масштабирования для большего количества вычислений в этой новой парадигме, и мы не видим никаких признаков того, что это остановится »

В общем скоро в программировании будет как в шахматах — соревноваться будут разные ИИ между собой 😉

Новая парадигма — это улучшение качества результатов работы за счет улучшения стратегии ризонинга, когда вы платите вычислительными мощностями инференса за улучшение результата. Довольно дорогая тема на сегодня (правда ее себестоимость быстро падает с новым железом и оптимизациями, R1 это хорошо показали).

А ТОП измеряется по рейтингу CodeForces наиболее популярному в мире сайту спортивного программирования.

Понятно, что когда такие слова пересказывают журналисты, они примерно никак не интересуются, что именно оценивает CodeForces. Также понятно, что умение круто писать и оптимизировать алгоритмы, это важно, но в реальном проде важнее писать код, который удобно поддерживать, критична надежность, критична командная работа и т.д. Т.е. это немного другой вид спорта. Но вообще возможность получения каждому программисту через год напарника, со скилами на уровне ТОП-1 CodeForces — это в любом случае вот прям ОЧЕНЬ круто. 😲

💪

🙂

Ну и я рекомендую покликать лучших товарищей в рейтинге CodeForces (пока там люди в основном, ибо уже через год им, боюсь, придется закрываться ибо отличить человека от человека+AI, боюсь станет невозможно 🤷‍♂️😉). Короче, вы увидите, что у людей прокачаться до ТОП-200 занимало обычно 3-5 лет и порядка 1500-4000 решенных задач. Т.е. довольно много. Похоже, что нейросеть OpenAI учится быстрее)

Сейчас среди некоторых особенно зазвездившихся со школы студентов модная тема — нафига учиться? Меня Яндекс был готов брать сразу после школы. Мне корочка чисто чтобы было высшее образование нужна, а так я уже пошел работать.

Это прекрасно для вас! 😁

На заглавном графике — количество вакансий в IT в США с 2020 года (январь которого принят за 100%). Видно, что в COVID все падало процентов на 30, причем программирование падало медленнее других специальностей. Дальше все ушло в пик в 2022, а потом пошло плавно снижаться и уже снизилось ЗАМЕТНО НИЖЕ БОЛЬШИНСТВА ДРУГИХ СПЕЦИАЛЬНОСТЕЙ почти до ковидного минимума. Ну и интересные вещи народ рассказывает. Тут была пара крупных сбоев в работе ChatGPT, так работа в некоторых компаниях средней руки (в которых ChatGPT не блокируется) натурально вставала 😂🤣😂 (тикеты не закрывались!). Ну должно же откуда-то браться 6-е по посещаемости место ChatGPT))) И у юристов работа вставала. 😉 Вот оттуда и берется 😂

Понятно, что в первую очередь это повлияет на мемных в США Code Monkey Programmers. Но, судя по темпам, не только. Есть прогноз, что в ближайший 2 года эта кривая заметно ниже упадет.

Пару месяцев назад было прикольное интервью с руководителем ШАД Алексеем Толстиковым, на нем Алексей рассказывал, что они сделали специальный трек для тех, кто 3-5 лет назад закончил вуз, поскольку ОНИ НАБИРАЛИ НА ЭКЗАМЕНАХ В ШАД МЕНЬШЕ БАЛЛОВ и не проходили, хотя дальше у них шансы затащить (если напрячься) были. Рекомендую внимательно прослушать всем тем, кто думает, что изучать новое всегда будет легко и просто. Как вы будете конкурировать с другими, если конкуренция резко возрастет?

Всем конкурентоспособности 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍2😢1

1.5K viewsDmitriy Sergeevich, 06:01

VG: Video Courses

Коллеги!

Вчера прошел первый дедлайн нашего челленджа, проводимого в рамках CVPR NTIRE. Проводят его два наших аспиранта и магистр.

В первый раз наш пропоузал зашел на CVPR, причем мы подали аж 6 пропоузалов. Но это CVPR! Кто не в курсе — одна из наиболее топовых конференций изначально по зрению, а сейчас по пачке смежных тем. И прошел только один. Будем набирать опыт и работать над success rate. 😁

Соревнование по сути только началось (первый этап), а у нас (будучи почищено от тестовых и странных) 45 участников, 22 сабмита (17 из них уникальных). Это ОЧЕНЬ круто! 🙂

🙂

На ECCV этой осенью, где мы проводили 3 челленджа, у нас было 29 участников в самом "слабом" и 31 в самом "сильном", т.е. разброс был небольшим. И это В ПОЛТОРА РАЗА МЕНЬШЕ, на итог, чем на ПЕРВОМ этапе (задолго до окончания) тут! 😲😲😲

Короче — CVPR сила!!! 💪

💪

💪 ECCV нервно курит в сторонке.

Кто не следил за темой: мы прокачались в бенчмарках (сделав 18 штук), а там чтобы хорошо сделать — нужно много нюансов учесть (в первую очередь в профессиональной оценке — как подготовить данные, какие метрики, какие меры против накруток, проверка на лики и т.п.). Это только кажется — "раз и сделал". А реально если вы "раз и сделаете", то огребете справедливой критики воз с горкой! Не увезти будет. 😉

НО! Бенчмарки сейчас стало принято делать с открытым датасетом, что во времена DL — маразм. Ибо бенчмарк теперь что-то показывает только при публикации. А потом его топ запомоивается какими-то странными "типа SOTA" методами, которые по какой-то странной никому не понятной причине не воспроизводятся на новых датасетах. ~~Вот она чистая незамутненная наука!~~ Мы сделали много бенчмарков на закрытых датасетах (которые работают долго), но люди (опять абсолютно никому непонятно почему!) не очень любят туда сабмиттиться. 🤷‍♂️

😉

Выход сегодня — челленджи. На момент проведения датасет закрыт, а после ко всеобщему удовлетворению открывается. Тема хорошая, но чтобы попасть туда, нужно пройти конкурс. Зато в злачных местах и участников реально много. Туда и идем 😁

Короче! Занимаемся нашим давним очень интересным развлечением — измеряем и соревнуем, набирая опыт в челленджах со все большим и большим числом участников! Параллельно подсвечивая лучших и лучше понимания как в соревнованиях участвовать. ✌️

Кстати, челленджи очень любят компании (и понятно почему). И мы челленджи на деньги компаний делали и будем делать. 😉

Это самое начало истории! Подробности будут! 😁

Stay tuned! 😉

#pro_conferences

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

1.55K viewsDmitriy Sergeevich, edited 07:22

VG: Video Courses

This media is not supported in your browser

VIEW IN TELEGRAM

Всем привет, уже завтра стартует спецкурс «Интеллектуальные методы обработки видео».

На первой лекции мы расскажем о нашей лаборатории и проектах, а также наши аспиранты расскажут о своем исследовательском пути в ней

Ждем всех желающих в 14:35 в аудитории 609

P.S. на гифке изображен четырехмерный кадр, который вы научитесь получать сами в последнем задании курса)

👍6❤4

1.25K viewsAleksandr Kostychev, 10:42

VG: Video Courses

Господа!

На прошлой неделе я выступил в Т-банке с лекцией. Было супер-интересно в первую очередь потому, что я там пробыл 3,5 часа суммарно, из которых получилось почти 2 часа кулуарного общения с их разработчиками ИИ-алгоритмов. У меня была масса вопросов к ним, а у них (особенно после лекции, где я ~~ехидно~~ интересовался, каким новым метрикам они верят) была масса вопросов ко мне. 😉

Также я как обычно запросил обратную связь у организаторов и получил такой отзыв:

Очень субъективное мнение, потому что вы огромный эксперт, о вас внутри компании говорят как о лучшем ученом МГУ, в том числе в AI подразделении.

Мне как массовому слушателю было бы интересно еще про историю узнать как вообще зарождались технологии обработки и сжатия. Может о каком-то кейсе, когда использовали алгоритм сжатия как-то особенно интересно, например для передачи какой-то информации или благодаря внедрению сэкономили на серверных мощностях Х денег))

Позабавило, что я "лучший ученый МГУ". Не согласился, ответил:

Ну это преувеличение, думаю. У нашей лаборатории больше всего статей на А* конференциях по AI, чем у любой другой лаборатории МГУ. Это правда. Но считать "лучшесть" можно по разным метрикам, так что наше руководство на ВМК МГУ с вами точно не согласится 😉😉😉

На что получил ответ:

Да, понимаю, но это именно фидбек коллег, видимо по их метрикам "лучшести" вы выигрываете))

Вопрос метрик, это, безусловно, важнейший вопрос 😂😉😂

Большинство университетов (и компаний!) в мире сегодня измеряют достижения в научной составляющей ИИ по статьям на А* конференциях. Лет 20 назад это были журналы, но с тех пор как CVPR (и примкнувшие) сделали ставку на усиление и усложнение процедуры review и открытые публикации (отдельная очень интересная история), соревнование идет за то, чтобы опубликоваться там.

У нашей лаборатории 12 А* публикаций за последние 5 лет (4 у вашего покорного во многом благодаря Анастасии Анциферовой и 8 у предыдущего руководителя лаборатории Антона Конушина). При этом у ВСЕГО МГУ их было чуть больше 20. Т.е. у нашей лаборатории примерно половина. И дальше идет россыпью мехмат и физфак. При этом у меня основное место работы ВМК, а у Антона Конушина основное место — AIRI, а не МГУ и 4 более ни у кого нет. Так что да, стал лучшим по такой метрике 🤷‍♂️😉

Другая интересная метрика — оказавшие наибольшее влияние на ИИ по цитатам scholar. Тут картина такая:

* Карен Симонян (ВМК), мой бывший студент, всего цитат 254727, из них за топовую — первым автором, изобретение VGG — 140641.

* Алексей Досовицкий (мехмат), всего цитат 108281, из них за топовую — первым автором, изобретение ViT — первое эффективное применение трансформеров для зрения — 55663

* Дальше, видимо (поправьте меня!), идет Дмитрий Ветров (ВМК), всего цитат 10717.

Тут мы тоже первые, но увы, ключевые результаты всеми этими людьми получены за пределами МГУ. Вообще злые языки говорят, что вырасти выпускнику МГУ можно только вовне. Так все ключевые конкуренты ВМК за абитуриентов выращены или ростятся выпускниками МГУ:

* ФКН ВШЭ — набор 1250 бакалавров
- Создан Иваном Аржанцевым (мехмат МГУ)
- Первый руководитель бакалавриата Антон Конушин (ВМК МГУ)
- Текущий руководитель бакалавриата Евгений Соколов (ВМК МГУ)

* Физтех — набор 720 бакалавров (ФПМИ+ФРКТ+ВШПИ)
- Руководитель ФПМИ - Андрей Райгородский (мехмат МГУ)

* Центральный университет - набор 300 бакалавров (Т-банк — красавцы!)
- Существенную роль играет Александр Дьяконов (ВМК МГУ)

Я с огромным интересом общаюсь со всеми этими людьми (кроме Аржанцева), там огромное поле для осмысления.

Ну и вишенка на торт: квота на набор студентов в нашу лабораторию была сокращена с 17 студентов в 2021-2022 года (причем в 2021 мы брали 19 студентов + 2 сверх квоты), до 10 студентов в 2024 (+5 сверх квоты). Обратно пропорционально нашим успехам 😉

А мы сейчас сильно наращиваем публикации (в работе много А* статей), а также чтение курсов. В этом учебном году мы прочитаем 7 курсов для отбора студентов на ВМК, AI Masters МГУ, ФКН ВШЭ и Иннополисе.

Мы все очень хорошо разгоняем!

Stay tuned! 😉

Ваш "лучший ученый МГУ" 😂

👍18❤5🔥3🤔1🤩1

1.37K viewsDmitriy Sergeevich, 07:47

VG: Video Courses

Господа!

На прошлой неделе стартовали наши курсы на втором курсе программы AI Masters. Мы читаем:

* "Computer Vision & Video Processing" совместно с Сергеем Загоруйко (MTS AI), соавтором DETR (любительский обзор на тему DETR)

* И в первый раз читаем "Безопасность, интерпретируемость и устойчивость в машинном обучении" от группы метрик, основной лектор Рашид Бадер.

Про наш курс я пишу регулярно. Расскажу про новый) Рашид защитил в позапрошлом году диссертацию по состязательным атакам, а точнее про повышение устойчивости к ним: "Improving the robustness of mathematical models in adversarial scenarios through generalization approaches". Вообще лекции и тем более курс от постдока по очень свежим темам — это супер интересно на мой вкус. Сейчас тема состязательных атак активно взлетает. Везде в бизнесе вам мало реализовать модель в продакшн. Вам так или иначе нужно, чтобы она не ломалась (как минимум легко). Ибо кто следит за темой все эти истории с джейлбрейками LLM и веселыми картинками от генераторов картинок — это часто совсем не смешно для руководителей подразделений компаний. При этом в опенсорсе, который нужно завернуть в продакшн, думают об этих вопросах нечасто (скажем вежливо). 😉 И дальше, ваш выход, господа! 😁

Темы атак и защит мы сейчас читаем даже в рамках бакалаврского курса на ВМК, но в предельно коротком варианте — одна лекция на атаки и одна на защиты. Здесь, как видите, все более развернуто и рассматриваются не только метрики, но и картинки, NLP, звук. Также рассматривается непростая тема сертифицируемой устойчивости, когда мы можем гарантировать, что модель не может быть взломана больше, чем на определенную величину. Также рассматриваются атаки на персональные данные (и конфиденциальность), интерпретируемость моделей, а также Fairness (как это будет по-русски?, русской статьи в википедии на тему ML fairness пока нет), когда мы анализируем разного рода смещения в обучающих выборках.

Также напомню, что мы набираем к себе людей в магистратуру и если кто-то не попал к нам на 2 курсе, то самый лучший вариант, это поступить на AI Masters, там в первый же год пойти к нам на курсовую, а на второй год на диплом и дальше пойти к нам в магистратуру!

Продолжаем глубокую прокачку тех, кто хочет прокачаться! 😁

❤5

1.08K viewsDmitriy Sergeevich, edited 08:26

VG: Video Courses

Господа!

Тут вчера вышел новый Sonnet, который показал (в том числе) неплохие результаты на моем любимом в этом сезоне SWE-bench Verified. Причем интересно, что если мы зайдем на сам SWE-bench, то увидим что ТОП-10 свежих результатов лежат в диапазоне 54,2%-64,6%, т.е. реальный результат 3.7 сонета — это второе место и только в прыжке (до 70,3%) первое. С другой стороны они представляют все-таки универсальную модель (которые, заметим, вполне себе любят программисты) и в сравнении с другими универсальными моделями результат великолепен и ступенька достижения оч хороша.

Показательно, что в опубликованном 4 дня назад отчете "AI progress is about to speed up" от Epoch.AI те вангуют 90% SWE-bench Verified к концу года. Учитывая, что в сентябре у них было 45% и 70% в прыжке сейчас в 90+% в конце года вполне верится. Т.е. бенчмарк по сути утратит смысл (как и многие другие бенчмарки), о чем я писал тут (кстати за неделю до того, как тезис популяризировал человек из OpenAI).

Модное возражение на тему — это переобучение (модель уже видела такие примеры в обучающей выборке). Классика жанра, которую мы видим в десятках подобный бенчмарков снова и снова — да, у кого-то из топа (кому ну ооочень надо оправдать деньги инвесторов, например))) это будет переобучение. Но тех, у кого это реальный результат, т.е. меняешь постановку задачи и сеточка справляется будет, похоже, немало. Хорошо видно, как они довольно кучно идут.

Также Джефф Динн (Google's Chief Scientist) в интервью пару недель назад сказал, что 25% кода компании уже пишет ИИ. Как они считали деталей нет и скорее всего это автозаполнение, но сколько было процентов год назад? Ноль? Они явно внутри ассистентов интегрируют и раскатывают.

В посте с большой (для этого канала) дискуссией, где я писал, как Альтман планирует к концу года выпустить ТОП-1 программиста по рейтингу CodeForces, был чудный график в заголовке, из которого следует, что количество вакансий программистов с января 2020 (до ковида) до начала 2022 года сильно выросло (быстрее остального рынка труда), а за следующие 3 года упало (также сильнее остального рынка труда).

В этом плане многие (начиная с Дженсона Хуанга) вангуют сильные измерения рынка труда программистов. В первую очередь это массовое распространение ассистентов, следствием чего ключевой задачей станет ПОНИМАНИЕ ТОГО, ЧТО ПРОИСХОДИТ В КОДЕ. Т.е. Code Monkey Programmers (In simpler term, it's someone who doesn't understand the fundamentals of programming and works on mostly unimportant stuff) и гугл-программисты потеряют работу. При этом есть ~~очень приятные~~ версии что в целом спрос на программистов возрастет. Более того — заметно возрастет спрос на топовых программистов, способных собственно к созданию топовых решений.

Ну и вишенкой на торт — Open AI анонсировали новый бенчмарк SWE-Lancer, в который они собрали 1400 реальных задач по программированию (поэтому SWE) с фриланс сервиса Upwork с ценой от 50$ до 32000$ за задачу и общей суммой миллион долларов. Нормальной публикации пока нет, но предварительно первое место выбил Claude 3.5 Sonnet с суммой решенных задач в $403к. (Возможно, поэтому пока нет страницы бенчмарка))) С другой стороны что-то они низко планку поставили, похоже, такими темпами бенчмарку пару лет не продержаться.

А Google, кстати, выкатили AI co-scientist. Это значит, что конкуренция с китайцами и американцами в следующем году станет совсем жесткой.

В общем безмерно интересные вещи происходят прямо на наших глазах! И задача удержаться на гребне волны! Погнали! 😁😁😁

❤6👏3🎉1

1.17K viewsDmitriy Sergeevich, edited 09:04

VG: Video Courses

Господа!

В комментариях к этому посту мне очень хорошо пооппонировал бывший студент нашего факультета Виктор Щербаков (ныне заканчивающий магистратуру в Женеве). Возникла дискуссия касательно пузыря ИИ инвестиций. Тема реально имеет место быть, поскольку текущий нейросетевой хайп явно затянулся (заметим, за счет того, что снова и снова идут удивительные успехи!), что спровоцировало огромные инвестиции в область (изрядная часть которых похоже не окупится, как минимум в ближайшей перспективе). Хайп AI инвестиций — это великолепный вопрос на обсуждение! 👍

Короче! Вчера Stripe (платежная система, и, если верить википедии, крупнейшая в мире частная финтех компания с оборотом больше триллиона и оценкой стоимости в 65 миллиардов в 2023 году) опубликовала весьма любопытную статистику (на графике выше).

Они №1 на рынке платежных систем и через них платят клиенты OpenAI, Anthropic, Suno, Perplexity, Midjourney, Cognition, ElevenLabs, Mistral и т.д., короче весь цвет, причем не только американский, но и европейский.

В общем они для Топ-100 компаний предыдущей волны стартапов (SaaS — софт как сервис) и новой AI волны собрали статистику, сколько месяцев у компании занимает дойти до 1 миллиона дохода (в пересчете на год) и сколько до 5 миллионов.

И хорошо видно, что текущая волна заметно быстрее обороты наращивает. Anthropic берет деньги за LLM, Suno — за AI музыку, Perplexity — за AI поиск, Midjourney — за генеративные картинки и т.д. Рынки разные, но в среднем скорость выше. 🧐

🙂

И еще раз подчеркну — это деньги пользователей. Мы видим, как растет не число пользующихся сервисом бесплатно (т.е. на деньги инвесторов и стартапы такие графики очень любят), а как быстро люди созревают за этот сервис платить свои кровные. Причем заметим, что именно за счет больших инвестиций собирать деньги пользователей AI стартапам заметно сложнее! Например, OpenAI были с DALL-E первыми на рынке GenAI картинок, но собрать там сколь-нибудь значительные деньги не смогли (хотя и пытались). И конкуренция реально заставляет быстро снижать цены (и роняет обороты). Причем цифры для Топ-100 — это в общем-то довольно репрезентативная оценка.

В этом плане мы в ближайшие 5 лет мы увидим аналог сдувания dot-com bubble — так называемого пузыря доткомов, условно когда компания делала себе что-то.com домен и объявляла о старте интернет бизнеса и куча инвесторов начинали в экстазе кричать "Shut up and take my money!". А потом многие из них потеряли свои деньги. 🤷‍♂️

Главный вопрос сезона для нас сегодня: означает ли это, что интернет не работает? 😂

Ну как бы нет. Это значит, что создать something.com сайт, это не значит нанести реальную пользу людям. 😉

Сейчас будет то же самое. Да, инвесторы кладут деньги в AI компании как сумасшедшие. Значит ли это, что AI не работает? Нет, конечно. При этом AI переоценен? Да, безусловно. Ровно как интернет 24 года назад. ☝️

Вам, дорогие друзья, стоит погуглить на досуге в каких количествах топовые компании тех лет увольняли программистов на волне краха доткомов (а там прям хорошо было), понять, почему не уволят вас, и понять почему вы будете конкурентоспособны.

В общем в очередной раз всем пожелаю конкурентоспособности! Уже в ближайшие пару-тройку лет это пожелание может оказаться очень актуальным сразу по нескольким причинам 😉

И большое спасибо Виктору! Если кто еще хочет поопонировать — пожалуйста не стесняйтесь! Спорьте! Ведь история с дот-комами не может повториться на новом витке, правда? 😉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3

1.12K viewsDmitriy Sergeevich, edited 11:03

About

Blog

Apps

Platform