VG: Video Courses
1.04K subscribers
349 photos
30 videos
301 links
Канал для объявлений лаборатории машграфики ВМК МГУ и лаборатории анализа видео института ИИ МГУ по курсам на ВМК МГУ, ФКН ВШЭ, AIM МГУ и университета Иннополис. А также для дискуссионных постов про новости в обработке видео и не только.
Download Telegram
Господа!

В дополнение к предыдущему посту про замену мидлов на ИИ по итогам обратной связи)

Ключевое: необходимо относиться к текущим LLM, как к самой ранней стадии развития технологии (всего 2 года бурного развития, вспомните какими были смартфоны через 2 года после первого iPhone))). Тем, кто не погружен в тему LLM плотно настоятельно рекомендую посмотреть годичной давности часовую лекцию Андрея Карпаты (ранее директор по AI в Tesla и сооснователь OpenAI, я бы вижину человека доверял) Intro to Large Language Models (1 час, 2,4 миллиона просмотров). На 0:42 он там говорит о LLM OS будущего, сравнивая саму LLM с ядром (или CPU), у которой в ближайшие годы разовьется периферия (и, кстати, assistant-model, давшая возможность общаться с LLM чатом — это в каком-то смысле как раз такая "периферия"). Он там довольно много прогнозов сделал, которые уже понемногу воплощаются. Очевидно их воплощение заметно существенно расширит возможности LLM OS.

Еще интереснее лекция Яна Лекуна (лауреат премии Тьюринга за формирование направления глубокого обучения и вице-президент Мета по ИИ) From Machine Learning to Autonomous Intelligence. Там на 1:32 собственно слайды всего около 45 минут. Лекун уверен, что генеративные модели, которые сегодня на самой вершине хайпа (на секундочку G в GPT = Generative) завтра потеряют популярность, уступив место, возможно, менее креативным, но более точным (с точки зрения галлюцинаций и полезности) моделям. Ну и еще несколько смелых прогнозов об отказе от вероятностных моделей, контрастивного обучения и обучения с подкреплением. Причем для каждого направления он обосновывает замену, потенциально имеющую большую эффективность.

Вывод: у LLM очень много резервов для совершенствования. Что мы и будем наблюдать в ближайшие годы.

Но интереснее всего оказалось письмо Эндрю Ына (сооснователь Coursera, руководил Google Brain, учредитель DeepLearning.AI) в рассылке DeepLearning.AI 6 дней назад.

Там идут мысли почти как рассуждения про парадокс Джевонса из прошлого поста:
Writing software, especially prototypes, is becoming cheaper. This will lead to increased demand for people who can decide what to build. AI Product Management has a bright future!

Программирование подешевеет, и это увеличит спрос на тех, кто может этим управлять.
Given a clear specification for what to build, AI is making the building itself much faster and cheaper. This will significantly increase demand for people who can come up with clear specs for valuable things to build.

В общем то, что ИИ будет писать быстрее и дешевле не обсуждается. Вопрос — кто будет ставить четкие задачи ИИ? Ответ Эндрю — AI PM. Ну и вывод:
The demand for good AI Product Managers will be huge.

Вангую, что народ поделится:

* на тех, кто конкретно подсядет на использование генеративных инструментов в качестве ЗАМЕНЫ собственной прокачки.

* и тех немногих, кто прокачается до уровня, который не будет заменяться "более быстрым и дешевым AI".

За что, собственно, постоянно топлю.

Ловите бонус в качестве необязательного и нетривиального ДЗ от Эндрю: 😉

* AI PMs need to understand how to manage successful AI development (очень непросто, скажу я вам).

* Skilled in utilizing data to drive AI innovation and create richer data-driven solutions (тоже кажется простым только делавшим "short way to win" решения домашек)))

* Skilled in handling ambiguity and adapting to unpredictable AI outcomes (да уж, в наших палестинах артефакты процессинга сегодня никто не умеет менеджить, их так и продают потребителям!!! Поэтому те, кто будут уметь... продолжите это предложение)

* Proficient in ongoing education to align AI innovations with user needs and product goals. (Кажется легким только с виду, процент заканчивающих ШАД и AI Masters тому свидетели)))

* Skilled in ensuring ethical AI practices, accelerating feedback loops, and creating prototypes to advance product development.

Цели определены, задачи поставлены! Погнали! 😁
6
Итак, господа, жалких 2 недели назад, я писал про свежее интервью Цукерберга, где тот говорил про замену программистов нейросетями, а чутка позднее, какие перспективы есть у LLM, с точки зрения Карпаты и ЛеКуна, а также что нужно прокачивать, чтобы остаться актуальным с точки зрения Эндрю Ына (его 5 целей на прокачку, которые будут востребованы при массовом приходе AI в программирование).

За эти две недели события явно ускорились. Во-первых, Трамп посулил 500 миллиардов долларов OpenAI & Co (правда не своих, а от ОАЭ через японский фонд, но...), далее 140 миллиардов долларов своим компаниями пообещало правительство Китая + о крупных тратах в десятки миллиардов заявили Google, X, Microsoft и другие. Это важно. Ибо уже сегодня хорошо видно, что для того, чтобы раскатать современную мощную LLM в сервис вот прямо очень сильно не хватает мощностей. С такими деньгами мощности будут.

Во-вторых, шороху навел релиз моделей DeepSeek, конечно. Как минимум китайская компания впервые догнала OpenAI (что даже обвалило американские рынки в какой-то момент). Моделька очень интересная! Настоятельно рекомендую зарегистрироваться там + поставить приложение на телефон (VPN не требуется). Отвечает модель очень неплохо, хотя и галлюцинирует, и ошибки делает. Я поймал ее на простой ошибке в запросе на русском языке (который отловил только поскольку она цепочку рассуждений привела), а когда тот же запрос на английском сделал - все корректно отработала. Причем в отличие от OpenAI она вообще не парилась, что ответы на языках разные. Да, разные. Используй ответ английской версии, он более правильный, чувак 😉 Ну и к вопросу о вычислительных мощностях, только я вошел во вкус с DeepSeek, как на прошлой неделе на нее обрушилась волна популярности и она сначала перестала отвечать вообще, а сейчас там
Due to technical issues, the search service is temporarily unavailable

Честно говоря не понимаю людей, которые до сих пор гуглят. По-моему глагол "загугли" устарел в прошлом году, с тех пор как ChatGPT начала очень годно агрегировать данные поисковых запросов. А еще есть Perplexity.ai. А теперь и DeepSeek.

Крутизна DeepSeek в том, что они выложили веса (причем в куче вариантов) бесплатно, в том числе для коммерческого использования. В итоге Perplexity оперативно подсуетились и подхватили падающее знамя возможность вызвать модель DeepSeek (т.е. можно с ней экспериментировать у них, и вообще переключать модели).

DeepSeek очень неплохо умеет в код и уже совершенно очевидно, что с такими моделями студенты смогут:
* решать домашние задания
* сдавать эссе по гуманитарным курсам
* писать дипломы
и т.д. еще быстрее, чем раньше)

В этом плане качество образования ленивых (коих немало) в очередной раз снизится 🤷‍♂️😉

Интересно, что сравнительно недавно (буквально с прошлого семестра) ChatGPT научилась вполне себе годно объяснять теоремы из университетских курсов на уровне репетитора. Это то самое годное использование прогресса LLM, которое позволяет оставить в голове после курсов не меньше, а больше! (что, впрочем, требует больше дисциплины) 😁

Ну и к заглавному графику. На нем представлен прогресс в плане удешевления расчетов разных сетей с показателями 44%, 82% и 86% по бенчмарку MMLU, где представлены задачи по 57 направлениям (философия, лингвистика, психология, география, астрономия, математика, физика, анатомия, генетика, международное право и далее по списку). Вертикальная шкала логарифмическая.

Хорошо видно, как за год-полтора удалось в 10+ раз снизить стоимость запросов! Сложнее всего это было сделать для наиболее продвинутых сетей (что логично), но и по ним прогресс заметный.

К тому моменту, как вы доучитесь, эта волна как раз дойдет до массового применения в production!

Be prepared! 😁

#speed_of_progress
👍3
Ну и до кучи!

Очень интересный график прогресса по разным бенчмаркам, выровненный относительно человека.

Тут есть и старый добрый MNIST, который 15 лет служил верой и правдой (хотя если вы сегодня его в своей статье примените, то это будет красная тряпка для ревьюверов))), есть и ImageNet.

Понятно, что скептики тут же скажут — да модели просто все это выучили! Ну, учитывая, что мы тут занимались машинным и глубоким ОБУЧЕНИЕМ, то выучили, конечно 😂 Другое дело, что они реально научились отличать не только кошек и собак, но и, например, собак разных пород, лучше людей, распознавать речь разной дикцией лучше людей, решать математические задачи лучше людей, наконец, решать научные вопросы лучше аспирантов 😉 (см. бенчмарки выше).

В принципе мне не важно, запомнила модель знания или нет, если она их по делу применяет и не глючит в выдаче результата.

Ну и мы видим, что "срок жизни" бенчмарков сильно уменьшился. Вроде создается сложный бенчмарк, но его хватает буквально на 4 года.

Вы живете в запредельно интересное время! Мощнейший переход количества в качество в скорости ОБРАБОТКИ разнородной информации произойдет, похоже, в ближайшие 2-3 года. Т.е. если интернет был 30 лет назад революцией в скорости ПЕРЕДАЧИ информации, то DL сейчас резко ускоряет ее обработку (в широком смысле слова). Будет не скучно!

Из свежего интересного — буквально вчера OpenAI выкатила Deep Research, агента, которому можно ставить довольно высокоуровневые задачи, и который уходит "подумать" надолго, но и результат в среднем выше. Наконец-то заменят ученых! Очень похоже, что цена написания дипломов на заказ этой весной сильно упадет! 😂

Вангую — ценным станет понимать, что выдает модель. Это реально сложно.

В общем — прокачиваться будет кому-то проще, а кому-то сложнее. Делайте свой выбор! 😉

Оба графика из International AI Safety Report (January 2025). Отчет на 298 страниц, там еще много интересных графиков 😉

#speed_of_progress
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43
Коллеги,

Один из главных минусов LLM — это галлюцинации, когда LMM радостно и правдоподобно выдумывает ответ. 🤷‍♂️😁

Вообще мне кажется, что преподавателям общаться с LLM как-то проще. Любой преподаватель, принимавший устный экзамен, видел этих самых "галлюцинаций" море (когда ответ с самым уверенным видом выдумывается 😉). Причем особенно тема сильна на госах, где вопросы из кучи разных тем, довольно часто обновляются и заметно реже преподаватели глубоко компетентны во всех вопросах 😉

Но ровно там, кстати, у любого нормального преподавателя формируется навык по косвенным признакам (+ допвопросу) понять, это галлюцинация или нет 😂🤣😂

С моделями работа тоже идет, в том числе путем обучения моделей говорить "я не знаю" — не самая тривиальная задача, заметим. Одно из направлений — бенчмарки уровня галлюцинаций. Делать их сложно и там есть большие проблемы с разметкой и ошибками первого-второго рода, но некоторый скрининг они дают. Например, Hughes Hallucination Evaluation Model (HHEM) Benchmark, график из которого приведен на заглавной картинке. С его методикой не все волшебно (она заточена на RAG + есть вопросы к точности модели), но в целом это численная оценка и хорошо видно, как она довольно быстро снижается.

Интересно, что график уже устарел и две свежих модели от Google обогнали недельной давности модель от Open AI, т.е. соревнование идет довольно бодро 😲😲😲💪💪💪

Ну и кто пропустил, Андрей Карпаты (ранее директор по AI в Tesla и сооснователь OpenAI), про которого я довольно регулярно пишу (раз, два, три) выпустил лекцию "Deep Dive into LLMs" на 3,5 часа. Там уже полмиллиона просмотров за 4 дня и, очевидно, будет намного больше! У человека однозначно талант очень кратко, емко и достаточно четко (без серьезных искажений при упрощении) излагать материал. Это реально сложно. Я посмотрел уже больше половины (не успел все за выходные))) и весьма рекомендую, как впрочем, и предыдущие видео Андрея.

Из интересного: на обучение GPT-2 в 2019 году затратили примерно $40.000. Летом 2024 Карпаты показал, как можно примерно повторить результат, затратив $672. Сейчас, зимой 2025 он оценивает, что результат можно повторить за $100 (из-за прогресса железа, доступных почищенных данных и алгоритмов). Прогресс в 400 раз за 6 лет!!! 😲 Сильно! Интересно, через сколько лет воспроизведение GPT 3.5 можно будет давать в качестве задания спецкурса? 😉 В любом случае мне очень импонирует его сравнение обучения модели со сжатием с потерями (с очень нетривиальной оценкой качества результата, кстати).

Галлюцинациям (их причинам, а также методам по их уменьшению) Карпаты посвящает заметный кусок изложения, очень понятно объясняя, почему при использовании поиска уровень галлюцинаций сокращается, как его в принципе можно сокращать, почему это не так просто и как это будут делать.

Кстати, давно не видел комментариев типа "да что может этот стохастический попугай!".

Не знаете почему? 😉

P.S. Почему специалисты очень часто неверно прогнозируют развитие экспоненциальных процессов я когда-то подробно описывал на Хабре. Там в начале пачка примеров типа:
«У телефона слишком много недостатков, чтобы его можно было серьезно рассматривать, как средство коммуникации. Устройство не представляет для нас никакой ценности», — писали специалисты Western Union, тогда крупнейшей телеграфной компании в 1876 году.

Я бы не переоценивал потенциала LLM, но и недооценивать его не стоит. Серьезные недостатки технологии лечатся очень быстро и... оно взлетает.

Всем лучшего понимания идущих процессов! 😁

#speed_of_progress
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3
Ну и к вопросу о взлете.

ChatGPT поставила рекорд, добравшись до 6 места самых популярных вебсайтов мира в январе. Они обогнали Твиттер. Это сильно.

Прирост почти на 6%, очевидно связанный с пачкой громких релизов.

Единственный вопрос, который меня мучает, глядя на эту статистику: интересно, кто до сих пор ходит на yahoo.com? 🤔🤔🤔

А вообще на месте гугла я бы напрягся. Правда они на месте ровно не сидят, судя по лидерству в бенчмарке предыдущего поста.

Мы живем в очень интересное время!)
3👍2
Уже в следующую среду, 19 февраля стартует спецкурс «Интеллектуальные методы обработки видео».

Что интересного?
- Актуальные задачи обработки видео
- Базовые навыки работы с видео на Python
- Реализация детектора смены сцен с помощью ML
- Работа с 4D-видео
- Разработка и обучение нейросети для видеоанализа

Первая лекция пройдет в 14:35 19 февраля в 609 аудитории на ВМК

Если ты учишься на 2-4 курсе и хочешь попасть в видеогруппу нашей лаборатории – этот курс твой счастливый пропуск!

Присоединяйтесь к чату курса
7
Господа!

Сэм Альтман тут неделю назад выступал в Токио и сказал следующее (на 20 минуте примерно):
«Наша первая ризонинг модель была где-то на уровне ТОП-миллион лучших программистов мира. И люди думали, что это очень впечатляет. Это было как вау-эффект в AI. Затем мы добились ТОП-10000. o3, мы говорили про это в декабре, находится в ТОП-175. Наши внутренние бенчмарки сейчас в районе ТОП-50, и к концу года это будет ТОП-1, так что это удивительная скорость масштабирования для большего количества вычислений в этой новой парадигме, и мы не видим никаких признаков того, что это остановится »

В общем скоро в программировании будет как в шахматах — соревноваться будут разные ИИ между собой 😉

Новая парадигма — это улучшение качества результатов работы за счет улучшения стратегии ризонинга, когда вы платите вычислительными мощностями инференса за улучшение результата. Довольно дорогая тема на сегодня (правда ее себестоимость быстро падает с новым железом и оптимизациями, R1 это хорошо показали).

А ТОП измеряется по рейтингу CodeForces наиболее популярному в мире сайту спортивного программирования.

Понятно, что когда такие слова пересказывают журналисты, они примерно никак не интересуются, что именно оценивает CodeForces. Также понятно, что умение круто писать и оптимизировать алгоритмы, это важно, но в реальном проде важнее писать код, который удобно поддерживать, критична надежность, критична командная работа и т.д. Т.е. это немного другой вид спорта. Но вообще возможность получения каждому программисту через год напарника, со скилами на уровне ТОП-1 CodeForces — это в любом случае вот прям ОЧЕНЬ круто. 😲💪🙂

Ну и я рекомендую покликать лучших товарищей в рейтинге CodeForces (пока там люди в основном, ибо уже через год им, боюсь, придется закрываться ибо отличить человека от человека+AI, боюсь станет невозможно 🤷‍♂️😉). Короче, вы увидите, что у людей прокачаться до ТОП-200 занимало обычно 3-5 лет и порядка 1500-4000 решенных задач. Т.е. довольно много. Похоже, что нейросеть OpenAI учится быстрее)

Сейчас среди некоторых особенно зазвездившихся со школы студентов модная тема — нафига учиться? Меня Яндекс был готов брать сразу после школы. Мне корочка чисто чтобы было высшее образование нужна, а так я уже пошел работать.

Это прекрасно для вас! 😁

На заглавном графике — количество вакансий в IT в США с 2020 года (январь которого принят за 100%). Видно, что в COVID все падало процентов на 30, причем программирование падало медленнее других специальностей. Дальше все ушло в пик в 2022, а потом пошло плавно снижаться и уже снизилось ЗАМЕТНО НИЖЕ БОЛЬШИНСТВА ДРУГИХ СПЕЦИАЛЬНОСТЕЙ почти до ковидного минимума. Ну и интересные вещи народ рассказывает. Тут была пара крупных сбоев в работе ChatGPT, так работа в некоторых компаниях средней руки (в которых ChatGPT не блокируется) натурально вставала 😂🤣😂 (тикеты не закрывались!). Ну должно же откуда-то браться 6-е по посещаемости место ChatGPT))) И у юристов работа вставала. 😉 Вот оттуда и берется 😂

Понятно, что в первую очередь это повлияет на мемных в США Code Monkey Programmers. Но, судя по темпам, не только. Есть прогноз, что в ближайший 2 года эта кривая заметно ниже упадет.

Пару месяцев назад было прикольное интервью с руководителем ШАД Алексеем Толстиковым, на нем Алексей рассказывал, что они сделали специальный трек для тех, кто 3-5 лет назад закончил вуз, поскольку ОНИ НАБИРАЛИ НА ЭКЗАМЕНАХ В ШАД МЕНЬШЕ БАЛЛОВ и не проходили, хотя дальше у них шансы затащить (если напрячься) были. Рекомендую внимательно прослушать всем тем, кто думает, что изучать новое всегда будет легко и просто. Как вы будете конкурировать с другими, если конкуренция резко возрастет?

Всем конкурентоспособности 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍2😢1
Коллеги!

Вчера прошел первый дедлайн нашего челленджа, проводимого в рамках CVPR NTIRE. Проводят его два наших аспиранта и магистр.

В первый раз наш пропоузал зашел на CVPR, причем мы подали аж 6 пропоузалов. Но это CVPR! Кто не в курсе — одна из наиболее топовых конференций изначально по зрению, а сейчас по пачке смежных тем. И прошел только один. Будем набирать опыт и работать над success rate. 😁

Соревнование по сути только началось (первый этап), а у нас (будучи почищено от тестовых и странных) 45 участников, 22 сабмита (17 из них уникальных). Это ОЧЕНЬ круто! 🙂🙂🙂

На ECCV этой осенью, где мы проводили 3 челленджа, у нас было 29 участников в самом "слабом" и 31 в самом "сильном", т.е. разброс был небольшим. И это В ПОЛТОРА РАЗА МЕНЬШЕ, на итог, чем на ПЕРВОМ этапе (задолго до окончания) тут! 😲😲😲

Короче — CVPR сила!!! 💪💪💪 ECCV нервно курит в сторонке.

Кто не следил за темой: мы прокачались в бенчмарках (сделав 18 штук), а там чтобы хорошо сделать — нужно много нюансов учесть (в первую очередь в профессиональной оценке — как подготовить данные, какие метрики, какие меры против накруток, проверка на лики и т.п.). Это только кажется — "раз и сделал". А реально если вы "раз и сделаете", то огребете справедливой критики воз с горкой! Не увезти будет. 😉

НО! Бенчмарки сейчас стало принято делать с открытым датасетом, что во времена DL — маразм. Ибо бенчмарк теперь что-то показывает только при публикации. А потом его топ запомоивается какими-то странными "типа SOTA" методами, которые по какой-то странной никому не понятной причине не воспроизводятся на новых датасетах. Вот она чистая незамутненная наука! Мы сделали много бенчмарков на закрытых датасетах (которые работают долго), но люди (опять абсолютно никому непонятно почему!) не очень любят туда сабмиттиться. 🤷‍♂️😉

Выход сегодня — челленджи. На момент проведения датасет закрыт, а после ко всеобщему удовлетворению открывается. Тема хорошая, но чтобы попасть туда, нужно пройти конкурс. Зато в злачных местах и участников реально много. Туда и идем 😁

Короче! Занимаемся нашим давним очень интересным развлечением — измеряем и соревнуем, набирая опыт в челленджах со все большим и большим числом участников! Параллельно подсвечивая лучших и лучше понимания как в соревнованиях участвовать. ✌️

Кстати, челленджи очень любят компании (и понятно почему). И мы челленджи на деньги компаний делали и будем делать. 😉

Это самое начало истории! Подробности будут! 😁

Stay tuned! 😉

#pro_conferences
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Всем привет, уже завтра стартует спецкурс «Интеллектуальные методы обработки видео».

На первой лекции мы расскажем о нашей лаборатории и проектах, а также наши аспиранты расскажут о своем исследовательском пути в ней

Ждем всех желающих в 14:35 в аудитории 609

P.S. на гифке изображен четырехмерный кадр, который вы научитесь получать сами в последнем задании курса)
👍64
Господа!

На прошлой неделе я выступил в Т-банке с лекцией. Было супер-интересно в первую очередь потому, что я там пробыл 3,5 часа суммарно, из которых получилось почти 2 часа кулуарного общения с их разработчиками ИИ-алгоритмов. У меня была масса вопросов к ним, а у них (особенно после лекции, где я ехидно интересовался, каким новым метрикам они верят) была масса вопросов ко мне. 😉

Также я как обычно запросил обратную связь у организаторов и получил такой отзыв:
Очень субъективное мнение, потому что вы огромный эксперт, о вас внутри компании говорят как о лучшем ученом МГУ, в том числе в AI подразделении.

Мне как массовому слушателю было бы интересно еще про историю узнать как вообще зарождались технологии обработки и сжатия. Может о каком-то кейсе, когда использовали алгоритм сжатия как-то особенно интересно, например для передачи какой-то информации или благодаря внедрению сэкономили на серверных мощностях Х денег))

Позабавило, что я "лучший ученый МГУ". Не согласился, ответил:
Ну это преувеличение, думаю. У нашей лаборатории больше всего статей на А* конференциях по AI, чем у любой другой лаборатории МГУ. Это правда. Но считать "лучшесть" можно по разным метрикам, так что наше руководство на ВМК МГУ с вами точно не согласится 😉😉😉

На что получил ответ:
Да, понимаю, но это именно фидбек коллег, видимо по их метрикам "лучшести" вы выигрываете))

Вопрос метрик, это, безусловно, важнейший вопрос 😂😉😂

Большинство университетов (и компаний!) в мире сегодня измеряют достижения в научной составляющей ИИ по статьям на А* конференциях. Лет 20 назад это были журналы, но с тех пор как CVPR (и примкнувшие) сделали ставку на усиление и усложнение процедуры review и открытые публикации (отдельная очень интересная история), соревнование идет за то, чтобы опубликоваться там.

У нашей лаборатории 12 А* публикаций за последние 5 лет (4 у вашего покорного во многом благодаря Анастасии Анциферовой и 8 у предыдущего руководителя лаборатории Антона Конушина). При этом у ВСЕГО МГУ их было чуть больше 20. Т.е. у нашей лаборатории примерно половина. И дальше идет россыпью мехмат и физфак. При этом у меня основное место работы ВМК, а у Антона Конушина основное место — AIRI, а не МГУ и 4 более ни у кого нет. Так что да, стал лучшим по такой метрике 🤷‍♂️😉

Другая интересная метрика — оказавшие наибольшее влияние на ИИ по цитатам scholar. Тут картина такая:

* Карен Симонян (ВМК), мой бывший студент, всего цитат 254727, из них за топовую — первым автором, изобретение VGG — 140641.

* Алексей Досовицкий (мехмат), всего цитат 108281, из них за топовую — первым автором, изобретение ViT — первое эффективное применение трансформеров для зрения — 55663

* Дальше, видимо (поправьте меня!), идет Дмитрий Ветров (ВМК), всего цитат 10717.

Тут мы тоже первые, но увы, ключевые результаты всеми этими людьми получены за пределами МГУ. Вообще злые языки говорят, что вырасти выпускнику МГУ можно только вовне. Так все ключевые конкуренты ВМК за абитуриентов выращены или ростятся выпускниками МГУ:

* ФКН ВШЭ — набор 1250 бакалавров
- Создан Иваном Аржанцевым (мехмат МГУ)
- Первый руководитель бакалавриата Антон Конушин (ВМК МГУ)
- Текущий руководитель бакалавриата Евгений Соколов (ВМК МГУ)

* Физтех — набор 720 бакалавров (ФПМИ+ФРКТ+ВШПИ)
- Руководитель ФПМИ - Андрей Райгородский (мехмат МГУ)

* Центральный университет - набор 300 бакалавров (Т-банк — красавцы!)
- Существенную роль играет Александр Дьяконов (ВМК МГУ)

Я с огромным интересом общаюсь со всеми этими людьми (кроме Аржанцева), там огромное поле для осмысления.

Ну и вишенка на торт: квота на набор студентов в нашу лабораторию была сокращена с 17 студентов в 2021-2022 года (причем в 2021 мы брали 19 студентов + 2 сверх квоты), до 10 студентов в 2024 (+5 сверх квоты). Обратно пропорционально нашим успехам 😉

А мы сейчас сильно наращиваем публикации (в работе много А* статей), а также чтение курсов. В этом учебном году мы прочитаем 7 курсов для отбора студентов на ВМК, AI Masters МГУ, ФКН ВШЭ и Иннополисе.

Мы все очень хорошо разгоняем!

Stay tuned! 😉

Ваш "лучший ученый МГУ" 😂
👍185🔥3🤔1🤩1
Господа!

На прошлой неделе стартовали наши курсы на втором курсе программы AI Masters. Мы читаем:

* "Computer Vision & Video Processing" совместно с Сергеем Загоруйко (MTS AI), соавтором DETR (любительский обзор на тему DETR)

* И в первый раз читаем "Безопасность, интерпретируемость и устойчивость в машинном обучении" от группы метрик, основной лектор Рашид Бадер.

Про наш курс я пишу регулярно. Расскажу про новый) Рашид защитил в позапрошлом году диссертацию по состязательным атакам, а точнее про повышение устойчивости к ним: "Improving the robustness of mathematical models in adversarial scenarios through generalization approaches". Вообще лекции и тем более курс от постдока по очень свежим темам — это супер интересно на мой вкус. Сейчас тема состязательных атак активно взлетает. Везде в бизнесе вам мало реализовать модель в продакшн. Вам так или иначе нужно, чтобы она не ломалась (как минимум легко). Ибо кто следит за темой все эти истории с джейлбрейками LLM и веселыми картинками от генераторов картинок — это часто совсем не смешно для руководителей подразделений компаний. При этом в опенсорсе, который нужно завернуть в продакшн, думают об этих вопросах нечасто (скажем вежливо). 😉 И дальше, ваш выход, господа! 😁

Темы атак и защит мы сейчас читаем даже в рамках бакалаврского курса на ВМК, но в предельно коротком варианте — одна лекция на атаки и одна на защиты. Здесь, как видите, все более развернуто и рассматриваются не только метрики, но и картинки, NLP, звук. Также рассматривается непростая тема сертифицируемой устойчивости, когда мы можем гарантировать, что модель не может быть взломана больше, чем на определенную величину. Также рассматриваются атаки на персональные данные (и конфиденциальность), интерпретируемость моделей, а также Fairness (как это будет по-русски?, русской статьи в википедии на тему ML fairness пока нет), когда мы анализируем разного рода смещения в обучающих выборках.

Также напомню, что мы набираем к себе людей в магистратуру и если кто-то не попал к нам на 2 курсе, то самый лучший вариант, это поступить на AI Masters, там в первый же год пойти к нам на курсовую, а на второй год на диплом и дальше пойти к нам в магистратуру!

Продолжаем глубокую прокачку тех, кто хочет прокачаться! 😁
5
Господа!

Тут вчера вышел новый Sonnet, который показал (в том числе) неплохие результаты на моем любимом в этом сезоне SWE-bench Verified. Причем интересно, что если мы зайдем на сам SWE-bench, то увидим что ТОП-10 свежих результатов лежат в диапазоне 54,2%-64,6%, т.е. реальный результат 3.7 сонета — это второе место и только в прыжке (до 70,3%) первое. С другой стороны они представляют все-таки универсальную модель (которые, заметим, вполне себе любят программисты) и в сравнении с другими универсальными моделями результат великолепен и ступенька достижения оч хороша.

Показательно, что в опубликованном 4 дня назад отчете "AI progress is about to speed up" от Epoch.AI те вангуют 90% SWE-bench Verified к концу года. Учитывая, что в сентябре у них было 45% и 70% в прыжке сейчас в 90+% в конце года вполне верится. Т.е. бенчмарк по сути утратит смысл (как и многие другие бенчмарки), о чем я писал тут (кстати за неделю до того, как тезис популяризировал человек из OpenAI).

Модное возражение на тему — это переобучение (модель уже видела такие примеры в обучающей выборке). Классика жанра, которую мы видим в десятках подобный бенчмарков снова и снова — да, у кого-то из топа (кому ну ооочень надо оправдать деньги инвесторов, например))) это будет переобучение. Но тех, у кого это реальный результат, т.е. меняешь постановку задачи и сеточка справляется будет, похоже, немало. Хорошо видно, как они довольно кучно идут.

Также Джефф Динн (Google's Chief Scientist) в интервью пару недель назад сказал, что 25% кода компании уже пишет ИИ. Как они считали деталей нет и скорее всего это автозаполнение, но сколько было процентов год назад? Ноль? Они явно внутри ассистентов интегрируют и раскатывают.

В посте с большой (для этого канала) дискуссией, где я писал, как Альтман планирует к концу года выпустить ТОП-1 программиста по рейтингу CodeForces, был чудный график в заголовке, из которого следует, что количество вакансий программистов с января 2020 (до ковида) до начала 2022 года сильно выросло (быстрее остального рынка труда), а за следующие 3 года упало (также сильнее остального рынка труда).

В этом плане многие (начиная с Дженсона Хуанга) вангуют сильные измерения рынка труда программистов. В первую очередь это массовое распространение ассистентов, следствием чего ключевой задачей станет ПОНИМАНИЕ ТОГО, ЧТО ПРОИСХОДИТ В КОДЕ. Т.е. Code Monkey Programmers (In simpler term, it's someone who doesn't understand the fundamentals of programming and works on mostly unimportant stuff) и гугл-программисты потеряют работу. При этом есть очень приятные версии что в целом спрос на программистов возрастет. Более того — заметно возрастет спрос на топовых программистов, способных собственно к созданию топовых решений.

Ну и вишенкой на торт — Open AI анонсировали новый бенчмарк SWE-Lancer, в который они собрали 1400 реальных задач по программированию (поэтому SWE) с фриланс сервиса Upwork с ценой от 50$ до 32000$ за задачу и общей суммой миллион долларов. Нормальной публикации пока нет, но предварительно первое место выбил Claude 3.5 Sonnet с суммой решенных задач в $403к. (Возможно, поэтому пока нет страницы бенчмарка))) С другой стороны что-то они низко планку поставили, похоже, такими темпами бенчмарку пару лет не продержаться.

А Google, кстати, выкатили AI co-scientist. Это значит, что конкуренция с китайцами и американцами в следующем году станет совсем жесткой.

В общем безмерно интересные вещи происходят прямо на наших глазах! И задача удержаться на гребне волны! Погнали! 😁😁😁
6👏3🎉1
Господа!

В комментариях к этому посту мне очень хорошо пооппонировал бывший студент нашего факультета Виктор Щербаков (ныне заканчивающий магистратуру в Женеве). Возникла дискуссия касательно пузыря ИИ инвестиций. Тема реально имеет место быть, поскольку текущий нейросетевой хайп явно затянулся (заметим, за счет того, что снова и снова идут удивительные успехи!), что спровоцировало огромные инвестиции в область (изрядная часть которых похоже не окупится, как минимум в ближайшей перспективе). Хайп AI инвестиций — это великолепный вопрос на обсуждение! 👍

Короче! Вчера Stripe (платежная система, и, если верить википедии, крупнейшая в мире частная финтех компания с оборотом больше триллиона и оценкой стоимости в 65 миллиардов в 2023 году) опубликовала весьма любопытную статистику (на графике выше).

Они №1 на рынке платежных систем и через них платят клиенты OpenAI, Anthropic, Suno, Perplexity, Midjourney, Cognition, ElevenLabs, Mistral и т.д., короче весь цвет, причем не только американский, но и европейский.

В общем они для Топ-100 компаний предыдущей волны стартапов (SaaS — софт как сервис) и новой AI волны собрали статистику, сколько месяцев у компании занимает дойти до 1 миллиона дохода (в пересчете на год) и сколько до 5 миллионов.

И хорошо видно, что текущая волна заметно быстрее обороты наращивает. Anthropic берет деньги за LLM, Suno — за AI музыку, Perplexity — за AI поиск, Midjourney — за генеративные картинки и т.д. Рынки разные, но в среднем скорость выше. 🧐🙂

И еще раз подчеркну — это деньги пользователей. Мы видим, как растет не число пользующихся сервисом бесплатно (т.е. на деньги инвесторов и стартапы такие графики очень любят), а как быстро люди созревают за этот сервис платить свои кровные. Причем заметим, что именно за счет больших инвестиций собирать деньги пользователей AI стартапам заметно сложнее! Например, OpenAI были с DALL-E первыми на рынке GenAI картинок, но собрать там сколь-нибудь значительные деньги не смогли (хотя и пытались). И конкуренция реально заставляет быстро снижать цены (и роняет обороты). Причем цифры для Топ-100 — это в общем-то довольно репрезентативная оценка.

В этом плане мы в ближайшие 5 лет мы увидим аналог сдувания dot-com bubble — так называемого пузыря доткомов, условно когда компания делала себе что-то.com домен и объявляла о старте интернет бизнеса и куча инвесторов начинали в экстазе кричать "Shut up and take my money!". А потом многие из них потеряли свои деньги. 🤷‍♂️

Главный вопрос сезона для нас сегодня: означает ли это, что интернет не работает? 😂

Ну как бы нет. Это значит, что создать something.com сайт, это не значит нанести реальную пользу людям. 😉

Сейчас будет то же самое. Да, инвесторы кладут деньги в AI компании как сумасшедшие. Значит ли это, что AI не работает? Нет, конечно. При этом AI переоценен? Да, безусловно. Ровно как интернет 24 года назад. ☝️

Вам, дорогие друзья, стоит погуглить на досуге в каких количествах топовые компании тех лет увольняли программистов на волне краха доткомов (а там прям хорошо было), понять, почему не уволят вас, и понять почему вы будете конкурентоспособны.

В общем в очередной раз всем пожелаю конкурентоспособности! Уже в ближайшие пару-тройку лет это пожелание может оказаться очень актуальным сразу по нескольким причинам 😉

И большое спасибо Виктору! Если кто еще хочет поопонировать — пожалуйста не стесняйтесь! Спорьте! Ведь история с дот-комами не может повториться на новом витке, правда? 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93
Господа!

Я давно не писал о наших успехах, исправляюсь! 😁

Есть такая интересная задача: построение оптического потока — построение вектора смещения для каждого пикселя видео в кадре между кадрами. Задача сложная и неоднозначная, поскольку бывает полупрозрачность (и у пикселя на самом деле ДВА правильных вектора), бывают шумы (и строить сложно), объекты могут двигаться неравномерно по кадрам (и сложно использовать историю), построение оптического потока для сложных по геометрии слабо текстурированных объектов по-хорошему требует реконструкции 3D модели и т.д. Опять же при практическом применении метод должен работать быстро, что очень непросто. 🤕

При этом задача является фундаментальной, в том плане, что так или иначе сегодня и сжатие и обработка построены на восстановлении движения. Задача Motion Estimation лежит в основе большого количества алгоритмов ВСЕЙ области обработки и сжатия видео. ☝️

Короче! Команда нашего аспиранта Александра Яковенко решила попытать силы в этой области в новой теме многокадровых оптических потоков (сложность которых в быстром росте требований по памяти). Метод назвали MEMFOF (Memory-Efficient Multi-Frame Optical Flow).

Обучали его всю зиму и буквально на прошлой неделе удалось выбить 1 место старого бенчмарка Optical Flow Evaluation 2015, в котором на секундочку 239 участников!!! И мы первые!!! 💪💪💪🥇🥇🥇👍👍👍

Пока, если кликнуть, обозначен как:
[Anonymous Submission]
Submitted on 24 Feb. 2025 11:40

поскольку прямо сейчас подаем его на конференцию и это требование blind review.

Текущая задача — оперативно (пока 1 место и никто не обогнал) податься, и, главное, пройти на хорошей конференции!

(продолжение следует) 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥122
(начало тут)

Поскольку самая частая ситуация, когда SoTA модель просто заточена под конкретный датасет, вот вам 1 место нашего MEMFOF в другом бенчмарке 💃💃💃, причем модель без fine tuning под его открытые данные заняла 3 место по сути пропустив только одного конкурента! 💪💪💪🥇🥇🥇👍👍👍

Более того в третьем бенчмарке довольно старом, в котором протестировано 497 моделей (!) у нас сейчас 5 место (пропустили вперед только 4 модели). 💪💪💪🙂🙂🙂 Причем внимательный читатель может проанализировать конкурентов, поискать их в топе других бенчмарков и сделать прогноз их воспроизводимости. В качестве необязательно ДЗ 😁

К слову, кто из молодых не читал, почитайте мою статью "Deep Fake Science...", она в свое время взяла 1 место в номинации ИИ на конкурсе статей Хабра и с тех пор ситуация только усугубилась, к сожалению.

Также замечу, что название метода (Memory-Efficient...) намекает внимательному читателю на потенциально высокую практичность полученного результата (по крайней мере мы целимся ровно туда). 😁

Дальше тезисно:

* В понедельник я был на мероприятии крупной китайской компании в Москве, где говорилось про внутренний DeepSeek moment, когда подразделение не смогло построить свою LLM, и по итогу руководитель был уволен, а само подразделение почти расформировано в пользу других. 🤷‍♂️😢

* Вышла YandexGPT 5 Pro, там все не волшебно (как и еще во многих продуктах). Говоришь с исследователями — все отмечают, что не хватает грамотных людей. 🤷‍♂️😢

* Глава ИИ Яндекса Александр Крайнов в интервью ранее хвастался, что "Яндекс публикует А* статей больше чем любой университет России". Как так? Ответ прост — они ооочень активно нанимают авторов А* статей. Сравнение зарплат таких авторов в Яндексе и университетах оставляет только один вопрос — что эти немногие оставшиеся люди делают в университетах? 😉😉😉

* Причем в прошлом году больше всех А* статей было у... сотрудников Сбера (причем намного больше!), который громких заявлений делал меньше, а нанимал активнее) Почему так произошло? 😲😉

В общем у нас сейчас две задачи:

* Максимально увеличить число А* авторов среди наших студентов (да, у нас есть девушка магистр, первый автор двух А*!) и аспирантов. 💪

* А* статьи в ИИ сегодня наиболее цитируемые. Их цитируемость часто на порядок выше журнальных. Многие рейтинги университеты сравнивают по цитированиям (с разным весом). Задача — увеличить место МГУ в разных ИИ рейтингах. 🥵💪🙂

Уже писал, что наша лаборатория дала почти половину А* в ИИ от всего МГУ за последние 5 лет. Но МГУ все равно в рейтингах плавно падает.

Надо поднажать! 😁😁😁 (Коллеги, кстати, тоже поднажать планируют)

Работаем! 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍1
Дорогие девушки и дамы!

Вас всех с профессиональным праздником! 😁

Кто на канале давно знают, что у нас девушки жгут не по детски! Это Анастасия Анциферова (взяты AAAI, ICLR, ICML, NeurIPS) и Екатерина Шумицкая, ставшая в магистратуре (!!!) автором двух А* статей (таких аспирантов-то поискать).

Так и хочется сказать: "Парни, парни! Вы вообще где? Не спать! А то ИИ заменит нафиг в обнимку с такими девушками!" 😂🤣😂

В общем, девушки, ВЫ КРУТЫ!

С парнями будем вас догонять (уже в этом году)!!! )

💐💐💐💐💐💐💐💐💐💐💐💐💐💐 💐💐
Всех еще раз горячо поздравляем, любим, ценим!
💐💐💐💐💐💐💐💐💐💐💐💐💐💐💐💐
28🔥4
Господа!

Продолжаем тему развития LLM/агентов. В комментариях к посту с графиком вакансий программистов Виктор писал:
По личному опыту и по отзывам товарищей-леммингов, чтобы LLM могла написать нормальный код, ей нужно все разжевывать

Это правда! Сам не раз тратил заметное время меняя и уточняя запрос.

НО! Тут как обычно важно верно оценивать ситуацию и предсказывать прогресс (если мы о нем говорим, а у меня постоянно речь про тренды).

Умные люди говорят, что лучше всего предсказывают будущее те, кто знает историю. В новейшей истории, т.е. буквально года три назад, в самом начале роста популярностей генеративных моделей когда они генерировали только картинки мы наблюдали взрыв популярности курсов промпт-инженеров. Всего за жалкие 120 тысяч рублей (например))) людей учили правильно составлять запрос, чтобы результат был лучше. 😉

А то просите вы, например, зайца. Нейросеть рисует зайца. Просите рельсы — рисует рельсы. Просите крышу — крышу. Но люди недовольны. Да, это крыша! (Заметим, что еще недавно просто понять такой — это было супер круто). НО это НЕДОСТАТОЧНО КРУТАЯ КРЫША, понимаешь ли! А чтобы она была крутой надо добавить еще в 4 раза больше слов, которые описываю всю ее запредельную крутизну. И с этими словами сеточка действительно рисовала крышу лучше! 😁

Интересно, что еще тогда умные люди предсказывали, что скоро нейросети научатся генерировать промпты. Но нет, мы пойдем учиться их писать (и заплатим за это)! И наши человеческие промпты будут самыми промптными промптами в мире (а курсы — самыми лучшими). Короче, товарищи из Microsoft еще в конце 2022 года написали прикольную статью (картинка из нее наверху), с автоматической докруткой промпта, который кардинально поднимал качество картинки. 🤔

Не подскажите, куда делись все эти промпт-инженеры? 😉 Ах, да! Они теперь пишут промпты для LLM. Дальновидно! Сколько вы поставите на долгую жизнь этого рынка? 😉😂

Но и это не все (продолжение следует)))
6
Из забавного текущего (начало тут).

Выпущенный месяц назад Deep Research от Open AI научился по нечеткой постановке задачи (по сути набросу) формулировать очень даже годные уточняющие вопросы (по уровню это уже уточняющие вопросы специалиста), которые позволяют DR намного точнее понимать куда именно копать и давать существенно лучший результат. Неплохо!

На картинке выше пример работы с ним от по сути аспиранта второго года соискателя нашей лаборатории Тимура Мамедова с конкретным примером. Уточняющие вопросы прям очень хорошие! 😲👍

Главная проблема пока — высокая цена обработки такого уровня моделей. Даже на платном тарифном плане в 20$ можно делать всего 10 таких запросов в месяц. Это очень мало! 🤷‍♂️ Но уровень результатов впечатляет и, очевидно, он будет расти (увеличивая количество подписавшихся на тариф 200$ в месяц, где лимит на такие вопросы намного выше).

Из наших свежих примеров. На прошлой неделе мы подавали статьи на ICCV. Для двух статей попробовали запросы к свежеиспеченному Deep Research. К одной он как-то слабо отработал, и вообще похвалил (возможно его ломало ревьювить))), а вот ко второй выкатил правок в количестве, по размеру сопоставимым с самим текстом статьи. За 5 минут примерно. Обрабатывавший эти правки человек за несколько часов породил почти 400 правок к статье (включая вещи замеченные им, которых была почти половина), которые еще два человека еще несколько часов разбирали. Там не все было идеально, но любом случае это прямо заметно поднимает аккуратность и качество текста статьи. 🙂🙂🙂

Еще раз подчеркну — Deep Research делает по сути наброс, который надо фильтровать, т.е. ХОРОШО РАЗБИРАЮЩИЙСЯ в предмете ЧЕЛОВЕК не просто нужен, а КРИТИЧЕН для качества результата! Но в любом случае это экономит много человеческого труда по шлифовке результата (ну или несколько итераций подачи статьи на конференции, что для А* в принципе не всегда возможно, поскольку результат очень быстро устаревает). 🙂👏🙂

Заметим, что Тимур, чей запрос на картинке выше, весьма успешно обсуждал с Deep Research, как лучше подавать Novelty статьи. И там были годные идеи, их буквально вот-вот стало можно на таком уровне использовать! 😲💪😁

В общем — тема развивается очень быстро! Стараемся оставаться на гребне волны! 😉

Работаем! 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
12
Господа!

У нас в лаборатории идут интересные эксперименты по извлечению пользы из LLM. Был забавный момент, когда была сделана попытка извлечь результаты, уровня Deep Research описанные в предыдущем посте из разных бесплатно доступных ризонинг моделей (от DeepSeek, ChatGPT & Perplexity), и-и-и-и-и... ничего не получилось. 😲😉

Шок контент тут заключается в том, что если компания хочет, чтобы за ее сервис устойчиво платили, он должен отличаться от бесплатно доступных аналогов в лучшую сторону. 🤷‍♂️✌️ Т.е. OpenAI Deep Research совершенно не случайно думает по 2-5-30 минут, находится за пейволом и при плате в 20$ в месяц доступно всего 10 запросов. Запросы к нему реально обходятся сильно дороже по вычислительным ресурсам и раздавать их на халяву — дорого. Более того, в Plus Deep Research добавили совсем недавно — 25 февраля, после того, как Perplexity в 15 февраля довольно шустро впилила к себе ризонинг модель от DeepSeek и запустила свой Perplexity Deep Research (похуже, но на пятки наступают). Причем если платить OpenAI 200$ в месяц, то доступно 120 запросов в месяц. Тоже не слишком много, но уже не 10, конечно.

Полторы недели назад дядя Сэм выступал перед инвесторами и сказал, что хочет брать 20.000$ в месяц за агента следующего поколения уровня аспиранта. Точнее, там прозвучало, 2.000$ за агента следующего поколения, и 20.000$ за "PhD level". 😲

Какие выводы можно сделать? 🤔

* Они в OpenAI любят цены 2*10^n! Безусловно! Уровень IQ 65 пройден! 😉

* Они, очевидно, ожидают существенного увеличения качества работы моделей в ближайшее время (при том, что вполне себе улучшают хорошими темпами и так). Причем новые модели будут по цене впервые сравнимы с зарплатой человека. 🤔

* Очевидно, что продать такой продукт можно будет ТОЛЬКО если он будет достаточно стабильно демонстрировать действительно качественные результаты, заметно увеличивающие скорость работы, как минимум сравнимые с результатами еще одного человека в команде. В принципе мы уже привыкли, что уровень Human в разных бенчмарках довольно регулярно превосходят, т.е. это довольно привычное явление, но чтобы лучше решалась не сравнительно узкая задача (типа игры в шахматы, Го, или даже Доту 😉 лучше чемпиона мира), а вот прям задачи широкого профиля — это будет крайне любопытно и реальный прорыв с созданием совершенно нового рынка.

* Самое удобное будет, конечно, шарить такого уровня агента на несколько лабораторий 😉 Интересно, как они ограничат количество запросов к агенту на таком тарифном плане? 😉

* Также вангую довольно быстрое снижение цены за такого уровня сервис в течении нескольких лет, очевидно. И это будет революция!

* В целом это означает ускорение развития науки и инженерии, ну и увеличение спроса на тех, кто способен с такими агентами работать. Ибо тянуть будут не все, а посадить неграмотного человека за сколь угодно продвинутого агента, это будет обезьяна, пишущая "Войну и мир" (только хуже, поскольку с первого взгляда не будут видны косяки 😁).

В общем уже очень хочется такого попробовать) Хотя, очевидно, первые версии будут с проблемами — даже сейчас народ рапортует много проблем с Deep Research, но и много крайне полезных примеров также наблюдается.

Смотрю на это с огромным интересом! 😉

#speed_of_progress
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95👍2
Господа!

Итак, вчера крупными мазками было описано, как улучшаются платные версии LLM и как они планируют улучшаться в ближайшее время. Учитывая какую пользу они уже приносят — это супер актуально и полезно.

Едва ли не главная засада на этом пути, как вчера уже отмечал, стоимость запросов. Да, модель может ответить "хорошо подумав", проанализировав массу источников и прямо заметно на другом уровне. Но это долго и дорого. Особенно это дорого будет для "PhD level" запросов (20 тысяч долларов в месяц — не фунт изюма, куча аспирантов скажет "дайте эти деньги мне, я лучше и дешевле сделаю") 😂😉

Специально для скептиков Epoch.ai тут 3 дня назад опубликовала график, который вы видите наверху. Мы наблюдаем снижение стоимости запросов:

* Для широкого круга вопросов с ответами уровня GPT-3.5 Turbo — в 9 раз в год 🙂

* Для запросов GPT-4 или выше "PhD level" научных вопросов — 40 раз в год 👏

* Для запросов GPT-4o или выше "PhD level" научных вопросов — 900 раз в год 😲🔥

Заметим, что наибольшее снижение стоимости идет для самых сложных вопросов и оно как бы не 3 порядка в год(!). Безусловно, это эффект низкой базы, поскольку оптимизация такого рода запросов только стартовала, но даже если взять запредельно скромную оценку в 10 раз (а реальная скорость падения цены выше!), это означает, что тарифный план в 20000$ превращается в 2000$ через год и 200$ еще через год. Устраивает! Заверните! 😉

Специально для скептиков — разница в стоимости инференса между NVIDIA P100 и NVIDIA A100 (FLOP per second per dollar) уже 10 раз (!), т.е. даже если вообще ничего не делать с алгоритмом, стоимость хорошо падает уже просто за счет поколений железа. А с алгоритмом, внезапно, идет основная работа. 💪

На практике это будет означать, что компаниям на этом рынке (OpenAI, Perplexity, Anthropic, DeepSeek и еще паре китайских, взлет которых мы увидим в ближайшие пару лет) придется серьезно работать над улучшением результата, чтобы сохранять мотивацию платить (ибо люди умеют считать деньги 💸💸 и быстро перебегут туда, где тот же результат дешевле 😉).

И, коллеги, в очередной раз объявляю "Сall for skeptics" 😉

Интересуют умные аргументы, почему все это счастье не будет развиваться так быстро? Ну или почему результат будет другой? Где вообще комментарии типа "Ну вот всех аспирантов-то и заменят"??? 😉

Очень жду! 😁

#speed_of_progress
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Коллеги!

Тут оказывается сегодня утром Baidu выпустил новую модель,
причем судя по бенчмаркам качество на уровне GPT-4.5 (это очень круто, учитывая что GPT-4.5 вышла всего 2.5 недели назад!).

Причем не ризонинг модель Baidu Ernie 4.5 может анализировать картинки, диаграммы, документы и даже аудио и при этом стоит меньше GPT-4.5 примерно в 100 раз 😲😲😲:
OpenAI: Input $75 / 1M, Output $150 / 1M
Baidu: Input $0.55 / 1M, Output $2.20 / 1M

Это прям вызов! 💪🙂

Деликатно замечу, что когда DeepSeek выкатил свою модель значительно дешевле OpenAI, горячие головы говорили, что все это "деньги китайского правительства", а потом были выложены детали и много кода и оказалось, что это блестящая оптимизация. И там действительно было во много раз более эффективная реализация. А DeepSeek пока даже денег инвесторов не берет, ибо деньги инвесторов на начальном этапе — самые дорогие деньги для нормального стартапа и выгоднее продавать доли позднее при более высокой оценке компании. 😁 Интересно, сколько людей про цены Baidu снова скажут подобное? 😉

Короче, я тут утром писал про еще пару китайских LLM, взлет которых мы увидим в ближайшие пару лет. Они не стали ждать пару лет. Они даже несколько часов ждать не стали. Я думаю, что они прочитали вчерашнее сообщение про цены на топовые модели и такие:
— Ну да, утро воскресенья не самое удобное время для релиза. Но надо поддержать коллегу! 😉
Ну, а как иначе-то? Ну не может же быть, что это тренд на кардинальное падение стоимости топовых моделей? Ну ведь не может? (характерный мем 😂)

Новость великолепная, ибо конкуренция в первую очередь заставляет снижать цены и бороться за оптимизацию результатов, а тут поле для оптимизации большое.

Выводы кратко:

* Более сложные модели подешевеют и придут быстрее.

* Но наиболее полезные модели будут за пейволами, ибо стоимость запросов к ним будет большой.

* Снижение себестоимости базовых моделей только ускорит появление "моделей по цене сотрудника", поскольку позволит больше компьюта потратить на запрос и раньше сделать дорогие запросы более полезными.

Как-то так!

Наблюдаем, как OpenAI придется снижать стоимость моделей 😉 Все-таки 100 раз это сильно! 👏👏👏

Кстати, в комментарии к предыдущему посту пришел Антон Конушин и дал свой прогноз по аспирантам 😉

Новость подрезал тут)

И умный скептик все еще warmly welcome! 😁

#speed_of_progress
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4