Коллеги!
Я тут сегодня написал, что группа метрик никуда не делась (т.е. кует результаты), а пруфа не было! 😁
Исправляюсь!
Горячо поздравляю группу метрик с 6-й принятой статьей в этом году! (И второй в этом году Q1!) Статья называется "Increasing the Robustness of Image Quality Assessment Models Through Adversarial Training" (не совсем защиты, но увеличение устойчивости к атакам)💪 👍✌️
🎉🎉🎉🎉🎉🎉
🏆🏆🏆🏆🏆🏆
👏👏👏👏👏👏
#our_successes
Я тут сегодня написал, что группа метрик никуда не делась (т.е. кует результаты), а пруфа не было! 😁
Исправляюсь!
Горячо поздравляю группу метрик с 6-й принятой статьей в этом году! (И второй в этом году Q1!) Статья называется "Increasing the Robustness of Image Quality Assessment Models Through Adversarial Training" (не совсем защиты, но увеличение устойчивости к атакам)
🎉🎉🎉🎉🎉🎉
🏆🏆🏆🏆🏆🏆
👏👏👏👏👏👏
#our_successes
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉12❤3👍3🤔1
Господа!
Давно не писал про будущее программирования. А там бурный процесс вовсю идет!)
В топе SWE-bench аж 5 топовых результатов были за последние 2 недели! И продвижение +7,6% за месяц с небольшим! 😲👏👍
И это было бы выбросом, если бы таких "выбросов" не было несколько за год. В итоге пройден путь от 4,4% в октябре прошлого года до 53% в октябре этого года!!! Еще год такими темпами и бенчмарк надо будет менять на что-то более сложное (что, заметим, во многих областях уже успешно произошло). 😲😲😲
Для тех, кто все пропустил — в SWE-bench измеряется исправление реальных issues (багрепортов) взятых из разных репозиториев гитхаба. В коллекции Verified ровно 500 issues. Задачка отчасти тепличная, поскольку требуются тесты (которые сильно упрощают проверку). Но это все равно круто. А ты %%USERNAME%% какой процент этих 500 issues закроешь и за сколько по времени? Чтобы представлять масштаб проблем — 52% issues размечены уровнем сложности 15 минут — 1 час. 8,4%: 1-4 часа, 0,6% — больше 4 часов. Это грубо 125-500 часов работы грамотного кожаного. Нормально так! До 3 месяцев при 40 часах в неделю.😨 😉 Это надо закрывать 8+ issues в день (лучше больше). Каждый день. 3 месяца. В разных репозиториях. Вперед, друзья, все у вас получится! 😁
Одна из серьезных проблем — работа с большими реальными репозиториями со всеми текущими ограничениями современных LLM на длину контекста. И ее прямо на глазах успешно решают!
Ну и в последнее время в ИИ было довольно много инвестиций. Вот топ компаний (отсюда):
Внимательный читатель заметит, что в топ-9 проинвестированных 4 строят ИИ-программистов (и на чей же сайт из этого топа идет линк коллекции Verified? 😉). Ну и как вы думаете 44% — это много или мало?🤔 И какие у них будут успехи за следующий год? 🤔 🤔 🤔
Также внимательный читатель заметит в числе участников SWE таких серьезных товарищей, как:
* Amazon Q Developer Agent
* IBM Research Agent-101
* Alibaba Lingma Agent
* Bytedance MarsCode Agent
Которые (в отличие от стартапов) явно не торопятся каждый релиз в бенчмарк отправлять (но и на месте точно не сидят).
В общем вспоминаем, как зажигал Дженсен "курточка" Хуанг (CEO NVIDIA) "не отдавайте детей учиться программированию, мы заберем у них работу" и-и-и-и-и...? И к какому выводу приходим? 😉
Пост "Программисты всё вымирают и вымирают" все еще на 16-м месте в топе года Хабра, а миллионы леммингов не могут ошибаться. Там советуют расслабиться, сидеть ровно и не кашлять (дословно!)
И это ПРОСТО ПРЕКРАСНО! 👍 (не забудьте посоветовать прочитать эту статью всем знакомым)😉 Ибо, чем больше будет тех, кто сидит на попе ровно, тем проще будет тем, кто целенаправленно прокачивается. 😎
Let's make yourwisdom choice! 😁
#SWE_benchmarking
Давно не писал про будущее программирования. А там бурный процесс вовсю идет!)
В топе SWE-bench аж 5 топовых результатов были за последние 2 недели! И продвижение +7,6% за месяц с небольшим! 😲👏👍
И это было бы выбросом, если бы таких "выбросов" не было несколько за год. В итоге пройден путь от 4,4% в октябре прошлого года до 53% в октябре этого года!!! Еще год такими темпами и бенчмарк надо будет менять на что-то более сложное (что, заметим, во многих областях уже успешно произошло). 😲😲😲
Для тех, кто все пропустил — в SWE-bench измеряется исправление реальных issues (багрепортов) взятых из разных репозиториев гитхаба. В коллекции Verified ровно 500 issues. Задачка отчасти тепличная, поскольку требуются тесты (которые сильно упрощают проверку). Но это все равно круто. А ты %%USERNAME%% какой процент этих 500 issues закроешь и за сколько по времени? Чтобы представлять масштаб проблем — 52% issues размечены уровнем сложности 15 минут — 1 час. 8,4%: 1-4 часа, 0,6% — больше 4 часов. Это грубо 125-500 часов работы грамотного кожаного. Нормально так! До 3 месяцев при 40 часах в неделю.
Одна из серьезных проблем — работа с большими реальными репозиториями со всеми текущими ограничениями современных LLM на длину контекста. И ее прямо на глазах успешно решают!
Ну и в последнее время в ИИ было довольно много инвестиций. Вот топ компаний (отсюда):
OpenAI — $6.6B (крупнейший раунд в истории венчурной индустрии, строит AGI, [агентов и в том числе ИИ-программиста])
xAI — $6B (строит AGI в твиттере)
SSI — $1B (строит добрый AGI)
Anthropic — $4.5B (строит LLM)
Poolside — $500M (строит ИИ-программиста)
Magic — $450M (ИИ-программист)
Cognition — $175M (ИИ-программист)
Sierra — $85M (замена customer support)
Sentient — $85M (модели на блокчейнах)
Внимательный читатель заметит, что в топ-9 проинвестированных 4 строят ИИ-программистов (и на чей же сайт из этого топа идет линк коллекции Verified? 😉). Ну и как вы думаете 44% — это много или мало?
Также внимательный читатель заметит в числе участников SWE таких серьезных товарищей, как:
* Amazon Q Developer Agent
* IBM Research Agent-101
* Alibaba Lingma Agent
* Bytedance MarsCode Agent
Которые (в отличие от стартапов) явно не торопятся каждый релиз в бенчмарк отправлять (но и на месте точно не сидят).
В общем вспоминаем, как зажигал Дженсен "курточка" Хуанг (CEO NVIDIA) "не отдавайте детей учиться программированию, мы заберем у них работу" и-и-и-и-и...? И к какому выводу приходим? 😉
Пост "Программисты всё вымирают и вымирают" все еще на 16-м месте в топе года Хабра, а миллионы леммингов не могут ошибаться. Там советуют расслабиться, сидеть ровно и не кашлять (дословно!)
И это ПРОСТО ПРЕКРАСНО! 👍 (не забудьте посоветовать прочитать эту статью всем знакомым)
Let's make your
#SWE_benchmarking
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Коллеги!
Я не пишу, но это не значит, что ничего не происходит, просто некогда)
А тем временем Настя Анциферова вошла в шотлист премии молодых ученых России в области ИИ! Пруф:
https://ai-awards.ru/award/scientist
(там 7 человек на Россию, здорово, что среди них есть человек с ВМК!)👏 👏 👏
Горячо поздравляю! 💐🎉💐🎉💐🎉💐
Считаю, что тем, кто у нас работает под ее руководством, сильно повезло! 👍👍👍 (это хороший шанс прокачаться)
Продолжаем движение! 😁
Я не пишу, но это не значит, что ничего не происходит, просто некогда)
А тем временем Настя Анциферова вошла в шотлист премии молодых ученых России в области ИИ! Пруф:
https://ai-awards.ru/award/scientist
(там 7 человек на Россию, здорово, что среди них есть человек с ВМК!)
Горячо поздравляю! 💐🎉💐🎉💐🎉💐
Считаю, что тем, кто у нас работает под ее руководством, сильно повезло! 👍👍👍 (это хороший шанс прокачаться)
Продолжаем движение! 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7❤3
Коллеги!
Ну а я выступаю в четверг на семинаре, посвященном AI-кодекам (крайне перспективная, равно как и спекулятивная тема сегодня, с очень серьезными нерешенными проблемами). Семинар пройдет в Физтехе, ниже анонс. Обещают трансляцию в канале, там же подробности по докладам. Кому интересно — велкам)
Ну а я выступаю в четверг на семинаре, посвященном AI-кодекам (крайне перспективная, равно как и спекулятивная тема сегодня, с очень серьезными нерешенными проблемами). Семинар пройдет в Физтехе, ниже анонс. Обещают трансляцию в канале, там же подробности по докладам. Кому интересно — велкам)
Зовем вас на Научный семинар «AI-кодеки: технологии, перспективы, вызовы»
5 декабря в📍 МФТИ собираемся обсудить, как нейросети перевернули мир сжатия видео и изображений:
– Путь развития технологий от истоков до SOTA, диффузии, random access
– Разбираем реальные кейсы и вызовы.
– Ловим инсайты от лучших экспертов!
Подробности – в карточках🗓 Когда: 5 декабря, 18:00
Регистрация до 4 декабря 15:00 на TimePad
Ссылка на запись и трансляцию в нашем канале @mil_team_partners. Вопросы – там же
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🎉1
Коллеги!
Наш аспирант Николай Сафонов продолжил хорошую традицию посещения конференций VCIP и передает всем привет из Японии с VСIP-2024!🙂 Эта конференция — старейшая по обработке видео и нам, как хозяевам домена videoprocessing.ai, безусловно, положено там быть 😉
Из путевых заметок:
Николай пишет про наш Compressed Video Quality Assessment Challenge 2024, причем Михаил Дремин — другой наш аспирант писал им совершенно независимо и по-другому вопросу. Как говорится: "Не мир тесен, прослойка тонка!" 😉🌎🌏
Кто лекцию про JPEG AI слушал или мой рассказ про нейросетевые артефакты JPEG AI, видели ссылки на Cheng2020 😁, так что мы на нее тоже активно ссылаемся) Ну и радует, что наш сайт знают, конечно.
Также на конференции был фуршет, на котором Николайжестоко ломал шаблоны:
Очень правильный вариант облома стереотипов, считаю. Руссо сайентисто, облико морале! 😂🤣😂
Ну и не работой единой, также Николай успел съездить к Фудзияме (пруф приложен!)
Как пелось в одной песне:
Фудзияма — не яма — гора
Над священной и быстрой рекой.
А Ямамото — такой генерал,
Харакири — обычай такой.
Кстати, рассказывал Николай о своей работе по измерению артефактов бандинга на экранах с разным контрастом. В эпоху массового распространения HDR экранов очень актуальная тема!📈
Продолжаем движение! 😁👋
#pro_conferences
Наш аспирант Николай Сафонов продолжил хорошую традицию посещения конференций VCIP и передает всем привет из Японии с VСIP-2024!
Из путевых заметок:
Товарищи из SJTU (Шанхайский университет) сделали датасет по стримингу, в частности для Youtube моделировали проблемы с сетью. Я пообщался с чуваком, взял вичат, он очень хотел мне сразу отдать датасет на скачивание. А ещё его команда в Настином челендже ECCV заняла второе место. А вчера ему писал Миша Дремин)
Николай пишет про наш Compressed Video Quality Assessment Challenge 2024, причем Михаил Дремин — другой наш аспирант писал им совершенно независимо и по-другому вопросу. Как говорится: "Не мир тесен, прослойка тонка!" 😉🌎🌏
И вот из второй лабы познакомился с профессором Ченг, это та самая, от которой один из самых известных нейросетевых кодеков Cheng2020. У нее довольно интересный постер по облегчение декодера нейросетевых кодеков. Поговорил. Когда сказал что из МГУ, она сказала "О это там где много крутых бенчмарков, я очень часто на ваш сайт ссылаюсь". Вообще кажется ваша идея стрельнула, нас узнают по бенчмаркам теперь молодые постдоки.
Кто лекцию про JPEG AI слушал или мой рассказ про нейросетевые артефакты JPEG AI, видели ссылки на Cheng2020 😁, так что мы на нее тоже активно ссылаемся) Ну и радует, что наш сайт знают, конечно.
Также на конференции был фуршет, на котором Николай
Ну а мой вчерашний китайский друг удивлялся непьющему русскому) (мы им так все стереотипы обломаем)
Очень правильный вариант облома стереотипов, считаю. Руссо сайентисто, облико морале! 😂🤣😂
Ну и не работой единой, также Николай успел съездить к Фудзияме (пруф приложен!)
Как пелось в одной песне:
Фудзияма — не яма — гора
Над священной и быстрой рекой.
А Ямамото — такой генерал,
Харакири — обычай такой.
Кстати, рассказывал Николай о своей работе по измерению артефактов бандинга на экранах с разным контрастом. В эпоху массового распространения HDR экранов очень актуальная тема!
Продолжаем движение! 😁
#pro_conferences
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤3
Господа!
На этой неделе (помимо AIJ) прошла Открытая конференция ИСП РАН, посвященная 30-летию ИСП (и 300-летию РАН).
Вообще, ИСП — один из самых молодых институтов, причем активно растущий и с достаточно молодым директором, который очень плотно вкладывается в его развитие (что, вежливо говоря, бывает сильно не всегда, а скорее исключение). Ну и 30 лет назад создавать институты было не очень принято. Тогда в основном их закрывали. Для полноты картины — у ИСП много проектов с компаниями и они официально зарегистрированы в реестре минцифры как IT компания (респект такое пробить!💪 ), как следствие — льготные налоги (что очень важно в плане возможностей поднять зарплаты!), ну и они 2 года назад активно использовали бронь минцифры во время мобилизации (представляя заметный контраст с некоторыми другими институтами и университетами, тут я деликатно без примеров с вашего позволения, но они красавцы). 👏
Короче! Юбилейная конференция прошла с великолепным размахом, заметно большим, чем в прошлые разы. Промежуточно было 1700 участников. На итог, видимо, будет больше. 😲
Но гораздо важнее изменение вайба, я бы сказал. Вот реально чувствуется бурление. Все делают проекты. Всем не хватает людей. Наш сотрудник Иван Молодецких пришел доклад читать, у него сразу интервью взяли. 😂 И такая активность радует! 👍
Мы там 5 докладов прочитали)💪
Вообще у меня лично получается где-то 17 докладов за осенний семестр, т.е. больше 1 доклада в неделю. И это рекорд за последние несколько лет. Причем я еще не ездил на когда-то традиционный ГрафиКон 😢 и отказывался от приглашений (ибо уже перебор).🥵
В общем — будем качество докладов поднимать, количество увеличивать, а...
А ИСП РАН ГОРЯЧО ПОЗДРАВЛЯЕМ С ЮБИЛЕЕМ!
🎉🔥 🎂 🎉🎂 🔥 🎉
У института великолепные достижения, в том числе в последние годы с Центром Доверенного ИИ (в котором мы принимаем активное участие). Например, в этом году у ИСП 21 А* статья по ИИ✌️ ✌️ ✌️ , что для академического института РАН (неизбалованного государственным финансированием) прямо скажем очень круто.
В общем — новых свершений и не сбавлять темпа!
🚀 🎉🙂 🎉🙂 🎉🙂 🎉🚀
#pro_conferences
На этой неделе (помимо AIJ) прошла Открытая конференция ИСП РАН, посвященная 30-летию ИСП (и 300-летию РАН).
Вообще, ИСП — один из самых молодых институтов, причем активно растущий и с достаточно молодым директором, который очень плотно вкладывается в его развитие (что, вежливо говоря, бывает сильно не всегда, а скорее исключение). Ну и 30 лет назад создавать институты было не очень принято. Тогда в основном их закрывали. Для полноты картины — у ИСП много проектов с компаниями и они официально зарегистрированы в реестре минцифры как IT компания (респект такое пробить!
Короче! Юбилейная конференция прошла с великолепным размахом, заметно большим, чем в прошлые разы. Промежуточно было 1700 участников. На итог, видимо, будет больше. 😲
Но гораздо важнее изменение вайба, я бы сказал. Вот реально чувствуется бурление. Все делают проекты. Всем не хватает людей. Наш сотрудник Иван Молодецких пришел доклад читать, у него сразу интервью взяли. 😂 И такая активность радует! 👍
Мы там 5 докладов прочитали)
Вообще у меня лично получается где-то 17 докладов за осенний семестр, т.е. больше 1 доклада в неделю. И это рекорд за последние несколько лет. Причем я еще не ездил на когда-то традиционный ГрафиКон 😢 и отказывался от приглашений (ибо уже перебор).
В общем — будем качество докладов поднимать, количество увеличивать, а...
А ИСП РАН ГОРЯЧО ПОЗДРАВЛЯЕМ С ЮБИЛЕЕМ!
🎉
У института великолепные достижения, в том числе в последние годы с Центром Доверенного ИИ (в котором мы принимаем активное участие). Например, в этом году у ИСП 21 А* статья по ИИ
В общем — новых свершений и не сбавлять темпа!
#pro_conferences
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤1
Господа!
Я опять с хорошей новостью! 😁
1 августа я писал, про то, что мы планируем прикольную тему со стиранием вотермарков на проектную смену в Сириус, по которой 16 сентября стартовал челлендж "Erasing the Invisible: A Stress-test challenge for Image Watermarking". Два месяца назад, если кто помнит, писал про то, что команда была успешно собрана, великолепно отстрелялась на проектной смене и заняла предварительно неплохие места в челлендже.
Но цыплят по осени считают. Во-первых, многие сильные команды заливают свои решения в последний момент (чтобы не бустить конкурентов), во-вторых, задаче ведь не просто "стереть невидимое" (сделать так, чтобы вотермарк точно не читался тривиально: пикселы в ноль и профит 😁). Задача минимально изменить картинку при этом.
А поскольку, как вы прекрасно знаете из лекций, метрики качества отражают человеческое не полностью, последним этапом соревнования было субъективное сравнение, когда пять топовых решений сравнивались вслепую людьми.
В скобках замечу, что с такими успехами по стиранию вотермарков на горизонте запредельно остро встает вопрос, а как вообще детектировать дипфейки? Ибо топовые компании отчитываются — мы, мол, пометили свою генерацию, с нас взятки гладки. Но, эти метки, как выясняется, довольно эффективно стираются... Есть заметная вероятность, что мы еще вернемся к этой истории, ибо она обещает быть крайне интересной!
А сейчас спешу отчитаться — ребята заняли 5 место из 77 команд!!! Результаты объявили 10 декабря, сертификат только-только прислали!А ты как провел осень %%USERNAME%%???)))
Челлендж прошел в рамках A* конференции NeurIPS и, конечно, занять топовое место в международном челлендже — это великолепный результат! )
🎉🥇🏆🎉🥇🏆🎉🥇🏆🎉
От всей души горячо поздравляю команду, это шикарное достижение!👏 👏 👏 👏 👏
🎉🥇🏆🎉🥇🏆🎉🥇🏆🎉
#pro_conferences
Я опять с хорошей новостью! 😁
1 августа я писал, про то, что мы планируем прикольную тему со стиранием вотермарков на проектную смену в Сириус, по которой 16 сентября стартовал челлендж "Erasing the Invisible: A Stress-test challenge for Image Watermarking". Два месяца назад, если кто помнит, писал про то, что команда была успешно собрана, великолепно отстрелялась на проектной смене и заняла предварительно неплохие места в челлендже.
Но цыплят по осени считают. Во-первых, многие сильные команды заливают свои решения в последний момент (чтобы не бустить конкурентов), во-вторых, задаче ведь не просто "стереть невидимое" (сделать так, чтобы вотермарк точно не читался тривиально: пикселы в ноль и профит 😁). Задача минимально изменить картинку при этом.
А поскольку, как вы прекрасно знаете из лекций, метрики качества отражают человеческое не полностью, последним этапом соревнования было субъективное сравнение, когда пять топовых решений сравнивались вслепую людьми.
В скобках замечу, что с такими успехами по стиранию вотермарков на горизонте запредельно остро встает вопрос, а как вообще детектировать дипфейки? Ибо топовые компании отчитываются — мы, мол, пометили свою генерацию, с нас взятки гладки. Но, эти метки, как выясняется, довольно эффективно стираются... Есть заметная вероятность, что мы еще вернемся к этой истории, ибо она обещает быть крайне интересной!
А сейчас спешу отчитаться — ребята заняли 5 место из 77 команд!!! Результаты объявили 10 декабря, сертификат только-только прислали!
Челлендж прошел в рамках A* конференции NeurIPS и, конечно, занять топовое место в международном челлендже — это великолепный результат! )
🎉🥇🏆🎉🥇🏆🎉🥇🏆🎉
От всей души горячо поздравляю команду, это шикарное достижение!
🎉🥇🏆🎉🥇🏆🎉🥇🏆🎉
#pro_conferences
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤3
Господа!
Целых полтора месяца не писал про SWE-bench, а там за это время небезызвестная компания OpenAI декларирует скачек с 53% до 71.7% 😲
В прошлый я восторгался прогрессу 7.6% за месяц с небольшим. А тут 17.7% за полтора месяца... Упс... Это что ж деется то🤯 🤯 🤯
Напомню, бенчмарк создан год назад и основан на разметке реальных issues (багрепортов) гитхаба, позволяющих автоматически проверять что баг пофиксили и сложность багов варьируется от 15 минут до 4 часов работы программиста.
Развитие бенчмарка за год:
* Март 2024 — SWE-bench Lite: сокращенная версия бенчмарка, позволяющая быстрее проводить тестирование, что особенно полезно для предварительной оценки моделей (ускорение разработки).
* Июнь 2024 — Docker-версия: обеспечивает простоту установки и воспроизводимость тестирования в различных средах (снова ускорение разработки).
* Август 2024 — SWE-bench Verified: в сотрудничестве с OpenAI был создан SWE-bench Verified — поднабор из 500 задач, более глубоко проверенных разработчиками (пофиксили возможность моделей читерить при исправлении багов).
* Октябрь 2024 — SWE-bench Multimodal: позволяет оценивать способность ИИ-систем анализировать и исправлять ошибки, используя как текстовую, так и визуальную информацию (критично для интерфейсов и не только).
При этом очень похоже, что 2 года бенчмарк "не продержится" (будет решен чуть меньше, чем полностью и потеряет смысл).
Следующими шагами логично ожидать:
* Более сложный бенчмарк, куда соберут только задачи, требующие от 3+ часов работы программиста на багфикс (но такой довольно дорого собирать и размечать, хотя все крупные участники гонки типа OpenAI, Amazon, Bytedance etc в этом заинтересованы и шанс есть).
* Появление аналога Арены, например, когда репозиториям гитхаба будет предложено поучаствовать в арене сабмитами issues, под требование за ограниченное время проверять пул-реквест с багфиксом и давать обратную связь по качеству багфикса (если люди не будут за короткое время давать обратную связь по багфиксу, компаниям не будет иметь смысла финансировать участие в такой арене, но для того же гитхаба это вполне реально решить, например, отправляя новые issues на багфикс в первую очередь для тех, кто быстрее и детальнее проверил прошлые).
Именно проверка на реальных примерах (а не на ограниченных датасетах бенчмарков) позволить по опыту существенно забустить область, но ситуация для этого должна "созреть". Тут она дозревает поразительно быстро.
Сейчас Github Issues Arena выглядит как фантастика, но честно говоря текущие достижения о3 выглядели нереально фантастично всего 3 года назад, поэтому ждать, вангую, недолго.
Традиционно напомню, что CEO NVIDIA в феврале 2024 призывал не отдавать детей учиться программированию. Вы уже учитесь. Ваши действия? 😉 Мы ищем тех, кто хочет оставаться конкурентоспособным и через 10, и через 20 лет (что будет очень непросто, похоже, но победитель получит много, очень много). 😁
Ну и про второй график:
Подробнее тут: GPT-o3 can become a red coder? Там прикольные комментарии ред-кодеров, их жестко рвет, конечно...
Картинка отсюда
#SWE_benchmarking
#speed_of_progress
Целых полтора месяца не писал про SWE-bench, а там за это время небезызвестная компания OpenAI декларирует скачек с 53% до 71.7% 😲
В прошлый я восторгался прогрессу 7.6% за месяц с небольшим. А тут 17.7% за полтора месяца... Упс... Это что ж деется то
Напомню, бенчмарк создан год назад и основан на разметке реальных issues (багрепортов) гитхаба, позволяющих автоматически проверять что баг пофиксили и сложность багов варьируется от 15 минут до 4 часов работы программиста.
Развитие бенчмарка за год:
* Март 2024 — SWE-bench Lite: сокращенная версия бенчмарка, позволяющая быстрее проводить тестирование, что особенно полезно для предварительной оценки моделей (ускорение разработки).
* Июнь 2024 — Docker-версия: обеспечивает простоту установки и воспроизводимость тестирования в различных средах (снова ускорение разработки).
* Август 2024 — SWE-bench Verified: в сотрудничестве с OpenAI был создан SWE-bench Verified — поднабор из 500 задач, более глубоко проверенных разработчиками (пофиксили возможность моделей читерить при исправлении багов).
* Октябрь 2024 — SWE-bench Multimodal: позволяет оценивать способность ИИ-систем анализировать и исправлять ошибки, используя как текстовую, так и визуальную информацию (критично для интерфейсов и не только).
При этом очень похоже, что 2 года бенчмарк "не продержится" (будет решен чуть меньше, чем полностью и потеряет смысл).
Следующими шагами логично ожидать:
* Более сложный бенчмарк, куда соберут только задачи, требующие от 3+ часов работы программиста на багфикс (но такой довольно дорого собирать и размечать, хотя все крупные участники гонки типа OpenAI, Amazon, Bytedance etc в этом заинтересованы и шанс есть).
* Появление аналога Арены, например, когда репозиториям гитхаба будет предложено поучаствовать в арене сабмитами issues, под требование за ограниченное время проверять пул-реквест с багфиксом и давать обратную связь по качеству багфикса (если люди не будут за короткое время давать обратную связь по багфиксу, компаниям не будет иметь смысла финансировать участие в такой арене, но для того же гитхаба это вполне реально решить, например, отправляя новые issues на багфикс в первую очередь для тех, кто быстрее и детальнее проверил прошлые).
Именно проверка на реальных примерах (а не на ограниченных датасетах бенчмарков) позволить по опыту существенно забустить область, но ситуация для этого должна "созреть". Тут она дозревает поразительно быстро.
Сейчас Github Issues Arena выглядит как фантастика, но честно говоря текущие достижения о3 выглядели нереально фантастично всего 3 года назад, поэтому ждать, вангую, недолго.
Традиционно напомню, что CEO NVIDIA в феврале 2024 призывал не отдавать детей учиться программированию. Вы уже учитесь. Ваши действия? 😉 Мы ищем тех, кто хочет оставаться конкурентоспособным и через 10, и через 20 лет (что будет очень непросто, похоже, но победитель получит много, очень много). 😁
Ну и про второй график:
o3 scores a 2727 ELO on Codeforces which places it 175th in the global ranking. That's better than ~99.9% of humans on the website (who already tend to be far above average)
Подробнее тут: GPT-o3 can become a red coder? Там прикольные комментарии ред-кодеров, их жестко рвет, конечно...
Картинка отсюда
#SWE_benchmarking
#speed_of_progress
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
Господа, тут в популярном канале приведен перевод интересной истории с Реддита о том, как младшая сестра человека в США в 11 лет выполняет домашнее задание смотря модный корейский сериал в параллельном окне и даже не пытаясь включить мозг 🤯😲😉 Умножить 60 на 3? Нееет... Прибавить 24 к 7? Боже упаси...
Самый залайканный ответ — человек прикалывается над параллельным просмотром сериала (про заработок через участие в игре на выживание), а самый залайканный ответ на этот ответ: "Она просто готовится к своему финансовому будущему". Иронично, да)
Далее народ залайкал:
И ответ на него:
В общем кто в курсе — в США уже давно довольно заметные проблемы в образовании, особенно в STEM.
Также сказывается то, что в большинстве школ в США выставленные ученику оценки относятся к категории личных данных. Учитель не может на весь класс объявлять отметки учащихся (а то его забуллят нафиг, как за высокие, так и за низкие и виновен в этом будет, естественно, скотина-учитель).
Если кто не смотрел, то потратьте 9 минут на великолепную короткометражку "Альтернативная математика" (26 номинаций и 16 наград на фестивалях), она о том, как ПРАВИЛЬНО преподавать математику в школе) (на ютубе у перевода было 2.2 миллиона просмотров, а у англоязычного 13). Кстати, правильный ответ в конце фильма 20 002 000, конечно, там математическая ошибка, если что! 😉
Россия в этом плане пока отстает. Классы без оценок у нас есть только в некоторых частных школах, LLM пользуется меньший процент школьников и т.п. Но плавно движемся туда же.
В обсуждениях истории народ вспоминает Идиократию (фильм не самый умный, но много трендов там уловили, увы, точно) и вангует, что ваше поколение миллениалов будет самым умным по среднему IQ по сравнению со следующими поколениями. К тому идет! Впрочем, кто расслабится, окажется там же...
На этом фоне я в большим интересом смотрю за новостями из Китая:
Лютый фашизм, согласитесь!) (напишите об этом в комментариях)))
Известный популяризатор математики профессор Савватеев утверждает, что Китай остается последней страной, где на данный момент есть массовое качественное преподавание математики (и очень высока мотивация, кстати). Остальные скоро будут сколько в 3 минутах секунд у Сири, Алисы, Алексы, Маруси и прочих ассистентов спрашивать... На высшем образовании это тоже скажется, естественно.
Всем приятного просмотра двух пролинкованных роликов (25 минут суммарно) и мудрых выводов! 😉
Как-то так интересно мир меняется! 🤷♂️😲😉
#speed_of_progress
Самый залайканный ответ — человек прикалывается над параллельным просмотром сериала (про заработок через участие в игре на выживание), а самый залайканный ответ на этот ответ: "Она просто готовится к своему финансовому будущему". Иронично, да)
Далее народ залайкал:
Ее первый экзамен без материалов и без использования устройств покажет все, чему она научилась.
И ответ на него:
И ее все равно переведут в следующий класс, несмотря ни на что.
В общем кто в курсе — в США уже давно довольно заметные проблемы в образовании, особенно в STEM.
Также сказывается то, что в большинстве школ в США выставленные ученику оценки относятся к категории личных данных. Учитель не может на весь класс объявлять отметки учащихся (а то его забуллят нафиг, как за высокие, так и за низкие и виновен в этом будет, естественно, скотина-учитель).
Если кто не смотрел, то потратьте 9 минут на великолепную короткометражку "Альтернативная математика" (26 номинаций и 16 наград на фестивалях), она о том, как ПРАВИЛЬНО преподавать математику в школе) (на ютубе у перевода было 2.2 миллиона просмотров, а у англоязычного 13). Кстати, правильный ответ в конце фильма 20 002 000, конечно, там математическая ошибка, если что! 😉
Россия в этом плане пока отстает. Классы без оценок у нас есть только в некоторых частных школах, LLM пользуется меньший процент школьников и т.п. Но плавно движемся туда же.
В обсуждениях истории народ вспоминает Идиократию (фильм не самый умный, но много трендов там уловили, увы, точно) и вангует, что ваше поколение миллениалов будет самым умным по среднему IQ по сравнению со следующими поколениями. К тому идет! Впрочем, кто расслабится, окажется там же...
На этом фоне я в большим интересом смотрю за новостями из Китая:
В Китае впервые ввели полный запрет на использование мобильных на территории школ
Такой запрет приняли в городе Чжэнчжоу, провинция Хэнань. Школы города обязали строго следить за тем, чтобы ученики не проносили телефоны на территорию кампуса, «за исключением случаев, когда это необходимо для обучения». Чтобы ученик мог пронести телефон на территорию учебного кампуса, родители должны написать заявление.
Лютый фашизм, согласитесь!) (напишите об этом в комментариях)))
Известный популяризатор математики профессор Савватеев утверждает, что Китай остается последней страной, где на данный момент есть массовое качественное преподавание математики (и очень высока мотивация, кстати). Остальные скоро будут сколько в 3 минутах секунд у Сири, Алисы, Алексы, Маруси и прочих ассистентов спрашивать... На высшем образовании это тоже скажется, естественно.
Всем приятного просмотра двух пролинкованных роликов (25 минут суммарно) и мудрых выводов! 😉
Как-то так интересно мир меняется! 🤷♂️😲😉
#speed_of_progress
👍5❤2🔥1😢1
Коллеги!
У нас первый accept статьи в 2025 году) Причем первый автор — Георгий Готин с 3 курса, т.е. свежий набор.
Конференция VISAPP (The International Conference on Computer Vision Theory and Applications) не самый топ, но надо же с чего-то начинать на 3 курсе молодому студенту первым автором 😉
Это первая статья нового набора. По срокам это не рекорд, рекорд у нас был года три назад, когда первая статья свеженабранного третьекурсника зашла в последних числах августа еще до формального начала учебы на 3 курсе) Но там человек мощно впахивал (и сейчас учится в Калифорнии).
Заметим, что сегодня еще добавляется политическая лотерея. У нас был случай также в позапрошлом году, когда две статьи приняли на конференцию, но местный оргкомитет просто не дал оплатить за них оргвзнос. Было обидно — пройти отбор международного программного комитета и словить desk reject по причине неуплаты оргвзноса, который мы хотели и могли оплатить.
К счастью, должен заметить что такого "наука должна быть политизирована!" явно больше на менее серьезных конференциях (куда как раз бакалавры подаются), и почти нет на топовых, куда, если кто следит, народ из Москвы ездит вполне себе толпами.
Ну и статья, как заметил внимательный читатель, посвящена атакам на метрики качества видео, интереснейшая и активно взлетающая тема сейчас (как и вообще тема атак, защит и в целом повышения устойчивости алгоритмов).
Также сейчас куча российских компаний начали чувствовать, что их продукты будут заметно отличаться от конкурентов (это я деликатно), если они не будут туда новые технологии впаивать. А впаять новую технологию сегодня,тупо адаптировав опенсорс получается сильно не всегда. Отсюда спрос на специалистов, за которыми приходят (в том числе ко мне) и жалуются, что нанять не могут. О том, как разговор складывается дальше будет в надеюсь, в разумный срок написанной наконец второй части "О русской науке" (первая — лучшая статья Хабра в номинации "Образование в IT", кто не читал рекомендую многобукв))).
В общем вопреки всему работаем (пишущих активно статьи со студентами в университетах в IT остается совсем мало, уж слишком велик на них спрос)))😉
Еще раз поздравляю Георгия, а также его соавторов Екатерину Шумицкую и Анастасию Анциферову! Отличный результат! ) 👏🎉👍👏🎉👍👏🎉👍
#pro_conferences
У нас первый accept статьи в 2025 году) Причем первый автор — Георгий Готин с 3 курса, т.е. свежий набор.
Конференция VISAPP (The International Conference on Computer Vision Theory and Applications) не самый топ, но надо же с чего-то начинать на 3 курсе молодому студенту первым автором 😉
Это первая статья нового набора. По срокам это не рекорд, рекорд у нас был года три назад, когда первая статья свеженабранного третьекурсника зашла в последних числах августа еще до формального начала учебы на 3 курсе) Но там человек мощно впахивал (и сейчас учится в Калифорнии).
Заметим, что сегодня еще добавляется политическая лотерея. У нас был случай также в позапрошлом году, когда две статьи приняли на конференцию, но местный оргкомитет просто не дал оплатить за них оргвзнос. Было обидно — пройти отбор международного программного комитета и словить desk reject по причине неуплаты оргвзноса, который мы хотели и могли оплатить.
К счастью, должен заметить что такого "наука должна быть политизирована!" явно больше на менее серьезных конференциях (куда как раз бакалавры подаются), и почти нет на топовых, куда, если кто следит, народ из Москвы ездит вполне себе толпами.
Ну и статья, как заметил внимательный читатель, посвящена атакам на метрики качества видео, интереснейшая и активно взлетающая тема сейчас (как и вообще тема атак, защит и в целом повышения устойчивости алгоритмов).
Также сейчас куча российских компаний начали чувствовать, что их продукты будут заметно отличаться от конкурентов (это я деликатно), если они не будут туда новые технологии впаивать. А впаять новую технологию сегодня,
В общем вопреки всему работаем (пишущих активно статьи со студентами в университетах в IT остается совсем мало, уж слишком велик на них спрос)))
Еще раз поздравляю Георгия, а также его соавторов Екатерину Шумицкую и Анастасию Анциферову! Отличный результат! ) 👏🎉👍👏🎉👍👏🎉👍
#pro_conferences
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🔥8👍6👏3
Господа!
Из текущего прекрасного. Тестируем новый модный SR. Работает он очень классно (съевшие на SR собаку наши ребята говорят, что прямо новый уровень). Но и косячит... тоже классно.
Зацените, как он творчески доработал логотип (причем по-разному наверху и внизу)! 😁😁😁
А еще он решил, что этой майке пошли бы пуговицы. И ничтоже сумняшесь впаял их, не подумав про шов! 😂🤣😂
Выделение на картинке, кстати, это область, которую разрабатываемая сейчас метрика артефактов считает багом. Вообще ловля артефактов SR становится все сложнее и интереснее 😁 Задание на артефакты SR мы в осеннем семестре сделали в магистерском курсе. Возможно, адаптируем его под бакалавров.
Ну и активнее всего SR сегодня встраивают в умные телевизоры. В этом плане мне очень понравился первый абзац раздела телевизоров с недавнего очень годного обзора Consumer Electronic Show 2025, которое на днях закончилось в США:
Выделение мое. Хорошо чувствуется, как ему захотят свежие AI фичи 😁
В общем "Скоро в каждом телевизоре!" (с) 🤷♂️😉
Ну а мы поможем в меру сил повысить качество SR. Компании хорошо понимают, как это важно. А людям можно попробовать показать, в какой модели годный алгоритм, а где что-то совсем страшное ради галочки для маркетинга впаяли. Интересная тема, короче.
Из текущего прекрасного. Тестируем новый модный SR. Работает он очень классно (съевшие на SR собаку наши ребята говорят, что прямо новый уровень). Но и косячит... тоже классно.
Зацените, как он творчески доработал логотип (причем по-разному наверху и внизу)! 😁😁😁
А еще он решил, что этой майке пошли бы пуговицы. И ничтоже сумняшесь впаял их, не подумав про шов! 😂🤣😂
Выделение на картинке, кстати, это область, которую разрабатываемая сейчас метрика артефактов считает багом. Вообще ловля артефактов SR становится все сложнее и интереснее 😁 Задание на артефакты SR мы в осеннем семестре сделали в магистерском курсе. Возможно, адаптируем его под бакалавров.
Ну и активнее всего SR сегодня встраивают в умные телевизоры. В этом плане мне очень понравился первый абзац раздела телевизоров с недавнего очень годного обзора Consumer Electronic Show 2025, которое на днях закончилось в США:
TVs are always fun, and it is difficult to resist shopping. AI made its way into TV with lots of claimed use of AI for audio and video processing that I am pretty sure everyone reading this disables.
Выделение мое. Хорошо чувствуется, как ему захотят свежие AI фичи 😁
В общем "Скоро в каждом телевизоре!" (с) 🤷♂️😉
Ну а мы поможем в меру сил повысить качество SR. Компании хорошо понимают, как это важно. А людям можно попробовать показать, в какой модели годный алгоритм, а где что-то совсем страшное ради галочки для маркетинга впаяли. Интересная тема, короче.
👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Господа!
Многие, наверное, уже в курсе, что неделю назад Марк Цукерберг в интервью Джо Рогану сказал, что в 2025 году они в (запрещенной) Meta, как и другие компании работают над написанием кода с помощью ИИ на уровне мидл-программистов. И да, поначалу это будет дорого и сложно, но в какой-то момент большая часть кода ваших приложений будет написана ИИ.
Вообще само интервью почти на 3 часа (7+ млн просмотров, почти 60 тысяч комментариев) и большая его часть — про цензуру в соцсетях. Но определенное бурление тезис про замену мидлов на AI, конечно, вызвал! 😉😉😉
Мне больше всего понравился контраргумент: "Это тот самый чувак, который гарантировал, что Метавселенная произведет революцию в мире 2 года назад?" Он очень удобен своей универсальностью. Когда нам нравится какой-то тезис, мы вспоминаем успешные проекты компании, когда не нравится — приводим список неудач. Оппонент повержен! Profit! 😂
Естественно, оценить реальный прогресс на таком уровне невозможно (хотя это наиболее частый уровень споров в соцсетях))).
Помню, 5 лет назад я говорил человеку, который собирался учиться на дизайнера, что нейросети быстро доберутся до дизайна и через 4 года (к моменту окончания учебы) ситуация сильно поменяется. Но тогда я мог привести в пример только статьи, как нейросети успешно генерируют мазки кисти. Мазки, Карл! Генеративного ИИ в современном понимании еще не было, но, очевидно, к тому шло! Но мне не верили) А потом я сам был в шоке, как скоро мой прогноз сбылся.
А 3,5 года назад говорил человеку, учившемуся на филолога (и уже зарабатывавшему копирайтингом), что нейросети скоро придут тексты. Но тогда в качестве аргумента приводил Яндекс Балабола, ныне отключенную сеть уровня GPT 1.5, которая могла только продолжать историю (иногда прикольно, но чаще неудачно). И как просел рынок копирайтинга сейчас!
К счастью для вас программисты совершенно не случайно весьма высокооплачиваемая специальность и там совершенно не случайно не так просто добраться до Senior и тем более до Staff Research Scientist и Principal Engineer в AI (и выше). Объем вещей, которые нужно не просто знать, а хорошо понимать для того, чтобы успешно вывозить проекты, становится реально большим!
Другое дело, что если у вас появляется ассистент, который, например, знает все опенсорсные библиотеки мира, их плюсы и минусы, проанализировал все их issues на гитхабе и знает, что у них работает хорошо, что плохо, ну и, естественно, знает какие задачи вам нужно решать и умеет их матчить. С таким ассистентом скорость и эффективность вашего программирования реально резко возрастает (ибо кто в компаниях давно, хорошо знает, как много велосипедов там изобретается постоянно). А такие помощники уже, очевидно, не за горами. И не только такие.
Кстати, если знаете умного прошаренного скептика, который может аргументировать не на уровне "у них были неудачи, я верю, что тут тоже будет неудача", а на уровне почему сложно решить конкретную задачу оценки и матчинга опенсорсных библиотек, буду очень признателен за контакт! 🙏 У меня в окружении в основном технооптимисты 🤷♂️😁, техноскептика не хвтаает!
Ну и пролью немного бальзама на душу скептикам 😁
Есть такой "Парадокс Джевонса", смысл его в том, что иногда увеличение эффективности использования какого-то ресурса вопреки интуиции приводит не к уменьшению его использования, а к увеличению, поскольку это становится экономически эффективно. В своей работе "Угольный вопрос", опубликованной аккурат 160 лет назад Джевонс заметил, что существенное повышение КПД использования угля привело не к уменьшению спроса на него, а, напротив, к увеличению, поскольку это стало выгодно.
В наших терминах это означает, что существенное снижение себестоимости написания программ может привести заметному увеличению объема их написания, что создаст дополнительный спрос.
Но расслабляться рано, поскольку в любом случае отрасль сильнейшим образом изменится и успевать за этими изменениями будет очень непросто!
Всем успешно успевать! 😁
Многие, наверное, уже в курсе, что неделю назад Марк Цукерберг в интервью Джо Рогану сказал, что в 2025 году они в (запрещенной) Meta, как и другие компании работают над написанием кода с помощью ИИ на уровне мидл-программистов. И да, поначалу это будет дорого и сложно, но в какой-то момент большая часть кода ваших приложений будет написана ИИ.
Вообще само интервью почти на 3 часа (7+ млн просмотров, почти 60 тысяч комментариев) и большая его часть — про цензуру в соцсетях. Но определенное бурление тезис про замену мидлов на AI, конечно, вызвал! 😉😉😉
Мне больше всего понравился контраргумент: "Это тот самый чувак, который гарантировал, что Метавселенная произведет революцию в мире 2 года назад?" Он очень удобен своей универсальностью. Когда нам нравится какой-то тезис, мы вспоминаем успешные проекты компании, когда не нравится — приводим список неудач. Оппонент повержен! Profit! 😂
Естественно, оценить реальный прогресс на таком уровне невозможно (хотя это наиболее частый уровень споров в соцсетях))).
Помню, 5 лет назад я говорил человеку, который собирался учиться на дизайнера, что нейросети быстро доберутся до дизайна и через 4 года (к моменту окончания учебы) ситуация сильно поменяется. Но тогда я мог привести в пример только статьи, как нейросети успешно генерируют мазки кисти. Мазки, Карл! Генеративного ИИ в современном понимании еще не было, но, очевидно, к тому шло! Но мне не верили) А потом я сам был в шоке, как скоро мой прогноз сбылся.
А 3,5 года назад говорил человеку, учившемуся на филолога (и уже зарабатывавшему копирайтингом), что нейросети скоро придут тексты. Но тогда в качестве аргумента приводил Яндекс Балабола, ныне отключенную сеть уровня GPT 1.5, которая могла только продолжать историю (иногда прикольно, но чаще неудачно). И как просел рынок копирайтинга сейчас!
К счастью для вас программисты совершенно не случайно весьма высокооплачиваемая специальность и там совершенно не случайно не так просто добраться до Senior и тем более до Staff Research Scientist и Principal Engineer в AI (и выше). Объем вещей, которые нужно не просто знать, а хорошо понимать для того, чтобы успешно вывозить проекты, становится реально большим!
Другое дело, что если у вас появляется ассистент, который, например, знает все опенсорсные библиотеки мира, их плюсы и минусы, проанализировал все их issues на гитхабе и знает, что у них работает хорошо, что плохо, ну и, естественно, знает какие задачи вам нужно решать и умеет их матчить. С таким ассистентом скорость и эффективность вашего программирования реально резко возрастает (ибо кто в компаниях давно, хорошо знает, как много велосипедов там изобретается постоянно). А такие помощники уже, очевидно, не за горами. И не только такие.
Кстати, если знаете умного прошаренного скептика, который может аргументировать не на уровне "у них были неудачи, я верю, что тут тоже будет неудача", а на уровне почему сложно решить конкретную задачу оценки и матчинга опенсорсных библиотек, буду очень признателен за контакт! 🙏 У меня в окружении в основном технооптимисты 🤷♂️😁, техноскептика не хвтаает!
Ну и пролью немного бальзама на душу скептикам 😁
Есть такой "Парадокс Джевонса", смысл его в том, что иногда увеличение эффективности использования какого-то ресурса вопреки интуиции приводит не к уменьшению его использования, а к увеличению, поскольку это становится экономически эффективно. В своей работе "Угольный вопрос", опубликованной аккурат 160 лет назад Джевонс заметил, что существенное повышение КПД использования угля привело не к уменьшению спроса на него, а, напротив, к увеличению, поскольку это стало выгодно.
В наших терминах это означает, что существенное снижение себестоимости написания программ может привести заметному увеличению объема их написания, что создаст дополнительный спрос.
Но расслабляться рано, поскольку в любом случае отрасль сильнейшим образом изменится и успевать за этими изменениями будет очень непросто!
Всем успешно успевать! 😁
❤12
Господа!
В дополнение к предыдущему посту про замену мидлов на ИИ по итогам обратной связи)
Ключевое: необходимо относиться к текущим LLM, как к самой ранней стадии развития технологии (всего 2 года бурного развития, вспомните какими были смартфоны через 2 года после первого iPhone))). Тем, кто не погружен в тему LLM плотно настоятельно рекомендую посмотреть годичной давности часовую лекцию Андрея Карпаты (ранее директор по AI в Tesla и сооснователь OpenAI, я бы вижину человека доверял) Intro to Large Language Models (1 час, 2,4 миллиона просмотров). На 0:42 он там говорит о LLM OS будущего, сравнивая саму LLM с ядром (или CPU), у которой в ближайшие годы разовьется периферия (и, кстати, assistant-model, давшая возможность общаться с LLM чатом — это в каком-то смысле как раз такая "периферия"). Он там довольно много прогнозов сделал, которые уже понемногу воплощаются. Очевидно их воплощение заметно существенно расширит возможности LLM OS.
Еще интереснее лекция Яна Лекуна (лауреат премии Тьюринга за формирование направления глубокого обучения и вице-президент Мета по ИИ) From Machine Learning to Autonomous Intelligence. Там на 1:32 собственно слайды всего около 45 минут. Лекун уверен, что генеративные модели, которые сегодня на самой вершине хайпа (на секундочку G в GPT = Generative) завтра потеряют популярность, уступив место, возможно, менее креативным, но более точным (с точки зрения галлюцинаций и полезности) моделям. Ну и еще несколько смелых прогнозов об отказе от вероятностных моделей, контрастивного обучения и обучения с подкреплением. Причем для каждого направления он обосновывает замену, потенциально имеющую большую эффективность.
Вывод: у LLM очень много резервов для совершенствования. Что мы и будем наблюдать в ближайшие годы.
Но интереснее всего оказалось письмо Эндрю Ына (сооснователь Coursera, руководил Google Brain, учредитель DeepLearning.AI) в рассылке DeepLearning.AI 6 дней назад.
Там идут мысли почти как рассуждения про парадокс Джевонса из прошлого поста:
Программирование подешевеет, и это увеличит спрос на тех, кто может этим управлять.
В общем то, что ИИ будет писать быстрее и дешевле не обсуждается. Вопрос — кто будет ставить четкие задачи ИИ? Ответ Эндрю — AI PM. Ну и вывод:
Вангую, что народ поделится:
* на тех, кто конкретно подсядет на использование генеративных инструментов в качестве ЗАМЕНЫ собственной прокачки.
* и тех немногих, кто прокачается до уровня, который не будет заменяться "более быстрым и дешевым AI".
За что, собственно, постоянно топлю.
Ловите бонус в качестве необязательногои нетривиального ДЗ от Эндрю: 😉
* AI PMs need to understand how to manage successful AI development (очень непросто, скажу я вам).
* Skilled in utilizing data to drive AI innovation and create richer data-driven solutions (тоже кажется простым только делавшим "short way to win" решения домашек)))
* Skilled in handling ambiguity and adapting to unpredictable AI outcomes (да уж, в наших палестинах артефакты процессинга сегодня никто не умеет менеджить, их так и продают потребителям!!! Поэтому те, кто будут уметь... продолжите это предложение)
* Proficient in ongoing education to align AI innovations with user needs and product goals. (Кажется легким только с виду, процент заканчивающих ШАД и AI Masters тому свидетели)))
* Skilled in ensuring ethical AI practices, accelerating feedback loops, and creating prototypes to advance product development.
Цели определены, задачи поставлены! Погнали! 😁
В дополнение к предыдущему посту про замену мидлов на ИИ по итогам обратной связи)
Ключевое: необходимо относиться к текущим LLM, как к самой ранней стадии развития технологии (всего 2 года бурного развития, вспомните какими были смартфоны через 2 года после первого iPhone))). Тем, кто не погружен в тему LLM плотно настоятельно рекомендую посмотреть годичной давности часовую лекцию Андрея Карпаты (ранее директор по AI в Tesla и сооснователь OpenAI, я бы вижину человека доверял) Intro to Large Language Models (1 час, 2,4 миллиона просмотров). На 0:42 он там говорит о LLM OS будущего, сравнивая саму LLM с ядром (или CPU), у которой в ближайшие годы разовьется периферия (и, кстати, assistant-model, давшая возможность общаться с LLM чатом — это в каком-то смысле как раз такая "периферия"). Он там довольно много прогнозов сделал, которые уже понемногу воплощаются. Очевидно их воплощение заметно существенно расширит возможности LLM OS.
Еще интереснее лекция Яна Лекуна (лауреат премии Тьюринга за формирование направления глубокого обучения и вице-президент Мета по ИИ) From Machine Learning to Autonomous Intelligence. Там на 1:32 собственно слайды всего около 45 минут. Лекун уверен, что генеративные модели, которые сегодня на самой вершине хайпа (на секундочку G в GPT = Generative) завтра потеряют популярность, уступив место, возможно, менее креативным, но более точным (с точки зрения галлюцинаций и полезности) моделям. Ну и еще несколько смелых прогнозов об отказе от вероятностных моделей, контрастивного обучения и обучения с подкреплением. Причем для каждого направления он обосновывает замену, потенциально имеющую большую эффективность.
Вывод: у LLM очень много резервов для совершенствования. Что мы и будем наблюдать в ближайшие годы.
Но интереснее всего оказалось письмо Эндрю Ына (сооснователь Coursera, руководил Google Brain, учредитель DeepLearning.AI) в рассылке DeepLearning.AI 6 дней назад.
Там идут мысли почти как рассуждения про парадокс Джевонса из прошлого поста:
Writing software, especially prototypes, is becoming cheaper. This will lead to increased demand for people who can decide what to build. AI Product Management has a bright future!
Программирование подешевеет, и это увеличит спрос на тех, кто может этим управлять.
Given a clear specification for what to build, AI is making the building itself much faster and cheaper. This will significantly increase demand for people who can come up with clear specs for valuable things to build.
В общем то, что ИИ будет писать быстрее и дешевле не обсуждается. Вопрос — кто будет ставить четкие задачи ИИ? Ответ Эндрю — AI PM. Ну и вывод:
The demand for good AI Product Managers will be huge.
Вангую, что народ поделится:
* на тех, кто конкретно подсядет на использование генеративных инструментов в качестве ЗАМЕНЫ собственной прокачки.
* и тех немногих, кто прокачается до уровня, который не будет заменяться "более быстрым и дешевым AI".
За что, собственно, постоянно топлю.
Ловите бонус в качестве необязательного
* AI PMs need to understand how to manage successful AI development (очень непросто, скажу я вам).
* Skilled in utilizing data to drive AI innovation and create richer data-driven solutions (тоже кажется простым только делавшим "short way to win" решения домашек)))
* Skilled in handling ambiguity and adapting to unpredictable AI outcomes (да уж, в наших палестинах артефакты процессинга сегодня никто не умеет менеджить, их так и продают потребителям!!! Поэтому те, кто будут уметь... продолжите это предложение)
* Proficient in ongoing education to align AI innovations with user needs and product goals. (Кажется легким только с виду, процент заканчивающих ШАД и AI Masters тому свидетели)))
* Skilled in ensuring ethical AI practices, accelerating feedback loops, and creating prototypes to advance product development.
Цели определены, задачи поставлены! Погнали! 😁
❤6
Итак, господа, жалких 2 недели назад, я писал про свежее интервью Цукерберга, где тот говорил про замену программистов нейросетями, а чутка позднее, какие перспективы есть у LLM, с точки зрения Карпаты и ЛеКуна, а также что нужно прокачивать, чтобы остаться актуальным с точки зрения Эндрю Ына (его 5 целей на прокачку, которые будут востребованы при массовом приходе AI в программирование).
За эти две недели события явно ускорились. Во-первых, Трамп посулил 500 миллиардов долларов OpenAI & Co (правда не своих, а от ОАЭ через японский фонд, но...), далее 140 миллиардов долларов своим компаниями пообещало правительство Китая + о крупных тратах в десятки миллиардов заявили Google, X, Microsoft и другие. Это важно. Ибо уже сегодня хорошо видно, что для того, чтобы раскатать современную мощную LLM в сервис вот прямо очень сильно не хватает мощностей. С такими деньгами мощности будут.
Во-вторых, шороху навел релиз моделей DeepSeek, конечно. Как минимум китайская компания впервые догнала OpenAI (что даже обвалило американские рынки в какой-то момент). Моделька очень интересная! Настоятельно рекомендую зарегистрироваться там + поставить приложение на телефон (VPN не требуется). Отвечает модель очень неплохо, хотя и галлюцинирует, и ошибки делает. Я поймал ее на простой ошибке в запросе на русском языке (который отловил только поскольку она цепочку рассуждений привела), а когда тот же запрос на английском сделал - все корректно отработала. Причем в отличие от OpenAI она вообще не парилась, что ответы на языках разные. Да, разные. Используй ответ английской версии, он более правильный, чувак 😉 Ну и к вопросу о вычислительных мощностях, только я вошел во вкус с DeepSeek, как на прошлой неделе на нее обрушилась волна популярности и она сначала перестала отвечать вообще, а сейчас там
Честно говоря не понимаю людей, которые до сих пор гуглят. По-моему глагол "загугли" устарел в прошлом году, с тех пор как ChatGPT начала очень годно агрегировать данные поисковых запросов. А еще есть Perplexity.ai. А теперь и DeepSeek.
Крутизна DeepSeek в том, что они выложили веса (причем в куче вариантов) бесплатно, в том числе для коммерческого использования. В итоге Perplexity оперативно подсуетились и подхватилипадающее знамя возможность вызвать модель DeepSeek (т.е. можно с ней экспериментировать у них, и вообще переключать модели).
DeepSeek очень неплохо умеет в код и уже совершенно очевидно, что с такими моделями студенты смогут:
* решать домашние задания
* сдавать эссе по гуманитарным курсам
* писать дипломы
и т.д. еще быстрее, чем раньше)
В этом плане качество образования ленивых (коих немало) в очередной раз снизится 🤷♂️😉
Интересно, что сравнительно недавно (буквально с прошлого семестра) ChatGPT научилась вполне себе годно объяснять теоремы из университетских курсов на уровне репетитора. Это то самое годное использование прогресса LLM, которое позволяет оставить в голове после курсов не меньше, а больше! (что, впрочем, требует больше дисциплины) 😁
Ну и к заглавному графику. На нем представлен прогресс в плане удешевления расчетов разных сетей с показателями 44%, 82% и 86% по бенчмарку MMLU, где представлены задачи по 57 направлениям (философия, лингвистика, психология, география, астрономия, математика, физика, анатомия, генетика, международное право и далее по списку). Вертикальная шкала логарифмическая.
Хорошо видно, как за год-полтора удалось в 10+ раз снизить стоимость запросов! Сложнее всего это было сделать для наиболее продвинутых сетей (что логично), но и по ним прогресс заметный.
К тому моменту, как вы доучитесь, эта волна как раз дойдет до массового применения в production!
Be prepared! 😁
#speed_of_progress
За эти две недели события явно ускорились. Во-первых, Трамп посулил 500 миллиардов долларов OpenAI & Co (правда не своих, а от ОАЭ через японский фонд, но...), далее 140 миллиардов долларов своим компаниями пообещало правительство Китая + о крупных тратах в десятки миллиардов заявили Google, X, Microsoft и другие. Это важно. Ибо уже сегодня хорошо видно, что для того, чтобы раскатать современную мощную LLM в сервис вот прямо очень сильно не хватает мощностей. С такими деньгами мощности будут.
Во-вторых, шороху навел релиз моделей DeepSeek, конечно. Как минимум китайская компания впервые догнала OpenAI (что даже обвалило американские рынки в какой-то момент). Моделька очень интересная! Настоятельно рекомендую зарегистрироваться там + поставить приложение на телефон (VPN не требуется). Отвечает модель очень неплохо, хотя и галлюцинирует, и ошибки делает. Я поймал ее на простой ошибке в запросе на русском языке (который отловил только поскольку она цепочку рассуждений привела), а когда тот же запрос на английском сделал - все корректно отработала. Причем в отличие от OpenAI она вообще не парилась, что ответы на языках разные. Да, разные. Используй ответ английской версии, он более правильный, чувак 😉 Ну и к вопросу о вычислительных мощностях, только я вошел во вкус с DeepSeek, как на прошлой неделе на нее обрушилась волна популярности и она сначала перестала отвечать вообще, а сейчас там
Due to technical issues, the search service is temporarily unavailable
Честно говоря не понимаю людей, которые до сих пор гуглят. По-моему глагол "загугли" устарел в прошлом году, с тех пор как ChatGPT начала очень годно агрегировать данные поисковых запросов. А еще есть Perplexity.ai. А теперь и DeepSeek.
Крутизна DeepSeek в том, что они выложили веса (причем в куче вариантов) бесплатно, в том числе для коммерческого использования. В итоге Perplexity оперативно подсуетились и подхватили
DeepSeek очень неплохо умеет в код и уже совершенно очевидно, что с такими моделями студенты смогут:
* решать домашние задания
* сдавать эссе по гуманитарным курсам
* писать дипломы
и т.д. еще быстрее, чем раньше)
В этом плане качество образования ленивых (коих немало) в очередной раз снизится 🤷♂️😉
Интересно, что сравнительно недавно (буквально с прошлого семестра) ChatGPT научилась вполне себе годно объяснять теоремы из университетских курсов на уровне репетитора. Это то самое годное использование прогресса LLM, которое позволяет оставить в голове после курсов не меньше, а больше! (что, впрочем, требует больше дисциплины) 😁
Ну и к заглавному графику. На нем представлен прогресс в плане удешевления расчетов разных сетей с показателями 44%, 82% и 86% по бенчмарку MMLU, где представлены задачи по 57 направлениям (философия, лингвистика, психология, география, астрономия, математика, физика, анатомия, генетика, международное право и далее по списку). Вертикальная шкала логарифмическая.
Хорошо видно, как за год-полтора удалось в 10+ раз снизить стоимость запросов! Сложнее всего это было сделать для наиболее продвинутых сетей (что логично), но и по ним прогресс заметный.
К тому моменту, как вы доучитесь, эта волна как раз дойдет до массового применения в production!
Be prepared! 😁
#speed_of_progress
👍3