Дорогие конкуренты (в множественном числе) на неделе выпустили отчёты о том, как люди пользуются их LLM-продуктами.
OpenAI – в виде препринта NBER, Anthropic – в виде более казуального отчёта и онлайн-дэшборда, который позволяет сравнивать использование по профессиям и по штатам США (версию с картой мира обещают добавить позже.
Anthropic явно интересует уровень автономности, которому доверяют люди, и то, замещает ли "труд" LLMки работу человека или дополняет её. Трафик, который приходит по API (в основном от вайб-кодеров, вестимо) имеет существенный скос в сторону автономного выполнения задач. Оно и логично – computer use (аналог operator у chatgpt) у Anthropic пока не выстрелил.
У OpenAI статья более прагматичная – делают такой классический topic modelling, показывают, что люди всё больше начинают пользоваться ChatGPT как поисковиком.👀
Что интересно, OpenAI видят существенное смещение спектра задач с рабочих на личные. Интересно, какие системы ценностей будут RL-ить в следующие поколения моделек.
OpenAI – в виде препринта NBER, Anthropic – в виде более казуального отчёта и онлайн-дэшборда, который позволяет сравнивать использование по профессиям и по штатам США (версию с картой мира обещают добавить позже.
Anthropic явно интересует уровень автономности, которому доверяют люди, и то, замещает ли "труд" LLMки работу человека или дополняет её. Трафик, который приходит по API (в основном от вайб-кодеров, вестимо) имеет существенный скос в сторону автономного выполнения задач. Оно и логично – computer use (аналог operator у chatgpt) у Anthropic пока не выстрелил.
У OpenAI статья более прагматичная – делают такой классический topic modelling, показывают, что люди всё больше начинают пользоваться ChatGPT как поисковиком.
Что интересно, OpenAI видят существенное смещение спектра задач с рабочих на личные. Интересно, какие системы ценностей будут RL-ить в следующие поколения моделек.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍7
#book_review
Chokepoints: American Power in the Age of Economic Warfare by Edward Fishman, 2025
amazon
Стратегические точки в мире глобализации – расчёты в долларах и высокие технологии – в XXI веке начали использоваться как инструмент принуждения. В книге автор увлекательно описывает историю принятия экономический санкций против трёх стран: Ирана, России и Китая. Промежуток времени – с середины двухтысячных, когда в эффективность механизм санкций мало кто верил и приходилось летать по банкам, рассказывая о комплаенсе до нашего времени и точечных санкций по китайскому Huawei. Автор пишет о кухне изнутри – он лично работал над санкциями США на Иран и Россию.
Подход автора прагматично-институциональный: санкции – это государственная операционка, их нужно разрабатывать заранее и уметь применять, не оставляя путей обхода и не забывая про интересы союзников. Из-за технократического склада ума автор фокусируется на эффективности санкций, совершенно не раскрываются гуманитарные последствия применения санкций (Венесуэла и Сирия) и то, как цена их исполнения зачастую ложится на менее крупных игроков. Также не хватает историй про принуждение к исполнению санкций через минюст – упоминаются рекордные штрафы, но не более.
В целом очень рекомендую к прочтению – всегда полезно понимать, как думает гегемон, особенно в контексте экономической политики текущего президента. Да и нашу научку тоже начало касаться – лишь в этом году организационный комитет NeurIPS додумался до того, что получает деньги от разных организаций в списке SDN за участие в конференции.
P.S. Комментарии под постом оставлю, но заранее прошу быть понежнее и не шитпостить мне тут.👮♂️
Chokepoints: American Power in the Age of Economic Warfare by Edward Fishman, 2025
amazon
Стратегические точки в мире глобализации – расчёты в долларах и высокие технологии – в XXI веке начали использоваться как инструмент принуждения. В книге автор увлекательно описывает историю принятия экономический санкций против трёх стран: Ирана, России и Китая. Промежуток времени – с середины двухтысячных, когда в эффективность механизм санкций мало кто верил и приходилось летать по банкам, рассказывая о комплаенсе до нашего времени и точечных санкций по китайскому Huawei. Автор пишет о кухне изнутри – он лично работал над санкциями США на Иран и Россию.
Подход автора прагматично-институциональный: санкции – это государственная операционка, их нужно разрабатывать заранее и уметь применять, не оставляя путей обхода и не забывая про интересы союзников. Из-за технократического склада ума автор фокусируется на эффективности санкций, совершенно не раскрываются гуманитарные последствия применения санкций (Венесуэла и Сирия) и то, как цена их исполнения зачастую ложится на менее крупных игроков. Также не хватает историй про принуждение к исполнению санкций через минюст – упоминаются рекордные штрафы, но не более.
В целом очень рекомендую к прочтению – всегда полезно понимать, как думает гегемон, особенно в контексте экономической политики текущего президента. Да и нашу научку тоже начало касаться – лишь в этом году организационный комитет NeurIPS додумался до того, что получает деньги от разных организаций в списке SDN за участие в конференции.
P.S. Комментарии под постом оставлю, но заранее прошу быть понежнее и не шитпостить мне тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🤔8👀5
Интересный эффект от ИИ-бума, который сейчас происходит – это сильное увеличение текучки кадров в около-ресёрче. За последние пару месяцев от нас ушло порядка 10 (!) людей, с которыми я в разной степени близости работал: кто к Цуку 🤴 , кто в стартапы, кто в OAI/Anthro. Сравним с последними пятью годами, ктогда у нас из команды не уходил никто за исключением LLM-энтузиастов (лэйоффы 2023 нас обошли стороной). Странное ощущение небезопасности, что любой проект может потерять опору, и надо ещё больше хеджироваться и быстрее куда-то бежать. С другой стороны, может, в такой горячей и прикладной области не так и важна длительная работа над одними проектами? Непонятно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔72❤17💅5🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍35🔥21🥴4❤2👏1
Gemini 3
Выпустили превью нового поколения Gemini. SotA по разным бенчмаркам от кодинга до математики, топ-1 на лмарене и вебдев-арене, сильно улучшено зрение и агентские возможности. Доступна в приложении, AI studio и у некоторых провайдеров в виде превью.
Блогпост | model card | AI studio
Выпустили превью нового поколения Gemini. SotA по разным бенчмаркам от кодинга до математики, топ-1 на лмарене и вебдев-арене, сильно улучшено зрение и агентские возможности. Доступна в приложении, AI studio и у некоторых провайдеров в виде превью.
Блогпост | model card | AI studio
1🔥57❤10
Про улучшения хорошо пишет Artificial Analysis. Вкратце:
- Новая самая сильная модель по общему уровню "интеллекта"
- Модель примерно на 30% дороже Sonnet 4.5
- По скорости сопоставима с Gemini 2.5 Pro и GPT-5.1, примерно на 40% быстрее Sonnet 4.5
- Улучшения в кодинге, включая агентские системы: по бенчмаркам AA модель с отрывом первая
- Новая самая сильная модель по общему уровню "интеллекта"
- Модель примерно на 30% дороже Sonnet 4.5
- По скорости сопоставима с Gemini 2.5 Pro и GPT-5.1, примерно на 40% быстрее Sonnet 4.5
- Улучшения в кодинге, включая агентские системы: по бенчмаркам AA модель с отрывом первая
🔥43💅2
Nano Banana Pro
Новая бананья на основе Gemini 3 Pro (блогпост) с использованием поиска (!), генерацией в 4k и очень очень хорошим следованием промпту. Выкатывается сегодня в Gemini app, AI studio, Vertex AI.
Новая бананья на основе Gemini 3 Pro (блогпост) с использованием поиска (!), генерацией в 4k и очень очень хорошим следованием промпту. Выкатывается сегодня в Gemini app, AI studio, Vertex AI.
🔥54🤯14🎉4
На этой неделе буду на NeurIPS в Сан Диего свободным человеком без статей и презентаций.
Кидайте статьи, если приехали с постером, и приходите на наш phd networking event.
Кидайте статьи, если приехали с постером, и приходите на наш phd networking event.
❤43
Любопытная статья (pdf) про связь академической нечестности (плагиаризма) и дальнейшего карьерного развития, написанная на данных китайских университетов. Авторы использовали систему по поиску плагиата и сматчили по именам на дипломах с людьми, которые проходили китайский национальный экзамен на государственную службу (match rate ~17%), а также с открытыми данными китайской служебной системы (~32%).
Оказалось, что доля плагиата у людей, которые в последующем идут на госслужбу, выше на 1.2% (15.6% относительно общей популяции), и индивиды в верхней половине по плагиаризму получают повышения на 10-15% быстрее (с контролем на опыт и департамент).
С судьями примерно такая же ситуация. Судьи, которые занимались плагиатом в университете, на 10-15% чаще выносят вердикты в пользу государственных компаний и на 16.6% чаще попадают под расследования о коррупции.
Чтобы понять, не вызван ли этот эффект банальной некомпетентностью авторы придумали мерить результаты процессов, которые транслировались онлайн. Там размер эффекта существенно снижается.
Оказалось, что доля плагиата у людей, которые в последующем идут на госслужбу, выше на 1.2% (15.6% относительно общей популяции), и индивиды в верхней половине по плагиаризму получают повышения на 10-15% быстрее (с контролем на опыт и департамент).
С судьями примерно такая же ситуация. Судьи, которые занимались плагиатом в университете, на 10-15% чаще выносят вердикты в пользу государственных компаний и на 16.6% чаще попадают под расследования о коррупции.
Чтобы понять, не вызван ли этот эффект банальной некомпетентностью авторы придумали мерить результаты процессов, которые транслировались онлайн. Там размер эффекта существенно снижается.
👍40❤9👀7👏1
Breakneck: China's Quest to Engineer the Future – Dan Wang, 2025.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.
Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.
К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.
Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Америкой управляют юристы, а Китаем — инженеры.
Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.
Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.
К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.
Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
❤40👀9🤣6👍5👎3🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👀12🥴1
Узнал от гуглсколара о том, что процитировали ранее неизвестную мою статью. Из минусов – статьи я этой не писал, чистая галлюцинация. Не знаю даже, стоит ли писать авторам. 🐕
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴107🤣68🍓9🔥4😱3
STOC – серьёзная конференция для настоящих сварщиков компьютерсаенс теоретиков – провела эксперимет, где статьи получали фидбек от системы на основе Gemini 3 Deep Think. По результатам 97% оценили фидбек как полезный; система помогла найти пару критических ошибок в статьях.
Над экспериментом работала наша команда, мне кажется это один из первых примеров того, как ЛЛМки будут помогать учёным делать науку лучше.
Блогпост
Над экспериментом работала наша команда, мне кажется это один из первых примеров того, как ЛЛМки будут помогать учёным делать науку лучше.
Блогпост
1❤39🤝8🔥7🥴4🙏1
⚡⚡⚡ Gemini 3 Flash
Флагманский апдейт дешёвой рабочей лошадки, которя перформит существенно лучше альтернатив за свои деньги. Особенно всё прокачалось в мультимодальных запросах. На MMMU умудрились обогнать Gemini 3 Pro. Это всё за небольшое увеличение в цене относительно 2.5 Flash.
На юзеров в приложении моделька раскатывается сегодня, попробовать, как всегда, можно в AI Studio.
Блогпост
Флагманский апдейт дешёвой рабочей лошадки, которя перформит существенно лучше альтернатив за свои деньги. Особенно всё прокачалось в мультимодальных запросах. На MMMU умудрились обогнать Gemini 3 Pro. Это всё за небольшое увеличение в цене относительно 2.5 Flash.
На юзеров в приложении моделька раскатывается сегодня, попробовать, как всегда, можно в AI Studio.
Блогпост
🔥61🎉12❤5🙏1💅1
Два новогодних подгончика, чтобы слушать/читать, пока готовишь оливье.
Неделю назадо вышло довольно подробное интервью с Себом, который (тех)лидит пре-трейн Gemini. Мало где можно послушать о том, как фронтирные лабы думают о претрейне.
Джефф с Санджаем (вот тут очень мило про них от Нью Йоркера) выпустили коллекцию мыслей про оптимизацию ПО. У Джеффа невероятная интуиция на ускорение кода, в гугле ходят шутки в стиле шуток про Чака Норриса.
Неделю назадо вышло довольно подробное интервью с Себом, который (тех)лидит пре-трейн Gemini. Мало где можно послушать о том, как фронтирные лабы думают о претрейне.
Джефф с Санджаем (вот тут очень мило про них от Нью Йоркера) выпустили коллекцию мыслей про оптимизацию ПО. У Джеффа невероятная интуиция на ускорение кода, в гугле ходят шутки в стиле шуток про Чака Норриса.
👍34🔥17❤1