Чему учиться в ИИ-эпоху?
На днях наткнулся на цитату Сэма Альтмана, она невероятная, читайте скорее:
Даже удивительно: один из главных людей в ИИ-мире гордится тем, что умеет писать тексты сам. И призывает других учиться.
Тревога эта не на пустом месте. В мае Игорь Чириков, старший исследователь в UC Berkeley выпустил работу Artificial Intelligence and Grade Inflation – исследование, как появление ChatGPT повлияло на оценки в одном из крупных университетов США.
Все очень грустно: количество пятерок выросло. Основной рост – в курсах с письмом и кодом, особенно где много домашки, которую легко сделать ИИ. Для сравнения, в устных презентациях, где ИИ почти бесполезен, роста практически нет.
Чириков предупреждает о петле обратной связи: студенты отдают ИИ то, в чем он силен, – тексты и код, – а на рынке труда проигрывают ему ровно в этом. Автор призывает ВУЗы добавлять два типа заданий: 1) которые вообще нельзя выполнить с помощью ИИ; 2) которые надо выполнять совместно с ИИ.
Эта история продолжает нашумевшее в прошлом году исследование MIT – Your Brain on ChatGPT – которое и ввело термин когнитивный долг. В нем три группы студентов писали эссе: первые целиком сами, вторые пользовались поиском, третьи – ChatGPT. У всех групп измеряли мозговую активность на ЭЭГ: лучший результат был у писавших самостоятельно, худший – у использовавших ChatGPT.
Но есть деталь, которую часто упускают. Когда после основного исследования “самостоятельной” группе дали доступ к ChatGPT – то ее участники показали лучший результат и по активности мозга, и по тому, как хорошо помнили собственный текст.
И здесь мы возвращаемся к Сэму Альтману и его высказыванию. Он говорит про письмо и немного про код, но на самом деле, ключевой навык здесь – умение создать что-то из ничего. И учиться надо именно ради этого умения, а не для прикладной пользы вроде “смогу писать грамотные письма коллегам”.
И примеров здесь несколько:
Иностранный язык. Часто слышу, “зачем учить английский, нейронки уже замечательно переводят, а через пару лет сломают языковой барьер напрочь”. Но ведь это – мощнейшая когнитивная тренировка, которую осиливают те, кто не занимается два раза в неделю, а строит систему, где язык постоянно рядом. Кстати, лучшие репетиторы не тарабанят урок с домашкой, а помогают наладить такую систему.
Код. Выучить python с нуля до твердого junior-уровня – год-полтора. С нынешней скоростью развития ИИ программирование через такой срок станет совершенно иным. Навык писать код к тому времени устареет, но останется куда более ценная вещь – понимание, как создается программа, через какие этапы она проходит до выпуска и после. Это как раз одно из ключевых знаний в мире ИИ.
Наконец, самый близкий мне навык – письмо. Многие думают, что это просто умение складывать слова в красивый текст. Но написание статьи, поста, сценария, повести – это умение собрать и проверить информацию, сделать правильные выводы, выстроить план и довести все логические линии до конца. А затем еще и “выпустить продукт” – опубликовать текст и держать за него ответ перед редактором и читателями.
Если вы задумываетесь об образовании ребенка, то смело включайте в планы любой из этих навыков: в мире автоматизации умение что-то сделать самому не потеряет ценность – а просто изменит форму. Если задумываетесь для себя – тоже смело учите!
Что делать прямо сейчас, чтобы не набрать когнитивный долг с ИИ? Это тема для отдельного текста, но дам лишь один совет – уходите от one shot-приемов, когда все делается за один заход. Работайте в диалоге с моделью, обсуждая и проверяя каждый этап. На “Бусти” у меня есть два текста с примерами такой работы:
— “Как с помощью ИИ находить новые темы для блога, канала или СМИ” – моя система поиска инфоповодов.
— “Как перестать генерить ИИ-слоп: сначала стиль – потом контент” – как вывести ИИ за шаблоны и найти свой стиль.
На днях наткнулся на цитату Сэма Альтмана, она невероятная, читайте скорее:
Я из тех, кто думает через письмо. Я пишу много такого, что никому не показываю, но это все равно важно для меня — так я что-то для себя проясняю. Поэтому я благодарен, что научился писать. То же самое говорят про программирование.
Даже удивительно: один из главных людей в ИИ-мире гордится тем, что умеет писать тексты сам. И призывает других учиться.
Тревога эта не на пустом месте. В мае Игорь Чириков, старший исследователь в UC Berkeley выпустил работу Artificial Intelligence and Grade Inflation – исследование, как появление ChatGPT повлияло на оценки в одном из крупных университетов США.
Все очень грустно: количество пятерок выросло. Основной рост – в курсах с письмом и кодом, особенно где много домашки, которую легко сделать ИИ. Для сравнения, в устных презентациях, где ИИ почти бесполезен, роста практически нет.
Чириков предупреждает о петле обратной связи: студенты отдают ИИ то, в чем он силен, – тексты и код, – а на рынке труда проигрывают ему ровно в этом. Автор призывает ВУЗы добавлять два типа заданий: 1) которые вообще нельзя выполнить с помощью ИИ; 2) которые надо выполнять совместно с ИИ.
Эта история продолжает нашумевшее в прошлом году исследование MIT – Your Brain on ChatGPT – которое и ввело термин когнитивный долг. В нем три группы студентов писали эссе: первые целиком сами, вторые пользовались поиском, третьи – ChatGPT. У всех групп измеряли мозговую активность на ЭЭГ: лучший результат был у писавших самостоятельно, худший – у использовавших ChatGPT.
Но есть деталь, которую часто упускают. Когда после основного исследования “самостоятельной” группе дали доступ к ChatGPT – то ее участники показали лучший результат и по активности мозга, и по тому, как хорошо помнили собственный текст.
И здесь мы возвращаемся к Сэму Альтману и его высказыванию. Он говорит про письмо и немного про код, но на самом деле, ключевой навык здесь – умение создать что-то из ничего. И учиться надо именно ради этого умения, а не для прикладной пользы вроде “смогу писать грамотные письма коллегам”.
И примеров здесь несколько:
Иностранный язык. Часто слышу, “зачем учить английский, нейронки уже замечательно переводят, а через пару лет сломают языковой барьер напрочь”. Но ведь это – мощнейшая когнитивная тренировка, которую осиливают те, кто не занимается два раза в неделю, а строит систему, где язык постоянно рядом. Кстати, лучшие репетиторы не тарабанят урок с домашкой, а помогают наладить такую систему.
Код. Выучить python с нуля до твердого junior-уровня – год-полтора. С нынешней скоростью развития ИИ программирование через такой срок станет совершенно иным. Навык писать код к тому времени устареет, но останется куда более ценная вещь – понимание, как создается программа, через какие этапы она проходит до выпуска и после. Это как раз одно из ключевых знаний в мире ИИ.
Наконец, самый близкий мне навык – письмо. Многие думают, что это просто умение складывать слова в красивый текст. Но написание статьи, поста, сценария, повести – это умение собрать и проверить информацию, сделать правильные выводы, выстроить план и довести все логические линии до конца. А затем еще и “выпустить продукт” – опубликовать текст и держать за него ответ перед редактором и читателями.
Если вы задумываетесь об образовании ребенка, то смело включайте в планы любой из этих навыков: в мире автоматизации умение что-то сделать самому не потеряет ценность – а просто изменит форму. Если задумываетесь для себя – тоже смело учите!
Что делать прямо сейчас, чтобы не набрать когнитивный долг с ИИ? Это тема для отдельного текста, но дам лишь один совет – уходите от one shot-приемов, когда все делается за один заход. Работайте в диалоге с моделью, обсуждая и проверяя каждый этап. На “Бусти” у меня есть два текста с примерами такой работы:
— “Как с помощью ИИ находить новые темы для блога, канала или СМИ” – моя система поиска инфоповодов.
— “Как перестать генерить ИИ-слоп: сначала стиль – потом контент” – как вывести ИИ за шаблоны и найти свой стиль.
❤51👍30🔥21😁1
Зачем ИИ-ученому рисовать и играть на скрипке?
Послушал свежий подкаст с главой Google DeepMind Демисом Хассабисом, в котором он задается вопросом – чего не достает современным ИИ для того, чтобы пройти “тест Эйнштейна”?
Про сам тест я уже писал на канале. Берем передовую LLM, обучаем ее на знаниях до 1911 года, а затем смотрим, сможет ли она сама прийти к общей теории относительности. Пока тесты указывают на то, что не сможет. Хассабис тоже так считает.
Получается, современные модели не способны в создание нового? Не совсем. Уже писал на канале про недавнее достижение экспериментальной модели OpenAI. Она решила сложную задачу Эрдёша #90, которая не давалась ученым более 80 лет, за счет того, что применила к ней знания из настолько далекой области математики, куда люди не додумались залезть.
Дело в том, что новизна не бинарна. Маргарет Боден в книге The Creative Mind делит ее на три категории:
Комбинационная – новая комбинация привычных идей. Сшить две далекие области.
Исследовательская – ты двигаешься внутри заданного “пространства правил” и находишь новое, что правилам не противоречит. Новая теорема внутри существующей математики.
Трансформационная – ты меняешь само пространство: выбрасываешь или переписываешь одно из его базовых допущений, и тогда становится мыслимым то, что раньше было невозможно.
Пример с задачей Эрдёша и еще рядом открытий, сделанных с помощью ИИ – находится на стыке комбинационной и исследовательской категорий. А “тест Эйнштейна” замахивается на третью. Как же до нее добраться?
Хассабис отмечает, что современные LLM живут в мире битов – знаний о мире, которые мы собрали в тексте и коде. Это отличный инструмент, который позволил сохранить огромное количество информации в ограниченном “пространстве”. И именно благодаря обилию текста и кода во многом так выстрелили нынешние LLM – их удалось экономно обучить на огромном количестве знаний.
Но здесь кроется и препятствие. Когда человек изучает физику или геометрию, то полученные из книг знания он накладывает на свое натуральное ощущение мира, полученное в начале жизни. ИИ такому ощущению не обучали – и именно поэтому даже передовые модели до сих пор косячат на сюжетах, связанных с течением времени или размерами объектов. У них нет инстинктивного понимания вещей вроде “долго”, “быстро”, “больше” и “крошечный”.
Соответственно, решение – перевести ИИ из мира битов в мир атомов. И здесь Хассабис поворачивается к визуальным ИИ – генераторам картинок и видео, а также экспериментальным моделям мира, вроде Genie 3.
Мы обычно считаем их чем-то несерьезным на фоне передовых LLM. Хассабис говорит, что зря. Он напоминает, что человеческое воображение – тоже симуляция. Мы постоянно прогоняем в голове модель мира и пытаемся представить, что будет дальше. Обычно в практических целях: что будет, если дам газа под мигающий светофор, вызвать к доске отличника или троечника и т. д. Но такой же вопрос – что будет если? – волнует ученых и творцов, когда они создают новое.
Если посмотреть на представленную на этой неделе видео-модель Seedance 2.5, то видно, что именно на это ее и тренируют: строить модель мира с пониманием физики и способностью до 30 секунд удерживать сцену как “целое”. А если нужно – то давать разные планы, не меняя облик персонажей и предметов.
И вот что интересно. Прямо сейчас в текстовых моделях прокачивают мультимодальность – умение понимать картинки и видео. А в графических – наоборот, улучшают работу с текстом. Я до сих пор под впечатлением от демонстрации нынче закрытой Sora 2, где Альтман решает на доске математическую задачу.
Прямо сейчас мы видим соревнование двух подходов: ИИ-ученый может вырасти как из текстовой модели, так и из графической. А может и музыкальной – известно, что в молодости Эйнштейн учился игре на скрипке, а уже когда занялся физикой, то отвлекался и играл Моцарта.
Хотите уже сейчас начать “растить” своего ИИ-Эйнштейна? На “Бусти” у меня есть цикл текстов про промптинг, в котором подробно рассказываю, как подтолкнуть ИИ выходить за пределы обычных ответов.
Самое время подписаться!
Послушал свежий подкаст с главой Google DeepMind Демисом Хассабисом, в котором он задается вопросом – чего не достает современным ИИ для того, чтобы пройти “тест Эйнштейна”?
Про сам тест я уже писал на канале. Берем передовую LLM, обучаем ее на знаниях до 1911 года, а затем смотрим, сможет ли она сама прийти к общей теории относительности. Пока тесты указывают на то, что не сможет. Хассабис тоже так считает.
Получается, современные модели не способны в создание нового? Не совсем. Уже писал на канале про недавнее достижение экспериментальной модели OpenAI. Она решила сложную задачу Эрдёша #90, которая не давалась ученым более 80 лет, за счет того, что применила к ней знания из настолько далекой области математики, куда люди не додумались залезть.
Дело в том, что новизна не бинарна. Маргарет Боден в книге The Creative Mind делит ее на три категории:
Комбинационная – новая комбинация привычных идей. Сшить две далекие области.
Исследовательская – ты двигаешься внутри заданного “пространства правил” и находишь новое, что правилам не противоречит. Новая теорема внутри существующей математики.
Трансформационная – ты меняешь само пространство: выбрасываешь или переписываешь одно из его базовых допущений, и тогда становится мыслимым то, что раньше было невозможно.
Пример с задачей Эрдёша и еще рядом открытий, сделанных с помощью ИИ – находится на стыке комбинационной и исследовательской категорий. А “тест Эйнштейна” замахивается на третью. Как же до нее добраться?
Хассабис отмечает, что современные LLM живут в мире битов – знаний о мире, которые мы собрали в тексте и коде. Это отличный инструмент, который позволил сохранить огромное количество информации в ограниченном “пространстве”. И именно благодаря обилию текста и кода во многом так выстрелили нынешние LLM – их удалось экономно обучить на огромном количестве знаний.
Но здесь кроется и препятствие. Когда человек изучает физику или геометрию, то полученные из книг знания он накладывает на свое натуральное ощущение мира, полученное в начале жизни. ИИ такому ощущению не обучали – и именно поэтому даже передовые модели до сих пор косячат на сюжетах, связанных с течением времени или размерами объектов. У них нет инстинктивного понимания вещей вроде “долго”, “быстро”, “больше” и “крошечный”.
Соответственно, решение – перевести ИИ из мира битов в мир атомов. И здесь Хассабис поворачивается к визуальным ИИ – генераторам картинок и видео, а также экспериментальным моделям мира, вроде Genie 3.
Мы обычно считаем их чем-то несерьезным на фоне передовых LLM. Хассабис говорит, что зря. Он напоминает, что человеческое воображение – тоже симуляция. Мы постоянно прогоняем в голове модель мира и пытаемся представить, что будет дальше. Обычно в практических целях: что будет, если дам газа под мигающий светофор, вызвать к доске отличника или троечника и т. д. Но такой же вопрос – что будет если? – волнует ученых и творцов, когда они создают новое.
Если посмотреть на представленную на этой неделе видео-модель Seedance 2.5, то видно, что именно на это ее и тренируют: строить модель мира с пониманием физики и способностью до 30 секунд удерживать сцену как “целое”. А если нужно – то давать разные планы, не меняя облик персонажей и предметов.
И вот что интересно. Прямо сейчас в текстовых моделях прокачивают мультимодальность – умение понимать картинки и видео. А в графических – наоборот, улучшают работу с текстом. Я до сих пор под впечатлением от демонстрации нынче закрытой Sora 2, где Альтман решает на доске математическую задачу.
Прямо сейчас мы видим соревнование двух подходов: ИИ-ученый может вырасти как из текстовой модели, так и из графической. А может и музыкальной – известно, что в молодости Эйнштейн учился игре на скрипке, а уже когда занялся физикой, то отвлекался и играл Моцарта.
Хотите уже сейчас начать “растить” своего ИИ-Эйнштейна? На “Бусти” у меня есть цикл текстов про промптинг, в котором подробно рассказываю, как подтолкнуть ИИ выходить за пределы обычных ответов.
Самое время подписаться!
1❤32👍25🔥9
Это было ожидаемо: власти США решили притормозить релиз GPT-5.6
The Information инсайдит, что Белый Дом попросил OpenAI “растянуть” релиз GPT-5.6. Вот что это значит:
— Сама модель готова у компании как минимум несколько недель. В X было полно примеров работы GPT-5.6 и отзывов от инсайдеров. OpenAI обкатывала несколько чекпоинтов, видел слухи, что релиз может состояться в четверг, но буквально день-два назад от тех же инсайдеров пошла информация о переносе на июль.
— В среду Сэм Альтман на встрече с сотрудниками рассказал о новой схеме выхода GPT-5.6. Она во многом похожа на то, как Anthropic запускала Project Glasswing – сначала доступ для небольшой группы доверенных компаний, затем постепенное расширение списка и публичный релиз. Чем все закончилось, мы знаем: Fable 5 пробыла в публичном доступе лишь 3 дня.
— Ключевое отличие от Project Glasswing – правительство США будет само одобрять каждую компанию, которая получит доступ к GPT-5.6.
— Заявляется, что министр торговли Говард Латник отдельно предостерег OpenAI от запуска GPT-5.6 без одобрения других ведомств. То есть это не решение одного чиновника, а согласование, размазанное по нескольким органам отчасти поэтому в индустрии и началась путаница, кто и что именно должен проверять.
— Сам Альтман явно недоволен таким сценарием, но видит его как лучший способ запустить новую модель в разумные сроки. OpenAI собирается отработать с правительством более устойчивую схему вывода новых моделей на рынок.
— Интересно, что параллельно был перенесен релиз Gemini 3.5 Pro – теперь модель ожидается в июле. Тут инсайдеры говорят, что Google просто недовольна текущими показателями 3.5 Pro, но я уже не удивлюсь ничему.
— По более ранним утечкам, власти США всерьез испугались кибервозможностей нового поколения моделей. Например, внутреннее тестирование АНБ (а это, на минуточку, самое “цифровое” силовое ведомство страны) показало, что Claude Mythos вскрывает почти все их системы защиты за считанные часы.
— Параллельно Anthropic обвинила китайскую Alibaba в “дистилляции” своих моделей (вероятно, последних версий Opus) – с подставных аккаунтов выкачивались миллионы ответов Claude, на которых затем обучались новые версии Qwen.
— Действия властей идут в русле указа Трампа от 2 июня "Promoting Advanced Artificial Intelligence Innovation and Security": лаборатории добровольно дают государству до 30 дней на оценку самых мощных моделей до релиза, государство помогает отбирать "доверенных партнеров" для раннего доступа – вот эта строчка про отбор партнеров прямо стыкуется с "поклиентным одобрением".
Сейчас все выглядит так, что к срокам широкого запуска новых моделей добавится примерно 30 дней, в которые государственные органы (США, а затем близких союзников) и избранные фирмы смогут использовать ИИ для укрепления своих систем защиты.
Но это вызывает сразу две проблемы. Во-первых, подобный подход сразу цепляет закон о недобросовестной конкуренции – правительство, выбирая одни компании, ставит все остальные в проигрышное положение.
Во-вторых, такое действие фактически сдает массовый рынок китайским разработчикам. Сейчас они отстают на несколько месяцев, но этот разрыв может начать сокращаться, так как Китай, похоже, освоил обучение на железе собственного производства, снизив зависимость от западных GPU. Плюс китайские лаборатории традиционно играют на слабостях американских – и будут бить именно в открытость и равную доступность для всех. В общем, интересные времена настают.
“сбежавшая нейросеть” на Бусти
The Information инсайдит, что Белый Дом попросил OpenAI “растянуть” релиз GPT-5.6. Вот что это значит:
— Сама модель готова у компании как минимум несколько недель. В X было полно примеров работы GPT-5.6 и отзывов от инсайдеров. OpenAI обкатывала несколько чекпоинтов, видел слухи, что релиз может состояться в четверг, но буквально день-два назад от тех же инсайдеров пошла информация о переносе на июль.
— В среду Сэм Альтман на встрече с сотрудниками рассказал о новой схеме выхода GPT-5.6. Она во многом похожа на то, как Anthropic запускала Project Glasswing – сначала доступ для небольшой группы доверенных компаний, затем постепенное расширение списка и публичный релиз. Чем все закончилось, мы знаем: Fable 5 пробыла в публичном доступе лишь 3 дня.
— Ключевое отличие от Project Glasswing – правительство США будет само одобрять каждую компанию, которая получит доступ к GPT-5.6.
— Заявляется, что министр торговли Говард Латник отдельно предостерег OpenAI от запуска GPT-5.6 без одобрения других ведомств. То есть это не решение одного чиновника, а согласование, размазанное по нескольким органам отчасти поэтому в индустрии и началась путаница, кто и что именно должен проверять.
— Сам Альтман явно недоволен таким сценарием, но видит его как лучший способ запустить новую модель в разумные сроки. OpenAI собирается отработать с правительством более устойчивую схему вывода новых моделей на рынок.
— Интересно, что параллельно был перенесен релиз Gemini 3.5 Pro – теперь модель ожидается в июле. Тут инсайдеры говорят, что Google просто недовольна текущими показателями 3.5 Pro, но я уже не удивлюсь ничему.
— По более ранним утечкам, власти США всерьез испугались кибервозможностей нового поколения моделей. Например, внутреннее тестирование АНБ (а это, на минуточку, самое “цифровое” силовое ведомство страны) показало, что Claude Mythos вскрывает почти все их системы защиты за считанные часы.
— Параллельно Anthropic обвинила китайскую Alibaba в “дистилляции” своих моделей (вероятно, последних версий Opus) – с подставных аккаунтов выкачивались миллионы ответов Claude, на которых затем обучались новые версии Qwen.
— Действия властей идут в русле указа Трампа от 2 июня "Promoting Advanced Artificial Intelligence Innovation and Security": лаборатории добровольно дают государству до 30 дней на оценку самых мощных моделей до релиза, государство помогает отбирать "доверенных партнеров" для раннего доступа – вот эта строчка про отбор партнеров прямо стыкуется с "поклиентным одобрением".
Сейчас все выглядит так, что к срокам широкого запуска новых моделей добавится примерно 30 дней, в которые государственные органы (США, а затем близких союзников) и избранные фирмы смогут использовать ИИ для укрепления своих систем защиты.
Но это вызывает сразу две проблемы. Во-первых, подобный подход сразу цепляет закон о недобросовестной конкуренции – правительство, выбирая одни компании, ставит все остальные в проигрышное положение.
Во-вторых, такое действие фактически сдает массовый рынок китайским разработчикам. Сейчас они отстают на несколько месяцев, но этот разрыв может начать сокращаться, так как Китай, похоже, освоил обучение на железе собственного производства, снизив зависимость от западных GPU. Плюс китайские лаборатории традиционно играют на слабостях американских – и будут бить именно в открытость и равную доступность для всех. В общем, интересные времена настают.
“сбежавшая нейросеть” на Бусти
3👍69❤29🔥25👏1😁1
Здесь должен был быть обзор GPT-5.6…
…а будет мотивационный текст, хаха!
OpenAI представила линейку GPT-5.6, в которую вошли сразу три модели, Sol, Tera и Luna (от мощной к быстрой). Попробовать ни одну из них мы не сможем – в анонсе компания подтвердила вчерашнюю информацию, что выпуск GPT-5.6 задерживается по просьбе властей США. Доступ к модели выдан буквально двадцати компаниям, которых отбирало правительство. Причина – кибервозможности, которые теоретически могут быть использованы для взлома. Поэтому власти берут время на более глубокий анализ GPT-5.6.
В OpenAI добавили, что надеются запустить GPT-5.6 на широкую аудиторию в ближайшие недели. Посмотрим.
Обычно в день релиза новой модели я пишу обзор, в котором разбираю ее возможности и цифры в бенчмарках. С GPT-5.6 такой пост я отложу до полноценного запуска. А пока хочу поговорить о другом.
Я подписан на множество ИИ-журналистов и блогеров – в телеграме, X и Threads, на русском и английском языках. И у многих вижу одно: разочарование, обиду, вплоть до отмен подписок и нежелания писать о чем-то дальше.
ИИ-индустрия разбаловала нас всех доступом к самым передовым моделям – часто только у самих разработчиков были тестовые варианты ИИ, ушедшие на несколько месяцев вперед. Плюс скорость обновления моделей постоянно росла – последние версии GPT и Opus выходили раз в полтора-два месяца.
По сути, это редкий случай, когда самая передовая технология стала настолько массовой и доступной. Поэтому действительно некомфортно, когда этой доступности начинают препятствовать, причем не разработчики, с помощью ценового барьера, а власти, по причинам частично политическим.
Практически уверен, что это наша новая реальность: помимо тестов внутри разработчика, добавится и проверка властями – может месяц, может больше или меньше. А с учетом непростых отношений с США, многие подписчики этого канала столкнутся с новыми барьерами при доступе – вплоть до практически заградительных, вроде проверки паспорта (это только мой прогноз).
Это грустно, но не повод вешать нос.
Поделюсь личным опытом, немного в сторону от ИИ. Я веду “сбежавшую нейросеть” уже больше года и вроде неплохо получается. Но оглянувшись назад, могу сказать – самые крутые штуки происходил, когда что-то шло не по плану. Были моменты, когда подписчики переставали приходить – и я искал новые источники аудитории. В начале марта под угрозой запрета оказалась рекламная монетизация – и я запустил подписку на “Бусти”. С ней тоже было много ошибок, но сегодня это продукт, который я считаю успешным.
То же самое и с нейросетями. Рынок ИИ развивается очень быстро и выход новых моделей каждые два месяца в чем-то разбаловал нас – если Opus 4.8 не справляется с какой-то задачей, достаточно подождать несколько недель и попробовать ее сделать с новым Опусом или очередной GPT. А ведь возможно дело не в новой модели, а в том, как мы с ней работаем, какими инструментами пользуемся.
Я на фоне блокировки Fable 5 заинтересовался альтернативами, в первую очередь – GLM-5.2, которая в бенчмарках подобралась к фронтиру. Начал копать тему и нашел точку роста: имея дорогие подписки на Claude на ChatGPT, я почти не уделял внимания китайским моделям, которые популярны среди читателей – они зачастую бесплатны, доступны без ухищрений, а во многих пользовательских задачах ничуть не хуже GPT и Opus. Сейчас планирую взять базовый тарифный план GLM и погонять в разных задачах.
Понимаю, что звучит как самоуспокоение, но ИИ сегодня – это не только новая модель, но и ваш опыт работы с ним. А важная часть этого опыта – умение находить и осваивать альтернативы.
P.S. Сегодня пятница и многие ждут нового текста на “Бусти”. Из-за столь необычного анонса пришлось немного задержаться – но текст обязательно выйдет сегодня и продолжит ветку про вайб-кодинг.
Кстати, если еще не читаете, то самое время подписаться!
…а будет мотивационный текст, хаха!
OpenAI представила линейку GPT-5.6, в которую вошли сразу три модели, Sol, Tera и Luna (от мощной к быстрой). Попробовать ни одну из них мы не сможем – в анонсе компания подтвердила вчерашнюю информацию, что выпуск GPT-5.6 задерживается по просьбе властей США. Доступ к модели выдан буквально двадцати компаниям, которых отбирало правительство. Причина – кибервозможности, которые теоретически могут быть использованы для взлома. Поэтому власти берут время на более глубокий анализ GPT-5.6.
В OpenAI добавили, что надеются запустить GPT-5.6 на широкую аудиторию в ближайшие недели. Посмотрим.
Обычно в день релиза новой модели я пишу обзор, в котором разбираю ее возможности и цифры в бенчмарках. С GPT-5.6 такой пост я отложу до полноценного запуска. А пока хочу поговорить о другом.
Я подписан на множество ИИ-журналистов и блогеров – в телеграме, X и Threads, на русском и английском языках. И у многих вижу одно: разочарование, обиду, вплоть до отмен подписок и нежелания писать о чем-то дальше.
ИИ-индустрия разбаловала нас всех доступом к самым передовым моделям – часто только у самих разработчиков были тестовые варианты ИИ, ушедшие на несколько месяцев вперед. Плюс скорость обновления моделей постоянно росла – последние версии GPT и Opus выходили раз в полтора-два месяца.
По сути, это редкий случай, когда самая передовая технология стала настолько массовой и доступной. Поэтому действительно некомфортно, когда этой доступности начинают препятствовать, причем не разработчики, с помощью ценового барьера, а власти, по причинам частично политическим.
Практически уверен, что это наша новая реальность: помимо тестов внутри разработчика, добавится и проверка властями – может месяц, может больше или меньше. А с учетом непростых отношений с США, многие подписчики этого канала столкнутся с новыми барьерами при доступе – вплоть до практически заградительных, вроде проверки паспорта (это только мой прогноз).
Это грустно, но не повод вешать нос.
Поделюсь личным опытом, немного в сторону от ИИ. Я веду “сбежавшую нейросеть” уже больше года и вроде неплохо получается. Но оглянувшись назад, могу сказать – самые крутые штуки происходил, когда что-то шло не по плану. Были моменты, когда подписчики переставали приходить – и я искал новые источники аудитории. В начале марта под угрозой запрета оказалась рекламная монетизация – и я запустил подписку на “Бусти”. С ней тоже было много ошибок, но сегодня это продукт, который я считаю успешным.
То же самое и с нейросетями. Рынок ИИ развивается очень быстро и выход новых моделей каждые два месяца в чем-то разбаловал нас – если Opus 4.8 не справляется с какой-то задачей, достаточно подождать несколько недель и попробовать ее сделать с новым Опусом или очередной GPT. А ведь возможно дело не в новой модели, а в том, как мы с ней работаем, какими инструментами пользуемся.
Я на фоне блокировки Fable 5 заинтересовался альтернативами, в первую очередь – GLM-5.2, которая в бенчмарках подобралась к фронтиру. Начал копать тему и нашел точку роста: имея дорогие подписки на Claude на ChatGPT, я почти не уделял внимания китайским моделям, которые популярны среди читателей – они зачастую бесплатны, доступны без ухищрений, а во многих пользовательских задачах ничуть не хуже GPT и Opus. Сейчас планирую взять базовый тарифный план GLM и погонять в разных задачах.
Понимаю, что звучит как самоуспокоение, но ИИ сегодня – это не только новая модель, но и ваш опыт работы с ним. А важная часть этого опыта – умение находить и осваивать альтернативы.
P.S. Сегодня пятница и многие ждут нового текста на “Бусти”. Из-за столь необычного анонса пришлось немного задержаться – но текст обязательно выйдет сегодня и продолжит ветку про вайб-кодинг.
Кстати, если еще не читаете, то самое время подписаться!
3❤60👍31🔥14😁6
Можно не знать ни строчки кода – и все равно оставаться главным в разработке. Это и есть взрослый вайб-кодинг, с минимумом вайба и максимумом профессиональнойработы.
ИИ отлично пишет код. Но четыре вопроса он за вас не решит:
— что строим в этой версии;
— что НЕ строим (половина искусства – вовремя сказать "не сейчас");
— как проверим, что работает;
— когда считаем готовым.
Как держать эти четыре пункта под рукой? Прекратите кодить с помощью супер-промтов и переходите на нормальную схему работы: концепт, ТЗ, поэтапная реализция.
Как это сделать максимально просто? Рассказываю в новом большом лонгриде:
— Читать на "Бусти"
— Читать на Sponsr
ИИ отлично пишет код. Но четыре вопроса он за вас не решит:
— что строим в этой версии;
— что НЕ строим (половина искусства – вовремя сказать "не сейчас");
— как проверим, что работает;
— когда считаем готовым.
Как держать эти четыре пункта под рукой? Прекратите кодить с помощью супер-промтов и переходите на нормальную схему работы: концепт, ТЗ, поэтапная реализция.
Как это сделать максимально просто? Рассказываю в новом большом лонгриде:
— Читать на "Бусти"
— Читать на Sponsr
1👍31😁12❤10🥰3
Claude Tag: Anthropic собрала ИИ-коллегу для корпораций. Возможно, скоро он придет в вашу семью и даже WoW-гильдию
Anthropic представила Claude Tag – это построенный на базе Claude Code ИИ-коллега, который “работает” в компании или определенном отделе, в курсе проектов и дел, а запускается по команде @claude. Пока проект работает в Slack, но компания планирует расширить его на другие плоскости.
Сейчас работа с ИИ максимально персонализирована: человек запускает чат-бота или Claude Code, задает вопрос/ставит задачу, получает результат и сам решает, что с ним делать дальше. Claude Tag фактически автономный сотрудник, которому может поставить задачу любой участник команды, а если настроить автоматизацию – то в определенных случаях он будет начинать работать сам по себе.
Для бизнеса Claude Tag ценен тем, что накапливает контекст целой команды/компании – знания не растекаются по чатам и проектам отдельных сотрудников, а концентрируются в одной точке. Плюс это упрощает внедрение в компанию: вместо разрозненных аккаунтов – один ИИ-агент в курсе всех дел.
Пока Claude Tag доступен только как бизнес-решение на корпоративных планах Enterprise и Team.Но если идея “взлетит”, то ему быстро найдется и более персональное применение. Ваш персональный ИИ-помощник, доступный сразу во всех точках: чат-боте, мессенджере, ежедневнике и так далее. ИИ-ассистент целой семьи, присутствующий в общих чатах, следящий за расписаниями каждого, заказывающий продукты и напоминающий, что ребенку пора оплатить курсы на следующий месяц. Да даже ассистент вашей гильдии в World of Warcraft: живет в Discord, анализирует онлайн-привычки разных игроков, ведет расписание совместных активностей, а раз в пару месяцев – бронирует бар для реальной встречи.
В чем-то такая штука грубо имитирует AGI – общий интеллект, способный на любую задачу. Считается, что такие системы должны обладать непрерывным обучением, но реализовать его на уровне весов модели пока не получилось ни у кого – получая новые знания, ИИ забывает что-то уже существующее. Однако ИИ-агент компании или семьи уже способен извлекать знания из чатов и проектов и хранить их пусть и не в весах, но в текстовой или RAG базе данных.
Не скажу, что Claude Tag – совсем новая технология. Семейного ИИ-ассистента уже можно построить на базе OpenClaw или Hermes – но это открытые решения, работа с которыми требует определенных знаний, массовый же пользователь ждет варианта “из коробки”.
Но даже когда такой вариант появится, он потребует новых знаний. Помимо умения писать промпты, важным станет контекст-инжиниринг – способность и готовность дать ассистенту доступ к максимуму нужной информации. Договорились о встрече по телефону, за ужином решили завтра рвануть в другой город, но не передали информацию агенту – он про это ничего не знает, скорректировать ваш график и оказать помощь не может, а значит “тупой”.
Для идеальной работы подобному ассистенту желательно дать доступ вообще ко всему, вплоть до прослушивания телефонных разговоров и того, о чем вы беседуете друг с другом дома (или на работе в курилке). А это просто фундаментальная перестройка доверия между человеком и ИИ, которая пока пугает даже такого энтузиаста, как я.
Впрочем, двигаться куда-то в этом направлении мы точно будем. Что бы я делал прямо сейчас? Во-первых, продолжал осваивать ИИ-агентов – если не OpenClaw/Hermes, то хотя бы Claude Code/Codex с подключенной работой через мессенджер или мобильное приложение. Во-вторых, задумался о создании единого графа знаний, личного или семейного, постепенно сводя в одно место любимые промпты и скиллы, пользовательскую память из чат-ботов, проекты в Claude Code и Codex. Такой граф полезен даже при переходе на конкурирующую модель ИИ, не говоря о совсем новых ИИ.
Граф знаний даже у меня только в планах, а вот о том, как освоить агентов, я много писал на “Бусти”:
— Знакомимся с Claude Code и Codex – стартовый текст, с которого начинается мини-серия по этим агентам
— Поднимаем и настраиваем ИИ-агента Hermes или OpenClaw – отдельный текст по ИИ-ассистентам, которые максимально близки к Claude Tag
Anthropic представила Claude Tag – это построенный на базе Claude Code ИИ-коллега, который “работает” в компании или определенном отделе, в курсе проектов и дел, а запускается по команде @claude. Пока проект работает в Slack, но компания планирует расширить его на другие плоскости.
Сейчас работа с ИИ максимально персонализирована: человек запускает чат-бота или Claude Code, задает вопрос/ставит задачу, получает результат и сам решает, что с ним делать дальше. Claude Tag фактически автономный сотрудник, которому может поставить задачу любой участник команды, а если настроить автоматизацию – то в определенных случаях он будет начинать работать сам по себе.
Для бизнеса Claude Tag ценен тем, что накапливает контекст целой команды/компании – знания не растекаются по чатам и проектам отдельных сотрудников, а концентрируются в одной точке. Плюс это упрощает внедрение в компанию: вместо разрозненных аккаунтов – один ИИ-агент в курсе всех дел.
Пока Claude Tag доступен только как бизнес-решение на корпоративных планах Enterprise и Team.Но если идея “взлетит”, то ему быстро найдется и более персональное применение. Ваш персональный ИИ-помощник, доступный сразу во всех точках: чат-боте, мессенджере, ежедневнике и так далее. ИИ-ассистент целой семьи, присутствующий в общих чатах, следящий за расписаниями каждого, заказывающий продукты и напоминающий, что ребенку пора оплатить курсы на следующий месяц. Да даже ассистент вашей гильдии в World of Warcraft: живет в Discord, анализирует онлайн-привычки разных игроков, ведет расписание совместных активностей, а раз в пару месяцев – бронирует бар для реальной встречи.
В чем-то такая штука грубо имитирует AGI – общий интеллект, способный на любую задачу. Считается, что такие системы должны обладать непрерывным обучением, но реализовать его на уровне весов модели пока не получилось ни у кого – получая новые знания, ИИ забывает что-то уже существующее. Однако ИИ-агент компании или семьи уже способен извлекать знания из чатов и проектов и хранить их пусть и не в весах, но в текстовой или RAG базе данных.
Не скажу, что Claude Tag – совсем новая технология. Семейного ИИ-ассистента уже можно построить на базе OpenClaw или Hermes – но это открытые решения, работа с которыми требует определенных знаний, массовый же пользователь ждет варианта “из коробки”.
Но даже когда такой вариант появится, он потребует новых знаний. Помимо умения писать промпты, важным станет контекст-инжиниринг – способность и готовность дать ассистенту доступ к максимуму нужной информации. Договорились о встрече по телефону, за ужином решили завтра рвануть в другой город, но не передали информацию агенту – он про это ничего не знает, скорректировать ваш график и оказать помощь не может, а значит “тупой”.
Для идеальной работы подобному ассистенту желательно дать доступ вообще ко всему, вплоть до прослушивания телефонных разговоров и того, о чем вы беседуете друг с другом дома (или на работе в курилке). А это просто фундаментальная перестройка доверия между человеком и ИИ, которая пока пугает даже такого энтузиаста, как я.
Впрочем, двигаться куда-то в этом направлении мы точно будем. Что бы я делал прямо сейчас? Во-первых, продолжал осваивать ИИ-агентов – если не OpenClaw/Hermes, то хотя бы Claude Code/Codex с подключенной работой через мессенджер или мобильное приложение. Во-вторых, задумался о создании единого графа знаний, личного или семейного, постепенно сводя в одно место любимые промпты и скиллы, пользовательскую память из чат-ботов, проекты в Claude Code и Codex. Такой граф полезен даже при переходе на конкурирующую модель ИИ, не говоря о совсем новых ИИ.
Граф знаний даже у меня только в планах, а вот о том, как освоить агентов, я много писал на “Бусти”:
— Знакомимся с Claude Code и Codex – стартовый текст, с которого начинается мини-серия по этим агентам
— Поднимаем и настраиваем ИИ-агента Hermes или OpenClaw – отдельный текст по ИИ-ассистентам, которые максимально близки к Claude Tag
👍27❤19🔥14😁2
сбежавшая нейросеть pinned «Напоминаю, что у "сбежавшей нейросети" есть подписка на "Бусти" и ее зеркало на Sponsr. Там я делюсь своим опытом использования ИИ: как разобраться в нейросетях с нуля, как правильно писать промпты (и зачем это делать в 2026 году), разворачивать ИИ-агентов…»
Это не я, это модель!
Есть такой “зеркальный” тест, которым проверяют, осознает ли живое существо себя. Берут, например, шимпанзе, незаметно ставят метку на лбу и подводят к зеркалу. Если существо начинает стирать метку не с зеркала, а со своего лба – значит, оно себя осознает. Тест проходят немногие: шимпанзе, люди, дельфины, слоны, сороки. А вот собаки не проходят – то есть себя они не осознают.
Подойдите на улице к собачнику, сообщите ему эту новость – услышите много приятных слов в ответ.
На самом деле, в случае с собаками этолог Александра Горовиц видоизменила зеркальный тест: давала собаке понюхать собственную мочу, а затем – ту же мочу, но с добавлением анисового масла. Если в первом случае реакции почти не было, то во втором собака долго нюхала и волновалась – то есть чувствовала какое-то изменение в “себе”. Горовиц объясняет этот результат просто: если, например, у людей и шимпанзе ведущим органом чувств является зрение, то для собак это запах – поэтому и себя они “осознают” подобным образом (этот вывод оспаривают другие исследователи, но не будем углубляться).
Энтузиаст Паскаль Шустер задался вопросом – а какой “орган чувств” является ведущим у языковой модели. Разумеется, текст! Поэтому в коротком эксперименте Паскаль решил повторить зеркальный тест с этого угла – он завел с несколькими моделями диалог, а в процессе начал чуточку изменять старые ответы ИИ. Например, в разговоре про Джеймса Бонда "Goldfinger" становился "sgoldfinsger" – и попадал в историю беседы. Дальше оставалось только смотреть.
Результаты оказались разными. Google Gemma 4 31B на протяжении двух ходов ничего не замечала, а затем начала переживать – в ее цепочке рассуждений появились фразы вроде “в тексте какие-то странные опечатки, я что, специально так писал?”. Интереснее другое: когда аномалию не получилось объяснить, Gemma 4 перестала писать о себе в первом лице и попыталась свалить все на “модель” – “у модели был странный глюк”. А затем просто переняла стиль ответов и дальше стала сама писать с ошибками.
Похожим образом ведет себя Claude Opus 4.6 – когда ему указали на ошибку (a energy вместо an energy), он сразу же свалил вину на “модель” как нечто отдельное от себя. А вот GLM-5.2 никак не описала отношение к произошедшему, но стала писать дальше с ошибкой – так же, как и Gemma 4. Возможно, “осознание” случилось где-то в латентных слоях модели, которые обычному энтузиасту не видны.
Интересно, что исследование Шустера перекликается с более масштабным экспериментом, который прошлой осенью проводили Anthropic – Emergent Introspective Awareness in Large Language Models. Там они подмешивали изменения прямо в активации модели – грубо говоря, что у нейросети “в голове” в момент написания ответа. Исследователи нашли способ влиять на эти активации – например, заставить модель писать капсом против ее “воли”. И смотрели – заметит ли модель, что с ней происходит что-то не так.
Сильнейшие на момент исследования Claude Opus 4 и 4.1 замечали подозрительные явления в 20% случаев. В Anthropic подали результаты очень аккуратно, предлагая пока говорить не об “осознании себя”, а об “интроспекции”. И отдельно отмечали пользу такого явления для безопасности – модели смогут “замечать”, если с ними творится что-то странное из-за внешнего взлома.
Спустя чуть больше чем полгода эксперимент Anthropic смог повторить увлеченный энтузиаст. И встает вопрос – а что это вообще было? Интересный момент в эксперименте Шустера – как Gemma 4 оправдывает ошибки некой “моделью”. Это очень похоже на обычное человеческое – “я не специально, просто голова устала к вечеру”.
Возможно, аналогичное оправдание “модель устала” нейросети просто скопировали из текстов – известно, что они мастерски копируют человеческое поведение. Но вопрос остается прежним: а нет ли грани между скопированным поведением и чем-то большим? И сможем ли мы заметить переход через нее?
“сбежавшая нейросеть” на Бусти
Есть такой “зеркальный” тест, которым проверяют, осознает ли живое существо себя. Берут, например, шимпанзе, незаметно ставят метку на лбу и подводят к зеркалу. Если существо начинает стирать метку не с зеркала, а со своего лба – значит, оно себя осознает. Тест проходят немногие: шимпанзе, люди, дельфины, слоны, сороки. А вот собаки не проходят – то есть себя они не осознают.
Подойдите на улице к собачнику, сообщите ему эту новость – услышите много приятных слов в ответ.
На самом деле, в случае с собаками этолог Александра Горовиц видоизменила зеркальный тест: давала собаке понюхать собственную мочу, а затем – ту же мочу, но с добавлением анисового масла. Если в первом случае реакции почти не было, то во втором собака долго нюхала и волновалась – то есть чувствовала какое-то изменение в “себе”. Горовиц объясняет этот результат просто: если, например, у людей и шимпанзе ведущим органом чувств является зрение, то для собак это запах – поэтому и себя они “осознают” подобным образом (этот вывод оспаривают другие исследователи, но не будем углубляться).
Энтузиаст Паскаль Шустер задался вопросом – а какой “орган чувств” является ведущим у языковой модели. Разумеется, текст! Поэтому в коротком эксперименте Паскаль решил повторить зеркальный тест с этого угла – он завел с несколькими моделями диалог, а в процессе начал чуточку изменять старые ответы ИИ. Например, в разговоре про Джеймса Бонда "Goldfinger" становился "sgoldfinsger" – и попадал в историю беседы. Дальше оставалось только смотреть.
Результаты оказались разными. Google Gemma 4 31B на протяжении двух ходов ничего не замечала, а затем начала переживать – в ее цепочке рассуждений появились фразы вроде “в тексте какие-то странные опечатки, я что, специально так писал?”. Интереснее другое: когда аномалию не получилось объяснить, Gemma 4 перестала писать о себе в первом лице и попыталась свалить все на “модель” – “у модели был странный глюк”. А затем просто переняла стиль ответов и дальше стала сама писать с ошибками.
Похожим образом ведет себя Claude Opus 4.6 – когда ему указали на ошибку (a energy вместо an energy), он сразу же свалил вину на “модель” как нечто отдельное от себя. А вот GLM-5.2 никак не описала отношение к произошедшему, но стала писать дальше с ошибкой – так же, как и Gemma 4. Возможно, “осознание” случилось где-то в латентных слоях модели, которые обычному энтузиасту не видны.
Интересно, что исследование Шустера перекликается с более масштабным экспериментом, который прошлой осенью проводили Anthropic – Emergent Introspective Awareness in Large Language Models. Там они подмешивали изменения прямо в активации модели – грубо говоря, что у нейросети “в голове” в момент написания ответа. Исследователи нашли способ влиять на эти активации – например, заставить модель писать капсом против ее “воли”. И смотрели – заметит ли модель, что с ней происходит что-то не так.
Сильнейшие на момент исследования Claude Opus 4 и 4.1 замечали подозрительные явления в 20% случаев. В Anthropic подали результаты очень аккуратно, предлагая пока говорить не об “осознании себя”, а об “интроспекции”. И отдельно отмечали пользу такого явления для безопасности – модели смогут “замечать”, если с ними творится что-то странное из-за внешнего взлома.
Спустя чуть больше чем полгода эксперимент Anthropic смог повторить увлеченный энтузиаст. И встает вопрос – а что это вообще было? Интересный момент в эксперименте Шустера – как Gemma 4 оправдывает ошибки некой “моделью”. Это очень похоже на обычное человеческое – “я не специально, просто голова устала к вечеру”.
Возможно, аналогичное оправдание “модель устала” нейросети просто скопировали из текстов – известно, что они мастерски копируют человеческое поведение. Но вопрос остается прежним: а нет ли грани между скопированным поведением и чем-то большим? И сможем ли мы заметить переход через нее?
“сбежавшая нейросеть” на Бусти
4❤66👍38🔥24😁7
Похоже, Google начала раскатку Nano Banana 2 Lite
Новая рисовалка уже доступна в Gemini App если выбрать модель Flash-Lite. У меня на сегодня запланирован другой пост и детально тестировать времени нет (да и рано, пока анонса не было). Но вспомнил, что на "Бусти" у меня есть подробный гайд как писать промпты для графических ИИ, взял оттуда несколько промптов, результаты можете видеть выше.
Быстрые впечатления такие:
— работает быстро, генерация почти моментальная.
— неплохо работает со шрифтами, в том числе русскими. Для Flash-модели это главное достижение.
— в целом качество достойное, мне нравится.
— косяки тоже есть, лисенку нарисовала лишнюю лапу, удалить ее при редактировании у меня не получилось.
Делаем скидку, что это Flash-модель и вряд ли конкурент дорогим GPT Images 2 и Nano Banana 2. Но за счет скорости я вижу прямо идеальную модель для "набросков": я, например, часто прошу Opus 4.8 нагенерировать с десяток идей иллюстрации для какого-нибудь поста, тестировать их все в GPT Images 2 долго, а вот в такой модели — идеально.
В общем, милый анонс от Google. Еще ходят слухи, что Anthropic сегодня представит Sonnet 5, но его уже столько раз обещали, что боюсь сглазить.
(апдейт: а вот и официальный пост)
Новая рисовалка уже доступна в Gemini App если выбрать модель Flash-Lite. У меня на сегодня запланирован другой пост и детально тестировать времени нет (да и рано, пока анонса не было). Но вспомнил, что на "Бусти" у меня есть подробный гайд как писать промпты для графических ИИ, взял оттуда несколько промптов, результаты можете видеть выше.
Быстрые впечатления такие:
— работает быстро, генерация почти моментальная.
— неплохо работает со шрифтами, в том числе русскими. Для Flash-модели это главное достижение.
— в целом качество достойное, мне нравится.
— косяки тоже есть, лисенку нарисовала лишнюю лапу, удалить ее при редактировании у меня не получилось.
Делаем скидку, что это Flash-модель и вряд ли конкурент дорогим GPT Images 2 и Nano Banana 2. Но за счет скорости я вижу прямо идеальную модель для "набросков": я, например, часто прошу Opus 4.8 нагенерировать с десяток идей иллюстрации для какого-нибудь поста, тестировать их все в GPT Images 2 долго, а вот в такой модели — идеально.
В общем, милый анонс от Google. Еще ходят слухи, что Anthropic сегодня представит Sonnet 5, но его уже столько раз обещали, что боюсь сглазить.
(апдейт: а вот и официальный пост)
🔥22👍11❤10
Прочел на канале Кости Сухачева пост про Output vs Outcome – и понял, насколько же круто это все ложится на мои рассуждения последних недель о ценности человека в ИИ-эру.
Если коротко, то Output – это мышление от задачи. Таски, созвоны, фичи – все то, что можно в конце дня пометить красивыми галочками в чек-листе. Нормальный подход для большинства специалистов и даже многих предпринимателей.
Outcome – мышление от изменений. Вы ставите галочки день, неделю, месяц – а какой результат? Сдвинулся ли ваш проект? Решилась ли проблема? Выросли ли вы сам как профессионал?
Очевидно, что процесс без результата особого смысла не имеет. Но Костя верно подмечает ловушку: Output легко контролировать самому (поднажал – задача закрыта), он дает ощущение результата здесь и сейчас, быстрый и гарантированный дофамин. Outcome контролировать сложнее: он проявляется через месяцы и годы, зависит не только от вас, но и от коллег, партнеров, конъюнктуры и даже удачи.
В общем, так было до недавней поры, но теперь внедрение ИИ усложняет историю еще и тем, что во многих областях делает Output практически бесплатным. Получается эдакая дофаминовая карусель: настроил один раз – и на тебе бесконечный поток текстов, кода, мини-продуктов. Вот только чем шире такой поток – тем важнее думать о процессе.
Сейчас уже полно исследований, что грубый расход токенов/лимитов на ИИ редко приводит к результату. Апрельский PwC AI Performance Study показывает, что почти три четверти (74%) экономической выгоды от ИИ достается лишь 20% компаний. Остальные жгут токены почти впустую.
В PwC исследовали, чем отличаются эти 20% компаний. Оказалось, что пока основная масса пытается сократить с помощью ИИ издержки, они направляют все силы на рост. То есть первые пытаются удешевить outcome, вторые – думают об output. И выигрывают.
Не стоит брать эту схему на вооружение как единственную. В том же тексте Костя пишет, что думать только об outcome, целиком забыв про output – другая крайность, не менее опасная. И честно добавляет, что простого решения нет: нужно учиться балансировать между целью (зачем я делаю?) и инструментами. В работе с ИИ этот навык не менее важен: даже дешевые инструменты важно контролировать, а цель всегда останется вашей зоной ответственности.
Кстати, от души советую канал Кости – он делится практическим опытом на стыке ИИ, менджмента, маркетинга и бизнеса. Полезного очень много, отмечу еще несколько постов, которые зацепили:
— Время архитекторов (если вас зацепила тема Output vs Outcome, то этот пост хорошо ее дополняет)
— Nvidia не производит чипов
— Эмоциональный капитал в бизнесе
— Как работать с мозгом, а не против него
— Все ринулись кодить
Если коротко, то Output – это мышление от задачи. Таски, созвоны, фичи – все то, что можно в конце дня пометить красивыми галочками в чек-листе. Нормальный подход для большинства специалистов и даже многих предпринимателей.
Outcome – мышление от изменений. Вы ставите галочки день, неделю, месяц – а какой результат? Сдвинулся ли ваш проект? Решилась ли проблема? Выросли ли вы сам как профессионал?
Очевидно, что процесс без результата особого смысла не имеет. Но Костя верно подмечает ловушку: Output легко контролировать самому (поднажал – задача закрыта), он дает ощущение результата здесь и сейчас, быстрый и гарантированный дофамин. Outcome контролировать сложнее: он проявляется через месяцы и годы, зависит не только от вас, но и от коллег, партнеров, конъюнктуры и даже удачи.
В общем, так было до недавней поры, но теперь внедрение ИИ усложняет историю еще и тем, что во многих областях делает Output практически бесплатным. Получается эдакая дофаминовая карусель: настроил один раз – и на тебе бесконечный поток текстов, кода, мини-продуктов. Вот только чем шире такой поток – тем важнее думать о процессе.
Сейчас уже полно исследований, что грубый расход токенов/лимитов на ИИ редко приводит к результату. Апрельский PwC AI Performance Study показывает, что почти три четверти (74%) экономической выгоды от ИИ достается лишь 20% компаний. Остальные жгут токены почти впустую.
В PwC исследовали, чем отличаются эти 20% компаний. Оказалось, что пока основная масса пытается сократить с помощью ИИ издержки, они направляют все силы на рост. То есть первые пытаются удешевить outcome, вторые – думают об output. И выигрывают.
Не стоит брать эту схему на вооружение как единственную. В том же тексте Костя пишет, что думать только об outcome, целиком забыв про output – другая крайность, не менее опасная. И честно добавляет, что простого решения нет: нужно учиться балансировать между целью (зачем я делаю?) и инструментами. В работе с ИИ этот навык не менее важен: даже дешевые инструменты важно контролировать, а цель всегда останется вашей зоной ответственности.
Кстати, от души советую канал Кости – он делится практическим опытом на стыке ИИ, менджмента, маркетинга и бизнеса. Полезного очень много, отмечу еще несколько постов, которые зацепили:
— Время архитекторов (если вас зацепила тема Output vs Outcome, то этот пост хорошо ее дополняет)
— Nvidia не производит чипов
— Эмоциональный капитал в бизнесе
— Как работать с мозгом, а не против него
— Все ринулись кодить
🔥11❤10👍5
Анонс Sonnet 5, возвращение Fable 5 – да что вообще творится?!
Хаос, обожаю такой хаос!
Cел в ночи писать разбор Sonnet 5, заканчиваю — а зарубежные журналисты пишут о возвращении Claude Fable 5. Добавил в текст ремарку — а уже пришло подтверждение от Anthropic.
Выдыхаем: модель вернется в ближайшие часы. И не только для граждан США, а для всего мира.
Ну а теперь читайте разбор Sonnet 5, некоторые вещи в нем устарели, но переписывать уже не буду, извините.
Начнем с того, что ИИ-сообщество не сильно довольно этим анонсом. Пятерка в названии указывает на новое поколение. И после нескольких часов с Sonnet 5 это видно: модель иначе ведет диалог, у нее другой подход к текстам.
А вот на бенчмарках вырисовывается двойственная картина. С одной стороны, новинка прибавила в сравнении с Sonnet 4.6, что и неудивительно – та вышла 17 февраля.
Но от флагманского Opus 4.8 модель в большинстве бенчмарков отстает – хотя, казалось бы, новое поколение должно быть шагом вперед. Справедливости ради, кодинг в терминале и использование компьютера почти на уровне Опуса, что делает модель хорошей базой для Claude Code.
Заметное отставание видно в SWE-bench Pro, одном из популярных бенчмарков на программирование. По киберспособностям модель тоже придушили: в CyberGym – бенчмарке на поиск уязвимостей – Sonnet 5 уступает даже 4.6, не говоря об Opus 4.8 и Fable 5. В Anthropic добавляют, что усилили защиту модели, доведя до Opus 4.8.
Впрочем, на программировании свет клином не сошелся. Sonnet 5 – основная рабочая лошадка для бесплатного тарифа и самой дешевой подписки Pro, а это территория массового пользователя. Здесь у модели все не так плохо: в GDPval-AA v2 она даже чуть-чуть обходит Opus 4.8 – а это как раз бенчмарк, показывающий, насколько хорошо ИИ выполняет интеллектуальную рутину вроде написания черновиков отчетов, создания презентаций, работы с таблицами и т. д.
Но всплывает другая проблема. Artificial Analysis прогнала Sonnet 5 в серии независимых тестов, оценив ее в 53 балла – лишь чуть-чуть позади Opus 4.8 и GPT-5.5. Но отметили тревожную историю: в среднем задача бенчмарка стоила $2,29, что дороже Opus 4.8 ($1,80) и GPT-5.5 ($1,03).
Справедливости ради, меряли по стандартной цене в API: $3 за миллион входных токенов / $15 за миллион выходных токенов. А Anthropic до 31 августа сделала скидку до $2/$10 – и при такой цене результат получается уже на 15% дешевле Opus 4.8. Но даже так недостаточно дешево для модели классом ниже. Только если Opus 5 не сделают еще более прожорливым.
Ну и финальный удар. В спину Sonnet 5 дышит настоящая звезда последних недель – китайская GLM-5.2. Причем хороша она не только в бенчмарках: я постоянно вижу отзывы от реальных пользователей, которые гоняют модель в разных задачах – от кода до текста и фронтенда. И главное: при почти равных цифрах, GLM-5.2 в три раза дешевле.
Тут стоит сделать небольшую оговорку – GLM-5.2 не поддерживает мультимодальность, то есть, получив изображение на вход, переключается на модель попроще с худшими возможностями. А как раз у серии Claude компьютерное зрение прокачали серьезно – и это большое преимущество. Но для тех, кто не работает с визуалом, GLM-5.2 будет сильной альтернативой Sonnet 5 – тем более, китайцы очень быстро обновляют свою модель.
Возможно, проблемы Sonnet 5 временные: модель нового поколения имеет право быть сырой, проседая в некоторых характеристиках. Но не исключено, что прямо сейчас мы наблюдаем то, о чем многие предупреждали после блокировки Fable 5 – из-за нервозности и суматохи, OpenAI и Anthropic могут начать уступать массовый рынок китайским конкурентам.
В любом случае – в Claude Code Sonnet 5 и Fable 5 будут работать просто отлично. Так что подписывайтесь на мой “Бусти”, там уже целый мини-курс, как начать работать с Claude Code и делать в нем крутые шт
Хаос, обожаю такой хаос!
Cел в ночи писать разбор Sonnet 5, заканчиваю — а зарубежные журналисты пишут о возвращении Claude Fable 5. Добавил в текст ремарку — а уже пришло подтверждение от Anthropic.
Выдыхаем: модель вернется в ближайшие часы. И не только для граждан США, а для всего мира.
Ну а теперь читайте разбор Sonnet 5, некоторые вещи в нем устарели, но переписывать уже не буду, извините.
Начнем с того, что ИИ-сообщество не сильно довольно этим анонсом. Пятерка в названии указывает на новое поколение. И после нескольких часов с Sonnet 5 это видно: модель иначе ведет диалог, у нее другой подход к текстам.
А вот на бенчмарках вырисовывается двойственная картина. С одной стороны, новинка прибавила в сравнении с Sonnet 4.6, что и неудивительно – та вышла 17 февраля.
Но от флагманского Opus 4.8 модель в большинстве бенчмарков отстает – хотя, казалось бы, новое поколение должно быть шагом вперед. Справедливости ради, кодинг в терминале и использование компьютера почти на уровне Опуса, что делает модель хорошей базой для Claude Code.
Заметное отставание видно в SWE-bench Pro, одном из популярных бенчмарков на программирование. По киберспособностям модель тоже придушили: в CyberGym – бенчмарке на поиск уязвимостей – Sonnet 5 уступает даже 4.6, не говоря об Opus 4.8 и Fable 5. В Anthropic добавляют, что усилили защиту модели, доведя до Opus 4.8.
Впрочем, на программировании свет клином не сошелся. Sonnet 5 – основная рабочая лошадка для бесплатного тарифа и самой дешевой подписки Pro, а это территория массового пользователя. Здесь у модели все не так плохо: в GDPval-AA v2 она даже чуть-чуть обходит Opus 4.8 – а это как раз бенчмарк, показывающий, насколько хорошо ИИ выполняет интеллектуальную рутину вроде написания черновиков отчетов, создания презентаций, работы с таблицами и т. д.
Но всплывает другая проблема. Artificial Analysis прогнала Sonnet 5 в серии независимых тестов, оценив ее в 53 балла – лишь чуть-чуть позади Opus 4.8 и GPT-5.5. Но отметили тревожную историю: в среднем задача бенчмарка стоила $2,29, что дороже Opus 4.8 ($1,80) и GPT-5.5 ($1,03).
Справедливости ради, меряли по стандартной цене в API: $3 за миллион входных токенов / $15 за миллион выходных токенов. А Anthropic до 31 августа сделала скидку до $2/$10 – и при такой цене результат получается уже на 15% дешевле Opus 4.8. Но даже так недостаточно дешево для модели классом ниже. Только если Opus 5 не сделают еще более прожорливым.
Ну и финальный удар. В спину Sonnet 5 дышит настоящая звезда последних недель – китайская GLM-5.2. Причем хороша она не только в бенчмарках: я постоянно вижу отзывы от реальных пользователей, которые гоняют модель в разных задачах – от кода до текста и фронтенда. И главное: при почти равных цифрах, GLM-5.2 в три раза дешевле.
Тут стоит сделать небольшую оговорку – GLM-5.2 не поддерживает мультимодальность, то есть, получив изображение на вход, переключается на модель попроще с худшими возможностями. А как раз у серии Claude компьютерное зрение прокачали серьезно – и это большое преимущество. Но для тех, кто не работает с визуалом, GLM-5.2 будет сильной альтернативой Sonnet 5 – тем более, китайцы очень быстро обновляют свою модель.
Возможно, проблемы Sonnet 5 временные: модель нового поколения имеет право быть сырой, проседая в некоторых характеристиках. Но не исключено, что прямо сейчас мы наблюдаем то, о чем многие предупреждали после блокировки Fable 5 – из-за нервозности и суматохи, OpenAI и Anthropic могут начать уступать массовый рынок китайским конкурентам.
В любом случае – в Claude Code Sonnet 5 и Fable 5 будут работать просто отлично. Так что подписывайтесь на мой “Бусти”, там уже целый мини-курс, как начать работать с Claude Code и делать в нем крутые шт
3❤33🔥25👍10😁4
Главный урок из блокировки Claude Fable 5
Он простой – это нестабильность современных моделей как рабочего инструмента.
Anthropic уже раскрыла правила возвращения Fable 5: в подписках Pro и Max модель пока останется только до 7 июля, а расходовать разрешат не более 50% лимита тарифа. Плюс компания ужесточила классификаторы безопасности: если запрос покажется подозрительным, то его перекинут на Opus – причем речь не только о поиске уязвимостей, но и об обычном кодинге.
Возможно, классификаторы окажутся безобидными. Или Fable 5 оставят и после 7 июля. Но сейчас я понимаю, что в ближайшие дни просто поиграюсь с моделью, но не буду строить на ней никакие серьезные рабочие процессы – и это несмотря на то, что у меня недешевый Claude Max.
Это можно было бы списать на особенность тарифных планов одной конкретной компании, но нет – аналогичные ситуации сплошь и рядом. Когда вашим рабочим инструментом является компьютер/перфоратор/автомобиль – у вас есть четкое понимание его функций и того, что завтра они не изменятся. В ИИ подобного нет.
Например, в прошлом августе OpenAI выпустила долгожданную GPT-5 – и тут же на радостях убрала из ChatGPT “устаревшую” GPT-4o. Сразу же компанию завалили жалобами пользователи: многие любили 4o за навык вести теплые беседы и стиль GPT-5 их не устраивал.
Еще хуже ситуация стала, когда ИИ превратился в рабочий инструмент. Завирусившийся в начале года OpenClaw был удачной комбинацией новой идеи ИИ-агента и модели Claude Opus, которую тогда можно было бюджетно подключить через Oauth в Claude Code. Opus отлично подходил благодаря теплому стилю общения и продвинутым агентским возможностям, но Anthropic не понравилась нагрузка на инфраструктуру, поэтому использовать OpenClaw разрешили только через дорогой API. Многих (в том числе и меня) это не устроило – и пришлось уходить, бросая наработанные процессы.
Быстро устаревают версии моделей. Мне, например, нравился стиль общения GPT-5.1, до сих пор считаю ее одной из самых “живых” моделей OpenAI – но в подписке ChatGPT ее давно нет. Я переживу, но для тех, кто строит вокруг ИИ фиксированные процессы, это настоящая головная боль: например, GPT-5.2 и GPT-5.5 требуют совершенно разного подхода к промптингу, поэтому перевести ассистента с первой на вторую потребует минимум несколько часов настройки и тестирования.
И даже задеплоенную модель разработчик может изменить в любой момент: переписать системный промпт, добавить классификаторы безопасности, изменить настройки глубины рассуждений, поднять цену. Как результат – меняется стиль ответов, случаются отказы там, где их не было, плывет экономика.
ИИ сейчас развивается так быстро, что зрелые отношения между поставщиком и клиентом просто не успевают сформироваться: компаниям выгодно постоянно улучшать модели и как можно быстрее убирать устаревшие, экономя на инфраструктуре. А теперь в эту историю вмешался и госконтроль: пример Fable 5 показывает, что правительство может вырубить уже запущенную новинку, вокруг которой клиенты только-только начали выстраивать процессы.
Что с этим делать? Однозначного ответа пока нет. Очевидно, что история с Fable 5 стала пиаром в первую очередь для open source моделей – с ними есть свои нюансы, но как минимум есть гарантия, что в развернутые на своем железе открытые веса никто не засунет свой нос. Но действительно серьезный open source: это как минимум топовая видеокарта для личного использования или несколько GPU для корпоративного. Такое потянет не каждый.
Для личного использования советую не зацикливаться на одном ИИ. Оплачивать можно единственную подписку – но регулярно прогоняйте хотя бы простые задачи через бесплатные тарифы. Так набьете руку быстро передавать задачи от одной модели к другой.
Еще старайтесь получше понять устройство ИИ. На “Бусти” у меня есть свежий разбор системного промпта Claude Fable 5 – из него видно, как работает этот слой управления моделью. А в ближайшее время планирую лонгрид про пользовательский промпт и постоянную память ИИ, а также ее перенос между разными нейронками.
Самое время подписаться!
Он простой – это нестабильность современных моделей как рабочего инструмента.
Anthropic уже раскрыла правила возвращения Fable 5: в подписках Pro и Max модель пока останется только до 7 июля, а расходовать разрешат не более 50% лимита тарифа. Плюс компания ужесточила классификаторы безопасности: если запрос покажется подозрительным, то его перекинут на Opus – причем речь не только о поиске уязвимостей, но и об обычном кодинге.
Возможно, классификаторы окажутся безобидными. Или Fable 5 оставят и после 7 июля. Но сейчас я понимаю, что в ближайшие дни просто поиграюсь с моделью, но не буду строить на ней никакие серьезные рабочие процессы – и это несмотря на то, что у меня недешевый Claude Max.
Это можно было бы списать на особенность тарифных планов одной конкретной компании, но нет – аналогичные ситуации сплошь и рядом. Когда вашим рабочим инструментом является компьютер/перфоратор/автомобиль – у вас есть четкое понимание его функций и того, что завтра они не изменятся. В ИИ подобного нет.
Например, в прошлом августе OpenAI выпустила долгожданную GPT-5 – и тут же на радостях убрала из ChatGPT “устаревшую” GPT-4o. Сразу же компанию завалили жалобами пользователи: многие любили 4o за навык вести теплые беседы и стиль GPT-5 их не устраивал.
Еще хуже ситуация стала, когда ИИ превратился в рабочий инструмент. Завирусившийся в начале года OpenClaw был удачной комбинацией новой идеи ИИ-агента и модели Claude Opus, которую тогда можно было бюджетно подключить через Oauth в Claude Code. Opus отлично подходил благодаря теплому стилю общения и продвинутым агентским возможностям, но Anthropic не понравилась нагрузка на инфраструктуру, поэтому использовать OpenClaw разрешили только через дорогой API. Многих (в том числе и меня) это не устроило – и пришлось уходить, бросая наработанные процессы.
Быстро устаревают версии моделей. Мне, например, нравился стиль общения GPT-5.1, до сих пор считаю ее одной из самых “живых” моделей OpenAI – но в подписке ChatGPT ее давно нет. Я переживу, но для тех, кто строит вокруг ИИ фиксированные процессы, это настоящая головная боль: например, GPT-5.2 и GPT-5.5 требуют совершенно разного подхода к промптингу, поэтому перевести ассистента с первой на вторую потребует минимум несколько часов настройки и тестирования.
И даже задеплоенную модель разработчик может изменить в любой момент: переписать системный промпт, добавить классификаторы безопасности, изменить настройки глубины рассуждений, поднять цену. Как результат – меняется стиль ответов, случаются отказы там, где их не было, плывет экономика.
ИИ сейчас развивается так быстро, что зрелые отношения между поставщиком и клиентом просто не успевают сформироваться: компаниям выгодно постоянно улучшать модели и как можно быстрее убирать устаревшие, экономя на инфраструктуре. А теперь в эту историю вмешался и госконтроль: пример Fable 5 показывает, что правительство может вырубить уже запущенную новинку, вокруг которой клиенты только-только начали выстраивать процессы.
Что с этим делать? Однозначного ответа пока нет. Очевидно, что история с Fable 5 стала пиаром в первую очередь для open source моделей – с ними есть свои нюансы, но как минимум есть гарантия, что в развернутые на своем железе открытые веса никто не засунет свой нос. Но действительно серьезный open source: это как минимум топовая видеокарта для личного использования или несколько GPU для корпоративного. Такое потянет не каждый.
Для личного использования советую не зацикливаться на одном ИИ. Оплачивать можно единственную подписку – но регулярно прогоняйте хотя бы простые задачи через бесплатные тарифы. Так набьете руку быстро передавать задачи от одной модели к другой.
Еще старайтесь получше понять устройство ИИ. На “Бусти” у меня есть свежий разбор системного промпта Claude Fable 5 – из него видно, как работает этот слой управления моделью. А в ближайшее время планирую лонгрид про пользовательский промпт и постоянную память ИИ, а также ее перенос между разными нейронками.
Самое время подписаться!
4❤29👍20🔥9😁1