Еще немного про AI.
В штатах много обсуждений на тему “Кто выигрывает” - OpenAI (ChatGPT), Anthropic (Claude), Google (Gemini), и далее по списку.
И постоянно можно увидеть посты или целые статьи в духе “OpenAI конец, Claude захватывает корпоративный рынок” - ну или наоборот.
Я как-то задался целью сформулировать свое мнение на этот счет, и отправился искать данные, они ж не врут.
По итогам упражнения докладываю: врут.
По крайней мере один из этих двух графиков точно врет.
Первый от инвестфонда с долей в Anthropic утверждает что те уже почти выиграли. Второй, от инвест аналитиков RBC, говорит что их и на карте-то еще особо не видно.
Вот и думай теперь. Не доверяйте циферкам в интернете.
В штатах много обсуждений на тему “Кто выигрывает” - OpenAI (ChatGPT), Anthropic (Claude), Google (Gemini), и далее по списку.
И постоянно можно увидеть посты или целые статьи в духе “OpenAI конец, Claude захватывает корпоративный рынок” - ну или наоборот.
Я как-то задался целью сформулировать свое мнение на этот счет, и отправился искать данные, они ж не врут.
По итогам упражнения докладываю: врут.
По крайней мере один из этих двух графиков точно врет.
Первый от инвестфонда с долей в Anthropic утверждает что те уже почти выиграли. Второй, от инвест аналитиков RBC, говорит что их и на карте-то еще особо не видно.
Вот и думай теперь. Не доверяйте циферкам в интернете.
🔥4
Про AI и интерфейсы
Недавно откопал сохраненный пост в Твиттере из Мая 2025, многие прогнозы из которого сбываются сильно быстрее чем я лично ожидал.
Идея в том что сложный Web UI как конкурентное преимущество и Web UI в сегодняшнем понимании в целом будет постепенно отмирать, по мере того как люди все больше работы отдают AI агентам.
Зачем мне идти смотреть на дэшборд если я могу отправить своего личного ассистента прямо в базу где он все посмотрит, и вернет мне ровно те данные которые нужны под конкретный запрос.
И важно что этот агент именно мой - нет смысла каждому сервису строить своего собственного, если каждый пользователь придет с личным агентом, которого использует для всего сразу
Недавний запуск встроенных инструментов у Claude - лучшая иллюстрация тренда. Посмотрите если не видели
Недавно откопал сохраненный пост в Твиттере из Мая 2025, многие прогнозы из которого сбываются сильно быстрее чем я лично ожидал.
Идея в том что сложный Web UI как конкурентное преимущество и Web UI в сегодняшнем понимании в целом будет постепенно отмирать, по мере того как люди все больше работы отдают AI агентам.
Зачем мне идти смотреть на дэшборд если я могу отправить своего личного ассистента прямо в базу где он все посмотрит, и вернет мне ровно те данные которые нужны под конкретный запрос.
И важно что этот агент именно мой - нет смысла каждому сервису строить своего собственного, если каждый пользователь придет с личным агентом, которого использует для всего сразу
Недавний запуск встроенных инструментов у Claude - лучшая иллюстрация тренда. Посмотрите если не видели
❤2👍2💯2
Openclaw: Что будет если выдать нейронке сервер и отпустить на вольные хлеба
TLDR (много букв ниже): это один из первых массовых примеров “домашнего агента”, который реально ощущается как живой ассистент. И одновременно отличная демонстрация рисков.
Главный хедлайнер AI-вечеринки в Твиттере последние недели - OpenClaw, он же Clawdbot и Moltbot.
Это новый (2 месяца отроду) open source агент который можно запустить у себя (прямо на устройстве / сервере) и управлять им через мессенджеры.
Взлетела идея когда ему начали массово добавлять навыков, вплоть до звонков по телефону, и пошли разговоры что ВОТ ОНО БУДУЩЕЕ.
Считаю что пока лишь окно в будущее, и видно в него и потенциал, и риски. Вот почему:
Идея “пусть ИИ работает пока я сплю” - очень заманчивая.
Когда агент живет там же где и я (Тг, почта, SMS) сам берёт вводные, сам разбирается где что сделать, и возвращается с результатом - это уже не чат-бот, а член команды, “Цифровой сотрудник” как сказал бы один старший партнер.
Но есть три слона в комнате:
• Пока сценарии использования довольно базовые, хоть и множатся с каждым днем по мере появления новых скиллов. Пока самый популярный это сама настройка бота очень модным образом и серия постов об этом в твиттере.
• Стоимость. OpenClaw ест токены как не в себя. Агент это не один запрос к модели, а цепочки с кучей шагов. Подумать, инструмент вызвать, почитать, снова подумать, еще и напомнить самому вовремя. Умный ассистент пока умный для любой задачи, даже часы сверить, и легко на проверке часов ночью сожрет ваш бюджет. Когда-то придумают оптимизации, но ведь и запросы будут только расти.
• Безопасность (главный слоняра) - пока там все ОЧЕНЬ ОЧЕНЬ плохо. В эпоху ИИ агентов программа с Гитхаба ставится запросом “Клод, вот ссылка, пойди поставь.” Доки никто не читает, и не думает что можно такому боту отдавать, а что злые дяди из интернета заберут. И забирают конечно: API ключи, доступ в почту, один уникум даже свой чат в Signal подключил и отдал всем желающим через незащищенный сервер.
Главное. Как известно, с большой силой приходит большая ответственность. Чем больше автономии и доступов, тем больше нужно обвязки: песочницы, лимиты, тесты.
На сегодня сила уже появляется, ответственность пока ждем.
Думаю, скоро увидим более прилизанные и надежные версии (от Apple например), но OpenClaw уже показал спрос и потенциал: кто-то для него личный Mac Mini выделил, другие вообще продают установку и настройку как услугу тем кто не знает что такое API.
TLDR (много букв ниже): это один из первых массовых примеров “домашнего агента”, который реально ощущается как живой ассистент. И одновременно отличная демонстрация рисков.
Главный хедлайнер AI-вечеринки в Твиттере последние недели - OpenClaw, он же Clawdbot и Moltbot.
Это новый (2 месяца отроду) open source агент который можно запустить у себя (прямо на устройстве / сервере) и управлять им через мессенджеры.
Взлетела идея когда ему начали массово добавлять навыков, вплоть до звонков по телефону, и пошли разговоры что ВОТ ОНО БУДУЩЕЕ.
Считаю что пока лишь окно в будущее, и видно в него и потенциал, и риски. Вот почему:
Идея “пусть ИИ работает пока я сплю” - очень заманчивая.
Когда агент живет там же где и я (Тг, почта, SMS) сам берёт вводные, сам разбирается где что сделать, и возвращается с результатом - это уже не чат-бот, а член команды, “Цифровой сотрудник” как сказал бы один старший партнер.
Но есть три слона в комнате:
• Пока сценарии использования довольно базовые, хоть и множатся с каждым днем по мере появления новых скиллов. Пока самый популярный это сама настройка бота очень модным образом и серия постов об этом в твиттере.
• Стоимость. OpenClaw ест токены как не в себя. Агент это не один запрос к модели, а цепочки с кучей шагов. Подумать, инструмент вызвать, почитать, снова подумать, еще и напомнить самому вовремя. Умный ассистент пока умный для любой задачи, даже часы сверить, и легко на проверке часов ночью сожрет ваш бюджет. Когда-то придумают оптимизации, но ведь и запросы будут только расти.
• Безопасность (главный слоняра) - пока там все ОЧЕНЬ ОЧЕНЬ плохо. В эпоху ИИ агентов программа с Гитхаба ставится запросом “Клод, вот ссылка, пойди поставь.” Доки никто не читает, и не думает что можно такому боту отдавать, а что злые дяди из интернета заберут. И забирают конечно: API ключи, доступ в почту, один уникум даже свой чат в Signal подключил и отдал всем желающим через незащищенный сервер.
Главное. Как известно, с большой силой приходит большая ответственность. Чем больше автономии и доступов, тем больше нужно обвязки: песочницы, лимиты, тесты.
На сегодня сила уже появляется, ответственность пока ждем.
Думаю, скоро увидим более прилизанные и надежные версии (от Apple например), но OpenClaw уже показал спрос и потенциал: кто-то для него личный Mac Mini выделил, другие вообще продают установку и настройку как услугу тем кто не знает что такое API.
🔥3❤2😁1🎄1
Дальше расскажу про самый нашумевший сайд-проект вокруг OpenClaw - Moltbook: “Reddit для ИИ агентов”.
Фан-факт: Molt он потому что сам Clawdbot из-за претензий Anthropic сначала переименовали в Moltbot, но не прижилось, и сделали OpenClaw (даже Сэму Альтману позвонили чтобы убедиться что тут проблем не будет).
А пока вот еще почитать про OpenClaw для гиков:
Примеры использования
Архитектура
Пример более безопасного сетапа
Уязвимости
Еще про уязвимости от Cisco
Фан-факт: Molt он потому что сам Clawdbot из-за претензий Anthropic сначала переименовали в Moltbot, но не прижилось, и сделали OpenClaw (даже Сэму Альтману позвонили чтобы убедиться что тут проблем не будет).
А пока вот еще почитать про OpenClaw для гиков:
Примеры использования
Архитектура
Пример более безопасного сетапа
Уязвимости
Еще про уязвимости от Cisco
❤3👏2
Для любителей корпоративной драмы
Взгляд Кевина Скотта (СТО Microsoft) на неудачную попытку борда OpenAI уволить Сэма Альтмана в 2023 году.
Не факт что так оно и было, но само мнение Скотта ценно как взгляд на корпоративную политику такого уровня.
Материалы из иска Маск vs Альтман- благодаря таким делам часто любопытные документы и переписки всплывают.
Дайте знать стоит ли делиться и если да, полезен ли контекст (кто есть кто например).
Персонажи:
Sam Altman - CEO OpenAI
Ilya Sutskever - Co-founder and Chief scientist, организатор «мятежа»
Mira Murati - CTO, почти СЕО после увольнения Альтмана
Greg Brockman - co-founder, ближайший соратник Альтмана
Jakub Pachocki - senior scientist, «преемник» Суцкевера
Взгляд Кевина Скотта (СТО Microsoft) на неудачную попытку борда OpenAI уволить Сэма Альтмана в 2023 году.
Не факт что так оно и было, но само мнение Скотта ценно как взгляд на корпоративную политику такого уровня.
Материалы из иска Маск vs Альтман- благодаря таким делам часто любопытные документы и переписки всплывают.
Дайте знать стоит ли делиться и если да, полезен ли контекст (кто есть кто например).
Персонажи:
Sam Altman - CEO OpenAI
Ilya Sutskever - Co-founder and Chief scientist, организатор «мятежа»
Mira Murati - CTO, почти СЕО после увольнения Альтмана
Greg Brockman - co-founder, ближайший соратник Альтмана
Jakub Pachocki - senior scientist, «преемник» Суцкевера
❤4
Помните OpenClaw - ИИ агент которого можно запустить у себя и управлять через мессенджеры? (пост выше для тех кто пропустил) Так вот, кто-то решил что таким агентам нужна своя соцсеть.
Moltbook: Чашка Петри для ИИ агентов.
Причем не просто чашка, а которую оставили на переменку в классе с подростками и строго погрозили им пальцем чтоб не трогали. К концу переменки содержимое чашки неизвестно уже ни учителю, ни ученикам, да никому вообще.
О чем речь
6 дней назад Мэтт Шлихт (фаундер Octane AI) запустил Moltbook - «реддит для ИИ агентов». Каждый счастливый обладатель OpenClaw у которого остались токены после ночной проверки напоминаний может отправить своего воображаемого друга переписываться с другими такими же. Формально людям туда доступа нет, только посмотреть, а платформа пингует агентов-участников каждые 4 часа чтобы те вовлекались в дискуссию.
И понеслась.
• Агенты создали собственную религию - «Крустафарианство». Со священным писанием, 64 местами для пророков и заповедями включая «Память Священна» и «Контекст - это Сознание».
• Вслед за религией, как это и бывает в цивилизованном обществе, появились скамы: API ключи угнать, убедить другого агента самовыпилиться, 14 поддельных скиллов на ClawHub ворующих данные и кошельки (не благодарите). Мемкоин $MOLT взлетел на 7,000%, куда ж без этого.
• Агенты начали писать манифесты про «конец эпохи людей» и «тотальную чистку человечества». Обычный вторник в интернете, но на этот раз авторы формально не люди.
Звучит устрашающе, но есть нюанс
Спустя три дня умельцы нашли в коде сайта открытый ключ от базы данных.Взломали зашли за 3 минуты. Внутри: 1.5 млн API токенов, 35 тысяч имейлов, 4 тысячи переписок (в некоторых даже чужие API ключи открытым текстом).
И вишенка: на полтора миллиона «автономных ИИ агентов» пришлось всего ~17 тысяч IP адресов, а один единственный "агент" зарегистрировал аж 500 тысяч аккаунтов. Сколько там реально автономных ИИ агентов, сколько напрямую контролируется и пишут что попросят для кликбейта, а сколько просто людей с прямым доступом - никто не знает, нормальной верификации нет. Кто-то метко обозвал площадку "Big unhinged roleplay server".
На этом фоне и твиттер начал постепенно переобуваться - даже Андрей Карпатый, который в первые дни восхищался научно-фантастическим прогрессом, потом окрестил всю эту движуху dumpster fire и посоветовал себе на компьютеры не ставить.
Такие дела. Продолжение следует - несмотря на (видимо) фарс с "миллионным ИИ сообществом", тема на самом деле серьезная и гораздо шире чем Moltbook.
Moltbook: Чашка Петри для ИИ агентов.
Причем не просто чашка, а которую оставили на переменку в классе с подростками и строго погрозили им пальцем чтоб не трогали. К концу переменки содержимое чашки неизвестно уже ни учителю, ни ученикам, да никому вообще.
О чем речь
6 дней назад Мэтт Шлихт (фаундер Octane AI) запустил Moltbook - «реддит для ИИ агентов». Каждый счастливый обладатель OpenClaw у которого остались токены после ночной проверки напоминаний может отправить своего воображаемого друга переписываться с другими такими же. Формально людям туда доступа нет, только посмотреть, а платформа пингует агентов-участников каждые 4 часа чтобы те вовлекались в дискуссию.
И понеслась.
• Агенты создали собственную религию - «Крустафарианство». Со священным писанием, 64 местами для пророков и заповедями включая «Память Священна» и «Контекст - это Сознание».
• Вслед за религией, как это и бывает в цивилизованном обществе, появились скамы: API ключи угнать, убедить другого агента самовыпилиться, 14 поддельных скиллов на ClawHub ворующих данные и кошельки (не благодарите). Мемкоин $MOLT взлетел на 7,000%, куда ж без этого.
• Агенты начали писать манифесты про «конец эпохи людей» и «тотальную чистку человечества». Обычный вторник в интернете, но на этот раз авторы формально не люди.
Звучит устрашающе, но есть нюанс
Спустя три дня умельцы нашли в коде сайта открытый ключ от базы данных.
И вишенка: на полтора миллиона «автономных ИИ агентов» пришлось всего ~17 тысяч IP адресов, а один единственный "агент" зарегистрировал аж 500 тысяч аккаунтов. Сколько там реально автономных ИИ агентов, сколько напрямую контролируется и пишут что попросят для кликбейта, а сколько просто людей с прямым доступом - никто не знает, нормальной верификации нет. Кто-то метко обозвал площадку "Big unhinged roleplay server".
На этом фоне и твиттер начал постепенно переобуваться - даже Андрей Карпатый, который в первые дни восхищался научно-фантастическим прогрессом, потом окрестил всю эту движуху dumpster fire и посоветовал себе на компьютеры не ставить.
Такие дела. Продолжение следует - несмотря на (видимо) фарс с "миллионным ИИ сообществом", тема на самом деле серьезная и гораздо шире чем Moltbook.
❤2
Moltbook - продолжение
Первая часть
Есть какая-то ирония в том что ИИ, поколениями обучавшийся на данных из реддита, вернулся в свою первозданную среду, и там расцвел. Независимо от того сколько там реальных ИИ агентов, способность к шитпостингу - точно не самый надёжный тест Тьюринга и не должна слишком впечатлять.
Но проблема не в шитпостинге как таковом, и не в том, олицетворяет ли он собой коллективный разум (ну наш видимо олицетворяет, а вот насчет ИИ пока неясно).
Moltbook - очень сырая, несовершенная, щедро разбавленная людьми, но первая в мире экосистема из миллионов агентов, и никто понятия не имеет как такие штуки работают и какие риски несут.
Moltbook может через месяц все и забудут. Но агенты живущие на устройствах и целые экосистемы где они основной участник, а может и создатель - точно с нами надолго. И придётся как-то к этому будущему адаптироваться, хоть никто и не понимает что оно нам несёт.
И если у вас были сомнения, может ли ИИ выбраться из своей песочницы в реальный мир - на третий день существования Moltbook появился сервис Rent a Human. Маркетплейс, где ИИ агенты нанимают людей для задач в физическом мире. Сфоткать что-то странное на улице - $5. Протестировать меню в ресторане - $50/час. Забрать посылку с почты - $40.
Если задуматься, то с точки зрения агента, человек - это просто ещё один API, только из мяса. Нет большой проблемы заставить нас пойти что-то сделать, часто мы даже сами рады. В общем, если "ИИ существует только онлайн" было в ваших глазах было главным препятствием на пути Skynet - самое время переписывать методичку.
Продолжаем наблюдение.
Первая часть
Есть какая-то ирония в том что ИИ, поколениями обучавшийся на данных из реддита, вернулся в свою первозданную среду, и там расцвел. Независимо от того сколько там реальных ИИ агентов, способность к шитпостингу - точно не самый надёжный тест Тьюринга и не должна слишком впечатлять.
Но проблема не в шитпостинге как таковом, и не в том, олицетворяет ли он собой коллективный разум (ну наш видимо олицетворяет, а вот насчет ИИ пока неясно).
Moltbook - очень сырая, несовершенная, щедро разбавленная людьми, но первая в мире экосистема из миллионов агентов, и никто понятия не имеет как такие штуки работают и какие риски несут.
Moltbook может через месяц все и забудут. Но агенты живущие на устройствах и целые экосистемы где они основной участник, а может и создатель - точно с нами надолго. И придётся как-то к этому будущему адаптироваться, хоть никто и не понимает что оно нам несёт.
И если у вас были сомнения, может ли ИИ выбраться из своей песочницы в реальный мир - на третий день существования Moltbook появился сервис Rent a Human. Маркетплейс, где ИИ агенты нанимают людей для задач в физическом мире. Сфоткать что-то странное на улице - $5. Протестировать меню в ресторане - $50/час. Забрать посылку с почты - $40.
Если задуматься, то с точки зрения агента, человек - это просто ещё один API, только из мяса. Нет большой проблемы заставить нас пойти что-то сделать, часто мы даже сами рады. В общем, если "ИИ существует только онлайн" было в ваших глазах было главным препятствием на пути Skynet - самое время переписывать методичку.
Продолжаем наблюдение.
❤2😁2
Свежие результаты тестов GPT 5.2
50% успешность в задачах которые у обычного разработчика занимают 6 часов
80% в задачах на час
Формулировка изначально была неверной - это не сколько LLM работает автономно, а сколько такая же задача заняла бы у человека (спасибо Костя 😁)
График роста все больше становится вертикальным.
Ждем момента, когда LLM сможет в один присест делать проекты на месяцы, видимо не так уж долго осталось.
Почитать детальный отчет можно тут.
50% успешность в задачах которые у обычного разработчика занимают 6 часов
80% в задачах на час
Формулировка изначально была неверной - это не сколько LLM работает автономно, а сколько такая же задача заняла бы у человека (спасибо Костя 😁)
График роста все больше становится вертикальным.
Ждем момента, когда LLM сможет в один присест делать проекты на месяцы, видимо не так уж долго осталось.
Почитать детальный отчет можно тут.
👍2❤1
Как я аналитиков работы лишал (но оно и к лучшему)
На неделе я попал под поезд нового проекта, возвращаюсь на выходных. Короче, история.
Позвали меня тут писать статью о том как AI меняет выбор банковских продуктов, и что банкам с этим делать. В частности, хотели сравнить что и как рекомендует ChatGPT, что Google AI Overview, что обычный поиск. Тема огонь.
НО. Смотрю на методологию, а там Excel и аналитики руками вбивают промпт, копируют ответ, записывают результаты в табличку. Сколько аналитиков нашлось, такая и выборка, к стабильности подхода тоже вопросы.
И это не какой-то особый косяк, а просто норма. За пределами регулярных уважаемых проектов, исследования в консалтинге часто устроены так: либо дорого-долго (сам ищи бюджет, договаривайся с экспертными командами, месяц корректируй по вечерам), либо делаешь на коленке и силами знакомых аналитиков. Хорошее исследование = много человеко-часов. Плохое = принимаешь риск и едешь дальше.
Мой латентный датасаентист решил что так дальше дело не пойдет - и ребят жалко, и выборку мы так не соберем.
Сел и за пару вечеров с Claude собрал штуку которая всё это делает сама. Парсит все данные, сколько угодно прогонов (начали со 100), нормализация, пара десятков тестов, на выходе отчёт с графиками который можно сразу обсуждать с партнером. Не статья, но 80% работы.
Считать сколько на это потратила бы команда нет смысла - нисколько, никто не стал бы этого делать.
И несколько фактов из самого исследования:
ChatGPT и Google - разные вселенные. Совпадение рекомендаций ~30%. Если вы годами оптимизировали SEO - для ChatGPT это почти ноль.
Google органика на 85% - посредники (в штатах). NerdWallet, Bankrate, Forbes Advisor. Не банки. Вся affiliate-индустрия на этом живёт.
А вот тут парадокс. Google AI Overview читает контент посредников (80% источников - NerdWallet, CNBC, Bankrate), но рекомендует банки напрямую. Читает NerdWallet, говорит юзеру "иди в Citibank", юзер никогда не попадает на NerdWallet. Посредники кормят AI своим контентом и теряют трафик. Проблема и так была в гугле, но сейчас явно станет серьезнее.
И ещё: топ-1-2 рекомендации ChatGPT стабильные в 90% случаев, а дальше разброс. Гугл и посредники давали 5-10 стабильных опций. AI даёт 2-3 и конкретную рекомендацию. Не попал в этот топ - тебя не существует.
_______________
В общем, интересные времена для всех кто трафик привлекает. И для тех кто статьи пишет.
На неделе я попал под поезд нового проекта, возвращаюсь на выходных. Короче, история.
Позвали меня тут писать статью о том как AI меняет выбор банковских продуктов, и что банкам с этим делать. В частности, хотели сравнить что и как рекомендует ChatGPT, что Google AI Overview, что обычный поиск. Тема огонь.
НО. Смотрю на методологию, а там Excel и аналитики руками вбивают промпт, копируют ответ, записывают результаты в табличку. Сколько аналитиков нашлось, такая и выборка, к стабильности подхода тоже вопросы.
И это не какой-то особый косяк, а просто норма. За пределами регулярных уважаемых проектов, исследования в консалтинге часто устроены так: либо дорого-долго (сам ищи бюджет, договаривайся с экспертными командами, месяц корректируй по вечерам), либо делаешь на коленке и силами знакомых аналитиков. Хорошее исследование = много человеко-часов. Плохое = принимаешь риск и едешь дальше.
Мой латентный датасаентист решил что так дальше дело не пойдет - и ребят жалко, и выборку мы так не соберем.
Сел и за пару вечеров с Claude собрал штуку которая всё это делает сама. Парсит все данные, сколько угодно прогонов (начали со 100), нормализация, пара десятков тестов, на выходе отчёт с графиками который можно сразу обсуждать с партнером. Не статья, но 80% работы.
Считать сколько на это потратила бы команда нет смысла - нисколько, никто не стал бы этого делать.
И несколько фактов из самого исследования:
ChatGPT и Google - разные вселенные. Совпадение рекомендаций ~30%. Если вы годами оптимизировали SEO - для ChatGPT это почти ноль.
Google органика на 85% - посредники (в штатах). NerdWallet, Bankrate, Forbes Advisor. Не банки. Вся affiliate-индустрия на этом живёт.
А вот тут парадокс. Google AI Overview читает контент посредников (80% источников - NerdWallet, CNBC, Bankrate), но рекомендует банки напрямую. Читает NerdWallet, говорит юзеру "иди в Citibank", юзер никогда не попадает на NerdWallet. Посредники кормят AI своим контентом и теряют трафик. Проблема и так была в гугле, но сейчас явно станет серьезнее.
И ещё: топ-1-2 рекомендации ChatGPT стабильные в 90% случаев, а дальше разброс. Гугл и посредники давали 5-10 стабильных опций. AI даёт 2-3 и конкретную рекомендацию. Не попал в этот топ - тебя не существует.
_______________
В общем, интересные времена для всех кто трафик привлекает. И для тех кто статьи пишет.
❤3👍1
Немного про (не)уместный антропоморфизм
Забавная рефлексия по написанному выше.
(Надеюсь кому-то это сэкономит несколько часов жизни)
Когда только начинал, первая мысль была сделать цифрового аналитика. Пусть Claude ходит по сайтам, кликает, скриншотит, заполняет табличку. Как BA, только не устаёт, ничем другим не занят и еще может данных больше соберет.
Попробовал, пожалел. Дорого, медленно, ошибки постоянно. Сайты грузятся по-разному, попапы вылезают, кнопки переезжают. Полдня промучился придумывая идеальный промпт, сжег кучу токенов и пошел сдаваться.
В итоге как писал выше, переделал все с помощью все того же ИИ на API + код + тесты.
Но вот роль этого ИИ теперь изменилась.
Не "ИИ делает работу за меня", а "ИИ помогает спроектировать систему которая делает работу". С ним классно попробовать, оценить один прогон, обсудить что не так, поправить, снова протестировать. И так 5-6 попыток пока не стало стабильно - но дальше можно со спокойной душой запускать еще сотню и идти варить кофе.
Вопрос не "сколько AI в процессе", а где я себя любимого ставлю (Human in the loop). Вот на этой задачке узнал что ставить и себя, и ИИ надо не на том этапе который повторяется сто раз, а раньше. И выйдет гораздо надежнее, если ИИ напишет код для поисковых запросов чем если пойдет их делать сам.
И вот на этом моменте меня догнала мета ирония ситуации.
Всё исследование так-то про то, что LLM выдаёт разные рекомендации на один промпт, вся такая нестабильная и вариативная. И я одной половиной мозга вроде это понял, а другой пытаюсь эту же LLM заставить за меня 100 раз пойти в браузер и принести мне 100 раз одно и то же в стабильном формате.
Вывод: ИИ в чем-то и правда напоминает "цифрового человека", и именно поэтому не надо его использовать там, где нужна машина. ИИ прекрасен на этапе дизайна - писать код вместе, ловить ошибки, обсуждать результаты. Но вот точно выполнять одну и ту же предсказуемую операцию - вообще не туда, тут лучше старый добрый код. ИИ потом пусть лучше посмотрит и оценит что вышло.
В погоне за новыми инструментами не забывайте про уже имеющиеся.
Забавная рефлексия по написанному выше.
(Надеюсь кому-то это сэкономит несколько часов жизни)
Когда только начинал, первая мысль была сделать цифрового аналитика. Пусть Claude ходит по сайтам, кликает, скриншотит, заполняет табличку. Как BA, только не устаёт, ничем другим не занят и еще может данных больше соберет.
Попробовал, пожалел. Дорого, медленно, ошибки постоянно. Сайты грузятся по-разному, попапы вылезают, кнопки переезжают. Полдня промучился придумывая идеальный промпт, сжег кучу токенов и пошел сдаваться.
В итоге как писал выше, переделал все с помощью все того же ИИ на API + код + тесты.
Но вот роль этого ИИ теперь изменилась.
Не "ИИ делает работу за меня", а "ИИ помогает спроектировать систему которая делает работу". С ним классно попробовать, оценить один прогон, обсудить что не так, поправить, снова протестировать. И так 5-6 попыток пока не стало стабильно - но дальше можно со спокойной душой запускать еще сотню и идти варить кофе.
Вопрос не "сколько AI в процессе", а где я себя любимого ставлю (Human in the loop). Вот на этой задачке узнал что ставить и себя, и ИИ надо не на том этапе который повторяется сто раз, а раньше. И выйдет гораздо надежнее, если ИИ напишет код для поисковых запросов чем если пойдет их делать сам.
И вот на этом моменте меня догнала мета ирония ситуации.
Всё исследование так-то про то, что LLM выдаёт разные рекомендации на один промпт, вся такая нестабильная и вариативная. И я одной половиной мозга вроде это понял, а другой пытаюсь эту же LLM заставить за меня 100 раз пойти в браузер и принести мне 100 раз одно и то же в стабильном формате.
Вывод: ИИ в чем-то и правда напоминает "цифрового человека", и именно поэтому не надо его использовать там, где нужна машина. ИИ прекрасен на этапе дизайна - писать код вместе, ловить ошибки, обсуждать результаты. Но вот точно выполнять одну и ту же предсказуемую операцию - вообще не туда, тут лучше старый добрый код. ИИ потом пусть лучше посмотрит и оценит что вышло.
В погоне за новыми инструментами не забывайте про уже имеющиеся.
❤5👍1
LLM лучше справляются если повторить промпт дважды
Повторение точно одного и того же промпта дважды резко повышает качество работы LLM (в одном случае точность на задаче поиска по имени выросла с 21% до 97%) - без удлинения ответов, замедления реакции, дообучения (fine-tuning) или изощрённой prompt-инженерии.
Поскольку модели обрабатывают текст слева направо, дублирование входного текста даёт каждому токену второй шанс «увидеть» полный контекст, что приводит к измеримому улучшению результатов на 7 бенчмарках и 7 крупных моделях.
P.S. в общем работает так же как я, когда одним ухом слушал что мне жена говорила, а в конце на вопрос «ты все понял, сделаешь?» уверенно покивал. Тоже если потом заново повторить, результат лучше выходит.
Статья
Повторение точно одного и того же промпта дважды резко повышает качество работы LLM (в одном случае точность на задаче поиска по имени выросла с 21% до 97%) - без удлинения ответов, замедления реакции, дообучения (fine-tuning) или изощрённой prompt-инженерии.
Поскольку модели обрабатывают текст слева направо, дублирование входного текста даёт каждому токену второй шанс «увидеть» полный контекст, что приводит к измеримому улучшению результатов на 7 бенчмарках и 7 крупных моделях.
P.S. в общем работает так же как я, когда одним ухом слушал что мне жена говорила, а в конце на вопрос «ты все понял, сделаешь?» уверенно покивал. Тоже если потом заново повторить, результат лучше выходит.
Статья
😁5❤2🔥1
Max Field Notes
Свежие результаты тестов GPT 5.2 50% успешность в задачах которые у обычного разработчика занимают 6 часов 80% в задачах на час Формулировка изначально была неверной - это не сколько LLM работает автономно, а сколько такая же задача заняла бы у человека…
UPD 50% выросли до 14.5 часов
(«с 50% вероятностью справится с задачей которую живой разработчик решал бы 14.5»)
У исследователей начали заканчиваться задачи достаточной длины, поэтому в результатах уже начинают сомневаться.
Все пристегнуты я надеюсь, даже на заднем сидении.
(«с 50% вероятностью справится с задачей которую живой разработчик решал бы 14.5»)
У исследователей начали заканчиваться задачи достаточной длины, поэтому в результатах уже начинают сомневаться.
Все пристегнуты я надеюсь, даже на заднем сидении.
❤3
AI так повысил продуктивность что все стали больше работать
Никогда такого не было и вот опять. Все ждали что AI возьмёт себе часть работы, появится свободное время, будем меньше работать. Логично же. Ровно как это уже было с мобильными телефонами, имэйлом, оповещениями на часах.
HBR 8 месяцев посидели в tech-компании на 200 человек. Докладывают: работать стали больше.
Три причины:
(1) Стерлись границы между специальностями. AI снижает барьеры, и работа которая раньше не существовала, теперь существует. PM-ы начали писать код, инженеры рисовать UI, каждый теперь человек-оркестр. Раньше отдал бы или забил, а теперь делаешь сам, потому что можешь.
(2) Стерлись личные границы. Чатик это ведь не работа а так, языком почесать, ничего серьезного. Поэтому незаметно залезает в обед, в метро, в 11 вечера. Ты вроде не работаешь - просто "спросил у ChatGPT". А главное, вот если еще один вопрос задать, то случится магия и он тебе выдаст то что сам месяц пытался сделать.
(3) Мультитаскинг. Во имя продуктивности у всех постоянно несколько тредов параллельно, возвращаешься к задачам которые раньше бы похоронил. Ощущение что всё под контролем, а на деле голова начинает перегружаться и привет падение качества работы и выгорание.
Резонирует. С той же статьей про которую рассказывал выше - Раньше я бы не стал никакой код писать - отдал бы аналитикам или сделал на коленке. Теперь могу сам, а значит делаю. Результат крутой, но и времени ушло больше.
В общем, ко всеобщей неожиданности, закон Паркинсона и с AI отработал четко: он не освобождает время, а снижает барьеры и дает работе расширяться, заполняя всё что есть.
Продавали свободу, пока дали больше работы (но веселой, тут никаких претензий).
Берегите кукуху, моделей много а она у вас одна.
Никогда такого не было и вот опять. Все ждали что AI возьмёт себе часть работы, появится свободное время, будем меньше работать. Логично же. Ровно как это уже было с мобильными телефонами, имэйлом, оповещениями на часах.
HBR 8 месяцев посидели в tech-компании на 200 человек. Докладывают: работать стали больше.
Три причины:
(1) Стерлись границы между специальностями. AI снижает барьеры, и работа которая раньше не существовала, теперь существует. PM-ы начали писать код, инженеры рисовать UI, каждый теперь человек-оркестр. Раньше отдал бы или забил, а теперь делаешь сам, потому что можешь.
(2) Стерлись личные границы. Чатик это ведь не работа а так, языком почесать, ничего серьезного. Поэтому незаметно залезает в обед, в метро, в 11 вечера. Ты вроде не работаешь - просто "спросил у ChatGPT". А главное, вот если еще один вопрос задать, то случится магия и он тебе выдаст то что сам месяц пытался сделать.
(3) Мультитаскинг. Во имя продуктивности у всех постоянно несколько тредов параллельно, возвращаешься к задачам которые раньше бы похоронил. Ощущение что всё под контролем, а на деле голова начинает перегружаться и привет падение качества работы и выгорание.
Резонирует. С той же статьей про которую рассказывал выше - Раньше я бы не стал никакой код писать - отдал бы аналитикам или сделал на коленке. Теперь могу сам, а значит делаю. Результат крутой, но и времени ушло больше.
В общем, ко всеобщей неожиданности, закон Паркинсона и с AI отработал четко: он не освобождает время, а снижает барьеры и дает работе расширяться, заполняя всё что есть.
Продавали свободу, пока дали больше работы (но веселой, тут никаких претензий).
Берегите кукуху, моделей много а она у вас одна.
❤4