Тимур Хахалев про AI Coding
5.52K subscribers
40 photos
16 videos
146 links
Пишу про AI Coding, помогаю разработчикам освоить AI, внедряю AI в бизнес, провожу консультации.
Связь: @yatimur | Визитка: timurkhakhalev.t.me
Download Telegram
Почему Anthropic тормозит с релизами: стратегия-2025

Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.

🧩 Почему Anthropic медленно выкатывают обновления:

1. 🔒 Safety-first подход

- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI

Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.

2. 🏢 Enterprise в приоритете

- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов

В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.

3. 📐 Консерватизм в разработке

Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.

4. 🧪 Дефицит ресурсов

- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных

Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.

5. 🎯 Ставка на регуляторы и госконтракты

Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.



Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.

А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?
👍5🔥32
Хочу сделать рисерч-сравнение на Deep Research рынок тулов

Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?

Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?

Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇
👍32🔥2
В 📱 нашёл интересный промпт для модели Claude Sonnet 3.7 Thinking Max, которую недавно добавили в Cursor. Автор утверждает, что этот промпт работает и с обычной Sonnet 3.7, но с Max версией работает лучше.

Совет по промптингу, который сделает новый режим MAX в Cursor значительно эффективнее и надежнее:

Убедитесь, что функция мышления включена.

Начните с четкой формулировки вашей цели. Завершите ваш промпт следующим: "Но прежде чем начать, я хочу, чтобы ты полностью изучил и понял существующую кодовую базу. Пока не пиши код — просто глубоко пойми, что происходит сейчас."

Это гарантирует, что модель сначала полностью поймет контекст.

После того, как она закончит этап понимания, дайте ей следующий промпт: "Теперь потрать не менее 10 минут на глубокие размышления о том, как инженер мирового уровня подошел бы к решению этой задачи. Генерируй идеи, критикуй их, улучшай свое мышление, а затем предложи отличный окончательный план. Я одобрю его или попрошу внести изменения."

Когда вы будете удовлетворены предложенным планом, дайте указание: "Реализуй это идеально."

Почему это работает?

Модель Cursor 3.7 Sonnet по умолчанию выполняет рассуждения в начале взаимодействия, перед получением контекста. Предлагая ей сначала полностью понять контекст, а затем глубоко размышлять на следующем этапе, модель будет рассуждать на основе кодовой базы, что может дать значительно лучшие и более надежные результаты.​​​​​​​​​​​​​​​​


Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62😍2👎1
Anthropic рассказали про подход Chain Of Thought + Structured Output

Anthropic запустили новый хаб да, они очень любят блоги для программеров и первая статья — про подход SO + CoT, который многим уже знаком (особенно подписчикам канала Рината)

Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.

Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.
🔥5👍42
OpenAI обновили генератор изображений

Вот что он умеет. На второй картинке — запрос в Gemini, у которого тоже обновили генератор картинок неделю назад. Качество тоже кайф, но задачу понял по своему.

Люблю конкуренцию среди крупных игроков рынка
3🔥2
Тут после выхода Gemini 2.5 Pro обновился Fiction LiveBench

Этот тест показывает, насколько хорошо llm держит контекст и не забывает его. Все же знают, что даже если у llm контекстное окно в 128k tokens, то большая вероятность что на таком объёме llm может забыть информацию?

И вот перевод основных инсайтов от автора:

Ключевые выводы:
o1 и Claude Sonnet 3.7-thinking показывают сильные результаты. Они сохраняют высокую точность на протяжении значительного времени, однако для наших целей они всё ещё недостаточно точны для надёжного написания текстов в реальных условиях.
DeepSeek-r1 значительно превосходит o3-mini и является отличным вариантом для пользователей, чувствительных к цене. Версия без thinking резко теряет точность при увеличении длины контекста.
GPT-4.5-preview — лучшая модель без механизма рассуждений, опережающая конкурентов.
Google Gemini 2.5 Pro сейчас явно занимает лидирующую позицию (SOTA). Впервые появилась модель, потенциально пригодная для написания текстов с длинным контекстом. Есть интерес протестировать её с бо́льшими размерами контекста.
Gemma-3 показала слабые результаты в этом тесте.
Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Версия с механизмом рассуждений (thinking) использует 8000 токенов на рассуждения, чего должно быть достаточно, поскольку логика простая.
Jamba сразу показывает результаты ниже 50%, но дальнейшее снижение точности незначительно.
Qwen-max хорошо справляется на небольших окнах контекста, где имеются данные. qwq также показывает отличные результаты, превосходя R1.
🔥51👍1
Forwarded from Сиолошная
Наныли: o3 таки выпустят, и даже... o4-mini! (🥺 вот бы ещё o3 pro...)

К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»

А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2😍1
Навайбил FigJam плагин

Мне очень нравится FigJam для того чтобы описывать там свои заметки, схемы, планы, и т. д. Несколько раз я сталкивался с такой проблемой, что в FigJam сложно экспортировать текст из созданных блоков. Если просто выделить блоки и нажать Ctrl+C, то текст копируется сплошняком без переносов.
Я поискал плагины в интернете. Казалось бы, простейшая фича, которая должна быть по дефолту в приложении, но разработчики Figma её не завезли (экспортнуть можно только в виде картинок или pdf), а коммьюнити сделали плагины только под Figma, не под FigJam.

Ладно, придётся сделать самому..

Для начала, спросил Клод о том, насколько сложно написать свой плагин — на что он мне сразу выдал бойлерплейт код и кратко описал как и что нужно. Далее я пошёл в Cursor и начал с того, что расписал план работ:
- попросил Gemini 2.5 pro обдумать мою идею и сгенерить таски в md файлы
- взял Claude Sonnet 3.7 в роли исполнителя и нагенерил код
- UI открывается, но кнопки не работают. Теперь в течение получаса дебажил проблему с Gemini 2.5 pro и Claude Sonnet 3.7 на пару, порешали проблему
- В процессе генерации я узнал, что Figma может самостоятельно сгенерить темплейт проекта для плагина 😄 и ещё больше упростить мою жизнь
- Ок, воспользовался таким темплетом, переписали весь функционал в темплейт — всё чётко работает, ура!
- Нашлёпал скриншотов
- Сгенерил иконку с ChatGPT 4o
- Поковырялся с Figma и Photoshop чтобы красиво вырезать, вставить иконку и закрасить фон
- Заполнил форму для публикации и отправил

Теперь ждём 5-10 дней и смогу поделиться плагином!

Вот за что я люблю текущие AI инструменты!

Скриншот с UI приложу в комменты

UPD: опубликовали
🔥10👍53😍1
Исследование интересное только очкарикам 🤓

Я ношу очки вот уже около 18 лет, примерно с 10-12 лет, на данный момент у меня близорукость -4 – -4.8. На днях я планирую менять очки и прошёл диагностику зрения в оптике, мне выписали рецепт, и во время диагностики зашла речь о полной коррекции зрения очками или не полной.

Я вспомнил, что в моём детстве, когда мне подбирали очки (примерно в возрасте 15-17 лет), мне их выписывали с учётом того, что очки будут давать не полную коррекцию зрения (т. е. в очках я буду видеть не на 100% как здоровый человек, а, скажем, на 80%-90%). Якобы это объяснялось тем, что мои глаза должны как то сами тренироваться и скорость деградации зрения снизится или прекратится или даже зрение вернётся в норму.

Так вот, для меня было открытием узнать, что эта теория на данный момент не подтвердилась и сейчас большинство врачей стараются подбирать очки, которые дают 100% коррекцию зрения.

Мне стало интересно применить здесь OpenAI Deep Research и почитать мнение учёных на этот счёт.

Вот сам отчёт: https://teletype.in/@timur_khakhalev/iOFTScrMgQR

Вот оригинал рисёрча, если нужны ссылки на источники: https://chatgpt.com/share/67eef057-cd00-8009-b608-4500a22255b4

Я забыл что диприсерч надо попросить не повторять одну и ту же мысль несколько раз и пытался заставить его переписать отчёт без воды и повторений, но он ломал всю структуру и я забил на это, так что сорян за лишнюю воду в отчёте 🥸

Вот TLDR и основная мысль, текст сгенерил Claude по моему отчёту:

TLDR

Полная оптическая коррекция превосходит частичную по качеству зрения и комфорту. Недокоррекция не замедляет прогрессирование близорукости. Все ведущие офтальмологические организации рекомендуют полную коррекцию в большинстве случаев.

Основная мысль

Полная коррекция зрения обеспечивает оптимальную остроту, комфорт и предотвращает астенопию, в то время как недокоррекция не имеет доказанных преимуществ и может усугублять проблемы. Частичная коррекция оправдана только в ограниченных случаях (детская гиперметропия без косоглазия, период адаптации к сильным очкам).

Интересно будет обсудить это мнение с очкариками, так что велком в комменты 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Обновился Fiction LiveBench
(Этот бенчмарк показывает то, насколько хорошо модель держит контекст на разном количестве токенов)
📱 Ссылка

Основные выводы
o1 и Claude Sonnet 3.7-thinking демонстрируют хорошие результаты. Они сохраняют высокую точность в течение значительного времени, однако для наших целей их точность всё ещё недостаточна для надёжного использования в написании реальных текстов.
DeepSeek-r1 значительно превосходит o3-mini и является отличным выбором для пользователей, ориентированных на экономию бюджета. Версия без «рассуждений» резко теряет качество при увеличении длины контекста.
GPT-4.5-preview — лучшая модель без поддержки рассуждений, уверенно превосходит конкурентов.
Google Gemini 2.5 Pro теперь является однозначным лидером (SOTA). Это первый случай, когда большая языковая модель (LLM) может быть потенциально использована для работы с длинным контекстом. Сейчас интересно протестировать её на ещё более длинных контекстах.
Gemma-3 показывает слабые результаты на данном тесте.
Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Вариант «thinking» использует 8000 токенов на «рассуждения», чего должно быть достаточно для простой логики.
Jamba сразу же показывает результат ниже 50%, но дальнейшее снижение незначительно.
Qwen-max хороша в рамках небольших контекстов, для которых у нас есть данные. Версия qwq превосходна и лучше, чем R1.
Llama 4 разочаровывает. Maverick не превосходит уже ниже среднего уровня Llama 3.3 70b, а Scout показывает откровенно плохие результаты.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3
Классический роадмап с фичами убьёт твой AI-проект

Я прочитал статью Hamel Husain (я уже несколько раз писал посты по его материалам).

Статья про подход к разработке продуктов с использованием AI. И вот, чем я хотел бы поделиться:

Традиционные роадмапы с датами релиза фич не работают в AI.

Команды обещают "запустить анализ настроений к Q2" или "внедрить агентов поддержки до конца года", а потом обнаруживают, что технология просто не готова. Результат? Либо выпускают дерьмо, либо срывают сроки. В обоих случаях — потеря доверия.

Корень проблемы: классические роадмапы исходят из допущения, что мы знаем что возможно. В обычном софте так и есть. В AI, особенно на острие технологий, ты постоянно проверяешь границы возможного.

Почему AI-продукты требуют экспериментов, а не фич в роадмапе

Традиционные роадмапы с датами релиза фич катастрофически проваливаются в AI-проектах. Причина проста — они предполагают, что мы знаем что возможно, а с AI это часто не так.

Ключевые инсайты:
1. В AI ты постоянно проверяешь границы возможного, а не просто строишь заранее спроектированные фичи.

2. "Capability funnel" — альтернативный подход, который разбивает AI-производительность на уровни полезности от базовой функциональности до полного решения задачи пользователя.

3. Лучшие команды строят роадмапы вокруг экспериментов, а не фич. Они:
- Ограничивают время на исследование
- Устанавливают чёткие точки принятия решений
- Доказывают жизнеспособность перед полной реализацией

4. Инфраструктура для оценки — краеугольный камень. Пример GitHub Copilot: команда сначала построила систему, которая могла тестировать автодополнения кода против огромного корпуса репозиториев.

5. Коммуникация со стейкхолдерами:
Боссы хотят даты релизов, но с AI это бред. Не обещай фичи — обещай эксперименты с жёсткими дедлайнами и чёткими точками решений. Используй Capability funnel — это просто разбивка прогресса на стадии от "базовая функциональность" до "полностью решает задачу". Так руководство видит движение, даже когда финальное решение не готово.

6. Культура экспериментирования включает открытое обсуждение провалов:
- "fifteen-five" — еженедельные обновления (15 минут на написание, 5 на чтение)
- Регулярные сессии обмена опытом без подготовки
- Нормализация неудач как части обучения

Ключевой метрикой для AI роадмапов должно быть количество проведенных экспериментов, а не выпущенных фич. Побеждают команды, которые быстрее экспериментируют, учатся и итерируют.

---

Я согласен с Hamel – при разработке с использованием cutting edge technologies важно установить правильные ожидания и понимать, что нужно много рисерчить и экспериментировать, в моём опыте такое тоже бывает, когда ты ожидаешь, что задачу с парсингом pdf на 500 страниц решить - пара дней, а выливается это в итоге в несколько недель рабочих часов и нарушенные обещания для клиента.

Но когда принимаешь, что тебе приходится проводить эксперименты, то дело идёт в гору.

Далее, в комментах добавлю основные инсайты из статьи, особенно мне понравилась идея про синтетические данные в качестве input в ваших продуктах, которая, казалось бы, довольно очевидна, но не все ею пользуются
9🔥6🥱1😍1
Годноту раздают здесь:

https://t.me/nobilix/50

Тут в том числе есть промик на Upstash – это очень классное serverless решение для пользования Redis (и еще несколько сервисов у них есть, пока не пользовался).

В каждом своем проекте с LLM я использую Redis (как раз у Upstash) для сохранения запросов к LLM в кэш, это очень полезно при разработке – экономит и время и деньги на при отклаживании промптов и системы в целом
😍5🔥3👍2
Cursor дает год бесплатной подписки для студентов

https://www.cursor.com/students

Нужна только почта на *.edu домене

Если у вас уже была оплачена годовая подписка, то сделают рефанд
🔥92😱2
OpenAI ультанули и выпустили огромный гайд по выбору правильной модели под самые распространённые кейсы

На скриншоте TL;DR по выбору моделей для Long-Context RAG for Legal Q&A

https://cookbook.openai.com/examples/partners/model_selection_guide/model_selection_guide
🔥144😍2🆒1
Новая раздача халявы

Я забрал $100 к browser-use, кайф. Этот промокод нужно указывать при пополнении баланса в страйпе (нужно указать сумму $100, страйп кинет ошибку, перезагрузить страницу и ок)

https://t.me/nobilix/73
7🔥3