Почему Anthropic тормозит с релизами: стратегия-2025
Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.
🧩 Почему Anthropic медленно выкатывают обновления:
1. 🔒 Safety-first подход
- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI
Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.
2. 🏢 Enterprise в приоритете
- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов
В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.
3. 📐 Консерватизм в разработке
Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.
4. 🧪 Дефицит ресурсов
- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных
Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.
5. 🎯 Ставка на регуляторы и госконтракты
Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.
⸻
Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.
А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?
Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.
🧩 Почему Anthropic медленно выкатывают обновления:
1. 🔒 Safety-first подход
- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI
Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.
2. 🏢 Enterprise в приоритете
- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов
В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.
3. 📐 Консерватизм в разработке
Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.
4. 🧪 Дефицит ресурсов
- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных
Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.
5. 🎯 Ставка на регуляторы и госконтракты
Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.
⸻
Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.
А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?
👍5🔥3❤2
Хочу сделать рисерч-сравнение на Deep Research рынок тулов
Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?
Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?
Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇
Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?
Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?
Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇
👍3❤2🔥2
В 📱 нашёл интересный промпт для модели Claude Sonnet 3.7 Thinking Max, которую недавно добавили в Cursor. Автор утверждает, что этот промпт работает и с обычной Sonnet 3.7, но с Max версией работает лучше.
Источник
Совет по промптингу, который сделает новый режим MAX в Cursor значительно эффективнее и надежнее:
Убедитесь, что функция мышления включена.
Начните с четкой формулировки вашей цели. Завершите ваш промпт следующим: "Но прежде чем начать, я хочу, чтобы ты полностью изучил и понял существующую кодовую базу. Пока не пиши код — просто глубоко пойми, что происходит сейчас."
Это гарантирует, что модель сначала полностью поймет контекст.
После того, как она закончит этап понимания, дайте ей следующий промпт: "Теперь потрать не менее 10 минут на глубокие размышления о том, как инженер мирового уровня подошел бы к решению этой задачи. Генерируй идеи, критикуй их, улучшай свое мышление, а затем предложи отличный окончательный план. Я одобрю его или попрошу внести изменения."
Когда вы будете удовлетворены предложенным планом, дайте указание: "Реализуй это идеально."
Почему это работает?
Модель Cursor 3.7 Sonnet по умолчанию выполняет рассуждения в начале взаимодействия, перед получением контекста. Предлагая ей сначала полностью понять контекст, а затем глубоко размышлять на следующем этапе, модель будет рассуждать на основе кодовой базы, что может дать значительно лучшие и более надежные результаты.
Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2😍2👎1
Интеграция Claude с Ableton через MCP
Ну это ваще прям, огонь.
Дело моргенштерна растёт 📈, теперь можно сделать трек за 1 минуту
https://fixupx.com/sidahuj/status/1902719460278198658?s=46
Ну это ваще прям, огонь.
Дело моргенштерна растёт 📈, теперь можно сделать трек за 1 минуту
https://fixupx.com/sidahuj/status/1902719460278198658?s=46
🧵 Thread • FixupX
siddharth ahuja (@sidahuj)
🎵💿Built an MCP that lets Claude talk directly to Ableton. Now you can create music with just prompts!
Here’s a demo of me creating a lush, 80s synthwave track in just two prompts. It picks the right instruments, creates melodies, and adds effects like reverb…
Here’s a demo of me creating a lush, 80s synthwave track in just two prompts. It picks the right instruments, creates melodies, and adds effects like reverb…
🔥5😍1
Anthropic рассказали про подход Chain Of Thought + Structured Output
Anthropic запустили новый хабда, они очень любят блоги для программеров и первая статья — про подход SO + CoT, который многим уже знаком (особенно подписчикам канала Рината)
Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.
Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.
Anthropic запустили новый хаб
Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.
Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.
Anthropic
The "think" tool: Enabling Claude to stop and think
A blog post for developers, describing a new method for complex tool-use situations
🔥5👍4❤2
OpenAI обновили генератор изображений
Вот что он умеет. На второй картинке — запрос в Gemini, у которого тоже обновили генератор картинок неделю назад. Качество тоже кайф, но задачу понял по своему.
Люблю конкуренцию среди крупных игроков рынка
Вот что он умеет. На второй картинке — запрос в Gemini, у которого тоже обновили генератор картинок неделю назад. Качество тоже кайф, но задачу понял по своему.
Люблю конкуренцию среди крупных игроков рынка
❤3🔥2
Тут после выхода Gemini 2.5 Pro обновился Fiction LiveBench
Этот тест показывает, насколько хорошо llm держит контекст и не забывает его. Все же знают, что даже если у llm контекстное окно в 128k tokens, то большая вероятность что на таком объёме llm может забыть информацию?
И вот перевод основных инсайтов от автора:
Ключевые выводы:
• o1 и Claude Sonnet 3.7-thinking показывают сильные результаты. Они сохраняют высокую точность на протяжении значительного времени, однако для наших целей они всё ещё недостаточно точны для надёжного написания текстов в реальных условиях.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным вариантом для пользователей, чувствительных к цене. Версия без thinking резко теряет точность при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без механизма рассуждений, опережающая конкурентов.
• Google Gemini 2.5 Pro сейчас явно занимает лидирующую позицию (SOTA). Впервые появилась модель, потенциально пригодная для написания текстов с длинным контекстом. Есть интерес протестировать её с бо́льшими размерами контекста.
• Gemma-3 показала слабые результаты в этом тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Версия с механизмом рассуждений (thinking) использует 8000 токенов на рассуждения, чего должно быть достаточно, поскольку логика простая.
• Jamba сразу показывает результаты ниже 50%, но дальнейшее снижение точности незначительно.
• Qwen-max хорошо справляется на небольших окнах контекста, где имеются данные. qwq также показывает отличные результаты, превосходя R1.
Этот тест показывает, насколько хорошо llm держит контекст и не забывает его. Все же знают, что даже если у llm контекстное окно в 128k tokens, то большая вероятность что на таком объёме llm может забыть информацию?
И вот перевод основных инсайтов от автора:
Ключевые выводы:
• o1 и Claude Sonnet 3.7-thinking показывают сильные результаты. Они сохраняют высокую точность на протяжении значительного времени, однако для наших целей они всё ещё недостаточно точны для надёжного написания текстов в реальных условиях.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным вариантом для пользователей, чувствительных к цене. Версия без thinking резко теряет точность при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без механизма рассуждений, опережающая конкурентов.
• Google Gemini 2.5 Pro сейчас явно занимает лидирующую позицию (SOTA). Впервые появилась модель, потенциально пригодная для написания текстов с длинным контекстом. Есть интерес протестировать её с бо́льшими размерами контекста.
• Gemma-3 показала слабые результаты в этом тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Версия с механизмом рассуждений (thinking) использует 8000 токенов на рассуждения, чего должно быть достаточно, поскольку логика простая.
• Jamba сразу показывает результаты ниже 50%, но дальнейшее снижение точности незначительно.
• Qwen-max хорошо справляется на небольших окнах контекста, где имеются данные. qwq также показывает отличные результаты, превосходя R1.
🔥5❤1👍1
Forwarded from Сиолошная
Наныли: o3 таки выпустят, и даже... o4-mini! (🥺 вот бы ещё o3 pro...)
К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»
А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?
К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»
А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2😍1
Навайбил FigJam плагин
Мне очень нравится FigJam для того чтобы описывать там свои заметки, схемы, планы, и т. д. Несколько раз я сталкивался с такой проблемой, что в FigJam сложно экспортировать текст из созданных блоков. Если просто выделить блоки и нажать Ctrl+C, то текст копируется сплошняком без переносов.
Я поискал плагины в интернете. Казалось бы, простейшая фича, которая должна быть по дефолту в приложении, но разработчики Figma её не завезли (экспортнуть можно только в виде картинок или pdf), а коммьюнити сделали плагины только под Figma, не под FigJam.
Ладно, придётся сделать самому..
Для начала, спросил Клод о том, насколько сложно написать свой плагин — на что он мне сразу выдал бойлерплейт код и кратко описал как и что нужно. Далее я пошёл в Cursor и начал с того, что расписал план работ:
- попросил Gemini 2.5 pro обдумать мою идею и сгенерить таски в md файлы
- взял Claude Sonnet 3.7 в роли исполнителя и нагенерил код
- UI открывается, но кнопки не работают. Теперь в течение получаса дебажил проблему с Gemini 2.5 pro и Claude Sonnet 3.7 на пару, порешали проблему
- В процессе генерации я узнал, что Figma может самостоятельно сгенерить темплейт проекта для плагина 😄 и ещё больше упростить мою жизнь
- Ок, воспользовался таким темплетом, переписали весь функционал в темплейт — всё чётко работает, ура!
- Нашлёпал скриншотов
- Сгенерил иконку с ChatGPT 4o
- Поковырялся с Figma и Photoshop чтобы красиво вырезать, вставить иконку и закрасить фон
- Заполнил форму для публикации и отправил
Теперь ждём 5-10 дней и смогу поделиться плагином!
Вот за что я люблю текущие AI инструменты!
Скриншот с UI приложу в комменты
UPD: опубликовали
Мне очень нравится FigJam для того чтобы описывать там свои заметки, схемы, планы, и т. д. Несколько раз я сталкивался с такой проблемой, что в FigJam сложно экспортировать текст из созданных блоков. Если просто выделить блоки и нажать Ctrl+C, то текст копируется сплошняком без переносов.
Я поискал плагины в интернете. Казалось бы, простейшая фича, которая должна быть по дефолту в приложении, но разработчики Figma её не завезли (экспортнуть можно только в виде картинок или pdf), а коммьюнити сделали плагины только под Figma, не под FigJam.
Ладно, придётся сделать самому..
Для начала, спросил Клод о том, насколько сложно написать свой плагин — на что он мне сразу выдал бойлерплейт код и кратко описал как и что нужно. Далее я пошёл в Cursor и начал с того, что расписал план работ:
- попросил Gemini 2.5 pro обдумать мою идею и сгенерить таски в md файлы
- взял Claude Sonnet 3.7 в роли исполнителя и нагенерил код
- UI открывается, но кнопки не работают. Теперь в течение получаса дебажил проблему с Gemini 2.5 pro и Claude Sonnet 3.7 на пару, порешали проблему
- В процессе генерации я узнал, что Figma может самостоятельно сгенерить темплейт проекта для плагина 😄 и ещё больше упростить мою жизнь
- Ок, воспользовался таким темплетом, переписали весь функционал в темплейт — всё чётко работает, ура!
- Нашлёпал скриншотов
- Сгенерил иконку с ChatGPT 4o
- Поковырялся с Figma и Photoshop чтобы красиво вырезать, вставить иконку и закрасить фон
- Заполнил форму для публикации и отправил
Теперь ждём 5-10 дней и смогу поделиться плагином!
Вот за что я люблю текущие AI инструменты!
Скриншот с UI приложу в комменты
UPD: опубликовали
🔥10👍5❤3😍1
Исследование интересное только очкарикам 🤓
Я ношу очки вот уже около 18 лет, примерно с 10-12 лет, на данный момент у меня близорукость -4 – -4.8. На днях я планирую менять очки и прошёл диагностику зрения в оптике, мне выписали рецепт, и во время диагностики зашла речь о полной коррекции зрения очками или не полной.
Я вспомнил, что в моём детстве, когда мне подбирали очки (примерно в возрасте 15-17 лет), мне их выписывали с учётом того, что очки будут давать не полную коррекцию зрения (т. е. в очках я буду видеть не на 100% как здоровый человек, а, скажем, на 80%-90%). Якобы это объяснялось тем, что мои глаза должны как то сами тренироваться и скорость деградации зрения снизится или прекратится или даже зрение вернётся в норму.
Так вот, для меня было открытием узнать, что эта теория на данный момент не подтвердилась и сейчас большинство врачей стараются подбирать очки, которые дают 100% коррекцию зрения.
Мне стало интересно применить здесь OpenAI Deep Research и почитать мнение учёных на этот счёт.
Вот сам отчёт: https://teletype.in/@timur_khakhalev/iOFTScrMgQR
Вот оригинал рисёрча, если нужны ссылки на источники: https://chatgpt.com/share/67eef057-cd00-8009-b608-4500a22255b4
Я забыл что диприсерч надо попросить не повторять одну и ту же мысль несколько раз и пытался заставить его переписать отчёт без воды и повторений, но он ломал всю структуру и я забил на это, так что сорян за лишнюю воду в отчёте 🥸
Вот TLDR и основная мысль, текст сгенерил Claude по моему отчёту:
TLDR
Полная оптическая коррекция превосходит частичную по качеству зрения и комфорту. Недокоррекция не замедляет прогрессирование близорукости. Все ведущие офтальмологические организации рекомендуют полную коррекцию в большинстве случаев.
Основная мысль
Полная коррекция зрения обеспечивает оптимальную остроту, комфорт и предотвращает астенопию, в то время как недокоррекция не имеет доказанных преимуществ и может усугублять проблемы. Частичная коррекция оправдана только в ограниченных случаях (детская гиперметропия без косоглазия, период адаптации к сильным очкам).
Интересно будет обсудить это мнение с очкариками, так что велком в комменты 😊
Я ношу очки вот уже около 18 лет, примерно с 10-12 лет, на данный момент у меня близорукость -4 – -4.8. На днях я планирую менять очки и прошёл диагностику зрения в оптике, мне выписали рецепт, и во время диагностики зашла речь о полной коррекции зрения очками или не полной.
Я вспомнил, что в моём детстве, когда мне подбирали очки (примерно в возрасте 15-17 лет), мне их выписывали с учётом того, что очки будут давать не полную коррекцию зрения (т. е. в очках я буду видеть не на 100% как здоровый человек, а, скажем, на 80%-90%). Якобы это объяснялось тем, что мои глаза должны как то сами тренироваться и скорость деградации зрения снизится или прекратится или даже зрение вернётся в норму.
Так вот, для меня было открытием узнать, что эта теория на данный момент не подтвердилась и сейчас большинство врачей стараются подбирать очки, которые дают 100% коррекцию зрения.
Мне стало интересно применить здесь OpenAI Deep Research и почитать мнение учёных на этот счёт.
Вот сам отчёт: https://teletype.in/@timur_khakhalev/iOFTScrMgQR
Вот оригинал рисёрча, если нужны ссылки на источники: https://chatgpt.com/share/67eef057-cd00-8009-b608-4500a22255b4
Вот TLDR и основная мысль, текст сгенерил Claude по моему отчёту:
TLDR
Полная оптическая коррекция превосходит частичную по качеству зрения и комфорту. Недокоррекция не замедляет прогрессирование близорукости. Все ведущие офтальмологические организации рекомендуют полную коррекцию в большинстве случаев.
Основная мысль
Полная коррекция зрения обеспечивает оптимальную остроту, комфорт и предотвращает астенопию, в то время как недокоррекция не имеет доказанных преимуществ и может усугублять проблемы. Частичная коррекция оправдана только в ограниченных случаях (детская гиперметропия без косоглазия, период адаптации к сильным очкам).
Интересно будет обсудить это мнение с очкариками, так что велком в комменты 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Сравнение полной и частичной оптической коррекции зрения: систематический обзор
Сравнение полной и частичной оптической коррекции зрения: систематический обзор
❤6
Обновился Fiction LiveBench
(Этот бенчмарк показывает то, насколько хорошо модель держит контекст на разном количестве токенов)
📱 Ссылка
Основные выводы
• o1 и Claude Sonnet 3.7-thinking демонстрируют хорошие результаты. Они сохраняют высокую точность в течение значительного времени, однако для наших целей их точность всё ещё недостаточна для надёжного использования в написании реальных текстов.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным выбором для пользователей, ориентированных на экономию бюджета. Версия без «рассуждений» резко теряет качество при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без поддержки рассуждений, уверенно превосходит конкурентов.
• Google Gemini 2.5 Pro теперь является однозначным лидером (SOTA). Это первый случай, когда большая языковая модель (LLM) может быть потенциально использована для работы с длинным контекстом. Сейчас интересно протестировать её на ещё более длинных контекстах.
• Gemma-3 показывает слабые результаты на данном тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Вариант «thinking» использует 8000 токенов на «рассуждения», чего должно быть достаточно для простой логики.
• Jamba сразу же показывает результат ниже 50%, но дальнейшее снижение незначительно.
• Qwen-max хороша в рамках небольших контекстов, для которых у нас есть данные. Версия qwq превосходна и лучше, чем R1.
• Llama 4 разочаровывает. Maverick не превосходит уже ниже среднего уровня Llama 3.3 70b, а Scout показывает откровенно плохие результаты.
(Этот бенчмарк показывает то, насколько хорошо модель держит контекст на разном количестве токенов)
Основные выводы
• o1 и Claude Sonnet 3.7-thinking демонстрируют хорошие результаты. Они сохраняют высокую точность в течение значительного времени, однако для наших целей их точность всё ещё недостаточна для надёжного использования в написании реальных текстов.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным выбором для пользователей, ориентированных на экономию бюджета. Версия без «рассуждений» резко теряет качество при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без поддержки рассуждений, уверенно превосходит конкурентов.
• Google Gemini 2.5 Pro теперь является однозначным лидером (SOTA). Это первый случай, когда большая языковая модель (LLM) может быть потенциально использована для работы с длинным контекстом. Сейчас интересно протестировать её на ещё более длинных контекстах.
• Gemma-3 показывает слабые результаты на данном тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Вариант «thinking» использует 8000 токенов на «рассуждения», чего должно быть достаточно для простой логики.
• Jamba сразу же показывает результат ниже 50%, но дальнейшее снижение незначительно.
• Qwen-max хороша в рамках небольших контекстов, для которых у нас есть данные. Версия qwq превосходна и лучше, чем R1.
• Llama 4 разочаровывает. Maverick не превосходит уже ниже среднего уровня Llama 3.3 70b, а Scout показывает откровенно плохие результаты.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3
Тимур Хахалев про AI Coding
Навайбил FigJam плагин Мне очень нравится FigJam для того чтобы описывать там свои заметки, схемы, планы, и т. д. Несколько раз я сталкивался с такой проблемой, что в FigJam сложно экспортировать текст из созданных блоков. Если просто выделить блоки и нажать…
Мой плагин для FigJam опубликовали
https://www.figma.com/community/plugin/1490654577588079169/figjam-text-export
Кому нужно – пользуйтесь 🙂
Баг репорты можно слать в комменты
https://www.figma.com/community/plugin/1490654577588079169/figjam-text-export
Кому нужно – пользуйтесь 🙂
Баг репорты можно слать в комменты
🔥3❤1
Классический роадмап с фичами убьёт твой AI-проект
Я прочитал статью Hamel Husain (я уже несколько раз писал посты по его материалам).
Статья про подход к разработке продуктов с использованием AI. И вот, чем я хотел бы поделиться:
Традиционные роадмапы с датами релиза фич не работают в AI.
Команды обещают "запустить анализ настроений к Q2" или "внедрить агентов поддержки до конца года", а потом обнаруживают, что технология просто не готова. Результат? Либо выпускают дерьмо, либо срывают сроки. В обоих случаях — потеря доверия.
Корень проблемы: классические роадмапы исходят из допущения, что мы знаем что возможно. В обычном софте так и есть. В AI, особенно на острие технологий, ты постоянно проверяешь границы возможного.
Почему AI-продукты требуют экспериментов, а не фич в роадмапе
Традиционные роадмапы с датами релиза фич катастрофически проваливаются в AI-проектах. Причина проста — они предполагают, что мы знаем что возможно, а с AI это часто не так.
Ключевые инсайты:
1. В AI ты постоянно проверяешь границы возможного, а не просто строишь заранее спроектированные фичи.
2. "Capability funnel" — альтернативный подход, который разбивает AI-производительность на уровни полезности от базовой функциональности до полного решения задачи пользователя.
3. Лучшие команды строят роадмапы вокруг экспериментов, а не фич. Они:
- Ограничивают время на исследование
- Устанавливают чёткие точки принятия решений
- Доказывают жизнеспособность перед полной реализацией
4. Инфраструктура для оценки — краеугольный камень. Пример GitHub Copilot: команда сначала построила систему, которая могла тестировать автодополнения кода против огромного корпуса репозиториев.
5. Коммуникация со стейкхолдерами:
Боссы хотят даты релизов, но с AI это бред. Не обещай фичи — обещай эксперименты с жёсткими дедлайнами и чёткими точками решений. Используй Capability funnel — это просто разбивка прогресса на стадии от "базовая функциональность" до "полностью решает задачу". Так руководство видит движение, даже когда финальное решение не готово.
6. Культура экспериментирования включает открытое обсуждение провалов:
- "fifteen-five" — еженедельные обновления (15 минут на написание, 5 на чтение)
- Регулярные сессии обмена опытом без подготовки
- Нормализация неудач как части обучения
Ключевой метрикой для AI роадмапов должно быть количество проведенных экспериментов, а не выпущенных фич. Побеждают команды, которые быстрее экспериментируют, учатся и итерируют.
---
Я согласен с Hamel – при разработке с использованием cutting edge technologies важно установить правильные ожидания и понимать, что нужно много рисерчить и экспериментировать, в моём опыте такое тоже бывает, когда ты ожидаешь, что задачу с парсингом pdf на 500 страниц решить - пара дней, а выливается это в итоге в несколько недель рабочих часов и нарушенные обещания для клиента.
Но когда принимаешь, что тебе приходится проводить эксперименты, то дело идёт в гору.
Далее, в комментах добавлю основные инсайты из статьи, особенно мне понравилась идея про синтетические данные в качестве input в ваших продуктах, которая, казалось бы, довольно очевидна, но не все ею пользуются
Я прочитал статью Hamel Husain (я уже несколько раз писал посты по его материалам).
Статья про подход к разработке продуктов с использованием AI. И вот, чем я хотел бы поделиться:
Традиционные роадмапы с датами релиза фич не работают в AI.
Команды обещают "запустить анализ настроений к Q2" или "внедрить агентов поддержки до конца года", а потом обнаруживают, что технология просто не готова. Результат? Либо выпускают дерьмо, либо срывают сроки. В обоих случаях — потеря доверия.
Корень проблемы: классические роадмапы исходят из допущения, что мы знаем что возможно. В обычном софте так и есть. В AI, особенно на острие технологий, ты постоянно проверяешь границы возможного.
Почему AI-продукты требуют экспериментов, а не фич в роадмапе
Традиционные роадмапы с датами релиза фич катастрофически проваливаются в AI-проектах. Причина проста — они предполагают, что мы знаем что возможно, а с AI это часто не так.
Ключевые инсайты:
1. В AI ты постоянно проверяешь границы возможного, а не просто строишь заранее спроектированные фичи.
2. "Capability funnel" — альтернативный подход, который разбивает AI-производительность на уровни полезности от базовой функциональности до полного решения задачи пользователя.
3. Лучшие команды строят роадмапы вокруг экспериментов, а не фич. Они:
- Ограничивают время на исследование
- Устанавливают чёткие точки принятия решений
- Доказывают жизнеспособность перед полной реализацией
4. Инфраструктура для оценки — краеугольный камень. Пример GitHub Copilot: команда сначала построила систему, которая могла тестировать автодополнения кода против огромного корпуса репозиториев.
5. Коммуникация со стейкхолдерами:
Боссы хотят даты релизов, но с AI это бред. Не обещай фичи — обещай эксперименты с жёсткими дедлайнами и чёткими точками решений. Используй Capability funnel — это просто разбивка прогресса на стадии от "базовая функциональность" до "полностью решает задачу". Так руководство видит движение, даже когда финальное решение не готово.
6. Культура экспериментирования включает открытое обсуждение провалов:
- "fifteen-five" — еженедельные обновления (15 минут на написание, 5 на чтение)
- Регулярные сессии обмена опытом без подготовки
- Нормализация неудач как части обучения
Ключевой метрикой для AI роадмапов должно быть количество проведенных экспериментов, а не выпущенных фич. Побеждают команды, которые быстрее экспериментируют, учатся и итерируют.
---
Я согласен с Hamel – при разработке с использованием cutting edge technologies важно установить правильные ожидания и понимать, что нужно много рисерчить и экспериментировать, в моём опыте такое тоже бывает, когда ты ожидаешь, что задачу с парсингом pdf на 500 страниц решить - пара дней, а выливается это в итоге в несколько недель рабочих часов и нарушенные обещания для клиента.
Но когда принимаешь, что тебе приходится проводить эксперименты, то дело идёт в гору.
Далее, в комментах добавлю основные инсайты из статьи, особенно мне понравилась идея про синтетические данные в качестве input в ваших продуктах, которая, казалось бы, довольно очевидна, но не все ею пользуются
❤9🔥6🥱1😍1
Годноту раздают здесь:
https://t.me/nobilix/50
Тут в том числе есть промик на Upstash – это очень классное serverless решение для пользования Redis (и еще несколько сервисов у них есть, пока не пользовался).
В каждом своем проекте с LLM я использую Redis (как раз у Upstash) для сохранения запросов к LLM в кэш, это очень полезно при разработке – экономит и время и деньги на при отклаживании промптов и системы в целом
https://t.me/nobilix/50
Тут в том числе есть промик на Upstash – это очень классное serverless решение для пользования Redis (и еще несколько сервисов у них есть, пока не пользовался).
В каждом своем проекте с LLM я использую Redis (как раз у Upstash) для сохранения запросов к LLM в кэш, это очень полезно при разработке – экономит и время и деньги на при отклаживании промптов и системы в целом
Telegram
Refat Talks: Tech & AI
Сегодня наткнулся на aiengineerpack.com - сборник бесплатных ништяков для девелоперов и энтузиастов, которые возятся с AI. Там можно получить кучу бесплатных крЕдитов и скидок для популярных AI-сервисов одним кликом. Просто логинишься через GitHub и все (почти…
😍5🔥3👍2
Хорошая идея использования AI Chatbot как площадки для поиска И проверки идей для продукта: https://t.me/llm_under_hood/561
Telegram
LLM под капотом
Наш чатбот популярен, но как жить дальше?
Кейс. В одной компании сделали внутреннего чат-бота для крупной организации, он стал популярным, им пользуются каждый день тысячи людей.
Но появился один нюанс - пользователи просят добавлять все больше фич, а…
Кейс. В одной компании сделали внутреннего чат-бота для крупной организации, он стал популярным, им пользуются каждый день тысячи людей.
Но появился один нюанс - пользователи просят добавлять все больше фич, а…
🔥3😍1
Cursor дает год бесплатной подписки для студентов
https://www.cursor.com/students
Нужна только почта на *.edu домене
Если у вас уже была оплачена годовая подписка, то сделают рефанд
https://www.cursor.com/students
Нужна только почта на *.edu домене
Если у вас уже была оплачена годовая подписка, то сделают рефанд
Cursor
Students
Empowering the next generation of developers. Get Cursor Pro at a discounted rate with our student program.
🔥9❤2😱2
OpenAI ультанули и выпустили огромный гайд по выбору правильной модели под самые распространённые кейсы
На скриншоте TL;DR по выбору моделей для Long-Context RAG for Legal Q&A
https://cookbook.openai.com/examples/partners/model_selection_guide/model_selection_guide
На скриншоте TL;DR по выбору моделей для Long-Context RAG for Legal Q&A
https://cookbook.openai.com/examples/partners/model_selection_guide/model_selection_guide
🔥14❤4😍2🆒1
Новая раздача халявы
Я забрал $100 к browser-use, кайф. Этот промокод нужно указывать при пополнении баланса в страйпе (нужно указать сумму $100, страйп кинет ошибку, перезагрузить страницу и ок)
https://t.me/nobilix/73
Я забрал $100 к browser-use, кайф. Этот промокод нужно указывать при пополнении баланса в страйпе (нужно указать сумму $100, страйп кинет ошибку, перезагрузить страницу и ок)
https://t.me/nobilix/73
Telegram
Refat Talks: Tech & AI
О, вышел Volume 4 на aiengineerpack.com, так что берите, пока еще все не разобрали.
Напомню, это сайт, где AI-разработчикам и энтузиастам дают бесплатно или с хорошими скидками разные полезности.
Что там есть классного в новом вольюме:
- BrowserUse — чтобы…
Напомню, это сайт, где AI-разработчикам и энтузиастам дают бесплатно или с хорошими скидками разные полезности.
Что там есть классного в новом вольюме:
- BrowserUse — чтобы…
❤7🔥3