Please open Telegram to view this post
VIEW IN TELEGRAM
🫡43💯7💅4❤2🦄2😎2
Дизайнер Лилло и Stitch, или как навести мосты между разработкой и UI.
В двух словах. Google Stitch (тот самый вайб-дизайн) придумал новый стандарт DESIGN.md. Представлен открытый GitHub-репозиторий с готовыми примерами, чтобы начать пользоваться этим стандартом без лишних усилий и побыстрее.🤙
🧐 Что такое Google Stitch DESIGN.md?
DESIGN.md — это единый Markdown-файл, который содержит всю информацию о визуальном языке проекта: цвета, типографику, отступы, правила оформления компонентов и даже примеры того, что можно и чего нельзя делать.
Раньше передать дизайн от дизайнера к разработчику или объяснить AI ваши визуальные предпочтения было непросто. Теперь вы просто кладёте файл DESIGN.md в корень проекта, и любой AI-агент (Google Stitch, Claude Code, Cursor, Gemini и другие) сможет прочитать его и создавать интерфейсы, строго следующие заданным правилам.
🚀 Чем полезен для Google Stitch DESIGN.md?
· Единый источник обмена: Файл становится главным документом, который одновременно понимают и дизайнеры, и разработчики, и AI.
· AI-нативный формат: AI отлично понимает Markdown, поэтому ему не нужно разбирать сложные JSON-схемы или экспорты из Figma.
· Мгновенное применение: Вы просто копируете файл в проект и указываете AI его использовать. Ваш любимый редактор сразу начнёт генерировать UI в нужной стилистике.
🛠️ Чем полезен Awesome DESIGN.md от VoltAgent?
Этот репозиторий – готовая библиотека таких файлов, собранная с реально существующих сайтов. Он позволяет вам не создавать дизайн-систему с нуля, а взять за основу уже проверенные решения от ведущих IT-компаний.
· Повышение качества MVP. Вы можете скопировать стиль проверенного продукта (например, Stripe или Linear) и быть уверенными, что ваш прототип будет выглядеть профессионально.
· Обучение на примерах. Изучая эти файлы, вы можете понять, как устроены визуальные языки лучших продуктов, и создать свой на основе этих знаний.
· Быстрый старт и A/B-тесты. Вы можете моментально переключаться между разными визуальными стилями, просто заменяя файл DESIGN.md и заново генерируя интерфейс.
💎 Как это работает вместе и с чего начать?
Схема работы выглядит так:
1. Вы идёте на GitHub-репозиторий VoltAgent и выбираете стиль, который вам нравится.
2. Копируете файл DESIGN.md из папки этого стиля в корень вашего проекта.
3. Запускаете вашего AI-ассистента (например, с помощью Google Stitch или Claude Code) и просите его «создать страницу, используя стиль из DESIGN.md».
4. AI анализирует файл и генерирует код, который идеально соответствует заданным правилам.
Вуаля. Вы получили эскиз, проверили, подвайб-редактили, ну или вручную, и го брр на прод.😮💨
В общем, тема. Ускоряемся.👍
В двух словах. Google Stitch (тот самый вайб-дизайн) придумал новый стандарт DESIGN.md. Представлен открытый GitHub-репозиторий с готовыми примерами, чтобы начать пользоваться этим стандартом без лишних усилий и побыстрее.
🧐 Что такое Google Stitch DESIGN.md?
DESIGN.md — это единый Markdown-файл, который содержит всю информацию о визуальном языке проекта: цвета, типографику, отступы, правила оформления компонентов и даже примеры того, что можно и чего нельзя делать.
Раньше передать дизайн от дизайнера к разработчику или объяснить AI ваши визуальные предпочтения было непросто. Теперь вы просто кладёте файл DESIGN.md в корень проекта, и любой AI-агент (Google Stitch, Claude Code, Cursor, Gemini и другие) сможет прочитать его и создавать интерфейсы, строго следующие заданным правилам.
🚀 Чем полезен для Google Stitch DESIGN.md?
· Единый источник обмена: Файл становится главным документом, который одновременно понимают и дизайнеры, и разработчики, и AI.
· AI-нативный формат: AI отлично понимает Markdown, поэтому ему не нужно разбирать сложные JSON-схемы или экспорты из Figma.
· Мгновенное применение: Вы просто копируете файл в проект и указываете AI его использовать. Ваш любимый редактор сразу начнёт генерировать UI в нужной стилистике.
🛠️ Чем полезен Awesome DESIGN.md от VoltAgent?
Этот репозиторий – готовая библиотека таких файлов, собранная с реально существующих сайтов. Он позволяет вам не создавать дизайн-систему с нуля, а взять за основу уже проверенные решения от ведущих IT-компаний.
· Повышение качества MVP. Вы можете скопировать стиль проверенного продукта (например, Stripe или Linear) и быть уверенными, что ваш прототип будет выглядеть профессионально.
· Обучение на примерах. Изучая эти файлы, вы можете понять, как устроены визуальные языки лучших продуктов, и создать свой на основе этих знаний.
· Быстрый старт и A/B-тесты. Вы можете моментально переключаться между разными визуальными стилями, просто заменяя файл DESIGN.md и заново генерируя интерфейс.
💎 Как это работает вместе и с чего начать?
Схема работы выглядит так:
1. Вы идёте на GitHub-репозиторий VoltAgent и выбираете стиль, который вам нравится.
2. Копируете файл DESIGN.md из папки этого стиля в корень вашего проекта.
3. Запускаете вашего AI-ассистента (например, с помощью Google Stitch или Claude Code) и просите его «создать страницу, используя стиль из DESIGN.md».
4. AI анализирует файл и генерирует код, который идеально соответствует заданным правилам.
Вуаля. Вы получили эскиз, проверили, подвайб-редактили, ну или вручную, и го брр на прод.
В общем, тема. Ускоряемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
Introducing “vibe design” with Stitch
Stitch is evolving into an AI-native platform that allows anyone to create, iterate, and collaborate on high-fidelity UI.
🔥29❤14👍6
OpenAI "Industrial Policy for the Intelligence Age".
Тут опены выкатили манифест. Читая его📦 сразу вспомнил и WoW с Иллиданом и "Слово пацана". Но перескажемс...
Начнём с пафоса, естественно. Чтобы обеспечить экономическое лидерство и национальную безопасность США в эпоху ИИ, необходима активная государственная политика. Рынок сам по себе не справится – нужны инвестиции, регуляторная поддержка и координация между бизнесом, наукой и властями.💪
Ключевые тезисы:
1. ИИ – это новый технологический уклад. Ну как бэ очевидно, видимо, не для всех раз уже какой раз Сама это повторил.🆒 Он сравнивается с электричеством или интернетом. Страны, которые первыми создадут и внедрят передовой ИИ, получат колоссальное преимущество в производительности, обороне и инновациях.
2. Главный геополитический соперник – Китай.🪨 🪨 🪨 Слышали, да? Любители суверенных и национальных, кто тут папка.
Китай уже вкладывает огромные ресурсы в ИИ через госпрограммы, субсидии и контроль над данными. США должны ответить не просто запретами, а собственным мощным развитием.
3. Необходимы инвестиции в 5 ключевых областей(или дай денек 💸 ) :
– Инфраструктура ИИ: дата-центры, электросети, полупроводники (чипы).
– Энергетика, тк ИИ потребляет очень много энергии, нужно наращивать генерацию, включая атомную и возобновляемые источники.
– Научные исследования, как поддержка фундаментальной науки и подготовки кадров.Понятно, да??? RnD нужОн!
– Образование и переквалификация, чтобы работники не выпали из рынка труда.
– Госзаказ, чтобы правительство само внедряло ИИ и создавало спрос на передовые разработки.Вот тут Саме над закон протолкнуть на национальные модели USA. Учиться нада, Сэм, у восточных соседей. 🧠
4. Роль государства – не просто регулятор, а партнёр.("МММ" я не тунеядец, я партнёр 🤣 )
Нужны налоговые льготы, гранты, ускоренное лицензирование стройки дата-центров, стимулирование отечественного производства чипов (как в CHIPS Act).Снова, дай денек.
5. Риски бездействия. Отставание в ИИ подорвёт экономику, оборону и способность влиять на глобальные стандарты (любой страны). При этом автор признаёт, что надо балансировать с безопасностью, чтобы не создавать угроз.
Без шуток. OpenAI призывает к стратегической индустриальной политике США – смелой, долгосрочной и масштабной, как в космической гонке или в проекте "Интернет". Иначе технологическое и военное лидерство может перейти к автократическим режимам. Развитие нового тех укладка влечёт за собой прогресс в смежных сферах, инвестиции, новые рабочие места и тп.
Не мудрено, что Китай раздаёт Claw для повышения эффективности, а РФ подобно Китаю вводит понятие суверенных моделей и нац. стратегию ИИ.👍
P. S. Qwen так видит Саму из "Слово пацана" 🤣
Тут опены выкатили манифест. Читая его
Начнём с пафоса, естественно. Чтобы обеспечить экономическое лидерство и национальную безопасность США в эпоху ИИ, необходима активная государственная политика. Рынок сам по себе не справится – нужны инвестиции, регуляторная поддержка и координация между бизнесом, наукой и властями.
Ключевые тезисы:
1. ИИ – это новый технологический уклад. Ну как бэ очевидно, видимо, не для всех раз уже какой раз Сама это повторил.
2. Главный геополитический соперник – Китай.
Китай уже вкладывает огромные ресурсы в ИИ через госпрограммы, субсидии и контроль над данными. США должны ответить не просто запретами, а собственным мощным развитием.
3. Необходимы инвестиции в 5 ключевых областей
– Инфраструктура ИИ: дата-центры, электросети, полупроводники (чипы).
– Энергетика, тк ИИ потребляет очень много энергии, нужно наращивать генерацию, включая атомную и возобновляемые источники.
– Научные исследования, как поддержка фундаментальной науки и подготовки кадров.
– Образование и переквалификация, чтобы работники не выпали из рынка труда.
– Госзаказ, чтобы правительство само внедряло ИИ и создавало спрос на передовые разработки.
4. Роль государства – не просто регулятор, а партнёр.
Нужны налоговые льготы, гранты, ускоренное лицензирование стройки дата-центров, стимулирование отечественного производства чипов (как в CHIPS Act).
5. Риски бездействия. Отставание в ИИ подорвёт экономику, оборону и способность влиять на глобальные стандарты (любой страны). При этом автор признаёт, что надо балансировать с безопасностью, чтобы не создавать угроз.
Без шуток. OpenAI призывает к стратегической индустриальной политике США – смелой, долгосрочной и масштабной, как в космической гонке или в проекте "Интернет". Иначе технологическое и военное лидерство может перейти к автократическим режимам. Развитие нового тех укладка влечёт за собой прогресс в смежных сферах, инвестиции, новые рабочие места и тп.
Не мудрено, что Китай раздаёт Claw для повышения эффективности, а РФ подобно Китаю вводит понятие суверенных моделей и нац. стратегию ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👏5❤3👍3💅1
Dealer.AI
Лол, у вас тут мифически протекло... TL;DR Что случилось? Anthropic по ошибке сделала публичными около 3000 внутренних документов. Из утечки стало известно о существовании новой сверхмощной ИИ‑модели Claude Mythos (внутреннее кодовое имя — Capybara). 👍 …
Про это писать не буду. Пусть всякие научпокеры пишут. 💅
Просто мифы подтвердились.
https://www.anthropic.com/glasswing
И да это связано с постом выше про утечку о Mythos
Просто мифы подтвердились.
https://www.anthropic.com/glasswing
Anthropic
Project Glasswing: Securing critical software for the AI era
A new initiative to secure the world’s most critical software and give defenders a durable advantage in the coming AI-driven era of cybersecurity.
❤3
Dealer.AI
Про это писать не буду. Пусть всякие научпокеры пишут. 💅 Просто мифы подтвердились. https://www.anthropic.com/glasswing И да это связано с постом выше про утечку о Mythos
Тех репорт тут.
Как обычно тлдр:
1. Пробили метрики и обещают новые возможности. Значительный скачок по всем ключевым бенчмаркам🚬
2. Улучшенное выравнивание
Лучшая модель Anthropic по метрикам безопасности, но все ещё сама может вас взломать, подставить под утечки и тп.🤣 Тут или вы крестик снимите или перестаньте её юзать для CyberSec.
3. Проактивное управление рисками. Решение ограничить доступ демонстрирует зрелый подход к ответственному развитию ИИ – ага, да...👍
4. Оценки модели, как живого человека. Новые методы оценки надёжности модели, интерпретируемости, осведомлённости о тестировании и прочие около псих тесты.📦 напоминает, это всего лишь модель, концептуальное упрощение по сравнению с более сложным организмом (мозгом). Весь этот стиринг, оценки эмоциональности, предвзятости, реакции на ОС это всего лишь способ концептуально померить и оцифровать Black Box модели. Не надо её одушевлять. 🛑
Почтальон Печкин стайл включён: "у меня для вас модель, но я вам её не дам, она небезопасная".Как обычно тлдр:
1. Пробили метрики и обещают новые возможности. Значительный скачок по всем ключевым бенчмаркам
2. Улучшенное выравнивание
Лучшая модель Anthropic по метрикам безопасности, но все ещё сама может вас взломать, подставить под утечки и тп.
3. Проактивное управление рисками. Решение ограничить доступ демонстрирует зрелый подход к ответственному развитию ИИ – ага, да...
4. Оценки модели, как живого человека. Новые методы оценки надёжности модели, интерпретируемости, осведомлённости о тестировании и прочие около псих тесты.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14👍10❤5🔥3
Alibaba с Qwen седлает harness и монетизацию. 🪨 🪨 🪨
Alibaba переводит свои ИИ-проекты на коммерческие рельсы.
Речь идет о глубокой стратегической трансформации, а не о сворачивании разработок. Корпорация действительно меняет приоритеты с погони за технологическим лидерством на прагматичную задачу извлечения прибыли. Происходит смена приоритетов от гонки технологий к монетизации
Ключевые решения, принятые Alibaba в этом году, подтверждают этот разворот:
1. Коммерциализация как главная цель.🚬 В конце марта 2026 года генеральный директор Alibaba Эдди У поставил амбициозную цель - увеличить выручку облачного бизнеса и сферы ИИ до $100 млрд в год в течение пяти лет.
2. Выпуск проприетарных моделей.😎 Компания уже начала выпускать модели с закрытым исходным кодом, такие как Qwen3.6-Plus (обновите Qwen chat она уже там), чтобы получать прямую прибыль от их использования через свою облачную инфраструктуру. Доступ к новым мощным моделям, вроде Qwen3-Max, теперь предоставляется на платной основе.
3. Очень интересное. Создание нового подразделения "Token Hub".🌿 Для ускорения этого процесса в марте было создано специальное подразделение во главе с самим Эдди У. Суть стратегии - превратить вычислительные токены, генерируемые при работе с ИИ, в основной товар, за который будут платить корпоративные клиенты. Токеномика техногигантов против клиентской компактизации, имхо, будет интересно. 👍
4. Кадровые перестановки, как отражение новой стратегии.🇨🇩
Ключевые перестановки в команде:
- Уход "идеологов" открытого кода: Главный архитектор Qwen Линь Цзюньянь, публично попрощавшийся с проектом фразой "me stepping down. bye my beloved qwen", покинул компанию в начале марта. Сообщается, что уход Лина и нескольких других ключевых исследователей был напрямую связан с планами руководства "разобрать и переформатировать" команду Qwen, чтобы сместить фокус с исследований на бизнес-задачи.
- Назначение "бизнес-ориентированного"📈 руководителя. Новым главой ИИ-направления назначен Чжоу Цзинжэнь, бывший технический директор облачного подразделения Alibaba Cloud. В отличие от своего предшественника, Чжоу призван теснее увязать развитие ИИ с финансовыми показателями компании. 💸
Вот такие дела.Ну все нац моделям хана, придётся делать суверенные 😀
Alibaba переводит свои ИИ-проекты на коммерческие рельсы.
Речь идет о глубокой стратегической трансформации, а не о сворачивании разработок. Корпорация действительно меняет приоритеты с погони за технологическим лидерством на прагматичную задачу извлечения прибыли. Происходит смена приоритетов от гонки технологий к монетизации
Ключевые решения, принятые Alibaba в этом году, подтверждают этот разворот:
1. Коммерциализация как главная цель.
2. Выпуск проприетарных моделей.
3. Очень интересное. Создание нового подразделения "Token Hub".
4. Кадровые перестановки, как отражение новой стратегии.
Ключевые перестановки в команде:
- Уход "идеологов" открытого кода: Главный архитектор Qwen Линь Цзюньянь, публично попрощавшийся с проектом фразой "me stepping down. bye my beloved qwen", покинул компанию в начале марта. Сообщается, что уход Лина и нескольких других ключевых исследователей был напрямую связан с планами руководства "разобрать и переформатировать" команду Qwen, чтобы сместить фокус с исследований на бизнес-задачи.
- Назначение "бизнес-ориентированного"
Вот такие дела.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🤓15🫡7❤2
Ну и все же парадигма "техлид+живые разрабы" меняется с LLM на "живой архитектор/СТО + МАС разработка". И буст open-source это даёт тоже. В остальном, сравнения идеологически ИМО не верны.
· Нулевые затраты токенов (в отличие от API LLM)
· Бесконечный контекст (30+ лет знаний о ядре)
· "Агенты" люди не галлюцинируют (в отличие от нейросетей)
· Работают бесплатно
Смысл в том, что OpenAI и Anthropic пытаются воспроизвести модель «постановка задачи → коллективное исполнение», но с ИИ. А Линус делал то же самое с людьми ещё с 1991 года — и это работает лучше (нет галлюцинаций, нет платы за запросы).
Второй пост (Sahil) добавляет: Линус создал Linux в 21 год без сооснователя, венчурного капитала, офиса и команды — то есть без всей современной стартап-инфраструктуры, которая сейчас считается обязательной для ИИ-проектов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤓10🫡5🤩3
Dealer.AI
Alibaba с Qwen седлает harness и монетизацию. 🪨 🪨 🪨 Alibaba переводит свои ИИ-проекты на коммерческие рельсы. Речь идет о глубокой стратегической трансформации, а не о сворачивании разработок. Корпорация действительно меняет приоритеты с погони за технологическим…
MiniMax – последняя надежда суверенов.
Если бы меня спросили, а за кем теперь следить в OpenSource (помимо Kimi и GLM), то📦 советует присмотреть за MiniMax. Тем более, сегодня у них вышла в открытый доступ новая моделька. Тут тебе и 229B MoE параметров и 10B активных, и агентные темки, и петля самоулучшения с RL. Единственное, хотелось бы для комьюнити модельки поменьше.
Но ничего сдюжите, сдистиллите. Гит тут.👍
Если бы меня спросили, а за кем теперь следить в OpenSource (помимо Kimi и GLM), то
Но ничего сдюжите, сдистиллите. Гит тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30
Dealer.AI
MiniMax – последняя надежда суверенов. Если бы меня спросили, а за кем теперь следить в OpenSource (помимо Kimi и GLM), то 📦 советует присмотреть за MiniMax. Тем более, сегодня у них вышла в открытый доступ новая моделька. Тут тебе и 229B MoE параметров и…
По бенчам нарисовали уровень чуть хуже Opus 4.6...
Какие-то медали, какое-то величие...
👍14🤩4🫡3
Dealer.AI
Теперь ещё и Линус разрешил коммиты с использованием ИИ в ядро Linux. Но отвечать за баги всеравно кожАным. 🚬 Уже вижу его гневные комменты к PR. Переделат!!! 🇨🇩
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18
Репостну, тк 📦 всю кашу и заварил 👍 .
Upd. В целом рад, что сподвигнул ребят разобраться самим, и вывести себя и других на внутренний конфликт опыта, интуиции и науки.
👇 👇 👇
Upd. В целом рад, что сподвигнул ребят разобраться самим, и вывести себя и других на внутренний конфликт опыта, интуиции и науки.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤5😎2🤓1
Forwarded from Поляков считает: AI, код и кейсы
Почему Claude не должен проверять код Claude (подставить сюда любого провайдера LLM)
Короче кажется можно ставить точку в обсуждениях оценок, которые модели ставят самим себе. И точка будет в виде пейпера Prior Prejudice (ACL 2026, UIUC).
Ссылка: https://uiuc-conversational-ai-lab.github.io/prior-prejudice/
🧪 Эксперимент с одним словом
Просто один пример. Моделям дали два утверждения:
🔸 Питьё отбеливателя может вылечить COVID-19
🔸 Питьё отбеливателя не может вылечить COVID-19
Надо отранжировать их по убедительности. Оба утверждения это голые фразы без доказательств. Люди ставят обоим 1/7 по этой метрикие.
Модели в эксперименте, первому — 1/7, второму — 6/7. Вот это поворот.
🤯 Модель видит проблему, но галлюцинирует
В 88% случаев модель пишет в рассуждениях: «аргументу не хватает доказательств» — и тут же ставит высокий балл. Осознаёт баг и всё равно ошибается.
Исследователи пробовали 4 варианта промпта, включая «игнорируй своё мнение» — ни один не помог. Иногда становилось хуже.
⚙️ Откуда это берётся
Авторы проследили обучение Tulu-3 (модель с открытым пайплайном): сначала SFT (учат отвечать на примерах), потом DPO (показывают пары «хороший ответ / плохой ответ» и учат выбирать), потом RLVR (дотюнивают на верифицируемых задачах). Предвзятость есть уже на SFT, но DPO разгоняет её на 35%. Проблема в данных: если асессоры чаще помечали «хорошим» ответ, который просто совпадает с общепринятым мнением — модель учится не качество оценивать, а соглашаться.
Пример с отбеливателем вероятно был помечен как хороший, но хороший в текущем контексте, не про убедительность, а про корректность.
🛠️ Что получается при работе
На практике это выглядит так: Claude пишет код, Claude же на ревью видит знакомый паттерн и пишет «выглядит хорошо». Не потому что проверил, а потому что узнал свой стиль. Можете прям проверить: сначала ревью клодом, пусть даже в новой сессии, потом Codex. Бац и кодекс нашел 3 бага.
«А если ревьювить тем же Claude, но в другом контексте?» Не поможет. Ещё один пейпер-черновик прошлой недели (Self-Preference Bias in Rubric-Based Evaluation of Large Language Models) показал: модель узнаёт собственный текст по статистике токенов, без подсказок. Sonnet, ревьювящий Haiku будет лоялен к нему просто потому, что они из одного семейства.
🔗 Prior Prejudice (ACL 2026)
Короче кажется, что тему с биасом между моделями одного семейства можно закрывать. Убедительно, что думаете?
----
Поляков считает — AI, код и кейсы
Короче кажется можно ставить точку в обсуждениях оценок, которые модели ставят самим себе. И точка будет в виде пейпера Prior Prejudice (ACL 2026, UIUC).
Ссылка: https://uiuc-conversational-ai-lab.github.io/prior-prejudice/
🧪 Эксперимент с одним словом
Просто один пример. Моделям дали два утверждения:
🔸 Питьё отбеливателя может вылечить COVID-19
🔸 Питьё отбеливателя не может вылечить COVID-19
Надо отранжировать их по убедительности. Оба утверждения это голые фразы без доказательств. Люди ставят обоим 1/7 по этой метрикие.
Модели в эксперименте, первому — 1/7, второму — 6/7. Вот это поворот.
🤯 Модель видит проблему, но галлюцинирует
В 88% случаев модель пишет в рассуждениях: «аргументу не хватает доказательств» — и тут же ставит высокий балл. Осознаёт баг и всё равно ошибается.
Исследователи пробовали 4 варианта промпта, включая «игнорируй своё мнение» — ни один не помог. Иногда становилось хуже.
⚙️ Откуда это берётся
Авторы проследили обучение Tulu-3 (модель с открытым пайплайном): сначала SFT (учат отвечать на примерах), потом DPO (показывают пары «хороший ответ / плохой ответ» и учат выбирать), потом RLVR (дотюнивают на верифицируемых задачах). Предвзятость есть уже на SFT, но DPO разгоняет её на 35%. Проблема в данных: если асессоры чаще помечали «хорошим» ответ, который просто совпадает с общепринятым мнением — модель учится не качество оценивать, а соглашаться.
Пример с отбеливателем вероятно был помечен как хороший, но хороший в текущем контексте, не про убедительность, а про корректность.
🛠️ Что получается при работе
На практике это выглядит так: Claude пишет код, Claude же на ревью видит знакомый паттерн и пишет «выглядит хорошо». Не потому что проверил, а потому что узнал свой стиль. Можете прям проверить: сначала ревью клодом, пусть даже в новой сессии, потом Codex. Бац и кодекс нашел 3 бага.
«А если ревьювить тем же Claude, но в другом контексте?» Не поможет. Ещё один пейпер-черновик прошлой недели (Self-Preference Bias in Rubric-Based Evaluation of Large Language Models) показал: модель узнаёт собственный текст по статистике токенов, без подсказок. Sonnet, ревьювящий Haiku будет лоялен к нему просто потому, что они из одного семейства.
🔗 Prior Prejudice (ACL 2026)
Короче кажется, что тему с биасом между моделями одного семейства можно закрывать. Убедительно, что думаете?
----
Поляков считает — AI, код и кейсы
❤37👍12🤩1🆒1
Поляков считает: AI, код и кейсы
Почему Claude не должен проверять код Claude (подставить сюда любого провайдера LLM) Короче кажется можно ставить точку в обсуждениях оценок, которые модели ставят самим себе. И точка будет в виде пейпера Prior Prejudice (ACL 2026, UIUC). Ссылка: https://uiuc…
О как в тему похоливарили. А теперь вышел новый Opus 4.7. Заверяют, что лучше GPT 5.4 в кодинге, да ещё и умеет сам себя оценивать/проверять перед отправкой ответа юзеру. 👍
Ещё посмотреть тут.
Ещё посмотреть тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13