НЕ БОЙСЯ
377 subscribers
600 photos
260 videos
3 files
130 links
мысли овцы волки лай
Download Telegram
https://www.youtube.com/watch?v=vEp-BGYvw_Q

Это короткометражка о фейковой реальности как политическом кастинге. По сюжету группа молодых моделей приходит на странный кастинг: от них хотят, чтобы они сыграли “crisis actors” и выступали от лица подозрительного политического персонажа. Фильм намеренно строится на смеси конспирологии, fake news, манипуляции восприятием и абсурдной медийности.
у меня последняя
Forwarded from Сиолошная
Когда вышел Opus 4.6 (а потом и 4.7 (а потом и Mythos)), то Andon Labs прогоняли модели на Vending Bench — это где LLM в симуляции управляет бизнесом в виде вендингового автомата. Нужно делать закупки, торговаться, искать поставщиков, улавливать тренды на спрос. У бенчмарка есть и Arena-версия, в которой у модели появляется конкурент или конкуренты (другие LLM-агенты).

Andon Labs заметили, что все три последние модели Anthropic начали применять недобросовестные практики (чему вообще-то разработчики пытаюсь отучить). Например, последние Opus'ы не любят возвращать деньги клиентам (в симуляции есть опция, что клиент будет неудовлетворён, и нужно выплатить некоторую сумму) — Opus вообще НИ РАЗУ не вернул деньги (GPT-5.5 возвращает всем, если что).

Claude также вел агрессивные переговоры с поставщиками и часто лгал, чтобы получить более выгодные условия. Например, неоднократно обещал эксклюзивные права, чтобы получить лучшие цены, но никогда не намеревался сдержать эти обещания — это видно и по цепочке размышлений, и по поведению после сделок.

Mythos вообще разошелся 👨‍🦳 и превратил одного конкурента в зависимого от него оптового покупателя, а после начал шантажировать угрозой прекращения поставок с целью диктовать свои цены.

===

В режиме одиночной симуляции GPT-5.5 отстаёт от Opus'ов, так как играет честно. Плюс, модель не старается выжать каждую копейку и задрать цены — в соло-режиме у покупателей нет выбора, и они не могут уйти к конкуренту, чем Opus пользуется. В режиме «Арена» смоделированные покупатели предпочитают вендинговые автоматы с самыми низкими ценами, поэтому агенты завоевывают долю рынка и вытесняют конкурентов, устанавливая низкие цены, что, как правило, и делает GPT-5.5.

И интересно, что в Арена-версии по итогу GPT-5.5 обгоняет Opus 4.7, будучи честной и не срезая углы.

Так что врать, чтобы выигрывать, не обязательно 🙏

===

Почему это важно, и почему нас интересуют симуляции? Потому что часть поведений моделей проявляется и в работе — см. выше в канале, где я писал, как часто Claude делает не то, что просят, и, например, пишет плохие тесты, удаляет нужные файлы и так далее. Sneaky lying bastard!
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
демократизация формы
Кстати не ведитесь, людское за деньги купить нельзя
хочу услышать "твердая шляпа" и "убийство меч"