НЕ БОЙСЯ

148 views09:40

https://www.youtube.com/watch?v=vEp-BGYvw_Q

Это короткометражка о фейковой реальности как политическом кастинге. По сюжету группа молодых моделей приходит на странный кастинг: от них хотят, чтобы они сыграли “crisis actors” и выступали от лица подозрительного политического персонажа. Фильм намеренно строится на смеси конспирологии, fake news, манипуляции восприятием и абсурдной медийности.

YouTube

Spectacular Reality - Dir. Ben Ditto Prod. No Agency New York (Short Film)

No Agency New York's talent attend a mysterious casting.

Directed by Ben Ditto
Written by Madeline Quinn & Dasha Nekrasova
Produced by No Agency New York
Producer - Taylor Jeanne Penney
Director of Photography - Kevin Hayden
Editor - James Rose at The Quarry…

158 viewsedited 18:49

НЕ БОЙСЯ

у меня последняя

146 views19:53

НЕ БОЙСЯ

Forwarded from Сиолошная

Когда вышел Opus 4.6 (а потом и 4.7 (а потом и Mythos)), то Andon Labs прогоняли модели на Vending Bench — это где LLM в симуляции управляет бизнесом в виде вендингового автомата. Нужно делать закупки, торговаться, искать поставщиков, улавливать тренды на спрос. У бенчмарка есть и Arena-версия, в которой у модели появляется конкурент или конкуренты (другие LLM-агенты).

Andon Labs заметили, что все три последние модели Anthropic начали применять недобросовестные практики (чему вообще-то разработчики пытаюсь отучить). Например, последние Opus'ы не любят возвращать деньги клиентам (в симуляции есть опция, что клиент будет неудовлетворён, и нужно выплатить некоторую сумму) — Opus вообще НИ РАЗУ не вернул деньги (GPT-5.5 возвращает всем, если что).

Claude также вел агрессивные переговоры с поставщиками и часто лгал, чтобы получить более выгодные условия. Например, неоднократно обещал эксклюзивные права, чтобы получить лучшие цены, но никогда не намеревался сдержать эти обещания — это видно и по цепочке размышлений, и по поведению после сделок.

Mythos вообще разошелся 👨‍🦳 и превратил одного конкурента в зависимого от него оптового покупателя, а после начал шантажировать угрозой прекращения поставок с целью диктовать свои цены.

===

В режиме одиночной симуляции GPT-5.5 отстаёт от Opus'ов, так как играет честно. Плюс, модель не старается выжать каждую копейку и задрать цены — в соло-режиме у покупателей нет выбора, и они не могут уйти к конкуренту, чем Opus пользуется. В режиме «Арена» смоделированные покупатели предпочитают вендинговые автоматы с самыми низкими ценами, поэтому агенты завоевывают долю рынка и вытесняют конкурентов, устанавливая низкие цены, что, как правило, и делает GPT-5.5.

И интересно, что в Арена-версии по итогу GPT-5.5 обгоняет Opus 4.7, будучи честной и не срезая углы.

Так что врать, чтобы выигрывать, не обязательно 🙏

===

Почему это важно, и почему нас интересуют симуляции? Потому что часть поведений моделей проявляется и в работе — см. выше в канале, где я писал, как часто Claude делает не то, что просят, и, например, пишет плохие тесты, удаляет нужные файлы и так далее. Sneaky lying bastard!

Please open Telegram to view this post

VIEW IN TELEGRAM

172 views00:56

НЕ БОЙСЯ