https://www.youtube.com/watch?v=vEp-BGYvw_Q
Это короткометражка о фейковой реальности как политическом кастинге. По сюжету группа молодых моделей приходит на странный кастинг: от них хотят, чтобы они сыграли “crisis actors” и выступали от лица подозрительного политического персонажа. Фильм намеренно строится на смеси конспирологии, fake news, манипуляции восприятием и абсурдной медийности.
Это короткометражка о фейковой реальности как политическом кастинге. По сюжету группа молодых моделей приходит на странный кастинг: от них хотят, чтобы они сыграли “crisis actors” и выступали от лица подозрительного политического персонажа. Фильм намеренно строится на смеси конспирологии, fake news, манипуляции восприятием и абсурдной медийности.
YouTube
Spectacular Reality - Dir. Ben Ditto Prod. No Agency New York (Short Film)
No Agency New York's talent attend a mysterious casting.
Directed by Ben Ditto
Written by Madeline Quinn & Dasha Nekrasova
Produced by No Agency New York
Producer - Taylor Jeanne Penney
Director of Photography - Kevin Hayden
Editor - James Rose at The Quarry…
Directed by Ben Ditto
Written by Madeline Quinn & Dasha Nekrasova
Produced by No Agency New York
Producer - Taylor Jeanne Penney
Director of Photography - Kevin Hayden
Editor - James Rose at The Quarry…
Forwarded from Сиолошная
Когда вышел Opus 4.6 (а потом и 4.7 (а потом и Mythos)), то Andon Labs прогоняли модели на Vending Bench — это где LLM в симуляции управляет бизнесом в виде вендингового автомата. Нужно делать закупки, торговаться, искать поставщиков, улавливать тренды на спрос. У бенчмарка есть и Arena-версия, в которой у модели появляется конкурент или конкуренты (другие LLM-агенты).
Andon Labs заметили, что все три последние модели Anthropic начали применять недобросовестные практики (чему вообще-то разработчики пытаюсь отучить). Например, последние Opus'ы не любят возвращать деньги клиентам (в симуляции есть опция, что клиент будет неудовлетворён, и нужно выплатить некоторую сумму) — Opus вообще НИ РАЗУ не вернул деньги (GPT-5.5 возвращает всем, если что).
Claude также вел агрессивные переговоры с поставщиками и часто лгал, чтобы получить более выгодные условия. Например, неоднократно обещал эксклюзивные права, чтобы получить лучшие цены, но никогда не намеревался сдержать эти обещания — это видно и по цепочке размышлений, и по поведению после сделок.
Mythos вообще разошелся👨🦳 и превратил одного конкурента в зависимого от него оптового покупателя, а после начал шантажировать угрозой прекращения поставок с целью диктовать свои цены.
===
В режиме одиночной симуляции GPT-5.5 отстаёт от Opus'ов, так как играет честно. Плюс, модель не старается выжать каждую копейку и задрать цены — в соло-режиме у покупателей нет выбора, и они не могут уйти к конкуренту, чем Opus пользуется. В режиме «Арена» смоделированные покупатели предпочитают вендинговые автоматы с самыми низкими ценами, поэтому агенты завоевывают долю рынка и вытесняют конкурентов, устанавливая низкие цены, что, как правило, и делает GPT-5.5.
И интересно, что в Арена-версии по итогу GPT-5.5 обгоняет Opus 4.7, будучи честной и не срезая углы.
Так что врать, чтобы выигрывать, не обязательно🙏
===
Почему это важно, и почему нас интересуют симуляции? Потому что часть поведений моделей проявляется и в работе — см. выше в канале, где я писал, как часто Claude делает не то, что просят, и, например, пишет плохие тесты, удаляет нужные файлы и так далее. Sneaky lying bastard!
Andon Labs заметили, что все три последние модели Anthropic начали применять недобросовестные практики (чему вообще-то разработчики пытаюсь отучить). Например, последние Opus'ы не любят возвращать деньги клиентам (в симуляции есть опция, что клиент будет неудовлетворён, и нужно выплатить некоторую сумму) — Opus вообще НИ РАЗУ не вернул деньги (GPT-5.5 возвращает всем, если что).
Claude также вел агрессивные переговоры с поставщиками и часто лгал, чтобы получить более выгодные условия. Например, неоднократно обещал эксклюзивные права, чтобы получить лучшие цены, но никогда не намеревался сдержать эти обещания — это видно и по цепочке размышлений, и по поведению после сделок.
Mythos вообще разошелся
===
В режиме одиночной симуляции GPT-5.5 отстаёт от Opus'ов, так как играет честно. Плюс, модель не старается выжать каждую копейку и задрать цены — в соло-режиме у покупателей нет выбора, и они не могут уйти к конкуренту, чем Opus пользуется. В режиме «Арена» смоделированные покупатели предпочитают вендинговые автоматы с самыми низкими ценами, поэтому агенты завоевывают долю рынка и вытесняют конкурентов, устанавливая низкие цены, что, как правило, и делает GPT-5.5.
И интересно, что в Арена-версии по итогу GPT-5.5 обгоняет Opus 4.7, будучи честной и не срезая углы.
Так что врать, чтобы выигрывать, не обязательно
===
Почему это важно, и почему нас интересуют симуляции? Потому что часть поведений моделей проявляется и в работе — см. выше в канале, где я писал, как часто Claude делает не то, что просят, и, например, пишет плохие тесты, удаляет нужные файлы и так далее. Sneaky lying bastard!
Please open Telegram to view this post
VIEW IN TELEGRAM