Технозаметки Малышева

Когда получите возможность задать вопросы o1 - НИКОГДА не задавайте вот эти простые, которые он предлагает в меню.

Помните, что вопросов всего 30 в НЕДЕЛЮ. :)

Не разменивайтесь на глупости.

#o1
———
@tsingular

👍2

1.02K views04:18

Технозаметки Малышева

Достаточно интересный для изучения документ system card o1.

Расписаны техники работы внутренних цепочек мышления.
Разобрано как работает и как тестировалось построение причинно-следственных рассуждений.

Модельку даже тестировали в CTF мероприятиях по кибербезу, где она себя уже неплохо показала на начальном уровне.

В том числе разобрано противостояние манипуляциям на генерацию запрещённого контента с разбором техник типа, - подкуп, подмена цели разговора, убеждение, обман и т.д.

В общем, must read!

#o1 #system
———
@tsingular

👍1🔥1

1.26K views04:28

Технозаметки Малышева

AGI наступает: Консервативный прогноз Алана подпрыгнул до 81% после выхода o1

По итогам выхода o1 стрелка на спидометре прогноза Алана сдвинулась на 81%, теперь прогноз достижения Общего ИИ варьируется от января 2025 до октября 2026 года.
Т.е. в следующем году, буквально. Максимум через год.

Эксперты ожидают полного устранения галлюцинаций ИИ моделей к 2025 году.

Физическое воплощение ИИ, которое будет происходить (уже происходит) параллельно, - очень важная составляющая в росте интеллектуальности мультимодальных систем (полная мультимодальность, с учётом 3Д мира и движений, а не только текст, звук, картинки).

Попячтесь! грядёт! :)
Чем больше мы декомпозируем задачи, которые выполняет мозг, тем больше часть из них поддаётся автоматизации.
Все, кто топят, что _настоящего_ ИИ не будет ещё 100 лет, а это всё скриптики и всякие if-else конструкции, очень сильно заблуждаются в одном, - скриптики с ИИ очень сильно ускоряют приход _настоящего_ ИИ.
Сумма технологий.

#OpenAI #AGI #FutureOfAI
-------
@tsingular

👍10👏1

1.46K viewsedited 04:39

Технозаметки Малышева

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

И всё же Claude Sonnet 3.5 с его Artifact функцией пока круче по работе с кодом, чем чистый вызов OpenAI O1 через API.

вот вариант Pong2 доработанный в Клоде.

Работает и на компе и на смартфоне.
управление WS+стрелки или просто четверти экрана нажимать и держать.

конечно в каком-нибудь Cursor сейчас через API O1 показывает чудеса, но стоит это все пока как чугунный мост.

5 вызовов O1-preview нагенерили мне почти $1.3 за пару минут.

надеюсь, когда выйдут из беты, - цена снизится.

как обычно код html в комментарии.

#o1 #dev
———
@tsingular

👍5👀1

1.23K views07:13

Технозаметки Малышева

Forwarded from Сиолошная

Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺

В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут).

По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.

Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.

Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.

Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).

Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.

Источник — отчёт OpenAI

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13😁1

1K views12:29

Технозаметки Малышева

1:00

Media is too big

VIEW IN TELEGRAM

А все же в игровые автоматы играли в детстве? :)

Держите пятничное.

Claude+O1

Игра в комментарии. Просто запустите файл с любого устройства.

#game #dev
———
@tsingualr

👍14

1.09K viewsedited 15:58

Технозаметки Малышева

0:11

Media is too big

VIEW IN TELEGRAM

Каждый раз, читая про новую модель робота. :)

@tsingular

❤‍🔥2🤔1

901 viewsedited 08:53

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)