Технозаметки Малышева

Яндекс запустил AI-помощника для программистов

Yandex Code Assistant - новый ИИ-инструмент для разработчиков, созданный Яндексом, находится в стадии Preview.
Ассистент генерирует код за 400 мс, поддерживает 30+ языков программирования и популярные редакторы.
Сервис доступен бесплатно в тестовом режиме через Yandex Cloud.

Ассистент не нагружает локальные машины, работая из облака.
Есть плагин для VS Code

Норм подарок на День программиста :)

#Yandex #CodeAssistant #devtools
-------
@tsingular

🔥13

3.73K viewsedited 07:09

Технозаметки Малышева

FiveThirtyNine: ИИ-бот - эксперт в аналитических прогнозах

Бот на базе GPT-4o анализирует новости, статьи и выдаёт вероятности для любых запросов.

Точность 87.7% при тестировании на 177 вопросах Metaculus.
Превосходит опытных аналитиков и сравним по эффективности с командой экспертов.

Ограничения: отсутствие тонкой настройки, работа с недавними событиями.
Потенциал интеграции в чат-боты, соцсети и новостные сайты.

https://forecast.safe.ai/

Работает быстро и даёт детальный разбор по прогнозу, собирает инфу с около десятка источников и проводит критический анализ.
Интересная игрушка.

#FiveThirtyNine #Forecasting #DecisionMaking
-------
@tsingular

👍4

4.01K views09:11

Технозаметки Малышева

Forwarded from GigaChat

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Обновления GigaChat: новая архитектура, высокая скорость и улучшенное качество ответов

🔥

Что поменялось в модели GigaChat PRO:

⭕️ увеличили скорость в 3 раза — быстрее, чем открыть поисковик

⭕️ сделали ответы красивее: параграфы, выделение текста, заголовки и многое другое. Теперь вам удобнее пользоваться решениями GigaChat

⭕️ увеличили контекст до 32 тысяч токенов. Это целых 60 страниц текста — в 5 раз больше прошлой версии

⭕️ улучшили качество ответов по:
— математике (GSM8k +15%, MATH +9,5%)
— коду (HumanEval +4%)
— наукам высокой сложности (GPQA +5%)
— финансовой и банковской тематике

Обновление также коснулось модели для бизнеса GigaChat Lite: её перевели на новую архитектуру Mixture of Experts и улучшили качество ответов на вопросы о музыке, кино, праве, книгах.

🖥

GigaChat, подбери мне осенний плейлист

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13

4.41K views14:23

Технозаметки Малышева

O1 - новый набор моделей от OpenAI с поддержкой рассуждений

OpenAI представила новую серию моделей ИИ под названием OpenAI o1, специализирующихся на сложных рассуждениях и решении задач.

Модель o1-preview значительно превосходит предыдущие модели в таких областях, как математика, написание кода и решение научных задачи.
Например, она решила 83% задач на олимпиаде по математике, где GPT-4 решил только 13%.

o1 использует "цепочку мыслей" - внутренний процесс рассуждений перед выдачей ответа. Это помогает модели лучше решать сложные задачи.

Новый подход к обучению, интегрирующий правила безопасности в цепочку мыслей модели, значительно улучшил устойчивость o1 к попыткам обхода ограничений.

OpenAI планирует выпускать улучшенные версии o1 в будущем и ожидает, что эти модели откроют новые возможности применения ИИ в науке, программировании и математике.

Модель o1-mini представлена как более быстрая и дешевая версия для разработчиков, особенно эффективна в написании кода.

— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini

В API ограничений нет, кроме как на 20 запросов в минуту.

Сегодня раскатывают на всех владельцев подписки Plus и API у кого есть Tier5 (у мну есть хехе. :) ), но дорогая, поэтому пока посмотрим, почитаем, потестируем, но в ботов ставить не буду.

С Днём Программиста по версии OpenAI. :)

Anthropic, когда Opus 3.5 уже?

#OpenAI #O1 #LLM
———
@tsungular

👍315❤2🔥1

6.05K viewsedited 17:43

Технозаметки Малышева

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

GPT o1-mini с 1 запроса написал игру PONG

код положу в комментарии, запускать на компьютере.
Управление стрелками и WS

сам запрос :
write pong game using JS, HTML with CSS. provide with single code at one file

вот этого теперь достаточно, чтобы получить результат.

#o1-mini
———
@tsingular

👍17🆒5

3.48K viewsedited 18:11

Технозаметки Малышева

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

ещё один пример - Matrix style screensaver

строка запроса:
write matrix style screensaver using JS, HTML and CSS with background with japaneese style characters with time floating diagonally and bouncing off the screen borders around slowly like at screensaver. should autodetect screen size and proportion and adjust automatically to work perfectly on any device, PC or smartphone. provide single file with code, no commentary

и тоже с первого раза без ошибок!

код в комментарии.

#o1-mini
———
@tsingular

👍173

2.57K viewsedited 18:23

Технозаметки Малышева

Forwarded from Denis Sexy IT 🤖

Официальный советы по промпт-инженерингу o1:

Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях

Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»

Используйте разделители для ясности: используйте разделители, такие как тройные кавычки ```, XML-теги или заголовки разделов, чтобы четко обозначить разные части ввода, помогая модели правильно интерпретировать различные секции

Ограничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью

***

Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа

Видимо, в gpt5 уже и промпты не нужны будут, да?

👍12

2.27K views19:13

Технозаметки Малышева

Ну не AGI, ещё. Нет.
Человечество спасено :)

------
@tsingular

😁13👾2

2.24K views19:22

Технозаметки Малышева

Когда получите возможность задать вопросы o1 - НИКОГДА не задавайте вот эти простые, которые он предлагает в меню.

Помните, что вопросов всего 30 в НЕДЕЛЮ. :)

Не разменивайтесь на глупости.

#o1
———
@tsingular

👍2

1.02K views04:18

Технозаметки Малышева

Достаточно интересный для изучения документ system card o1.

Расписаны техники работы внутренних цепочек мышления.
Разобрано как работает и как тестировалось построение причинно-следственных рассуждений.

Модельку даже тестировали в CTF мероприятиях по кибербезу, где она себя уже неплохо показала на начальном уровне.

В том числе разобрано противостояние манипуляциям на генерацию запрещённого контента с разбором техник типа, - подкуп, подмена цели разговора, убеждение, обман и т.д.

В общем, must read!

#o1 #system
———
@tsingular

👍1🔥1

1.26K views04:28

Технозаметки Малышева

AGI наступает: Консервативный прогноз Алана подпрыгнул до 81% после выхода o1

По итогам выхода o1 стрелка на спидометре прогноза Алана сдвинулась на 81%, теперь прогноз достижения Общего ИИ варьируется от января 2025 до октября 2026 года.
Т.е. в следующем году, буквально. Максимум через год.

Эксперты ожидают полного устранения галлюцинаций ИИ моделей к 2025 году.

Физическое воплощение ИИ, которое будет происходить (уже происходит) параллельно, - очень важная составляющая в росте интеллектуальности мультимодальных систем (полная мультимодальность, с учётом 3Д мира и движений, а не только текст, звук, картинки).

Попячтесь! грядёт! :)
Чем больше мы декомпозируем задачи, которые выполняет мозг, тем больше часть из них поддаётся автоматизации.
Все, кто топят, что _настоящего_ ИИ не будет ещё 100 лет, а это всё скриптики и всякие if-else конструкции, очень сильно заблуждаются в одном, - скриптики с ИИ очень сильно ускоряют приход _настоящего_ ИИ.
Сумма технологий.

#OpenAI #AGI #FutureOfAI
-------
@tsingular

👍10👏1

1.46K viewsedited 04:39

Технозаметки Малышева

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

И всё же Claude Sonnet 3.5 с его Artifact функцией пока круче по работе с кодом, чем чистый вызов OpenAI O1 через API.

вот вариант Pong2 доработанный в Клоде.

Работает и на компе и на смартфоне.
управление WS+стрелки или просто четверти экрана нажимать и держать.

конечно в каком-нибудь Cursor сейчас через API O1 показывает чудеса, но стоит это все пока как чугунный мост.

5 вызовов O1-preview нагенерили мне почти $1.3 за пару минут.

надеюсь, когда выйдут из беты, - цена снизится.

как обычно код html в комментарии.

#o1 #dev
———
@tsingular

👍5👀1

1.23K views07:13

Технозаметки Малышева

Forwarded from Сиолошная

Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺

В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут).

По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.

Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.

Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.

Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).

Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.

Источник — отчёт OpenAI

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13😁1

1K views12:29

Технозаметки Малышева

1:00

Media is too big

VIEW IN TELEGRAM

А все же в игровые автоматы играли в детстве? :)

Держите пятничное.

Claude+O1

Игра в комментарии. Просто запустите файл с любого устройства.

#game #dev
———
@tsingualr

👍14

1.09K viewsedited 15:58

Технозаметки Малышева

0:11

Media is too big

VIEW IN TELEGRAM

Каждый раз, читая про новую модель робота. :)

@tsingular

❤‍🔥2🤔1

901 viewsedited 08:53

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)