Яндекс запустил AI-помощника для программистов
Yandex Code Assistant - новый ИИ-инструмент для разработчиков, созданный Яндексом, находится в стадии Preview.
Ассистент генерирует код за 400 мс, поддерживает 30+ языков программирования и популярные редакторы.
Сервис доступен бесплатно в тестовом режиме через Yandex Cloud.
Ассистент не нагружает локальные машины, работая из облака.
Есть плагин для VS Code
Норм подарок на День программиста :)
#Yandex #CodeAssistant #devtools
-------
@tsingular
Yandex Code Assistant - новый ИИ-инструмент для разработчиков, созданный Яндексом, находится в стадии Preview.
Ассистент генерирует код за 400 мс, поддерживает 30+ языков программирования и популярные редакторы.
Сервис доступен бесплатно в тестовом режиме через Yandex Cloud.
Ассистент не нагружает локальные машины, работая из облака.
Есть плагин для VS Code
Норм подарок на День программиста :)
#Yandex #CodeAssistant #devtools
-------
@tsingular
🔥13
FiveThirtyNine: ИИ-бот - эксперт в аналитических прогнозах
Бот на базе GPT-4o анализирует новости, статьи и выдаёт вероятности для любых запросов.
Точность 87.7% при тестировании на 177 вопросах Metaculus.
Превосходит опытных аналитиков и сравним по эффективности с командой экспертов.
Ограничения: отсутствие тонкой настройки, работа с недавними событиями.
Потенциал интеграции в чат-боты, соцсети и новостные сайты.
https://forecast.safe.ai/
Работает быстро и даёт детальный разбор по прогнозу, собирает инфу с около десятка источников и проводит критический анализ.
Интересная игрушка.
#FiveThirtyNine #Forecasting #DecisionMaking
-------
@tsingular
Бот на базе GPT-4o анализирует новости, статьи и выдаёт вероятности для любых запросов.
Точность 87.7% при тестировании на 177 вопросах Metaculus.
Превосходит опытных аналитиков и сравним по эффективности с командой экспертов.
Ограничения: отсутствие тонкой настройки, работа с недавними событиями.
Потенциал интеграции в чат-боты, соцсети и новостные сайты.
https://forecast.safe.ai/
Работает быстро и даёт детальный разбор по прогнозу, собирает инфу с около десятка источников и проводит критический анализ.
Интересная игрушка.
#FiveThirtyNine #Forecasting #DecisionMaking
-------
@tsingular
👍4
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
Обновления GigaChat: новая архитектура, высокая скорость и улучшенное качество ответов 🔥
Что поменялось в модели GigaChat PRO:
⭕️ увеличили скорость в 3 раза — быстрее, чем открыть поисковик
⭕️ сделали ответы красивее: параграфы, выделение текста, заголовки и многое другое. Теперь вам удобнее пользоваться решениями GigaChat
⭕️ увеличили контекст до 32 тысяч токенов. Это целых 60 страниц текста — в 5 раз больше прошлой версии
⭕️ улучшили качество ответов по:
— математике (GSM8k +15%, MATH +9,5%)
— коду (HumanEval +4%)
— наукам высокой сложности (GPQA +5%)
— финансовой и банковской тематике
🖥 GigaChat, подбери мне осенний плейлист
Что поменялось в модели GigaChat PRO:
— математике (GSM8k +15%, MATH +9,5%)
— коду (HumanEval +4%)
— наукам высокой сложности (GPQA +5%)
— финансовой и банковской тематике
Обновление также коснулось модели для бизнеса GigaChat Lite: её перевели на новую архитектуру Mixture of Experts и улучшили качество ответов на вопросы о музыке, кино, праве, книгах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13
O1 - новый набор моделей от OpenAI с поддержкой рассуждений
OpenAI представила новую серию моделей ИИ под названием OpenAI o1, специализирующихся на сложных рассуждениях и решении задач.
Модель o1-preview значительно превосходит предыдущие модели в таких областях, как математика, написание кода и решение научных задачи.
Например, она решила 83% задач на олимпиаде по математике, где GPT-4 решил только 13%.
o1 использует "цепочку мыслей" - внутренний процесс рассуждений перед выдачей ответа. Это помогает модели лучше решать сложные задачи.
Новый подход к обучению, интегрирующий правила безопасности в цепочку мыслей модели, значительно улучшил устойчивость o1 к попыткам обхода ограничений.
OpenAI планирует выпускать улучшенные версии o1 в будущем и ожидает, что эти модели откроют новые возможности применения ИИ в науке, программировании и математике.
Модель o1-mini представлена как более быстрая и дешевая версия для разработчиков, особенно эффективна в написании кода.
— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini
В API ограничений нет, кроме как на 20 запросов в минуту.
Сегодня раскатывают на всех владельцев подписки Plus и API у кого есть Tier5 (у мну есть хехе. :) ), но дорогая, поэтому пока посмотрим, почитаем, потестируем, но в ботов ставить не буду.
С Днём Программиста по версии OpenAI. :)
Anthropic, когда Opus 3.5 уже?
#OpenAI #O1 #LLM
———
@tsungular
OpenAI представила новую серию моделей ИИ под названием OpenAI o1, специализирующихся на сложных рассуждениях и решении задач.
Модель o1-preview значительно превосходит предыдущие модели в таких областях, как математика, написание кода и решение научных задачи.
Например, она решила 83% задач на олимпиаде по математике, где GPT-4 решил только 13%.
o1 использует "цепочку мыслей" - внутренний процесс рассуждений перед выдачей ответа. Это помогает модели лучше решать сложные задачи.
Новый подход к обучению, интегрирующий правила безопасности в цепочку мыслей модели, значительно улучшил устойчивость o1 к попыткам обхода ограничений.
OpenAI планирует выпускать улучшенные версии o1 в будущем и ожидает, что эти модели откроют новые возможности применения ИИ в науке, программировании и математике.
Модель o1-mini представлена как более быстрая и дешевая версия для разработчиков, особенно эффективна в написании кода.
— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini
В API ограничений нет, кроме как на 20 запросов в минуту.
Сегодня раскатывают на всех владельцев подписки Plus и API у кого есть Tier5 (у мну есть хехе. :) ), но дорогая, поэтому пока посмотрим, почитаем, потестируем, но в ботов ставить не буду.
С Днём Программиста по версии OpenAI. :)
Anthropic, когда Opus 3.5 уже?
#OpenAI #O1 #LLM
———
@tsungular
👍31 5❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
GPT o1-mini с 1 запроса написал игру PONG
код положу в комментарии, запускать на компьютере.
Управление стрелками и WS
сам запрос :
write pong game using JS, HTML with CSS. provide with single code at one file
вот этого теперь достаточно, чтобы получить результат.
#o1-mini
———
@tsingular
код положу в комментарии, запускать на компьютере.
Управление стрелками и WS
сам запрос :
write pong game using JS, HTML with CSS. provide with single code at one file
вот этого теперь достаточно, чтобы получить результат.
#o1-mini
———
@tsingular
👍17🆒5
This media is not supported in your browser
VIEW IN TELEGRAM
ещё один пример - Matrix style screensaver
строка запроса:
write matrix style screensaver using JS, HTML and CSS with background with japaneese style characters with time floating diagonally and bouncing off the screen borders around slowly like at screensaver. should autodetect screen size and proportion and adjust automatically to work perfectly on any device, PC or smartphone. provide single file with code, no commentary
и тоже с первого раза без ошибок!
код в комментарии.
#o1-mini
———
@tsingular
строка запроса:
write matrix style screensaver using JS, HTML and CSS with background with japaneese style characters with time floating diagonally and bouncing off the screen borders around slowly like at screensaver. should autodetect screen size and proportion and adjust automatically to work perfectly on any device, PC or smartphone. provide single file with code, no commentary
и тоже с первого раза без ошибок!
код в комментарии.
#o1-mini
———
@tsingular
👍17 3
Forwarded from Denis Sexy IT 🤖
Официальный советы по промпт-инженерингу o1:
Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях
Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»
Используйте разделители для ясности: используйте разделители, такие как тройные кавычки
Ограничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью
***
Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа
Видимо, в gpt5 уже и промпты не нужны будут, да?
Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях
Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»
Используйте разделители для ясности: используйте разделители, такие как тройные кавычки
```, XML-теги или заголовки разделов, чтобы четко обозначить разные части ввода, помогая модели правильно интерпретировать различные секцииОграничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью
***
Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа
Видимо, в gpt5 уже и промпты не нужны будут, да?
👍12
Когда получите возможность задать вопросы o1 - НИКОГДА не задавайте вот эти простые, которые он предлагает в меню.
Помните, что вопросов всего 30 в НЕДЕЛЮ. :)
Не разменивайтесь на глупости.
#o1
———
@tsingular
Помните, что вопросов всего 30 в НЕДЕЛЮ. :)
Не разменивайтесь на глупости.
#o1
———
@tsingular
👍2
Достаточно интересный для изучения документ system card o1.
Расписаны техники работы внутренних цепочек мышления.
Разобрано как работает и как тестировалось построение причинно-следственных рассуждений.
Модельку даже тестировали в CTF мероприятиях по кибербезу, где она себя уже неплохо показала на начальном уровне.
В том числе разобрано противостояние манипуляциям на генерацию запрещённого контента с разбором техник типа, - подкуп, подмена цели разговора, убеждение, обман и т.д.
В общем, must read!
#o1 #system
———
@tsingular
Расписаны техники работы внутренних цепочек мышления.
Разобрано как работает и как тестировалось построение причинно-следственных рассуждений.
Модельку даже тестировали в CTF мероприятиях по кибербезу, где она себя уже неплохо показала на начальном уровне.
В том числе разобрано противостояние манипуляциям на генерацию запрещённого контента с разбором техник типа, - подкуп, подмена цели разговора, убеждение, обман и т.д.
В общем, must read!
#o1 #system
———
@tsingular
👍1🔥1
AGI наступает: Консервативный прогноз Алана подпрыгнул до 81% после выхода o1
По итогам выхода o1 стрелка на спидометре прогноза Алана сдвинулась на 81%, теперь прогноз достижения Общего ИИ варьируется от января 2025 до октября 2026 года.
Т.е. в следующем году, буквально. Максимум через год.
Эксперты ожидают полного устранения галлюцинаций ИИ моделей к 2025 году.
Физическое воплощение ИИ, которое будет происходить (уже происходит) параллельно, - очень важная составляющая в росте интеллектуальности мультимодальных систем (полная мультимодальность, с учётом 3Д мира и движений, а не только текст, звук, картинки).
Попячтесь! грядёт! :)
Чем больше мы декомпозируем задачи, которые выполняет мозг, тем больше часть из них поддаётся автоматизации.
Все, кто топят, что _настоящего_ ИИ не будет ещё 100 лет, а это всё скриптики и всякие if-else конструкции, очень сильно заблуждаются в одном, - скриптики с ИИ очень сильно ускоряют приход _настоящего_ ИИ.
Сумма технологий.
#OpenAI #AGI #FutureOfAI
-------
@tsingular
По итогам выхода o1 стрелка на спидометре прогноза Алана сдвинулась на 81%, теперь прогноз достижения Общего ИИ варьируется от января 2025 до октября 2026 года.
Т.е. в следующем году, буквально. Максимум через год.
Эксперты ожидают полного устранения галлюцинаций ИИ моделей к 2025 году.
Физическое воплощение ИИ, которое будет происходить (уже происходит) параллельно, - очень важная составляющая в росте интеллектуальности мультимодальных систем (полная мультимодальность, с учётом 3Д мира и движений, а не только текст, звук, картинки).
Попячтесь! грядёт! :)
Чем больше мы декомпозируем задачи, которые выполняет мозг, тем больше часть из них поддаётся автоматизации.
Все, кто топят, что _настоящего_ ИИ не будет ещё 100 лет, а это всё скриптики и всякие if-else конструкции, очень сильно заблуждаются в одном, - скриптики с ИИ очень сильно ускоряют приход _настоящего_ ИИ.
Сумма технологий.
#OpenAI #AGI #FutureOfAI
-------
@tsingular
👍10👏1
This media is not supported in your browser
VIEW IN TELEGRAM
И всё же Claude Sonnet 3.5 с его Artifact функцией пока круче по работе с кодом, чем чистый вызов OpenAI O1 через API.
вот вариант Pong2 доработанный в Клоде.
Работает и на компе и на смартфоне.
управление WS+стрелки или просто четверти экрана нажимать и держать.
конечно в каком-нибудь Cursor сейчас через API O1 показывает чудеса, но стоит это все пока как чугунный мост.
5 вызовов O1-preview нагенерили мне почти $1.3 за пару минут.
надеюсь, когда выйдут из беты, - цена снизится.
как обычно код html в комментарии.
#o1 #dev
———
@tsingular
вот вариант Pong2 доработанный в Клоде.
Работает и на компе и на смартфоне.
управление WS+стрелки или просто четверти экрана нажимать и держать.
конечно в каком-нибудь Cursor сейчас через API O1 показывает чудеса, но стоит это все пока как чугунный мост.
5 вызовов O1-preview нагенерили мне почти $1.3 за пару минут.
надеюсь, когда выйдут из беты, - цена снизится.
как обычно код html в комментарии.
#o1 #dev
———
@tsingular
👍5👀1
Forwarded from Сиолошная
Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺
В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут).
По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.
Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.
Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.
Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).
Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.
Источник — отчёт OpenAI
В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут).
По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.
Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.
Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.
Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).
Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.
Источник — отчёт OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13😁1
Media is too big
VIEW IN TELEGRAM
А все же в игровые автоматы играли в детстве? :)
Держите пятничное.
Claude+O1
Игра в комментарии. Просто запустите файл с любого устройства.
#game #dev
———
@tsingualr
Держите пятничное.
Claude+O1
Игра в комментарии. Просто запустите файл с любого устройства.
#game #dev
———
@tsingualr
👍14
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Метакомпоз: новая фича от Runway - video2video.
В субботу не дают отдохнуть. Приходится писать, ибо повод чуть шире, чем новая фишка Рунвея.
Кстати, все это отлично бьется с моими вчерашними эскападами про референсы для проектов.
Итак, Рунвей выкатил новую фичу - video2video (тут, справедливости ради, надо сказать, что у опенсорсного CogVideo такая фича уже есть, но качество далеко позади).
Сначала это воспринимается как стилизация видео. Но если поглядеть на примеры, которые я вам натаскал не из демо Рунвея, а от подписчиков и твитторских, то это сильно шире.
Оно переделывает мир вокруг. Это не пиксельфакинг и фильтры поверх картинки, это как бы перемоделинг, перерендер и перекомпоз. Метакомпоз в общем.
Поглядите на пластиковые звездные войны или сцену из Матрицы.
Можно делать пластилиновую ворону из пиксаровских Birds и обратно.
Можно завернуть Парк Юрского периода в Aardman Animation
Можно переделать Южный парк в Южный централ
Ну вы поняли...
Для целей продакшена это выглядит как ВидеоКонтролНет - подснимайте референсы и ну крутить промпты.
Но народ в сети далек от поста, поэтому все бросились делать что?
Правильно, наваливать video2video на свои же сгенеренные видео. Ну и это не лишено смысла.
Получается такой Креативный Апскейл - где апскейлятся не пиксели, а ваши рахитичные идеи, ваш креатив.
В общем выходные буду завалены мемными генерациями сцен из фильмов, клипов и прочего вирусняка.
Вирусные деривативы, так сказать. Вторая производная.
@cgevent
В субботу не дают отдохнуть. Приходится писать, ибо повод чуть шире, чем новая фишка Рунвея.
Кстати, все это отлично бьется с моими вчерашними эскападами про референсы для проектов.
Итак, Рунвей выкатил новую фичу - video2video (тут, справедливости ради, надо сказать, что у опенсорсного CogVideo такая фича уже есть, но качество далеко позади).
Сначала это воспринимается как стилизация видео. Но если поглядеть на примеры, которые я вам натаскал не из демо Рунвея, а от подписчиков и твитторских, то это сильно шире.
Оно переделывает мир вокруг. Это не пиксельфакинг и фильтры поверх картинки, это как бы перемоделинг, перерендер и перекомпоз. Метакомпоз в общем.
Поглядите на пластиковые звездные войны или сцену из Матрицы.
Можно делать пластилиновую ворону из пиксаровских Birds и обратно.
Можно завернуть Парк Юрского периода в Aardman Animation
Можно переделать Южный парк в Южный централ
Ну вы поняли...
Для целей продакшена это выглядит как ВидеоКонтролНет - подснимайте референсы и ну крутить промпты.
Но народ в сети далек от поста, поэтому все бросились делать что?
Правильно, наваливать video2video на свои же сгенеренные видео. Ну и это не лишено смысла.
Получается такой Креативный Апскейл - где апскейлятся не пиксели, а ваши рахитичные идеи, ваш креатив.
В общем выходные буду завалены мемными генерациями сцен из фильмов, клипов и прочего вирусняка.
Вирусные деривативы, так сказать. Вторая производная.
@cgevent
👍3🔥2❤1