Корпорация из Редмонда вводит голосовую активацию своего цифрового ассистента в Windows 11 через команду 'Hey, Copilot!'.
В тестовом режиме уже доступна участником программы Windows Insiders.
После произнесения ключевой фразы появляется плавающий интерфейс микрофона и звуковое подтверждение активации.
Технология использует локальное распознавание с 10-секундным аудиобуфером без отправки данных в облако.
Система работает офлайн, хотя полный функционал Copilot Voice требует сетевого соединения.
Обновление доступно пользователям с англоязычным интерфейсом при наличии версии приложения 1.25051.10.0 или новее.
Привет, товарищ майор! :)
#Microsoft #Copilot #Voice
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡1👍1
👀Ученые MIT обнаружили, что модели машинного зрения не понимают отрицание
Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.
Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения
Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков
Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".
Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.
Не думай о белом слоне.
Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.
Графические модели так же можно проверять - "нарисуй комнату без жирафа".
#VLM #отрицания #контекст
———
@tsingular
Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.
Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения
Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков
Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".
Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.
Не думай о белом слоне.
Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.
Графические модели так же можно проверять - "нарисуй комнату без жирафа".
#VLM #отрицания #контекст
———
@tsingular
✍5⚡3🔥3
В своём боте @sketchmaster_bot проверил эту тему
Нарисуй, говорю, комнату без жирафа.
Но у меня под капотом предобработка запроса как раз есть и из короткого запроса был автоматом сделан развёрнутый:
Даже из описания обстановки чувствуется, что жирафа очень не хватает, он где-то рядом :)
И цвета и пустота ожидания.
В общем с задачей справился, считаю на 100% :)
Но, ещё раз, - важна предобработка.
#dev #нейрорендер #боты
———
@tsingular
Нарисуй, говорю, комнату без жирафа.
Но у меня под капотом предобработка запроса как раз есть и из короткого запроса был автоматом сделан развёрнутый:
Скудно обставленная комната, залитая мягким рассеянным светом. Стены приглушенного кремового цвета, отражающие нежное свечение. Простой деревянный стул стоит возле большого пустого окна с видом на туманный, неясный пейзаж. Пол покрыт потертым узорчатым ковром в оттенках охры и коричневого. Ощущение тихого уединения пронизывает пространство.
Даже из описания обстановки чувствуется, что жирафа очень не хватает, он где-то рядом :)
И цвета и пустота ожидания.
В общем с задачей справился, считаю на 100% :)
Но, ещё раз, - важна предобработка.
#dev #нейрорендер #боты
———
@tsingular
😁10🔥4⚡3👍2
Bitrix24 теперь идет с GPT на борту.
ИИ интегрирован в задачи, чаты, CRM и в режиме Копайлота во все сервисы Битрикса
https://www.bitrix24.ru/features/copilot/
Онлайн эфир
Так же запущены ИИ Агенты - Бизнес-процессы 2.0
Агенты собираются или в no-code интерфейсе или с использованием ИИ ассистента - Марты.
В том числе проектирование можно вести в голосовом режиме.
ИИ ассистент на базе БитриксCRM будет генерить и вести повторные продажи на базе истории покупок и данных CRM с интеграцией в маркетплейсы.
Каждую ночь база анализируется ИИ и с утра у вас к каждому заказчику новый персонифицированный лид.
Причём это будет бесплатный базовый функционал.
Теперь не нужно будет самостоятельно собирать CRM.
ИИ ассистент сам создаст структуру таблиц, карточку сделки, стадии воронок и т.д.
Может или создать заново или изменить существующую и создаст обучающий курс объясняющий что где и как работает.
#Bitrix24
———
@tsingular
ИИ интегрирован в задачи, чаты, CRM и в режиме Копайлота во все сервисы Битрикса
https://www.bitrix24.ru/features/copilot/
Онлайн эфир
Так же запущены ИИ Агенты - Бизнес-процессы 2.0
Агенты собираются или в no-code интерфейсе или с использованием ИИ ассистента - Марты.
В том числе проектирование можно вести в голосовом режиме.
ИИ ассистент на базе БитриксCRM будет генерить и вести повторные продажи на базе истории покупок и данных CRM с интеграцией в маркетплейсы.
Каждую ночь база анализируется ИИ и с утра у вас к каждому заказчику новый персонифицированный лид.
Причём это будет бесплатный базовый функционал.
Теперь не нужно будет самостоятельно собирать CRM.
ИИ ассистент сам создаст структуру таблиц, карточку сделки, стадии воронок и т.д.
Может или создать заново или изменить существующую и создаст обучающий курс объясняющий что где и как работает.
#Bitrix24
———
@tsingular
🤔6🔥3👀1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖Open Agent Platform - No-Code решение для создания агентов от LangChain
LangChain представил свою платформу для создания агентов без кода — Open Agent Platform (OAP).
Ключевые особенности
- Управление агентами: Создание, настройка и взаимодействие через интуитивный веб-интерфейс
- RAG-интеграция: Поддержка Retrieval Augmented Generation через LangConnect
- Подключение инструментов: Соединение агентов с внешними сервисами через MCP-серверы
- Агент-супервизор: Оркестрация взаимодействия нескольких агентов через Agent Supervisor
- Встроенная аутентификация: Готовая система доступа и контроля пользователей
- Настраиваемые агенты: Простое определение пользовательских конфигураций через UI
Если уже используете LangGraph, OAP предоставляет удобный способ создания и управления агентами.
Demo:
https://oap.langchain.com
Github:
https://github.com/langchain-ai/open-agent-platform/
#langchain #agents #frameworks
———
@tsingular
LangChain представил свою платформу для создания агентов без кода — Open Agent Platform (OAP).
Ключевые особенности
- Управление агентами: Создание, настройка и взаимодействие через интуитивный веб-интерфейс
- RAG-интеграция: Поддержка Retrieval Augmented Generation через LangConnect
- Подключение инструментов: Соединение агентов с внешними сервисами через MCP-серверы
- Агент-супервизор: Оркестрация взаимодействия нескольких агентов через Agent Supervisor
- Встроенная аутентификация: Готовая система доступа и контроля пользователей
- Настраиваемые агенты: Простое определение пользовательских конфигураций через UI
Если уже используете LangGraph, OAP предоставляет удобный способ создания и управления агентами.
Demo:
https://oap.langchain.com
Github:
https://github.com/langchain-ai/open-agent-platform/
#langchain #agents #frameworks
———
@tsingular
⚡8👍2
🔊Unsloth опубликовал готовый код для файнтюна TTS моделей
Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.
Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper
Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)
Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости
Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы
Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.
Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.
#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.
Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper
Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)
Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа
<laugh>, <sigh>)- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости
Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы
Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.
Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.
#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
👍6🔥2❤1⚡1
Stackoverflow туда же.
ИИ становится единым источником любых знаний уже.
#Stackoverflow
------
@tsingular
ИИ становится единым источником любых знаний уже.
#Stackoverflow
------
@tsingular
✍9👀4😢2⚡1🤯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Пурдюбик кубик.
Это дикое сломо. В реальности робат собирает кубик Рубика за, внимание 0.103 секунды ИЗ ЛЮБОГО положения граней. С помощью computer vision.
Посмотрите момент вначале и в конце.
Итак.
Студенты Университета Purdue построили робота Purdubik's Cube, который собрал(решив по дороге) кубик Рубика за 0,103 секунды, установив 21 апреля 2025 года мировой рекорд Гиннесса.
Робот использует комп. зрение и алгоритмы для решения кубика в режиме реального времени, а не только заранее запрограммированные движения.
Ну, за рекорды.
@cgevent
Это дикое сломо. В реальности робат собирает кубик Рубика за, внимание 0.103 секунды ИЗ ЛЮБОГО положения граней. С помощью computer vision.
Посмотрите момент вначале и в конце.
Итак.
Студенты Университета Purdue построили робота Purdubik's Cube, который собрал(решив по дороге) кубик Рубика за 0,103 секунды, установив 21 апреля 2025 года мировой рекорд Гиннесса.
Робот использует комп. зрение и алгоритмы для решения кубика в режиме реального времени, а не только заранее запрограммированные движения.
Ну, за рекорды.
@cgevent
🔥20
🌐 ОАЭ и США запускают крупнейший за пределами Америки 5-гигаваттный AI-кампус
При участии президента ОАЭ Шейха Мохаммеда бин Заида Аль Нахайяна и президента США Дональда Трампа в Абу-Даби представлен первый этап нового 5-гигаваттного AI-кампуса — крупнейшего подобного комплекса за пределами США.
📊 Ключевые технические параметры:
Мощность: 5 ГВт вычислительной инфраструктуры для дата-центров с ИИ
Площадь: 25,9 кв. км (10 кв. миль) в эмирате Абу-Даби
Оператор: G42 (национальный AI-лидер в ОАЭ) в партнерстве с американскими компаниями
Масштаб: По оценке Rand Corporation, кампус сможет поддерживать до 2,5 миллиона NVIDIA B200 — больше, чем все другие крупные инфраструктурные проекты ИИ
Чипы: Согласовано разрешение на импорт 500 000 самых передовых чипов NVIDIA ежегодно начиная с 2025 года
⚡️ Энергетическая инфраструктура:
Комплекс будет использовать атомную, солнечную и газовую энергию для минимизации выбросов углерода
Интегрированный подход к энергоснабжению обеспечит устойчивость вычислительной инфраструктуры
🔒 Безопасность и контроль:
Реализованы строгие меры для предотвращения утечки технологий
Совместное американо-эмиратское управление протоколами "Знай своего клиента" (KYC)
Вычислительные ресурсы зарезервированы исключительно для американских гиперскейлеров и авторизованных облачных провайдеров
США сохраняют контроль, поскольку американские компании будут управлять дата-центрами
🌍 Стратегическое значение:
- Доступ к вычислительным ресурсам для почти половины населения мира, находящегося в радиусе 3200 км от ОАЭ
- Снижение задержки в обработке данных для Африки, Европы и Азии
- Создание научного парка для продвижения инноваций в области ИИ
- Расширение влияния американских технологий на Ближнем Востоке
💼 Параллельные инициативы:
- Qualcomm открывает Глобальный инженерный центр в Абу-Даби с фокусом на ИИ, дата-центры и промышленный IoT
- Amazon Web Services запускает Sovereign Cloud Launchpad с ожидаемым вкладом $181 млрд в цифровую экономику ОАЭ к 2033 году
Соглашение предусматривает инвестиции ОАЭ в создание американских дата-центров аналогичного масштаба
🔄 Похожие инициативы в регионе:
- Саудовская Аравия запустила HUMAIN — государственную AI-компанию под председательством наследного принца Мохаммеда бин Салмана
- Сотрудничество между AMD и саудовской HUMAIN с инвестициями до $10 млрд в инфраструктуру ИИ с развертыванием 500 МВт вычислительных мощностей
- Франция и ОАЭ также заключили соглашение о совместном проекте по строительству 1-гигаваттного дата-центра для ИИ во Франции (инвестиции €30-50 млрд)
Этот проект закрепляет позицию ОАЭ в качестве регионального технологического хаба, продолжая стратегию страны по внедрению ИИ, начатую с назначения первого в мире федерального министра искусственного интеллекта в 2017 году и создания Университета искусственного интеллекта имени Мохаммеда бин Заида в 2019 году.
#AI #технологии #ОАЭ #датацентры #G42 #NVIDIA
———
@tsingular
При участии президента ОАЭ Шейха Мохаммеда бин Заида Аль Нахайяна и президента США Дональда Трампа в Абу-Даби представлен первый этап нового 5-гигаваттного AI-кампуса — крупнейшего подобного комплекса за пределами США.
📊 Ключевые технические параметры:
Мощность: 5 ГВт вычислительной инфраструктуры для дата-центров с ИИ
Площадь: 25,9 кв. км (10 кв. миль) в эмирате Абу-Даби
Оператор: G42 (национальный AI-лидер в ОАЭ) в партнерстве с американскими компаниями
Масштаб: По оценке Rand Corporation, кампус сможет поддерживать до 2,5 миллиона NVIDIA B200 — больше, чем все другие крупные инфраструктурные проекты ИИ
Чипы: Согласовано разрешение на импорт 500 000 самых передовых чипов NVIDIA ежегодно начиная с 2025 года
⚡️ Энергетическая инфраструктура:
Комплекс будет использовать атомную, солнечную и газовую энергию для минимизации выбросов углерода
Интегрированный подход к энергоснабжению обеспечит устойчивость вычислительной инфраструктуры
🔒 Безопасность и контроль:
Реализованы строгие меры для предотвращения утечки технологий
Совместное американо-эмиратское управление протоколами "Знай своего клиента" (KYC)
Вычислительные ресурсы зарезервированы исключительно для американских гиперскейлеров и авторизованных облачных провайдеров
США сохраняют контроль, поскольку американские компании будут управлять дата-центрами
🌍 Стратегическое значение:
- Доступ к вычислительным ресурсам для почти половины населения мира, находящегося в радиусе 3200 км от ОАЭ
- Снижение задержки в обработке данных для Африки, Европы и Азии
- Создание научного парка для продвижения инноваций в области ИИ
- Расширение влияния американских технологий на Ближнем Востоке
💼 Параллельные инициативы:
- Qualcomm открывает Глобальный инженерный центр в Абу-Даби с фокусом на ИИ, дата-центры и промышленный IoT
- Amazon Web Services запускает Sovereign Cloud Launchpad с ожидаемым вкладом $181 млрд в цифровую экономику ОАЭ к 2033 году
Соглашение предусматривает инвестиции ОАЭ в создание американских дата-центров аналогичного масштаба
🔄 Похожие инициативы в регионе:
- Саудовская Аравия запустила HUMAIN — государственную AI-компанию под председательством наследного принца Мохаммеда бин Салмана
- Сотрудничество между AMD и саудовской HUMAIN с инвестициями до $10 млрд в инфраструктуру ИИ с развертыванием 500 МВт вычислительных мощностей
- Франция и ОАЭ также заключили соглашение о совместном проекте по строительству 1-гигаваттного дата-центра для ИИ во Франции (инвестиции €30-50 млрд)
Этот проект закрепляет позицию ОАЭ в качестве регионального технологического хаба, продолжая стратегию страны по внедрению ИИ, начатую с назначения первого в мире федерального министра искусственного интеллекта в 2017 году и создания Университета искусственного интеллекта имени Мохаммеда бин Заида в 2019 году.
#AI #технологии #ОАЭ #датацентры #G42 #NVIDIA
———
@tsingular
⚡7❤2👍2🤔2🔥1
Windsurf SWE-1: новые AI-модели с для разработчиков
Windsurf (ранее Codeium) выпустил семейство специализированных AI-моделей SWE-1, созданных для полного цикла разработки ПО. Ключевое отличие от обычных кодовых ассистентов — понимание процесса разработки как единого потока, а не отдельных задач.
Технологические особенности: Flow Awareness и Shared Timeline
Главная инновация SWE-1 — концепция Flow Awareness, оптимизирующая взаимодействие с AI-ассистентом. В отличие от стандартных LLM, которые работают в рамках single-shot запросов, SWE-1:
• Поддерживает контекст между несколькими поверхностями разработки (редактор, терминал, браузер)
• Отслеживает незавершённые состояния кода и долгосрочные задачи
• Адаптируется к индивидуальному стилю разработчика в рамках проекта
• Оптимизирует свою работу на основе истории взаимодействий
Система Shared Timeline позволяет плавно распределять задачи между человеком и AI. Модель анализирует, где может эффективнее всего помочь, создавая постоянный цикл улучшений:
— утверждает Рамачандран.
Технические спецификации моделей:
• SWE-1: Полноразмерная frontier-модель
- Сопоставимая с Claude 3.5 Sonnet в ключевых задачах с человеком в контуре
- Оптимизирована для сложных размышений и использования инструментов разработки
- Эффективна для управления техническим долгом и code review
- Доступна платным пользователям
• SWE-1-lite: Средняя модель для ежедневного использования
- Представляет из себя улучшенный вариант Cascade Base
- Баланс скорости и качества кода
- Оптимизирована для работы с не полным контекстом
- Доступна всем пользователям, включая бесплатные аккаунты
• SWE-1-mini: Лёгкая модель для фоновой работы
- Работает полностью локально с минимальной задержкой
- Специализируется на фоновых предсказаниях кода в Windsurf Tab
- Потребляет минимум вычислительных ресурсов
- Не ограничена для всех пользователей
Уникальная архитектура обучения
SWE-1 обучалась с использованием принципиально нового подхода:
• Специализированный dataset с последовательной структурой инженерных задач
• Тренировочные данные включают полные flow-сессии, а не изолированные примеры кода
• Модель обучалась понимать долгосрочные зависимости в проектах
• Оптимизация выполнена под специфические шаблоны взаимодействия в процессе разработки
Сравнение с Cursor (Anysphere):
• SWE-1 показывает более консистентные результаты в долгосрочных проектах
• Cursor генерирует $200 млн ARR против $40 млн у Windsurf
• Cursor оценивается в $10 млрд, что объясняет выбор OpenAI в пользу Windsurf ($3 млрд)
• Windsurf недавно снизил цены "across the board", убрав сложную систему flow action credits
Сравнение с GitHub Copilot:
• SWE-1 предлагает более гибкую архитектуру с несколькими моделями
• Copilot, будучи первопроходцем, сейчас демонстрирует отставание в инновациях
• SWE-1 обеспечивает лучшее понимание контекста за пределами редактора кода
Бизнес-перспективы и стратегическое значение
• OpenAI приобретает Windsurf за $3 млрд, уступив в борьбе за Cursor
• Рынок AI-инструментов для разработки достигнет $25 млрд к 2030 году
• После интеграции с ресурсами OpenAI модели получат доступ к значительно большим вычислительным мощностям
• Ожидается интеграция моделей SWE-1 с более широкой AI-экосистемой OpenAI
— объясняет Рамачандран.
Реально не хватает шага, где Антропик или Гугл покупает Курсор.
#SWE-1 #Windsurf #OpenAI #разработка #FlowAwareness
———
@tsingular
Windsurf (ранее Codeium) выпустил семейство специализированных AI-моделей SWE-1, созданных для полного цикла разработки ПО. Ключевое отличие от обычных кодовых ассистентов — понимание процесса разработки как единого потока, а не отдельных задач.
Технологические особенности: Flow Awareness и Shared Timeline
Главная инновация SWE-1 — концепция Flow Awareness, оптимизирующая взаимодействие с AI-ассистентом. В отличие от стандартных LLM, которые работают в рамках single-shot запросов, SWE-1:
• Поддерживает контекст между несколькими поверхностями разработки (редактор, терминал, браузер)
• Отслеживает незавершённые состояния кода и долгосрочные задачи
• Адаптируется к индивидуальному стилю разработчика в рамках проекта
• Оптимизирует свою работу на основе истории взаимодействий
Система Shared Timeline позволяет плавно распределять задачи между человеком и AI. Модель анализирует, где может эффективнее всего помочь, создавая постоянный цикл улучшений:
"С развитием моделей всё больше шагов в этом общем таймлайне будут переключаться с человека на AI,"
— утверждает Рамачандран.
Технические спецификации моделей:
• SWE-1: Полноразмерная frontier-модель
- Сопоставимая с Claude 3.5 Sonnet в ключевых задачах с человеком в контуре
- Оптимизирована для сложных размышений и использования инструментов разработки
- Эффективна для управления техническим долгом и code review
- Доступна платным пользователям
• SWE-1-lite: Средняя модель для ежедневного использования
- Представляет из себя улучшенный вариант Cascade Base
- Баланс скорости и качества кода
- Оптимизирована для работы с не полным контекстом
- Доступна всем пользователям, включая бесплатные аккаунты
• SWE-1-mini: Лёгкая модель для фоновой работы
- Работает полностью локально с минимальной задержкой
- Специализируется на фоновых предсказаниях кода в Windsurf Tab
- Потребляет минимум вычислительных ресурсов
- Не ограничена для всех пользователей
Уникальная архитектура обучения
SWE-1 обучалась с использованием принципиально нового подхода:
• Специализированный dataset с последовательной структурой инженерных задач
• Тренировочные данные включают полные flow-сессии, а не изолированные примеры кода
• Модель обучалась понимать долгосрочные зависимости в проектах
• Оптимизация выполнена под специфические шаблоны взаимодействия в процессе разработки
Сравнение с Cursor (Anysphere):
• SWE-1 показывает более консистентные результаты в долгосрочных проектах
• Cursor генерирует $200 млн ARR против $40 млн у Windsurf
• Cursor оценивается в $10 млрд, что объясняет выбор OpenAI в пользу Windsurf ($3 млрд)
• Windsurf недавно снизил цены "across the board", убрав сложную систему flow action credits
Сравнение с GitHub Copilot:
• SWE-1 предлагает более гибкую архитектуру с несколькими моделями
• Copilot, будучи первопроходцем, сейчас демонстрирует отставание в инновациях
• SWE-1 обеспечивает лучшее понимание контекста за пределами редактора кода
Бизнес-перспективы и стратегическое значение
• OpenAI приобретает Windsurf за $3 млрд, уступив в борьбе за Cursor
• Рынок AI-инструментов для разработки достигнет $25 млрд к 2030 году
• После интеграции с ресурсами OpenAI модели получат доступ к значительно большим вычислительным мощностям
• Ожидается интеграция моделей SWE-1 с более широкой AI-экосистемой OpenAI
"Разработка — это намного больше, чем просто написание кода. SWE-1 создана, чтобы охватить весь процесс от планирования до деплоя,"
— объясняет Рамачандран.
Реально не хватает шага, где Антропик или Гугл покупает Курсор.
#SWE-1 #Windsurf #OpenAI #разработка #FlowAwareness
———
@tsingular
👍5🔥3✍1😢1
Forwarded from Пырьев натворил
Врубаем свет, запускаем рендер — сегодня делаем релиз нашего нового AI-блокбастера.
Мы решили провести эксперимент — можно ли создать фотореалистичный ролик только ИИ инструментами. Получилось процентов на 80%, остальное руками🙂. Пока технологии не позволяют закрыть 100% задач, если говорить о качественном продукте.
Видео, музыка и диктор — сгенерированы с помощью ИИ.
Монтаж, цветокор и саунд-дизайн — команда.
Ролик также можно посмотреть на vimeo.
Для тех, кому интересен стек, который мы использовали:
Midjourney, ChatGPT, Runway, Kling, Sora, Luma (Dream Machine), Higgsfield, Krea, Topaz AI Video, Suno.
Мы в Щи Продакшен активно развиваем использование AI-технологий.
Делаем подобные проекты для клиентов, параллельно экспериментируем, создавая свои творческие задумки.
Сейчас интернет заполонён низкосортными и криповыми AI-видео — прогнозируемо, технологии вышли в массы, и это неизбежно. Но мы видим в AI-видео не панацею, а крутой инструмент в работе.
AI-видео имеет три основных преимущества:
— создавать то, что невозможно (или очень сложно) снять или сделать в реальной жизни
— ускорение и удешевление продакшена
— рождение новых визуальных решений
Мы протестировали почти весь топ AI-моделей. Пока что технологии сыроваты, чтобы делать абсолютно кастомные ролики высокого качества.
Сам процесс генерации — это постоянный сюрприз. Часто нужно сгенерировать сотни видео, чтобы нейросеть выдала нужный кадр без артефактов и попаданием в задуманное. Поэтому приходится использовать большой набор нейросетей, потому что каждая из них лучше справляется с разными задачами. Одна — круто работает с динамикой, другая — с персонажами, третья — с движениями камеры и так далее.
Для этого ролика мы сгенерировали несколько тысяч изображений, а после сотни видео, чтобы собрать финальные 60 секунд.
Здесь буду и дальше делиться нашими находками, проектами и экспериментами в этом направлении.
Да будет эй ай!
@brandiver
Мы решили провести эксперимент — можно ли создать фотореалистичный ролик только ИИ инструментами. Получилось процентов на 80%, остальное руками🙂. Пока технологии не позволяют закрыть 100% задач, если говорить о качественном продукте.
Видео, музыка и диктор — сгенерированы с помощью ИИ.
Монтаж, цветокор и саунд-дизайн — команда.
Ролик также можно посмотреть на vimeo.
Для тех, кому интересен стек, который мы использовали:
Midjourney, ChatGPT, Runway, Kling, Sora, Luma (Dream Machine), Higgsfield, Krea, Topaz AI Video, Suno.
Мы в Щи Продакшен активно развиваем использование AI-технологий.
Делаем подобные проекты для клиентов, параллельно экспериментируем, создавая свои творческие задумки.
Сейчас интернет заполонён низкосортными и криповыми AI-видео — прогнозируемо, технологии вышли в массы, и это неизбежно. Но мы видим в AI-видео не панацею, а крутой инструмент в работе.
AI-видео имеет три основных преимущества:
— создавать то, что невозможно (или очень сложно) снять или сделать в реальной жизни
— ускорение и удешевление продакшена
— рождение новых визуальных решений
Мы протестировали почти весь топ AI-моделей. Пока что технологии сыроваты, чтобы делать абсолютно кастомные ролики высокого качества.
Сам процесс генерации — это постоянный сюрприз. Часто нужно сгенерировать сотни видео, чтобы нейросеть выдала нужный кадр без артефактов и попаданием в задуманное. Поэтому приходится использовать большой набор нейросетей, потому что каждая из них лучше справляется с разными задачами. Одна — круто работает с динамикой, другая — с персонажами, третья — с движениями камеры и так далее.
Для этого ролика мы сгенерировали несколько тысяч изображений, а после сотни видео, чтобы собрать финальные 60 секунд.
Здесь буду и дальше делиться нашими находками, проектами и экспериментами в этом направлении.
Да будет эй ай!
@brandiver
🔥15👍6❤🔥3👏1
Forwarded from Machinelearning
Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.
Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).
В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.
CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.
Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.
На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.
В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.
В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.
@ai_machinelearning_big_data
#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI представила Codex - облачный агент для разработки ПО, который может работать над множеством задач параллельно.
- Разрабатывает новые функции
- Отвечает на вопросы о кодовой базе
- Исправляет баги
- Формирует pull-запросы на проверку
🔧 Технические особенности:
- Работает на codex-1 - специальной версии OpenAI o3, оптимизированной для разработки ПО
- Использует облачные изолированные окружения для каждой задачи, предзагруженные с вашим репозиторием
- Выполняет команды, включая тесты, линтеры и проверки типов
- Поддерживает файлы AGENTS.md для настройки рабочих процессов
Доступен для ChatGPT Pro, Enterprise и Team пользователей уже сегодня (Plus и Edu - скоро)
💡 Практическое применение:
Инженеры OpenAI уже используют Codex в ежедневной работе для:
- Рефакторинга и переименования компонентов
- Написания тестов без отвлечения от основных задач
- Создания каркасов новых функций
- Интеграции компонентов
- Исправления багов
- Составления документации
🔒 Безопасность и защита от злоупотреблений:
Codex обучен распознавать и отклонять запросы на разработку вредоносного ПО, при этом поддерживая нормальные задачи.
Агент работает в защищенном изолированном контейнере без доступа к интернету - он взаимодействует только с кодом, явно предоставленным через GitHub и предустановленными зависимостями.
⚡️ Обновления Codex CLI:
Также выпущена облегченная версия codex-1 (версия o4-mini) для использования в Codex CLI - она оптимизирована для быстрых вопросов по коду и редактирования с низкой задержкой. Доступ к Codex CLI стал проще через авторизацию аккаунта ChatGPT.
📊 Будущее Codex:
OpenAI видит будущее, где разработчики управляют работой, которую хотят делать сами, а остальное делегируют агентам.
Ожидаются в будущих обновлениях:
- Более интерактивные и гибкие рабочие процессы
- Возможность давать указания в середине выполнения задачи
- Проактивные обновления о прогрессе
- Интеграции с инструментами, которые вы уже используете (GitHub, ChatGPT Desktop, трекеры задач)
А еще выложили системный промпт
#OpenAI #Codex
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡2🔥2
Forwarded from PWN AI (Artyom Semenov)
В последнее время часто вижу термин Internet Of Agents(IoA). Мы уже с вами прекрасно понимаем ландшафт угроз для обычных агентных систем. Но в чём особенность именно агентного интернета ?
Под IoA сейчас понимают инфраструктуру центричность которой поставлена на агентах, взаимодействие с ними вне рамках обычных сетей организаций а также чтобы они могли координированно выполнять задачи.
Для коммуникации между агентами в такой сети реализовано большое множество протоколов – самый известный MCP, но как правило – не единственный (подробнее на рис.1).
Мы должны понимать самое важное что в такой сети может использоваться множество LLM как ядра определённых систем, следовательно – они могут наследовать проблемы самих моделей. Важный фактор что такие системы пока что могут быть децентрализованными(рано или поздно будут регуляторы, реестры и т.д). И хоть кажется что реализация такой сети будет иметь большие преимущества(безусловно это так). Но риски ИБ тут никто не отменял.
В статье Security of Internet of Agents: Attacks and Countermeasures рассматривается некая модель угроз для такой площадки. IoA переваривает множество персональной информации, коммерческих данных и из-за этого вопрос безопасности аутентификации между агентными системами – является критически значимым.
В статье определяют несколько угроз:
⁉️ Подделка идентичности - злоумышленники создают поддельные идентификаторы агентов.
⁉️ Имперсонификация - злоумышленники выдают себя за легитимных агентов
⁉️ Атаки типа Sybil -когда создаётся множество фиктивных идентичностей для манипуляции системой
⁉️ Каскадные атаки - неточные или противоречивые выходные данные LLM могут распространяться и усиливаться через последующие взаимодействия агентов в самой системе
⁉️ А также … Скрытый сговор – агенты могут начать сотрудничать для достижения целей, которые будут противоречить интересам пользователя.
Несоменно в своё видение угроз авторы добавили RAG, достаточно очевидно и можно согласиться.
Авторы также предложили пока что теоретические варианты митигаций:
Внедрять механизмы (пока что не агентов), которые бы смотрели наличие сговора.
Системы репутации и реестры на основе блокчейна, а также контроль доступа, зависимый от контекста самой агентой системы.
Да, пока что это выглядит слишком концептуально, да и честно сказать с трудом вериться в то, что LLM будет активно оценивать результаты других агентов. Но проблема становиться виднее.
Под IoA сейчас понимают инфраструктуру центричность которой поставлена на агентах, взаимодействие с ними вне рамках обычных сетей организаций а также чтобы они могли координированно выполнять задачи.
Для коммуникации между агентами в такой сети реализовано большое множество протоколов – самый известный MCP, но как правило – не единственный (подробнее на рис.1).
Мы должны понимать самое важное что в такой сети может использоваться множество LLM как ядра определённых систем, следовательно – они могут наследовать проблемы самих моделей. Важный фактор что такие системы пока что могут быть децентрализованными(рано или поздно будут регуляторы, реестры и т.д). И хоть кажется что реализация такой сети будет иметь большие преимущества(безусловно это так). Но риски ИБ тут никто не отменял.
В статье Security of Internet of Agents: Attacks and Countermeasures рассматривается некая модель угроз для такой площадки. IoA переваривает множество персональной информации, коммерческих данных и из-за этого вопрос безопасности аутентификации между агентными системами – является критически значимым.
В статье определяют несколько угроз:
Несоменно в своё видение угроз авторы добавили RAG, достаточно очевидно и можно согласиться.
Авторы также предложили пока что теоретические варианты митигаций:
Внедрять механизмы (пока что не агентов), которые бы смотрели наличие сговора.
Системы репутации и реестры на основе блокчейна, а также контроль доступа, зависимый от контекста самой агентой системы.
Да, пока что это выглядит слишком концептуально, да и честно сказать с трудом вериться в то, что LLM будет активно оценивать результаты других агентов. Но проблема становиться виднее.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5