Forwarded from Machinelearning
Google DeepMind представили AlphaEvolve — агент на базе Gemini, способный автоматически генерировать новые алгоритмы и находить оптимальные решения сложных задач.
🔘 Генерирует быстрые алгоритмы умножения матриц
🔘 Находит новые решения математических задач
🔘 Оптимизирует работу дата-центров, чипов и обучения ИИ модель за счёт сгенерированный алгоритмов
1) Генерация идей с помощью LLMs: Модель Gemini анализирует существующие подходы к решению задачи и предлагает новые алгоритмические идеи, используя свой широкий контекст и знания.
2) Автоматическая оценка: Каждый предложенный алгоритм проходит через систему автоматической оценки, которая измеряет его эффективность, точность и другие ключевые метрики, позволяя объективно сравнивать различные решения.
3) Эволюционное улучшение: AlphaEvolve применяет эволюционные методы, такие как мутация и рекомбинация, чтобы постепенно улучшать алгоритмы, объединяя лучшие элементы из различных решений и отбрасывая менее эффективные варианты.
Этот подход уже продемонстрировал свою эффективность: AlphaEvolve смог обнаружить новые, более эффективные алгоритмы умножения матриц, превосходящие предыдущие достижения, такие как AlphaTensor. Это открывает возможности для оптимизации вычислений в дата-центрах, проектировании чипов и обучении ИИ-моделей.
Google также применили AlphaEvolve к более чем 50 открытым задачам в области:
✍️ математического анализа,
📐 геометрии,
➕ комбинаторики и
🔂 теории чисел — включая задачу о числе поцелуев (kissing number problem).
🔵 В 75% случаев агент открыл лучшее из известных решений.
🔵 В 20% случаев он улучшил ранее известные решения, тем самым сделав новые открытия.
Доступ пока не дают, но выглядит очень интересно.
@ai_machinelearning_big_data
📎 Подробнее
#google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Что умеет Wan2.1-VACE:
💡 Эти возможности можно свободно комбинировать, выполняя сложные креативные задачи.
🔍 Ключевые особенности:
▪ SOTA-производительность: Wan2.1 стабильно превосходит существующие open-source модели и даже коммерческие решения уровня state-of-the-art в ряде бенчмарков.
▪ Работает на обычных видеокартах: Модель T2V-1.3B требует всего 8.19 ГБ видеопамяти, что делает её совместимой почти со всеми пользовательскими GPU. Например, на RTX 4090 она генерирует 5-секундное видео 480P примерно за 4 минуты (без оптимизаций, таких как квантизация). Её производительность сопоставима с некоторыми закрытыми моделями.
▪ Мультизадачность: Wan2.1 демонстрирует хорошие результаты в задачах текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, продвигая границы генерации видео..
▪ Модель способна выдавать 1080P в теории любой длины, при этом сохраняя временную структуру.
- Размер модели: 1.3B и 14B
- Лицензия: Apache-2.
@ai_machinelearning_big_data
#Alibaba #wan #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
ChatGPT 4.1 теперь есть не только в API, но в веб интерфейсе.
Рекомендуется для разработки кода.
Быстрая и достаточно умная по меркам OpenAI :)
(фанатам Соннет 3.7 и Gemini 0506 не пригодится )
#OpenAI #chatGPT
———
@tsingular
Рекомендуется для разработки кода.
Быстрая и достаточно умная по меркам OpenAI :)
#OpenAI #chatGPT
———
@tsingular
👍5😁4
Корпорация из Редмонда вводит голосовую активацию своего цифрового ассистента в Windows 11 через команду 'Hey, Copilot!'.
В тестовом режиме уже доступна участником программы Windows Insiders.
После произнесения ключевой фразы появляется плавающий интерфейс микрофона и звуковое подтверждение активации.
Технология использует локальное распознавание с 10-секундным аудиобуфером без отправки данных в облако.
Система работает офлайн, хотя полный функционал Copilot Voice требует сетевого соединения.
Обновление доступно пользователям с англоязычным интерфейсом при наличии версии приложения 1.25051.10.0 или новее.
Привет, товарищ майор! :)
#Microsoft #Copilot #Voice
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡1👍1
👀Ученые MIT обнаружили, что модели машинного зрения не понимают отрицание
Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.
Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения
Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков
Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".
Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.
Не думай о белом слоне.
Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.
Графические модели так же можно проверять - "нарисуй комнату без жирафа".
#VLM #отрицания #контекст
———
@tsingular
Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.
Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения
Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков
Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".
Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.
Не думай о белом слоне.
Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.
Графические модели так же можно проверять - "нарисуй комнату без жирафа".
#VLM #отрицания #контекст
———
@tsingular
✍5⚡3🔥3
В своём боте @sketchmaster_bot проверил эту тему
Нарисуй, говорю, комнату без жирафа.
Но у меня под капотом предобработка запроса как раз есть и из короткого запроса был автоматом сделан развёрнутый:
Даже из описания обстановки чувствуется, что жирафа очень не хватает, он где-то рядом :)
И цвета и пустота ожидания.
В общем с задачей справился, считаю на 100% :)
Но, ещё раз, - важна предобработка.
#dev #нейрорендер #боты
———
@tsingular
Нарисуй, говорю, комнату без жирафа.
Но у меня под капотом предобработка запроса как раз есть и из короткого запроса был автоматом сделан развёрнутый:
Скудно обставленная комната, залитая мягким рассеянным светом. Стены приглушенного кремового цвета, отражающие нежное свечение. Простой деревянный стул стоит возле большого пустого окна с видом на туманный, неясный пейзаж. Пол покрыт потертым узорчатым ковром в оттенках охры и коричневого. Ощущение тихого уединения пронизывает пространство.
Даже из описания обстановки чувствуется, что жирафа очень не хватает, он где-то рядом :)
И цвета и пустота ожидания.
В общем с задачей справился, считаю на 100% :)
Но, ещё раз, - важна предобработка.
#dev #нейрорендер #боты
———
@tsingular
😁10🔥4⚡3👍2
Bitrix24 теперь идет с GPT на борту.
ИИ интегрирован в задачи, чаты, CRM и в режиме Копайлота во все сервисы Битрикса
https://www.bitrix24.ru/features/copilot/
Онлайн эфир
Так же запущены ИИ Агенты - Бизнес-процессы 2.0
Агенты собираются или в no-code интерфейсе или с использованием ИИ ассистента - Марты.
В том числе проектирование можно вести в голосовом режиме.
ИИ ассистент на базе БитриксCRM будет генерить и вести повторные продажи на базе истории покупок и данных CRM с интеграцией в маркетплейсы.
Каждую ночь база анализируется ИИ и с утра у вас к каждому заказчику новый персонифицированный лид.
Причём это будет бесплатный базовый функционал.
Теперь не нужно будет самостоятельно собирать CRM.
ИИ ассистент сам создаст структуру таблиц, карточку сделки, стадии воронок и т.д.
Может или создать заново или изменить существующую и создаст обучающий курс объясняющий что где и как работает.
#Bitrix24
———
@tsingular
ИИ интегрирован в задачи, чаты, CRM и в режиме Копайлота во все сервисы Битрикса
https://www.bitrix24.ru/features/copilot/
Онлайн эфир
Так же запущены ИИ Агенты - Бизнес-процессы 2.0
Агенты собираются или в no-code интерфейсе или с использованием ИИ ассистента - Марты.
В том числе проектирование можно вести в голосовом режиме.
ИИ ассистент на базе БитриксCRM будет генерить и вести повторные продажи на базе истории покупок и данных CRM с интеграцией в маркетплейсы.
Каждую ночь база анализируется ИИ и с утра у вас к каждому заказчику новый персонифицированный лид.
Причём это будет бесплатный базовый функционал.
Теперь не нужно будет самостоятельно собирать CRM.
ИИ ассистент сам создаст структуру таблиц, карточку сделки, стадии воронок и т.д.
Может или создать заново или изменить существующую и создаст обучающий курс объясняющий что где и как работает.
#Bitrix24
———
@tsingular
🤔6🔥3👀1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖Open Agent Platform - No-Code решение для создания агентов от LangChain
LangChain представил свою платформу для создания агентов без кода — Open Agent Platform (OAP).
Ключевые особенности
- Управление агентами: Создание, настройка и взаимодействие через интуитивный веб-интерфейс
- RAG-интеграция: Поддержка Retrieval Augmented Generation через LangConnect
- Подключение инструментов: Соединение агентов с внешними сервисами через MCP-серверы
- Агент-супервизор: Оркестрация взаимодействия нескольких агентов через Agent Supervisor
- Встроенная аутентификация: Готовая система доступа и контроля пользователей
- Настраиваемые агенты: Простое определение пользовательских конфигураций через UI
Если уже используете LangGraph, OAP предоставляет удобный способ создания и управления агентами.
Demo:
https://oap.langchain.com
Github:
https://github.com/langchain-ai/open-agent-platform/
#langchain #agents #frameworks
———
@tsingular
LangChain представил свою платформу для создания агентов без кода — Open Agent Platform (OAP).
Ключевые особенности
- Управление агентами: Создание, настройка и взаимодействие через интуитивный веб-интерфейс
- RAG-интеграция: Поддержка Retrieval Augmented Generation через LangConnect
- Подключение инструментов: Соединение агентов с внешними сервисами через MCP-серверы
- Агент-супервизор: Оркестрация взаимодействия нескольких агентов через Agent Supervisor
- Встроенная аутентификация: Готовая система доступа и контроля пользователей
- Настраиваемые агенты: Простое определение пользовательских конфигураций через UI
Если уже используете LangGraph, OAP предоставляет удобный способ создания и управления агентами.
Demo:
https://oap.langchain.com
Github:
https://github.com/langchain-ai/open-agent-platform/
#langchain #agents #frameworks
———
@tsingular
⚡8👍2
🔊Unsloth опубликовал готовый код для файнтюна TTS моделей
Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.
Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper
Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)
Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости
Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы
Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.
Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.
#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.
Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper
Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)
Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа
<laugh>, <sigh>)- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости
Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы
Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.
Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.
#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
👍6🔥2❤1⚡1
Stackoverflow туда же.
ИИ становится единым источником любых знаний уже.
#Stackoverflow
------
@tsingular
ИИ становится единым источником любых знаний уже.
#Stackoverflow
------
@tsingular
✍9👀4😢2⚡1🤯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Пурдюбик кубик.
Это дикое сломо. В реальности робат собирает кубик Рубика за, внимание 0.103 секунды ИЗ ЛЮБОГО положения граней. С помощью computer vision.
Посмотрите момент вначале и в конце.
Итак.
Студенты Университета Purdue построили робота Purdubik's Cube, который собрал(решив по дороге) кубик Рубика за 0,103 секунды, установив 21 апреля 2025 года мировой рекорд Гиннесса.
Робот использует комп. зрение и алгоритмы для решения кубика в режиме реального времени, а не только заранее запрограммированные движения.
Ну, за рекорды.
@cgevent
Это дикое сломо. В реальности робат собирает кубик Рубика за, внимание 0.103 секунды ИЗ ЛЮБОГО положения граней. С помощью computer vision.
Посмотрите момент вначале и в конце.
Итак.
Студенты Университета Purdue построили робота Purdubik's Cube, который собрал(решив по дороге) кубик Рубика за 0,103 секунды, установив 21 апреля 2025 года мировой рекорд Гиннесса.
Робот использует комп. зрение и алгоритмы для решения кубика в режиме реального времени, а не только заранее запрограммированные движения.
Ну, за рекорды.
@cgevent
🔥20
🌐 ОАЭ и США запускают крупнейший за пределами Америки 5-гигаваттный AI-кампус
При участии президента ОАЭ Шейха Мохаммеда бин Заида Аль Нахайяна и президента США Дональда Трампа в Абу-Даби представлен первый этап нового 5-гигаваттного AI-кампуса — крупнейшего подобного комплекса за пределами США.
📊 Ключевые технические параметры:
Мощность: 5 ГВт вычислительной инфраструктуры для дата-центров с ИИ
Площадь: 25,9 кв. км (10 кв. миль) в эмирате Абу-Даби
Оператор: G42 (национальный AI-лидер в ОАЭ) в партнерстве с американскими компаниями
Масштаб: По оценке Rand Corporation, кампус сможет поддерживать до 2,5 миллиона NVIDIA B200 — больше, чем все другие крупные инфраструктурные проекты ИИ
Чипы: Согласовано разрешение на импорт 500 000 самых передовых чипов NVIDIA ежегодно начиная с 2025 года
⚡️ Энергетическая инфраструктура:
Комплекс будет использовать атомную, солнечную и газовую энергию для минимизации выбросов углерода
Интегрированный подход к энергоснабжению обеспечит устойчивость вычислительной инфраструктуры
🔒 Безопасность и контроль:
Реализованы строгие меры для предотвращения утечки технологий
Совместное американо-эмиратское управление протоколами "Знай своего клиента" (KYC)
Вычислительные ресурсы зарезервированы исключительно для американских гиперскейлеров и авторизованных облачных провайдеров
США сохраняют контроль, поскольку американские компании будут управлять дата-центрами
🌍 Стратегическое значение:
- Доступ к вычислительным ресурсам для почти половины населения мира, находящегося в радиусе 3200 км от ОАЭ
- Снижение задержки в обработке данных для Африки, Европы и Азии
- Создание научного парка для продвижения инноваций в области ИИ
- Расширение влияния американских технологий на Ближнем Востоке
💼 Параллельные инициативы:
- Qualcomm открывает Глобальный инженерный центр в Абу-Даби с фокусом на ИИ, дата-центры и промышленный IoT
- Amazon Web Services запускает Sovereign Cloud Launchpad с ожидаемым вкладом $181 млрд в цифровую экономику ОАЭ к 2033 году
Соглашение предусматривает инвестиции ОАЭ в создание американских дата-центров аналогичного масштаба
🔄 Похожие инициативы в регионе:
- Саудовская Аравия запустила HUMAIN — государственную AI-компанию под председательством наследного принца Мохаммеда бин Салмана
- Сотрудничество между AMD и саудовской HUMAIN с инвестициями до $10 млрд в инфраструктуру ИИ с развертыванием 500 МВт вычислительных мощностей
- Франция и ОАЭ также заключили соглашение о совместном проекте по строительству 1-гигаваттного дата-центра для ИИ во Франции (инвестиции €30-50 млрд)
Этот проект закрепляет позицию ОАЭ в качестве регионального технологического хаба, продолжая стратегию страны по внедрению ИИ, начатую с назначения первого в мире федерального министра искусственного интеллекта в 2017 году и создания Университета искусственного интеллекта имени Мохаммеда бин Заида в 2019 году.
#AI #технологии #ОАЭ #датацентры #G42 #NVIDIA
———
@tsingular
При участии президента ОАЭ Шейха Мохаммеда бин Заида Аль Нахайяна и президента США Дональда Трампа в Абу-Даби представлен первый этап нового 5-гигаваттного AI-кампуса — крупнейшего подобного комплекса за пределами США.
📊 Ключевые технические параметры:
Мощность: 5 ГВт вычислительной инфраструктуры для дата-центров с ИИ
Площадь: 25,9 кв. км (10 кв. миль) в эмирате Абу-Даби
Оператор: G42 (национальный AI-лидер в ОАЭ) в партнерстве с американскими компаниями
Масштаб: По оценке Rand Corporation, кампус сможет поддерживать до 2,5 миллиона NVIDIA B200 — больше, чем все другие крупные инфраструктурные проекты ИИ
Чипы: Согласовано разрешение на импорт 500 000 самых передовых чипов NVIDIA ежегодно начиная с 2025 года
⚡️ Энергетическая инфраструктура:
Комплекс будет использовать атомную, солнечную и газовую энергию для минимизации выбросов углерода
Интегрированный подход к энергоснабжению обеспечит устойчивость вычислительной инфраструктуры
🔒 Безопасность и контроль:
Реализованы строгие меры для предотвращения утечки технологий
Совместное американо-эмиратское управление протоколами "Знай своего клиента" (KYC)
Вычислительные ресурсы зарезервированы исключительно для американских гиперскейлеров и авторизованных облачных провайдеров
США сохраняют контроль, поскольку американские компании будут управлять дата-центрами
🌍 Стратегическое значение:
- Доступ к вычислительным ресурсам для почти половины населения мира, находящегося в радиусе 3200 км от ОАЭ
- Снижение задержки в обработке данных для Африки, Европы и Азии
- Создание научного парка для продвижения инноваций в области ИИ
- Расширение влияния американских технологий на Ближнем Востоке
💼 Параллельные инициативы:
- Qualcomm открывает Глобальный инженерный центр в Абу-Даби с фокусом на ИИ, дата-центры и промышленный IoT
- Amazon Web Services запускает Sovereign Cloud Launchpad с ожидаемым вкладом $181 млрд в цифровую экономику ОАЭ к 2033 году
Соглашение предусматривает инвестиции ОАЭ в создание американских дата-центров аналогичного масштаба
🔄 Похожие инициативы в регионе:
- Саудовская Аравия запустила HUMAIN — государственную AI-компанию под председательством наследного принца Мохаммеда бин Салмана
- Сотрудничество между AMD и саудовской HUMAIN с инвестициями до $10 млрд в инфраструктуру ИИ с развертыванием 500 МВт вычислительных мощностей
- Франция и ОАЭ также заключили соглашение о совместном проекте по строительству 1-гигаваттного дата-центра для ИИ во Франции (инвестиции €30-50 млрд)
Этот проект закрепляет позицию ОАЭ в качестве регионального технологического хаба, продолжая стратегию страны по внедрению ИИ, начатую с назначения первого в мире федерального министра искусственного интеллекта в 2017 году и создания Университета искусственного интеллекта имени Мохаммеда бин Заида в 2019 году.
#AI #технологии #ОАЭ #датацентры #G42 #NVIDIA
———
@tsingular
⚡7❤2👍2🤔2🔥1
Windsurf SWE-1: новые AI-модели с для разработчиков
Windsurf (ранее Codeium) выпустил семейство специализированных AI-моделей SWE-1, созданных для полного цикла разработки ПО. Ключевое отличие от обычных кодовых ассистентов — понимание процесса разработки как единого потока, а не отдельных задач.
Технологические особенности: Flow Awareness и Shared Timeline
Главная инновация SWE-1 — концепция Flow Awareness, оптимизирующая взаимодействие с AI-ассистентом. В отличие от стандартных LLM, которые работают в рамках single-shot запросов, SWE-1:
• Поддерживает контекст между несколькими поверхностями разработки (редактор, терминал, браузер)
• Отслеживает незавершённые состояния кода и долгосрочные задачи
• Адаптируется к индивидуальному стилю разработчика в рамках проекта
• Оптимизирует свою работу на основе истории взаимодействий
Система Shared Timeline позволяет плавно распределять задачи между человеком и AI. Модель анализирует, где может эффективнее всего помочь, создавая постоянный цикл улучшений:
— утверждает Рамачандран.
Технические спецификации моделей:
• SWE-1: Полноразмерная frontier-модель
- Сопоставимая с Claude 3.5 Sonnet в ключевых задачах с человеком в контуре
- Оптимизирована для сложных размышений и использования инструментов разработки
- Эффективна для управления техническим долгом и code review
- Доступна платным пользователям
• SWE-1-lite: Средняя модель для ежедневного использования
- Представляет из себя улучшенный вариант Cascade Base
- Баланс скорости и качества кода
- Оптимизирована для работы с не полным контекстом
- Доступна всем пользователям, включая бесплатные аккаунты
• SWE-1-mini: Лёгкая модель для фоновой работы
- Работает полностью локально с минимальной задержкой
- Специализируется на фоновых предсказаниях кода в Windsurf Tab
- Потребляет минимум вычислительных ресурсов
- Не ограничена для всех пользователей
Уникальная архитектура обучения
SWE-1 обучалась с использованием принципиально нового подхода:
• Специализированный dataset с последовательной структурой инженерных задач
• Тренировочные данные включают полные flow-сессии, а не изолированные примеры кода
• Модель обучалась понимать долгосрочные зависимости в проектах
• Оптимизация выполнена под специфические шаблоны взаимодействия в процессе разработки
Сравнение с Cursor (Anysphere):
• SWE-1 показывает более консистентные результаты в долгосрочных проектах
• Cursor генерирует $200 млн ARR против $40 млн у Windsurf
• Cursor оценивается в $10 млрд, что объясняет выбор OpenAI в пользу Windsurf ($3 млрд)
• Windsurf недавно снизил цены "across the board", убрав сложную систему flow action credits
Сравнение с GitHub Copilot:
• SWE-1 предлагает более гибкую архитектуру с несколькими моделями
• Copilot, будучи первопроходцем, сейчас демонстрирует отставание в инновациях
• SWE-1 обеспечивает лучшее понимание контекста за пределами редактора кода
Бизнес-перспективы и стратегическое значение
• OpenAI приобретает Windsurf за $3 млрд, уступив в борьбе за Cursor
• Рынок AI-инструментов для разработки достигнет $25 млрд к 2030 году
• После интеграции с ресурсами OpenAI модели получат доступ к значительно большим вычислительным мощностям
• Ожидается интеграция моделей SWE-1 с более широкой AI-экосистемой OpenAI
— объясняет Рамачандран.
Реально не хватает шага, где Антропик или Гугл покупает Курсор.
#SWE-1 #Windsurf #OpenAI #разработка #FlowAwareness
———
@tsingular
Windsurf (ранее Codeium) выпустил семейство специализированных AI-моделей SWE-1, созданных для полного цикла разработки ПО. Ключевое отличие от обычных кодовых ассистентов — понимание процесса разработки как единого потока, а не отдельных задач.
Технологические особенности: Flow Awareness и Shared Timeline
Главная инновация SWE-1 — концепция Flow Awareness, оптимизирующая взаимодействие с AI-ассистентом. В отличие от стандартных LLM, которые работают в рамках single-shot запросов, SWE-1:
• Поддерживает контекст между несколькими поверхностями разработки (редактор, терминал, браузер)
• Отслеживает незавершённые состояния кода и долгосрочные задачи
• Адаптируется к индивидуальному стилю разработчика в рамках проекта
• Оптимизирует свою работу на основе истории взаимодействий
Система Shared Timeline позволяет плавно распределять задачи между человеком и AI. Модель анализирует, где может эффективнее всего помочь, создавая постоянный цикл улучшений:
"С развитием моделей всё больше шагов в этом общем таймлайне будут переключаться с человека на AI,"
— утверждает Рамачандран.
Технические спецификации моделей:
• SWE-1: Полноразмерная frontier-модель
- Сопоставимая с Claude 3.5 Sonnet в ключевых задачах с человеком в контуре
- Оптимизирована для сложных размышений и использования инструментов разработки
- Эффективна для управления техническим долгом и code review
- Доступна платным пользователям
• SWE-1-lite: Средняя модель для ежедневного использования
- Представляет из себя улучшенный вариант Cascade Base
- Баланс скорости и качества кода
- Оптимизирована для работы с не полным контекстом
- Доступна всем пользователям, включая бесплатные аккаунты
• SWE-1-mini: Лёгкая модель для фоновой работы
- Работает полностью локально с минимальной задержкой
- Специализируется на фоновых предсказаниях кода в Windsurf Tab
- Потребляет минимум вычислительных ресурсов
- Не ограничена для всех пользователей
Уникальная архитектура обучения
SWE-1 обучалась с использованием принципиально нового подхода:
• Специализированный dataset с последовательной структурой инженерных задач
• Тренировочные данные включают полные flow-сессии, а не изолированные примеры кода
• Модель обучалась понимать долгосрочные зависимости в проектах
• Оптимизация выполнена под специфические шаблоны взаимодействия в процессе разработки
Сравнение с Cursor (Anysphere):
• SWE-1 показывает более консистентные результаты в долгосрочных проектах
• Cursor генерирует $200 млн ARR против $40 млн у Windsurf
• Cursor оценивается в $10 млрд, что объясняет выбор OpenAI в пользу Windsurf ($3 млрд)
• Windsurf недавно снизил цены "across the board", убрав сложную систему flow action credits
Сравнение с GitHub Copilot:
• SWE-1 предлагает более гибкую архитектуру с несколькими моделями
• Copilot, будучи первопроходцем, сейчас демонстрирует отставание в инновациях
• SWE-1 обеспечивает лучшее понимание контекста за пределами редактора кода
Бизнес-перспективы и стратегическое значение
• OpenAI приобретает Windsurf за $3 млрд, уступив в борьбе за Cursor
• Рынок AI-инструментов для разработки достигнет $25 млрд к 2030 году
• После интеграции с ресурсами OpenAI модели получат доступ к значительно большим вычислительным мощностям
• Ожидается интеграция моделей SWE-1 с более широкой AI-экосистемой OpenAI
"Разработка — это намного больше, чем просто написание кода. SWE-1 создана, чтобы охватить весь процесс от планирования до деплоя,"
— объясняет Рамачандран.
Реально не хватает шага, где Антропик или Гугл покупает Курсор.
#SWE-1 #Windsurf #OpenAI #разработка #FlowAwareness
———
@tsingular
👍5🔥3✍1😢1
Forwarded from Пырьев натворил
Врубаем свет, запускаем рендер — сегодня делаем релиз нашего нового AI-блокбастера.
Мы решили провести эксперимент — можно ли создать фотореалистичный ролик только ИИ инструментами. Получилось процентов на 80%, остальное руками🙂. Пока технологии не позволяют закрыть 100% задач, если говорить о качественном продукте.
Видео, музыка и диктор — сгенерированы с помощью ИИ.
Монтаж, цветокор и саунд-дизайн — команда.
Ролик также можно посмотреть на vimeo.
Для тех, кому интересен стек, который мы использовали:
Midjourney, ChatGPT, Runway, Kling, Sora, Luma (Dream Machine), Higgsfield, Krea, Topaz AI Video, Suno.
Мы в Щи Продакшен активно развиваем использование AI-технологий.
Делаем подобные проекты для клиентов, параллельно экспериментируем, создавая свои творческие задумки.
Сейчас интернет заполонён низкосортными и криповыми AI-видео — прогнозируемо, технологии вышли в массы, и это неизбежно. Но мы видим в AI-видео не панацею, а крутой инструмент в работе.
AI-видео имеет три основных преимущества:
— создавать то, что невозможно (или очень сложно) снять или сделать в реальной жизни
— ускорение и удешевление продакшена
— рождение новых визуальных решений
Мы протестировали почти весь топ AI-моделей. Пока что технологии сыроваты, чтобы делать абсолютно кастомные ролики высокого качества.
Сам процесс генерации — это постоянный сюрприз. Часто нужно сгенерировать сотни видео, чтобы нейросеть выдала нужный кадр без артефактов и попаданием в задуманное. Поэтому приходится использовать большой набор нейросетей, потому что каждая из них лучше справляется с разными задачами. Одна — круто работает с динамикой, другая — с персонажами, третья — с движениями камеры и так далее.
Для этого ролика мы сгенерировали несколько тысяч изображений, а после сотни видео, чтобы собрать финальные 60 секунд.
Здесь буду и дальше делиться нашими находками, проектами и экспериментами в этом направлении.
Да будет эй ай!
@brandiver
Мы решили провести эксперимент — можно ли создать фотореалистичный ролик только ИИ инструментами. Получилось процентов на 80%, остальное руками🙂. Пока технологии не позволяют закрыть 100% задач, если говорить о качественном продукте.
Видео, музыка и диктор — сгенерированы с помощью ИИ.
Монтаж, цветокор и саунд-дизайн — команда.
Ролик также можно посмотреть на vimeo.
Для тех, кому интересен стек, который мы использовали:
Midjourney, ChatGPT, Runway, Kling, Sora, Luma (Dream Machine), Higgsfield, Krea, Topaz AI Video, Suno.
Мы в Щи Продакшен активно развиваем использование AI-технологий.
Делаем подобные проекты для клиентов, параллельно экспериментируем, создавая свои творческие задумки.
Сейчас интернет заполонён низкосортными и криповыми AI-видео — прогнозируемо, технологии вышли в массы, и это неизбежно. Но мы видим в AI-видео не панацею, а крутой инструмент в работе.
AI-видео имеет три основных преимущества:
— создавать то, что невозможно (или очень сложно) снять или сделать в реальной жизни
— ускорение и удешевление продакшена
— рождение новых визуальных решений
Мы протестировали почти весь топ AI-моделей. Пока что технологии сыроваты, чтобы делать абсолютно кастомные ролики высокого качества.
Сам процесс генерации — это постоянный сюрприз. Часто нужно сгенерировать сотни видео, чтобы нейросеть выдала нужный кадр без артефактов и попаданием в задуманное. Поэтому приходится использовать большой набор нейросетей, потому что каждая из них лучше справляется с разными задачами. Одна — круто работает с динамикой, другая — с персонажами, третья — с движениями камеры и так далее.
Для этого ролика мы сгенерировали несколько тысяч изображений, а после сотни видео, чтобы собрать финальные 60 секунд.
Здесь буду и дальше делиться нашими находками, проектами и экспериментами в этом направлении.
Да будет эй ай!
@brandiver
🔥15👍6❤🔥3👏1
Forwarded from Machinelearning
Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.
Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).
В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.
CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.
Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.
На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.
В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.
В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.
@ai_machinelearning_big_data
#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM