Технозаметки Малышева
8.25K subscribers
3.71K photos
1.39K videos
40 files
3.9K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
🔥 AlphaEvolve — агент нового поколения для открытия новых алгоритмов на базе Gemini

Google DeepMind представили AlphaEvolve — агент на базе Gemini, способный автоматически генерировать новые алгоритмы и находить оптимальные решения сложных задач.

🔥 Что умеет AlphaEvolve:

🔘 Генерирует быстрые алгоритмы умножения матриц
🔘 Находит новые решения математических задач
🔘 Оптимизирует работу дата-центров, чипов и обучения ИИ модель за счёт сгенерированный алгоритмов

✔️ Как он работает:
1) Генерация идей с помощью LLMs: Модель Gemini анализирует существующие подходы к решению задачи и предлагает новые алгоритмические идеи, используя свой широкий контекст и знания.

2) Автоматическая оценка: Каждый предложенный алгоритм проходит через систему автоматической оценки, которая измеряет его эффективность, точность и другие ключевые метрики, позволяя объективно сравнивать различные решения.

3) Эволюционное улучшение: AlphaEvolve применяет эволюционные методы, такие как мутация и рекомбинация, чтобы постепенно улучшать алгоритмы, объединяя лучшие элементы из различных решений и отбрасывая менее эффективные варианты.

Этот подход уже продемонстрировал свою эффективность: AlphaEvolve смог обнаружить новые, более эффективные алгоритмы умножения матриц, превосходящие предыдущие достижения, такие как AlphaTensor. Это открывает возможности для оптимизации вычислений в дата-центрах, проектировании чипов и обучении ИИ-моделей.
Google также применили AlphaEvolve к более чем 50 открытым задачам в области:

✍️ математического анализа,
📐 геометрии,
комбинаторики и
🔂 теории чисел — включая задачу о числе поцелуев (kissing number problem).

🔵 В 75% случаев агент открыл лучшее из известных решений.
🔵 В 20% случаев он улучшил ранее известные решения, тем самым сделав новые открытия.

Доступ пока не дают, но выглядит очень интересно.

@ai_machinelearning_big_data


📎 Подробнее

#google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🔥 Alibaba представили новую модель - Wan2.1-VACE: универсальную модель для создания и редактирования видео.

Что умеет Wan2.1-VACE:
🟢 R2V — генерация видео по ссылке-примере (Reference-to-Video)
🟢 V2V — редактирование видео по видео (Video-to-Video)
🟢 MV2V — редактирование замаскированных областей видео (Masked Video-to-Video)

💡 Эти возможности можно свободно комбинировать, выполняя сложные креативные задачи.

🔍 Ключевые особенности:
SOTA-производительность: Wan2.1 стабильно превосходит существующие open-source модели и даже коммерческие решения уровня state-of-the-art в ряде бенчмарков.

Работает на обычных видеокартах: Модель T2V-1.3B требует всего 8.19 ГБ видеопамяти, что делает её совместимой почти со всеми пользовательскими GPU. Например, на RTX 4090 она генерирует 5-секундное видео 480P примерно за 4 минуты (без оптимизаций, таких как квантизация). Её производительность сопоставима с некоторыми закрытыми моделями.

Мультизадачность: Wan2.1 демонстрирует хорошие результаты в задачах текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, продвигая границы генерации видео..

Модель способна выдавать 1080P в теории любой длины, при этом сохраняя временную структуру.

- Размер модели: 1.3B и 14B
- Лицензия: Apache-2.

🔜 GitHub: github.com/Wan-Video/Wan2.1
🔜 HuggingFace: huggingface.co/Wan-AI
🔜 ModelScope: modelscope.cn/organization/Wan-Al
🔜 API сервис: bailian.console.alibabacloud.com

@ai_machinelearning_big_data


#Alibaba #wan #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
ChatGPT 4.1 теперь есть не только в API, но в веб интерфейсе.

Рекомендуется для разработки кода.
Быстрая и достаточно умная по меркам OpenAI :)
(фанатам Соннет 3.7 и Gemini 0506 не пригодится )

#OpenAI #chatGPT
———
@tsingular
👍5😁4
👋"Привет Copilot" - Microsoft запускает голосовую активацию ИИ

Корпорация из Редмонда вводит голосовую активацию своего цифрового ассистента в Windows 11 через команду 'Hey, Copilot!'.

В тестовом режиме уже доступна участником программы Windows Insiders.

После произнесения ключевой фразы появляется плавающий интерфейс микрофона и звуковое подтверждение активации.

Технология использует локальное распознавание с 10-секундным аудиобуфером без отправки данных в облако.

Система работает офлайн, хотя полный функционал Copilot Voice требует сетевого соединения.

Обновление доступно пользователям с англоязычным интерфейсом при наличии версии приложения 1.25051.10.0 или новее.

Привет, товарищ майор! :)

#Microsoft #Copilot #Voice
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
👀Ученые MIT обнаружили, что модели машинного зрения не понимают отрицание

Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.

Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения

Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков

Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".

Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.

Не думай о белом слоне.

Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.

Графические модели так же можно проверять - "нарисуй комнату без жирафа".

#VLM #отрицания #контекст
———
@tsingular
53🔥3
В своём боте @sketchmaster_bot проверил эту тему

Нарисуй, говорю, комнату без жирафа.
Но у меня под капотом предобработка запроса как раз есть и из короткого запроса был автоматом сделан развёрнутый:

Скудно обставленная комната, залитая мягким рассеянным светом. Стены приглушенного кремового цвета, отражающие нежное свечение. Простой деревянный стул стоит возле большого пустого окна с видом на туманный, неясный пейзаж. Пол покрыт потертым узорчатым ковром в оттенках охры и коричневого. Ощущение тихого уединения пронизывает пространство.


Даже из описания обстановки чувствуется, что жирафа очень не хватает, он где-то рядом :)
И цвета и пустота ожидания.

В общем с задачей справился, считаю на 100% :)

Но, ещё раз, - важна предобработка.

#dev #нейрорендер #боты
———
@tsingular
😁10🔥43👍2
Bitrix24 теперь идет с GPT на борту.

ИИ интегрирован в задачи, чаты, CRM и в режиме Копайлота во все сервисы Битрикса

https://www.bitrix24.ru/features/copilot/

Онлайн эфир

Так же запущены ИИ Агенты - Бизнес-процессы 2.0
Агенты собираются или в no-code интерфейсе или с использованием ИИ ассистента - Марты.
В том числе проектирование можно вести в голосовом режиме.

ИИ ассистент на базе БитриксCRM будет генерить и вести повторные продажи на базе истории покупок и данных CRM с интеграцией в маркетплейсы.
Каждую ночь база анализируется ИИ и с утра у вас к каждому заказчику новый персонифицированный лид.
Причём это будет бесплатный базовый функционал.

Теперь не нужно будет самостоятельно собирать CRM.
ИИ ассистент сам создаст структуру таблиц, карточку сделки, стадии воронок и т.д.
Может или создать заново или изменить существующую и создаст обучающий курс объясняющий что где и как работает.

#Bitrix24
———
@tsingular
🤔6🔥3👀1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖Open Agent Platform - No-Code решение для создания агентов от LangChain

LangChain представил свою платформу для создания агентов без кода — Open Agent Platform (OAP).

Ключевые особенности
- Управление агентами: Создание, настройка и взаимодействие через интуитивный веб-интерфейс
- RAG-интеграция: Поддержка Retrieval Augmented Generation через LangConnect
- Подключение инструментов: Соединение агентов с внешними сервисами через MCP-серверы
- Агент-супервизор: Оркестрация взаимодействия нескольких агентов через Agent Supervisor
- Встроенная аутентификация: Готовая система доступа и контроля пользователей
- Настраиваемые агенты: Простое определение пользовательских конфигураций через UI

Если уже используете LangGraph, OAP предоставляет удобный способ создания и управления агентами.

Demo:
https://oap.langchain.com

Github:
https://github.com/langchain-ai/open-agent-platform/

#langchain #agents #frameworks
———
@tsingular
8👍2
🔊Unsloth опубликовал готовый код для файнтюна TTS моделей

Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.

Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper

Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)

Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа <laugh>, <sigh>)
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости

Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы

Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.

Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.

#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
👍6🔥211
ИИ теперь популярнее Википедии.

Скоро будет популярнее поисковиков.

#Wikipedia
———
@tsingular
16🤨31🆒1
Stackoverflow туда же.

ИИ становится единым источником любых знаний уже.

#Stackoverflow
------
@tsingular
9👀4😢21🤯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Пурдюбик кубик.

Это дикое сломо. В реальности робат собирает кубик Рубика за, внимание 0.103 секунды ИЗ ЛЮБОГО положения граней. С помощью computer vision.

Посмотрите момент вначале и в конце.

Итак.

Студенты Университета Purdue построили робота Purdubik's Cube, который собрал(решив по дороге) кубик Рубика за 0,103 секунды, установив 21 апреля 2025 года мировой рекорд Гиннесса.
Робот использует комп. зрение и алгоритмы для решения кубика в режиме реального времени, а не только заранее запрограммированные движения.

Ну, за рекорды.

@cgevent
🔥20
🌐 ОАЭ и США запускают крупнейший за пределами Америки 5-гигаваттный AI-кампус

При участии президента ОАЭ Шейха Мохаммеда бин Заида Аль Нахайяна и президента США Дональда Трампа в Абу-Даби представлен первый этап нового 5-гигаваттного AI-кампуса — крупнейшего подобного комплекса за пределами США.

📊 Ключевые технические параметры:
Мощность: 5 ГВт вычислительной инфраструктуры для дата-центров с ИИ
Площадь: 25,9 кв. км (10 кв. миль) в эмирате Абу-Даби
Оператор: G42 (национальный AI-лидер в ОАЭ) в партнерстве с американскими компаниями
Масштаб: По оценке Rand Corporation, кампус сможет поддерживать до 2,5 миллиона NVIDIA B200 — больше, чем все другие крупные инфраструктурные проекты ИИ
Чипы: Согласовано разрешение на импорт 500 000 самых передовых чипов NVIDIA ежегодно начиная с 2025 года

⚡️ Энергетическая инфраструктура:
Комплекс будет использовать атомную, солнечную и газовую энергию для минимизации выбросов углерода
Интегрированный подход к энергоснабжению обеспечит устойчивость вычислительной инфраструктуры

🔒 Безопасность и контроль:
Реализованы строгие меры для предотвращения утечки технологий
Совместное американо-эмиратское управление протоколами "Знай своего клиента" (KYC)
Вычислительные ресурсы зарезервированы исключительно для американских гиперскейлеров и авторизованных облачных провайдеров
США сохраняют контроль, поскольку американские компании будут управлять дата-центрами

🌍 Стратегическое значение:
- Доступ к вычислительным ресурсам для почти половины населения мира, находящегося в радиусе 3200 км от ОАЭ
- Снижение задержки в обработке данных для Африки, Европы и Азии
- Создание научного парка для продвижения инноваций в области ИИ
- Расширение влияния американских технологий на Ближнем Востоке

💼 Параллельные инициативы:
- Qualcomm открывает Глобальный инженерный центр в Абу-Даби с фокусом на ИИ, дата-центры и промышленный IoT
- Amazon Web Services запускает Sovereign Cloud Launchpad с ожидаемым вкладом $181 млрд в цифровую экономику ОАЭ к 2033 году
Соглашение предусматривает инвестиции ОАЭ в создание американских дата-центров аналогичного масштаба

🔄 Похожие инициативы в регионе:
- Саудовская Аравия запустила HUMAIN — государственную AI-компанию под председательством наследного принца Мохаммеда бин Салмана
- Сотрудничество между AMD и саудовской HUMAIN с инвестициями до $10 млрд в инфраструктуру ИИ с развертыванием 500 МВт вычислительных мощностей
- Франция и ОАЭ также заключили соглашение о совместном проекте по строительству 1-гигаваттного дата-центра для ИИ во Франции (инвестиции €30-50 млрд)

Этот проект закрепляет позицию ОАЭ в качестве регионального технологического хаба, продолжая стратегию страны по внедрению ИИ, начатую с назначения первого в мире федерального министра искусственного интеллекта в 2017 году и создания Университета искусственного интеллекта имени Мохаммеда бин Заида в 2019 году.

#AI #технологии #ОАЭ #датацентры #G42 #NVIDIA
———
@tsingular
72👍2🤔2🔥1
Windsurf SWE-1: новые AI-модели с для разработчиков

Windsurf (ранее Codeium) выпустил семейство специализированных AI-моделей SWE-1, созданных для полного цикла разработки ПО. Ключевое отличие от обычных кодовых ассистентов — понимание процесса разработки как единого потока, а не отдельных задач.

Технологические особенности: Flow Awareness и Shared Timeline


Главная инновация SWE-1 — концепция Flow Awareness, оптимизирующая взаимодействие с AI-ассистентом. В отличие от стандартных LLM, которые работают в рамках single-shot запросов, SWE-1:

• Поддерживает контекст между несколькими поверхностями разработки (редактор, терминал, браузер)
• Отслеживает незавершённые состояния кода и долгосрочные задачи
• Адаптируется к индивидуальному стилю разработчика в рамках проекта
• Оптимизирует свою работу на основе истории взаимодействий

Система Shared Timeline позволяет плавно распределять задачи между человеком и AI. Модель анализирует, где может эффективнее всего помочь, создавая постоянный цикл улучшений:
"С развитием моделей всё больше шагов в этом общем таймлайне будут переключаться с человека на AI,"

— утверждает Рамачандран.

Технические спецификации моделей:
• SWE-1: Полноразмерная frontier-модель
- Сопоставимая с Claude 3.5 Sonnet в ключевых задачах с человеком в контуре
- Оптимизирована для сложных размышений и использования инструментов разработки
- Эффективна для управления техническим долгом и code review
- Доступна платным пользователям

• SWE-1-lite: Средняя модель для ежедневного использования
- Представляет из себя улучшенный вариант Cascade Base
- Баланс скорости и качества кода
- Оптимизирована для работы с не полным контекстом
- Доступна всем пользователям, включая бесплатные аккаунты

• SWE-1-mini: Лёгкая модель для фоновой работы
- Работает полностью локально с минимальной задержкой
- Специализируется на фоновых предсказаниях кода в Windsurf Tab
- Потребляет минимум вычислительных ресурсов
- Не ограничена для всех пользователей

Уникальная архитектура обучения
SWE-1 обучалась с использованием принципиально нового подхода:
• Специализированный dataset с последовательной структурой инженерных задач
• Тренировочные данные включают полные flow-сессии, а не изолированные примеры кода
• Модель обучалась понимать долгосрочные зависимости в проектах
• Оптимизация выполнена под специфические шаблоны взаимодействия в процессе разработки

Сравнение с Cursor (Anysphere):
• SWE-1 показывает более консистентные результаты в долгосрочных проектах
• Cursor генерирует $200 млн ARR против $40 млн у Windsurf
• Cursor оценивается в $10 млрд, что объясняет выбор OpenAI в пользу Windsurf ($3 млрд)
• Windsurf недавно снизил цены "across the board", убрав сложную систему flow action credits

Сравнение с GitHub Copilot:
• SWE-1 предлагает более гибкую архитектуру с несколькими моделями
• Copilot, будучи первопроходцем, сейчас демонстрирует отставание в инновациях
• SWE-1 обеспечивает лучшее понимание контекста за пределами редактора кода

Бизнес-перспективы и стратегическое значение
• OpenAI приобретает Windsurf за $3 млрд, уступив в борьбе за Cursor
• Рынок AI-инструментов для разработки достигнет $25 млрд к 2030 году
• После интеграции с ресурсами OpenAI модели получат доступ к значительно большим вычислительным мощностям
• Ожидается интеграция моделей SWE-1 с более широкой AI-экосистемой OpenAI

"Разработка — это намного больше, чем просто написание кода. SWE-1 создана, чтобы охватить весь процесс от планирования до деплоя,"

— объясняет Рамачандран.

Реально не хватает шага, где Антропик или Гугл покупает Курсор.

#SWE-1 #Windsurf #OpenAI #разработка #FlowAwareness
———
@tsingular
👍5🔥31😢1
Врубаем свет, запускаем рендер — сегодня делаем релиз нашего нового AI-блокбастера.

Мы решили провести эксперимент — можно ли создать фотореалистичный ролик только ИИ инструментами. Получилось процентов на 80%, остальное руками🙂. Пока технологии не позволяют закрыть 100% задач, если говорить о качественном продукте.

Видео, музыка и диктор — сгенерированы с помощью ИИ.
Монтаж, цветокор и саунд-дизайн — команда.

Ролик также можно посмотреть на vimeo.

Для тех, кому интересен стек, который мы использовали:
Midjourney, ChatGPT, Runway, Kling, Sora, Luma (Dream Machine), Higgsfield, Krea, Topaz AI Video, Suno.

Мы в Щи Продакшен активно развиваем использование AI-технологий.
Делаем подобные проекты для клиентов, параллельно экспериментируем, создавая свои творческие задумки.

Сейчас интернет заполонён низкосортными и криповыми AI-видео — прогнозируемо, технологии вышли в массы, и это неизбежно. Но мы видим в AI-видео не панацею, а крутой инструмент в работе.

AI-видео имеет три основных преимущества:
— создавать то, что невозможно (или очень сложно) снять или сделать в реальной жизни
— ускорение и удешевление продакшена
— рождение новых визуальных решений

Мы протестировали почти весь топ AI-моделей. Пока что технологии сыроваты, чтобы делать абсолютно кастомные ролики высокого качества.
Сам процесс генерации — это постоянный сюрприз. Часто нужно сгенерировать сотни видео, чтобы нейросеть выдала нужный кадр без артефактов и попаданием в задуманное. Поэтому приходится использовать большой набор нейросетей, потому что каждая из них лучше справляется с разными задачами. Одна — круто работает с динамикой, другая — с персонажами, третья — с движениями камеры и так далее.

Для этого ролика мы сгенерировали несколько тысяч изображений, а после сотни видео, чтобы собрать финальные 60 секунд.

Здесь буду и дальше делиться нашими находками, проектами и экспериментами в этом направлении.

Да будет эй ай!

@brandiver
🔥15👍6❤‍🔥3👏1
Forwarded from Machinelearning
🌟 BLIP3-o: универсальная модель для анализа и генерации изображений.

Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.

Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).

В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.

CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.

Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.

На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.

В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.

В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.


🟡Модель
🟡Arxiv
🟡Demo
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM