⚡️ Computer Using Agent Sample App – это демонстрационное приложение для создания системы «Computer Using Agent» (CUA) с использованием OpenAI API.
Основные особенности и интересные моменты проекта:
- Прототип CUA: Приложение показывает, как можно интегрировать ИИ-модель для управления интерфейсом компьютера. Модель анализирует скриншоты и предлагает действия (например, клики, ввод текста), которые необходимо выполнить в среде пользователя.
- Модульная архитектура: Проект разделён на две ключевые абстракции – «Computer» для выполнения действий (например, локальный браузер через Playwright, Docker-окружение, удалённые браузерные среды) и «Agent» для взаимодействия с моделью.
Многообразие сред: В репозитории реализованы различные среды (LocalPlaywright, Docker, Browserbase, Scrapybara), что позволяет протестировать приложение в разных условиях.
- Примеры использования: В проекте есть CLI для удобного старта, а также примеры (например, файл simple_cua_loop.py) для демонстрации базового цикла работы CUA.
Безопасность: Присутствуют базовые меры безопасности, в том числе проверки URL и запрос подтверждения действий, что важно при управлении реальными интерфейсами.
📌 Github
@data_analysis_ml
Основные особенности и интересные моменты проекта:
- Прототип CUA: Приложение показывает, как можно интегрировать ИИ-модель для управления интерфейсом компьютера. Модель анализирует скриншоты и предлагает действия (например, клики, ввод текста), которые необходимо выполнить в среде пользователя.
- Модульная архитектура: Проект разделён на две ключевые абстракции – «Computer» для выполнения действий (например, локальный браузер через Playwright, Docker-окружение, удалённые браузерные среды) и «Agent» для взаимодействия с моделью.
Многообразие сред: В репозитории реализованы различные среды (LocalPlaywright, Docker, Browserbase, Scrapybara), что позволяет протестировать приложение в разных условиях.
- Примеры использования: В проекте есть CLI для удобного старта, а также примеры (например, файл simple_cua_loop.py) для демонстрации базового цикла работы CUA.
Безопасность: Присутствуют базовые меры безопасности, в том числе проверки URL и запрос подтверждения действий, что важно при управлении реальными интерфейсами.
📌 Github
@data_analysis_ml
⚡️ Vondy: огромная базу ИИ-агентов для различных задач!
В Vondy можно подобрать нейроассистентов, которые возьмут на себя рутинную работу и сэкономят часы, чтобы вы могли уделить время отдыху, хобби или развлечениям.
▪ Агенты для любых задач: от кодинга, написания текста, дизайна и бизнеса до повышения продуктивности и генерации изображений, звуков и видео.
▪ Создайте своего агента: сервис предоставляет все необходимые инструменты, чтобы настроить помощника именно под ваши нужды.
▪ Бесплатно.
https://www.vondy.com/
@data_analysis_ml
В Vondy можно подобрать нейроассистентов, которые возьмут на себя рутинную работу и сэкономят часы, чтобы вы могли уделить время отдыху, хобби или развлечениям.
▪ Агенты для любых задач: от кодинга, написания текста, дизайна и бизнеса до повышения продуктивности и генерации изображений, звуков и видео.
▪ Создайте своего агента: сервис предоставляет все необходимые инструменты, чтобы настроить помощника именно под ваши нужды.
▪ Бесплатно.
https://www.vondy.com/
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Copy any UI
Клонирование любого сайта одним кликом стало возможным благодаря новому ИИ-агенту Same.dev! Этот инструмент способен создать практически точную копию веб-сайта всего лишь по ссылке.
Все, что вам нужно сделать, — это вставить URL интересующего ресурса и немного подождать. Same.dev автоматически проанализирует исходный код и предоставит готовую копию, которую сложно отличить от оригинала.
Причем это абсолютно бесплатно: https://same.dev/
Клонирование любого сайта одним кликом стало возможным благодаря новому ИИ-агенту Same.dev! Этот инструмент способен создать практически точную копию веб-сайта всего лишь по ссылке.
Все, что вам нужно сделать, — это вставить URL интересующего ресурса и немного подождать. Same.dev автоматически проанализирует исходный код и предоставит готовую копию, которую сложно отличить от оригинала.
Причем это абсолютно бесплатно: https://same.dev/
⚡️All-atom Diffusion Transformer (ADiT) — это новая разработка в области генеративного моделирования химических систем
. ADiT представляет собой унифицированную латентную диффузионную модель, способную генерировать как периодические материалы, так и непериодические молекулярные структуры
ARXIV.ORG
Ключевые особенности проекта:
Унифицированный подход: ADiT использует единое представление для молекул и материалов, что позволяет эффективно работать с различными химическими системами
ARXIV.ORG
Диффузионная модель: В основе генерации новых структур лежит диффузионная модель, обученная создавать новые латентные представления, которые затем декодируются в валидные молекулы или материалы
ARXIV.ORG
Автоэнкодер: Система включает автоэнкодер, который отображает атомарные представления молекул и материалов в общее латентное пространство, обеспечивая эффективное кодирование и декодирование
ARXIV.ORG
📌 Github
@data_analysis_ml
. ADiT представляет собой унифицированную латентную диффузионную модель, способную генерировать как периодические материалы, так и непериодические молекулярные структуры
ARXIV.ORG
Ключевые особенности проекта:
Унифицированный подход: ADiT использует единое представление для молекул и материалов, что позволяет эффективно работать с различными химическими системами
ARXIV.ORG
Диффузионная модель: В основе генерации новых структур лежит диффузионная модель, обученная создавать новые латентные представления, которые затем декодируются в валидные молекулы или материалы
ARXIV.ORG
Автоэнкодер: Система включает автоэнкодер, который отображает атомарные представления молекул и материалов в общее латентное пространство, обеспечивая эффективное кодирование и декодирование
ARXIV.ORG
📌 Github
@data_analysis_ml
📹 ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
ReCamMaster: генеративный рендеринг с функциями управлением камерой 🔥
Еще один хит в области генерации видео из Китая
Позволяет создавать реалистичные новые сцены из одного видео, что позволяет «переснимать» видео с новыми движениями камеры.
Код обещают очень скоро,
🟡 Github: https://github.com/KwaiVGI/ReCamMaster
🟡 Paper: https://arxiv.org/abs/2503.11647
🟡 Project: https://jianhongbai.github.io/ReCamMaster/
ReCamMaster: генеративный рендеринг с функциями управлением камерой 🔥
Еще один хит в области генерации видео из Китая
Позволяет создавать реалистичные новые сцены из одного видео, что позволяет «переснимать» видео с новыми движениями камеры.
Код обещают очень скоро,
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях.
▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели.
▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров.
▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна.
https://huggingface.co/spaces/Remade-AI/remade-effects
@data_analysis_ml
▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели.
▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров.
▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна.
https://huggingface.co/spaces/Remade-AI/remade-effects
@data_analysis_ml
Forwarded from Machinelearning
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥
🟡 HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
🟡 Post: https://mistral.ai/news/mistral-small-3-1/
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Multimodal-SAE 🚀
Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные.
▪️ Для кого?
▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA).
▪ Исследователи, изучающие интерпретируемость нейросетей.
▪ Инженеры, которым нужно оптимизировать мультимодальные модели.
▪️ Чем полезен?
▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций.
▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели.
▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs.
▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.).
▪️ Преимущества перед аналогами
▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений.
▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными.
▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке.
▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps).
P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей!
📌 Github
📌 Paper
@data_analysis_ml
Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные.
▪️ Для кого?
▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA).
▪ Исследователи, изучающие интерпретируемость нейросетей.
▪ Инженеры, которым нужно оптимизировать мультимодальные модели.
▪️ Чем полезен?
▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций.
▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели.
▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs.
▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.).
▪️ Преимущества перед аналогами
▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений.
▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными.
▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке.
▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps).
P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей!
📌 Github
📌 Paper
@data_analysis_ml
Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.
1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.
Модель 32B, которая по размеру равна примерно 5% от размера DeepSeek r1, превосходит ее почти на всех бенчмарках.
Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях.
Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд.
https://huggingface.co/datasets/glaiveai/reasoning-v1-20m
#dataset #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1