Машинное обучение digest
57 subscribers
1.69K photos
224 videos
923 links
Download Telegram
⚡️ Claude получила возможность веб-поиска.

Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.

Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com

✔️ Hugging Face запустил приложение HuggingSnap: оффлайн-ИИ для анализа окружения через камеру iPhone.

Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.

Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com

✔️ Google добавит Gemini AI в Chrome, повторяя опыт Copilot для Windows 11

Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.

Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest

✔️ AudioX: универсальная модель генерации звука и музыки через кросс-модальные преобразования.

Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.

Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.

Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github

✔️ Microsoft Research разработал Claimify: инструмент фактчекинга ИИ

Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft

✔️ RF-DETR: новая SOTA для обнаружения объектов в реальном времени с открытым исходным кодом.
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github

✔️ Same New - нейросеть копирует любой сайт с точностью до пикселя — по одной ссылке воспроизводит весь интерфейс, структуру, анимации, изображения и даже интерактивные элементы.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Modern Robotics Course: Открытый курс по современной робототехнике.

Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.

🌟 Что внутри?
Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
Практика: Примеры кода на Python и C++ для управления роботами.
Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
Задания: Реальные практические задачи (например, управление манипулятором робота).

🌟 Для кого?
Начинающие робототехники: Освоить кинематику, динамику, управление.
Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
Технологические энтузиасты

С курсом можно пройти путь от нуля до создания рабочего прототипа.

С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).

✔️ Готовые решения: Внутри вы найдете библиотеки для работы с преобразованиями, датчиками, движением.

✔️Карьера в робототехнике: Курс даст возможность получить базовые навыки, востребованные в Bosch, Boston Dynamics, Tesla.

⭐️ Преимущества перед другими открытыми курсами
🟠 Акцент на практике: Минимум абстракций — максимум кода.
🟠Совместимость с ROS: Стандарт для промышленной робототехники.
🟠 Современные алгоритмы: Не только классика, но и нейросетевые подходы.

➡️ Cовет: Для погружения в курс, вам поможет книга Robotics, Vision and Control: Fundamental Algorithms in Python, Peter Corke, вот ее репозиторий с примерами кода.

P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡

✔️ Github
✔️ Введение в курс

#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JARVIS-VLA – модель обучения масштабных моделей «визуально-языкового взаимодействия» (Vision Language Models) для игры с использованием клавиатуры и мыши.

Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.

Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.

Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.

Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.

HF
Статья
⚡️ Цены на профессиональную линейку Nvidia RTX Pro Blackwell.

Американский ритейлер Connections опубликовал цены на серию RTX Pro Blackwell от Nvidia.

Флагманская модель RTX Pro 6000 стоит 8565 долларов, это на 26% дороже предыдущего поколения RTX 6000 Ada. В прайсе также перечислены еще невыпущенные модели RTX Pro 4000/4500/5000:

🟢RTX Pro 5000 — 4569 долларов;
🟢RTX Pro 4500 — 2623 доллара;
🟢RTX Pro 4000 — 1546 долларов.

Цены, традиционно для американского ритейла, указаны до налогов, которые в каждом штате разные.

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 ​Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!

Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.​

✔️ Основные нововведения:

Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.

В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.

Для интеграции с Python используется пакет xet-core, написанный на Rust, который обрабатывает все низкоуровневые детали.​

Чтобы начать использовать Xet, установите дополнительную зависимость:​
pip install -U huggingface_hub[hf_xet]

После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.​

Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size).

✔️ Полный список обновлений
✔️Блог
✔️Документация по Xet

@ai_machinelearning_big_data


#huggingface #release #xet
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 ​Physics Simulations — это проект, который предоставляет интерактивные физические симуляции, сгенерированные с помощью Gemini 2.5 Pro . ​

👉 Cимуляции в проекте:

🟡Earth's Magnetic Field: Моделирует магнитное поле Земли как диполь, наклоненный на 11 градусов относительно оси вращения планеты. ​

🟡EM Solenoid: Классическая демонстрация в области электричества и магнетизма, показывающая создание магнитного поля заряженным соленоидом. ​

🟡General Relativity: Иллюстрирует теорию общей относительности Эйнштейна через визуализацию кривизны пространства-времени. ​
GitHub

🟡Planetary Orbit: Демонстрирует орбитальное движение планет и маневр Хоумана для перехода между орбитами. ​

Выглядит очень завораживающее и залипательно.

🟡Симуляции
🟡Github

@ai_machinelearning_big_data

#Gemini #threejs #Physics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Lumina-mGPT 2.0 (от Alpha-VLLM): семейство мультимодальных авторегрессионных моделей, разработанных для визуальных и текстовых задач.

Это передовая модель для генерации изображений, построенная по принципу авторегрессионных моделей только с декодером (decoder-only), архитектурно схожая с тем, как работают большие языковые модели вроде GPT (и конкретно сравниваемая с подходом к изображениям в GPT-4o).

Это означает, что она генерирует изображение последовательно (как текст), потенциально используя мощные возможности представления и понимания мира, присущие современным LLM.

Функции:
-Text-to-Image (t2i): Генерация изображений по текстовому описанию.

- Редактирование изображений: Модификация существующих изображений на основе инструкций.

- Контролируемая генерация: Управление генерацией с помощью дополнительных входных данных (аналогично ControlNet).

Разработчики заявляют, что модель включает все функции ControlNet. своей архитектуре.

Модель спроектирована как самостоятельное решение, а не как дополнение к другим системам и по сути это альтернатива доминирующим диффузионным моделям.

🟡Github
🟡Checkpoints

@ai_machinelearning_big_data


#Lumina #texttoimage #autoregressive
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM