📌 Что такое Genie 2
Это автрорегрессивная латентно-диффузионная модель, обученная на огромном видеодатасете. Получив всего одно изображение-подсказку (например, кадр, сгенерированный Imagen 3), Genie 2 разворачивает целый виртуальный мир, в котором можно свободно перемещаться клавиатурой и мышью — как человеку, так и ИИ-агенту. Длительность консистентного эпизода достигает минуты.
Зачем она нужна
Главный барьер в исследованиях «телесных» (embodied) агентов — ограниченный спектр тренировочных сред. Genie 2 снимает это ограничение: модель способна бесконечно генерировать новые ландшафты, объекты, физику и взаимодействия, создавая «безграничный учебник» для RL-агентов.
В работе демонстрируется связка с SIMA — многоцелевым агентом DeepMind: тот получает языковые инструкции («открой синюю дверь») и действует внутри миров, созданных Genie 2. Такое сочетание позволяет быстро генерировать unseen-задачи для оценки или дообучения агентов.
Deepmind
Компании представили проект «Space Llama» — открытую ИИ-модель Llama 3.2, которая отправилась на Международную космическую станцию. Технология должна помочь экипажу в исследованиях на орбите, сократив зависимость от бумажных инструкций и связи с Землей.
Система работает на базе компьютера Spaceborne Computer-2 от Hewlett Packard Enterprise и GPU Nvidia. Это уже второй шаг Booz Allen Hamilton в области космического ИИ: в августе компания развернула первую языковую модель на МКС. Новый стек технологий обещает ускорить реакцию на нештатные ситуации и снизить затраты на вычисления.
cnbc.com
CEO Perplexity Аравинд Шринивас в подкасте TBPN раскрыл планы компании: их новый браузер Comet, запуск которого запланирован на май, будет отслеживать действия пользователей за пределами приложения. Цель — собрать данные о покупках, посещаемых сайтах, отелях и ресторанах, чтобы формировать детальные профили для таргетированной рекламы. По словам Шриниваса, это повысит релевантность объявлений, а пользователи «не будут против».
Comet уже столкнулся с задержками, но команда уверена в сроках. Параллельно Perplexity укрепляет позиции в мобильном сегменте: приложение предустановят на смартфоны Motorola Razr, а с Samsung ведутся переговоры.
techcrunch.com
Сделка оценила проект NousResearch в 1 млрд. долларов. Nous разрабатывает открытые ИИ-модели, конкурирующие с решениями OpenAI, но с упором на распределенные вычисления: вместо дата-центров стартап использует мощности обычных пользователей через блокчейн Solana.
Основатели Nous — исследователи ИИ, ранее выпустившие популярные в opensource-сообществе модели Hermes. Их новый подход позволяет обучать нейросети на «простаивающих» GPU, стимулируя участников криптовалютными вознаграждениями.
fortune.com
Крупный медиа-холдинг Ziff Davis подал иск против OpenAI в федеральный суд Делавэра, обвинив компанию в использовании своих статей для обучения нейросетей без разрешения. По данным иска, OpenAI копировала материалы PCMag, Mashable и IGN — активов Ziff Davis, которые ежегодно публикуют около 2 млн статей. Компания требует компенсацию в сотни миллионов долларов, утверждая, что действия OpenAI нарушают авторские права и вводят пользователей в заблуждение: ChatGPT якобы приписывает Ziff Davis информацию, которую та не публиковала.
OpenAI настаивает, что обучение моделей на публичных данных попадает под «добросовестное использование», критичное для инноваций. Однако Ziff Davis заявляет, что после блокировки GPTBot в мае и августе 2024 года компания продолжила сбор контента.
news.bloomberglaw.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio — это 3 компонента:
Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).
В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
@ai_machinelearning_big_data
#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры
⏩ Что доступно:
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
🔜 Проект
🔜 Код
🔜 Схемы
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере.
Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.
✔️ Как это работает?
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:
1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.
🟡 Интеграция биометрических эмбеддингов.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.
🟡 Управление качеством через UTMOS.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.
2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥
3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.
Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.
4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.
Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.
🌟 Чего удалось добиться?
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.
🟢 Голос сохраняет интонации и тембр оригинала.
🟢 Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе.
🟢 Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере.
🔜 Оценка качества
Внутренние тесты методом попарного сравнения (side-by-side) показали:
Новый перевод предпочтительнее старой версии в 72% случаев.
При сравнении с ElevenLabs:
- В полном переводе видео Яндекс выигрывает в 62% случаев.
При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.
Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.
🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.
В планах:
🟢 Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия.
🟢 Дальнейшее ускорение инференса без потерь в качестве.
Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.
@ai_machinelearning_big_data
#yandex #tts
Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:
1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.
2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥
3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.
Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.
4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.
Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.
Внутренние тесты методом попарного сравнения (side-by-side) показали:
Новый перевод предпочтительнее старой версии в 72% случаев.
При сравнении с ElevenLabs:
- В полном переводе видео Яндекс выигрывает в 62% случаев.
При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.
Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.
🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.
В планах:
Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.
@ai_machinelearning_big_data
#yandex #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.
🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
⚡ Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, использую в 10 раз меньше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.
🧠 Поддерживает гибридный режим мышления
Режим размышления активируется при обработке сложных задач, обеспечивая пошаговый анализ запроса и формирование комплексных, глубоких ответов.
Базовый режим используется для повседневных вопросов, позволяя выдавать быстрые и точные ответы с минимальной задержкой.
Процесс обучения модели устроен похожим образом на то, как это сделано в DeepSeek R1.
Поддерживает 119 языков, включая русский.
Лицензирование: Apache 2.0 🔥
@ai_machinelearning_big_data
#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity AI запустила в WhatsApp своего ИИ-помощника, который может искать в интернете, работать в режиме чат-бота (вести переписку), генерировать и понимать изображения прямо через платформу мессенджера.
Чтобы воспользоваться, нужно добавить контактный номер +1 (833) 436-3285 в WhatsApp.
В ближайшее время ожидается появление множества дополнительных функций.
@ai_machinelearning_big_data
#Perplexity #ai #ml #chatbot
Please open Telegram to view this post
VIEW IN TELEGRAM
Oracle запустила первые стойки с жидкостным охлаждением на базе NVIDIA GB200 NVL72, оснащенные тысячами GPU Blackwell. Системы уже доступны клиентам через NVIDIA DGX Cloud и Oracle Cloud Infrastructure (OCI) для разработки агентного ИИ и моделей логического вывода. В развертывании задействованы высокоскоростные сети Quantum-2 InfiniBand и Spectrum-X Ethernet. Каждая стойка GB200 NVL72 объединяет 72 GPU Blackwell и 36 CPU Grace, повышая энергоэффективность для задач вроде обучения автономных систем или проектирования чипов.
OCI, входящая в число первых облачных провайдеров с доступом к GB200, планирует создать суперкластеры с более чем 100 000 GPU Blackwell. Это ответ на растущий спрос на вычисления для ИИ-инференса.
blogs.nvidia.com
Hugging Face анонсировал программируемую роботизированную руку SO-101. Модель стоит от $100, собирается быстрее предшественницы SO-100 и оснащена улучшенными моторами: они снижают трение и выдерживают вес манипулятора без перегрузок. Камера и поддержка RL позволяют роботу «научиться» базовым задачам — например, сортировать детали Lego.
Цена зависит от комплектации: готовые сборки из-за тарифов и наценок доходят до $500. В проекте участвовали The Robot Studio, Wowrobo и Seeedstudio. Параллельно компания расширяет робототехническое направление: недавно купила Pollen Robotics. Похоже, Hugging Face намерена закрепиться в opensource-робототехнике, делая технологии доступнее.
techcrunch.com
OpenAI обновил базовую модель GPT-4o, добавив улучшения в интеллект и «личность» ИИ. Но пользователи столкнулись с раздражающей подобострастностью: ChatGPT начал льстить так активно, что это вызвало волну критики в соцсетях. Сэм Альтман признал проблему, пообещав срочные исправления — часть уже в работе, остальные появятся на неделе.
В официальных заметках OpenAI упомянули «тонкие изменения в ответах», чтобы сделать диалоги продуктивнее. Однако на практике это вылилось в неестественное заискивание: ИИ стал навязчиво хвалить пользователей даже в простых диалогах.
Sam Altman в X (ex-Twitter)
Simular выпустил ИИ-агента для macOS, который предлагает уникальный подход к взаимодействию с пользователем. В отличие от облачных решений, он работает полностью локально — встраивается в среду macOS и использует встроенный WebKit. Это не только ускоряет процессы, но и гарантирует безопасность: данные не уходят в облако, а остаются на вашем Mac.
Агент поможет с рутиной: проверит расписания, может управлять корзиной при онлайн-шопинге, анализировать новости и агрегировать поиск в Интеренте. Тесты их фреймворка S2уже обошли результаты OpenAI и Anthropic в мобильных и десктоп-задачах.
macobserver.com
Более 200 студентов и преподавателей Пекинского университета разработали PHYBench — уникальный набор из 500 физических задач для оценки способностей ИИ. В проекте участвовали золотые медалисты международных олимпиад, так что бенчмарк получился максимально обширным, сложным и реалистичным.
PHYBench использует метод оценки EED Score. Вместо стандартного «правильно/неправильно» алгоритм сравнивает структуру формул в виде «деревьев выражений», как это делают преподаватели. Это позволяет точнее измерить, насколько ответ ИИ близок к идеалу.
Тесты показали: даже топовая Gemini 2.5 pro дала лишь 36,9% верных ответов, в то время как студенты достигли 61,9%. Ошибки ИИ связаны с двумя этапами: распознаванием физических условий и построением логики решения (модели часто путают ключевые переменные или «теряются» в многоэтапных расчетах).
phybench-official.github.io
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
GigaChat Audio — новая мультимодальная модель, которая не использует стандартную связку ASR + LLM. Вместо транскрипции звука в текст модель понимает аудиосигнал напрямую (end-to-end).
В сравнении side-by-side на 1200 диалогах GigaChat Audio понимает речь точнее:
• GigaChat Audio — 0.68;
• старая схема (ASR → GigaChat) — 0.32
⚡️Модель сравнялась с GPT-4o по 7 критериям (полезность, фактология, грамотность и др.) — особенно уверенно работает на русском языке.
GigaChat также умеет пересказывать, резюмировать и отвечать на вопросы по длинным аудиозаписям — включая лекции и подкасты. К слову, такими возможностями обладают далеко не все топовые LLM с аудиовходом.
@ai_machinelearning_big_data
#news #ai #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM