196K subscribers
3.56K photos
542 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений.

Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.

Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.

Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com

✔️ Tavus представила липсинк-модель Hummingbird-0.

Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.

Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io

✔️ Классические игры стали новым бенчмарком для ИИ.

Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.

Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org

✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox.

DeepMind представили обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.

Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind

✔️ YouTube тестирует AI Overviews в поиске.

YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.

Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland

✔️ OpenAI запускает облегчённую версию Deep Research — и она достаётся даже бесплатным пользователям.
Работает на базе o4-mini:
Быстрее, дешевле, почти без потерь в качестве.



@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Новая методика обучения больших языковых моделей (LLM): как ученым удалось увеличить точность и безопасность ИИ

На основе существующих методов Trust Region ученые создали новый метод обучения LLM. С его помощью качество ответов ИИ повышается до 15% по пяти показателям: точность, связность, стиль, логика рассуждений и информативность.

Согласно исследованию, качество текстов по этим критериям превосходило результаты, полученные с использованием традиционных методов оптимизации. Использование нового подхода приводит к снижению эффекта избыточной оптимизации. Модели меньше “зацикливаются” на случайных ошибках и избегают выдачу странных текстов, которые могут выдаваться при обучении на узкопрофильную задачу.

Чтобы избежать избыточной оптимизации ученые ввели периодическое обновление “настроек по умолчанию” модели. Так, она отмечает основные “ориентиры” на своем пути, что помогает избежать отклонений и быстрее достичь целевой точки.

Результаты исследования ученых из лаборатории исследований искусственного интеллекта T-Bank AI Research были вчера представлены на международной конференции по обучению представлениям (ICLR) и признаны мировым научным сообществом.

🔜 Подробнее в полном тексте исследования: https://arxiv.org/abs/2404.09656

@ai_machinelearning_big_data

#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Математические датасет OpenMathReasoning и модели OpenMath-Nemotron - победители олимпиады AIMO-2.

NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место в конкурсе Kaggle AIMO-2.

Секрет — в огромном датасете OpenMathReasoning, который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR).

Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством.

OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений.

Модели OpenMath-Nemotron (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах.


📌Лицензирование: CC-BY-4.0 License.


🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Math #Dataset #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ MWS Octapi признана лучшей платформой в области цифровой трансформации

В Москве состоялся Российский саммит и премия CDO/CDTO Summit & Awards 2025 - она присуждается руководителям по цифровизации, а также организациям с наибольшими успехами в области цифровой трансформации.

Сразу две награды в этом году взяла МТС Web Services. Гран-при в номинации «Digital-платформа года» получило решение MWS Octapi. Это платформа, которая позволяет бизнесу бесшовно интегрировать сервисы в экосистему без участия разработчиков и обеспечивать их эффективное взаимодействие.

Кроме того, лауреатом премии CDO/CDTO стал генеральный директор MWS Павел Воронин, который вошел в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Mobility AI от Google: Как ИИ меняет городской транспорт.

Городские пробки, рост выброса CO₂ и тысячи ДТП ежегодно — эти проблемы знакомы каждому мегаполису. В 2023 году в США на дорогах погибло 38,5 тысяч человек, а рост онлайн-коммерции и сервисов шеринга транспорта усложняет логистику.

В Google Research разработали решение: проект Mobility AI, который объединяет последние достижения в ИИ для анализа, моделирования и оптимизации транспортных систем.

В основе проекта — 3 направления: измерение, симуляция и оптимизация.

▶️ Данные

Mobility AI собирает информацию из Google Maps, датчиков дорожного движения и логи событий резкого торможения (которые, как оказалось, сильно коррелируют с авариями). Эти сведения помогают не только отслеживать пробки в реальном времени, но и прогнозировать риски.

▶️ Симуляция

Чтобы тестировать гипотезы на основе собранных данных без риска для реального мира, Google создает цифровых двойников — виртуальные копии транспортных сетей. Раньше такие симуляции работали только на отдельных участках, но теперь их масштабируют до уровня целых городов.

Калибровка "двойников" стала точнее благодаря ML: алгоритмы учитывают не только данные с датчиков, но и обезличенные скорости, маршруты и метео-факторы. Симуляция дает возможность прогнозировать, как повлияет на дорожную ситуацию новый светофор или, скажем, эвакуация при ЧС.

▶️ Оптимизация

Здесь ИИ предлагает конкретные решения: от перенастройки сигналов светофоров до маршрутов для грузового транспорта. В Сиэтле, например, алгоритмы помогли улучшить транспортные потоки после массовых мероприятий, а в Милл-Вэлли — спланировать эвакуационные пути. Причем система учитывает даже «социальные факторы» (как перенаправление машин повлияет на разные районы).

Уже есть и практические результаты. Благодаря эко-маршрутам в Google Maps только в США удалось избежать выброса 2,9 млн. тонн CO₂, это как будто с дорог убрали 650 тысяч авто. А анализ данных о «жестких торможениях» помогает городам находить аварийно-опасные участки до того, как там произойдет ДТП.

Внедрение таких масштабных технологий требует сотрудничества с городскими властями и Google делает ставку на открытость: сервисы вроде Google Public Sector и инструменты для симуляции уже доступны госструктурам.

Mobility AI — не панацея, но большой шаг вперед. Главное, что Google сочетает науку с практикой: вместо абстрактных теорий создаются работающие модели, которые уже меняют города. Для инженеров и урбанистов это шанс перейти от ситуационного менеджмента к продуманному управлению транспортом.

🔜 Читать статью в оригинале
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест первого дня ICLR 2025 от делегации Яндекса

✔️ Computer Vision: прорывы в генерации и анализе изображений.

Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.

✔️ NLP: оптимизация предпочтений и эффективный инференс.

Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.

✔️ Speech: расширенные бенчмарки и новые токенизации.

Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.

✔️ RecSys: инновационные архитектуры для рекомендаций.

Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.

@ai_machinelearning_big_data

#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🧩 Rivet — визуальная среда для создания сложных AI-агентов. Этот проект предлагает необычный подход к работе с LLM: вместо написания цепочек промптов в коде, вы собираете их как ноды в визуальном редакторе.

Особенность инструмента возможность встраивать созданные графы прямо в ваше приложение через TypeScript-библиотеку. Это превращает его из просто IDE в инструмент для production-разработки.

🤖 GitHub

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Baidu представила модели ERNIE 4.5 Turbo, ERNIE X1 Turbo и набор ИИ-инструментов для разработчиков.

На конференции Baidu Create 2025 компания анонсировала две новые модели: ERNIE 4.5 Turbo и ERNIE X1 Turbo. Обе версии улучшены в мультимодальности, логике и скорости, а их стоимость снижена: ERNIE X1 Turbo обходится в 4 раза дешевле аналогов (input стоит 1 юань за 1 млн токенов, а output 4 юаня).

Модель ERNIE 4.5 Turbo, по заявлениям, сравнима с GPT-4.1.

Baidu также показала «цифровых людей» с реалистичной речью и внешностью, которых можно создать за две минуты из видео. Также представлен Xinxiang — мультиагентный инструмент для решения сложных задач, от планирования поездок до офисной работы. Уже сейчас он охватывает 200 сценариев, а к 2030 году их станет более 100 тысяч.

Для разработчиков запущена программа AI Open с доступом к трафику и монетизации, а MCP упростит интеграцию сервисов с большими моделями.

prnewswire.com

@ai_machinelearning_big_data

#ERNIE
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Google анонсировали Genie 2 — крупномасштабную «foundation»-модель мира, способную на лету порождать интерактивные 3D-окружения. Ключевые моменты:

📌 Что такое Genie 2
Это автрорегрессивная латентно-диффузионная модель, обученная на огромном видеодатасете. Получив всего одно изображение-подсказку (например, кадр, сгенерированный Imagen 3), Genie 2 разворачивает целый виртуальный мир, в котором можно свободно перемещаться клавиатурой и мышью — как человеку, так и ИИ-агенту. Длительность консистентного эпизода достигает минуты.

Зачем она нужна
Главный барьер в исследованиях «телесных» (embodied) агентов — ограниченный спектр тренировочных сред. Genie 2 снимает это ограничение: модель способна бесконечно генерировать новые ландшафты, объекты, физику и взаимодействия, создавая «безграничный учебник» для RL-агентов.

В работе демонстрируется связка с SIMA — многоцелевым агентом DeepMind: тот получает языковые инструкции («открой синюю дверь») и действует внутри миров, созданных Genie 2. Такое сочетание позволяет быстро генерировать unseen-задачи для оценки или дообучения агентов.
Deepmind

✔️ Марка Цукерберг и ко вместе с Booz Allen Hamilton запустили Llama на МКС для помощи астронавтам.

Компании представили проект «Space Llama» — открытую ИИ-модель Llama 3.2, которая отправилась на Международную космическую станцию. Технология должна помочь экипажу в исследованиях на орбите, сократив зависимость от бумажных инструкций и связи с Землей.

Система работает на базе компьютера Spaceborne Computer-2 от Hewlett Packard Enterprise и GPU Nvidia. Это уже второй шаг Booz Allen Hamilton в области космического ИИ: в августе компания развернула первую языковую модель на МКС. Новый стек технологий обещает ускорить реакцию на нештатные ситуации и снизить затраты на вычисления.
cnbc.com

✔️ Perplexity планирует релиз браузера Comet в мае.

CEO Perplexity Аравинд Шринивас в подкасте TBPN раскрыл планы компании: их новый браузер Comet, запуск которого запланирован на май, будет отслеживать действия пользователей за пределами приложения. Цель — собрать данные о покупках, посещаемых сайтах, отелях и ресторанах, чтобы формировать детальные профили для таргетированной рекламы. По словам Шриниваса, это повысит релевантность объявлений, а пользователи «не будут против».

Comet уже столкнулся с задержками, но команда уверена в сроках. Параллельно Perplexity укрепляет позиции в мобильном сегменте: приложение предустановят на смартфоны Motorola Razr, а с Samsung ведутся переговоры.
techcrunch.com

✔️ Криптогигант Paradigm вложил 50млн. долл. в ИИ−стартап NousResearch.

Сделка оценила проект NousResearch в 1 млрд. долларов. Nous разрабатывает открытые ИИ-модели, конкурирующие с решениями OpenAI, но с упором на распределенные вычисления: вместо дата-центров стартап использует мощности обычных пользователей через блокчейн Solana.

Основатели Nous — исследователи ИИ, ранее выпустившие популярные в opensource-сообществе модели Hermes. Их новый подход позволяет обучать нейросети на «простаивающих» GPU, стимулируя участников криптовалютными вознаграждениями.
fortune.com

✔️ Ziff Davis подала в суд на OpenAI из-за незаконного использования контента для обучения ИИ.

Крупный медиа-холдинг Ziff Davis подал иск против OpenAI в федеральный суд Делавэра, обвинив компанию в использовании своих статей для обучения нейросетей без разрешения. По данным иска, OpenAI копировала материалы PCMag, Mashable и IGN — активов Ziff Davis, которые ежегодно публикуют около 2 млн статей. Компания требует компенсацию в сотни миллионов долларов, утверждая, что действия OpenAI нарушают авторские права и вводят пользователей в заблуждение: ChatGPT якобы приписывает Ziff Davis информацию, которую та не публиковала.

OpenAI настаивает, что обучение моделей на публичных данных попадает под «добросовестное использование», критичное для инноваций. Однако Ziff Davis заявляет, что после блокировки GPTBot в мае и августе 2024 года компания продолжила сбор контента.
news.bloomberglaw.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Kimi-Audio: открытая модель для аудиозадач.

Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.

Архитектура Kimi-Audio — это 3 компонента:

🟢Гибридный токенизатор, который преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.

🟢Модифицированная LLM (на базе Qwen 2.5 7B) с общими слоями для мультимодальных данных и раздельными «головами» для генерации текста и аудио.

🟢Детокенизатор на основе flow matching и BigVGAN. Он превращает токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.

Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.

Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).

В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).


📌 Лицензирование кода : Apache 2.0 License.

📌 Лицензирование модели: MIT License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота


🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜 Проект
🔜 Код
🔜 Схемы

@ai_machinelearning_big_data


#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере.

Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.

✔️ Как это работает?
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:

1. Улучшение качества zero-shot синтеза

Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.

🟡Интеграция биометрических эмбеддингов.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.

🟡Управление качеством через UTMOS.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.

2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥

3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.

Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.

Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.

4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.

Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.

🌟 Чего удалось добиться?
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.

🟢Голос сохраняет интонации и тембр оригинала.

🟢Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе.

🟢Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере.

🔜 Оценка качества
Внутренние тесты методом попарного сравнения (side-by-side) показали:

Новый перевод предпочтительнее старой версии в 72% случаев.

При сравнении с ElevenLabs:

- В полном переводе видео Яндекс выигрывает в 62% случаев.

При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.

Где работает?

Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.

🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.

В планах:
🟢Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия.

🟢Дальнейшее ускорение инференса без потерь в качестве.

Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.

@ai_machinelearning_big_data


#yandex #tts
Please open Telegram to view this post
VIEW IN TELEGRAM