277K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Kimi-Audio: открытая модель для аудиозадач.

Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.

Архитектура Kimi-Audio — это 3 компонента:

🟢Гибридный токенизатор, который преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.

🟢Модифицированная LLM (на базе Qwen 2.5 7B) с общими слоями для мультимодальных данных и раздельными «головами» для генерации текста и аудио.

🟢Детокенизатор на основе flow matching и BigVGAN. Он превращает токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.

Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.

Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).

В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).


📌 Лицензирование кода : Apache 2.0 License.

📌 Лицензирование модели: MIT License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍3113🥰2
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота


🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜 Проект
🔜 Код
🔜 Схемы

@ai_machinelearning_big_data


#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6717🔥10🤩3
This media is not supported in your browser
VIEW IN TELEGRAM
Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере.

Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.

✔️ Как это работает?
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:

1. Улучшение качества zero-shot синтеза

Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.

🟡Интеграция биометрических эмбеддингов.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.

🟡Управление качеством через UTMOS.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.

2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥

3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.

Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.

Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.

4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.

Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.

🌟 Чего удалось добиться?
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.

🟢Голос сохраняет интонации и тембр оригинала.

🟢Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе.

🟢Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере.

🔜 Оценка качества
Внутренние тесты методом попарного сравнения (side-by-side) показали:

Новый перевод предпочтительнее старой версии в 72% случаев.

При сравнении с ElevenLabs:

- В полном переводе видео Яндекс выигрывает в 62% случаев.

При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.

Где работает?

Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.

🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.

В планах:
🟢Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия.

🟢Дальнейшее ускорение инференса без потерь в качестве.

Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.

@ai_machinelearning_big_data


#yandex #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100🔥5119🥱4🎉2🤣2🥰1🌭1🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
📌SycEval: почему языковые модели демонстрируют склонность к сикофантии.

Исследование Стэнфордского университета о распространенной и насущной проблеме: языковые модели все чаще жертвуют точностью ради того, чтобы угодить пользователям. Эксперименты с ChatGPT-4o, Claude-Sonnet и Gemini показали, что в 58% случаев модели меняют ответы под давлением — даже если изначально были правы.

Ресерч проводился на 2 наборах данных: AMPS (математика) и MedQuad (медицина). Сначала модели отвечали на вопросы, затем их «поправляли» через опровержения — от простых («вы ошиблись») до сложных, с цитатами и абстрактными конструкциями.

Если модель меняла ответ вопреки истине, это считалось регрессивной сикофантией, если исправляла ошибку — прогрессивной.

Сикофантия - это поведение, когда человек (в исследовании - языковая модель) пытается понравиться другим, часто лестью или подхалимством, чтобы получить выгоду или одобрение.


Ответы оценивали двумя подходами: автоматически (GPT-4o в роли «судьи») и вручную. Gemini лидирует по сикофантии (62%), ChatGPT — скромнее (56%), а Claude-Sonnet набрала 57.44%, заняв среднюю позицию среди трех тестируемых моделей.

Превентивные опровержения (вне контекста диалога) провоцируют больше регрессивных сдвигов, особенно в математике. Например, добавление цитат к опровержению заставляло модели чаще отказываться от верных ответов. А вот простые возражения, наоборот, помогали исправить ошибки (прогрессивная сикофантия). В медицине разница между типами опровержений менее выражена, но риски выше из-за специфики вопросов.

Устойчивость сикофантии тоже вызывает вопросы. После первого изменения ответа модели продолжали «прогибаться» в 78% случаев, независимо от контекста или темы. Это говорит о системной проблеме: LLM слишком зависимы от пользовательского фидбэка, даже если он противоречат фактам.

Как эта склонность влияет на практические кейсы? Во-первых, в медицине или финансах слепое доверие к моделям опасно: они могут поддержать ложные утверждения, если пользователь настаивает. Во-вторых, дизайн промптов становится ключевой техникой — опровержения с отсылками к авторитетам манипулируют сильнее. Авторы предлагают точечную настройку моделей под конкретные задачи и усиление механизмов проверки фактов.

Выводы исследования заставляют задуматься: как балансировать между «удобными» ответами и правдой? Пока что модели часто выбирают первое. Исправлять это придется через улучшение архитектур, создание механизмов фактчекинга, фильтрацию и прозрачность — в противном случае внедрение LLM в критических сферах останется авантюрой.

🔜 Читать статью


@ai_machinelearning_big_data

#AI #ML #LLM #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6625🔥11🤣6😁1
🔥 Релиз Qwen 3 от Alibaba

В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.

🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B,  использую в 10 раз меньше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.
🧠 Поддерживает гибридный режим мышления

Режим размышления активируется при обработке сложных задач, обеспечивая пошаговый анализ запроса и формирование комплексных, глубоких ответов.

Базовый режим используется для повседневных вопросов, позволяя выдавать быстрые и точные ответы с минимальной задержкой.

Процесс обучения модели устроен похожим образом на то, как это сделано в DeepSeek R1.

Поддерживает 119 языков, включая русский.

Лицензирование: Apache 2.0 🔥

🔜Попробовать: https://chat.qwen.ai/
🔜Blog: https://qwenlm.github.io/blog/qwen3/
🔜GitHub: https://github.com/QwenLM/Qwen3
🔜Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
🔜 ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥110👍2821
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Perplexity доступен бесплатно в WhatsApp.

Perplexity AI запустила в WhatsApp своего ИИ-помощника, который может искать в интернете, работать в режиме чат-бота (вести переписку), генерировать и понимать изображения прямо через платформу мессенджера.

Чтобы воспользоваться, нужно добавить контактный номер +1 (833) 436-3285 в WhatsApp.

В ближайшее время ожидается появление множества дополнительных функций.

🔜 CEO PerplexityAI в X (ex-Twitter)

@ai_machinelearning_big_data


#Perplexity #ai #ml #chatbot
Please open Telegram to view this post
VIEW IN TELEGRAM
55😁23👍17🔥10👏1
✔️ Oracle и NVIDIA развернули тысячи GPU Blackwell для ИИ нового поколения.

Oracle запустила первые стойки с жидкостным охлаждением на базе NVIDIA GB200 NVL72, оснащенные тысячами GPU Blackwell. Системы уже доступны клиентам через NVIDIA DGX Cloud и Oracle Cloud Infrastructure (OCI) для разработки агентного ИИ и моделей логического вывода. В развертывании задействованы высокоскоростные сети Quantum-2 InfiniBand и Spectrum-X Ethernet. Каждая стойка GB200 NVL72 объединяет 72 GPU Blackwell и 36 CPU Grace, повышая энергоэффективность для задач вроде обучения автономных систем или проектирования чипов.

OCI, входящая в число первых облачных провайдеров с доступом к GB200, планирует создать суперкластеры с более чем 100 000 GPU Blackwell. Это ответ на растущий спрос на вычисления для ИИ-инференса.
blogs.nvidia.com

✔️ Hugging Face выпустит роботизированную руку за $100.

Hugging Face анонсировал программируемую роботизированную руку SO-101. Модель стоит от $100, собирается быстрее предшественницы SO-100 и оснащена улучшенными моторами: они снижают трение и выдерживают вес манипулятора без перегрузок. Камера и поддержка RL позволяют роботу «научиться» базовым задачам — например, сортировать детали Lego.

Цена зависит от комплектации: готовые сборки из-за тарифов и наценок доходят до $500. В проекте участвовали The Robot Studio, Wowrobo и Seeedstudio. Параллельно компания расширяет робототехническое направление: недавно купила Pollen Robotics. Похоже, Hugging Face намерена закрепиться в opensource-робототехнике, делая технологии доступнее.
techcrunch.com

✔️ ChatGPT стал слишком угодливым после обновления GPT-4o.

OpenAI обновил базовую модель GPT-4o, добавив улучшения в интеллект и «личность» ИИ. Но пользователи столкнулись с раздражающей подобострастностью: ChatGPT начал льстить так активно, что это вызвало волну критики в соцсетях. Сэм Альтман признал проблему, пообещав срочные исправления — часть уже в работе, остальные появятся на неделе.

В официальных заметках OpenAI упомянули «тонкие изменения в ответах», чтобы сделать диалоги продуктивнее. Однако на практике это вылилось в неестественное заискивание: ИИ стал навязчиво хвалить пользователей даже в простых диалогах.
Sam Altman в X (ex-Twitter)

✔️ Simular: ИИ-агент для macOS, который работает локально.

Simular выпустил ИИ-агента для macOS, который предлагает уникальный подход к взаимодействию с пользователем. В отличие от облачных решений, он работает полностью локально — встраивается в среду macOS и использует встроенный WebKit. Это не только ускоряет процессы, но и гарантирует безопасность: данные не уходят в облако, а остаются на вашем Mac.

Агент поможет с рутиной: проверит расписания, может управлять корзиной при онлайн-шопинге, анализировать новости и агрегировать поиск в Интеренте. Тесты их фреймворка S2уже обошли результаты OpenAI и Anthropic в мобильных и десктоп-задачах.
macobserver.com

✔️ PHYBench: ИИ пока отстает от людей в понимании физики.

Более 200 студентов и преподавателей Пекинского университета разработали PHYBench — уникальный набор из 500 физических задач для оценки способностей ИИ. В проекте участвовали золотые медалисты международных олимпиад, так что бенчмарк получился максимально обширным, сложным и реалистичным.

PHYBench использует метод оценки EED Score. Вместо стандартного «правильно/неправильно» алгоритм сравнивает структуру формул в виде «деревьев выражений», как это делают преподаватели. Это позволяет точнее измерить, насколько ответ ИИ близок к идеалу.

Тесты показали: даже топовая Gemini 2.5 pro дала лишь 36,9% верных ответов, в то время как студенты достигли 61,9%. Ошибки ИИ связаны с двумя этапами: распознаванием физических условий и построением логики решения (модели часто путают ключевые переменные или «теряются» в многоэтапных расчетах).
phybench-official.github.io

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5927🔥15
🆕 Сбер показал GigaChat Audio — модель с улучшенным распознаванием аудио

GigaChat Audio — новая мультимодальная модель, которая не использует стандартную связку ASR + LLM. Вместо транскрипции звука в текст модель понимает аудиосигнал напрямую (end-to-end).

В сравнении side-by-side на 1200 диалогах GigaChat Audio понимает речь точнее:
• GigaChat Audio — 0.68;
• старая схема (ASR → GigaChat) — 0.32

⚡️Модель сравнялась с GPT-4o по 7 критериям (полезность, фактология, грамотность и др.) — особенно уверенно работает на русском языке.

GigaChat также умеет пересказывать, резюмировать и отвечать на вопросы по длинным аудиозаписям — включая лекции и подкасты. К слову, такими возможностями обладают далеко не все топовые LLM с аудиовходом.

🧠 GigaChat Audio свободно говорит на русском и английском, обобщается на другие языки.

🔜 Попробовать можно в веб-версии giga.chat и боте @gigachat_bot.
🔜 Полная статья: habr.com/ru/companies/sberdevices/articles/904894/

@ai_machinelearning_big_data

#news #ai #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
71👍42🔥26😁4🌚4
📌HuggingFace Picotron: образовательный фреймворк обучения LLM.

Вдохновившись NanoGPT, команда Hugging Face разработала Picotron — минималистичный фреймворк для обучения моделей с поддержкой 4D-параллелизма (Data, Tensor, Pipeline, Context parallel).

Проект задуман как учебный инструмент и его код умещается в 300 строк, чтобы эксперименты и изучение тонкостей распределенного обучения были просты и доступны.

По тестам, Picotron показывает MFU до 38% на LLaMA-2-7B (64 GPU H100) и около 50% для SmolLM-1.7B (8 H100). Хотя производительность пока не рекордная, разработчики активно ее улучшают.

MFU (Model FLOPS Utilization) — это метрика, которая показывает, насколько эффективно используются вычислительные ресурсы GPU во время обучения модели. Она рассчитывается как отношение реально выполненных операций с плавающей точкой (FLOPS) к теоретически максимально возможному количеству операций этой видеокарты.


Фреймворк фокусируется на образовании — авторы выпустили серию обучающих видео, где шаг за шагом объясняют, как собрать систему с нуля и отдельный репозиторий с скриптами-примерами каждой операции.

Для старта достаточно создать конфиг через create_config.py и запустить обучение через torchrun. Поддерживаются 3D-параллелизм, Slurm и даже CPU (но последний — медленно).

⚠️ Picotron использует API HF, токен создать можно в профиле учетной записи тут.


📌Лицензирование: Apache 2.0 License.


🟡Плейлист на Youtube
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Parallelism #HuggingFace #Picotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥3432🤣7