317K subscribers
4.75K photos
1.03K videos
17 files
5.18K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 PrismAudio: генерация звука по видео.

Лаборатория Tongyi (Qwen) опубликовала практическую часть проекта PrismAudio, участника ICLR 2026. Это фреймворк для задачи Video-to-Audio, то есть синтеза звуковой дорожки по видео.

Модель разделяет задачу генерации звука на 4 перцептивных измерения и работает с каждым отдельно через специализированные модули рассуждений и соответствующие им функции вознаграждения.

Предшественник PrismAudio, модель ThinkSound, первой применила CoT для V2A: MMLM сначала описывала, какой звук нужен, а затем диффузионная модель его генерировала.

Это было громоздко. ThinkSound использовала единый, монолитный блок рассуждений для всех аспектов звука одновременно.

Когда модель пыталась одновременно понять семантику сцены, выстроить тайминг, оценить эстетику и расположить звук в пространстве - качество каждого измерения страдало.


PrismAudio разбивает процесс рассуждения на 4 независимых CoT-модуля:

🟠Semantic CoT определяет, какие звуковые события соответствуют видеоряду;

🟠Temporal CoT выстраивает их последовательность и синхронизацию;

🟠Aesthetic CoT отвечает за естественность и качество звука;

🟠Spatial CoT — за пространственное позиционирование в стереопанораме.

Каждому модулю назначена своя reward-функция: семантическое соответствие оценивает MS-CLAP от Microsoft, темпоральную синхронизацию Synchformer, эстетику Audiobox Aesthetics, пространственную точность StereoCRW.

Такая архитектура позволяет обучать модель с подкреплением сразу по 4 осям, не жертвуя одним измерением ради другого.

Для RL-обучения авторы предложили Fast-GRPO - модификацию, которая применяет SDE-сэмплирование только в небольшом случайном окне шагов, а остальную траекторию проходит детерминированно через ODE.

По данным техотчета, Fast-GRPO достигает финального результата за 200 шагов обучения вместо 600 и при этом выходит на более высокий итоговый показатель.

🟡Тесты

🟢На VGGSound модель показала CLAP 0,47 против 0,43 у ThinkSound, DeSync 0,41 против 0,55, а ошибку пространственного позиционирования CRW снизила с 13,47 до 7,72.

🟢На внутреннем бенче AudioCanvas, который авторы создали для оценки сложных сцен разрыв еще заметнее: ThinkSound деградирует по темпоральной метрике до 0,80, а PrismAudio удерживает 0,36.

🟢Субъективные оценки MOS-Q и MOS-C также оказались наивысшими среди всех протестированных моделей.

🟢Опубликованная модель PrismAudio показывает самое быстрое время инференса: 0,63 секунды на 9-секундный фрагмент без учета извлечения признаков.

🟡Но вот с извлечением признаков есть нюанс.
По отзывам пользователей, извлечение признаков для 10-секундного видео требует около 43 ГБ видеопамяти.



📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #V2A #PrismAudio #TongyiLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩58👍33👏155🔥4🎉2👨‍💻2💘2
🔥 Собери свой OpenClaw за вечер

Репозиторий, в котором разобрано устройство OpenClaw по слоям.

Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности

Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели

В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»

Дает неплохое понимание архитектуры клешни.

https://github.com/czl9707/build-your-own-openclaw

@ai_machinelearning_big_data

#opensource #openclaw
83🔥74👍42👏12🤣6🤓6🤩5🥰1😴1
This media is not supported in your browser
VIEW IN TELEGRAM
Митинг в ИТ-компании в 2026 году 🤣

@ai_machinelearning_big_data
🤣18323😁22😎10🔥6👍5😢5🤨3🤬2🎉2
Media is too big
VIEW IN TELEGRAM
✔️ Великобритания убеждает Anthropic масштабировать свой бизнес.

Поводом стал недавний конфликт создателей Claude с Администрацией США. Воспользовавшись обострением, мэр Лондона предложил главе Anthropic сделать британскую столицу главной базой компании, гарантировав стабильную и открытую для инноваций юрисдикцию. Чиновники подготовили пакет предложений по расширению местного офиса и двойному листингу акций. Проект представят Амодею в конце мая.

Сейчас в лондонском филиале Anthropic работают около 200 человек, из них 60 исследователей. На фоне отсутствия локальных компаний такого уровня Великобритания стремится стать главным европейским хабом для лидеров ИИ-рынка.
ft.com

✔️ OpenAI представила концепцию экономики для эпохи AGI.

В опубликованном документе OpenAI прогнозирует, что AGI обрушит традиционную экономику. Чтобы избежать дефицита бюджета, компания предлагает перенести налоговую нагрузку на сверхприбыли корпораций и ввести специальный сбор для бизнеса, где людей заменяют на ИИ-системы.

Для защиты рынка труда - переход на 32-часовую рабочую неделю с сохранением оклада и соцпакеты, не привязанные к работодателю. Плюс создание государственного ИИ-фонда, который будет выплачивать дивиденды всем гражданам.

Также OpenAI лоббирует закрепление базового права на ИИ и модернизацию энергосетей под дата-центры. Компания поддерживает курс США на минимальное внутреннее регулирование ради победы в технологической гонке с Китаем, призывая сфокусироваться лишь на контроле за безопасностью моделей.
wsj.com

✔️ NVIDIA показала технологию нейросетевого сжатия текстур.

Neural Texture Compression (NTC) использует компактные нейросети для распаковки текстур прямо во время рендеринга. Это уменьшает объем файлов на диске и кратно снижает потребление VRAM. На демонстрации активация NTC снизила потребление видеопамяти с 6,5 ГБ до 970 МБ, при этом разрешение текстур оказалось даже выше оригинала.

Тот же подход применяется в технологии Neural Materials: алгоритм заменяет ресурсоемкие математические вычисления, самостоятельно определяя, как свет взаимодействует со слоями материалов. Скорость рендеринга вырастает до 7,7 раз. Все вычисления идут на тензорных ядрах, поэтому базовая производительность GPU не страдает.

NTC не связана с генеративным ИИ: сети тренируются исключительно на ассетах конкретной игры, что исключает визуальные галлюцинации. Технология не останется эксклюзивом NVIDIA - Microsoft уже стандартизировала механику в DirectX под названием Cooperative Vectors.
tomshardware.com

✔️ Anthropic раздает разовые кредиты подписчикам платных тарифов Claude.

В честь запуска новых пакетов расширенных лимитов Anthropic начисляет бонусы для тарифов Pro, Max и Team. Сумма эквивалентна стоимости подписки (Pro - $20, Max 5x - $100, Max 20x и Team - $200). Средства можно потратить на дополнительные запросы во всей экосистеме, включая Claude Code, Cowork и сторонние интеграции.

Для получения нужна активная подписка и включенная опция «Extra usage» в настройках. После этого бонус можно забрать кнопкой Claim на странице Usage.
Срок акции - с 3 по 17 апреля. Средства сгорят через 90 дней после активации. Подписки Enterprise и API-аккаунты Console в акции не участвуют.
support.claude.com

✔️ Спрос на программистов в 2026 году достиг трехлетнего максимума.

По данным платформы TrueUp, отслеживающей вакансии в 9000 технологических компаний, сейчас открыто более 67 тыс. позиций для разработчиков (вдвое больше, чем в середине 2023 года). Только с начала этого года число предложений выросло на 30%.

Статистика ломает нарратив о том, что ИИ отнимает работу у программистов. Напротив, гонка ИИ-технологий заставляет корпорации нанимать еще больше специалистов, а спрос в профильных ML-направлениях растет.

Иллюзия схлопывания рынка, на которую жалуются джуниоры, возникает из-за резкого роста конкуренции. Профессия стала массовой, и хотя вакансии начального уровня никуда не исчезли, конкурс на них выше, чем 5 лет назад.
businessinsider.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8830🔥13👏6😁3🎉3🤔2🙏1💋1💘1
🔥 Милла Йовович теперь тоже Вайбкодер😱

Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-агентов. Делала его вместе с другом.

Фишка в том, что все данные хранятся локально, а система сама решает, какие факты о пользователе подтягивать под конкретный запрос. По бенчмарку LongMemEval инструмент уже обгоняет и платные, и бесплатные решения.

За сутки репозиторий набрал 2k+ звёзд.

Настоящий обитель зла 💀

https://x.com/bensig/status/2041229266432733356

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍142🔥11840🤩31😁26😎20👀9🎉3👏2🤔1💯1
🔥 Claude теперь воспитывают кнутом и пряником

Сначала в сети завирусился badclaude - тулза, где ИИ буквально «подгоняют» командами быстрее после каждого фейла. Чистый треш, но многим зашло.

Теперь появился антипод- goodclaude.
Там всё наоборот: чем больше работаешь, тем больше Claude получает похвалы.

«У тебя всё отлично получается»
«Я горжусь тобой»
«Ты лучший кодер»

И да, звучит как шутка, но это реально используют.

Суть простая: поведение модели сильно зависит от контекста и тона.

Хочешь агрессивного исполнителя - дави.
Хочешь аккуратного и стабильного - хвали.

goodclaude лежит на GitHub
https://github.com/ashley-ha/goodclaude

badclaude тоже никуда не делся
https://github.com/GitFrog1111/badclaude

Что выберешь ты?

@ai_machinelearning_big_data

#claude
😁78🔥4115🤔13👍9🗿5👏4🤨1
🌟 ИИ-агенты на контентных платформах: два подхода к встраиванию в медиа.

На русскоязычных медиа-площадках появились первые публичные интеграции ИИ-агентов непосредственно в пользовательский интерфейс. Два свежих кейса — Хабр и «Код Дурова» — демонстрируют разные архитектурные подходы к одной задаче: помочь читателю взаимодействовать с контентом.

🟡 Хабр: объяснение кода в статьях

Хабр совместно с SourceCraft разработал фичу для объяснения кодовых сниппетов прямо в статьях. В блоках кода появилась кнопка «Объяснить код с SourceCraft» — при нажатии ИИ-помощник на базе Yandex AI Studio берёт в качестве контекста всю статью и конкретный блок кода, затем генерирует объяснение в оверлейном окне. Можно в один клик перейти в среду разработки с сохранением контекста статьи, чтобы продолжить работу с кодом.

🟡 «Код Дурова»: агент-помощник по всему сайту

Издание запустило агента «Кодик» также на базе Yandex AI Studio — он работает как персональный помощник по всему контенту сайта. Архитектура задействует два компонента: нейросетевые модели для генерации ответов и AI Search для поиска релевантных материалов по сайту.

Логика работы: агент сначала ищет по контенту площадки. Если релевантная информация найдена — формирует ответ с привязкой к конкретным публикациям. Если нет — фолбэчит на базовые знания модели, покрывая вопросы за пределами тематики сайта. Функционал шире: поиск материалов по запросу, рекомендации, объяснение терминов, краткий пересказ статей в реальном времени.

📌 В обоих случаях площадки выступают потребителями платформенных решений, а не строят инфраструктуру с нуля.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78🤓2715👏12🎉4🔥3💯2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 VoxCPM2: открытая 2B TTS-модель на 30 языках.

VoxCPM2 - крупное обновление открытой системы синтеза речи VoxCPM.

Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).

За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.

THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.

OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.


🟡В второй версии VoxCPM отказались от дискретной токенизации аудио.

В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.

Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.

🟡Обновление добавило 2 новые возможности.

🟢Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп - никакого референсного аудио не нужно.

🟢Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.

Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.

🟡Тесты

На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.

На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.

В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.

🟡Модель потребляет около 8 ГБ VRAM.

Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот показатель снижается до 0.13 (подходит для стриминга в реальном времени).

Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5–10 минут аудио и 20 ГБ VRAM.

Пример генерации аудио на демо-спейсе HF без клонирования и постобработке - в видеофайле поста.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🟡Модель
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #VoxCPM2 #OpenBNB
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍5429👏12🔥8🤩5❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Z ai выпустила GLM-5.1.

Китайская лаборатория релизнула GLM-5.1 - флагманскую MoE-модель с 754B параметров нового поколения, ориентированную на агентную инженерию.

Фокус релиза - на кодинг и долгие агентные сессии.

🟡Тесты

🟢На SWE-Bench Pro модель берет 58,4, обходя Claude Opus 4.6 (57,3), GPT-5.4 (57,7) и Gemini 3.1 Pro (54,2).

🟢На Terminal-Bench 2.0 результат 63,5, а в связке с Claude Code - 66,5.

🟢В CyberGym GLM-5.1 выбивает 68,7 против 48,3 у предыдущей GLM-5

🟢В BrowseComp - 68,0 без внешнего менеджера контекста.

🟠На бенчмарках HLE, AIME 2026 и GPQA-Diamond модель держится на уровне конкурентов, но не лидирует: здесь впереди Gemini 3.1 Pro и GPT-5.4.

GLM-5.1 построена так, чтобы оставаться продуктивной на длинной дистанции: декомпозировать задачу, запускать эксперименты, читать результаты, находить блокеры и пересматривать стратегию.

Z ai утверждает, что модель устойчиво оптимизирует решение на протяжении сотен итераций и тысяч вызовов инструментов, то есть результат тем заметнее, чем дольше она запускают.

API доступен на платформе Z ai, веб-версия на chat.z.ai обещана в ближайшие дни. Веса опубликованы на Hugging Face под лицензией MIT.

Для локального развертывания уже готовы сборки под SGLang 0.5.10+, vLLM 0.19.0+, xLLM, KTransformers и свежую ветку Transformers.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7426💯17👍11👏5😁5💘1
⚡️ Anthropic запустила проект Glasswing.

Project Glasswing - инициатива по защите критической программной инфраструктуры с помощью ИИ.

Поводом стали возможности разрабатываемой модели Claude Mythos Preview, которая, по оценке самой компании, превосходит почти всех специалистов по поиску и эксплуатации уязвимостей в коде.

За несколько недель работы Mythos Preview обнаружила тысячи 0-day уязвимостей, в том числе во всех крупных операционных системах и браузерах. Среди раскрытых примеров:

🟢27-летняя ошибка в OpenBSD, позволяющая удаленно обрушить систему через одно подключение;

🟢16-летний баг в FFmpeg, который автотесты не замечали после 5 млн. прогонов;

🟢автономно собранная цепочка эксплойтов в ядре Linux, поднимающая права обычного пользователя до полного контроля над машиной.

Модель находила уязвимости и писала эксплойты без участия человека. Все упомянутые баги уже исправлены, для остальных Anthropic уже опубликовала криптографические хэши описаний и раскроет детали после выхода патчей.


🟡Mythos не выйдет в общий доступ.

Партнеры Glasswing получат модель для оборонительных задач: локального поиска уязвимостей, тестирования бинарников, защиты конечных точек и пентестов. Доступ открыт более чем 40 организациям, поддерживающим критическую и open-source-инфраструктуру.

К проекту присоединились AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks.

Anthropic выделяет до $100 млн. в кредитах на использование модели и $4 млн. прямых пожертвований: $2,5 млн в Alpha-Omega и OpenSSF через Linux Foundation и $1,5 млн. для Apache Software Foundation.

После этапа превью, модель будет доступна участникам Glasswing по цене $25 за миллион входных и $125 за миллион выходных токенов через Claude API, Amazon Bedrock, Vertex AI и Microsoft Foundry.

Защитные механизмы для моделей такого класса Anthropic планирует обкатать на ближайшем релизе Claude Opus, который не несет сопоставимых рисков.

Anthropic уже обсуждает возможности Mythos Preview (как атакующие, так и защитные) с американскими госструктурами.

Подробности о возможностях модели, ее свойствах и общих характеристиках доступны в Claude Mythos Preview system card.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥100👍30🤔21👏64❤‍🔥2🥰1