314K subscribers
4.81K photos
1.05K videos
17 files
5.22K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Генеративный ИИ в креативных индустриях мы протестировали на хакатоне «Скиллаут» в МосХаб.Сколково, где продакшен-команды и независимые AI-режиссеры создавали рекламные ролики. Теперь давайте обсудим игры 🕹

В 2026-м генеративный ИИ уже используют в большинстве студий: по разным оценкам, более 60% команд применяют его в разработке. Но при этом индустрия сталкивается с обратным эффектом: игр становится больше, а ощущение новизны — все слабее.

Что ждать геймдеву? Разобрали в карточках.
🤔47🔥18👍12👏106🌭3🤣2😢1
🌟 Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA

Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут.

Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях.

🟡Архитектура собрана из 4-х блоков:

🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц);
🟢Двухслойный MLP-адаптер;
🟢Qwen-2.5-7B с расширенным контекстом 128K токенов;
🟢Потоковый TTS-модуль для голосовых диалогов.

Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение.

🟡Релиз состоит из 3-х версий

AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам.

На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2.

На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9.


AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода.

Именно она устанавливает новые планки среди LALM по ASR.

WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.)


AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий).

75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4).



📌Лицензирование: NVIDIA OneWay Noncommercial License.


🟡Страница проекта
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Audio #AudioFlamingo #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯38🔥34👍11👏9🤓62
⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи

Главная фишка - Audio Tags.


Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

@ai_machinelearning_big_data

#google `#tts
👍143👏3326🔥23🤩6💯43🎉2
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI представила модель GPT-5.4-Cyber для специалистов по кибербезопасности

В отличие от базовых версий, у модели снижен порог отказов: фильтры безопасности не блокируют запросы на поиск багов и оборонительное программирование.

GPT-5.4-Cyber получила продвинутые возможности бинарного реверс-инжиниринга - исследователи могут анализировать скомпилированное ПО на наличие вредоносных компонентов и уязвимостей, даже не имея доступа к исходному коду.

Из-за двойного назначения функционала доступ к модели строго регулируется. OpenAI распространяет новинку через программу Trusted Access for Cyber: нужна верификация личности, а корпоративным клиентам - одобрение профильного менеджера.
openai.com

⚡️ Anthropic внедряет систему верификации личности

Компания начала проверять личность пользователей в рамках регулярных процедур безопасности. Технический партнёр инициативы - сервис Persona. Для процедуры понадобится паспорт, водительские права или ID-карта, а также камера для селфи. Цифровые версии документов, ксерокопии и студенческие билеты система не принимает.

В Anthropic обещают не использовать собранные данные для обучения ИИ-моделей. Фото документов и биометрия шифруются и хранятся на серверах Persona. Разработчик Claude выступает лишь контроллером данных и запрашивает доступ к записям только в спорных ситуациях - например, при апелляции на блокировку аккаунта.
support.claude.com

✔️ World Labs выложила в опенсорс движок рендеринга 3D-сцен в браузере

Стартап представил открытый рендерер Spark 2.0 на базе THREE.js и WebGL2, который плавно отрисовывает локации из 100 млн 3D-гауссианов прямо в браузере. Обычное железо с трудом переваривает больше пяти миллионов точек, поэтому разработчикам пришлось полностью перестроить пайплайн загрузки графики.

Производительность обеспечивают три механизма. Иерархическая система детализации подбирает оптимальное количество гауссианов под выделенный бюджет рендеринга, сохраняя стабильный FPS. Тяжёлые ассеты обрабатываются стримингом: новый формат .RAD выводит базовый каркас, а затем динамически подтягивает детали в зависимости от угла обзора камеры. Память управляется через резервирование фиксированного пула на GPU и постраничного тасования блоков данных.

Ядро Spark 2.0 написано на Rust, скомпилировано в WebAssembly и вынесено в фоновый Web Worker. Изначально это был внутренний инструмент для ИИ-генератора 3D-миров Marble, но теперь он общедоступен.
worldlabs.ai

✔️ В Google Chrome добавили функцию Skills для промптов

В десктопной версии Chrome появилась функция Skills: больше не нужно повторно вводить запросы к Gemini. Удачные промпты теперь можно сохранять из истории чата и запускать в один клик через слэш или кнопку плюса.

Инструмент умеет обрабатывать как активную страницу, так и сразу несколько выбранных вкладок - это позволяет быстро сравнивать информацию или искать нужные данные в объёмных документах.

Google также подготовил библиотеку готовых skills, каждый из которых можно кастомизировать. Новая функция разворачивается на macOS, Windows и ChromeOS для англоязычных пользователей.
blog.google

✔️ Midjourney выпустила версию 8.1

ИИ-генератор изображений Midjourney обновился до версии 8.1. Главное нововведение - поддержка 2K. Создатели заявляют рост производительности в 3 раза по сравнению с V8, а стоимость генерации снизилась на две трети. В 1K-режиме V8.1 работает быстрее draft-режимов седьмого поколения модели.

Помимо оптимизации архитектуры, Midjourney прислушались к критике пользователей и вернули платформе узнаваемую художественную эстетику. В арсенал инструментов снова добавлена функция image-to-image, временно отключённая в предыдущей сборке.

Также команда обновила систему референсов стилей, доработала мудборды и представила обновлённую утилиту Describe для реверс-инжиниринга текстовых промптов по готовым изображениям.
Midjourney в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻5620🎉15🤓13👍6😢21👏1🤔1
🌟 Lyra 2.0: фреймворк для генерации исследуемых 3D-миров по одной фотографии.

NVIDIA опубликовала веса модели и код Lyra 2.0 - системы, которая принимает на вход изображение, генерирует видео с управляемой траекторией камеры, а затем реконструирует его в 3D-гауссианы и полигональные меши.

Готовые ассеты можно напрямую импортировать в игровые движки и робототехнические симуляторы.

Система будет полезна для массовой генерации тренировочных 3D-сред для воплощенного ИИ.

Главная задача, которую решает фреймворк - сохранение согласованности сцены при длительном пролете камеры.

Lyra 2.0 хранит 3D-геометрию каждого кадра в отдельном кэше, при возврате извлекает релевантные исторические кадры по степени перекрытия видимости и устанавливает плотные геометрические соответствия через варпинг канонических координат.

Геометрия используется только для маршрутизации информации - какие кадры извлечь и как их сопоставить с текущим ракурсом. За синтез внешнего вида отвечает диффузионная модель.


Базовая модель построена на архитектуре Wan 2.1-14B с выходным разрешением 832×480.

Для 3D-реконструкции применяется дообученная версия Depth Anything v3 в feed-forward режиме, а поверхностные меши извлекаются через иерархический подход на основе OpenVDB.

На бенчмарках DL3DV и Tanks and Temples Lyra 2.0 превзошла все аналоги (GEN3C, CaM, SPMem, VMem, Yume-1.5 и HY-WorldPlay) практически по всем метрикам: FID, SSIM, LPIPS, субъективное качество и стилистическая согласованность.


Первая версия фреймворка, вышедшая в сентябре, поддерживала лишь генерацию на коротких дистанциях. Ближайший конкурент второй версии, Genie 3 от Google, обладает схожими возможностями, но остаётся закрытым.


🟡Страница проекта
🟡Arxiv
🟡Модель
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DWorlds #Lyra2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩53👍29🔥16👏139🥰3🎉2😴1
⚡️ Qwen3.6-35B-A3B - ставка на эффективную архитектуру, а не на размер

35B параметров, ~3B активных за счёт MoE.

Главное:

- по agentic coding показывает уровень моделей с ~10x большим активным объёмом
- превосходит Qwen3.5-27B (dense) и предыдущую Qwen3.5-35B-A3B
- нативно мультимодальная архитектура (text + vision)
- в VLM-бенчмарках сопоставима с Claude Sonnet 4.5, в ряде задач выше
- сильные метрики в задачах spatial reasoning

MMMU - 81.7 vs 79.6 MMMU-Pro - 75.3 vs 68.4 MathVista - 86.4 vs 79.8 RealWorldQA - 85.3 vs 70.3.

Практическое значение:

- MoE даёт кратное снижение compute без потери качества
- подходит для агентных сценариев, где важны последовательные действия и планирование
- можно использовать как единый стек для code + vision задач

Apache 2.0 - без ограничений для продакшена

qwen.ai/blog?id=qwen3.6-35b-a3b
chat.qwen.ai
huggingface.co/Qwen/Qwen3.6-35B-A3B
modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

@ai_machinelearning_big_data
🔥100🤓62👍3320💯6
⚡️ Anthropic выкатили Opus 4.7

Что поменялось:

- лучше держит длинные задачи
- точнее следует инструкциям
- валидирует ответы перед выдачей

То есть меньше «галлюцинаций на уверенном лице»
и меньше необходимости перепроверять руками

По бенчмаркам относительно 4.6:

- SWE Bench Pro +11%
- SWE Bench Verified +7%
- Terminal Bench 2.0 +4%

Без сюрпризов, но стабильный рост.

Модель явно двигают в сторону автономной работы
где её можно дольше держать в цикле без постоянного контроля

Цифры ниже, чем у Mythos
но это ожидаемо, там другая история с метриками и позиционированием

https://www.anthropic.com/news/claude-opus-4-7

@ai_machinelearning_big_data
56🔥27👍25🤔4👌3🗿3😁2
⭐️ Всего через час после выхода Opus 4.7 OpenAI выкатывают крупное обновление Codex.

Теперь Codex умеет работать в фоне на macOS. Он кликает, печатает, ходит по файловой системе.

Встроенный браузер, генерация изображений через gpt-image-1.5, постоянная память, долгоживущие автоматизации и больше 90 плагинов включая Atlassian, CircleCI и Microsoft Suite.

Anthropic концентрируются на качестве модели.
Claude Code остаётся топ инструментом разработчика.

Codex заточен стать твоим ИИ для повседневных задач.

И пока Anthropic задаёт планку по качеству моделей.

https://x.com/OpenAI/status/2044827705406062670

@ai_machinelearning_big_data
🤣62👍50🔥2316🤔11👏7💯6😁3