264K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🚀 GLM-4.5V — новый лидер среди open-source моделей в визуальном рассуждении.

Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке.

📌 Возможности:
- Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов.
- Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео.
- GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом.
- Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них.
- Grounding — точная локализация элементов на изображениях.

📌 Особенности:
🟠 Основана на GLM-4.5-Air и использует наработки из GLM-4.1V-Thinking.

🟠 Архитектура — MoE с 106B параметров для эффективного масштабирования.

Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного.

🟢 Hugging Face: http://huggingface.co/zai-org/GLM-4.5V
🟢 GitHub: http://github.com/zai-org/GLM-V
🟢 Документация API: http://docs.z.ai/guides/vlm/glm-4.5v
🟢 Попробовать: http://chat.z.ai

@ai_machinelearning_big_data

#GLM #opensource #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍2419🥰4😁1🤝1
Media is too big
VIEW IN TELEGRAM
✔️ Команда FAIR заняла первое место в соревновании Algonauts 2025.

Algonauts - соревнование по созданию моделей, наиболее точно предсказывающих активность человеческого мозга в ответ на мультимодальные стимулы (видео со звуком и текстом).

Победившая модель, TRIBE (Trimodal Brain Encoder) с 1 млрд. параметров, стала первой глубокой нейросетью, обученной предсказывать реакцию мозга сразу на несколько типов данных в разных кортикальных областях и у разных людей.

TRIBE объединяет предобученные представления из нескольких фундаментальных моделей: Llama 3.2 (текст), Wav2Vec2-BERT (аудио) и V-JEPA 2 (видео). Модель успешно предсказала сигналы фМРТ, полученные в ходе 80-часового эксперимента, где испытуемые смотрели фильмы.

Код, наборы данных и техотчет TRIBE опубликованы в открытом доступе.
Компания Марка Цукерберга в сети Х

✔️ ИИ от OpenAI взял "золото" среди моделей на Международной олимпиаде по информатике .

ИИ-система от OpenAI, ориентированная на логические рассуждения, показала результат, соответствующий золотой медали на Международной олимпиаде по информатике (IOI) 2025 года. Она заняла 6 место в общем зачете среди 330 участников-людей и опередила все другие ИИ-системы.

Этот результат значительно выше по сравнению с прошлым годом, предыдущая версия не дотянула даже до бронзы. В OpenAI говорят, что модель достигла такого успеха без специальной донастройки на олимпиадных задачах.
Open AI в сети Х

✔️ CEO GitHub покидает Microsoft.

Гендиректор GitHub Томас Домке объявил о своем уходе из компании. Он планирует основать собственный стартап, а до конца 2025 года будет заниматься передачей дел. Это решение завершает его почти четырехлетнее руководство, отмеченное внедрением искусственного интеллекта.

Преемника на пост CEO назначать не будут. Вместо этого Microsoft интегрирует GitHub в свое новое инженерное подразделение - CoreAI. Эта реорганизация лишает GitHub полуавтономного статуса внутри корпорации.

За время работы Домке аудитория GitHub выросла до 150 миллионов разработчиков, а число репозиториев превысило миллиард. Ключевым достижением стал запуск ИИ-ассистента Copilot, который привлек 20 миллионов пользователей и помог увеличить годовой доход платформы до 2 миллиардов долларов.
axios.com

✔️ Pika Labs представила быструю и дешевую модель для липсинка.

Стартап анонсировал новую модель, которая генерирует HD-видео с точной синхронизацией губ под аудиодорожку всего за 6 секунд, независимо от длины клипа. По заявлению компании, система создает "гиперреалистичную мимику" и работает в 20 раз быстрее и в 20 раз дешевле, чем их модель предыдущего поколения.

Ранние тесты уже подтвердили способность модели работать в реальном времени со сложными аудиодорожками.
Pika Labs в сети X

✔️ Уровень безработицы среди молодых IT-специалистов в США достиг 6%.

Исследование Федерального резервного банка Нью-Йорка показало тревожную тенденцию: уровень безработицы среди американских выпускников IT-специальностей в возрасте от 22 до 27 лет вырос до 6.1%. Это вдвое выше, чем у выпускников-биологов или искусствоведов. Для программистов ситуация еще хуже — 7.5% безработных.

Причинами стали массовые увольнения в технологических гигантах, а также широкое распространение ИИ-ассистентов для кодинга, которые автоматизируют задачи, ранее выполнявшиеся новичками. По данным портала Indeed, количество вакансий для junior-разработчиков на 21% ниже, чем до пандемии Covid-19, в то время как спрос на старших специалистов растет.

Ситуацию усугубляет и перенасыщение рынка: в прошлом году в США было выпущено 170 тысяч IT-специалистов, что вдвое больше, чем в 2014 году. Некоторые выпускники сообщают, что отправляют сотни и даже тысячи резюме, не получая ответа.
nytimes.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍27🔥10😨5🤔4🎉3
Data Scientist — одна из самых перспективных профессий 2025 года, по данным Мирового экономического форума 📊

Освоить эту профессию можно на курсе Нетологии — с погружением в практику, сопровождением ментора, поддержкой профессионального комьюнити и экспертов из Яндекса, Сбера, VK и Amazon.

В результате обучения вы:
- изучите Apache Spark, pandas, PostgreSQL и другие инструменты для обработки больших данных;
- научитесь применять технологии машинного обучения для решения бизнес-задач;
- отработаете навыки на реальных проектах компаний-партнёров: «Северстали», «Гринатома», Neoflex.

Чтобы ещё больше расширить скиллсет, сможете пройти бонусные модули по английскому языку, рекомендательным системам, нейросетям и deep learning.

Сейчас на курс действует скидка 40% — записывайтесь

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5w9Jm9T
😁3613🥱10🔥7👍6
⚡️ Nvidia на SIGGRAPH 2025: самое главное.

На конференции SIGGRAPH 2025 Nvidia представила свою центральную концепцию — "Физический ИИ".

Это конвергенция ИИ и компьютерной графики для создания систем, способных действовать в реальном мире, будь то роботы, автономные автомобили или умная инфраструктура.

🟡Новое железо на архитектуре Blackwell.

Для дата-центров представили GPU Nvidia RTX PRO 6000 Blackwell Server Edition для стандартных корпоративных серверов форм-фактора 2U. Системы на его базе смогут достигать до 45 раз более высокой производительности и в 18 раз лучшей энергоэффективности по сравнению с чисто процессорными решениями.

Тензорные ядра пятого поколения с поддержкой формата FP4 бустят инференс в 6 раз по сравнению с предыдущим поколением L40S.

Для рабочих станций анонсировали две компактные видеокарты: Nvidia RTX PRO 4000 SFF Edition и RTX PRO 2000 Blackwell.

Первая обеспечивает до 2.5 раз более высокую производительность в ИИ-задачах при том же энергопотреблении в 70 Вт, а вторая в 1.4 раза быстрее в CAD-приложениях.

🟡Физический ИИ для робототехники.

Для Omniverse анонсировали новую библиотеку NuRec, которая реконструирует реальные окружения из данных сенсоров с помощью 3D Gaussian splatting.

Приложения для симуляции Isaac Sim 5.0 и Isaac Lab 2.2 теперь доступны в виде опенсорс-проектов на GitHub.

В качестве примера показали кейс Amazon, где CAD-модели новых продуктов загружаются в Isaac Sim для генерации более 50 000 синтетических изображений. На этих данных обучаются ИИ-модели, которые затем управляют роботизированными манипуляторами для контроля качества продукции — и все это без каких-либо физических модификаций оборудования.


🟡Новые семейства ИИ-моделей.

Для корпоративных задач линейку Nemotron расширили моделями Nemotron Nano 2 и Llama Nemotron Super 1.5. Они предназначены для выполнения сложных многоэтапных задач в кибербезопасности или клиентском сервисе.

Специально для "Физического ИИ" была разработана 7-миллиардная VLM Cosmos Reason. Ее задача - позволить роботам и агентам интерпретировать физический мир, используя априорные знания, понимание физики и "здравый смысл". Эту модель уже использует Uber для для анализа поведения автономных автомобилей.

🟡Платформа для умных городов и производств Metropolis.

Платформа дополнена интеграцией с VLM Cosmos Reason, новыми vision-моделями в TAO Toolkit и расширениями для Isaac Sim, позволяющие генерировать редкие сценарии обучения.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥65👍2823
MWS Cloud презентовала платформу для инференса AI-моделей, которая позволяет более чем на 15% оптимизировать затраты на GPU.

Платформа может выводить в продакшн любые обученные ML-модели, большие языковые модели и модели компьютерного зрения. Поверх стандартного Kubernetes, платформа имеет простой и мощный API, который упрощает работу инженеров. Также в ней доработана оркестрация, что позволяет оптимизировать затраты на GPU.

Платформа позволяет:

- В десятки раз быстрее интегрировать LLM и CV-модели с ИТ-системами компаний;

- Снизить операционную нагрузку на ML-команды при эксплуатации моделей на 70%;

- Повысить автоматизацию CI/CD более чем на треть;

- Уменьшить затраты на GPU более чем на 15%;

Inference Valve интегрируется с ML-платформой и инструментами непрерывной разработки (CI/CD), а получить к ней доступ можно как из частного облака на инфраструктуре MWS Cloud, так и on-prem на серверах заказчика, а также в составе программно-аппаратных комплексов (ПАК) в закрытом контуре, включая режимы с ограниченным доступом к внешним сетям.

Inference Valve также предоставляет метрики задержек и пропускной способности, мониторинг доступности, алёрты и дашборды; доступна телеметрия качества, включая отслеживание дрейфа данных и моделей, контроль целевых метрик и уведомления при деградации. Интеграция с системами наблюдаемости (Prometheus/Grafana) и журналированием запросов упрощает аудит и разбор инцидентов.

Попробовать Inference Valve можно по ссылке.

@ai_machinelearning_big_data
👍3215🔥8🤣6
🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent

🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности.
🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet.
🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass.

📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях.

🟢Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand
🟢 Блог: https://vision.hunyuan.tencent.com
🟢API: https://cloud.tencent.com/document/product/1729/104753

@ai_machinelearning_big_data


#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4415🔥13🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Jan-v1: локальная 4B-модель для веба — опенсорсная альтернатива Perplexity Pro

📌 Что умеет
- SimpleQA: 91% точности, чуть выше Perplexity Pro — и всё это полностью локально.
- Сценарии: быстрый веб-поиск и глубокое исследование (Deep Research).

Из чего сделана
- Базируется на Qwen3-4B-Thinking (контекст до 256k), дообучена в Jan на рассуждение и работу с инструментами.

Где запускать
- Jan, llama.cpp или vLLM.

Как включить поиск в Jan
- Settings → Experimental Features → On
- Settings → MCP Servers → включите поисковый MCP (например, Serper)

Модели
- Jan-v1-4B: https://huggingface.co/janhq/Jan-v1-4B
- Jan-v1-4B-GGUF: https://huggingface.co/janhq/Jan-v1-4B-GGUF

@ai_machinelearning_big_data

#ai #ml #local #Qwen #Jan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8323🔥20
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени


Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.

А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀

Возможности:

🟢25 кадров/с в реальном времени
🟢Генерирует минуты непрерывного геймплея
🟢Полная интерактивность: движение, повороты, исследование мира

Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.

Зачем это нужно:
🟠Создание игровых движков
🟠Тренировка AI-агентов
🟠Создание виртуальных персонажей

Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).

Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени

🟡Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io

@ai_machinelearning_big_data

#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥88👍3024🥱5😐4
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI инвестирует в Merge Labs - конкурента Neuralink.

OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.

Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.

Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com

✔️ Контекстное окно Claude Sonnet 4 расширено до миллиона токенов.

Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.

За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com

✔️ Microsoft ведет целенаправленную кампанию по найму топовых инженеров и исследователей из компании Марка Цукерберга.

Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.

Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com

✔️ AI2 выпустил открытую модель для робототехники.

Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.

Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.

AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org

✔️ SEELE AI запустила публичное тестирование генератора 3D-игр по текстовому описанию.

Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.

Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6624🔥15
🌟 Embedding Atlas: визуализация структуры эмбедингов прямо в браузере.

Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.

🟡Автоматическая кластеризация и разметка данных.

Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.

Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.

🟡Интерактивность.

В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.

Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.

🟡Embedding Atlas поставляется в виде 2 пакетов:

🟢Python-пакет

Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.

🟢Npm-пакет

Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API: Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8038🔥25
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI вернула пользователям контроль над выбором моделей в ChatGPT.

OpenAI отреагировала на критику пользователей и предоставила больше контроля над выбором моделей. Теперь вместо автоматической маршрутизации запросов можно вручную переключаться между тремя режимами GPT-5: Auto, Fast и Thinking. Также в интерфейс вернули возможность прямого выбора GPT-4o.

Ранее пользователи жаловались на непредсказуемость ChatGPT, подозревая, что система направляет сложные запросы на более дешевые модели. В ответ OpenAI не только вернула ручное управление, но и временно увеличила лимит на использование самого мощного режима "GPT-5 Thinking" до 3000 сообщений в неделю.

Кроме того, в настройках появилась опция, позволяющая выбирать и более старые модели o3 и 4.1.
Sam Altman в сети X

✔️ Apple готовит домашних роботов и человечную Siri.

Apple активно разрабатывает новую линейку аппаратных и программных ИИ-продуктов. В нее войдут домашние роботы, кардинально переработанная Siri с разговорными навыками и расширенная линейка устройств для домашней безопасности.

Среди прототипов - настольный робот, дисплей которого имитирует движения головы во время видеозвонков и мобильный робот, способный следовать за пользователем по дому. Компания также тестирует умные колонки с экранами и работает над операционной системой "HomeOS", которая объединит все устройства в единую экосистему.
bloomberg.com

✔️ Gemini научился запоминать личный контекст и вести временные чаты.

Google начала развертывание обновления Gemini, направленного на повышение персонализации и конфиденциальности. Ключевой стала функция Personal Context. С ней Gemini будет запоминать важные детали из прошлых разговоров пользователя и использовать их для адаптации будущих ответов. Опция включена по умолчанию, но ее можно отключить в настройках.

Также появятся "Временные чаты". Переписки в этом режиме не сохраняются в истории, не используются для обучения моделей и исчезают из интерфейса через 72 часа.

Пока функции доступны для модели Gemini 2.5 Pro в некоторых странах. В ближайшие недели Google обещает расширить их доступность на страны ЕС, Великобританию и Швейцарию и более легкую модель 2.5 Flash.
blog.google

✔️ DeepSeek, предположительно, выпустит модель R2 во второй половине августа.

DeepSeek готовится к релизу обновленной языковой модели DeepSeek R2. По данным отраслевых изданий, запуск ожидается в период с 15 по 30 августа. Официального анонса пока не было.

По предварительной информации, R2 будет использовать архитектуру "смеси экспертов" и распространяться под открытой лицензией. Также источники отмечают, что что модель обучалась на кластере Huawei Ascend 910B, где компания добилась улучшения эффективности использования аппаратного обеспечения, задействовав около 82% доступных мощностей ИИ-процессоров.
huaweicentral.com

✔️ Liquid AI выпустила компактные VL-модели для работы на устройствах.

Стартап Liquid AI представил новое поколение моделей LFM2-VL. Они спроектированы для работы на устройствах - от смартфонов и ноутбуков до носимой электроники. В основе - модульная архитектура с легковесным проектором, который сжимает токены изображений для ускорения обработки.

По заявлению разработчиков, они вдвое быстрее по инференсу на GPU по сравнению с аналогами, при сохранении конкурентоспособности на стандартных бенчмарках.

Выпущено 2 версии: LFM2-VL-450M для устройств с ограниченными ресурсами и LFM2-VL-1.6B для более сложных задач, которая подходит для работы на одном GPU.
Модели доступны на Hugging Face под лицензией Apache 2.0.
liquid.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6230🔥13👌5
Как внедрение ИИ бустит не только производительность, но и выручку

На фоне рекордной прибыли Microsoft сокращает 10 тысяч сотрудников и одновременно перестраивает подход к ИИ. Наделла говорит прямо: ставка теперь не на централизацию, а на масштабируемость и доступность инструментов для всех.

Ключевая идея — каждый сотрудник должен уметь собирать свои решения на базе ИИ. От Copilot до платформ под задачи внутри команды. Это не только про разработку, но и про изменение самой структуры работы.

ИИ всё чаще вшивается не «поверх» процессов, а становится частью оргдизайна. Там, где раньше нужен был отдельный продукт, сейчас достаточно одного агента. Где была инструкция — теперь цепочка действий с обучением на фидбэке.

Важно регулярно изучать разборы, как бизнес адаптируется под такие сдвиги: с чем сталкиваются, какие роли меняются, где ИИ действительно помогает работать по-новому, а не просто «добавляется в интерфейс».
👍65🔥1812🤣10🌚3🙈2
📌Tencent Yan: создание AAA-игр в реальном времени с помощью диффузионных моделей.

Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.

🟡Первый модуль — Yan-Sim.

Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.

Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.

Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.

Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.

В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.

🟡Второй модуль - Yan-Gen.

В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.

Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.

Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.

Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.

Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.

🟡Третий модуль - Yan-Edit.

Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.

Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.

Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").

Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥3425🥱2😁1