Машинное обучение digest
60 subscribers
1.71K photos
226 videos
948 links
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Дарио Амодеи: софт скоро может стать «почти бесплатным»

CEO Anthropic Дарио Амодеи предупреждает: мы быстро идём к миру, где создание софта становится настолько дешёвым, что будет ощущаться почти бесплатным.

Из-за этого может исчезнуть старая логика рынка:
раньше приложения делали “в массовую дистрибуцию”, чтобы окупить разработку.

А дальше этот принцип может перестать работать.

Возможный сценарий будущего:
- приложения и функции будут генерироваться под конкретный запрос,
- даже для простых задач “на один раз”,
- без долгой разработки, команды и релизных циклов.

Но у этого есть обратная сторона:
карьеры, построенные на традиционной разработке, могут полностью исчезнуть.

По мнению Амодеи, адаптироваться можно, но проблема в том, что многие ещё не понимают масштаб изменения, которое уже началось.

@pythonl
PyTorch 2.10 - что нового (коротко и по делу)

PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.

Главное по фичам:

torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).

Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.

varlen_attn() - attention для variable-length входов
Появилась новая опа в torch.nn.attention для ragged/packed последовательностей:
- работает и на forward, и на backward
- хорошо дружит с torch.compile
- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16

Быстрее eigendecomposition на GPU
В torch.linalg ускорили eigen decomposition на NVIDIA за счёт cuSOLVER DnXgeev.

Отладка / детерминизм:

torch.compile теперь уважает deterministic mode
Если включить torch.use_deterministic_algorithms(True), то torch.compile сохранит детерминированность между запусками - удобно для дебага.

DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций

Ещё важное:

TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.

tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.

Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).


https://pytorch.org/blog/pytorch-2-10-release-blog/

#PyTorch #OpenSourceAI #AIInfrastructure
🚀 Подборка репозиториев, которые реально полезно добавить в закладки - от фронтенда до AI/LLM.

Frontend / UI
1) Flexbox Froggy - учим flexbox в формате игры
https://github.com/thomaspark/flexboxfroggy

2) shadcn/ui - топовая база UI-компонентов для React
https://github.com/shadcn-ui/ui

3) 50 Projects in 50 Days - прокачка практикой
https://github.com/bradtraversy/50projects50days

4) Awesome React Components - огромная коллекция компонентов
https://github.com/brillout/awesome-react-components

5) Awesome CSS - всё про CSS, паттерны и идеи
https://github.com/awesome-css-group/awesome-css

AI / Multimodal / LLM
6) LLaVA - Large Language and Vision Assistant
https://github.com/haotian-liu/LLaVA

7) CLIP - contrastive обучение текста и изображений
https://github.com/openai/CLIP

8) Transformers - главная библиотека для SOTA NLP/Multimodal моделей
https://github.com/huggingface/transformers

9) Awesome Multimodal ML - бумаги + репозитории по multimodal
https://github.com/pliang279/awesome-multimodal-ml

10) RAG from Scratch - собрать RAG пошагово и понять как работает
https://github.com/langchain-ai/rag-from-scratch

11) Awesome LLM Apps - подборка production-ready LLM приложений
https://github.com/Shubhamsaboo/awesome-llm-apps

12) LLM Engineer Handbook - гайд по профессии LLM-инженера
https://github.com/PacktPublishing/LLM-Engineers-Handbook

Agents / Tools
13) MCP Python SDK - официальный SDK Model Context Protocol
https://github.com/modelcontextprotocol/python-sdk

ML / CV collections
14) Awesome Machine Learning - curated ML фреймворки и библиотеки
https://github.com/josephmisiti/awesome-machine-learning

15) Awesome Computer Vision - огромная база по Computer Vision
https://github.com/jbhuang0604/awesome-computer-vision

16) AI Engineering Hub (ZenML) - MLOps и инженерная часть AI
https://github.com/zenml-io/zenml

Qwen ecosystem
17) Qwen (Official)

https://github.com/QwenLM/Qwen

18) Qwen Fine-Tuning Examples
https://github.com/QwenLM/Qwen-Finetuning

Reinforcement Learning
19) Spinning Up in Deep RL (OpenAI)
https://github.com/openai/spinningup

20) Reinforcement Learning: An Introduction (Sutton & Barto)
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

Core DL
21) PyTorch
https://github.com/pytorch/pytorch

Generative AI
22) Awesome Generative AI Guide
https://github.com/steven2358/awesome-generative-ai
⚡️ ERNIE 5.0 - официальный релиз.

Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.

Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.

То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.

Самое интересное - результаты на бенчмарках (по графикам Baidu):

- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.

Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.

Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)

https://ernie.baidu.com
🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)

Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.

Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик

Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.


GitHub: https://github.com/QwenLM/Qwen3-TTS
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
Блог: https://qwen.ai/blog?id=qwen3tts-0115
Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

@ai_machinelearning_big_data

#AI #TTS #Qwen #OpenSource #SpeechAI
Forwarded from Machinelearning
🌟 LinumV2: T2V модель, которую делали вдвоем

Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников.

Знакомьтесь - проект Linum.

Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p.

Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API.

Изначально братья совсем не планировали заниматься генерацией видео.

Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики.


Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии.


Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный.

🟡Первая попытка создания видео-модели

Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания.

Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции.

Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое.

К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого.

🟡V2 решили пилить с нуля.

VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера.

Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников.

Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео.

И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого.

🟡К чему они пришли за 2 года разработки?

Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах.

Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием.


@ai_machinelearning_big_data

#AI #ML #T2V #Linum
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💀 Жёсткая история из Китая про переработки.

32-летний программист после повышения стал регулярно задерживаться, работать по выходным и жить в режиме “ещё один таск и спать”. В итоге его госпитализировали из-за состояния здоровья, связанного с перегрузками.

Самый абсурдный момент, даже в этот период коллеги добавили его в ещё один рабочий чат.

Это напоминание о простой вещи:
никакая задача не стоит здоровья. “Геройство” на работе часто заканчивается тем, что система продолжает крутиться, а человек нет.

Иногда лучший профессиональный навык это вовремя закрыть ноутбук.

https://www.asiaone.com/china/32-year-old-programmer-china-allegedly-dies-overwork-added-work-group-chat-even-while
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Step-DeepResearch - новый уровень AI-исследований

Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.

Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.

Что внутри

🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда

📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц

Метрики

🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов

Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.

Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.

API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
Homepage: https://stepfun.ai/deep-research-invitation
Technical report: https://arxiv.org/pdf/2512.20491
Github: https://github.com/stepfun-ai/StepDeepResearch
🤯 Tencent и Tsinghua предлагают переосмыслить саму основу LLM

Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.

Сегодняшние LLM работают по одной схеме:
➡️ предсказать следующий токен
➡️ ещё один
➡️ ещё один

Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.

Что предлагает CALM

Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.

То есть:
- было — шаг = 1 токен
- стало — шаг = целый семантический фрагмент

Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.

Что это даёт

🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»
Каждый шаг несёт ~4× больше информации
💻 Снижение вычислительных затрат на обучение до –44%
📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями

Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:
от «больше параметров» к «больше семантики на шаг».

Главный вывод работы:
предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.

Если подход взлетит в проде - это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.

Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.

Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате

Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.

Почему это важно

Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление

UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты

Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.

Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.

Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.

https://huggingface.co/datasets/ulamai/UnsolvedMath
🚀 Google Research представила GIST — новый этап в “умной” выборке данных

Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.

📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).

📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.

📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.

📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.

*GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*

https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/
📌 ИИ в Давосе-2026.

Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.

Вот что говорили отцы индустрии:

🟡Илон Маск (xAI)
К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.

Будущее — это гуманоидная робототехника, и у каждого будет робот.

Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.


🟡Дженсен Хуанг (NVIDIA)
ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.
  
ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.


🟡Сатья Наделла, (Microsoft)
Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.

Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.


🟡Демис Хассабис (Google DeepMind)
Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.

После появления AGI рынок труда окажется на неизведанной территории.


🟡Дарио Амодей (Anthropic)
Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.

ИИ может уничтожить половину начальных позиций для белых воротничков.


🟡Джошуа Бенджио ("Крестный отец ИИ")
Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.


Единственное общее мнение - "Мы развиваемся быстрее, чем понимаем, и последствия не будут ждать, пока мы разберемся в ситуации".


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Новые возможные модели OpenAI замечены в DesignArena 👀

В тестовой среде DesignArena появились сразу 4 новых имени моделей:
- Robin
- Robin (Medium)
- Robin (Low)
- Robin (None)

Что интересно

- Название Robin уже использовалось OpenAI раньше при тестировании GPT-5.2, но тогда это было в LMArena, а не в DesignArena.
- Суффикс (None) у “Robin (None)” выглядит знакомо: такой уровень reasoning-усилия сейчас встречается именно у моделей OpenAI в DesignArena - GPT-5.1 (None), GPT-5.2 (None).
- Это может намекать, что Robin - снова внутренняя тестовая маска для одной из GPT-линеек, а не совершенно новый бренд.

Но есть странности

- Модель формально активна, но практически не попадается в матчах - как будто подключена, но ещё не раскатана в реальный трафик.
- Повторное использование имени Robin выглядит необычно - обычно внутренние кодовые имена у OpenAI не крутят по кругу без причины.

Возможные сценарии

1) Robin - это ранний тест GPT-5.3 или промежуточной версии, где гоняют разные уровни “мышления” (None / Low / Medium).
2) Это не новая модель, а вариации инференс-режимов уже существующей GPT-5.x, которые тестируют под разной вычислительной нагрузкой.
3) Robin - чисто инфраструктурная заглушка для A/B-тестов, а не отдельная архитектура.

Пока подтверждений нет, но связка:
DesignArena + уровни reasoning + паттерны нейминга
выглядит очень “по-openai-шному”.

Следим - если Robin начнёт регулярно появляться в матчах, станет понятнее, это новая ступень GPT или просто новый режим работы старой модели.

https://x.com/AiBattle_/status/2015333058866487615
⚡️ OpenAI будет стримить митап на Youtube 28 января.

Сэм Альтман анонсировал в X, что на собрании разработчиков будет обсуждение "инструментов нового поколения", которые начинает создавать OpenAI.

Стрим нового формата (собрание с трансляцией в прямом эфире) запланирован на 3:00 МСК 28 января на Youtube.

Ваши ставки - что такое инструменты нового поколения?


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Yann LeCun ушёл от Цукерберга и выбрал войну идей.

И, похоже, он прав.

Мы снова наступаем на те же грабли: видим “сверхчеловеческий” результат в узкой задаче - и сразу кричим AGI.

Но это не общий интеллект.
Это просто очень прокачанный инструмент в очень узком месте.

И самое интересное - как быстро мы всё это начинаем считать нормой.

Покажи сегодняшние модели человеку из 2015 года - он бы сказал, что это суперинтеллект.

Генерация кода, картинок, голоса, видео, reasoning - всё в одном окне.
То, что вчера было магией, сегодня “ну ок”.

Проблема не в том, что прогресс медленный.
Проблема в том, что мы перестаём замечать, насколько он безумный.

AGI может ещё не здесь.
Но скорость, с которой инструменты становятся “сверхчеловеческими” в отдельных вещах - уже история.
Media is too big
VIEW IN TELEGRAM
📌 Tencent выкатили HunyuanImage 3.0-Instruct- нативную мультимодальную модель, заточенную под точное редактирование изображений.

И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.

Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.

🧠 Модель "с мышлением"

Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.

Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений

🎨 Точное редактирование и фьюжн изображений

Вот где начинается магия:

- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым

Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.

🏆 SOTA по качеству

По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.

Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.

💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct