🚀 Китайский ИИ прорыв: Huawei представила «суперузел» Atlas 900 A3 SuperPoD, превосходящий NVIDIA
На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».
🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений
🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)
💡 Ключевые преимущества:
✔️ Вычислительная мощность —
✔️ Скорость передачи данных —
✔️ Пропускная способность памяти —
✔️ Скорость генерации текста — до
⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза
🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.
📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.
На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».
🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений
🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)
💡 Ключевые преимущества:
✔️ Вычислительная мощность —
300Pflops (x1.7 NVIDIA NVL72)✔️ Скорость передачи данных —
269 ТБ/с (+107% к NVIDIA) ✔️ Пропускная способность памяти —
1229 ТБ/с (+113%) ✔️ Скорость генерации текста — до
2300 токенов/сек на карту ⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза
🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.
📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.
Telegram
Китай.AI
🤖 Искусственный интеллект и будущее Китая: взгляд основателя Huawei
Основатель Huawei Жэнь Чжэнфэй в эксклюзивном интервью поделился мнением о развитии ИИ, проблемах полупроводниковой отрасли и роли фундаментальной науки.
🔹 О вызовах и инновациях
- В ответ…
Основатель Huawei Жэнь Чжэнфэй в эксклюзивном интервью поделился мнением о развитии ИИ, проблемах полупроводниковой отрасли и роли фундаментальной науки.
🔹 О вызовах и инновациях
- В ответ…
❤2
🇷🇺 Made in Russia: дайджест №10 новостей из мира IT, науки, космоса и технологий
В первом юбилейном выпуске — всё, что нужно знать о последних достижениях России в сфере ИИ и ML:
🔹 MERA Code — первый бенчмарк для оценки языковых моделей в кодинге на русском языке.
🔹 «Яндекс» подтвердил соответствие международным стандартам ответственного ИИ.
🔹 T-Bank AI научился управлять поведением LLM без дообучения.
🔹 TabM от Yandex Research обгоняет CatBoost и XGBoost.
🔹 BI с ИИ: AI-агент Нейроаналитик теперь в Yandex DataLens.
В первом юбилейном выпуске — всё, что нужно знать о последних достижениях России в сфере ИИ и ML:
🔹 MERA Code — первый бенчмарк для оценки языковых моделей в кодинге на русском языке.
🔹 «Яндекс» подтвердил соответствие международным стандартам ответственного ИИ.
🔹 T-Bank AI научился управлять поведением LLM без дообучения.
🔹 TabM от Yandex Research обгоняет CatBoost и XGBoost.
🔹 BI с ИИ: AI-агент Нейроаналитик теперь в Yandex DataLens.
Будьте в курсе лучших кейсов хакатонов, ML-турниров, CTF и соревнований по спортивному программированию на Codenrock
Made in Russia: дайджест №10 новостей из мира IT, науки, космоса и технологий – Будьте в курсе лучших кейсов хакатонов, ML-турниров…
В первом юбилейном, десятом выпуске — самые важные достижения российских разработчиков в сфере ИИ-технологий. MERA Code — первый открытый бенчмарк для оценки LLM в задачах программирования на русском языке Альянс в сфере ИИ запустил MERA Code —бенчмарк,…
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
Создание выразительной анимации лица на основе статичных изображений является сложной задачей. Ранее предложенные методы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при перекладывании выражений и испытывают трудности с передачей тонких эмоций. Более того, существующие подходы плохо справляются с анимацией нескольких персонажей одновременно, поскольку особенности разных лиц мешают друг другу, усложняя процесс. Для решения этих проблем мы представляем FantasyPortrait — фреймворк на основе трансформеров-диффузоров, способный создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы лиц. Наш метод включает стратегию обучения с расширением выражения, использующую скрытые представления для захвата динамики лица независимо от индивидуальных особенностей, улучшая способность модели отображать тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного перекрестного внимания, обеспечивающий независимую и согласованную генерацию выражений, эффективно предотвращая взаимное влияние признаков. Чтобы стимулировать исследования в этой области, мы предложили наборы данных Multi-Expr и ExprBench, специально разработанные для тренировки и тестирования многоперсонных портретных анимаций. Подробные эксперименты показывают, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных сценариях перекладывания выражений и мультиличных ситуациях.
✅https://arxiv.org/pdf/2507.12956
✅https://fantasy-amap.github.io/fantasy-portrait/
✅https://github.com/Fantasy-AMAP/fantasy-portrait
Создание выразительной анимации лица на основе статичных изображений является сложной задачей. Ранее предложенные методы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при перекладывании выражений и испытывают трудности с передачей тонких эмоций. Более того, существующие подходы плохо справляются с анимацией нескольких персонажей одновременно, поскольку особенности разных лиц мешают друг другу, усложняя процесс. Для решения этих проблем мы представляем FantasyPortrait — фреймворк на основе трансформеров-диффузоров, способный создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы лиц. Наш метод включает стратегию обучения с расширением выражения, использующую скрытые представления для захвата динамики лица независимо от индивидуальных особенностей, улучшая способность модели отображать тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного перекрестного внимания, обеспечивающий независимую и согласованную генерацию выражений, эффективно предотвращая взаимное влияние признаков. Чтобы стимулировать исследования в этой области, мы предложили наборы данных Multi-Expr и ExprBench, специально разработанные для тренировки и тестирования многоперсонных портретных анимаций. Подробные эксперименты показывают, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных сценариях перекладывания выражений и мультиличных ситуациях.
✅https://arxiv.org/pdf/2507.12956
✅https://fantasy-amap.github.io/fantasy-portrait/
✅https://github.com/Fantasy-AMAP/fantasy-portrait
fantasy-amap.github.io
FantasyPortrait: Enhancing Multi-Character Portrait Animation with
Expression-Augmented Diffusion Transformers
Expression-Augmented Diffusion Transformers
FantasyPortrait: Enhancing Multi-Character Portrait Animation with
Expression-Augmented Diffusion Transformers
Expression-Augmented Diffusion Transformers
This media is not supported in your browser
VIEW IN TELEGRAM
У нейросети для генерации видео Runway появилась новая версия Aleph, которую называют «Фотошопом» для видео.
Aleph может менять фон на видео, добавлять и удалять объекты, а также «переодевать» персонажей. А еще — генерировать одну и ту же сцену с разных ракурсов и создавать следующий кадр в таком же стиле. Пока только в раннем доступе
Aleph может менять фон на видео, добавлять и удалять объекты, а также «переодевать» персонажей. А еще — генерировать одну и ту же сцену с разных ракурсов и создавать следующий кадр в таком же стиле. Пока только в раннем доступе
👍3🔥2
🔥 Alibaba выпустила первую в мире open-source модель для генерации видео с кинематографическим качеством!
Alibaba представила Wan2.2 — первую в мире open-source модель для генерации видео на архитектуре Mixture-of-Experts (MoE) с возможностью точного контроля "киношной" эстетики.
Проект менее чем за сутки набрал 1.3k+ звезд на GitHub!
🎬 Что умеет Wan2.2?
• Генерирует видео 720p/24fps с детальным контролем света, тени и композиции
• Поддерживает создание контента как из текста, так и из изображений
• Работает даже на потребительских видеокартах (например, RTX 4090)
Примеры промптов:
1. "Дождь в неоновом городе: человек в плаще бежит по переулку, оглядываясь..."
2. "Игра света и тени от медленно движущегося поезда ..."
🔧 Технологические прорывы:
1. MoE-архитектура — несколько экспертных моделей работают вместе без роста вычислительных затрат
2. Гигантский датасет +65,6% изображений и +83,2% видео vs предыдущая версия
3. Киноэстетика — специальный датасет с разметкой по свету, цвету и композиции
4. Hybrid TI2V — поддержка 5B-параметровой модели со сжатием 16×16×4
💻 Технические детали:
• Лицензия: Apache 2.0
• Поддержка текст→видео и изображение→видео
• Оптимизация под consumer GPU
• Топовые benchmark-результаты среди open/closed-source моделей
Cайт | Hugging Face | ModelScope | GitHub
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ГенерацияВидео #WAN #Alibaba
Alibaba представила Wan2.2 — первую в мире open-source модель для генерации видео на архитектуре Mixture-of-Experts (MoE) с возможностью точного контроля "киношной" эстетики.
Проект менее чем за сутки набрал 1.3k+ звезд на GitHub!
🎬 Что умеет Wan2.2?
• Генерирует видео 720p/24fps с детальным контролем света, тени и композиции
• Поддерживает создание контента как из текста, так и из изображений
• Работает даже на потребительских видеокартах (например, RTX 4090)
Примеры промптов:
1. "Дождь в неоновом городе: человек в плаще бежит по переулку, оглядываясь..."
2. "Игра света и тени от медленно движущегося поезда ..."
🔧 Технологические прорывы:
1. MoE-архитектура — несколько экспертных моделей работают вместе без роста вычислительных затрат
2. Гигантский датасет +65,6% изображений и +83,2% видео vs предыдущая версия
3. Киноэстетика — специальный датасет с разметкой по свету, цвету и композиции
4. Hybrid TI2V — поддержка 5B-параметровой модели со сжатием 16×16×4
💻 Технические детали:
• Лицензия: Apache 2.0
• Поддержка текст→видео и изображение→видео
• Оптимизация под consumer GPU
• Топовые benchmark-результаты среди open/closed-source моделей
Cайт | Hugging Face | ModelScope | GitHub
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ГенерацияВидео #WAN #Alibaba
wan.video
Wan AI: Leading AI Video Generation Model
Wan is an AI creative platform. It aims to lower the barrier to creative work using artificial intelligence, offering features like text-to-image, image-to-image, text-to-video, image-to-video, and image editing.
👍2🔥2
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
Мы представляем AbGen — первую специализированную оценку возможностей больших языковых моделей (LLM) в разработке абляционных исследований для научных целей. АбГен состоит из 1500 примеров экспертной разметки, полученных из 807 статей по обработке естественного языка. В рамках этой проверки языковая модель должна создать детальное проектирование абляционного эксперимента для определенного модуля или процесса на основании предоставленного исследовательского контекста. Оценивая ведущие LLM, такие как DeepSeek-R1-0528 и o4-mini, мы обнаружили значительный разрыв между этими моделями и человеческими экспертами в аспектах значимости, достоверности и обоснованности предлагаемых проектов экспериментов. Помимо этого, мы показали, что нынешние автоматизированные системы оценивания не подходят для нашей задачи, так как демонстрируют значительное расхождение с результатами человеческой экспертизы. Для дальнейшего изучения проблемы мы создали AbGen-Eval — метаоценочную систему, предназначенную для проверки надежности широко используемых автоматических методов оценки результатов LLM на нашем задании. Проведенное исследование с использованием различных систем типа «LLM-судья» на AbGen-Eval предлагает важные выводы для будущих разработок более эффективных и надежных систем оценки LLM применительно к сложным научным задачам.
✅https://arxiv.org/pdf/2507.13300
✅https://github.com/yale-nlp/AbGen
Мы представляем AbGen — первую специализированную оценку возможностей больших языковых моделей (LLM) в разработке абляционных исследований для научных целей. АбГен состоит из 1500 примеров экспертной разметки, полученных из 807 статей по обработке естественного языка. В рамках этой проверки языковая модель должна создать детальное проектирование абляционного эксперимента для определенного модуля или процесса на основании предоставленного исследовательского контекста. Оценивая ведущие LLM, такие как DeepSeek-R1-0528 и o4-mini, мы обнаружили значительный разрыв между этими моделями и человеческими экспертами в аспектах значимости, достоверности и обоснованности предлагаемых проектов экспериментов. Помимо этого, мы показали, что нынешние автоматизированные системы оценивания не подходят для нашей задачи, так как демонстрируют значительное расхождение с результатами человеческой экспертизы. Для дальнейшего изучения проблемы мы создали AbGen-Eval — метаоценочную систему, предназначенную для проверки надежности широко используемых автоматических методов оценки результатов LLM на нашем задании. Проведенное исследование с использованием различных систем типа «LLM-судья» на AbGen-Eval предлагает важные выводы для будущих разработок более эффективных и надежных систем оценки LLM применительно к сложным научным задачам.
✅https://arxiv.org/pdf/2507.13300
✅https://github.com/yale-nlp/AbGen
Teach Old SAEs New Domain Tricks with Boosting
Разрежённые автоэнкодеры зарекомендовали себя как эффективные инструменты интерпретации внутренних представлений крупных языковых моделей, однако зачастую они неспособны уловить специфические доменно-зависимые признаки, редко встречающиеся в корпусах тренировочных данных. В настоящей статье предлагается подход остаточного обучения, позволяющий устранить этот недостаток без полного переобучения. Предлагается натренировать дополнительный разрежённый автоэнкодер именно на ошибке реконструкции предварительно обученного автоэнкодера по отношению к доменно-специфическим текстам, тем самым выявляя характеристики, упущенные первичной моделью. Путём суммирования выходов обеих моделей на этапе вывода продемонстрированы значительные улучшения показателей кросс-энтропии языковых моделей и объясняемой дисперсии в различных специализированных областях. Экспериментально подтверждено, что данная методика позволяет эффективно интегрировать новые знания конкретной предметной области в существующие разрежённые автоэнкодеры, сохранив при этом их производительность на общих задачах. Такой подход даёт исследователям возможность избирательно повышать интерпретируемость разрежённых автоэнкодеров для конкретных интересующих областей, открывая перспективы целенаправленной механистической интерпретируемости языковых моделей.
✅https://arxiv.org/pdf/2507.12990
Разрежённые автоэнкодеры зарекомендовали себя как эффективные инструменты интерпретации внутренних представлений крупных языковых моделей, однако зачастую они неспособны уловить специфические доменно-зависимые признаки, редко встречающиеся в корпусах тренировочных данных. В настоящей статье предлагается подход остаточного обучения, позволяющий устранить этот недостаток без полного переобучения. Предлагается натренировать дополнительный разрежённый автоэнкодер именно на ошибке реконструкции предварительно обученного автоэнкодера по отношению к доменно-специфическим текстам, тем самым выявляя характеристики, упущенные первичной моделью. Путём суммирования выходов обеих моделей на этапе вывода продемонстрированы значительные улучшения показателей кросс-энтропии языковых моделей и объясняемой дисперсии в различных специализированных областях. Экспериментально подтверждено, что данная методика позволяет эффективно интегрировать новые знания конкретной предметной области в существующие разрежённые автоэнкодеры, сохранив при этом их производительность на общих задачах. Такой подход даёт исследователям возможность избирательно повышать интерпретируемость разрежённых автоэнкодеров для конкретных интересующих областей, открывая перспективы целенаправленной механистической интерпретируемости языковых моделей.
✅https://arxiv.org/pdf/2507.12990
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
Языковые модели (LMS) сложно адаптировать к новым распределениям данных путем простой тонкой настройки. Это связано с жесткостью их маркеров вложенных слов, которые обычно остаются неизменными во время адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая чрезмерную фрагментацию доменов, недоступных для распространения, невидимых языков или сценариев. В этой работе мы разрабатываем фильмы на байтовом уровне с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который учится предсказывать границы между входными последовательностями байтов, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизатор, обучают этот предиктор границ, используя вспомогательные потери, которые обеспечивают фиксированную степень сжатия во всем учебном корпусе, что обеспечивает новый вид жесткости. Мы предлагаем FLEXITOKENS - упрощенную задачу обучения, которая обеспечивает значительно большую гибкость при адаптации. Оценивая множество многоязычных тестов, морфологически разнообразных задач и доменов, мы демонстрируем, что FLEXITOKENS последовательно снижает чрезмерную фрагментацию токенов и обеспечивает повышение производительности последующих задач на 10% по сравнению с подсловами и другими токенизаторами на основе градиента.
✅https://arxiv.org/pdf/2507.12720
Языковые модели (LMS) сложно адаптировать к новым распределениям данных путем простой тонкой настройки. Это связано с жесткостью их маркеров вложенных слов, которые обычно остаются неизменными во время адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая чрезмерную фрагментацию доменов, недоступных для распространения, невидимых языков или сценариев. В этой работе мы разрабатываем фильмы на байтовом уровне с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который учится предсказывать границы между входными последовательностями байтов, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизатор, обучают этот предиктор границ, используя вспомогательные потери, которые обеспечивают фиксированную степень сжатия во всем учебном корпусе, что обеспечивает новый вид жесткости. Мы предлагаем FLEXITOKENS - упрощенную задачу обучения, которая обеспечивает значительно большую гибкость при адаптации. Оценивая множество многоязычных тестов, морфологически разнообразных задач и доменов, мы демонстрируем, что FLEXITOKENS последовательно снижает чрезмерную фрагментацию токенов и обеспечивает повышение производительности последующих задач на 10% по сравнению с подсловами и другими токенизаторами на основе градиента.
✅https://arxiv.org/pdf/2507.12720
В Китае гуманоидный робот впервые поступил в аспирантуру Шанхайского университета. Он будет изучать театр, кино и оперу. Его зовут Xueba, что с китайского переводится как «отличник». Он может физически взаимодействовать с людьми и способен выражать различные эмоции. У робота будет даже собственный студенческий билет, а к концу обучения он напишет диссертацию. @bankoffo
😁4
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
Интерполяция видеокадров (VFI) направлена на прогнозирование промежуточного кадра I_n (мы используем n для обозначения времени в видео, чтобы избежать перегрузки нотации временным шагом t в диффузионных моделях) на основе двух соседних последовательных кадров I_0 и I_1. В современных подходах для решения этой задачи используются диффузионные модели (как на основе изображений, так и на основе видео), которые обеспечивают высокую производительность. Однако диффузионные модели на основе изображений не способны извлекать временную информацию и относительно неэффективны по сравнению с методами, не использующими диффузию. Диффузионные модели на основе видео могут извлекать временную информацию, но они слишком велики с точки зрения масштаба обучения, размера модели и времени вывода. Чтобы устранить вышеуказанные проблемы, мы предлагаем эффективную модель диффузии на основе видео с учетом латентного броуновского моста для интерполяции видеокадров (TLB-VFI). Извлекая обширную временную информацию из видеовходов с помощью предлагаемого нами 3D-вейвлет-стробирования и автоэнкодера с учетом времени, наш метод обеспечивает 20%-ное улучшение FID для самых сложных наборов данных по сравнению с недавним SOTA моделей диффузии, основанных на изображениях. Между тем, благодаря наличию обширной временной информации, наш метод обеспечивает высокую производительность при использовании в 3 раза меньшего количества параметров. Такое сокращение параметров приводит к ускорению в 2,3 раза. Благодаря использованию оптического управления потоком, наш метод требует в 9000 раз меньше обучающих данных и обеспечивает более чем в 20 раз меньшее количество параметров, чем диффузионные модели на основе видео. Коды и результаты доступны на странице нашего проекта: https://zonglinl.github.io/tlbvfi_page.
✅https://arxiv.org/pdf/2507.04984
✅https://zonglinl.github.io/tlbvfi_page/
✅https://github.com/ZonglinL/TLBVFI
Интерполяция видеокадров (VFI) направлена на прогнозирование промежуточного кадра I_n (мы используем n для обозначения времени в видео, чтобы избежать перегрузки нотации временным шагом t в диффузионных моделях) на основе двух соседних последовательных кадров I_0 и I_1. В современных подходах для решения этой задачи используются диффузионные модели (как на основе изображений, так и на основе видео), которые обеспечивают высокую производительность. Однако диффузионные модели на основе изображений не способны извлекать временную информацию и относительно неэффективны по сравнению с методами, не использующими диффузию. Диффузионные модели на основе видео могут извлекать временную информацию, но они слишком велики с точки зрения масштаба обучения, размера модели и времени вывода. Чтобы устранить вышеуказанные проблемы, мы предлагаем эффективную модель диффузии на основе видео с учетом латентного броуновского моста для интерполяции видеокадров (TLB-VFI). Извлекая обширную временную информацию из видеовходов с помощью предлагаемого нами 3D-вейвлет-стробирования и автоэнкодера с учетом времени, наш метод обеспечивает 20%-ное улучшение FID для самых сложных наборов данных по сравнению с недавним SOTA моделей диффузии, основанных на изображениях. Между тем, благодаря наличию обширной временной информации, наш метод обеспечивает высокую производительность при использовании в 3 раза меньшего количества параметров. Такое сокращение параметров приводит к ускорению в 2,3 раза. Благодаря использованию оптического управления потоком, наш метод требует в 9000 раз меньше обучающих данных и обеспечивает более чем в 20 раз меньшее количество параметров, чем диффузионные модели на основе видео. Коды и результаты доступны на странице нашего проекта: https://zonglinl.github.io/tlbvfi_page.
✅https://arxiv.org/pdf/2507.04984
✅https://zonglinl.github.io/tlbvfi_page/
✅https://github.com/ZonglinL/TLBVFI
zonglinl.github.io
TWITTER BANNER TITLE META TAG
TWITTER BANNER DESCRIPTION META TAG
Einstein Fields: A Neural Perspective To Computational General Relativity
Мы представляем Einstein Fields - нейронное представление, предназначенное для сжатия четырехмерных численных моделей теории относительности, требующих больших вычислений, в компактные неявные веса нейронной сети. Моделируя метрику, которая является основным тензорным полем общей теории относительности, поля Эйнштейна позволяют получать физические величины с помощью автоматического дифференцирования. Однако, в отличие от обычных нейронных полей (например, полей расстояния, занятости или яркости), поля Эйнштейна являются нейронными тензорными полями с ключевым отличием в том, что при кодировании геометрии пространства-времени общей теории относительности в представления нейронных полей динамика возникает естественным образом как побочный продукт. Поля Эйнштейна демонстрируют замечательный потенциал, включая непрерывное моделирование 4D пространства-времени, сетчатую агностичность, эффективность хранения, точность производных и простоту использования. Мы решаем эти задачи на нескольких канонических испытательных стендах общей теории относительности и выпускаем библиотеку на базе JAX с открытым исходным кодом, которая открывает путь для более масштабируемых и выразительных подходов к численной теории относительности. Код доступен по адресу https://github.com/AndreiB137/EinFields
✅https://arxiv.org/pdf/2507.11589
✅https://github.com/AndreiB137/EinFields
Мы представляем Einstein Fields - нейронное представление, предназначенное для сжатия четырехмерных численных моделей теории относительности, требующих больших вычислений, в компактные неявные веса нейронной сети. Моделируя метрику, которая является основным тензорным полем общей теории относительности, поля Эйнштейна позволяют получать физические величины с помощью автоматического дифференцирования. Однако, в отличие от обычных нейронных полей (например, полей расстояния, занятости или яркости), поля Эйнштейна являются нейронными тензорными полями с ключевым отличием в том, что при кодировании геометрии пространства-времени общей теории относительности в представления нейронных полей динамика возникает естественным образом как побочный продукт. Поля Эйнштейна демонстрируют замечательный потенциал, включая непрерывное моделирование 4D пространства-времени, сетчатую агностичность, эффективность хранения, точность производных и простоту использования. Мы решаем эти задачи на нескольких канонических испытательных стендах общей теории относительности и выпускаем библиотеку на базе JAX с открытым исходным кодом, которая открывает путь для более масштабируемых и выразительных подходов к численной теории относительности. Код доступен по адресу https://github.com/AndreiB137/EinFields
✅https://arxiv.org/pdf/2507.11589
✅https://github.com/AndreiB137/EinFields
GitHub
GitHub - AndreiB137/EinFields: Einstein Fields official implementation in JAX.
Einstein Fields official implementation in JAX. Contribute to AndreiB137/EinFields development by creating an account on GitHub.
🔥3
Умные люди и пироги богатства
На графике можно увидеть положительную корреляцию между средним уровнем когнитивных способностей (на основе результатов тестов когнитивных способностей TIMSS и PIRLS) и ВВП на душу населения разных стран.
Как лучше всего объяснить эти результаты?
Экономист Гарет Джонс предлагает интерпретацию через так называемую оптику «увеличения пирога» (pie growing approach): жители богатых стран умеют сотрудничать в режиме игры с позитивной суммой и увеличивать объем ресурсов, способствуя росту благосостояния каждого.
Для иллюстрации они прибегает к исследованию, поведенному Университетом Вандербильта. Участники прошли тест на GMAT (языковой и математический экзамен, требуемый при поступлении в бизнес-школу), а затем их разбили на две группы:
▪️В первой у участников была одна опция: торговаться. Они должны были суметь выторговать выгодную сумму за товар.
▪️Во второй тоже надо было торговаться. Однако пул возможностей был шире. Например, владелец магазина должен был заключить выгодный контракт с владельцем торгового центра. И он мог рассмотреть рассмотреть разные варианты сотрудничества. Например, владелец магазина мог — вместо прямой аренды помещения для своего магазина — сдать другому магазину в субаренду.
Как оказалось, в тех парах игроков, чей средний результат по указанным когнитивным тестам был выше, удавалось договариваться о более выгодных сделках. Этого не наблюдалось в группе, где участники просто торговались о цене товара.
Гипотеза Джонса предполагает, что более умные нации могут организовать сотрудничество с друг другом на более выгодных условиях, увеличивая пирог и способствуя росту благосостояния всех. Поэтому их интеллекту сопутствует богатство.
Jones, G. (2020). Hive mind: How your nation’s IQ matters so much more than your own. Stanford University Press.
На графике можно увидеть положительную корреляцию между средним уровнем когнитивных способностей (на основе результатов тестов когнитивных способностей TIMSS и PIRLS) и ВВП на душу населения разных стран.
Как лучше всего объяснить эти результаты?
Экономист Гарет Джонс предлагает интерпретацию через так называемую оптику «увеличения пирога» (pie growing approach): жители богатых стран умеют сотрудничать в режиме игры с позитивной суммой и увеличивать объем ресурсов, способствуя росту благосостояния каждого.
Для иллюстрации они прибегает к исследованию, поведенному Университетом Вандербильта. Участники прошли тест на GMAT (языковой и математический экзамен, требуемый при поступлении в бизнес-школу), а затем их разбили на две группы:
▪️В первой у участников была одна опция: торговаться. Они должны были суметь выторговать выгодную сумму за товар.
▪️Во второй тоже надо было торговаться. Однако пул возможностей был шире. Например, владелец магазина должен был заключить выгодный контракт с владельцем торгового центра. И он мог рассмотреть рассмотреть разные варианты сотрудничества. Например, владелец магазина мог — вместо прямой аренды помещения для своего магазина — сдать другому магазину в субаренду.
Как оказалось, в тех парах игроков, чей средний результат по указанным когнитивным тестам был выше, удавалось договариваться о более выгодных сделках. Этого не наблюдалось в группе, где участники просто торговались о цене товара.
Гипотеза Джонса предполагает, что более умные нации могут организовать сотрудничество с друг другом на более выгодных условиях, увеличивая пирог и способствуя росту благосостояния всех. Поэтому их интеллекту сопутствует богатство.
Jones, G. (2020). Hive mind: How your nation’s IQ matters so much more than your own. Stanford University Press.
Китай официально запретил торговлю криптовалютой, майнинг и услуги, связанные с криптовалютой @banksta
🤔1
Excel УБИЛИ прямо сейчас — релизнулся мощнейший редактор таблиц NanoCell, который обрабатывает ОГРОМНЫЕ объемы данных. При этом НЕ НУЖНО знать ни кучу формул, ни макросов.
• Правит ВСЁ: от объемных датасетов и финансовых данных до небольших формул для построения графиков и поиска одного значения в таблице.
• Работает нереально шустро — тысячи строк обрабатываются за СЕКУНДУ.
• Тулзу разработал аналитик и датасайентист с многолетним стажем — он вшил туда только САМЫЕ НУЖНЫЕ функции без излишеств. При этом интерфейс у сервиса максимально простой и понятный.
• Данные НЕ ПОТЕРЯЮТСЯ — в отличие от конкурентов сохраняет все сведения и значения датасета.
• Работает на статическом сервере — можно кидать даже секретные доки, ни одна строка не улетит в сеть.
😶 😶 😶 😶 😶 😶 😶 😶 😶
Создание и анализ таблиц по одному клику — тут.
Его код на GitHub — здесь.
• Правит ВСЁ: от объемных датасетов и финансовых данных до небольших формул для построения графиков и поиска одного значения в таблице.
• Работает нереально шустро — тысячи строк обрабатываются за СЕКУНДУ.
• Тулзу разработал аналитик и датасайентист с многолетним стажем — он вшил туда только САМЫЕ НУЖНЫЕ функции без излишеств. При этом интерфейс у сервиса максимально простой и понятный.
• Данные НЕ ПОТЕРЯЮТСЯ — в отличие от конкурентов сохраняет все сведения и значения датасета.
• Работает на статическом сервере — можно кидать даже секретные доки, ни одна строка не улетит в сеть.
Создание и анализ таблиц по одному клику — тут.
Его код на GitHub — здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Nanocell-Csv
NanoCell - CSV file Viewer & Editor
Nanocell - CSV file Viewer & Editor : free, fast, simple, lightweight, offline, cross platform, and data accurate
🔥4