Создана модель ИИ, которая находит мошеннические атаки за 120 минут до перевода денег
Мошенники становятся находчивее а их схемы — сложнее. Особенно страдают финансовые организации и ритейл: клиенты теряют деньги, а бизнес — репутацию.
🔹Команда Билайна по работе с ИИ и большими данными пересмотрела подход к анализу, принятый на рынке, разработала и внедрила новый алгоритм. Он позволяет выявлять признаки среднесрочного (2-3 часа) и долговременного (от 24 часов до 5 суток) воздействия потенциальных мошенников на клиентов банков и пользователей сервисов.
🔹А что если идёт длительное воздействие?
Тогда:
- сигнал от Билайна поступает в службу безопасности банка: операцию нужно приостановить, а клиента — предупредить и защитить его средства;
- далее каждый банк и онлайн-ритейлер действуют по своему алгоритму для подобных ситуаций.
🔹Точность выявления событий - 92%.
🔹В моделировании использованы данные 4 млн клиентов 7 банков*
🔹Алгоритм выявил 20 тыс. виртуальных кейсов с «мошенниками» и в 90% случаев смог заблаговременно предупредить об их действиях.
Теперь у бизнеса есть окно в 2-3 часа, чтобы спасти деньги клиентов.
*обезличенные ретроданные
Реклама ПАО «ВымпелКом», beeline.ru
Мошенники становятся находчивее а их схемы — сложнее. Особенно страдают финансовые организации и ритейл: клиенты теряют деньги, а бизнес — репутацию.
🔹Команда Билайна по работе с ИИ и большими данными пересмотрела подход к анализу, принятый на рынке, разработала и внедрила новый алгоритм. Он позволяет выявлять признаки среднесрочного (2-3 часа) и долговременного (от 24 часов до 5 суток) воздействия потенциальных мошенников на клиентов банков и пользователей сервисов.
🔹А что если идёт длительное воздействие?
Тогда:
- сигнал от Билайна поступает в службу безопасности банка: операцию нужно приостановить, а клиента — предупредить и защитить его средства;
- далее каждый банк и онлайн-ритейлер действуют по своему алгоритму для подобных ситуаций.
🔹Точность выявления событий - 92%.
🔹В моделировании использованы данные 4 млн клиентов 7 банков*
🔹Алгоритм выявил 20 тыс. виртуальных кейсов с «мошенниками» и в 90% случаев смог заблаговременно предупредить об их действиях.
Теперь у бизнеса есть окно в 2-3 часа, чтобы спасти деньги клиентов.
*обезличенные ретроданные
Реклама ПАО «ВымпелКом», beeline.ru
bigdata.beeline.ru
Антифрод-сервис FraudShield - выявление мошенничества с помощью ИИ и Big Data для банков, E-commerce
Билайн бизнес предлагает антифрод решение FraudShield. Сервис для выявления и предотвращения противоправных действий в отношении пользователей для банков, маркетплейсов и финансовой отрасли. Инновационный антифрод сервис на базе искусственного интеллекта…
Забег роботов включен в программу чемпионата России по легкой атлетике
Соревнования пройдут в Казани. Роботы пробегут стометровку в первый день чемпионата – 7 августа. Так организаторы надеются привлечь внимание к легкой атлетике. Предполагается, что в забеге примут участие минимум два робота, изготовленных в Китае. Представитель Всероссийской федерации легкой атлетики заявил, что китайский опыт вдохновил организаторов: в апреле в Пекине прошел первый в мире забег роботов.
Фото: Phonlamai Photo / Shutterstock
Соревнования пройдут в Казани. Роботы пробегут стометровку в первый день чемпионата – 7 августа. Так организаторы надеются привлечь внимание к легкой атлетике. Предполагается, что в забеге примут участие минимум два робота, изготовленных в Китае. Представитель Всероссийской федерации легкой атлетики заявил, что китайский опыт вдохновил организаторов: в апреле в Пекине прошел первый в мире забег роботов.
Фото: Phonlamai Photo / Shutterstock
Telegram
Серебряный Дождь
В Китае роботы впервые приняли участие в полумарафоне наравне с людьми, сообщает Reuters
Забег состоялся в Пекине 19 апреля. К тысячам бегунов присоединился 21 робот. Передвигались они в сопровождении специалистов, однако это не уберегло некоторых искусственных…
Забег состоялся в Пекине 19 апреля. К тысячам бегунов присоединился 21 робот. Передвигались они в сопровождении специалистов, однако это не уберегло некоторых искусственных…
😁2
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
Пространственное мышление в трехмерном пространстве занимает центральное место в человеческом познании и незаменимо для решения таких реальных задач, как навигация и манипулирование. Однако современные модели визуального языка (VLM) часто сталкиваются с трудностями при решении таких простых задач, как прогнозирование того, как будет выглядеть сцена после эгоцентрического движения: они воспринимают 2D-изображения, но не имеют внутренней модели динамики 3D. Поэтому мы предлагаем MindJourney, платформу масштабирования во время тестирования, которая предоставляет VLM эту недостающую возможность, связывая ее с управляемой моделью мира, основанной на распространении видео. VLM итеративно рисует краткую траекторию движения камеры, в то время как модель мира синтезирует соответствующий вид на каждом шаге. Затем VLM анализирует данные, собранные в ходе интерактивного исследования. Без какой-либо тонкой настройки наш MindJourney обеспечивает повышение производительности в среднем на 8% в репрезентативном тесте пространственного мышления SAT, демонстрируя, что сопряжение VLM с мировыми моделями для масштабирования во время тестирования обеспечивает простой и понятный путь к надежному 3D-мышлению. Между тем, наш метод также улучшает виртуальные машины для вывода результатов во время тестирования, обученные с помощью обучения с подкреплением, что демонстрирует потенциал нашего метода, использующего мировые модели для масштабирования во время тестирования.
✅https://arxiv.org/pdf/2507.12508
✅https://umass-embodied-agi.github.io/MindJourney/
✅https://github.com/UMass-Embodied-AGI/MindJourney
Пространственное мышление в трехмерном пространстве занимает центральное место в человеческом познании и незаменимо для решения таких реальных задач, как навигация и манипулирование. Однако современные модели визуального языка (VLM) часто сталкиваются с трудностями при решении таких простых задач, как прогнозирование того, как будет выглядеть сцена после эгоцентрического движения: они воспринимают 2D-изображения, но не имеют внутренней модели динамики 3D. Поэтому мы предлагаем MindJourney, платформу масштабирования во время тестирования, которая предоставляет VLM эту недостающую возможность, связывая ее с управляемой моделью мира, основанной на распространении видео. VLM итеративно рисует краткую траекторию движения камеры, в то время как модель мира синтезирует соответствующий вид на каждом шаге. Затем VLM анализирует данные, собранные в ходе интерактивного исследования. Без какой-либо тонкой настройки наш MindJourney обеспечивает повышение производительности в среднем на 8% в репрезентативном тесте пространственного мышления SAT, демонстрируя, что сопряжение VLM с мировыми моделями для масштабирования во время тестирования обеспечивает простой и понятный путь к надежному 3D-мышлению. Между тем, наш метод также улучшает виртуальные машины для вывода результатов во время тестирования, обученные с помощью обучения с подкреплением, что демонстрирует потенциал нашего метода, использующего мировые модели для масштабирования во время тестирования.
✅https://arxiv.org/pdf/2507.12508
✅https://umass-embodied-agi.github.io/MindJourney/
✅https://github.com/UMass-Embodied-AGI/MindJourney
GitHub
GitHub - UMass-Embodied-AGI/MindJourney: Source codes for the paper "MindJourney: Test-Time Scaling with World Models for Spatial…
Source codes for the paper "MindJourney: Test-Time Scaling with World Models for Spatial Reasoning" - UMass-Embodied-AGI/MindJourney
🔥2
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
Создание выразительной анимации лица на основе статичных изображений — сложная задача. Традиционные подходы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при переносе эмоций между лицами разных людей и испытывают трудности с передачей тонких эмоциональных нюансов. Более того, современные методы плохо справляются с анимацией нескольких персонажей одновременно, поскольку характеристики лиц отдельных индивидов мешают друг другу, усложняя процесс.
Чтобы преодолеть эти ограничения, мы предлагаем концепцию FantasyPortrait — фреймворк на основе диффузионных трансформеров, позволяющий создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы героев. Наш подход включает стратегию обучения с дополнительным вниманием к выражениям лица, использующую скрытые представления для захвата динамики мимики независимо от индивидуальных черт конкретного лица, что помогает точнее передавать тонкие эмоции. Для управления несколькими персонажами одновременно мы разработали механизм маскированного перекрестного внимания, гарантирующего независимую, но скоординированную генерацию выражения каждого героя, эффективно предотвращая взаимное влияние характеристик.
Для продвижения исследований в этой области мы создали специализированные наборы данных Multi-Expr и ExprBench, предназначенные для тренировки и оценки мультихарактерных портретных анимаций. Широкий спектр экспериментов показал значительное превосходство нашего подхода над современными методами как по количественным показателям, так и по визуальному качеству, особенно в сложных сценариях переноса эмоций и многоперсонажной анимации.
✅https://arxiv.org/pdf/2507.12956
✅https://fantasy-amap.github.io/fantasy-portrait/
✅https://github.com/Fantasy-AMAP/fantasy-portrait
Создание выразительной анимации лица на основе статичных изображений — сложная задача. Традиционные подходы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при переносе эмоций между лицами разных людей и испытывают трудности с передачей тонких эмоциональных нюансов. Более того, современные методы плохо справляются с анимацией нескольких персонажей одновременно, поскольку характеристики лиц отдельных индивидов мешают друг другу, усложняя процесс.
Чтобы преодолеть эти ограничения, мы предлагаем концепцию FantasyPortrait — фреймворк на основе диффузионных трансформеров, позволяющий создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы героев. Наш подход включает стратегию обучения с дополнительным вниманием к выражениям лица, использующую скрытые представления для захвата динамики мимики независимо от индивидуальных черт конкретного лица, что помогает точнее передавать тонкие эмоции. Для управления несколькими персонажами одновременно мы разработали механизм маскированного перекрестного внимания, гарантирующего независимую, но скоординированную генерацию выражения каждого героя, эффективно предотвращая взаимное влияние характеристик.
Для продвижения исследований в этой области мы создали специализированные наборы данных Multi-Expr и ExprBench, предназначенные для тренировки и оценки мультихарактерных портретных анимаций. Широкий спектр экспериментов показал значительное превосходство нашего подхода над современными методами как по количественным показателям, так и по визуальному качеству, особенно в сложных сценариях переноса эмоций и многоперсонажной анимации.
✅https://arxiv.org/pdf/2507.12956
✅https://fantasy-amap.github.io/fantasy-portrait/
✅https://github.com/Fantasy-AMAP/fantasy-portrait
fantasy-amap.github.io
FantasyPortrait: Enhancing Multi-Character Portrait Animation with
Expression-Augmented Diffusion Transformers
Expression-Augmented Diffusion Transformers
FantasyPortrait: Enhancing Multi-Character Portrait Animation with
Expression-Augmented Diffusion Transformers
Expression-Augmented Diffusion Transformers
🔥2
Voxtral
Представляем Voxtral Mini и Voxtral Small — две мультимодальные модели аудиочата. Voxtral обучен понимать как голосовые записи, так и текстовые документы, демонстрируя передовые показатели производительности на различных эталонных тестах для анализа речи, сохраняя при этом сильные способности обработки текста. Модель Voxtral Small превосходит ряд закрытых аналогов, оставаясь достаточно компактной для локального запуска. Окно контекста размером 32К позволяет обрабатывать аудиофайлы длительностью до 40 минут и вести продолжительные многоходовые беседы. Мы также предлагаем три бенчмарка для оценки моделей понимания речи на предмет знания и эрудиции. Обе модели Voxtral распространяются под лицензией Apache 2.0.
✅https://arxiv.org/pdf/2507.13264
Представляем Voxtral Mini и Voxtral Small — две мультимодальные модели аудиочата. Voxtral обучен понимать как голосовые записи, так и текстовые документы, демонстрируя передовые показатели производительности на различных эталонных тестах для анализа речи, сохраняя при этом сильные способности обработки текста. Модель Voxtral Small превосходит ряд закрытых аналогов, оставаясь достаточно компактной для локального запуска. Окно контекста размером 32К позволяет обрабатывать аудиофайлы длительностью до 40 минут и вести продолжительные многоходовые беседы. Мы также предлагаем три бенчмарка для оценки моделей понимания речи на предмет знания и эрудиции. Обе модели Voxtral распространяются под лицензией Apache 2.0.
✅https://arxiv.org/pdf/2507.13264
Тут ютубер смог записать 176 килобайтов PNG‑файла в, внимание, скворца (обычного):
Чел нарисовал png-картинку (1), потом нашел домашнего скворца который любит копировать звуки и проиграл ему эту картинку в виде звука (2), в итоге птица проиграла звук в ответ (3) – если всё правильно посчитано, то так можно передавать почти 2 мегабайта в секунду данных с помощью скворцов
Что значит, что DVD Rip "Властелина Колец" на скворячем (скворцовом?) можно передать за ~36 минут через пение одного скворца (1.5 Гб), а вот чтобы перенести между регионами файл – придется нанять 8500 птицы (спойлер: это не выгодно, не делайте стартап из RAID-скворцов)
Вот тут момент где можно послушать, как именно птица проигрывает PNG и что за оригинальный звук был в файле:
https://youtu.be/hCQCP-5g5bo?t=1026
Чел нарисовал png-картинку (1), потом нашел домашнего скворца который любит копировать звуки и проиграл ему эту картинку в виде звука (2), в итоге птица проиграла звук в ответ (3) – если всё правильно посчитано, то так можно передавать почти 2 мегабайта в секунду данных с помощью скворцов
Что значит, что DVD Rip "Властелина Колец" на скворячем (скворцовом?) можно передать за ~36 минут через пение одного скворца (1.5 Гб), а вот чтобы перенести между регионами файл – придется нанять 8500 птицы (спойлер: это не выгодно, не делайте стартап из RAID-скворцов)
Вот тут момент где можно послушать, как именно птица проигрывает PNG и что за оригинальный звук был в файле:
https://youtu.be/hCQCP-5g5bo?t=1026
YouTube
I Saved a PNG Image To A Bird
I got a bit concerningly obsessed with birds for a few months.
Follow Sarah and The Mouth! https://linktr.ee/inkydragon
Older bat vid: https://www.youtube.com/watch?v=X4eqkaHkTAI
💗 Support this channel and join an amazing community: http://www.patreon.com/bennjordan…
Follow Sarah and The Mouth! https://linktr.ee/inkydragon
Older bat vid: https://www.youtube.com/watch?v=X4eqkaHkTAI
💗 Support this channel and join an amazing community: http://www.patreon.com/bennjordan…
Большие генеративные модели ИИ планируют применять для решения типовых задач, в том числе:
Использовать ИИ для прогнозирования социально-экономических процессов чиновникам будет прямо запрещено.
Please open Telegram to view this post
VIEW IN TELEGRAM
Коммерсантъ
Чиновников избавляют от рутины
Минцифры готовит эксперимент по использованию генеративного ИИ в госуправлении
Еще одна очень громкая статья последних дней – AlphaGo Moment for Model Architecture Discovery
TL;DR: ученые представили первую в мире систему, автономно генерирующую новые рабочие архитектуры ИИ -> проверили ее на 20 000 GPU‑часах -> открыли закон масштабирования, который говорит, что количество обнаруженных архитектур растёт линейно по мере увеличения числа ресурсов.
После выхода AlphaEvolve ученые всё больше и больше говорят о том, что пора нам переходить от NAS к ASI4AI: то есть от классического Neural Architecture Search, ограниченного человеческим фактором, к ИИ, который улучшает ИИ, который улучшает ИИ, который .... Ну вы поняли.
История действительно перспективная (и в том числе эта статья это подтверждает). Ведь способности ИИ по законам масштабирования растут экспоненциально, но в то же время скорость исследований остаётся линейной из‑за ограничений человеческого внимания и времени. Парадокс.
Ну так вот. Сама архитектура ASI‑ARCH из статьи состоит из трех модулей: Researcher, Engineer и Analyzer. Один генерирует гипотезы и "ТЗ", другой пишет код и собирает метрики, третий анализирует результаты.
Долго останавливаться на архитектуре не будем, тут самое интересное – результат. Было проведено 1 773 эксперимента на 20 000 GPU‑часах, в результате обнаружено 106 новых SOTA архитектур (это линейная зависимость). Под SOTA тут, кстати, подразумеваются именно линейные модели (НЕ трансформер), которые демонстрируют лучшие метрики в своем классе.
При этом в итоговых архитектурах действительно присутствуют какие-то непривычные конструкции. Отсюда и название – исследователи проводят прямую аналогию с ходом 37 AlphaGo в матче с Ли Седолем и говорят, что это яркий показатель способности системы находить прорывные идеи, а не просто подражать.
arxiv.org/pdf/2507.18074
TL;DR: ученые представили первую в мире систему, автономно генерирующую новые рабочие архитектуры ИИ -> проверили ее на 20 000 GPU‑часах -> открыли закон масштабирования, который говорит, что количество обнаруженных архитектур растёт линейно по мере увеличения числа ресурсов.
После выхода AlphaEvolve ученые всё больше и больше говорят о том, что пора нам переходить от NAS к ASI4AI: то есть от классического Neural Architecture Search, ограниченного человеческим фактором, к ИИ, который улучшает ИИ, который улучшает ИИ, который .... Ну вы поняли.
История действительно перспективная (и в том числе эта статья это подтверждает). Ведь способности ИИ по законам масштабирования растут экспоненциально, но в то же время скорость исследований остаётся линейной из‑за ограничений человеческого внимания и времени. Парадокс.
Ну так вот. Сама архитектура ASI‑ARCH из статьи состоит из трех модулей: Researcher, Engineer и Analyzer. Один генерирует гипотезы и "ТЗ", другой пишет код и собирает метрики, третий анализирует результаты.
Долго останавливаться на архитектуре не будем, тут самое интересное – результат. Было проведено 1 773 эксперимента на 20 000 GPU‑часах, в результате обнаружено 106 новых SOTA архитектур (это линейная зависимость). Под SOTA тут, кстати, подразумеваются именно линейные модели (НЕ трансформер), которые демонстрируют лучшие метрики в своем классе.
При этом в итоговых архитектурах действительно присутствуют какие-то непривычные конструкции. Отсюда и название – исследователи проводят прямую аналогию с ходом 37 AlphaGo в матче с Ли Седолем и говорят, что это яркий показатель способности системы находить прорывные идеи, а не просто подражать.
arxiv.org/pdf/2507.18074
🚀 Китайский ИИ прорыв: Huawei представила «суперузел» Atlas 900 A3 SuperPoD, превосходящий NVIDIA
На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».
🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений
🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)
💡 Ключевые преимущества:
✔️ Вычислительная мощность —
✔️ Скорость передачи данных —
✔️ Пропускная способность памяти —
✔️ Скорость генерации текста — до
⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза
🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.
📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.
На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».
🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений
🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)
💡 Ключевые преимущества:
✔️ Вычислительная мощность —
300Pflops (x1.7 NVIDIA NVL72)✔️ Скорость передачи данных —
269 ТБ/с (+107% к NVIDIA) ✔️ Пропускная способность памяти —
1229 ТБ/с (+113%) ✔️ Скорость генерации текста — до
2300 токенов/сек на карту ⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза
🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.
📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.
Telegram
Китай.AI
🤖 Искусственный интеллект и будущее Китая: взгляд основателя Huawei
Основатель Huawei Жэнь Чжэнфэй в эксклюзивном интервью поделился мнением о развитии ИИ, проблемах полупроводниковой отрасли и роли фундаментальной науки.
🔹 О вызовах и инновациях
- В ответ…
Основатель Huawei Жэнь Чжэнфэй в эксклюзивном интервью поделился мнением о развитии ИИ, проблемах полупроводниковой отрасли и роли фундаментальной науки.
🔹 О вызовах и инновациях
- В ответ…
❤2
🇷🇺 Made in Russia: дайджест №10 новостей из мира IT, науки, космоса и технологий
В первом юбилейном выпуске — всё, что нужно знать о последних достижениях России в сфере ИИ и ML:
🔹 MERA Code — первый бенчмарк для оценки языковых моделей в кодинге на русском языке.
🔹 «Яндекс» подтвердил соответствие международным стандартам ответственного ИИ.
🔹 T-Bank AI научился управлять поведением LLM без дообучения.
🔹 TabM от Yandex Research обгоняет CatBoost и XGBoost.
🔹 BI с ИИ: AI-агент Нейроаналитик теперь в Yandex DataLens.
В первом юбилейном выпуске — всё, что нужно знать о последних достижениях России в сфере ИИ и ML:
🔹 MERA Code — первый бенчмарк для оценки языковых моделей в кодинге на русском языке.
🔹 «Яндекс» подтвердил соответствие международным стандартам ответственного ИИ.
🔹 T-Bank AI научился управлять поведением LLM без дообучения.
🔹 TabM от Yandex Research обгоняет CatBoost и XGBoost.
🔹 BI с ИИ: AI-агент Нейроаналитик теперь в Yandex DataLens.
Будьте в курсе лучших кейсов хакатонов, ML-турниров, CTF и соревнований по спортивному программированию на Codenrock
Made in Russia: дайджест №10 новостей из мира IT, науки, космоса и технологий – Будьте в курсе лучших кейсов хакатонов, ML-турниров…
В первом юбилейном, десятом выпуске — самые важные достижения российских разработчиков в сфере ИИ-технологий. MERA Code — первый открытый бенчмарк для оценки LLM в задачах программирования на русском языке Альянс в сфере ИИ запустил MERA Code —бенчмарк,…
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
Создание выразительной анимации лица на основе статичных изображений является сложной задачей. Ранее предложенные методы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при перекладывании выражений и испытывают трудности с передачей тонких эмоций. Более того, существующие подходы плохо справляются с анимацией нескольких персонажей одновременно, поскольку особенности разных лиц мешают друг другу, усложняя процесс. Для решения этих проблем мы представляем FantasyPortrait — фреймворк на основе трансформеров-диффузоров, способный создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы лиц. Наш метод включает стратегию обучения с расширением выражения, использующую скрытые представления для захвата динамики лица независимо от индивидуальных особенностей, улучшая способность модели отображать тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного перекрестного внимания, обеспечивающий независимую и согласованную генерацию выражений, эффективно предотвращая взаимное влияние признаков. Чтобы стимулировать исследования в этой области, мы предложили наборы данных Multi-Expr и ExprBench, специально разработанные для тренировки и тестирования многоперсонных портретных анимаций. Подробные эксперименты показывают, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных сценариях перекладывания выражений и мультиличных ситуациях.
✅https://arxiv.org/pdf/2507.12956
✅https://fantasy-amap.github.io/fantasy-portrait/
✅https://github.com/Fantasy-AMAP/fantasy-portrait
Создание выразительной анимации лица на основе статичных изображений является сложной задачей. Ранее предложенные методы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при перекладывании выражений и испытывают трудности с передачей тонких эмоций. Более того, существующие подходы плохо справляются с анимацией нескольких персонажей одновременно, поскольку особенности разных лиц мешают друг другу, усложняя процесс. Для решения этих проблем мы представляем FantasyPortrait — фреймворк на основе трансформеров-диффузоров, способный создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы лиц. Наш метод включает стратегию обучения с расширением выражения, использующую скрытые представления для захвата динамики лица независимо от индивидуальных особенностей, улучшая способность модели отображать тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного перекрестного внимания, обеспечивающий независимую и согласованную генерацию выражений, эффективно предотвращая взаимное влияние признаков. Чтобы стимулировать исследования в этой области, мы предложили наборы данных Multi-Expr и ExprBench, специально разработанные для тренировки и тестирования многоперсонных портретных анимаций. Подробные эксперименты показывают, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных сценариях перекладывания выражений и мультиличных ситуациях.
✅https://arxiv.org/pdf/2507.12956
✅https://fantasy-amap.github.io/fantasy-portrait/
✅https://github.com/Fantasy-AMAP/fantasy-portrait
fantasy-amap.github.io
FantasyPortrait: Enhancing Multi-Character Portrait Animation with
Expression-Augmented Diffusion Transformers
Expression-Augmented Diffusion Transformers
FantasyPortrait: Enhancing Multi-Character Portrait Animation with
Expression-Augmented Diffusion Transformers
Expression-Augmented Diffusion Transformers
This media is not supported in your browser
VIEW IN TELEGRAM
У нейросети для генерации видео Runway появилась новая версия Aleph, которую называют «Фотошопом» для видео.
Aleph может менять фон на видео, добавлять и удалять объекты, а также «переодевать» персонажей. А еще — генерировать одну и ту же сцену с разных ракурсов и создавать следующий кадр в таком же стиле. Пока только в раннем доступе
Aleph может менять фон на видео, добавлять и удалять объекты, а также «переодевать» персонажей. А еще — генерировать одну и ту же сцену с разных ракурсов и создавать следующий кадр в таком же стиле. Пока только в раннем доступе
👍3🔥2
🔥 Alibaba выпустила первую в мире open-source модель для генерации видео с кинематографическим качеством!
Alibaba представила Wan2.2 — первую в мире open-source модель для генерации видео на архитектуре Mixture-of-Experts (MoE) с возможностью точного контроля "киношной" эстетики.
Проект менее чем за сутки набрал 1.3k+ звезд на GitHub!
🎬 Что умеет Wan2.2?
• Генерирует видео 720p/24fps с детальным контролем света, тени и композиции
• Поддерживает создание контента как из текста, так и из изображений
• Работает даже на потребительских видеокартах (например, RTX 4090)
Примеры промптов:
1. "Дождь в неоновом городе: человек в плаще бежит по переулку, оглядываясь..."
2. "Игра света и тени от медленно движущегося поезда ..."
🔧 Технологические прорывы:
1. MoE-архитектура — несколько экспертных моделей работают вместе без роста вычислительных затрат
2. Гигантский датасет +65,6% изображений и +83,2% видео vs предыдущая версия
3. Киноэстетика — специальный датасет с разметкой по свету, цвету и композиции
4. Hybrid TI2V — поддержка 5B-параметровой модели со сжатием 16×16×4
💻 Технические детали:
• Лицензия: Apache 2.0
• Поддержка текст→видео и изображение→видео
• Оптимизация под consumer GPU
• Топовые benchmark-результаты среди open/closed-source моделей
Cайт | Hugging Face | ModelScope | GitHub
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ГенерацияВидео #WAN #Alibaba
Alibaba представила Wan2.2 — первую в мире open-source модель для генерации видео на архитектуре Mixture-of-Experts (MoE) с возможностью точного контроля "киношной" эстетики.
Проект менее чем за сутки набрал 1.3k+ звезд на GitHub!
🎬 Что умеет Wan2.2?
• Генерирует видео 720p/24fps с детальным контролем света, тени и композиции
• Поддерживает создание контента как из текста, так и из изображений
• Работает даже на потребительских видеокартах (например, RTX 4090)
Примеры промптов:
1. "Дождь в неоновом городе: человек в плаще бежит по переулку, оглядываясь..."
2. "Игра света и тени от медленно движущегося поезда ..."
🔧 Технологические прорывы:
1. MoE-архитектура — несколько экспертных моделей работают вместе без роста вычислительных затрат
2. Гигантский датасет +65,6% изображений и +83,2% видео vs предыдущая версия
3. Киноэстетика — специальный датасет с разметкой по свету, цвету и композиции
4. Hybrid TI2V — поддержка 5B-параметровой модели со сжатием 16×16×4
💻 Технические детали:
• Лицензия: Apache 2.0
• Поддержка текст→видео и изображение→видео
• Оптимизация под consumer GPU
• Топовые benchmark-результаты среди open/closed-source моделей
Cайт | Hugging Face | ModelScope | GitHub
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ГенерацияВидео #WAN #Alibaba
wan.video
Wan AI: Leading AI Video Generation Model
Wan is an AI creative platform. It aims to lower the barrier to creative work using artificial intelligence, offering features like text-to-image, image-to-image, text-to-video, image-to-video, and image editing.
👍2🔥2
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
Мы представляем AbGen — первую специализированную оценку возможностей больших языковых моделей (LLM) в разработке абляционных исследований для научных целей. АбГен состоит из 1500 примеров экспертной разметки, полученных из 807 статей по обработке естественного языка. В рамках этой проверки языковая модель должна создать детальное проектирование абляционного эксперимента для определенного модуля или процесса на основании предоставленного исследовательского контекста. Оценивая ведущие LLM, такие как DeepSeek-R1-0528 и o4-mini, мы обнаружили значительный разрыв между этими моделями и человеческими экспертами в аспектах значимости, достоверности и обоснованности предлагаемых проектов экспериментов. Помимо этого, мы показали, что нынешние автоматизированные системы оценивания не подходят для нашей задачи, так как демонстрируют значительное расхождение с результатами человеческой экспертизы. Для дальнейшего изучения проблемы мы создали AbGen-Eval — метаоценочную систему, предназначенную для проверки надежности широко используемых автоматических методов оценки результатов LLM на нашем задании. Проведенное исследование с использованием различных систем типа «LLM-судья» на AbGen-Eval предлагает важные выводы для будущих разработок более эффективных и надежных систем оценки LLM применительно к сложным научным задачам.
✅https://arxiv.org/pdf/2507.13300
✅https://github.com/yale-nlp/AbGen
Мы представляем AbGen — первую специализированную оценку возможностей больших языковых моделей (LLM) в разработке абляционных исследований для научных целей. АбГен состоит из 1500 примеров экспертной разметки, полученных из 807 статей по обработке естественного языка. В рамках этой проверки языковая модель должна создать детальное проектирование абляционного эксперимента для определенного модуля или процесса на основании предоставленного исследовательского контекста. Оценивая ведущие LLM, такие как DeepSeek-R1-0528 и o4-mini, мы обнаружили значительный разрыв между этими моделями и человеческими экспертами в аспектах значимости, достоверности и обоснованности предлагаемых проектов экспериментов. Помимо этого, мы показали, что нынешние автоматизированные системы оценивания не подходят для нашей задачи, так как демонстрируют значительное расхождение с результатами человеческой экспертизы. Для дальнейшего изучения проблемы мы создали AbGen-Eval — метаоценочную систему, предназначенную для проверки надежности широко используемых автоматических методов оценки результатов LLM на нашем задании. Проведенное исследование с использованием различных систем типа «LLM-судья» на AbGen-Eval предлагает важные выводы для будущих разработок более эффективных и надежных систем оценки LLM применительно к сложным научным задачам.
✅https://arxiv.org/pdf/2507.13300
✅https://github.com/yale-nlp/AbGen
Teach Old SAEs New Domain Tricks with Boosting
Разрежённые автоэнкодеры зарекомендовали себя как эффективные инструменты интерпретации внутренних представлений крупных языковых моделей, однако зачастую они неспособны уловить специфические доменно-зависимые признаки, редко встречающиеся в корпусах тренировочных данных. В настоящей статье предлагается подход остаточного обучения, позволяющий устранить этот недостаток без полного переобучения. Предлагается натренировать дополнительный разрежённый автоэнкодер именно на ошибке реконструкции предварительно обученного автоэнкодера по отношению к доменно-специфическим текстам, тем самым выявляя характеристики, упущенные первичной моделью. Путём суммирования выходов обеих моделей на этапе вывода продемонстрированы значительные улучшения показателей кросс-энтропии языковых моделей и объясняемой дисперсии в различных специализированных областях. Экспериментально подтверждено, что данная методика позволяет эффективно интегрировать новые знания конкретной предметной области в существующие разрежённые автоэнкодеры, сохранив при этом их производительность на общих задачах. Такой подход даёт исследователям возможность избирательно повышать интерпретируемость разрежённых автоэнкодеров для конкретных интересующих областей, открывая перспективы целенаправленной механистической интерпретируемости языковых моделей.
✅https://arxiv.org/pdf/2507.12990
Разрежённые автоэнкодеры зарекомендовали себя как эффективные инструменты интерпретации внутренних представлений крупных языковых моделей, однако зачастую они неспособны уловить специфические доменно-зависимые признаки, редко встречающиеся в корпусах тренировочных данных. В настоящей статье предлагается подход остаточного обучения, позволяющий устранить этот недостаток без полного переобучения. Предлагается натренировать дополнительный разрежённый автоэнкодер именно на ошибке реконструкции предварительно обученного автоэнкодера по отношению к доменно-специфическим текстам, тем самым выявляя характеристики, упущенные первичной моделью. Путём суммирования выходов обеих моделей на этапе вывода продемонстрированы значительные улучшения показателей кросс-энтропии языковых моделей и объясняемой дисперсии в различных специализированных областях. Экспериментально подтверждено, что данная методика позволяет эффективно интегрировать новые знания конкретной предметной области в существующие разрежённые автоэнкодеры, сохранив при этом их производительность на общих задачах. Такой подход даёт исследователям возможность избирательно повышать интерпретируемость разрежённых автоэнкодеров для конкретных интересующих областей, открывая перспективы целенаправленной механистической интерпретируемости языковых моделей.
✅https://arxiv.org/pdf/2507.12990
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
Языковые модели (LMS) сложно адаптировать к новым распределениям данных путем простой тонкой настройки. Это связано с жесткостью их маркеров вложенных слов, которые обычно остаются неизменными во время адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая чрезмерную фрагментацию доменов, недоступных для распространения, невидимых языков или сценариев. В этой работе мы разрабатываем фильмы на байтовом уровне с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который учится предсказывать границы между входными последовательностями байтов, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизатор, обучают этот предиктор границ, используя вспомогательные потери, которые обеспечивают фиксированную степень сжатия во всем учебном корпусе, что обеспечивает новый вид жесткости. Мы предлагаем FLEXITOKENS - упрощенную задачу обучения, которая обеспечивает значительно большую гибкость при адаптации. Оценивая множество многоязычных тестов, морфологически разнообразных задач и доменов, мы демонстрируем, что FLEXITOKENS последовательно снижает чрезмерную фрагментацию токенов и обеспечивает повышение производительности последующих задач на 10% по сравнению с подсловами и другими токенизаторами на основе градиента.
✅https://arxiv.org/pdf/2507.12720
Языковые модели (LMS) сложно адаптировать к новым распределениям данных путем простой тонкой настройки. Это связано с жесткостью их маркеров вложенных слов, которые обычно остаются неизменными во время адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая чрезмерную фрагментацию доменов, недоступных для распространения, невидимых языков или сценариев. В этой работе мы разрабатываем фильмы на байтовом уровне с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который учится предсказывать границы между входными последовательностями байтов, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизатор, обучают этот предиктор границ, используя вспомогательные потери, которые обеспечивают фиксированную степень сжатия во всем учебном корпусе, что обеспечивает новый вид жесткости. Мы предлагаем FLEXITOKENS - упрощенную задачу обучения, которая обеспечивает значительно большую гибкость при адаптации. Оценивая множество многоязычных тестов, морфологически разнообразных задач и доменов, мы демонстрируем, что FLEXITOKENS последовательно снижает чрезмерную фрагментацию токенов и обеспечивает повышение производительности последующих задач на 10% по сравнению с подсловами и другими токенизаторами на основе градиента.
✅https://arxiv.org/pdf/2507.12720