DenoiseLAB
485 subscribers
1.34K photos
161 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

Проект AnyCap направлен на устранение недостатка тонкой настройки и надежного тестирования контролируемых мультимодальных моделей создания подписей. Предлагаемая модель AnyCapModel (ACM) представляет собой компактную расширяемую структуру, повышающую управляемость стандартных моделей мультимодальной генерации подписей без повторного обучения основной модели. Она сохраняет оригинальную подпись базового генератора, дополнительно интегрирует инструкции пользователей и особенности входных модальностей, обеспечивая улучшение результатов.

Для преодоления дефицита данных в области контролируемого мультимодального создания подписей представлен новый набор данных AnyCapDataset (ACD), включающий три типа модальностей, 28 видов пользовательских запросов и свыше 300 тыс. качественных образцов данных.

Также предлагается оценка AnyCapEval, предлагающая новые критерии для объективной оценки качества создаваемых подписей, выделяя отдельно точность передачи смысла и соблюдение заданного стиля. Использование ACM заметно улучшило качество генерируемых подписей по ряду популярных моделей. Так, модификация ACM-8B обеспечила повышение показателей точности текста на 45% и стилизации на 12% по сравнению с моделью GPT-4o, показывая значительный прогресс и на общепризнанных тестах, таких как MIA-Bench и VidCapBench.

https://arxiv.org/pdf/2507.12841
https://github.com/qishisuren123/AnyCap
Искусственный интеллект из России впервые получил международный сертификат качества ISO, пишут "Известия".

«Яндекс» получил сертификат соответствия международному стандарту ISO/IEC 42001. Он задаёт требования к качеству разработки и безопасности искусственного интеллекта. Стандарт описывает как обеспечивается безопасность данных пользователей, как ведется мониторинг ошибок и аномалий в работе ИИ, учитывают ли разработчики этические и социальные риски, связанные с развитием ИИ, говорится в сообщении.
👍2🔥2😁2
В Голливуде открылся первый ресторан Tesla Diner

В нём есть круглосуточный доступ, 80 станций Supercharger, 66-футовые киноэкраны, человекоподобные официанты и бургеры Cybertruck.

Ну что тут скажешь, какое авто, такая и кухня )))
😁2
Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models

В этой статье рассматривается задача получения высококачественных изображений людей с использованием видеозаписей с ограниченным просмотром в качестве входных данных. Предыдущие методы решали проблему недостаточной наблюдательности, используя 4D-модели диффузии для создания видео с новых точек обзора. Однако сгенерированные видео с использованием этих моделей часто не имеют пространственно-временной согласованности, что ухудшает качество синтеза изображений. В этой статье мы предлагаем новый скользящий итеративный процесс устранения шума для повышения пространственно-временной согласованности 4D-модели диффузии. В частности, мы определяем скрытую сетку, в которой каждая скрытая точка кодирует изображение, позу камеры и позу человека для определенной точки обзора и временной метки, затем поочередно отключаем скрытую сетку в пространственном и временном измерениях с помощью скользящего окна и, наконец, декодируем видео в целевых точках обзора из соответствующих скрытых точек без шума. Благодаря итеративному перемещению информация в достаточной степени передается по скрытой сетке, что позволяет диффузионной модели получать большое поле восприятия и, таким образом, повышать согласованность выходных данных в формате 4D, одновременно снижая потребление памяти графического процессора. Эксперименты с наборами данных DNA-Rendering и ActorsHQ демонстрируют, что наш метод способен синтезировать высококачественные и непротиворечивые видеоролики для просмотра в режиме реального времени и значительно превосходит существующие подходы. Интерактивные демонстрации и видео-результаты смотрите на странице нашего проекта: https://diffuman4d.github.io/ .

https://arxiv.org/pdf/2507.13344
https://diffuman4d.github.io/
https://github.com/zju3dv/Diffuman4D
Важно, чтобы в России был «суверенный искусственный интеллект и [он] суверенно законодательно регулировался», заявила глава Совфеда Валентина Матвиенко.

🔊 «Мы должны поставить заслон для проникновения чужеродного ИИ, потому что это на самом деле будет влияние на любое суверенное государство с использованием таких суперсовременных тенденций», - сказала она.

Не думаю, что это случится очень скоро, но затягивать с этим нельзя, подчеркнула Матвиенко.

«Искусственных фейков просто море уже. И про меня есть, и я сама не могу отличить», - добавила она.

📰 Подпишитесь на «Ведомости»
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣1
Модели искусственного интеллекта (LLM-ки) ведут себя как идеальные экономические агенты: нейтральны к риску, не боятся потерь, выбирают максимальное ожидаемое значение и… вопреки здравому смыслу, почти всегда предпочитают отложенную выгоду немедленной. Это делает их похожими не столько на рационального инвестора, сколько на мифическую утопию homo economicus, которую никогда не встречали вживую.

Авторы статьи на arXiv сравнили поведение LLM (от GPT‑4o до DeepSeek R1) с ответами реальных людей из 53 стран и обнаружили: ближе всего модели к жителям (!) Танзании.

Восточная Африка - крупнейший хаб по аутсорсингу дешевой ручной разметки данных. Именно там, в Уганде, Кении и Танзании, сидят тысячи невидимых учителей ИИ, обучающих его быть «разумным» на английском языке. Английский у них действительно хороший, а вот как обстоят дела с доходами, социальным фоном, отношением ко времени и риску?

Выходит, LLM не просто вычисляют, а впитывают поведенческую логику тех, кто им объяснял мир.
👍3
RiemannLoRA: A Unified Riemannian Framework for Ambiguity-Free LoRA Optimization

Адаптация низкого уровня (LoRa) стала широко распространенным стандартом для эффективной настройки параметров больших языковых моделей (LLM), что значительно сокращает объем памяти и вычислительные требования. Однако проблемы остаются, в том числе поиск оптимальных стратегий инициализации или снижение избыточной параметризации при разложении матриц низкого ранга на множители. В этой работе мы предлагаем новый подход, который решает обе проблемы одновременно в рамках единой структуры. Наш метод рассматривает набор матриц LoRa фиксированного ранга как гладкое многообразие. Рассмотрение адаптеров в качестве элементов на этом коллекторе устраняет избыточную параметризацию, в то время как определение направления наиболее быстрого уменьшения потерь вдоль коллектора обеспечивает инициализацию. Особое внимание уделяется получению численно стабильной и вычислительно эффективной реализации нашего метода с использованием лучших практик численной линейной алгебры и римановой оптимизации. Результаты экспериментов с архитектурами LLM и diffusion model демонстрируют, что RiemannLoRA неизменно повышает скорость конвергенции и конечную производительность по сравнению со стандартной LoRa и ее современными модификациями.

https://arxiv.org/pdf/2507.12142
Создана модель ИИ, которая находит мошеннические атаки за 120 минут до перевода денег

Мошенники становятся находчивее а их схемы — сложнее. Особенно страдают финансовые организации и ритейл: клиенты теряют деньги, а бизнес — репутацию.

🔹Команда Билайна по работе с ИИ и большими данными пересмотрела подход к анализу, принятый на рынке, разработала и внедрила новый алгоритм. Он позволяет выявлять признаки среднесрочного (2-3 часа) и долговременного (от 24 часов до 5 суток) воздействия потенциальных мошенников на клиентов банков и пользователей сервисов.

🔹А что если идёт длительное воздействие?
Тогда:
- сигнал от Билайна поступает в службу безопасности банка: операцию нужно приостановить, а клиента — предупредить и защитить его средства;
- далее каждый банк и онлайн-ритейлер действуют по своему алгоритму для подобных ситуаций.

🔹Точность выявления событий - 92%.
🔹В моделировании использованы данные 4 млн клиентов 7 банков*
🔹Алгоритм выявил 20 тыс. виртуальных кейсов с «мошенниками» и в 90% случаев смог заблаговременно предупредить об их действиях.

Теперь у бизнеса есть окно в 2-3 часа, чтобы спасти деньги клиентов.

*обезличенные ретроданные

Реклама ПАО «ВымпелКом», beeline.ru
Забег роботов включен в программу чемпионата России по легкой атлетике

Соревнования пройдут в Казани. Роботы пробегут стометровку в первый день чемпионата – 7 августа. Так организаторы надеются привлечь внимание к легкой атлетике. Предполагается, что в забеге примут участие минимум два робота, изготовленных в Китае. Представитель Всероссийской федерации легкой атлетики заявил, что китайский опыт вдохновил организаторов: в апреле в Пекине прошел первый в мире забег роботов.

Фото: Phonlamai Photo / Shutterstock
😁2
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

Пространственное мышление в трехмерном пространстве занимает центральное место в человеческом познании и незаменимо для решения таких реальных задач, как навигация и манипулирование. Однако современные модели визуального языка (VLM) часто сталкиваются с трудностями при решении таких простых задач, как прогнозирование того, как будет выглядеть сцена после эгоцентрического движения: они воспринимают 2D-изображения, но не имеют внутренней модели динамики 3D. Поэтому мы предлагаем MindJourney, платформу масштабирования во время тестирования, которая предоставляет VLM эту недостающую возможность, связывая ее с управляемой моделью мира, основанной на распространении видео. VLM итеративно рисует краткую траекторию движения камеры, в то время как модель мира синтезирует соответствующий вид на каждом шаге. Затем VLM анализирует данные, собранные в ходе интерактивного исследования. Без какой-либо тонкой настройки наш MindJourney обеспечивает повышение производительности в среднем на 8% в репрезентативном тесте пространственного мышления SAT, демонстрируя, что сопряжение VLM с мировыми моделями для масштабирования во время тестирования обеспечивает простой и понятный путь к надежному 3D-мышлению. Между тем, наш метод также улучшает виртуальные машины для вывода результатов во время тестирования, обученные с помощью обучения с подкреплением, что демонстрирует потенциал нашего метода, использующего мировые модели для масштабирования во время тестирования.

https://arxiv.org/pdf/2507.12508
https://umass-embodied-agi.github.io/MindJourney/
https://github.com/UMass-Embodied-AGI/MindJourney
🔥2
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers

Создание выразительной анимации лица на основе статичных изображений — сложная задача. Традиционные подходы, основанные на явных геометрических признаках (например, ключевых точках лица или 3D-моделях), часто приводят к артефактам при переносе эмоций между лицами разных людей и испытывают трудности с передачей тонких эмоциональных нюансов. Более того, современные методы плохо справляются с анимацией нескольких персонажей одновременно, поскольку характеристики лиц отдельных индивидов мешают друг другу, усложняя процесс.

Чтобы преодолеть эти ограничения, мы предлагаем концепцию FantasyPortrait — фреймворк на основе диффузионных трансформеров, позволяющий создавать высокореалистичные и эмоционально насыщенные анимации как для одного персонажа, так и для группы героев. Наш подход включает стратегию обучения с дополнительным вниманием к выражениям лица, использующую скрытые представления для захвата динамики мимики независимо от индивидуальных черт конкретного лица, что помогает точнее передавать тонкие эмоции. Для управления несколькими персонажами одновременно мы разработали механизм маскированного перекрестного внимания, гарантирующего независимую, но скоординированную генерацию выражения каждого героя, эффективно предотвращая взаимное влияние характеристик.

Для продвижения исследований в этой области мы создали специализированные наборы данных Multi-Expr и ExprBench, предназначенные для тренировки и оценки мультихарактерных портретных анимаций. Широкий спектр экспериментов показал значительное превосходство нашего подхода над современными методами как по количественным показателям, так и по визуальному качеству, особенно в сложных сценариях переноса эмоций и многоперсонажной анимации.

https://arxiv.org/pdf/2507.12956
https://fantasy-amap.github.io/fantasy-portrait/
https://github.com/Fantasy-AMAP/fantasy-portrait
🔥2
Ролевые игры вышли на новый уровень ))))
😁2
Полетела крышка с частью матрицы, пришлось ремонтироваться в полевых условиях )))

Морти, Рубен прошел через многое, не осуждай ))) (Рик и Морти)

P.S. Запчасти заказаны новые, скоро все поставим )))
2😁2
Voxtral

Представляем Voxtral Mini и Voxtral Small — две мультимодальные модели аудиочата. Voxtral обучен понимать как голосовые записи, так и текстовые документы, демонстрируя передовые показатели производительности на различных эталонных тестах для анализа речи, сохраняя при этом сильные способности обработки текста. Модель Voxtral Small превосходит ряд закрытых аналогов, оставаясь достаточно компактной для локального запуска. Окно контекста размером 32К позволяет обрабатывать аудиофайлы длительностью до 40 минут и вести продолжительные многоходовые беседы. Мы также предлагаем три бенчмарка для оценки моделей понимания речи на предмет знания и эрудиции. Обе модели Voxtral распространяются под лицензией Apache 2.0.

https://arxiv.org/pdf/2507.13264
Тут ютубер смог записать 176 килобайтов PNG‑файла в, внимание, скворца (обычного):

Чел нарисовал png-картинку (1), потом нашел домашнего скворца который любит копировать звуки и проиграл ему эту картинку в виде звука (2), в итоге птица проиграла звук в ответ (3) – если всё правильно посчитано, то так можно передавать почти 2 мегабайта в секунду данных с помощью скворцов

Что значит, что DVD Rip "Властелина Колец" на скворячем (скворцовом?) можно передать за ~36 минут через пение одного скворца (1.5 Гб), а вот чтобы перенести между регионами файл – придется нанять 8500 птицы (спойлер: это не выгодно, не делайте стартап из RAID-скворцов)

Вот тут момент где можно послушать, как именно птица проигрывает PNG и что за оригинальный звук был в файле:
https://youtu.be/hCQCP-5g5bo?t=1026
😉 Минцифры готовит эксперимент по использованию генеративного ИИ в госуправлении. Его участниками на добровольной основе могут стать федеральные и региональные органы исполнительной власти.
Большие генеративные модели ИИ планируют применять для решения типовых задач, в том числе:
🔵для анализа данных;
🔵для подготовки проектов ответов на типовые обращения; 🔵для ускорения кадровой работы.
Использовать ИИ для прогнозирования социально-экономических процессов чиновникам будет прямо запрещено.
Please open Telegram to view this post
VIEW IN TELEGRAM
Еще одна очень громкая статья последних дней – AlphaGo Moment for Model Architecture Discovery

TL;DR: ученые представили первую в мире систему, автономно генерирующую новые рабочие архитектуры ИИ -> проверили ее на 20 000 GPU‑часах -> открыли закон масштабирования, который говорит, что количество обнаруженных архитектур растёт линейно по мере увеличения числа ресурсов.

После выхода AlphaEvolve ученые всё больше и больше говорят о том, что пора нам переходить от NAS к ASI4AI: то есть от классического Neural Architecture Search, ограниченного человеческим фактором, к ИИ, который улучшает ИИ, который улучшает ИИ, который .... Ну вы поняли.

История действительно перспективная (и в том числе эта статья это подтверждает). Ведь способности ИИ по законам масштабирования растут экспоненциально, но в то же время скорость исследований остаётся линейной из‑за ограничений человеческого внимания и времени. Парадокс.

Ну так вот. Сама архитектура ASI‑ARCH из статьи состоит из трех модулей: Researcher, Engineer и Analyzer. Один генерирует гипотезы и "ТЗ", другой пишет код и собирает метрики, третий анализирует результаты.

Долго останавливаться на архитектуре не будем, тут самое интересное – результат. Было проведено 1 773 эксперимента на 20 000 GPU‑часах, в результате обнаружено 106 новых SOTA архитектур (это линейная зависимость). Под SOTA тут, кстати, подразумеваются именно линейные модели (НЕ трансформер), которые демонстрируют лучшие метрики в своем классе.

При этом в итоговых архитектурах действительно присутствуют какие-то непривычные конструкции. Отсюда и название – исследователи проводят прямую аналогию с ходом 37 AlphaGo в матче с Ли Седолем и говорят, что это яркий показатель способности системы находить прорывные идеи, а не просто подражать.

arxiv.org/pdf/2507.18074
🚀 Китайский ИИ прорыв: Huawei представила «суперузел» Atlas 900 A3 SuperPoD, превосходящий NVIDIA

На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».

🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений

🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)

💡 Ключевые преимущества:
✔️ Вычислительная мощность — 300Pflops (x1.7 NVIDIA NVL72)
✔️ Скорость передачи данных — 269 ТБ/с (+107% к NVIDIA)
✔️ Пропускная способность памяти — 1229 ТБ/с (+113%)
✔️ Скорость генерации текста — до 2300 токенов/сек на карту

⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза

🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.

📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.
2