DenoiseLAB
485 subscribers
1.34K photos
161 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
У нейросети для генерации видео Runway появилась новая версия Aleph, которую называют «Фотошопом» для видео.

Aleph может менять фон на видео, добавлять и удалять объекты, а также «переодевать» персонажей. А еще — генерировать одну и ту же сцену с разных ракурсов и создавать следующий кадр в таком же стиле. Пока только в раннем доступе
👍3🔥2
Почему... почему )))) ну что другого нейминга не нашлось.

Уважаемые коллеги, вы работали с Graphana теперь будете с Графиней ))))
😁3
🔥 Alibaba выпустила первую в мире open-source модель для генерации видео с кинематографическим качеством!

Alibaba представила Wan2.2 — первую в мире open-source модель для генерации видео на архитектуре Mixture-of-Experts (MoE) с возможностью точного контроля "киношной" эстетики.

Проект менее чем за сутки набрал 1.3k+ звезд на GitHub!

🎬 Что умеет Wan2.2?
• Генерирует видео 720p/24fps с детальным контролем света, тени и композиции
• Поддерживает создание контента как из текста, так и из изображений
• Работает даже на потребительских видеокартах (например, RTX 4090)

Примеры промптов:

1. "Дождь в неоновом городе: человек в плаще бежит по переулку, оглядываясь..."
2. "Игра света и тени от медленно движущегося поезда ..."

🔧 Технологические прорывы:

1. MoE-архитектура — несколько экспертных моделей работают вместе без роста вычислительных затрат
2. Гигантский датасет +65,6% изображений и +83,2% видео vs предыдущая версия
3. Киноэстетика — специальный датасет с разметкой по свету, цвету и композиции
4. Hybrid TI2V — поддержка 5B-параметровой модели со сжатием 16×16×4

💻 Технические детали:

• Лицензия: Apache 2.0
• Поддержка текст→видео и изображение→видео
• Оптимизация под consumer GPU
• Топовые benchmark-результаты среди open/closed-source моделей

Cайт | Hugging Face | ModelScope | GitHub

Подробнее в оригинальной статье

#КитайскийИИ #КитайAI #ГенерацияВидео #WAN #Alibaba
👍2🔥2
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Мы представляем AbGen — первую специализированную оценку возможностей больших языковых моделей (LLM) в разработке абляционных исследований для научных целей. АбГен состоит из 1500 примеров экспертной разметки, полученных из 807 статей по обработке естественного языка. В рамках этой проверки языковая модель должна создать детальное проектирование абляционного эксперимента для определенного модуля или процесса на основании предоставленного исследовательского контекста. Оценивая ведущие LLM, такие как DeepSeek-R1-0528 и o4-mini, мы обнаружили значительный разрыв между этими моделями и человеческими экспертами в аспектах значимости, достоверности и обоснованности предлагаемых проектов экспериментов. Помимо этого, мы показали, что нынешние автоматизированные системы оценивания не подходят для нашей задачи, так как демонстрируют значительное расхождение с результатами человеческой экспертизы. Для дальнейшего изучения проблемы мы создали AbGen-Eval — метаоценочную систему, предназначенную для проверки надежности широко используемых автоматических методов оценки результатов LLM на нашем задании. Проведенное исследование с использованием различных систем типа «LLM-судья» на AbGen-Eval предлагает важные выводы для будущих разработок более эффективных и надежных систем оценки LLM применительно к сложным научным задачам.

https://arxiv.org/pdf/2507.13300
https://github.com/yale-nlp/AbGen
😁5
Teach Old SAEs New Domain Tricks with Boosting

Разрежённые автоэнкодеры зарекомендовали себя как эффективные инструменты интерпретации внутренних представлений крупных языковых моделей, однако зачастую они неспособны уловить специфические доменно-зависимые признаки, редко встречающиеся в корпусах тренировочных данных. В настоящей статье предлагается подход остаточного обучения, позволяющий устранить этот недостаток без полного переобучения. Предлагается натренировать дополнительный разрежённый автоэнкодер именно на ошибке реконструкции предварительно обученного автоэнкодера по отношению к доменно-специфическим текстам, тем самым выявляя характеристики, упущенные первичной моделью. Путём суммирования выходов обеих моделей на этапе вывода продемонстрированы значительные улучшения показателей кросс-энтропии языковых моделей и объясняемой дисперсии в различных специализированных областях. Экспериментально подтверждено, что данная методика позволяет эффективно интегрировать новые знания конкретной предметной области в существующие разрежённые автоэнкодеры, сохранив при этом их производительность на общих задачах. Такой подход даёт исследователям возможность избирательно повышать интерпретируемость разрежённых автоэнкодеров для конкретных интересующих областей, открывая перспективы целенаправленной механистической интерпретируемости языковых моделей.

https://arxiv.org/pdf/2507.12990
FLEXITOKENS: Flexible Tokenization for Evolving Language Models

Языковые модели (LMS) сложно адаптировать к новым распределениям данных путем простой тонкой настройки. Это связано с жесткостью их маркеров вложенных слов, которые обычно остаются неизменными во время адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая чрезмерную фрагментацию доменов, недоступных для распространения, невидимых языков или сценариев. В этой работе мы разрабатываем фильмы на байтовом уровне с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который учится предсказывать границы между входными последовательностями байтов, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизатор, обучают этот предиктор границ, используя вспомогательные потери, которые обеспечивают фиксированную степень сжатия во всем учебном корпусе, что обеспечивает новый вид жесткости. Мы предлагаем FLEXITOKENS - упрощенную задачу обучения, которая обеспечивает значительно большую гибкость при адаптации. Оценивая множество многоязычных тестов, морфологически разнообразных задач и доменов, мы демонстрируем, что FLEXITOKENS последовательно снижает чрезмерную фрагментацию токенов и обеспечивает повышение производительности последующих задач на 10% по сравнению с подсловами и другими токенизаторами на основе градиента.

https://arxiv.org/pdf/2507.12720
В Китае гуманоидный робот впервые поступил в аспирантуру Шанхайского университета. Он будет изучать театр, кино и оперу. Его зовут Xueba, что с китайского переводится как «отличник». Он может физически взаимодействовать с людьми и способен выражать различные эмоции. У робота будет даже собственный студенческий билет, а к концу обучения он напишет диссертацию. @bankoffo
😁4
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Интерполяция видеокадров (VFI) направлена на прогнозирование промежуточного кадра I_n (мы используем n для обозначения времени в видео, чтобы избежать перегрузки нотации временным шагом t в диффузионных моделях) на основе двух соседних последовательных кадров I_0 и I_1. В современных подходах для решения этой задачи используются диффузионные модели (как на основе изображений, так и на основе видео), которые обеспечивают высокую производительность. Однако диффузионные модели на основе изображений не способны извлекать временную информацию и относительно неэффективны по сравнению с методами, не использующими диффузию. Диффузионные модели на основе видео могут извлекать временную информацию, но они слишком велики с точки зрения масштаба обучения, размера модели и времени вывода. Чтобы устранить вышеуказанные проблемы, мы предлагаем эффективную модель диффузии на основе видео с учетом латентного броуновского моста для интерполяции видеокадров (TLB-VFI). Извлекая обширную временную информацию из видеовходов с помощью предлагаемого нами 3D-вейвлет-стробирования и автоэнкодера с учетом времени, наш метод обеспечивает 20%-ное улучшение FID для самых сложных наборов данных по сравнению с недавним SOTA моделей диффузии, основанных на изображениях. Между тем, благодаря наличию обширной временной информации, наш метод обеспечивает высокую производительность при использовании в 3 раза меньшего количества параметров. Такое сокращение параметров приводит к ускорению в 2,3 раза. Благодаря использованию оптического управления потоком, наш метод требует в 9000 раз меньше обучающих данных и обеспечивает более чем в 20 раз меньшее количество параметров, чем диффузионные модели на основе видео. Коды и результаты доступны на странице нашего проекта: https://zonglinl.github.io/tlbvfi_page.

https://arxiv.org/pdf/2507.04984
https://zonglinl.github.io/tlbvfi_page/
https://github.com/ZonglinL/TLBVFI
Einstein Fields: A Neural Perspective To Computational General Relativity

Мы представляем Einstein Fields - нейронное представление, предназначенное для сжатия четырехмерных численных моделей теории относительности, требующих больших вычислений, в компактные неявные веса нейронной сети. Моделируя метрику, которая является основным тензорным полем общей теории относительности, поля Эйнштейна позволяют получать физические величины с помощью автоматического дифференцирования. Однако, в отличие от обычных нейронных полей (например, полей расстояния, занятости или яркости), поля Эйнштейна являются нейронными тензорными полями с ключевым отличием в том, что при кодировании геометрии пространства-времени общей теории относительности в представления нейронных полей динамика возникает естественным образом как побочный продукт. Поля Эйнштейна демонстрируют замечательный потенциал, включая непрерывное моделирование 4D пространства-времени, сетчатую агностичность, эффективность хранения, точность производных и простоту использования. Мы решаем эти задачи на нескольких канонических испытательных стендах общей теории относительности и выпускаем библиотеку на базе JAX с открытым исходным кодом, которая открывает путь для более масштабируемых и выразительных подходов к численной теории относительности. Код доступен по адресу https://github.com/AndreiB137/EinFields

https://arxiv.org/pdf/2507.11589
https://github.com/AndreiB137/EinFields
🔥3
Умные люди и пироги богатства

На графике можно увидеть положительную корреляцию между средним уровнем когнитивных способностей (на основе результатов тестов когнитивных способностей  TIMSS и PIRLS) и ВВП на душу населения разных стран.

Как лучше всего объяснить эти результаты?

Экономист Гарет Джонс предлагает интерпретацию через так называемую оптику «увеличения пирога» (pie growing approach): жители богатых стран умеют сотрудничать в режиме игры с позитивной суммой и увеличивать объем ресурсов, способствуя росту благосостояния каждого.

Для иллюстрации они прибегает к исследованию, поведенному Университетом Вандербильта. Участники прошли тест на GMAT (языковой и математический экзамен, требуемый при поступлении в бизнес-школу), а затем их разбили на две группы:

▪️В первой у участников была одна опция: торговаться. Они должны были суметь выторговать выгодную сумму за товар.

▪️Во второй тоже надо было торговаться. Однако пул возможностей был шире. Например, владелец магазина должен был заключить выгодный контракт с владельцем торгового центра. И он мог рассмотреть рассмотреть разные варианты сотрудничества. Например, владелец магазина мог — вместо прямой аренды помещения для своего магазина — сдать другому магазину в субаренду.

Как оказалось, в тех парах игроков, чей средний результат по указанным когнитивным тестам был выше, удавалось договариваться о более выгодных сделках. Этого не наблюдалось в группе, где участники просто торговались о цене товара.

Гипотеза Джонса предполагает, что более умные нации могут организовать сотрудничество с друг другом на более выгодных условиях, увеличивая пирог и способствуя росту благосостояния всех. Поэтому их интеллекту сопутствует богатство.

Jones, G. (2020). Hive mind: How your nation’s IQ matters so much more than your own. Stanford University Press.
Китай официально запретил торговлю криптовалютой, майнинг и услуги, связанные с криптовалютой @banksta
🤔1
Excel УБИЛИ прямо сейчас — релизнулся мощнейший редактор таблиц NanoCell, который обрабатывает ОГРОМНЫЕ объемы данных. При этом НЕ НУЖНО знать ни кучу формул, ни макросов.

Правит ВСЁ: от объемных датасетов и финансовых данных до небольших формул для построения графиков и поиска одного значения в таблице.
Работает нереально шустро — тысячи строк обрабатываются за СЕКУНДУ.
• Тулзу разработал аналитик и датасайентист с многолетним стажем — он вшил туда только САМЫЕ НУЖНЫЕ функции без излишеств. При этом интерфейс у сервиса максимально простой и понятный.
Данные НЕ ПОТЕРЯЮТСЯ — в отличие от конкурентов сохраняет все сведения и значения датасета.
• Работает на статическом сервере — можно кидать даже секретные доки, ни одна строка не улетит в сеть.

😶😶😶😶😶😶😶😶😶

Создание и анализ таблиц по одному клику — тут.
Его код на GitHub — здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
👍3
Царь во дворца )))
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum

Экспоненциальный рост спроса на вычислительные ресурсы GPU, обусловленный быстрым развитием больших языковых моделей, вызвал острую потребность в автоматизированных стратегиях оптимизации CUDA.

Несмотря на то, что последние достижения в области LLMS являются многообещающими для генерации кода, текущие модели SOTA (например, R1, o1) имеют низкий уровень успеха в повышении скорости CUDA.

В этой статье мы представляем CUDA-L1, автоматизированную платформу обучения с подкреплением для оптимизации CUDA. CUDA-L1 обеспечивает повышение производительности в задаче оптимизации CUDA: при работе на NVIDIA A100 он обеспечивает среднее ускорение в 17,7 раза на всех 250 ядрах CUDA в KernelBench, а максимальное ускорение достигает 449 раз.

Кроме того, модель также демонстрирует отличную переносимость на различные архитектуры графических процессоров, достигая среднего ускорения в 17,8 раза на H100, 19,0 раза на RTX 3090, 16,5 раза на L40, 14,7 раза на H800 и 13,9 раза на H20, несмотря на то, что она была оптимизирована специально для A100.

https://arxiv.org/abs/2507.14111
👍4
Пришло время, открыть правду и громко заявить об этом ))))
😁2