DenoiseLAB
485 subscribers
1.34K photos
161 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
😁5
Teach Old SAEs New Domain Tricks with Boosting

Разрежённые автоэнкодеры зарекомендовали себя как эффективные инструменты интерпретации внутренних представлений крупных языковых моделей, однако зачастую они неспособны уловить специфические доменно-зависимые признаки, редко встречающиеся в корпусах тренировочных данных. В настоящей статье предлагается подход остаточного обучения, позволяющий устранить этот недостаток без полного переобучения. Предлагается натренировать дополнительный разрежённый автоэнкодер именно на ошибке реконструкции предварительно обученного автоэнкодера по отношению к доменно-специфическим текстам, тем самым выявляя характеристики, упущенные первичной моделью. Путём суммирования выходов обеих моделей на этапе вывода продемонстрированы значительные улучшения показателей кросс-энтропии языковых моделей и объясняемой дисперсии в различных специализированных областях. Экспериментально подтверждено, что данная методика позволяет эффективно интегрировать новые знания конкретной предметной области в существующие разрежённые автоэнкодеры, сохранив при этом их производительность на общих задачах. Такой подход даёт исследователям возможность избирательно повышать интерпретируемость разрежённых автоэнкодеров для конкретных интересующих областей, открывая перспективы целенаправленной механистической интерпретируемости языковых моделей.

https://arxiv.org/pdf/2507.12990
FLEXITOKENS: Flexible Tokenization for Evolving Language Models

Языковые модели (LMS) сложно адаптировать к новым распределениям данных путем простой тонкой настройки. Это связано с жесткостью их маркеров вложенных слов, которые обычно остаются неизменными во время адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая чрезмерную фрагментацию доменов, недоступных для распространения, невидимых языков или сценариев. В этой работе мы разрабатываем фильмы на байтовом уровне с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который учится предсказывать границы между входными последовательностями байтов, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизатор, обучают этот предиктор границ, используя вспомогательные потери, которые обеспечивают фиксированную степень сжатия во всем учебном корпусе, что обеспечивает новый вид жесткости. Мы предлагаем FLEXITOKENS - упрощенную задачу обучения, которая обеспечивает значительно большую гибкость при адаптации. Оценивая множество многоязычных тестов, морфологически разнообразных задач и доменов, мы демонстрируем, что FLEXITOKENS последовательно снижает чрезмерную фрагментацию токенов и обеспечивает повышение производительности последующих задач на 10% по сравнению с подсловами и другими токенизаторами на основе градиента.

https://arxiv.org/pdf/2507.12720
В Китае гуманоидный робот впервые поступил в аспирантуру Шанхайского университета. Он будет изучать театр, кино и оперу. Его зовут Xueba, что с китайского переводится как «отличник». Он может физически взаимодействовать с людьми и способен выражать различные эмоции. У робота будет даже собственный студенческий билет, а к концу обучения он напишет диссертацию. @bankoffo
😁4
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Интерполяция видеокадров (VFI) направлена на прогнозирование промежуточного кадра I_n (мы используем n для обозначения времени в видео, чтобы избежать перегрузки нотации временным шагом t в диффузионных моделях) на основе двух соседних последовательных кадров I_0 и I_1. В современных подходах для решения этой задачи используются диффузионные модели (как на основе изображений, так и на основе видео), которые обеспечивают высокую производительность. Однако диффузионные модели на основе изображений не способны извлекать временную информацию и относительно неэффективны по сравнению с методами, не использующими диффузию. Диффузионные модели на основе видео могут извлекать временную информацию, но они слишком велики с точки зрения масштаба обучения, размера модели и времени вывода. Чтобы устранить вышеуказанные проблемы, мы предлагаем эффективную модель диффузии на основе видео с учетом латентного броуновского моста для интерполяции видеокадров (TLB-VFI). Извлекая обширную временную информацию из видеовходов с помощью предлагаемого нами 3D-вейвлет-стробирования и автоэнкодера с учетом времени, наш метод обеспечивает 20%-ное улучшение FID для самых сложных наборов данных по сравнению с недавним SOTA моделей диффузии, основанных на изображениях. Между тем, благодаря наличию обширной временной информации, наш метод обеспечивает высокую производительность при использовании в 3 раза меньшего количества параметров. Такое сокращение параметров приводит к ускорению в 2,3 раза. Благодаря использованию оптического управления потоком, наш метод требует в 9000 раз меньше обучающих данных и обеспечивает более чем в 20 раз меньшее количество параметров, чем диффузионные модели на основе видео. Коды и результаты доступны на странице нашего проекта: https://zonglinl.github.io/tlbvfi_page.

https://arxiv.org/pdf/2507.04984
https://zonglinl.github.io/tlbvfi_page/
https://github.com/ZonglinL/TLBVFI
Einstein Fields: A Neural Perspective To Computational General Relativity

Мы представляем Einstein Fields - нейронное представление, предназначенное для сжатия четырехмерных численных моделей теории относительности, требующих больших вычислений, в компактные неявные веса нейронной сети. Моделируя метрику, которая является основным тензорным полем общей теории относительности, поля Эйнштейна позволяют получать физические величины с помощью автоматического дифференцирования. Однако, в отличие от обычных нейронных полей (например, полей расстояния, занятости или яркости), поля Эйнштейна являются нейронными тензорными полями с ключевым отличием в том, что при кодировании геометрии пространства-времени общей теории относительности в представления нейронных полей динамика возникает естественным образом как побочный продукт. Поля Эйнштейна демонстрируют замечательный потенциал, включая непрерывное моделирование 4D пространства-времени, сетчатую агностичность, эффективность хранения, точность производных и простоту использования. Мы решаем эти задачи на нескольких канонических испытательных стендах общей теории относительности и выпускаем библиотеку на базе JAX с открытым исходным кодом, которая открывает путь для более масштабируемых и выразительных подходов к численной теории относительности. Код доступен по адресу https://github.com/AndreiB137/EinFields

https://arxiv.org/pdf/2507.11589
https://github.com/AndreiB137/EinFields
🔥3
Умные люди и пироги богатства

На графике можно увидеть положительную корреляцию между средним уровнем когнитивных способностей (на основе результатов тестов когнитивных способностей  TIMSS и PIRLS) и ВВП на душу населения разных стран.

Как лучше всего объяснить эти результаты?

Экономист Гарет Джонс предлагает интерпретацию через так называемую оптику «увеличения пирога» (pie growing approach): жители богатых стран умеют сотрудничать в режиме игры с позитивной суммой и увеличивать объем ресурсов, способствуя росту благосостояния каждого.

Для иллюстрации они прибегает к исследованию, поведенному Университетом Вандербильта. Участники прошли тест на GMAT (языковой и математический экзамен, требуемый при поступлении в бизнес-школу), а затем их разбили на две группы:

▪️В первой у участников была одна опция: торговаться. Они должны были суметь выторговать выгодную сумму за товар.

▪️Во второй тоже надо было торговаться. Однако пул возможностей был шире. Например, владелец магазина должен был заключить выгодный контракт с владельцем торгового центра. И он мог рассмотреть рассмотреть разные варианты сотрудничества. Например, владелец магазина мог — вместо прямой аренды помещения для своего магазина — сдать другому магазину в субаренду.

Как оказалось, в тех парах игроков, чей средний результат по указанным когнитивным тестам был выше, удавалось договариваться о более выгодных сделках. Этого не наблюдалось в группе, где участники просто торговались о цене товара.

Гипотеза Джонса предполагает, что более умные нации могут организовать сотрудничество с друг другом на более выгодных условиях, увеличивая пирог и способствуя росту благосостояния всех. Поэтому их интеллекту сопутствует богатство.

Jones, G. (2020). Hive mind: How your nation’s IQ matters so much more than your own. Stanford University Press.
Китай официально запретил торговлю криптовалютой, майнинг и услуги, связанные с криптовалютой @banksta
🤔1
Excel УБИЛИ прямо сейчас — релизнулся мощнейший редактор таблиц NanoCell, который обрабатывает ОГРОМНЫЕ объемы данных. При этом НЕ НУЖНО знать ни кучу формул, ни макросов.

Правит ВСЁ: от объемных датасетов и финансовых данных до небольших формул для построения графиков и поиска одного значения в таблице.
Работает нереально шустро — тысячи строк обрабатываются за СЕКУНДУ.
• Тулзу разработал аналитик и датасайентист с многолетним стажем — он вшил туда только САМЫЕ НУЖНЫЕ функции без излишеств. При этом интерфейс у сервиса максимально простой и понятный.
Данные НЕ ПОТЕРЯЮТСЯ — в отличие от конкурентов сохраняет все сведения и значения датасета.
• Работает на статическом сервере — можно кидать даже секретные доки, ни одна строка не улетит в сеть.

😶😶😶😶😶😶😶😶😶

Создание и анализ таблиц по одному клику — тут.
Его код на GitHub — здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
👍3
Царь во дворца )))
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum

Экспоненциальный рост спроса на вычислительные ресурсы GPU, обусловленный быстрым развитием больших языковых моделей, вызвал острую потребность в автоматизированных стратегиях оптимизации CUDA.

Несмотря на то, что последние достижения в области LLMS являются многообещающими для генерации кода, текущие модели SOTA (например, R1, o1) имеют низкий уровень успеха в повышении скорости CUDA.

В этой статье мы представляем CUDA-L1, автоматизированную платформу обучения с подкреплением для оптимизации CUDA. CUDA-L1 обеспечивает повышение производительности в задаче оптимизации CUDA: при работе на NVIDIA A100 он обеспечивает среднее ускорение в 17,7 раза на всех 250 ядрах CUDA в KernelBench, а максимальное ускорение достигает 449 раз.

Кроме того, модель также демонстрирует отличную переносимость на различные архитектуры графических процессоров, достигая среднего ускорения в 17,8 раза на H100, 19,0 раза на RTX 3090, 16,5 раза на L40, 14,7 раза на H800 и 13,9 раза на H20, несмотря на то, что она была оптимизирована специально для A100.

https://arxiv.org/abs/2507.14111
👍4
Пришло время, открыть правду и громко заявить об этом ))))
😁2
Статуя Сатоши Накамото, хм... прикольно )
ИИ-агент стал лучшим хакером в мире: бот от Xbow занял первое место в рейтинге от HackerOne — самой популярной платформы для «белых» хакеров.

Агент Xbow за пару месяцев обошел самых опытных взломщиков по количеству обнаруженных уязвимостей. ИИ быстрее людей находит дыры в безопасности и придумывает методы их взлома.

Казалось бы, что может пойти не так.

Нормально, пишем бота на бота, расслабляемся господа, все норм, круг замкнулся ))
👍3😁2
🏔️ DiffDock — ИИ для молекулярного докинга через диффузионные модели. Этот open-source проект использует диффузионные модели для предсказания, как маленькие молекулы будут связываться с белками. Точность превосходит традиционные методы на 20-30%, что подтверждено тестами на PDBBind и других бенчмарках. 

Инструмент имеет трёхэтапный процесс: сначала предсказывается позиция лиганда, затем его ориентация, и наконец — конформационные изменения. В 2024 году вышла улучшенная версия DiffDock-L с поддержкой ESMFold для предсказания структуры белка по последовательности. 

🤖 GitHub
🧠ИИ открыл новые законы физики — понятным языком

Учёные из Университета Эмори (США) дали ИИ задачу не
«угадывать результаты», а самому вывести формулы. Вот что получилось.

🔍 Что исследовали 
- Пыльная плазма — это горячий ионизированный газ, в котором летают микроскопические пылевые частицы. 
- Частицы отталкиваются и притягиваются сложным образом; классическая теория не всё объясняла.

🧠 Как работал ИИ 
- Ему показали короткие 3-D видеозаписи движения частиц (маленький датасет). 
- В алгоритм заранее «вшили» базовые принципы: сопротивление воздуха, гравитацию. 
- ИИ искал уравнения, которые лучше всего описывают траектории.

📈 Что открыл 
- Нереципрокные силы: сила от A к B ≠ сила от B к A. Раньше про них только догадывались. 
- Исправил старую ошибку: заряд частицы зависит от её размера иначе, чем считали. 
- Показал, как быстро затухают взаимодействия с расстоянием — формула тоже обновилась.

🚀 Почему это важно 
- Малый объём данных: хватает секундных видеороликов. 
- Обычный ПК: нужен лишь настольный компьютер, не суперкомпьютер. 
- Метод переносится на любые «многие частицы» — от порошковых материалов до клеток в биологии.

Вывод: ИИ уже способен не только анализировать данные, но и выводить новые законы природы. Скорость открытий растёт экспоненциально.

https://interestingengineering.com/innovation/ai-decodes-dusty-plasma-new-forces-physics
Please open Telegram to view this post
VIEW IN TELEGRAM