DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
⚡️⚡️⚡️https://github.com/CyberAlbSecOP/Awesome_GPT_Super_Prompting - невероятно огромный пак по работе с промптами для LLM. Очень много полезных инструментов, методик и подходов. Если вы занимаетесь LLM, то обязательно к прочтению.

#tools #github #optimization #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
2
https://github.com/leptonai/leptonai - быстрый запуск AI приложений, быстрое развертывание, быстрая адаптация, напоминает HugginnFace

#tools #github #optimization #ml #llm
👍2
🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm

🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub
Arxiv
Docs
Project

#llm
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1🥰1
🚀 Китайский ИИ нового уровня: Alibaba представляет революционную архитектуру Qwen3-Next

Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.

🚀 Рекордная эффективность
Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.

🧠 Ключевые инновации:
Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.

⚙️ Технические детали
Архитектура представляет собой смесь Gated DeltaNet (75% слоев) для эффективного моделирования длинных последовательностей и стандартного Gated Attention (25% слоев) для высокой точности. Это позволило превзойти по качеству Mamba2 и sliding window attention. Для стабилизации тренировки внедрены Zero-Centered RMSNorm и нормализация весов маршрутизатора в MoE.

📊 Выпущены три версии модели
Base: Для дальнейшего дообучения и исследований.
Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.

Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.

Сайт | HuggingFace

#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
🚀 Новая китайская модель LongCat-Flash-Thinking 

🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений. 

Основное: 
- Архитектура MoE, 560B параметров, из них 27B активируются. 
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,). 
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом. 
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками. 

⚙️ Оптимизации для продакшена: 
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения, 
- KV-cache reduction, квантование, chunked prefill, 
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation. 
- Поддержка SGLang и vLLM для эффективного деплоя. 

📊 Бенчмарки: 
- Лидирует в tool use (τ²-Bench, VitaBench
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh). 

Китайцы стабильно удерживают лидерство в reasoning-моделях.

🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока Anthropic хайповал на своем 30 часовом агенте у партнёра у него утащили реальный научный приоритет в агентах для долгосрочной работы.

Это все серьёзно, поэтому статью публикует по факту главный научный журнал в мире Nature, где редакторы обычно отвергают статьи вендоров ИИ как плохо проверенные,  о мусоре с arxiv и говорить нечего.

В чем тут прорыв? Кажется поймали вариант группы агентов по планированию сложных задач, что как минимум смягчает самый сложный момент для ИИ как стратегическое планирование автономной деятельности. Предлагаемый Modular Agentic Planner (MAP) как минимум проходит разные тесты на планирование стратегии (ToH, PlanBench, StrategyQA)


Идея заключается в том, чтобы уйти от примитивных ToDo списков задач к декомпозиции их вглубь как Work Breakdown Structure (WBS). Сам WBS создаётся итеративно. Actor предлагает действия, Monitor контролирует возможность их и отсутствие ошибок, Predictor моделирует состояние целевой системы после такого действия (последствия), Evaluator оценивает как в PCAM насколько есть соответствие целям последствий действия. Orchestrator уже принимает их и вносит поправки в план. Это все отдельные агенты.

Повторить схему довольно просто и судя по тестам это не хайп, а довольно эффективно

https://www.nature.com/articles/s41467-025-63804-5

#agent #llm #ai
🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face

Исследование  показывает, какие организации и типы моделей определяют экосистему открытых моделей


🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face,  но именно они собирают более 80% из 45 миллиардов скачиваний

Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров - 
именно эти модели формируют лицо всего open-source ИИ.

📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров 
- 86.3% — < 500M 
- 70% — < 200M 
- 40% — < 100M 

Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.

🧠 Популярные направления:
- NLP — 58.1% 
- Computer Vision — 21.2% 
- Audio — 15.1% 
- Multimodal — 3.3% 
- Time Series — 1.7%

Кто создаёт самые скачиваемые модели:
-  Компании - 63.2%  (Google лидер)
-  Университеты - 20.7% 
-  Индивидуальные авторы - 12.1% 
-  НКО - 3.8% 
-  Прочие лаборатории - 0.3%

Какие типы моделей побеждают:
Текстовые энкодеры - 45% всех загрузок 
Декодеры - всего 9.5% 
Энкодер-декодеры - 3%

📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки  для интеграции в собственные продукты.

🇺🇸 Лидеры по странам: 
США доминируют по всем категориям: 
- встречаются 18 раз среди топ-50 скачиваний 
- на США приходится 56.4% всех загрузок

Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям,  мкоторые реально работают в продуктах и проектах.

🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats

#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами. 

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени. 

📘 Краткие эускурс: 
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention. 
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU. 
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом: 

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки). 

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU. 

⚙️ Что это даёт на практике: 
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды. 

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи. 

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака. 

Mamba-3 - это не просто ускоренная альтернатива Transformers. 

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств. 

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3  #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3