#tools #github #optimization #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - CyberAlbSecOP/Awesome_GPT_Super_Prompting: ChatGPT Jailbreaks, GPT Assistants Prompt Leaks, GPTs Prompt Injection, LLM…
ChatGPT Jailbreaks, GPT Assistants Prompt Leaks, GPTs Prompt Injection, LLM Prompt Security, Super Prompts, Prompt Hack, Prompt Security, Ai Prompt Engineering, Adversarial Machine Learning. - Cybe...
❤2
https://github.com/leptonai/leptonai - быстрый запуск AI приложений, быстрое развертывание, быстрая адаптация, напоминает HugginnFace
#tools #github #optimization #ml #llm
#tools #github #optimization #ml #llm
GitHub
GitHub - leptonai/leptonai: A Pythonic framework to simplify AI service building
A Pythonic framework to simplify AI service building - leptonai/leptonai
👍2
https://github.com/kyegomez/BitNet - масштабирование 1-битных трансформеров на LLM.
#tools #github #optimization #ml #llm
#tools #github #optimization #ml #llm
GitHub
GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch - kyegomez/BitNet
https://github.com/pyro-ppl/numpyro - библиотека для вероятностного программирования.
#tools #github #optimization #ml #llm
#tools #github #optimization #ml #llm
GitHub
GitHub - pyro-ppl/numpyro: Probabilistic programming with NumPy powered by JAX for autograd and JIT compilation to GPU/TPU/CPU.
Probabilistic programming with NumPy powered by JAX for autograd and JIT compilation to GPU/TPU/CPU. - pyro-ppl/numpyro
TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.
В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.
pip install trustllm
▪GitHub
▪Arxiv
▪Docs
▪Project
#llm
TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.
В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.
pip install trustllm
▪GitHub
▪Arxiv
▪Docs
▪Project
#llm
Please open Telegram to view this post
VIEW IN TELEGRAM
howiehwong.github.io
TrustLLM
Trustworthiness in Large Language Models
❤2🔥1🥰1
🚀 Китайский ИИ нового уровня: Alibaba представляет революционную архитектуру Qwen3-Next
Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.
🚀 Рекордная эффективность
• Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
• Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.
🧠 Ключевые инновации:
• Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
• Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
• Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
• Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.
⚙️ Технические детали
Архитектура представляет собой смесь
📊 Выпущены три версии модели
• Base: Для дальнейшего дообучения и исследований.
• Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
• Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.
✅ Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.
Сайт | HuggingFace
#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.
🚀 Рекордная эффективность
• Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
• Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.
🧠 Ключевые инновации:
• Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
• Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
• Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
• Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.
⚙️ Технические детали
Архитектура представляет собой смесь
Gated DeltaNet (75% слоев) для эффективного моделирования длинных последовательностей и стандартного Gated Attention (25% слоев) для высокой точности. Это позволило превзойти по качеству Mamba2 и sliding window attention. Для стабилизации тренировки внедрены Zero-Centered RMSNorm и нормализация весов маршрутизатора в MoE.📊 Выпущены три версии модели
• Base: Для дальнейшего дообучения и исследований.
• Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
• Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.
✅ Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.
Сайт | HuggingFace
#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
chat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
🚀 Новая китайская модель LongCat-Flash-Thinking
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
meituan-longcat/LongCat-Flash-Thinking · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Пока Anthropic хайповал на своем 30 часовом агенте у партнёра у него утащили реальный научный приоритет в агентах для долгосрочной работы.
Это все серьёзно, поэтому статью публикует по факту главный научный журнал в мире Nature, где редакторы обычно отвергают статьи вендоров ИИ как плохо проверенные, о мусоре с arxiv и говорить нечего.
В чем тут прорыв? Кажется поймали вариант группы агентов по планированию сложных задач, что как минимум смягчает самый сложный момент для ИИ как стратегическое планирование автономной деятельности. Предлагаемый Modular Agentic Planner (MAP) как минимум проходит разные тесты на планирование стратегии (ToH, PlanBench, StrategyQA)
Идея заключается в том, чтобы уйти от примитивных ToDo списков задач к декомпозиции их вглубь как Work Breakdown Structure (WBS). Сам WBS создаётся итеративно. Actor предлагает действия, Monitor контролирует возможность их и отсутствие ошибок, Predictor моделирует состояние целевой системы после такого действия (последствия), Evaluator оценивает как в PCAM насколько есть соответствие целям последствий действия. Orchestrator уже принимает их и вносит поправки в план. Это все отдельные агенты.
Повторить схему довольно просто и судя по тестам это не хайп, а довольно эффективно
https://www.nature.com/articles/s41467-025-63804-5
#agent #llm #ai
Это все серьёзно, поэтому статью публикует по факту главный научный журнал в мире Nature, где редакторы обычно отвергают статьи вендоров ИИ как плохо проверенные, о мусоре с arxiv и говорить нечего.
В чем тут прорыв? Кажется поймали вариант группы агентов по планированию сложных задач, что как минимум смягчает самый сложный момент для ИИ как стратегическое планирование автономной деятельности. Предлагаемый Modular Agentic Planner (MAP) как минимум проходит разные тесты на планирование стратегии (ToH, PlanBench, StrategyQA)
Идея заключается в том, чтобы уйти от примитивных ToDo списков задач к декомпозиции их вглубь как Work Breakdown Structure (WBS). Сам WBS создаётся итеративно. Actor предлагает действия, Monitor контролирует возможность их и отсутствие ошибок, Predictor моделирует состояние целевой системы после такого действия (последствия), Evaluator оценивает как в PCAM насколько есть соответствие целям последствий действия. Orchestrator уже принимает их и вносит поправки в план. Это все отдельные агенты.
Повторить схему довольно просто и судя по тестам это не хайп, а довольно эффективно
https://www.nature.com/articles/s41467-025-63804-5
#agent #llm #ai
Nature
A brain-inspired agentic architecture to improve planning with LLMs
Nature Communications - Multi-step planning is a challenge for LLMs. Here, the authors introduce a brain-inspired Modular Agentic Planner that decomposes planning into specialized LLM modules,...
🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats
#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Model statistics of the 50 most downloaded entities on Hugging Face
A Blog post by Loïck BOURDOIS on Hugging Face
Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.
Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.
📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.
Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.
🧠 Что изменилось под капотом:
- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).
- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.
⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.
- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.
- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.
Mamba-3 - это не просто ускоренная альтернатива Transformers.
Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.
@ai_machinelearning_big_data
#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3