🚀 Ring-mini-2.0 — мощная, но лёгкая модель на 16B-A1B!
💡 Обучена с использованием новой стратегии stable RLVR + RLHF, что дало сбалансированное и надёжное качество на разных задачах.
🧠 По логическому рассуждению обгоняет денс-модели такого же размера.
⚡ Скорость — более 300 токенов/сек (в 7 раз быстрее, чем dense-модели).
🔥 Ещё одно доказательство, что маленькие "thinking models" становятся всё умнее и быстрее!
https://huggingface.co/inclusionAI/Ring-mini-2.0
💡 Обучена с использованием новой стратегии stable RLVR + RLHF, что дало сбалансированное и надёжное качество на разных задачах.
🧠 По логическому рассуждению обгоняет денс-модели такого же размера.
⚡ Скорость — более 300 токенов/сек (в 7 раз быстрее, чем dense-модели).
🔥 Ещё одно доказательство, что маленькие "thinking models" становятся всё умнее и быстрее!
https://huggingface.co/inclusionAI/Ring-mini-2.0
❤7👍6
Создавая будущее: магистратура по прикладному ИИ
Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами.
Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний.
За 2 года вы научитесь:
Использовать Python и его библиотеки.
Генерировать гипотезы и подбирать алгоритмы для разных моделей.
Строить конвейеры обработки данных.
Автоматизировать ML-пайплайн.
А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT.
Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу.
Подать документы можно до 18 сентября.
Узнайте подробности по ссылке: https://netolo.gy/emSN
Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5yViJx1
Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами.
Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний.
За 2 года вы научитесь:
Использовать Python и его библиотеки.
Генерировать гипотезы и подбирать алгоритмы для разных моделей.
Строить конвейеры обработки данных.
Автоматизировать ML-пайплайн.
А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT.
Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу.
Подать документы можно до 18 сентября.
Узнайте подробности по ссылке: https://netolo.gy/emSN
Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5yViJx1
❤5
🔥 Нашёл классный ресурс по истории ИИ
Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд.
Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте.
Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ.
aislowdown.replit.app
Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд.
Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте.
Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ.
aislowdown.replit.app
👍13🔥5❤4💊2🌭1🍌1
🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество.
В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).
Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.
🟢 Почему это интересно:
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.
🟢 Итог
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.
⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot
#Unsloth #LLM #Quantization #AI #AiderPolyglot
В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).
Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.
⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot
#Unsloth #LLM #Quantization #AI #AiderPolyglot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍4✍1
Media is too big
VIEW IN TELEGRAM
Не все баги чинятся Ctrl+Z! 😅
Но если рядом — правильная команда, а на экране — продуманный до мелочей код, который решит любые таски, то всё реально.
Сбер поможет и с классными коллегами, и с интересными задачами — здесь все открытые вакансии.
А здесь поздравление от Сбера: team.congratulate("С Днём программиста! 💚”)
Но если рядом — правильная команда, а на экране — продуманный до мелочей код, который решит любые таски, то всё реально.
Сбер поможет и с классными коллегами, и с интересными задачами — здесь все открытые вакансии.
А здесь поздравление от Сбера: team.congratulate("С Днём программиста! 💚”)
❤4🔥3❤🔥2
🐍 Изучаем MCP на Python — серия уроков от Microsoft
Пошаговое руководство для Python-разработчиков по Model Context Protocol (MCP):
как понять концепцию и построить свой MCP-сервер в интерактивном формате.
📚 Репозиторий с гайдом
#python #MCP #tutorial #developers
Пошаговое руководство для Python-разработчиков по Model Context Protocol (MCP):
как понять концепцию и построить свой MCP-сервер в интерактивном формате.
📚 Репозиторий с гайдом
#python #MCP #tutorial #developers
👍12❤8🔥7
Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.
Новый метод XQuant предлагает интересное решение:
* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).
При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.
При генерации токенов Keys и Values просто пересчитываются из X.
Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва
XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache
XQuant превращает задачу: из «таскаем огромный KV-кэш» в
Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.
📌 Подробнее: https://arxiv.org/abs/2508.10395
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤11🥰3👏1
Ответы пишите в комменариях👇
🤔 Проблема
Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания.
Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки.
✅ Подходы на практике:
1️⃣ LoRA / параметро-эффективное дообучение:
- Обновляются не все веса, а только адаптеры.
- Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения.
2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание)
- К кастомному датасету подмешивают данные из предобучения.
- Обычно берут в 2–3 раза больше примеров из базового корпуса.
- Так сохраняется «фон» общих знаний модели.
3️⃣ Dataset mixing (смешивание датасетов)
- Не дают модели «зарыться» в узкий домен.
- Сочетание специализированных и базовых данных удерживает баланс.
4️⃣ Variation across epochs (вариативность между эпохами)
- На каждой эпохе берут новые сэмплы из предобученного корпуса.
- Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству.
📌 Как ответить на собеседовании
«Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых».
@machinelearning_interview
#AI #LLM #MachineLearning #Forgetting #FineTuning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥6❤3😘3
🇫🇷 Интервью Артура Менша (CEO и сооснователя Mistral AI)
Ключевые моменты:
- Крупное финансирование: Mistral привлекла €1.7 млрд, из них €1.3 млрд вложила ASML. Оценка компании превысила €10 млрд.
- Стратегический альянс: партнёрство с ASML направлено на повышение точности литографических машин. ИИ будет использоваться в производстве полупроводников, включая управление плазмой и другие критичные процессы.
- Модель бизнеса:
- базовые модели остаются open source,
- доход строится на корпоративных продуктах, консалтинге и облачной инфраструктуре.
- Использование капитала: новые средства пойдут на масштабирование вычислений во Франции и международное развитие.
- Принципы и ценности: Mistral подчёркивает независимость, развитие европейского ИИ в сотрудничестве с индустриальными чемпионами, прозрачность в управлении пользовательской памятью. В интервью звучит критика «пассивного UX» и концентрации доступа к информации в руках нескольких американских платформ.
⚡ Mistral позиционирует себя как флагман европейского ИИ с глобальными амбициями.
youtube.com/watch?v=bvX5m4wRiZM
Ключевые моменты:
- Крупное финансирование: Mistral привлекла €1.7 млрд, из них €1.3 млрд вложила ASML. Оценка компании превысила €10 млрд.
- Стратегический альянс: партнёрство с ASML направлено на повышение точности литографических машин. ИИ будет использоваться в производстве полупроводников, включая управление плазмой и другие критичные процессы.
- Модель бизнеса:
- базовые модели остаются open source,
- доход строится на корпоративных продуктах, консалтинге и облачной инфраструктуре.
- Использование капитала: новые средства пойдут на масштабирование вычислений во Франции и международное развитие.
- Принципы и ценности: Mistral подчёркивает независимость, развитие европейского ИИ в сотрудничестве с индустриальными чемпионами, прозрачность в управлении пользовательской памятью. В интервью звучит критика «пассивного UX» и концентрации доступа к информации в руках нескольких американских платформ.
⚡ Mistral позиционирует себя как флагман европейского ИИ с глобальными амбициями.
youtube.com/watch?v=bvX5m4wRiZM
❤8👍7🔥2🥰2
Интегрируй ML-модель в продакшн без боли и ошибок!
Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром.
На практикуме вы:
👨💻перенесёте модель из Jupyter notebook в полноценный Python-класс
👨💻создадите API и подготовите эндпоинты
👨💻напишете валидатор для входящих параметров
👨💻протестируете работу модели как отдельного сервиса.
Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов
Записывайся на практикум: https://tglink.io/f23f042d888d
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJKYFGC
Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром.
На практикуме вы:
👨💻перенесёте модель из Jupyter notebook в полноценный Python-класс
👨💻создадите API и подготовите эндпоинты
👨💻напишете валидатор для входящих параметров
👨💻протестируете работу модели как отдельного сервиса.
Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов
Записывайся на практикум: https://tglink.io/f23f042d888d
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJKYFGC
🤔4❤3
🚀 ИИ ускоряет кодинг, но стопорится на людях
ИИ уже заметно меняет работу команд разработчиков: они закрывают на 21% больше задач и мёржат на 98% больше pull request’ов.
Но есть проблема: время на ревью выросло на 91%. Получается, что главный тормоз теперь — человеческое одобрение кода.
Пока процессы проверки, тестирования и релизов остаются старыми, весь выигрыш от ИИ сводится на нет.
Это и есть закон Амдала в действии: система движется только со скоростью своего самого медленного звена.
Чтобы ИИ реально раскрыл потенциал в разработке, нужно модернизировать весь цикл разработки, а не только генерацию кода.
🔗 Подробнее: https://faros.ai/blog/ai-software-engineering
ИИ уже заметно меняет работу команд разработчиков: они закрывают на 21% больше задач и мёржат на 98% больше pull request’ов.
Но есть проблема: время на ревью выросло на 91%. Получается, что главный тормоз теперь — человеческое одобрение кода.
Пока процессы проверки, тестирования и релизов остаются старыми, весь выигрыш от ИИ сводится на нет.
Это и есть закон Амдала в действии: система движется только со скоростью своего самого медленного звена.
Чтобы ИИ реально раскрыл потенциал в разработке, нужно модернизировать весь цикл разработки, а не только генерацию кода.
🔗 Подробнее: https://faros.ai/blog/ai-software-engineering
😁23🤣7❤6👍4🔥3🤔3
SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.
Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.
Подробнее:
@machinelearning_interview
#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7👍4🥱1
Результаты:
- Humanity’s Last Exam (HLE): 32.9% в академических задачах на рассуждение
- BrowseComp: 43.4% в сложных задачах веб-исследований
- Китайский вариант: 46.7%
- xbench-DeepSearch: 75% в пользовательских поисковых задачах
Это снижает затраты, повышает доступность и открывает новые сферы применения - от науки и права до навигации.
🔗 Homepage: https://tongyi-agent.github.io
🔗 Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
🔗 Model HuggingFace: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
🔗 Model ModelScope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
🔗 GitHub Repo: https://github.com/Alibaba-NLP/DeepResearch
#AI #DeepResearch #Tongyi #agents #syntheticdata
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍3🔥2
🧰 Исследователи Microsoft изучили, как агенты работают с Model Context Protocol (MCP), и выявили проблему: когда инструментов слишком много, агенты начинают мешать друг другу.
💡 Это назвали tool-space interference.
Как проявляется:
- перегруженные меню инструментов
- чрезмерно большие выходные данные
- запутанные параметры
- дублирующиеся названия
- расплывчатые ошибки
📉 В исследовании:
- Некоторые серверы предлагали до 256 инструментов, хотя оптимально — меньше 20. При больших меню точность падала на 85%.
- Один инструмент выдавал в среднем 557,766 токенов за ответ, 16 инструментов возвращали более 128,000 токенов. Это ломало модели и снижало точность на 91%.
- Сильно вложенные параметры (до 20 уровней) мешали работе. При «разглаживании» схем успех вырастал на 47%.
- Обнаружено 775 дублирующихся названий инструментов, слово «search» встречалось в 32 серверах.
✅ Решения от Microsoft:
- группировать инструменты в меньшие наборы
- кэшировать схемы
- использовать namespaces для уникальных названий
- ограничивать размер ответов и упрощать параметры
- стандартизировать ошибки и поддерживать передачу ресурсов
📊 В отчётах видно, что умное использование неймспейсов ускоряло выполнение задач на 40%.
Вывод: меньше инструментов, чище параметры и структурированные ответы = агенты начинают сотрудничать, а не путаться друг у друга под ногами.
https://www.microsoft.com/en-us/research/blog/tool-space-interference-in-the-mcp-era-designing-for-agent-compatibility-at-scale/
💡 Это назвали tool-space interference.
Как проявляется:
- перегруженные меню инструментов
- чрезмерно большие выходные данные
- запутанные параметры
- дублирующиеся названия
- расплывчатые ошибки
📉 В исследовании:
- Некоторые серверы предлагали до 256 инструментов, хотя оптимально — меньше 20. При больших меню точность падала на 85%.
- Один инструмент выдавал в среднем 557,766 токенов за ответ, 16 инструментов возвращали более 128,000 токенов. Это ломало модели и снижало точность на 91%.
- Сильно вложенные параметры (до 20 уровней) мешали работе. При «разглаживании» схем успех вырастал на 47%.
- Обнаружено 775 дублирующихся названий инструментов, слово «search» встречалось в 32 серверах.
✅ Решения от Microsoft:
- группировать инструменты в меньшие наборы
- кэшировать схемы
- использовать namespaces для уникальных названий
- ограничивать размер ответов и упрощать параметры
- стандартизировать ошибки и поддерживать передачу ресурсов
📊 В отчётах видно, что умное использование неймспейсов ускоряло выполнение задач на 40%.
Вывод: меньше инструментов, чище параметры и структурированные ответы = агенты начинают сотрудничать, а не путаться друг у друга под ногами.
https://www.microsoft.com/en-us/research/blog/tool-space-interference-in-the-mcp-era-designing-for-agent-compatibility-at-scale/
❤7🔥4👍3