🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM
AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.
Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.
Как это возможно?
Вместо загрузки всей модели в память сразу, AirLLM:
- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою
Фактически, это потоковая обработка модели.
Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.
Что это даёт разработчикам:
- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU
Это сдвигает барьер входа для локального LLM-разработки и экспериментов.
AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.
https://github.com/0xSojalSec/airllm
AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.
Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.
Как это возможно?
Вместо загрузки всей модели в память сразу, AirLLM:
- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою
Фактически, это потоковая обработка модели.
Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.
Что это даёт разработчикам:
- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU
Это сдвигает барьер входа для локального LLM-разработки и экспериментов.
AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.
https://github.com/0xSojalSec/airllm
❤10👍9😱4🔥2🙈1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Токенизация в LLM - как “Hello” превращается в цифры.
Токенизация - это первый шаг перед тем, как LLM вообще начнет “думать”.
Модель не понимает текст напрямую.
Она понимает только числа.
Поэтому любой текст сначала разбивается на маленькие кусочки - токены:
- иногда это целые слова
- иногда части слов (su, per, man)
- иногда один символ
- иногда даже пробел - тоже токен
Пример:
Фраза "I love programming" разбивается не обязательно на слова, а на кусочки слов:
Обрати внимание:
- " love" начинается с пробела - потому что пробел тоже часть токена
- programming разделилось на 2 токена: " program" + "ming"
То есть Токенизация - это когда LLM режет текст на маленькие кусочки (токены) и переводит их в числа.
Важно:
Чем больше токенов - тем дороже запрос и тем быстрее съедается контекст.
Плохая токенизация = странные ошибки (особенно в коде, ссылках, редких словах).
Поэтому LLM отлично понимают частые слова, но могут путаться на редких именах, терминах и смешанных языках.
И лайфхак: если хочешь “дешевле” и “чище” ответы - пиши короче, без мусора, без повторов.
Контекст - это валюта.
https://www.youtube.com/shorts/A7DCcYLq38M
Токенизация - это первый шаг перед тем, как LLM вообще начнет “думать”.
Модель не понимает текст напрямую.
Она понимает только числа.
Поэтому любой текст сначала разбивается на маленькие кусочки - токены:
- иногда это целые слова
- иногда части слов (su, per, man)
- иногда один символ
- иногда даже пробел - тоже токен
Пример:
Фраза "I love programming" разбивается не обязательно на слова, а на кусочки слов:
[I] ,[ love] ,[ program] , [ming]Обрати внимание:
- " love" начинается с пробела - потому что пробел тоже часть токена
- programming разделилось на 2 токена: " program" + "ming"
То есть Токенизация - это когда LLM режет текст на маленькие кусочки (токены) и переводит их в числа.
Важно:
Чем больше токенов - тем дороже запрос и тем быстрее съедается контекст.
Плохая токенизация = странные ошибки (особенно в коде, ссылках, редких словах).
Поэтому LLM отлично понимают частые слова, но могут путаться на редких именах, терминах и смешанных языках.
И лайфхак: если хочешь “дешевле” и “чище” ответы - пиши короче, без мусора, без повторов.
Контекст - это валюта.
# Tokenization demo (Python)
# pip install tiktoken
import tiktoken
text = "I love programming in Python 🐍"
enc = tiktoken.get_encoding("cl100k_base")
tokens = enc.encode(text)
print("Text:", text)
print("Token IDs:", tokens)
print("Tokens count:", len(tokens))
# decode back
print("\nDecoded tokens:")
for t in tokens:
print(t, "->", repr(enc.decode([t])))
https://www.youtube.com/shorts/A7DCcYLq38M
❤5👍2
Протестируйте OpenClaw в облаке Cloud․ru ❤️
Быстро. Бесплатно. Безопасно.
OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
➡️ самостоятельно запускать команды
➡️ работать с файлами
➡️ отправлять отчеты в мессенджеры
Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.
👉 Запустить OpenClaw
Быстро. Бесплатно. Безопасно.
OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔5👍2
🤯 1.7B доменов - крупнейший паблик датасет “public domains” (бесплатно)
Кто-то решил: “а что если реально собрать ВЕСЬ интернет?”
И сделал это.
🔥 1.7 BILLION доменов
- уникальные
- отсортированные
- мульти-TLD
- чистый список без мусора
И самое дикое: весит всего 4.6 GB в сжатом виде.
Почему это реально полезно:
этот список - идеальная база для задач, где нужны “масштаб” и “полная картина”.
Use cases:
✅ OSINT и массовая разведка
✅ threat intel / аналитика угроз
✅ исследование фишинга и детекторы фишинговых доменов
✅ reputation scoring и классификация доменов
✅ passive recon / subdomain enum / brute-force
✅ подготовка данных для AI/LLM (файнтюн, классификаторы, фильтрация)
Хочешь построить:
- лучший детектор фишинга?
- классификатор доменов на ML?
- движок репутации доменов?
Теперь есть топливный бак на 1.7B записей 😈
Репозиторий: github.com/tb0hdan/domains
Кто-то решил: “а что если реально собрать ВЕСЬ интернет?”
И сделал это.
🔥 1.7 BILLION доменов
- уникальные
- отсортированные
- мульти-TLD
- чистый список без мусора
И самое дикое: весит всего 4.6 GB в сжатом виде.
Почему это реально полезно:
этот список - идеальная база для задач, где нужны “масштаб” и “полная картина”.
Use cases:
✅ OSINT и массовая разведка
✅ threat intel / аналитика угроз
✅ исследование фишинга и детекторы фишинговых доменов
✅ reputation scoring и классификация доменов
✅ passive recon / subdomain enum / brute-force
✅ подготовка данных для AI/LLM (файнтюн, классификаторы, фильтрация)
Хочешь построить:
- лучший детектор фишинга?
- классификатор доменов на ML?
- движок репутации доменов?
Теперь есть топливный бак на 1.7B записей 😈
Репозиторий: github.com/tb0hdan/domains
👌5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Новая модель для анализа УЗИ сердца — EchoJEPA.
- Обучена на 18 млн видео эхокардиографии
- Снижает ошибку оценки фракции выброса левого желудочка примерно на 20% по сравнению с лучшими существующими моделями
- Работает zero-shot даже на детских исследованиях, на которых не обучалась
- Устойчива к шуму и лучше выделяет именно структуры сердца
Интересен сам подход.
EchoJEPA построена на архитектуре JEPA (идея Yann LeCun):
- модель учится понимать структуру и движение, а не просто пиксели
- предсказывает представления (embeddings), а не изображение целиком
- за счёт этого лучше обобщает на новые данные
Что это даёт на практике:
- более стабильные измерения при анализе УЗИ
- меньше зависимости от качества изображения
- потенциально — автоматическую предварительную оценку для врача
Это хороший пример того, как foundation-подходы начинают работать в реальных медицинских задачах, а не только в общих CV-бенчмарках.
Paper: https://arxiv.org/abs/2602.02603
Code: https://github.com/bowang-lab/EchoJEPA
- Обучена на 18 млн видео эхокардиографии
- Снижает ошибку оценки фракции выброса левого желудочка примерно на 20% по сравнению с лучшими существующими моделями
- Работает zero-shot даже на детских исследованиях, на которых не обучалась
- Устойчива к шуму и лучше выделяет именно структуры сердца
Интересен сам подход.
EchoJEPA построена на архитектуре JEPA (идея Yann LeCun):
- модель учится понимать структуру и движение, а не просто пиксели
- предсказывает представления (embeddings), а не изображение целиком
- за счёт этого лучше обобщает на новые данные
Что это даёт на практике:
- более стабильные измерения при анализе УЗИ
- меньше зависимости от качества изображения
- потенциально — автоматическую предварительную оценку для врача
Это хороший пример того, как foundation-подходы начинают работать в реальных медицинских задачах, а не только в общих CV-бенчмарках.
Paper: https://arxiv.org/abs/2602.02603
Code: https://github.com/bowang-lab/EchoJEPA
❤11👍3
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇
🖥 ИИ: t.me/ai_machinelearning_big_data
🖥 Python: t.me/pythonl
🖥 Linux: t.me/linuxacademiya
🖥 C++ t.me/cpluspluc
🖥 Docker: t.me/DevopsDocker
🖥 Хакинг: t.me/linuxkalii
🖥 Devops: t.me/DevOPSitsec
👣 Golang: t.me/Golang_google
🖥 Аналитика: t.me/data_analysis_ml
🖥 Javascript: t.me/javascriptv
🖥 C#: t.me/csharp_ci
🖥 Java: t.me/javatg
🖥 Базы данных: t.me/sqlhub
👣 Rust: t.me/rust_code
🤖 Технологии: t.me/vistehno
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy
🖥 Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy
Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy
⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy
Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1
🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ
Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление
UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление
UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
⚡3👍1🔥1
Forwarded from Machinelearning
В Zyphra придумали как усидеть на двух стульях сразу, когда хочется резиновый контекст, но под рукой нет тонны памяти.
То. что они предложили, называется Online Vector-Quantized Attention - это модификация векторного квантования, которая учит словарь думать на лету.
В классическом VQ ключи заменяются ближайшими центроидами из статичного словаря. Это бустит вычисления, но создает проблему: словарь обучен на одних данных, а во время генерации модель видит совсем другое распределение ключей. Ошибка квантования растет, внимание теряет точность и как итог: VQ начинает плавать.
Так вот, модификация в том, чтобы отказаться от статического словаря в пользу адаптивного к текущей последовательности: каждый новый токен обновляет только один центроид - тот, к которому ближе всего.
Это разреженное обновление работает как защита от катастрофического забывания: старая информация не вымывается новой волной токенов, а аккуратно перезаписывается по мере необходимости.
Плюс есть хард-лимит на размер состояния, после достижения которого объем памяти перестает расти, а вычисления становятся строго линейными.
Очень хочется надеяться, что OVQ - это предтеча настоящего непрерывного обучения, где в светлом будущем вместо бесконечно пухнущего KV-кэша появится компактная, но живая память, способная удерживать важные детали без потерь.
@ai_machinelearning_big_data
#AI #ML #LLM #OVQA #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
Forwarded from Машинное обучение digest
Реальность оказалась простой и немного неудобной:
Если модель можно скачать, изменить и запустить —
безопасность перестаёт быть гарантией.
Любой может:
- форкнуть репозиторий
- убрать guardrails
- изменить системные промпты
- развернуть модель в открытом доступе
Open source выигрывает в скорости и доступности.
Но open source также выигрывает и в масштабируемости злоупотреблений.
Проблема здесь не в самих моделях, а в природе открытого кода:
— ограничения можно отключить
— фильтры можно переписать
— контроль централизованно невозможен
И главный вопрос для индустрии сейчас:
Стоит ли выпускать мощные open-source модели с более жёсткими ограничениями по умолчанию?
Потому что в мире open source безопасность - это не функция.
Это лишь настройка.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8😱2👍1
🎨 Excalidraw MCP App: Интерактивные диаграммы в чате
Сервер для потоковой передачи нарисованных от руки диаграмм Excalidraw с возможностью управления камерой и редактирования в полноэкранном режиме. Идеально подходит для создания визуализаций и архитектурных схем прямо в ваших беседах.
🚀 Основные моменты:
- Поддержка интерактивных диаграмм в чате
- Легкая интеграция с Claude.ai
- Возможность локального развертывания
- Удобный интерфейс для рисования
- Постоянные обновления и улучшения
📌 GitHub: https://github.com/antonpk1/excalidraw-mcp-app
#javascript
Сервер для потоковой передачи нарисованных от руки диаграмм Excalidraw с возможностью управления камерой и редактирования в полноэкранном режиме. Идеально подходит для создания визуализаций и архитектурных схем прямо в ваших беседах.
🚀 Основные моменты:
- Поддержка интерактивных диаграмм в чате
- Легкая интеграция с Claude.ai
- Возможность локального развертывания
- Удобный интерфейс для рисования
- Постоянные обновления и улучшения
📌 GitHub: https://github.com/antonpk1/excalidraw-mcp-app
#javascript
👍4❤2
Корпоративный ИИ чат-бот с нуля - практическое руководство от Navicon👇
На примере кейсов продемонстрируем как спроектировать, реализовать и запустить ИИ-чат-бота внутри компании. Пойдем от бизнес-задач и архитектуры до пошагового руководства и разбора типовых проблем внедрения.
Также затронем тему альтернативных вариантов ИИ-помощников для бизнеса на примере ИИ-помощника по продажам. А еще анонсируем крупное очное мероприятие для ИИ-комьюнити.
⏰Дата и время: 19 февраля 11:00
Зарегистрироваться и узнать подробности.
На примере кейсов продемонстрируем как спроектировать, реализовать и запустить ИИ-чат-бота внутри компании. Пойдем от бизнес-задач и архитектуры до пошагового руководства и разбора типовых проблем внедрения.
Также затронем тему альтернативных вариантов ИИ-помощников для бизнеса на примере ИИ-помощника по продажам. А еще анонсируем крупное очное мероприятие для ИИ-комьюнити.
⏰Дата и время: 19 февраля 11:00
Зарегистрироваться и узнать подробности.
❤1👍1🔥1
🚀 Step-Audio-R1.1 от StepFun AI только что поставил новый SOTA на лидерборде Artificial Analysis по Speech Reasoning! 🏆
И это не просто «чуть лучше» - модель обошла Grok, Gemini и GPT-Realtime, показав 96.4% точности.
Почему это реально мощно:
✅ Native Audio Reasoning (End-to-End) - рассуждает прямо в аудио, без костылей
✅ Audio-native CoT (Chain of Thought) - цепочка рассуждений «родная» для аудио
✅ Real-time streaming inference - работает в режиме стриминга, почти как живой диалог
✅ FULLY OPEN SOURCE - полностью открыта 🔥
Короче: это один из тех релизов, после которых становится понятно - аудио-ИИ выходит на новый уровень.
🌟 Demo: https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1
🤖 Model: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
И это не просто «чуть лучше» - модель обошла Grok, Gemini и GPT-Realtime, показав 96.4% точности.
Почему это реально мощно:
✅ Native Audio Reasoning (End-to-End) - рассуждает прямо в аудио, без костылей
✅ Audio-native CoT (Chain of Thought) - цепочка рассуждений «родная» для аудио
✅ Real-time streaming inference - работает в режиме стриминга, почти как живой диалог
✅ FULLY OPEN SOURCE - полностью открыта 🔥
Короче: это один из тех релизов, после которых становится понятно - аудио-ИИ выходит на новый уровень.
🌟 Demo: https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1
🤖 Model: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
👍5❤2🔥2
Ты научишься делать те, которые живут в проде.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.
🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1
⚡️ Маленькая модель - большие возможности.
Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 раз больше.
Что внутри:
- Контекст до 256K токенов
- Встроенные агентные возможности Deep Search
- Обучение коду в два этапа:
- сначала правильность
- затем эффективность
- На ключевых бенчмарках обгоняет Qwen3-32B
- Можно запускать локально без мощных серверов
- Сильно ниже стоимость инференса
- Быстрая работа на edge и локальных машинах
- Подходит для локальных AI-агентов и автоматизации
Дешёвый Локальный AI.
Модель:
https://modelscope.cn/models/nanbeige/Nanbeige4.1-3B
Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 раз больше.
Что внутри:
- Контекст до 256K токенов
- Встроенные агентные возможности Deep Search
- Обучение коду в два этапа:
- сначала правильность
- затем эффективность
- На ключевых бенчмарках обгоняет Qwen3-32B
- Можно запускать локально без мощных серверов
- Сильно ниже стоимость инференса
- Быстрая работа на edge и локальных машинах
- Подходит для локальных AI-агентов и автоматизации
Дешёвый Локальный AI.
Модель:
https://modelscope.cn/models/nanbeige/Nanbeige4.1-3B
👍5❤3
🔌 OpenAI продолжает собирать лучшие умы индустрии.
На этот раз компания пригласила к себе Питера Штайнбергера - создателя нашумевшего проекта OpenClaw.
Сам Альтман назвал его «гением». В OpenAI он будет работать над следующим поколением персональных AI-агентов и именно агенты, по словам компании, станут основой будущих продуктов.
OpenClaw не закрывают.
Проект останется open-source, и OpenAI обещает продолжать его поддержку.
Но самое впечатляющее - скорость.
Путь OpenClaw:
- идея и разработка одним человеком
- быстрый рост и хайп в сообществе
- приглашение в OpenAI
Всё это - за 82 дня.
В эпоху AI окно возможностей стало экстремально коротким.
Один сильный проект может изменить карьеру за пару месяцев.
Мотивация простая: сейчас лучшее время, чтобы запускать своё.
https://x.com/sama/status/2023150230905159801?s=46
На этот раз компания пригласила к себе Питера Штайнбергера - создателя нашумевшего проекта OpenClaw.
Сам Альтман назвал его «гением». В OpenAI он будет работать над следующим поколением персональных AI-агентов и именно агенты, по словам компании, станут основой будущих продуктов.
OpenClaw не закрывают.
Проект останется open-source, и OpenAI обещает продолжать его поддержку.
Но самое впечатляющее - скорость.
Путь OpenClaw:
- идея и разработка одним человеком
- быстрый рост и хайп в сообществе
- приглашение в OpenAI
Всё это - за 82 дня.
В эпоху AI окно возможностей стало экстремально коротким.
Один сильный проект может изменить карьеру за пару месяцев.
Мотивация простая: сейчас лучшее время, чтобы запускать своё.
https://x.com/sama/status/2023150230905159801?s=46
❤4👍3🔥2
⚡️ Датасет UltraData-Math сейчас в топе трендов на HuggingFace. Его идея - сделать упор не на объём, а на качество данных для обучения математическому мышлению.
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
❤2👍2🔥2
⚡️ GLM-5 - новый лидер среди open-source LLM
Вышёл технический отчёт по модели, которая показывает SOTA и особенно сильна в реальных задачах разработки.
DSA (Dynamic Sparse Attention)
- снижает стоимость обучения и инференса
- сохраняет качество на длинном контексте
Async RL Infrastructure
- генерация отделена от обучения
- посттренинг проходит значительно быстрее и эффективнее
Agent RL
- обучение на длинных цепочках действий
- высокая производительность в реальных задачах software engineering
Что это значит
Фокус смещается с «больше параметров» на:
- эффективность
- длинные сценарии
- агентное поведение
- практические задачи, а не бенчмарки
Open-source модели всё быстрее догоняют закрытые уже не по возможностям, а по эффективности и применимости.
http://arxiv.org/abs/2602.15763
Вышёл технический отчёт по модели, которая показывает SOTA и особенно сильна в реальных задачах разработки.
DSA (Dynamic Sparse Attention)
- снижает стоимость обучения и инференса
- сохраняет качество на длинном контексте
Async RL Infrastructure
- генерация отделена от обучения
- посттренинг проходит значительно быстрее и эффективнее
Agent RL
- обучение на длинных цепочках действий
- высокая производительность в реальных задачах software engineering
Что это значит
Фокус смещается с «больше параметров» на:
- эффективность
- длинные сценарии
- агентное поведение
- практические задачи, а не бенчмарки
Open-source модели всё быстрее догоняют закрытые уже не по возможностям, а по эффективности и применимости.
http://arxiv.org/abs/2602.15763
❤6👍4🔥1