Machine learning Interview
36.4K subscribers
1.16K photos
87 videos
14 files
792 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🤖 Вот сравнение GPT‑5 и Grok 4:

На бенчмарке *Humanity’s Last Exam* модель GPT‑5 с тулзами показывает результат между Grok 4 и Grok 4 Heavy.

Другими словами, GPT‑5 с тузами обходит обычную Grok 4, но всё ещё уступает Grok 4 Heavy.

Интересно, как они покажут себя на других бенчмарках
👍297🔥5
Невероятные достижения Chatgpt-5

@machinelearning_interview
😁10413👍4🔥4🤔1😭1
🚀 Qwen3-30B-A3B-2507 и Qwen3-235B-A22B-2507 теперь поддерживают контекст до 1 млн токенов!

🔧 Технологии под капотом:
Dual Chunk Attention (DCA) — метод экстраполяции длины, который делит длинные последовательности на управляемые блоки, сохраняя глобальную связность.
MInference — разреженное внимание, уменьшающее вычислительные затраты за счёт фокуса на ключевых токенах.

💡 Что это даёт:
- Более высокая точность генерации на длинных контекстах
- До 3× быстрее инференс на последовательностях, близких к 1M токенов
- Полная совместимость с vLLM и SGLang для эффективного развёртывания

📄 Подробности и включение функции — в карточках моделей:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

#Qwen #LLM #AI #LongContext
13👍6🔥2
🧠 SmallThinker — новая серия LLM, нативно обученная для локального запуска

SmallThinker — это семейство языковых моделей, созданное с нуля для запуска на обычных устройствах:
📉 низкая память, 🐌 медленное хранилище, без GPU — и всё это без потери качества.

🔧 Технологии под капотом:
• Двухуровневая разреженность: MoE + sparse ReGLU (>60% нейронов неактивны)
• Pre-attention router: предсказание нужных экспертов заранее → читаем с SSD параллельно
• NoPE-RoPE гибрид: 1:3 глобальное:локальное внимание → KV-кэш в 4 раза меньше
• Кэширование и оффлоадинг экспертов → экономим CPU и дисковый ввод
• Sparse LM head: предсказываем подмножество словаря, не нужен полный софтмакс
• Чекпойнт-мёрджинг: баланс между универсальностью и инструкционной точностью

⚙️ Производительность (CPU-only, Q4_0):
🪶 4B-A0.6B (1 ГБ ОЗУ): 82.3% HumanEval, 66.1% MMLU, 108 ток/с
🚀 21B-A3B (8 ГБ ОЗУ): 89.6% HumanEval, 84.4% MMLU — на уровне Qwen3‑30B, но с 85× меньшим потреблением памяти

🏃‍♂️ Работает на CPU, ARM, Raspberry Pi — 20–108 токенов/сек.
📦 Полностью open-source. Готово к локальному использованию без компромиссов.

#LLM #SmallThinker #AI #LocalLLM #OpenSource

HF: https://huggingface.co/PowerInfer
PAPER: https://arxiv.org/abs/2507.20984
🔥20👍11🥰82
🧠 R-Zero: самообучающийся LLM для развития навыков рассуждения без исходных данных

💡 Идея
Большинство современных моделей рассуждения (reasoning LLM) зависят от огромных объёмов размеченных человеком данных и задач. Это тормозит развитие ИИ за пределы человеческого уровня, потому что сбор таких датасетов дорог и ограничен.
R-Zero предлагает иной путь — полностью автономное обучение с нуля, без единой готовой задачи или метки.

🔧 Как это работает
1. Берётся одна базовая LLM.
2. Создаются две её копии с разными ролями:
- Challenger (Испытатель) — придумывает задачи на грани возможностей модели.
- Solver (Решатель) — пытается их решить.
3. Каждая роль обучается отдельно:
- Испытатель получает награду за сложность и новизну задач.
- Решатель получает награду за успешное решение.
4. Этот цикл формирует саморазвивающуюся учебную программу — задачи постепенно усложняются, и обе модели эволюционируют.

📈 Результаты
- Улучшение математического рассуждения: +6.49 балла на бенчмарках.
- Рост общего уровня рассуждения: +7.54 балла.
- Работает на разных архитектурах, например, Qwen3-4B-Base заметно усилился после обучения через R-Zero.

🚀 Почему это важно
- Полная независимость от размеченных датасетов.
- Автоматическая генерация и усложнение задач.
- Масштабируемый путь к моделям, которые учатся быстрее и шире, чем позволяют человеческие данные.
- Может ускорить прогресс в ИИ-системах, приближая их к супер-интеллекту.

🔮 Потенциал
- Обучение специализированных reasoning-моделей для науки, инженерии, медицины.
- Быстрая адаптация ИИ под новые, ранее не встречавшиеся задачи.
- Возможность самообучения в симуляциях без внешних инструкций.

🟢Github
🟢Paper
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍7🔥4