Хабр / ML & AI

ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)

Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.

Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов.

А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно.

Так я начал свой хобби‑проект «AI человеческим языком». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда.

После громко стрельнувших DeepSeek V3/R1, и прочих, многие стали обращать внимание на то, что в описании моделей используется «архитектура Mixture of Experts». Также, её можно увидеть у Microsoft, Mistral, Facebook: Phi3.5-MoE, Mixtral, NLLB-200, и прочие.

Поэтому первое, о чем мне хочется рассказать — это архитектура «Mixture of Experts». Читать далее

#mixture_of_experts #moe #искусственный_интеллект #llm #deepseek #r1 | @habr_ai

Хабр

ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)

Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я...

41 views18:49

Хабр / ML & AI

Mixture of Experts: когда нейросеть учится делегировать

Привет, чемпионы!

Представьте, что у вас есть большой и сложный проект, и вы наняли двух управленцев: Кабан-Кабаныча и Руководителева. Вы даете им одинаковую задачу: набрать штат сотрудников и выполнить ваш проект. Вся прибыль вместе с начальным бюджетом останется у них.

Кабан-Кабаныч решил, что нет смысла платить отдельным специалистам по DevOps, backend, ML и другим направлениям, и нанял всего одного сотрудника за 80 монеток. Этот бедняга работал в стиле «один за всех» и, естественно, быстро выгорел и «умер». Кабан-Кабаныч, не долго думая, нанял еще одного такого же сотрудника. В итоге вы вернулись и увидели печальную картину: задачу никто не решил, остался лишь Кабан-Кабаныч и кладбище несчастных сотрудников. Читать далее

#moe #mixture_of_experts #llm #vmoes #deeplearning | @habr_ai

Хабр

Mixture of Experts: когда нейросеть учится делегировать

Привет, чемпионы! Представьте, что у вас есть большой и сложный проект, и вы наняли двух управленцев: Кабан-Кабаныча и Руководителева. Вы даете им одинаковую задачу: набрать штат сотрудников и...

46 views15:36

Хабр / ML & AI

MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)

В мире LLM доминирует квадратичная сложность, ограничивающая контекст. Но MiniMax-M1 бросает вызов: миллион токенов, низкие затраты. Разбираем гибридную архитектуру с Lightning Attention, новый алгоритм CISPO и инженерные прорывы, делающие эту модель уникальной. Читать далее

#minimax_m1 #llm_архитектура #lightning_attention #mixture_of_experts #масштабирование_llm | @habr_ai

Хабр

MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)

В последние годы мы наблюдаем настоящую гонку вооружений в мире LLM. Главный девиз — «Больше, выше, сильнее!». Больше параметров, больше данных, больше вычислительных мощностей. Но эта гонка упирается...

43 views07:47

About

Blog

Apps

Platform