ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.
Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов.
А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно.
Так я начал свой хобби‑проект «AI человеческим языком». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда.
После громко стрельнувших DeepSeek V3/R1, и прочих, многие стали обращать внимание на то, что в описании моделей используется «архитектура Mixture of Experts». Также, её можно увидеть у Microsoft, Mistral, Facebook: Phi3.5-MoE, Mixtral, NLLB-200, и прочие.
Поэтому первое, о чем мне хочется рассказать — это архитектура «Mixture of Experts». Читать далее
#mixture_of_experts #moe #искусственный_интеллект #llm #deepseek #r1 | @habr_ai
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.
Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов.
А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно.
Так я начал свой хобби‑проект «AI человеческим языком». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда.
После громко стрельнувших DeepSeek V3/R1, и прочих, многие стали обращать внимание на то, что в описании моделей используется «архитектура Mixture of Experts». Также, её можно увидеть у Microsoft, Mistral, Facebook: Phi3.5-MoE, Mixtral, NLLB-200, и прочие.
Поэтому первое, о чем мне хочется рассказать — это архитектура «Mixture of Experts». Читать далее
#mixture_of_experts #moe #искусственный_интеллект #llm #deepseek #r1 | @habr_ai
Хабр
ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я...
Mixture of Experts: когда нейросеть учится делегировать
Привет, чемпионы!
Представьте, что у вас есть большой и сложный проект, и вы наняли двух управленцев: Кабан-Кабаныча и Руководителева. Вы даете им одинаковую задачу: набрать штат сотрудников и выполнить ваш проект. Вся прибыль вместе с начальным бюджетом останется у них.
Кабан-Кабаныч решил, что нет смысла платить отдельным специалистам по DevOps, backend, ML и другим направлениям, и нанял всего одного сотрудника за 80 монеток. Этот бедняга работал в стиле «один за всех» и, естественно, быстро выгорел и «умер». Кабан-Кабаныч, не долго думая, нанял еще одного такого же сотрудника. В итоге вы вернулись и увидели печальную картину: задачу никто не решил, остался лишь Кабан-Кабаныч и кладбище несчастных сотрудников. Читать далее
#moe #mixture_of_experts #llm #vmoes #deeplearning | @habr_ai
Привет, чемпионы!
Представьте, что у вас есть большой и сложный проект, и вы наняли двух управленцев: Кабан-Кабаныча и Руководителева. Вы даете им одинаковую задачу: набрать штат сотрудников и выполнить ваш проект. Вся прибыль вместе с начальным бюджетом останется у них.
Кабан-Кабаныч решил, что нет смысла платить отдельным специалистам по DevOps, backend, ML и другим направлениям, и нанял всего одного сотрудника за 80 монеток. Этот бедняга работал в стиле «один за всех» и, естественно, быстро выгорел и «умер». Кабан-Кабаныч, не долго думая, нанял еще одного такого же сотрудника. В итоге вы вернулись и увидели печальную картину: задачу никто не решил, остался лишь Кабан-Кабаныч и кладбище несчастных сотрудников. Читать далее
#moe #mixture_of_experts #llm #vmoes #deeplearning | @habr_ai
Хабр
Mixture of Experts: когда нейросеть учится делегировать
Привет, чемпионы! Представьте, что у вас есть большой и сложный проект, и вы наняли двух управленцев: Кабан-Кабаныча и Руководителева. Вы даете им одинаковую задачу: набрать штат сотрудников и...
MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)
В мире LLM доминирует квадратичная сложность, ограничивающая контекст. Но MiniMax-M1 бросает вызов: миллион токенов, низкие затраты. Разбираем гибридную архитектуру с Lightning Attention, новый алгоритм CISPO и инженерные прорывы, делающие эту модель уникальной. Читать далее
#minimax_m1 #llm_архитектура #lightning_attention #mixture_of_experts #масштабирование_llm | @habr_ai
В мире LLM доминирует квадратичная сложность, ограничивающая контекст. Но MiniMax-M1 бросает вызов: миллион токенов, низкие затраты. Разбираем гибридную архитектуру с Lightning Attention, новый алгоритм CISPO и инженерные прорывы, делающие эту модель уникальной. Читать далее
#minimax_m1 #llm_архитектура #lightning_attention #mixture_of_experts #масштабирование_llm | @habr_ai
Хабр
MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)
В последние годы мы наблюдаем настоящую гонку вооружений в мире LLM. Главный девиз — «Больше, выше, сильнее!». Больше параметров, больше данных, больше вычислительных мощностей. Но эта гонка упирается...