Sinекура
3.35K subscribers
954 photos
15 videos
270 links
Канал Сергея Николенко обо всём, но в основном об AI.

Сайт с выступлениями, лекциями и публикациями: https://sergeynikolenko.ru/
Download Telegram
Увы, Mach Labs, о котором я рассказывал какое-то время назад, так и не взлетел. Synthesis AI закончился, а Mach Labs не начался — грустно, но что поделать, sic transit. Так что и блога Mach Labs не будет. Лебединой песней остались у меня последние два поста (точнее, две части одной большой главы), которые я хотел выложить уже в новом блоге, а теперь, видимо, выложу просто у себя. Пусть будет с меткой Synthesis AI по старой памяти. Сегодня первая часть:

A Mixed Blessing I: Mixtures of Experts from Committee Machines to LLMs

Это глава о том, что такое mixtures of experts (MoE), в которые в последние год-два превратились все гигантские фронтирные модели. Когда вы слышите, что у модели триллион параметров, это значит, что их всего триллион, но реально на каждом входе активируется только небольшая их часть... ну как "небольшая", всё равно десятки или сотни миллиардов, но не триллион.

В первой части рассказываю об истории вопроса начиная от committee machines 1980-х и того, как MoE появились в 1991 году в работе Jacobs, Jordan (тот самый Майкл Джордан), Nowlan and Hinton (тут вряд ли у вас есть сомнения, что тот самый).

Потом о MoE надолго забыли, и тема всплыла уже только в эпоху трансформеров, в 2020-м с появлением GShard и Switch Transformer. Потом были GLaM и проект Pathways от Google, DeepSpeed-MoE от Microsoft, Megatron-LM от NVIDIA и далее везде. Сейчас все большие модели — MoE так или иначе, причём иногда даже MoE с экспертами разного вида; например, начинают подмешивать к трансформерам Mamba-подобные модели.

Дальше обсуждаю основную механику происходящего: sparse vs. dense MoE, MoLE (Mixture of LoRA Experts) и подобные модели, MoPE (Mixtures of Parameter-Efficient Experts) в целом и разные режимы их обучения.

В первой части всё только про языковые модели, а во второй поговорю о картинках и мультимодальных MoE-моделях. Надеюсь, будет интересно!
😢1713
И вот ещё один запоздалый пост об МКН (факультете математики и компьютерных наук) СПбГУ, где я много лет преподаю (ставлю ссылку и вспоминаю, что надо бы все курсы переложить на новый сайт... вот здесь в меню Teaching их куда больше), а теперь и, кажется, руковожу одной из программ.

На МКН есть традиция: выпускной после вручения дипломов каждый год проходит в виде фуршета на кораблике. Выпускной был ещё в конце июня, и вот не прошло и полутора месяцев, как выложили фотографии с кораблика этого года. Впрочем, их всё равно было немного (относительно того, сколько там было человек), так что здесь в основном свои, телефонные. Всех выпускников категорически поздравляю, был очень рад всех видеть, и действительно надеюсь со следующего года участвовать в жизни МКН больше.

В этом году выпускники сделали крутые пончики с мемами про разные курсы и преподавателей. Я до сих пор не понимаю, почему из всего моего курса мемом стала довольно скучная картинка про линейную классификацию, но пути виральности неисповедимы.)

В общем, МКН крутой, будьте как МКН и приходите к нам!
🔥4319🤩7
У меня сегодня день рождения, так что буду беспардонно ностальгировать и самолюбоваться.

Когда я начал переносить блог Synthesis AI на свой сайт (дважды уже писал об этом и ещё напишу), я вспомнил, что ещё до этого был на свете блог компании Neuromation, с которой всё началось и которая в своё время родила из своей головы Synthesis. Оказалось, что блог до сих пор жив, я спросил у фаундера разрешения (Константин, привет!) и решил перенести его к себе тоже, сугубо из ностальгических соображений.

А вспомнить есть что! В 2017-2018 мы начинали Neuromation сначала как AI-консалтинг, потом появилась крипто-сторона этой деятельности (времена были такие), но я остался на стороне консалтинга, то есть небольших AI-проектов для сторонних заказчиков. Появилась команда, появился офис в Питере (очень хорошее было место, кстати говоря, удачно я его нашёл), мы начали что-то пилить. Кроме индустриальных проектов, ребята выигрывали соревнования, потом мы об этих победах писали статьи, сотрудничали с Insilico и писали об этом статьи, ездили на конференции, я писал ещё в тот самый блог... Рауф, Лёша, Сергей, ещё один Лёша, Октай, ещё один Лёша, Гоша, ещё один Лёша, Саша, [Алексеи, кажется, закончились] Арсений, ещё один Саша, Стас — помните?)

Вот подборка постов из тех далёких времён с фотографиями; в большинстве из них нет особого содержания, ностальгия чистой воды:

Neuromation Chief Scientist at Samsung headquarters — один из буквально первых постов в блоге Neuromation был о том, как я ездил в Сеул к Самсунгу, с которым тогда плотно сотрудничал.

Neuromation Team in Singapore — весной 2018-го много ездили по индустриальным конференциям, вот и в Сингапуре были.

Neuromation Team at the Future of AI — и вот ещё конференция в Тель-Авиве в марте 2018-го.

DeepGlobe Challenge: Three Papers from Neuromation Accepted! — это был наш звёздный час тогда, три статьи с коллегами получились по итогам соревнования DeepGlobe об анализе спутниковых снимков при CVPR 2018! Это единственный тут содержательный пост, с описанием наших решений.

Deep Learning Topics in Computer Vision at Harbour Space — в блоге Neuromation даже был пост о том, как мы с Лёшей Давыдовым преподавали в Harbour Space в 2019 году; мы это делаем каждый год, и в этом году я уже об этом рассказывал, но вот как давно это началось (точнее, конечно, ещё раньше, это уже не первый и не второй приезд).

Neuromation at the LDV Vision Summit — ещё одна индустриальная конференция, это уже май 2019-го и уже про синтетику.

Neuromation team at ICML 2018 — здесь меня не было, но от Neuromation была внушительная делегация на ICML.

Neuromation Team at the Basel Life — а это медицинская конференция, я там делал обзорный доклад и общался с Алексом Жаворонковым; вообще, сотрудничество с Insilico было очень крутое, когда буду содержательные посты выкладывать, расскажу обязательно.

В те несколько лет наездился на всю жизнь, да и вообще времена были очень романтические; сейчас уже трудно даже вспомнить что-то плохое, розовая пелена плотно всё застилает. Старею!)
🎉9217👏8