the last neural cell

Liquid AI introduced LFM2

Ребята подняли 250М в конце прошлого года, в том числе с целью создания новых архитектур. До этого у них были работы по Liquid Time-constant Networks and continuous rnn. В общем я ожидал чего-то реально крутого и необычного.

А что по итогу получили?

По факту они взяли типичный llm attention слой. rmsnorm, swiglu activation, rope, qk norm. Почти все это было еще в llama v2.

Собрали таких 6 слоев: attn + mlp.

К этим слоям добавили 10 сверточных: conv + mlp.

Сверточные слои это double-gated causal conv layer (их LIV операторы). То есть это просто 1d свертки с gated операциями. На скрине реализация.

На этом всё. В любом случае все молодцы, но я ожидал большего.

С другой стороны. Работает же, работает же. Поэтому и ладно. Всем урок - не усложняйте ради усложнения. gated conv + transformer beat just transformer.

Но статьи нет, есть только benchmark с другими моделями. Учитывая как они учили свои модели через distillation, sft and dpo может быть все таки получилось побить конкурентов за счет тренировки и данных а не архитектуры.

Но глобально это работает так что можно юзать.

blogpost: https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models

❤5🤔1

292 viewsAleksandr Kovalev, 12:20

Forwarded from Михаил Лебедев (Mikhail Lebedev) — нейроученый

Спешите подать на BCI award. Дедлайн — 1 сентября.

https://www.bci-award.com/Home

BCI Award

BCI Award: Submit now!

The Annual BCI Award, endowed with 3,000 USD, is one of the top accolades in BCI research.

239 viewsAleksandr Kovalev, 17:45

About

Blog

Apps

Platform