the last neural cell
1.14K subscribers
91 photos
8 videos
14 files
116 links
we write about BCI, AI and brain research.

authors:
@kovalev_alvi - visual neural interfaces - UMH, Spain | CEO of ALVI Labs
@Altime - comp neuro phd @ GTC Tübingen

Our chat: @neural_cell_chat
Download Telegram
Liquid AI introduced LFM2

Ребята подняли 250М в конце прошлого года, в том числе с целью создания новых архитектур. До этого у них были работы по Liquid Time-constant Networks and continuous rnn. В общем я ожидал чего-то реально крутого и необычного.

А что по итогу получили?

По факту они взяли типичный llm attention слой. rmsnorm, swiglu activation, rope, qk norm. Почти все это было еще в llama v2.

Собрали таких 6 слоев: attn + mlp.

К этим слоям добавили 10 сверточных: conv + mlp.

Сверточные слои это double-gated causal conv layer (их LIV операторы). То есть это просто 1d свертки с gated операциями. На скрине реализация.

На этом всё. В любом случае все молодцы, но я ожидал большего.

С другой стороны. Работает же, работает же. Поэтому и ладно. Всем урок - не усложняйте ради усложнения. gated conv + transformer beat just transformer.

Но статьи нет, есть только benchmark с другими моделями. Учитывая как они учили свои модели через distillation, sft and dpo может быть все таки получилось побить конкурентов за счет тренировки и данных а не архитектуры.

Но глобально это работает так что можно юзать.

blogpost: https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models
5🤔1