Liquid AI introduced LFM2
Ребята подняли 250М в конце прошлого года, в том числе с целью создания новых архитектур. До этого у них были работы по Liquid Time-constant Networks and continuous rnn. В общем я ожидал чего-то реально крутого и необычного.
А что по итогу получили?
По факту они взяли типичный llm attention слой. rmsnorm, swiglu activation, rope, qk norm. Почти все это было еще в llama v2.
Собрали таких 6 слоев: attn + mlp.
К этим слоям добавили 10 сверточных: conv + mlp.
Сверточные слои это double-gated causal conv layer (их LIV операторы). То есть это просто 1d свертки с gated операциями. На скрине реализация.
На этом всё. В любом случае все молодцы, но я ожидал большего.
С другой стороны. Работает же, работает же. Поэтому и ладно. Всем урок - не усложняйте ради усложнения. gated conv + transformer beat just transformer.
Но статьи нет, есть только benchmark с другими моделями. Учитывая как они учили свои модели через distillation, sft and dpo может быть все таки получилось побить конкурентов за счет тренировки и данных а не архитектуры.
Но глобально это работает так что можно юзать.
blogpost: https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models
Ребята подняли 250М в конце прошлого года, в том числе с целью создания новых архитектур. До этого у них были работы по Liquid Time-constant Networks and continuous rnn. В общем я ожидал чего-то реально крутого и необычного.
А что по итогу получили?
По факту они взяли типичный llm attention слой. rmsnorm, swiglu activation, rope, qk norm. Почти все это было еще в llama v2.
Собрали таких 6 слоев: attn + mlp.
К этим слоям добавили 10 сверточных: conv + mlp.
Сверточные слои это double-gated causal conv layer (их LIV операторы). То есть это просто 1d свертки с gated операциями. На скрине реализация.
На этом всё. В любом случае все молодцы, но я ожидал большего.
С другой стороны. Работает же, работает же. Поэтому и ладно. Всем урок - не усложняйте ради усложнения. gated conv + transformer beat just transformer.
Но статьи нет, есть только benchmark с другими моделями. Учитывая как они учили свои модели через distillation, sft and dpo может быть все таки получилось побить конкурентов за счет тренировки и данных а не архитектуры.
Но глобально это работает так что можно юзать.
blogpost: https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models
❤5🤔1