все ваши диффзуии будут хуже хорошей llm и вот почему
1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...
Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2
Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!
Статьи нормальной нет, но блогпост интересный
1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...
Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2
Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!
Статьи нормальной нет, но блогпост интересный
🔥27💋4🎅4🤔3🐳2👍1
понимание контента
Anonymous Poll
40%
я понимаю мемы и обзоры тут
9%
я не понимаю мемы, но понимаю обзоры тут
16%
я понимаю мемы, не понимаю обзоры
34%
очень интересно, ничего не понимаю
Forwarded from Старший Авгур
Выложил v2 версию Сайги Немо. Основных изменений 3:
- Я убрал 80+ примеров из SFT, в которых использовались системные промпты персонажей из ПингПонга. Они появились там до ПингПонга из логов бота, собственно сам лидерборд я собирал на их основе. Это может считаться утечкой, поэтому они убраны из обучения.
- В SimPO датасете я агрессивнее порезал длину и увеличил вес SFT лосса, чтобы укоротить ответы и уменьшить количество выдуманных слов.
- Дотюнил на Достоевском и смёржил ровно так, как я делал для Вихря.
На ПингПонге стало лучше, на арене пока нет результатов.
Если кому-то захочется остаться на v1, везде можно указать ревизию, они есть в карточке модели.
GGUF'ы будут завтра.
- Я убрал 80+ примеров из SFT, в которых использовались системные промпты персонажей из ПингПонга. Они появились там до ПингПонга из логов бота, собственно сам лидерборд я собирал на их основе. Это может считаться утечкой, поэтому они убраны из обучения.
- В SimPO датасете я агрессивнее порезал длину и увеличил вес SFT лосса, чтобы укоротить ответы и уменьшить количество выдуманных слов.
- Дотюнил на Достоевском и смёржил ровно так, как я делал для Вихря.
На ПингПонге стало лучше, на арене пока нет результатов.
Если кому-то захочется остаться на v1, везде можно указать ревизию, они есть в карточке модели.
GGUF'ы будут завтра.
🤡28👍17💊3🤮2 2
Forwarded from ебãные идеи для трейдинга
использовать отклонение уровня тестостерона фаундера от нормы как мультипликатор при оценке
>for testosterone, we observe that founders at the pre-seed and acquired stages had median levels below the healthy range. Seed and Series A founders were within the healthy range but below optimal levels. Only at the Series B stage did the median testosterone level enter the optimal range, although statistical significance could not be established due to the small sample size <..>
https://arxiv.org/pdf/2411.03361
>for testosterone, we observe that founders at the pre-seed and acquired stages had median levels below the healthy range. Seed and Series A founders were within the healthy range but below optimal levels. Only at the Series B stage did the median testosterone level enter the optimal range, although statistical significance could not be established due to the small sample size <..>
https://arxiv.org/pdf/2411.03361
Forwarded from Разработки Теры
Я опубликовал простой аудио AE. По сути, это адаптированный SoundStream, из которого я убрал дискретные токены, оставив только латентные представления.
🔥19👍11
Довольно ценная штука, полезно посмотреть как учить audio ae. Хотелось бы большой блогпост, надеюсь Терра напишет.
👍21
Love. Death. Transformers.
ищу челиксов которые торгуют 3090/4090 с 48gb памяти, отпишитесь в @transformerslovedeatch речь про перепаянные карты с 48гб памяти
https://www.avito.ru/moskva/tovary_dlya_kompyutera/nvidia_geforce_rtx_4090_48gb_turbo_2024_4494188888
во, нормально
донейшены в trc20 usdt чтобы затестить: TU6Rzbsu1NDLYUVfpCyFcXXyUS9iFJw2hK
во, нормально
донейшены в trc20 usdt чтобы затестить: TU6Rzbsu1NDLYUVfpCyFcXXyUS9iFJw2hK
Авито
Nvidia GeForce RTX 4090 48GB Turbo (2024) купить в Москве по низкой цене | Электроника | Авито
Nvidia GeForce RTX 4090 48GB Turbo (2024): объявление о продаже в Москве на Авито. Цена уже указана с учетом всех расходов до Москвы. Сроки доставки примерно 7-10 дней. Версия на 48GB видеопамяти, полностью рабочая с гарантией! Пишите или звоните, отвечу…
🔥5
Forwarded from NLP семинар, ЛЕЯ (ВШЭ СПб)
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
🔥58👍17🤡11👏1
Media is too big
VIEW IN TELEGRAM
Я в восторге от рекламы новых unitree, робособака с колесами выглядит как будущее
👍73😁10🔥7🌚5❤🔥4
почему на сайте дойки.ком нет возмжности быстро узнать doi нужной статьи
😁119😢11🍓8🥴4🔥2
ну раз речь про диффузии пошла...
https://huggingface.co/learn/diffusion-course/unit0/1
- почему latent>pixel diffusion
- не велосипедный код, diffusers, torch и трансформерс - короче то что от вас будут реально ждать)))
- интуиция для аудио/видео + все нужные статьи и интуиция
- имплементация ddpm - уже не очень актуальная, но все еще необходимая
- что такое guidence, class сonditioned, improved diffusion models
- Что такое SD и с чем его едят, без этой инфорамации вас не возьмут никуда
https://huggingface.co/learn/diffusion-course/unit0/1
- почему latent>pixel diffusion
- не велосипедный код, diffusers, torch и трансформерс - короче то что от вас будут реально ждать)))
- интуиция для аудио/видео + все нужные статьи и интуиция
- имплементация ddpm - уже не очень актуальная, но все еще необходимая
- что такое guidence, class сonditioned, improved diffusion models
- Что такое SD и с чем его едят, без этой инфорамации вас не возьмут никуда
huggingface.co
Hugging Face Diffusion Models Course - Hugging Face Diffusion Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🍓39🔥10🗿5❤🔥1
Ищу денег на обучение Berta на 18т токенов, писать в лс @transformerslovedeatch
33 51💊14🤡13💩5😍3👍2🌚2