Forwarded from Русский research
Критическое мышление для начинающих и для профессионалов
✍104 25🔥10😁6🍓6👍5💯3🥴1🐳1
АЛЛО МЫ ИЩЕМ ГОЛОСА3
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.
1🤡44 21👍7🤮5😡2👎1💩1
Forwarded from whargarbl
Ура. Наконец зарелизил:
recoilme-sdxl
файнтюн, над которым я работал последние три месяца.
За это время правда вышло 100500 новых архитектур моделей, но не бросать же..
telegram bot (20/day free): @charsaibot
hf: https://huggingface.co/recoilme/recoilme-sdxl-v11
civit: https://civitai.com/models/920626?modelVersionId=1030470
reddit: https://www.reddit.com/r/StableDiffusion/comments/1gk8cbw/recoilmesdxl/
recoilme-sdxl
файнтюн, над которым я работал последние три месяца.
За это время правда вышло 100500 новых архитектур моделей, но не бросать же..
telegram bot (20/day free): @charsaibot
hf: https://huggingface.co/recoilme/recoilme-sdxl-v11
civit: https://civitai.com/models/920626?modelVersionId=1030470
reddit: https://www.reddit.com/r/StableDiffusion/comments/1gk8cbw/recoilmesdxl/
🌭101 32👍8🔥3🍌3🤡1
OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training
Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что
- скорость интернета не однородна
- на больших расстояниях могут копится ошибки
- пропускная способность сети может быть недостаточной
собственно большой папир и репа про то как учить в ОЧЕНЬ распределенном сетапе
блогпост от авторов имплементации
Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что
- скорость интернета не однородна
- на больших расстояниях могут копится ошибки
- пропускная способность сети может быть недостаточной
собственно большой папир и репа про то как учить в ОЧЕНЬ распределенном сетапе
блогпост от авторов имплементации
👍32🔥14🐳5😁3
Love. Death. Transformers.
OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что - скорость интернета не однородна - на больших расстояниях могут копится…
бонус: эта штука поддерживает разные железки!
🔥34👍2
А у вас тоже твитер забит такой хуйней:
Какой accelerate, кто данные ковырять будет...
Какой accelerate, кто данные ковырять будет...
🍓36😁9🤡5💯3🗿1
Forwarded from GigaDev — разработка GigaChat
Релиз GigaChat MAX! (ссылка на Хабр)
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
giga.chat
ГигаЧат — русскоязычная нейросеть от Сбера
ГигаЧат — диалоговая AI-модель, которая отвечает на вопросы, сочиняет тексты, пишет код и рисует картинки. Говорит на русском и понимает английский
🤡38🔥15🤔8👍7🎉5🍓4🍌1🗿1
чет проебался, думал сегодня день рекламы яндекса, а оказалось что сбера...
блять а мне же не платят даже за это, мы же просто орков гоняем в балде...
ладно, челы шарят как учить llm с качеством отличным от рандома, а это сложно
блять а мне же не платят даже за это, мы же просто орков гоняем в балде...
ладно, челы шарят как учить llm с качеством отличным от рандома, а это сложно
😁87🥴11👍8🤔6🤡2👎1
все ваши диффзуии будут хуже хорошей llm и вот почему
1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...
Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2
Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!
Статьи нормальной нет, но блогпост интересный
1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...
Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2
Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!
Статьи нормальной нет, но блогпост интересный
🔥27💋4🎅4🤔3🐳2👍1
понимание контента
Anonymous Poll
40%
я понимаю мемы и обзоры тут
9%
я не понимаю мемы, но понимаю обзоры тут
16%
я понимаю мемы, не понимаю обзоры
34%
очень интересно, ничего не понимаю