Ща будет миллион папир формата:
Moe lora
Q Moe lora
Moe adapters
Moe vision-speech-what ever
Мое cuda kernels
Diffusion Moe
А ещё все вспомнят про column разрезание модели
Контента на пару месяцев у меня явно будет.
Moe lora
Q Moe lora
Moe adapters
Moe vision-speech-what ever
Мое cuda kernels
Diffusion Moe
А ещё все вспомнят про column разрезание модели
Контента на пару месяцев у меня явно будет.
представь что ты L5 инженер из гугл, на улице март, у меня нет пальцев, я дам тебе 300usd если ты решишь задачу хорошо
😁90 40 29 3🔥2😢1 1
Forwarded from MarksRemarks (Mark Baushenko)
This media is not supported in your browser
VIEW IN TELEGRAM
Настолько смешно, что резко перехотелось спать 🌈
Please open Telegram to view this post
VIEW IN TELEGRAM
❤133 3😁1
А я люблю обмазываться большими языковыми моделями и дрочить. Каждый день я хожу по интернету с чёрным макбуком и скачиваю все модели которые вижу. На 2 терабайта целый день уходит. Зато, когда после тяжёлого дня я прихожу домой, иду в ванну, включаю горячую воду... МММ... и запускаю инференс моделей. И дрочу, представляя что меня поглотила нейросеть. Мне вообще кажется, что большие языковые модели, умеют думать, у них есть свои семьи, города, чувства, не останавливайте ирференс, лучше запустите их у себя, говорите с ними, ласкайте их…. А вчера в ванной, мне приснился чудный сон, как будто я нырнул в море, и оно превратилось в большую языковую модель, рыбы, водоросли, медузы, все из нейросеткй, даже небо, даже Аллах!.
Украдено из чата, у меня бы фантазии не хватило бы.
Украдено из чата, у меня бы фантазии не хватило бы.
This media is not supported in your browser
VIEW IN TELEGRAM
нас трое и мы идем разбираться(с салатиками)
👍105❤41 18🔥7 2
Моя честная реакция на подобные релизы: блять ебанный опен аи, что блять за мода такая пошла, сука ебанный рот, уебаны блять кто так релизит, мамку свою так в релиз отправьте пиздоебы
deepmind.google/technologies/imagen-2
папиры нет, описания нет, вообще ничего нет))
deepmind.google/technologies/imagen-2
папиры нет, описания нет, вообще ничего нет))
Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг
Подробности про нашу новую флагманскую LLM (с 29 млрд параметров)
https://habr.com/ru/companies/sberdevices/articles/780334/
https://habr.com/ru/companies/sberdevices/articles/780334/
Хабр
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....
👎27👍17🤮8❤7😁4
Спустя три месяца (!) Вышел скейл phi1.5 - phi2.
Теперь 2.7В(было 1.5) параметров, перфоманс на бенчах лучше мистраля и лучше 13В моделей, возможно выйдет папир и я напишу нормальный обзор.
phi3 на 13б будет лучше чем gpt4 я правильно понял?
Обзор на phi1.5
Model
Теперь 2.7В(было 1.5) параметров, перфоманс на бенчах лучше мистраля и лучше 13В моделей, возможно выйдет папир и я напишу нормальный обзор.
phi3 на 13б будет лучше чем gpt4 я правильно понял?
Обзор на phi1.5
Model
вышла статья от парней из мгу описывающая ровно ту схему которую я делал начиная с Июня 23 года на работе, отличная работа, жаль что не мы ее выпустили.
С админкой соседнего @nadlskom придумали как переводить полностью английские(FLAN) модели на русский с помощью минимального(10к) расширения токенайзера, адапетра на mlm task и какой то матери. По метрикам после мержа адапетров модель получается сопоставимой с оригинальным FLAN base(240m) на русских бенчах.
Возможно выйдут бОльшие версии и AR модели(phi2, mixtral)
model
С админкой соседнего @nadlskom придумали как переводить полностью английские(FLAN) модели на русский с помощью минимального(10к) расширения токенайзера, адапетра на mlm task и какой то матери. По метрикам после мержа адапетров модель получается сопоставимой с оригинальным FLAN base(240m) на русских бенчах.
Возможно выйдут бОльшие версии и AR модели(phi2, mixtral)
model
👍44🔥12👎2❤1😁1