SignLLM: Sign Languages Production Large Language Models
Необычная работа - перевод текста в язык жестов с видео;
Cкорее инженерный чем DL пайплайн, LLM предсказывает следующее действие, оно прогонянтся через доп модельку и отрисывается на Sd+openpose
signllm.github.io
paper
Необычная работа - перевод текста в язык жестов с видео;
Cкорее инженерный чем DL пайплайн, LLM предсказывает следующее действие, оно прогонянтся через доп модельку и отрисывается на Sd+openpose
signllm.github.io
paper
👍66❤12 10👏2
Запуск ллам на RPI.
Довольно любопытный пример tensor parallel без супер быстрой шины между железками ещё и на arm
GitHub
Довольно любопытный пример tensor parallel без супер быстрой шины между железками ещё и на arm
GitHub
👍31❤4
Нужно ли освещать GPU из Румынии святой водой? И если да, то католической или православный? А если шипит все ещё, чо делать?
🥴60😁18🤡5🤔2❤1
Love. Death. Transformers.
Короче, я решил угореть и сделать из 5.2 энкодер. 0 слой я не трогал, а вот следующие решил подвигать и перебрать. Зачем? Указанные действия не являются ресерчем, поскольку: а) Мы не ученые; б) Нам было весело. В обещем идея простая - отставил первые…
клоунада на mteb продолжается, на вопрос: а чо не llama70b ответ одного из авторов NV-Embed был следущий: уже тренится
👍10😁10🔥4🤡3
Три стадии t2i стартапа
Ну ща свой претрен ебанем
Ну Lora хорошо себя показывает
А чо там с midjorney API?
Ну ща свой претрен ебанем
Ну Lora хорошо себя показывает
А чо там с midjorney API?
😁100💅12 8👍3❤1🙉1
Forwarded from Denis Sexy IT 🤖
Если вы любите пытаться сломать защиту в разных LLM с помощью промпт инъекций – то у меня вам полезная ссылка, датасет из почти ~1500 промпт инъекций собранных с Reddit, Discord, Twitter и тп.
https://github.com/verazuo/jailbreak_llms
Внутри промпты и для старых инъекций, вроде DAN, до более новых с base64, leet code и тп.
Следующий шаг, это натренировать на этом модель, которая будет ломать другие модели автоматом☕️
https://github.com/verazuo/jailbreak_llms
Внутри промпты и для старых инъекций, вроде DAN, до более новых с base64, leet code и тп.
Следующий шаг, это натренировать на этом модель, которая будет ломать другие модели автоматом
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - verazuo/jailbreak_llms: [CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open…
[CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts). - verazuo/jailbreak_llms
👍20🥱10❤2😁2🔥1
По мотивам:
https://t.me/lovedeathtransformers/7722
https://t.me/lovedeathtransformers/7748
ебаный ресерч адмена - как всегда на острие науки
Короче в чем идея: ребята используют эволюционный аглоритм для того чтобы эффективнее подобрать параметры мержа моделей(а еще блоки переставляют)
ссылка:
https://sakana.ai/evolutionary-model-merge/
https://t.me/lovedeathtransformers/7722
https://t.me/lovedeathtransformers/7748
ебаный ресерч адмена - как всегда на острие науки
Короче в чем идея: ребята используют эволюционный аглоритм для того чтобы эффективнее подобрать параметры мержа моделей(а еще блоки переставляют)
ссылка:
https://sakana.ai/evolutionary-model-merge/
😁16🔥4🤡4👍1🥴1
Love. Death. Transformers.
Я честно говоря хз, вроде норм, но надо смотреть. Докатят в релиз, обсудим.
Media is too big
VIEW IN TELEGRAM
как это будет работать в проде - загадка. но лучше чем супер убогое chat gpt app точно.
Каким образом калечный dbrx выигрывает у 4t
machinelearning.apple.com/research/introducing-apple-foundation-models
machinelearning.apple.com/research/introducing-apple-foundation-models
❤1
Love. Death. Transformers.
Каким образом калечный dbrx выигрывает у 4t machinelearning.apple.com/research/introducing-apple-foundation-models
Отбой, 27% это сколько apple LLM выиграла у чат гпт
😁37🍓4
Forwarded from Душный NLP
Ускорить обучение LLM 70B на 25%? Легко! YaFSDP
Сегодня мы выĸладываем в опенсорс наш новый инструмент — библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей — как собственной разработки, так и сторонних, с открытым исходным кодом.
Библиотека даёт ускорение до 25% — результат зависит от архитектуры и параметров нейросети. С помощью YaFSDP также можно расходовать до 20% меньше ресурсов графических процессоров (GPU), которые требуются для обучения.
Несколько подходов нашего метода:
— выделить два буфера под все собираемые веса, чтобы не отдавать их на отĸуп аллоĸатору памяти torch. Каждый нечётный слой будет использовать первый буфер, ĸаждый чётный — второй. Это уменьшит нагрузку на память и сделает её использование более предсказуемым;
— не делать чеĸпоинт аĸтиваций для ĸаĸ можно большего числа слоёв. Это позволит убрать избыточные вычисления за счёт сэкономленной памяти;
— выделить два стрима: вычислений и ĸоммуниĸаций, а синхронизацию построить таким образом, чтобы forward не начинался до завершения all_gather того же слоя, а all_gather не начинался до освобождения соответствующего буффера на предыдущем слое;
— разово собирать RMSNorm/LayerNorm в начале итерации и тольĸо в ĸонце усреднить градиенты;
— вынести predivide в самый ĸонец backward, таĸ ĸаĸ при reduce_scatter в bf16 или fp32 рисĸа переполнения нет.
Более подробно про проблемы обучения на множестве GPU можно почитать на Хабре. Приходите в репозиторий библиотеки YaFSDP, ставьте лайк и приносите вопросы в Issues. А ещё — делитесь своими впечатлениями здесь в комментариях.
Сегодня мы выĸладываем в опенсорс наш новый инструмент — библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей — как собственной разработки, так и сторонних, с открытым исходным кодом.
Библиотека даёт ускорение до 25% — результат зависит от архитектуры и параметров нейросети. С помощью YaFSDP также можно расходовать до 20% меньше ресурсов графических процессоров (GPU), которые требуются для обучения.
Несколько подходов нашего метода:
— выделить два буфера под все собираемые веса, чтобы не отдавать их на отĸуп аллоĸатору памяти torch. Каждый нечётный слой будет использовать первый буфер, ĸаждый чётный — второй. Это уменьшит нагрузку на память и сделает её использование более предсказуемым;
— не делать чеĸпоинт аĸтиваций для ĸаĸ можно большего числа слоёв. Это позволит убрать избыточные вычисления за счёт сэкономленной памяти;
— выделить два стрима: вычислений и ĸоммуниĸаций, а синхронизацию построить таким образом, чтобы forward не начинался до завершения all_gather того же слоя, а all_gather не начинался до освобождения соответствующего буффера на предыдущем слое;
— разово собирать RMSNorm/LayerNorm в начале итерации и тольĸо в ĸонце усреднить градиенты;
— вынести predivide в самый ĸонец backward, таĸ ĸаĸ при reduce_scatter в bf16 или fp32 рисĸа переполнения нет.
Более подробно про проблемы обучения на множестве GPU можно почитать на Хабре. Приходите в репозиторий библиотеки YaFSDP, ставьте лайк и приносите вопросы в Issues. А ещё — делитесь своими впечатлениями здесь в комментариях.
🔥52👍3❤1
Душный NLP
Ускорить обучение LLM 70B на 25%? Легко! YaFSDP Сегодня мы выĸладываем в опенсорс наш новый инструмент — библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей — как собственной разработки, так и сторонних, с открытым исходным кодом.…
Я лично жду релиза нормальной опенсурс LLM на русском, кому и зачем нужен opensource форк fsdp который эм ну....
Лучше конечно, но средний опенсурс как на LLM foundary так и будет сидеть, резона впиливать форк с непонятной поддержкой относительно основной репы сомнительно.
А как pr для основного fsdp было б хорошо, жаль это мои фантазии
Лучше конечно, но средний опенсурс как на LLM foundary так и будет сидеть, резона впиливать форк с непонятной поддержкой относительно основной репы сомнительно.
А как pr для основного fsdp было б хорошо, жаль это мои фантазии
❤🔥17❤1🌭1
Восхитительно, на дворе нейросети, а у людей string match в поиске
говорят тут можно поправить
https://yandex.ru/jobs/vacancies/ml-разработчик-в-команду-объектного-поиска-13290
https://yandex.ru/jobs/vacancies/ios-разработчик-в-международный-проект-плюс-фантеха-20290
говорят тут можно поправить
https://yandex.ru/jobs/vacancies/ml-разработчик-в-команду-объектного-поиска-13290
https://yandex.ru/jobs/vacancies/ios-разработчик-в-международный-проект-плюс-фантеха-20290
😁137🤡9👍6💯3👎2❤1