This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Компания Open Sora Plan выпустила версию 1.3 своей модели генерации видео.
https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.3.0.md
@data_analysis_ml
https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.3.0.md
@data_analysis_ml
👍12🔥4❤3😁2
Цель оптимизатора — уменьшить размер моделей и повысить скорость их выполнения на GPU
▪️Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤8🔥4
Вышел PyTorch 2.5 🔥
Выпуск #PyTorch 2.5, в котором представлена новая серверная часть
Все обновления можно найти здесь: https://pytorch.org/blog/pytorch2-5/
@data_analysis_ml
Выпуск #PyTorch 2.5, в котором представлена новая серверная часть
cuDNN для SDPA
, компиляция torch.compile и ускорения производительности серверной части TorchInductor CPP
Все обновления можно найти здесь: https://pytorch.org/blog/pytorch2-5/
@data_analysis_ml
1👍15🔥7❤6
🔥 Deep seek только что выпустили Janus, модель "Any-to Any" (мультимодальный ввод и вывод!)
🚀 Janus: революционная платформу авторегрессии для мультимодального ИИ!
Она превосходит предыдущие модели как в понимании, так и в генерации.
🤗 Hf: https://huggingface.co/deepseek-ai/Janus-1.3B
📄 Paper: https://arxiv.org/abs/2410.13848
💻 Project page: https://github.com/deepseek-ai/Janus
@data_analysis_ml
🚀 Janus: революционная платформу авторегрессии для мультимодального ИИ!
Она превосходит предыдущие модели как в понимании, так и в генерации.
🤗 Hf: https://huggingface.co/deepseek-ai/Janus-1.3B
📄 Paper: https://arxiv.org/abs/2410.13848
💻 Project page: https://github.com/deepseek-ai/Janus
@data_analysis_ml
👍9🔥7❤6
▪️Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍6🔥3
▪️Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤5🔥2
⚡️ Metalingus - это минимальная и быстрая библиотека для обучения LLM и логических выводов, предназначенная для научных исследований
📊 Ключевые особенности
- Мощная и быстрая библиотека для обучения LLM и логических выводов для научных исследований
- Использует модифицируемые компоненты PyTorch для экспериментов с архитектурами и моделями
- Предоставляет инструменты для понимания скорости и стабильности работы ваших приложений
- Структурирован с использованием базовой библиотеки "lingua" и "приложений"
🚀 Сравнение производительности Lingua с другими моделями
- Модели 1B, обученные на токенах 60B, соответствуют производительности DCLM (DataComp-LM) по многим задачам
- Модели 7B (Mamba, Llama) показывают высокие результаты в таких тестах, как ARC, MMLU, BBH
- Модель токенов Llama 7B в квадрате ReLU 1T позволяет получать высокие баллы за выполнение заданий
▪ Github
@data_analysis_ml
📊 Ключевые особенности
- Мощная и быстрая библиотека для обучения LLM и логических выводов для научных исследований
- Использует модифицируемые компоненты PyTorch для экспериментов с архитектурами и моделями
- Предоставляет инструменты для понимания скорости и стабильности работы ваших приложений
- Структурирован с использованием базовой библиотеки "lingua" и "приложений"
🚀 Сравнение производительности Lingua с другими моделями
- Модели 1B, обученные на токенах 60B, соответствуют производительности DCLM (DataComp-LM) по многим задачам
- Модели 7B (Mamba, Llama) показывают высокие результаты в таких тестах, как ARC, MMLU, BBH
- Модель токенов Llama 7B в квадрате ReLU 1T позволяет получать высокие баллы за выполнение заданий
▪ Github
@data_analysis_ml
🔥8👍5❤4
Легкий, модульный и не зависящий от модели конвейер задач
LLM ; AdalFlow помогает разработчикам быстро создавать из них любые приложения, от приложений GenAI, перевод, обобщение, генерация кода, RAG и автономные агенты, до классических задач NLP, таких как классификация текста и распознавание именованных объектов.
▪️GitHub
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤7🔥2
nGPT: Трансформер на основе гиперсферы, обеспечивающий в 4-20 раз более быстрое обучение и улучшенную стабильность для LLM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6❤5
Он показывает, как использовать возможности ИИ для обработки и анализа финансовой информации с помощью Claude, предлагая готовые к работе шаблоны и сценарии для анализа
▪️Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🙏5👍3🔥3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤6🔥2
Forwarded from Machinelearning
LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.
Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.
В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.
Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).
Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.
LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.
Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:
⚠️ Для локального запуска будет нужен Huggingface API KEY.
# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip
# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip
# Install requirements
$ pip install -r requirements.txt
#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6
--model
: имя модели на HuggingFace;--sample
: включение/выключение семплирования (по умолчанию: True);--max_steps
: максимальное количество генерируемых токенов;--generation_strategy
: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');--exit_layer
: номер слоя для раннего выхода;--num_speculations
: количество спекулятивных токенов;@ai_machinelearning_big_data
#AI #ML #LLM #MetaAI #LayerSkip
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Ответ убил
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣85😁10👍6🤨5❤3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤6🔥6
Этот инструмент особенно полезен для тестирования моделей и работы с данными.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🔥1