ML Research Hub

✨PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

📝 Summary:
PyTorch FSDP is an industry-grade solution for efficient and scalable large model training. It enables significantly larger models with near-linear TFLOPS scalability, making advanced capabilities more accessible.

🔹 Publication Date: Published on Apr 21, 2023

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2304.11277
• PDF: https://arxiv.org/pdf/2304.11277
• Github: https://github.com/pytorch/pytorch/blob/main/torch/distributed/fsdp/fully_sharded_data_parallel.py

🔹 Models citing this paper:
• https://huggingface.co/databricks/dbrx-instruct
• https://huggingface.co/databricks/dbrx-base
• https://huggingface.co/Undi95/dbrx-base

✨ Spaces citing this paper:
• https://huggingface.co/spaces/nanotron/ultrascale-playbook
• https://huggingface.co/spaces/Ki-Seki/ultrascale-playbook-zh-cn
• https://huggingface.co/spaces/Gantrol/ultrascale-playbook-zh-cn

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#PyTorch #FSDP #DeepLearning #DistributedTraining #LargeModels

67 views05:57

✨PyTorch Distributed: Experiences on Accelerating Data Parallel Training

📝 Summary:
This paper details PyTorch's distributed data parallel module, which accelerates large-scale model training. It uses techniques like gradient bucketing and computation-communication overlap to achieve near-linear scalability with 256 GPUs.

🔹 Publication Date: Published on Jun 28, 2020

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2006.15704
• PDF: https://arxiv.org/pdf/2006.15704
• Github: https://github.com/pytorch/pytorch/blob/master/torch/nn/parallel/distributed.py

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#PyTorch #DistributedTraining #DeepLearning #Scalability #HPC

58 views05:58