AI Digest Today - 效率工具箱📦

🗳️ AI 课程学习

🌐 UC Berkeley - Machine Learning Systems (Spring 2022)

https://ucbrise.github.io/cs294-ai-sys-sp22/

📚最近人工智能的成功在很大程度上是由于硬件和软件系统的进步。这些系统已经能够在越来越大的数据集上训练越来越复杂的模型。在这个过程中，这些系统也简化了模型的开发，使机器学习界迅速增长。这些新的硬件和软件系统包括新一代的GPU和硬件加速器（如TPU），开源框架，如Theano、TensorFlow、PyTorch、MXNet、Apache Spark、Clipper、Horovod和Ray，以及公司内部部署的无数系统，仅举几例。同时，我们看到大量的ML/RL应用来改善硬件和系统设计、工作调度、程序合成和电路布局。在本课程中，我们将描述系统设计的最新趋势，以更好地支持下一代人工智能应用，以及人工智能在优化系统结构和性能方面的应用。本课程的形式将是讲座、研讨会式的讨论和学生演讲的混合。学生将负责论文阅读，并完成一个实践项目。

🔖 没有视频但是有slides课件和推荐阅读材料
🏷️ #Course

🐟 @protoolkit
All about AI and Productivity.

AI-Sys Sp22

Machine Learning Systems (Spring 2022)

AI-Sys Sp22 Course Website

450 viewsedited 03:57

AI Digest Today - 效率工具箱📦

🗳️ LLM101n: 从零开始实现大型语言模型
🌐 Karpathy 开发的LLM教程

LLM101n是Andrej Karpathy开发的一套从零开始实现大型语言模型（LLM）的教程和代码库。在本课程中，我们将构建一个 Storyteller AI 大语言模型 (LLM)。携手并进，您将能够使用 AI 创建、完善和阐释小故事。我们将使用 Python、C 和 CUDA 从头开始，以最少的计算机科学先决条件构建从基础知识到类似于 ChatGPT 的功能性 Web 应用程序的端到端的一切。最后，您应该对 AI、LLMs 和更广泛的深度学习有相对深入的了解。

Syllabus:
Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)

Further topics to work into the progression above:
Programming languages: Assembly, C, Python
Data types: Integer, Float, String (ASCII, Unicode, UTF-8)
Tensor: shapes, views, strides, contiguous, ...
Deep Learning frameowrks: PyTorch, JAX
Neural Net Architecture: GPT (1,2,3,4), Llama (RoPE, RMSNorm, GQA), MoE, ...
Multimodal: Images, Audio, Video, VQVAE, VQGAN, diffusion

🔥Karpathy昨天刚上传的github repo，内容尚未更新，可以先收藏下来！！！

Related Links:
- LLM101n GitHub仓库

🏷️ #course
🐟 @protoolkit
All about AI and Productivity.

👍1

442 views08:01

About

Blog

Apps

Platform