Стэнфорд выкатил свежий курс по LLM — CS336: Language Modeling from Scratch
Курс с фокусом на практику: вся теория по LLM раскрывается через создание собственной модели. Ты изучаешь всё end-to-end — от обработки данных и архитектуры трансформеров до RL и эвала
Ведёт курс Перси Лианг — профессор Стэнфорда и сооснователь TogetherAI.
Курс прямо сейчас идёт в Стэнфорде, и лекции заливаются по ходу — контент свежий, как только из печи
Первые лекции здесь, а домашка и ноутбуки — тут.
👉 @DataSciencegx
Курс с фокусом на практику: вся теория по LLM раскрывается через создание собственной модели. Ты изучаешь всё end-to-end — от обработки данных и архитектуры трансформеров до RL и эвала
Ведёт курс Перси Лианг — профессор Стэнфорда и сооснователь TogetherAI.
Курс прямо сейчас идёт в Стэнфорде, и лекции заливаются по ходу — контент свежий, как только из печи
Первые лекции здесь, а домашка и ноутбуки — тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Эта лекция о больших языковых моделях (LLM) обязательна к просмотру для инженеров в области ИИ.
Полуторачасовая лекция охватывает: токенизацию, законы масштабирования, дообучение, оценку, оптимизацию, вызовы, затраты и многое другое.
От Стэнфорда, около 1 млн просмотров
https://www.youtube.com/watch?v=9vM4p9NN0Ts
👉 @DataSciencegx
Полуторачасовая лекция охватывает: токенизацию, законы масштабирования, дообучение, оценку, оптимизацию, вызовы, затраты и многое другое.
От Стэнфорда, около 1 млн просмотров
https://www.youtube.com/watch?v=9vM4p9NN0Ts
Please open Telegram to view this post
VIEW IN TELEGRAM
Этот репозиторий на GitHub — настоящая находка для ML-специалистов
Репозиторий Kaggle Solutions собирает решения и идеи от лучших участников прошлых соревнований Kaggle. Список регулярно обновляется после каждого соревнования.
Он охватывает интервью по машинному обучению, лекции и решения
https://github.com/faridrashidi/kaggle-solutions
👉 @DataSciencegx
Репозиторий Kaggle Solutions собирает решения и идеи от лучших участников прошлых соревнований Kaggle. Список регулярно обновляется после каждого соревнования.
Он охватывает интервью по машинному обучению, лекции и решения
https://github.com/faridrashidi/kaggle-solutions
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот как запустить модель случайного леса на GPU
Hummingbird компилирует обученные традиционные модели машинного обучения в тензорные вычисления. Это позволяет запускать их на аппаратных ускорителях, таких как GPU, для более быстрой инференции.
Инференция в 40 раз быстрее всего за 2 строки кода
👉 @DataSciencegx
Hummingbird компилирует обученные традиционные модели машинного обучения в тензорные вычисления. Это позволяет запускать их на аппаратных ускорителях, таких как GPU, для более быстрой инференции.
Инференция в 40 раз быстрее всего за 2 строки кода
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from IT Portal
Топ на выходные: 3 сайта с задачками для прокачки ML-навыков
Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте
Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите
@IT_Portal
Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте
Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите
@IT_Portal
Внутренности PyTorch
Подробное руководство о том, как разобраться в кодовой базе PyTorch и начать вносить вклад в её развитие
https://blog.ezyang.com/2019/05/pytorch-internals/
👉 @DataSciencegx
Подробное руководство о том, как разобраться в кодовой базе PyTorch и начать вносить вклад в её развитие
https://blog.ezyang.com/2019/05/pytorch-internals/
Please open Telegram to view this post
VIEW IN TELEGRAM
Один из лучших гайдов по выборке в больших языковых моделях (LLM Sampling) вышел, написанный создателем движка инференса Aphrodite (этот парень реально обожает сэмплеры)
https://rentry.org/samplers
👉 @DataSciencegx
https://rentry.org/samplers
Please open Telegram to view this post
VIEW IN TELEGRAM
Создание трансформера с нуля
https://github.com/DorsaRoh/Machine-Learning
Реализация и подробное объяснение трансформера, с расчётом на полное отсутствие предварительных знаний.
Приятного изучения✌️
👉 @DataSciencegx
https://github.com/DorsaRoh/Machine-Learning
Реализация и подробное объяснение трансформера, с расчётом на полное отсутствие предварительных знаний.
Приятного изучения
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - DorsaRoh/Machine-Learning: ML from scratch
ML from scratch. Contribute to DorsaRoh/Machine-Learning development by creating an account on GitHub.
Эти лекции были записаны 10 лет назад, но до сих пор, вероятно, остаются одними из лучших по следующим темам — теория информации и распознавание образов.
Основаны на книге Information Theory, Inference, and Learning Algorithm
https://www.youtube.com/playlist?list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
👉 @DataSciencegx
Основаны на книге Information Theory, Inference, and Learning Algorithm
https://www.youtube.com/playlist?list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашел видеоуроки по построению DeepSeek с нуля — уже вышло 25 выпусков. Объясняется неплохо, можно смотреть вместе с руководством по построению DeepSeek с нуля на HuggingFace.
Ссылка: http://youtube.com/watch?v=QWNxQIq0hMo&list=PLPTV0NXA_ZSiOpKKlHCyOq9lnp-dLvlms
👉 @DataSciencegx
Ссылка: http://youtube.com/watch?v=QWNxQIq0hMo&list=PLPTV0NXA_ZSiOpKKlHCyOq9lnp-dLvlms
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Нарыл годную визуализацию для тех, кто хочет на пальцах понять, как устроены LLM. Тут можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон в 3D
Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3
Лучше запускать с компа, на мобиле не так красиво
👉 @DataSciencegx
Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3
Лучше запускать с компа, на мобиле не так красиво
Please open Telegram to view this post
VIEW IN TELEGRAM
Hugging Face выкатили бесплатный курс по MCP (Model Context Protocol) — всё, что нужно, чтобы разобраться, как это работает и как использовать на практике.
Покажут, что такое MCP, как коннектить LLM-ки, как разворачивать свои MCP-сервера. Без воды, только суть.
Курс бесплатный. Ссылка: https://huggingface.co/learn/mcp-course/unit0/introduction
👉 @DataSciencegx
Покажут, что такое MCP, как коннектить LLM-ки, как разворачивать свои MCP-сервера. Без воды, только суть.
Курс бесплатный. Ссылка: https://huggingface.co/learn/mcp-course/unit0/introduction
Please open Telegram to view this post
VIEW IN TELEGRAM
Matrix Cookbook от Университета Ватерлоо — это краткая «шпаргалка», содержащая сотни матричных тождеств, производных, разложений и статистических формул, к которым вы будете обращаться всякий раз, когда линейная алгебра становится сложной.
Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении
https://github.com/AniruddhaChattopadhyay/Books/blob/main/matrixcookbook.pdf
👉 @DataSciencegx
Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении
https://github.com/AniruddhaChattopadhyay/Books/blob/main/matrixcookbook.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
5 техник дообучения LLM
Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.
Вот 5 оптимальных способов дообучения LLM:
1) LoRA — вместо того чтобы дообучать всю матрицу весов
2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица
3) VeRA — держит свои
4) Delta-LoRA — Идея: не просто обучать
5) LoRA+ — В оригинальной LoRA
👉 @DataSciencegx
Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.
Вот 5 оптимальных способов дообучения LLM:
1) LoRA — вместо того чтобы дообучать всю матрицу весов
W
, рядом добавляются две обучаемые low-rank матрицы A
и B
. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица
A
не обучается, двигаем только B
. Получается ещё легче по памяти.3) VeRA — держит свои
A
и B
для каждого слоя. VeRA идёт дальше — A
и B
фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b
, d
) по слоям. Минимализм.4) Delta-LoRA — Идея: не просто обучать
A
и B
, а следить за разницей (delta
) между их произведениями на соседних итерациях. Эта дельта прибавляется к W
. Такой "косвенный" fine-tuning базовых весов.5) LoRA+ — В оригинальной LoRA
A
и B
обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B
— и получили стабильнее и быстрее сходимость. Просто, но работает.Please open Telegram to view this post
VIEW IN TELEGRAM
Семинарская серия Stanford MLSys
Это самый практичный, технически насыщенный и содержательный ресурс, который я нашёл по теме реальных ML-систем. И всё это бесплатно доступно на YouTube.
Что внутри:
🔹 Эффективное обучение и развёртывание масштабных LLM
🔹 LoRAX, FlashAttention → более быстрые, дешёвые и компактные модели
🔹 Квантование и стратегии развёртывания на edge-устройствах
🔹 Full-stack ML: инфраструктура, инструменты и MLOps
🔹 Ориентированные на данные пайплайны и поведенческое тестирование
🔹 Как проектирование аппаратного обеспечения влияет на современные ML-системы
Среди докладчиков — инженеры и исследователи из Stanford, Netflix, Hugging Face и Snorkel.
Сохраните в закладки. Поделитесь с тем, кто глубоко погружён в ML-инфраструктуру или развёртывание. Это настоящая находка.
https://www.youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq
👉 @DataSciencegx
Это самый практичный, технически насыщенный и содержательный ресурс, который я нашёл по теме реальных ML-систем. И всё это бесплатно доступно на YouTube.
Что внутри:
Среди докладчиков — инженеры и исследователи из Stanford, Netflix, Hugging Face и Snorkel.
Сохраните в закладки. Поделитесь с тем, кто глубоко погружён в ML-инфраструктуру или развёртывание. Это настоящая находка.
https://www.youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс B2B Tech выкатил YTsaurus — крутейшую платформу для обработки данных любого размера: от пары гигабайт до эксабайтных хранилищ
Под капотом классический MapReduce, ClickHouse, Apache Spark и прочие вкусности. Подходит как для ETL, так и для ML-моделей с миллиардами параметров. Работает облачно (управляемый сервис с поддержкой) и on-premise — выбирай, что по душе.
Внутри Яндекса эту штуку пилят уже с 2010 года — на ней и YandexGPT обучают, и поисковый индекс держат, и промо на Маркете обсчитывают. В общем, отлажено на боевых нагрузках, а не в песочнице.
Ранний доступ уже открыт, заявку кидать здесь
Под капотом классический MapReduce, ClickHouse, Apache Spark и прочие вкусности. Подходит как для ETL, так и для ML-моделей с миллиардами параметров. Работает облачно (управляемый сервис с поддержкой) и on-premise — выбирай, что по душе.
Внутри Яндекса эту штуку пилят уже с 2010 года — на ней и YandexGPT обучают, и поисковый индекс держат, и промо на Маркете обсчитывают. В общем, отлажено на боевых нагрузках, а не в песочнице.
Ранний доступ уже открыт, заявку кидать здесь
This media is not supported in your browser
VIEW IN TELEGRAM
Одна команда для сборки, деплоя и масштабирования AI-агентов!
xpander — это готовый к использованию Backend-as-a-Service для агентов: управляет памятью, инструментами, многопользовательскими состояниями, событиями, ограничениями и многим другим.
Совместим с LlamaIndex, Langchain, CrewAI, Google ADK — и не только.
Полностью с открытым исходным кодом
https://github.com/xpander-ai/xpander.ai
👉 @DataSciencegx
xpander — это готовый к использованию Backend-as-a-Service для агентов: управляет памятью, инструментами, многопользовательскими состояниями, событиями, ограничениями и многим другим.
Совместим с LlamaIndex, Langchain, CrewAI, Google ADK — и не только.
Полностью с открытым исходным кодом
https://github.com/xpander-ai/xpander.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулся на PDF с топ-50 вопросами для собеседований по LLM
Местами, конечно, поверхностно, но в целом — неплохой стартовый чеклист или разминка перед интервью
Ссылка: https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view
👉 @DataSciencegx
Местами, конечно, поверхностно, но в целом — неплохой стартовый чеклист или разминка перед интервью
Ссылка: https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view
Please open Telegram to view this post
VIEW IN TELEGRAM