Data Portal | Data Science & Машиннное обучение – Telegram

Data Portal | Data Science & Машиннное обучение

8.4K subscribers

94 photos

34 videos

4 files

133 links

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | Data Science & Машиннное обучение

8.4K subscribers

Data Portal | Data Science & Машиннное обучение

Forwarded from IT Portal

Топ на выходные: 3 сайта с задачками для прокачки ML-навыков

Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте

Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите

@IT_Portal

❤11👍4🔥3

4.1K views09:09

Data Portal | Data Science & Машиннное обучение

Внутренности PyTorch

Подробное руководство о том, как разобраться в кодовой базе PyTorch и начать вносить вклад в её развитие

https://blog.ezyang.com/2019/05/pytorch-internals/

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2

3.77K views06:24

Data Portal | Data Science & Машиннное обучение

Один из лучших гайдов по выборке в больших языковых моделях (LLM Sampling) вышел, написанный создателем движка инференса Aphrodite (этот парень реально обожает сэмплеры)

https://rentry.org/samplers

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

3.52K views08:49

Data Portal | Data Science & Машиннное обучение

Создание трансформера с нуля
https://github.com/DorsaRoh/Machine-Learning

Реализация и подробное объяснение трансформера, с расчётом на полное отсутствие предварительных знаний.

Приятного изучения ✌️

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - DorsaRoh/Machine-Learning: ML from scratch

ML from scratch. Contribute to DorsaRoh/Machine-Learning development by creating an account on GitHub.

❤5👍3

3.61K views13:08

Data Portal | Data Science & Машиннное обучение

Эти лекции были записаны 10 лет назад, но до сих пор, вероятно, остаются одними из лучших по следующим темам — теория информации и распознавание образов.

Основаны на книге Information Theory, Inference, and Learning Algorithm

https://www.youtube.com/playlist?list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤5

4.31K views14:08

Data Portal | Data Science & Машиннное обучение

Нашел видеоуроки по построению DeepSeek с нуля — уже вышло 25 выпусков. Объясняется неплохо, можно смотреть вместе с руководством по построению DeepSeek с нуля на HuggingFace.

Ссылка: http://youtube.com/watch?v=QWNxQIq0hMo&list=PLPTV0NXA_ZSiOpKKlHCyOq9lnp-dLvlms

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍5

3.59K views05:32

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Нарыл годную визуализацию для тех, кто хочет на пальцах понять, как устроены LLM. Тут можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон в 3D

Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3

Лучше запускать с компа, на мобиле не так красиво

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥5❤4

4.15K views16:07

Data Portal | Data Science & Машиннное обучение

Hugging Face выкатили бесплатный курс по MCP (Model Context Protocol) — всё, что нужно, чтобы разобраться, как это работает и как использовать на практике.

Покажут, что такое MCP, как коннектить LLM-ки, как разворачивать свои MCP-сервера. Без воды, только суть.

Курс бесплатный. Ссылка: https://huggingface.co/learn/mcp-course/unit0/introduction

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥5👍4

4.42K views11:00

Data Portal | Data Science & Машиннное обучение

Matrix Cookbook от Университета Ватерлоо — это краткая «шпаргалка», содержащая сотни матричных тождеств, производных, разложений и статистических формул, к которым вы будете обращаться всякий раз, когда линейная алгебра становится сложной.

Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении

https://github.com/AniruddhaChattopadhyay/Books/blob/main/matrixcookbook.pdf

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5👀1

3.65K views18:36

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5🔥3

3.34K views11:42

Data Portal | Data Science & Машиннное обучение

Семинарская серия Stanford MLSys

Это самый практичный, технически насыщенный и содержательный ресурс, который я нашёл по теме реальных ML-систем. И всё это бесплатно доступно на YouTube.

Что внутри:
🔹 Эффективное обучение и развёртывание масштабных LLM
🔹 LoRAX, FlashAttention → более быстрые, дешёвые и компактные модели
🔹 Квантование и стратегии развёртывания на edge-устройствах
🔹 Full-stack ML: инфраструктура, инструменты и MLOps
🔹 Ориентированные на данные пайплайны и поведенческое тестирование
🔹 Как проектирование аппаратного обеспечения влияет на современные ML-системы

Среди докладчиков — инженеры и исследователи из Stanford, Netflix, Hugging Face и Snorkel.

Сохраните в закладки. Поделитесь с тем, кто глубоко погружён в ML-инфраструктуру или развёртывание. Это настоящая находка.

https://www.youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍1

3.64K views13:43

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Одна команда для сборки, деплоя и масштабирования AI-агентов!

xpander — это готовый к использованию Backend-as-a-Service для агентов: управляет памятью, инструментами, многопользовательскими состояниями, событиями, ограничениями и многим другим.

Совместим с LlamaIndex, Langchain, CrewAI, Google ADK — и не только.

Полностью с открытым исходным кодом

https://github.com/xpander-ai/xpander.ai

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3

4.45K views16:35

Data Portal | Data Science & Машиннное обучение

Наткнулся на PDF с топ-50 вопросами для собеседований по LLM

Местами, конечно, поверхностно, но в целом — неплохой стартовый чеклист или разминка перед интервью

Ссылка: https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍3

4.17K views17:30

Data Portal | Data Science & Машиннное обучение

MIT выложил в открытый доступ шикарный учебник по компьютерному зрению:
https://visionbook.mit.edu

Foundations of Computer Vision — концентрат базовых концепций CV через призму image processing и ML. Книга написана Торральбой, Исолой и Фрименом — ребята знают, о чём говорят.

Без воды: короткие главы, мощные визуализации, акцент на интуитивное понимание. Отлично зайдёт тем, кто входит в тему, но и опытным спецам будет чем поживиться.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15👍3🔥3

3.69K views08:30

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

О, занятно. Знал ли ты, что есть библиотека на Python под названием Pix2TeX, которая умеет превращать изображения с формулами в LaTeX-код?

Ссылка на репозиторий GitHub: https://github.com/lukas-blecher/LaTeX-OCR

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤25👍10🔥4😁1

3.91K views13:07

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Движок RAG для глубокого понимания документов

RAGFlow позволяет создавать корпоративного уровня RAG-воркфлоу для работы со сложными документами с обоснованными цитированиями.

Поддерживает мультимодальное понимание данных, веб-поиск, глубокие исследования и т.д.

Полностью локальный и с открытым исходным кодом, более 55 тысяч звёзд на GitHub

https://github.com/infiniflow/ragflow

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤4

2.92K views13:30

Data Portal | Data Science & Машиннное обучение

End-to-end проект по машинному обучению

Нашёл годный пошаговый гайд по ML-проекту.

Он начинается с базового EDA и обучает интеграции с MLOps с использованием таких инструментов, как ZenML и MLflow для отслеживания экспериментов и деплоймента.

https://www.youtube.com/watch?si=CoFmlaniXlD17UHz&v=o6vbe5G7xNo&feature=youtu.be

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍5😁1🤔1

3.14K views18:01

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

AI-агенты наконец-то могут взаимодействовать с вашим фронтендом

Протокол AG-UI устраняет критически важный разрыв между AI-агентами и фронтенд-приложениями, обеспечивая бесшовное взаимодействие между человеком и агентом.

MCP: от агентов к инструментам
A2A: от агентов к агентам
AG-UI: от агентов к пользователям

Полностью с открытым исходным кодом. Вот официальный репозиторий AG-UI от CopilotKit на GitHub

Прикрепляю отличную иллюстрацию того, как это работает

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

2.86K views09:25

Data Portal | Data Science & Машиннное обучение

У Microsoft вышел бесплатный курс по MCP для начинающих с 10 практическими лабораторными работами

Изучайте основы MCP на практике с примерами на .NET, Java, TypeScript, JavaScript и Python в среде VS Code. Все структурно и доступно на 40+ языках мира (есть русский, но машинный перевод)

https://github.com/microsoft/mcp-for-beginners/

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍2

3.57K views06:11