Data Portal | DS & ML
8.41K subscribers
417 photos
114 videos
4 files
562 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу.

Книга написана понятным и доступным языком, при этом сохраняет необходимую математическую строгость. Она содержит большое количество примеров и задач, поэтому подходит как для самостоятельного изучения, так и для использования в учебном процессе.

В учебнике рассматривается широкий круг тем, включая:
• пределы;
• производные;
• интегралы;
• последовательности и ряды;
• дифференциальные уравнения;
• многомерный анализ.

Считаю эту книгу ещё одним ценным инструментом в арсенале любого, кто изучает математику.
Если вы студент и хотите освоить или повторить ключевые темы математического анализа либо преподаватель, ищущий новые идеи и альтернативные объяснения, этот учебник определённо заслуживает внимания.

https://open.umn.edu/opentextbooks/textbooks/415
https://github.com/antoniolupetti/algebrica

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Утечка данных — одна из главных причин, почему ML-демо выглядят впечатляюще... а затем разваливаются в продакшене.

Модель не стала умнее.
Она просто случайно увидела правильные ответы заранее.

За 4 минуты вы поймёте, где скрываются утечки данных.

Давайте разберёмся

1. Утечка данных (Data Leakage)
Утечка данных возникает, когда в процессе обучения модели используется информация, которая не будет доступна в момент реального предсказания.
Из-за этого метрики на этапе валидации могут выглядеть значительно лучше, чем фактическое качество модели на новых, ранее не встречавшихся данных.

2. Цель оценки модели (Evaluation)
Тестовая выборка — это не просто «дополнительные данные».
Это симуляция будущего.
Обучайте модель только на той информации, которая была бы вам известна на момент предсказания.
Оценивайте её на примерах, на которые модель никак не могла повлиять в процессе обучения.

3. Прямая утечка данных (Direct Leakage)
Это самый очевидный вид утечки.

Примеры:
- поле с информацией из будущего;
- идентификатор (ID), в котором закодирована целевая переменная;
- переменная, появляющаяся только после наступления события;
- дубликаты записей одновременно в обучающей и тестовой выборках.
Если признак не существует в момент инференса (предсказания), то, скорее всего, он является источником утечки данных.

4. Косвенная утечка данных (Indirect Leakage)

Именно этот тип утечки чаще всего становится ловушкой для команд.
Вы выполняете нормализацию, заполнение пропусков, отбор признаков, удаление выбросов или снижение размерности до разделения данных на обучающую и тестовую выборки.
Модель напрямую не видела данные из тестовой выборки.
Но их уже увидел ваш пайплайн предобработки.

5. Разделение на обучающую и тестовую выборки (Train/Test Split):

Неправильно:
обучить (fit) скейлер на всех данных → разделить данные → провести оценку

Правильно:
разделить данные → обучить (fit) скейлер только на обучающей выборке → применить (transform) к обучающей и тестовой выборкам
Та же идея относится к импьютерам, энкодерам, отбору признаков, PCA и любому этапу предобработки, который обучается на данных.

6. Кросс-валидация (Cross-Validation):

Каждый фолд — это мини-эксперимент с обучающей и тестовой выборками.
Поэтому предобработка должна выполняться внутри каждого фолда.
Если вы один раз подготовили весь датасет, а затем запустили кросс-валидацию, то каждый фолд уже получил доступ к своим отложенным данным.

7. Пайплайны (Pipelines):

Пайплайн — это не просто способ сделать код чище.
Это ещё и защита от утечки данных.
Объедините предобработку, отбор признаков и модель в один пайплайн, а затем передайте этот пайплайн в кросс-валидацию или поиск гиперпараметров (grid search).

8. Версия для AI Engineering:
Утечки данных встречаются и в RAG-системах, и при оценке LLM.
Утечка возникает, когда вы настраиваете чанки, промпты, реранкеры, пороговые значения или примеры на том же наборе данных для оценки, который позже представляете как «отложенный» (held-out).
В результате ваш бенчмарк превращается в обучающие данные.

9. Чек-лист по поиску утечек данных (Leakage Checklist):

Прежде чем доверять полученной метрике, задайте себе вопросы:
Мог бы этот признак существовать в момент предсказания?
Не был ли какой-либо этап преобразования (transform) обучен (fit) на тестовых данных?
Включала ли кросс-валидация весь пайплайн целиком?
Не подбирали ли мы параметры на финальном наборе данных для оценки?
Если ответ «да», то метрика, скорее всего, не отражает реального качества модели.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
Обучение LLM с миллиардами параметров с нуля на одной видеокарте.

Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов.

Этот репозиторий показывает, что это не всегда так.

В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе.

От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде.
→ Создание GPT-подобных моделей с нуля
→ Практики эффективного обучения на ограниченных ресурсах
→ Токенизация, архитектура модели и пайплайн обучения
→ Методы масштабирования и оптимизации обучения
→ Полностью open-source

GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
7
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning:

1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/
2. Understanding Deep Learning udlbook.github.io/udlbook/
3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do
4. Algorithms for ML algorithmsbook.com
5. Deep Learning deeplearningbook.org
6. Reinforcement Learning andrew.cmu.edu/course/10-703/
7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog
8. Multi Agent Reinforcement Learning marl-book.com
9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog
10. Fairness and Machine Learning fairmlbook.org
11. Probabilistic Machine Learning
❯ Part 1 : probml.github.io/pml-book/book1
❯ Part 2 : probml.github.io/pml-book/book2

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне.

Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры.

На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете.

Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53
Единственный чит-лист по LLM, который вам когда-либо понадобится

Охватывает основные концепции, архитектуры и практические применения.

LLM Cheatsheet (Google Drive)

Основы
Токены (токенизация, BPE)
Эмбеддинги (косинусное сходство)
Механизм внимания (формула Attention, Multi-Head Attention)


Архитектура Transformer и её разновидности
BERT (модели только с энкодером)
GPT (модели только с декодером)
T5 (модели с энкодером и декодером)


Большие языковые модели (LLM)
Промптинг (длина контекста, Chain-of-Thought)
Дообучение (SFT, PEFT/LoRA)
Настройка предпочтений (Reward Model, Reinforcement Learning)
Оптимизации (Mixture of Experts, Distillation, Quantization)


Применение
LLM-as-a-Judge (LaaJ)
RAG (Retrieval-Augmented Generation)
Агенты (ReAct)
Рассуждающие модели (Scaling)


👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Математическое моделирование обычно начинается с пустого листа.

Этот проект решил, что так быть не должно.

MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта.

Что умеет:

• Разбирает условие задачи и выделяет ключевые требования

• Формулирует допущения и строит математическую модель

• Генерирует код для вычислений и дорабатывает его по ходу решения

• Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей

• Автоматически собирает итоговый отчёт

• Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой

Сейчас поддерживаются GPT-4o и DeepSeek-R1.

По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта.

Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц.

Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров.

Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных.

Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей.

Бесплатный учебник:
https://open.umn.edu/opentextbooks/textbooks/675

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N.

"Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул.

Внутри:
• Chain Rule
• Computational Graphs
• Векторизованные производные
• Эффективное вычисление градиентов
• Пошаговые примеры с разбором формул

Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward().

Эти заметки как раз закрывают этот пробел.

PDF:
https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁1
Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes

Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок.

Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео.

Что внутри:

• Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других
• Таблица с лекциями, описаниями, видео, конспектами и авторами
• Ссылки на оригинальные лекции и сопутствующие заметки
• Пометки WIP для незавершённых материалов
• Инструкция для контрибьюторов с процессом добавления и улучшения конспектов

Мне понравилась сама идея.

Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
9 мер расстояния, которые часто используются в Data Science и ML

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Как получить ChatGPT Plus стоимостью $20 бесплатно

В некоторых регионах ChatGPT предлагает бесплатный месяц подписки.

Что для этого нужно:

- Аккаунт GoPay (его можно открыть в Индии)
- Новый аккаунт ChatGPT
- VPN с подключением через Японию

Как получить предложение:
Перейдите по ссылке:
https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing


1. Подключите VPN через Японию
2. Создайте новый аккаунт ChatGPT
3. Нажмите «Claim Offer»
4. Пролистайте страницу вниз и выберите Индонезию
5. Выберите тариф «Plus»
6. В качестве способа оплаты выберите GoPay
7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты.

На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5
40 собесов и оффер за 1 месяц

Алексей разработчик.

Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.

Выхлоп - почти нулевой.

В какой-то момент понял:
так можно искать бесконечно.

И по совету друга попробовал ии-ассистента Софи.

▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам

В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.


Весь процесс - от первого собеседования до оффера - занял 4 дня.

P.S. Попробовать Софи бесплатно можно будет 16 июня.
Не пропусти анонс здесь.
Почитай это, если хочешь разобраться в ML-инфраструктуре.

https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/

Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:

аппаратное обеспечение
память и пропускная способность памяти
процесс проведения ML-экспериментов


Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз.

https://arxiv.org/html/2602.24286v1

Они натренировали агента, который пишет CUDA лучше многих людей.

Называется CUDA Agent.

Схема простая:

→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова

По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.

Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.

Результаты на KernelBench получились очень жирными.

• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы

Почему это важно?

Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.

Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.

Но если агент способен сам писать и оптимизировать ядра...

то внезапно становится не так важно, какой у тебя чип.

Сегодня CUDA.

Завтра ROCm.

Послезавтра какой-нибудь кастомный AI-ускоритель.

Самый интересный вывод из всей истории:

возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат.

https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16

Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B.

Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию.
Пока доступна только в BF16.

Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов.

Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1