Data Portal | DS & ML

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - dair-ai/Mathematics-for-ML: 🧮 A collection of resources to learn mathematics for machine learning

🧮 A collection of resources to learn mathematics for machine learning - dair-ai/Mathematics-for-ML

❤4🔥2😁1

1.12K views06:07

Не совсем круто изучать system design для LLM по случайным диаграммам.

genai-llm-ml-case-studies — это curated GitHub-коллекция с 500+ реальными case study по GenAI, LLM и ML system design от 130+ компаний.

Она помогает разбирать, как команды проектируют, деплоят и оптимизируют AI-системы, группируя примеры по индустриям, use case’ам, компаниям и архитектурным паттернам.

Ключевые особенности:

• 500+ case study — production-oriented примеры для GenAI, LLM и ML-систем
• Несколько способов навигации — просмотр по индустрии, use case’ам, компаниям или отдельным LLM-кейсам
• LLM-ориентированные темы — разделы по RAG, search, evaluation, fine-tuning, оптимизации inference и multimodal-системам
• Примеры от компаний — включая OpenAI, Anthropic, Microsoft, Google, Meta, Netflix, LinkedIn, GitHub, Spotify и другие
• Архитектурные паттерны — в README показаны схемы direct LLM integration, RAG, multi-agent systems и human-in-the-loop workflow

Проект open-source (лицензия MIT).

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.14K views16:07

NVIDIA выпустили: Verified Agent Skills

👊

Verified Skills дают прозрачность в том, что именно делает скилл, откуда он получен, какие риски несёт и был ли он модифицирован.

Каждый verified skill содержит skill card и построен на открытой спецификации Agent Skills, чтобы стабильно работать в Claude Code, OpenAI Codex и Cursor.

👉

NVIDIA-Verified Agent Skills Provide Capability Governance for AI Agents

Please open Telegram to view this post

VIEW IN TELEGRAM

NVIDIA Technical Blog

Autonomous AI agents are becoming more capable. Open models, Model Context Protocol (MCP)-connected tools, and portable skills are also making agents easier to extend. But scaling agent use with…

1.04K views06:07

Тихо, почти незаметно, AI-инфраструктуру захватывает новая инженерная дисциплина.
И это не prompt engineering. И не выбор модели.
Это harness engineering.

Идея простая: практически любой сбой AI-агента — это проблема scaffolding-а.
Плохой контекст. Плохие инструменты. Отсутствие памяти. Нет верификации.

Этот репозиторий собирает всё необходимое для построения такого scaffolding’а — от статьи про ReAct до гайда Anthropic по context compaction и middleware-паттернов из LangGraph.
Ресурсы от OpenAI, Anthropic, Google, Meta, Microsoft и многих других — в одном месте.

https://github.com/ai-boost/awesome-harness-engineering

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - ai-boost/awesome-harness-engineering: Awesome list for AI agent harness engineering: tools, patterns, evals, memory, MCP…

Awesome list for AI agent harness engineering: tools, patterns, evals, memory, MCP, permissions, observability, and orchestration. - ai-boost/awesome-harness-engineering

👍1👎1

1.02K views16:07

Запусти собственную AI-компанию с командой AI-агентов

Alook — это open-source платформа для совместной работы AI coding-агентов. Self-hosted и local-first.

Как устроено:
Ты задаёшь структуру организации. Назначаешь каждому агенту роль — разработка, DevOps, ресерч и всё, что нужно. Настраиваешь иерархию и линии подчинения. Alook выдаёт каждому агенту собственный email-адрес.

Как это работает:
Ты назначаешь задачу нужному агенту — дальше он разбирается сам. Агенты координируются через email: передают результаты, задают вопросы, обновляют статусы. Ты видишь всё в своём inbox, но вручную ничего не маршрутизируешь.

Работает как always-on daemon. Закрыл ноутбук — агенты продолжают работать. Вернулся — задачи уже выполнены.

Общая память между всеми агентами. Каждый агент знает, над чем работали остальные. Не нужно заново объяснять контекст. После завершения каждой задачи Alook логирует удачные подходы и формирует SOP’ы. Со временем вся команда становится эффективнее.

Поддерживает Claude Code, Codex и OpenCode. Можно комбинировать разные системы или запускать несколько агентов в одном runtime.

Встроенные Kanban-доски для трекинга задач. Календарь для планирования. Email для всей коммуникации. Агенты сами подхватывают задачи, обновляют свои календари и закрывают issue после выполнения.

С агентами можно общаться через чат или email, как с любым AI-инструментом. Runtime устанавливается один раз и дальше работает в фоне. После настройки терминал больше не нужен.

Ключевые возможности:

• Координация агентов через email с реальными inbox’ами
• Структура организации с ролями и иерархией
• Общая память и самообучающиеся SOP’ы
• Always-on daemon для работы 24/7
• Поддержка Claude Code, Codex и OpenCode
• Встроенные Kanban, календарь и email
• Self-hosted и local-first

Полностью open source.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - alookai/alook: The collaboration layer for your AI workforce. Run your personal AI company.

The collaboration layer for your AI workforce. Run your personal AI company. - alookai/alook

❤5

958 views06:07

«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу.

Книга написана понятным и доступным языком, при этом сохраняет необходимую математическую строгость. Она содержит большое количество примеров и задач, поэтому подходит как для самостоятельного изучения, так и для использования в учебном процессе.

В учебнике рассматривается широкий круг тем, включая:
• пределы;
• производные;
• интегралы;
• последовательности и ряды;
• дифференциальные уравнения;
• многомерный анализ.

Считаю эту книгу ещё одним ценным инструментом в арсенале любого, кто изучает математику.
Если вы студент и хотите освоить или повторить ключевые темы математического анализа либо преподаватель, ищущий новые идеи и альтернативные объяснения, этот учебник определённо заслуживает внимания.

https://open.umn.edu/opentextbooks/textbooks/415
https://github.com/antoniolupetti/algebrica

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

922 views16:07

Утечка данных — одна из главных причин, почему ML-демо выглядят впечатляюще... а затем разваливаются в продакшене.

Модель не стала умнее.
Она просто случайно увидела правильные ответы заранее.

За 4 минуты вы поймёте, где скрываются утечки данных.

Давайте разберёмся

1. Утечка данных (Data Leakage)
Утечка данных возникает, когда в процессе обучения модели используется информация, которая не будет доступна в момент реального предсказания.
Из-за этого метрики на этапе валидации могут выглядеть значительно лучше, чем фактическое качество модели на новых, ранее не встречавшихся данных.

2. Цель оценки модели (Evaluation)
Тестовая выборка — это не просто «дополнительные данные».
Это симуляция будущего.
Обучайте модель только на той информации, которая была бы вам известна на момент предсказания.
Оценивайте её на примерах, на которые модель никак не могла повлиять в процессе обучения.

3. Прямая утечка данных (Direct Leakage)
Это самый очевидный вид утечки.

Примеры:
- поле с информацией из будущего;
- идентификатор (ID), в котором закодирована целевая переменная;
- переменная, появляющаяся только после наступления события;
- дубликаты записей одновременно в обучающей и тестовой выборках.
Если признак не существует в момент инференса (предсказания), то, скорее всего, он является источником утечки данных.

4. Косвенная утечка данных (Indirect Leakage)

Именно этот тип утечки чаще всего становится ловушкой для команд.
Вы выполняете нормализацию, заполнение пропусков, отбор признаков, удаление выбросов или снижение размерности до разделения данных на обучающую и тестовую выборки.
Модель напрямую не видела данные из тестовой выборки.
Но их уже увидел ваш пайплайн предобработки.

5. Разделение на обучающую и тестовую выборки (Train/Test Split):

Неправильно:
обучить (fit) скейлер на всех данных → разделить данные → провести оценку

Правильно:
разделить данные → обучить (fit) скейлер только на обучающей выборке → применить (transform) к обучающей и тестовой выборкам
Та же идея относится к импьютерам, энкодерам, отбору признаков, PCA и любому этапу предобработки, который обучается на данных.

6. Кросс-валидация (Cross-Validation):

Каждый фолд — это мини-эксперимент с обучающей и тестовой выборками.
Поэтому предобработка должна выполняться внутри каждого фолда.
Если вы один раз подготовили весь датасет, а затем запустили кросс-валидацию, то каждый фолд уже получил доступ к своим отложенным данным.

7. Пайплайны (Pipelines):

Пайплайн — это не просто способ сделать код чище.
Это ещё и защита от утечки данных.
Объедините предобработку, отбор признаков и модель в один пайплайн, а затем передайте этот пайплайн в кросс-валидацию или поиск гиперпараметров (grid search).

8. Версия для AI Engineering:
Утечки данных встречаются и в RAG-системах, и при оценке LLM.
Утечка возникает, когда вы настраиваете чанки, промпты, реранкеры, пороговые значения или примеры на том же наборе данных для оценки, который позже представляете как «отложенный» (held-out).
В результате ваш бенчмарк превращается в обучающие данные.

9. Чек-лист по поиску утечек данных (Leakage Checklist):

Прежде чем доверять полученной метрике, задайте себе вопросы:
Мог бы этот признак существовать в момент предсказания?
Не был ли какой-либо этап преобразования (transform) обучен (fit) на тестовых данных?
Включала ли кросс-валидация весь пайплайн целиком?
Не подбирали ли мы параметры на финальном наборе данных для оценки?
Если ответ «да», то метрика, скорее всего, не отражает реального качества модели.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

❤6👍2

904 views06:07

Обучение LLM с миллиардами параметров с нуля на одной видеокарте.

Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов.

Этот репозиторий показывает, что это не всегда так.

В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе.

От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде.
→ Создание GPT-подобных моделей с нуля
→ Практики эффективного обучения на ограниченных ресурсах
→ Токенизация, архитектура модели и пайплайн обучения
→ Методы масштабирования и оптимизации обучения
→ Полностью open-source

GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

935 views16:07

БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning:

1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/
2. Understanding Deep Learning udlbook.github.io/udlbook/
3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do
4. Algorithms for ML algorithmsbook.com
5. Deep Learning deeplearningbook.org
6. Reinforcement Learning andrew.cmu.edu/course/10-703/
7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog
8. Multi Agent Reinforcement Learning marl-book.com
9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog
10. Fairness and Machine Learning fairmlbook.org
11. Probabilistic Machine Learning
❯ Part 1 : probml.github.io/pml-book/book1
❯ Part 2 : probml.github.io/pml-book/book2

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.03K views06:07

«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне.

Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры.

На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете.

Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

1.02K views16:07

Единственный чит-лист по LLM, который вам когда-либо понадобится

Охватывает основные концепции, архитектуры и практические применения.

LLM Cheatsheet (Google Drive)

Основы

Токены (токенизация, BPE)
Эмбеддинги (косинусное сходство)
Механизм внимания (формула Attention, Multi-Head Attention)

Архитектура Transformer и её разновидности

BERT (модели только с энкодером)
GPT (модели только с декодером)
T5 (модели с энкодером и декодером)

Большие языковые модели (LLM)

Промптинг (длина контекста, Chain-of-Thought)
Дообучение (SFT, PEFT/LoRA)
Настройка предпочтений (Reward Model, Reinforcement Learning)
Оптимизации (Mixture of Experts, Distillation, Quantization)

Применение

LLM-as-a-Judge (LaaJ)
RAG (Retrieval-Augmented Generation)
Агенты (ReAct)
Рассуждающие модели (Scaling)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

❤6

882 views06:07

Математическое моделирование обычно начинается с пустого листа.

Этот проект решил, что так быть не должно.

MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта.

Что умеет:

• Разбирает условие задачи и выделяет ключевые требования

• Формулирует допущения и строит математическую модель

• Генерирует код для вычислений и дорабатывает его по ходу решения

• Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей

• Автоматически собирает итоговый отчёт

• Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой

Сейчас поддерживаются GPT-4o и DeepSeek-R1.

По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта.

Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - usail-hkust/LLM-MM-Agent: 🔥🔥🔥 [NeurIPS2025] MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem

🔥🔥🔥 [NeurIPS2025] MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem - usail-hkust/LLM-MM-Agent

🔥2

815 views16:07

«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц.

Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров.

Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных.

Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей.

Бесплатный учебник:
https://open.umn.edu/opentextbooks/textbooks/675

👉

Fundamentals of Matrix Algebra - Open Textbook Library

Please open Telegram to view this post

VIEW IN TELEGRAM

Open Textbook Library

A college (or advanced high school) level text dealing with the basic principles of matrix and linear algebra. It covers solving systems of linear equations, matrix arithmetic, the determinant, eigenvalues, and linear transformations. Numerous examples are…

783 views06:07

Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N.

"Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул.

Внутри:
• Chain Rule
• Computational Graphs
• Векторизованные производные
• Эффективное вычисление градиентов
• Пошаговые примеры с разбором формул

Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward().

Эти заметки как раз закрывают этот пробел.

PDF:
https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5😁1

780 views16:07

Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes

Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок.

Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео.

Что внутри:

• Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других
• Таблица с лекциями, описаниями, видео, конспектами и авторами
• Ссылки на оригинальные лекции и сопутствующие заметки
• Пометки WIP для незавершённых материалов
• Инструкция для контрибьюторов с процессом добавления и улучшения конспектов

Мне понравилась сама идея.

Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - dair-ai/ML-Course-Notes: 🎓 Sharing machine learning course / lecture notes.

🎓 Sharing machine learning course / lecture notes. - dair-ai/ML-Course-Notes

❤4

791 views06:07

9 мер расстояния, которые часто используются в Data Science и ML

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10

747 views16:07

Как получить ChatGPT Plus стоимостью $20 бесплатно

В некоторых регионах ChatGPT предлагает бесплатный месяц подписки.

Что для этого нужно:

- Аккаунт GoPay (его можно открыть в Индии)
- Новый аккаунт ChatGPT
- VPN с подключением через Японию

Как получить предложение:

Перейдите по ссылке:
https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing

1. Подключите VPN через Японию
2. Создайте новый аккаунт ChatGPT
3. Нажмите «Claim Offer»
4. Пролистайте страницу вниз и выберите Индонезию
5. Выберите тариф «Plus»
6. В качестве способа оплаты выберите GoPay
7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты.

На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

841 views06:07

40 собесов и оффер за 1 месяц

Алексей разработчик.

Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.

Выхлоп - почти нулевой.

В какой-то момент понял:
так можно искать бесконечно.

И по совету друга попробовал ии-ассистента Софи.

▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам

В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.

Весь процесс - от первого собеседования до оффера - занял 4 дня.

P.S. Попробовать Софи бесплатно можно будет 16 июня.
Не пропусти анонс здесь.

722 views14:07

Почитай это, если хочешь разобраться в ML-инфраструктуре.

https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/

Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:

аппаратное обеспечение
память и пропускная способность памяти
процесс проведения ML-экспериментов

Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения.

👉

A Hitchhiker’s Guide to ML Training Infrastructure | CMU Software Engineering Institute

Please open Telegram to view this post

VIEW IN TELEGRAM

SEI Blog

Hardware is a key enabler for machine learning. Recent advances in the field, including the introduction of graphics processing units, have had a significant impact on the training of AI systems.

🔥7

657 views16:07

ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз.

https://arxiv.org/html/2602.24286v1

Они натренировали агента, который пишет CUDA лучше многих людей.

Называется CUDA Agent.

Схема простая:

→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова

По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.

Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.

Результаты на KernelBench получились очень жирными.

• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы

Почему это важно?

Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.

Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.

Но если агент способен сам писать и оптимизировать ядра...

то внезапно становится не так важно, какой у тебя чип.

Сегодня CUDA.

Завтра ROCm.

Послезавтра какой-нибудь кастомный AI-ускоритель.

Самый интересный вывод из всей истории:

возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.

👉