Эта книга на 115 страниц раскрывает детали дообучения больших языковых моделей: https://drive.google.com/file/d/1cS5sWZw9XUDRI4uRh02-28Xq4-PHBqK9/view?usp=drive_link
Полное руководство, которое охватывает:
процесс дообучения больших языковых моделей
сочетание теории и практики
👉 @DataSciencegx
Полное руководство, которое охватывает:
процесс дообучения больших языковых моделей
сочетание теории и практики
Please open Telegram to view this post
VIEW IN TELEGRAM
«Mathematical Theory of Deep Learning» — отличный бесплатный ресурс для всех, кто интересуется математической структурой современных систем глубокого обучения. Книга вводит теорию глубоких нейросетей через теорию аппроксимации, теорию оптимизации и теорию статистического обучения — три ключевых направления, на которых строится современный диплёрнинг.
Особенно интересна попытка совместить математическую строгость с доступной подачей материала. Автор концентрируется на базовых идеях, необходимых для понимания современных ИИ-систем, при этом не жертвуя глубиной изложения. Несмотря на понятную структуру, книга всё же ориентирована на подготовленную аудиторию.
Это также большой вклад в открытое образовательное сообщество и крайне ценный бесплатный ресурс для студентов, исследователей и всех, кто хочет изучать глубокое обучение на более строгом математическом уровне.
arxiv.org/abs/2407.18384
👉 @DataSciencegx
Особенно интересна попытка совместить математическую строгость с доступной подачей материала. Автор концентрируется на базовых идеях, необходимых для понимания современных ИИ-систем, при этом не жертвуя глубиной изложения. Несмотря на понятную структуру, книга всё же ориентирована на подготовленную аудиторию.
Это также большой вклад в открытое образовательное сообщество и крайне ценный бесплатный ресурс для студентов, исследователей и всех, кто хочет изучать глубокое обучение на более строгом математическом уровне.
arxiv.org/abs/2407.18384
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Независимый исследователь ML исправил причину, по которой LLM пишут плохо, и у него есть демонстрация, чтобы это доказать.
Анонс: Distribution Fine Tuning (DFT) — пост-тренировочный шаг, который исправляет стиль письма LLM.
Модельные выводы прошли проверку панограмм на 100% тестовых случаев.
Ключевая идея: вместо того чтобы пытаться улучшить «качество письма» (что слишком размыто), он сосредоточился на том, чтобы выводы модели были ближе к распределению данных обучения.
Удивительно, но SFT — это не всё, что нужно. Расстояние распределений между выводами модели и эталонными человеческими текстами оказалось огромным.
С помощью DFT удалось сократить расстояние распределений на 49%, что привело к росту:
креативности на +164%
когерентности на +28%
детальности смысла на +146%
DFT также предотвращает чрезмерное использование «стоп-сигналов» вроде эм-деша или конструкций типа «это не X, это Y».
Планируется выпуск небольшой модели с открытыми весами, обученной с DFT.
Демо: https://dft.rosmine.ai
Технический отчёт: https://rosmine.ai/2026/05/18/fixing-llm-writing-with-distribution-fine-tuning/
👉 @DataSciencegx
Анонс: Distribution Fine Tuning (DFT) — пост-тренировочный шаг, который исправляет стиль письма LLM.
Модельные выводы прошли проверку панограмм на 100% тестовых случаев.
Ключевая идея: вместо того чтобы пытаться улучшить «качество письма» (что слишком размыто), он сосредоточился на том, чтобы выводы модели были ближе к распределению данных обучения.
Удивительно, но SFT — это не всё, что нужно. Расстояние распределений между выводами модели и эталонными человеческими текстами оказалось огромным.
С помощью DFT удалось сократить расстояние распределений на 49%, что привело к росту:
креативности на +164%
когерентности на +28%
детальности смысла на +146%
DFT также предотвращает чрезмерное использование «стоп-сигналов» вроде эм-деша или конструкций типа «это не X, это Y».
Планируется выпуск небольшой модели с открытыми весами, обученной с DFT.
Демо: https://dft.rosmine.ai
Технический отчёт: https://rosmine.ai/2026/05/18/fixing-llm-writing-with-distribution-fine-tuning/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Парсинг с использованием искусственного интеллекта
Преобразуйте любую страницу в структурированные данные.
Открытый исходный код. Поддерживает GPT, Gemini, Sonnet…
→ http://github.com/mishushakov/llm-scraper
👉 @DataSciencegx
Преобразуйте любую страницу в структурированные данные.
Открытый исходный код. Поддерживает GPT, Gemini, Sonnet…
→ http://github.com/mishushakov/llm-scraper
Please open Telegram to view this post
VIEW IN TELEGRAM
«Introduction to Algorithms» — выдающийся университетский ресурс для всех, кто изучает алгоритмы и компьютерные науки.
Книга охватывает вычислительную сложность, структуры данных, алгоритмы на графах, динамическое программирование, методы «разделяй и властвуй», жадные алгоритмы, рандомизированные алгоритмы и многие математические основы современной компьютерной науки.
Особенно ценно здесь сочетание математической строгости и практического алгоритмического мышления. Это одна из тех книг, которые сильно меняют подход к анализу задач, эффективности и самим вычислениям.
Обязательный инструмент в библиотеке любого разработчика и инженера, работающего в сфере компьютерных наук.
https://www.cs.mcgill.ca/~akroit/math/compsci/Cormen%20Introduction%20to%20Algorithms.pdf
👉 @DataSciencegx
Книга охватывает вычислительную сложность, структуры данных, алгоритмы на графах, динамическое программирование, методы «разделяй и властвуй», жадные алгоритмы, рандомизированные алгоритмы и многие математические основы современной компьютерной науки.
Особенно ценно здесь сочетание математической строгости и практического алгоритмического мышления. Это одна из тех книг, которые сильно меняют подход к анализу задач, эффективности и самим вычислениям.
Обязательный инструмент в библиотеке любого разработчика и инженера, работающего в сфере компьютерных наук.
https://www.cs.mcgill.ca/~akroit/math/compsci/Cormen%20Introduction%20to%20Algorithms.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2👀2
MIT выпустил новый метод RL — Pedagogical RL.
Главный урок: даже корректные трассы рассуждений могут быть плохими данными для обучения.
Идея похожа на обучение кого-то backprop.
Предположим, у вас есть маленький вычислительный граф:
Если вы уже понимаете backprop, можно сразу записать градиент:
Ответ правильный, но он пропускает процесс рассуждений.
Чтобы дойти до него корректно, нужно разбить вычисление на локальные части:
Тогда backprop — это просто композиция локальных производных в обратном порядке:
Показать студенту только конечный градиент не учит их находить градиенты на новых графах.
Даже фраза «просто используй правило цепочки» может быть слишком большим скачком, если студент не умеет разложить вычисление на промежуточные узлы и локальные производные.
Reasoning RL сталкивается с той же проблемой.
Rollout может пройти проверку, но при этом содержать шаг, который студент-модель почти никогда не сделала бы.
Траектория даёт правильный ответ, но сигнал обучения нестабилен, потому что путь слишком далёк от текущей политики студента.
Pedagogical RL:
Тренирует «привилегированного» учителя, который знает ответ.
Вознаграждает его за создание траекторий, которые студент может усвоить.
Хитрость: использовать спайк-ориентированное вознаграждение.
Оно штрафует отдельные резкие «сюрпризы» в траектории, даже если средняя вероятность выглядит нормальной.
Студент учится через surprisal-gated imitation:
Токены учителя, которые всё ещё слишком удивительны, получают пониженный вес.
Учитель учится как обучать на текущем уровне студента.
Эффект Pedagogical RL:
RL становится эффективнее, выбирая траектории, которым студент готов учиться.
Меньше ожидания «удачных» rollouts.
Больше сигнала обучения от примеров, соответствующих текущему уровню студента.
https://noahziems.com/pedagogical-rl
👉 @DataSciencegx
Главный урок: даже корректные трассы рассуждений могут быть плохими данными для обучения.
Идея похожа на обучение кого-то backprop.
Предположим, у вас есть маленький вычислительный граф:
z = w * x + b
a = ReLU(z)
L = (a - y)^2
Если вы уже понимаете backprop, можно сразу записать градиент:
dL/dw = 2 * (a - y) * 1[z > 0] * x
Ответ правильный, но он пропускает процесс рассуждений.
Чтобы дойти до него корректно, нужно разбить вычисление на локальные части:
dL/da = 2 * (a - y)
da/dz = 1[z > 0]
dz/dw = x
Тогда backprop — это просто композиция локальных производных в обратном порядке:
dL/dw = dL/da * da/dz * dz/dw = 2 * (a - y) * 1[z > 0] * x
Показать студенту только конечный градиент не учит их находить градиенты на новых графах.
Даже фраза «просто используй правило цепочки» может быть слишком большим скачком, если студент не умеет разложить вычисление на промежуточные узлы и локальные производные.
Reasoning RL сталкивается с той же проблемой.
Rollout может пройти проверку, но при этом содержать шаг, который студент-модель почти никогда не сделала бы.
Траектория даёт правильный ответ, но сигнал обучения нестабилен, потому что путь слишком далёк от текущей политики студента.
Pedagogical RL:
Тренирует «привилегированного» учителя, который знает ответ.
Вознаграждает его за создание траекторий, которые студент может усвоить.
Хитрость: использовать спайк-ориентированное вознаграждение.
Оно штрафует отдельные резкие «сюрпризы» в траектории, даже если средняя вероятность выглядит нормальной.
Студент учится через surprisal-gated imitation:
Токены учителя, которые всё ещё слишком удивительны, получают пониженный вес.
Учитель учится как обучать на текущем уровне студента.
Эффект Pedagogical RL:
RL становится эффективнее, выбирая траектории, которым студент готов учиться.
Меньше ожидания «удачных» rollouts.
Больше сигнала обучения от примеров, соответствующих текущему уровню студента.
https://noahziems.com/pedagogical-rl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Вышла статья HRM-Text.
В HRM-Text исследуют другой подход к предобучению языковых моделей:
- иерархические рекуррентные вычисления,
- обучение через завершение задач,
- рассуждение в латентном пространстве.
При размере всего 1 млрд параметров HRM-Text показывает конкурентные результаты с заметно меньшими требованиями к обучению:
- 1 млрд параметров,
- 40 млрд уникальных токенов,
- около одного дня предобучения,
- примерно $1000 стоимости тренировки.
Paper: sapientinc.github.io/HRM-Text/asset
GitHub: github.com/sapientinc/HRM
Hugging Face: huggingface.co/sapientinc/HRM
👉 @DataSciencegx
В HRM-Text исследуют другой подход к предобучению языковых моделей:
- иерархические рекуррентные вычисления,
- обучение через завершение задач,
- рассуждение в латентном пространстве.
При размере всего 1 млрд параметров HRM-Text показывает конкурентные результаты с заметно меньшими требованиями к обучению:
- 1 млрд параметров,
- 40 млрд уникальных токенов,
- около одного дня предобучения,
- примерно $1000 стоимости тренировки.
Paper: sapientinc.github.io/HRM-Text/asset
GitHub: github.com/sapientinc/HRM
Hugging Face: huggingface.co/sapientinc/HRM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
HuggingFace перезапустили легендарную платформу с AI/ML-исследованиями, где можно бесплатно следить за самыми хайповыми papers, бенчмарками и новыми методами.
Следим за развитием AI:
• подборки по Agents, Robotics и World Models;
• отслеживание самых быстрорастущих AI-трендов;
• бенчмарки и лидерборды моделей;
• поиск статей по конкретным методам вроде RLVR;
• более 50k исследований на сайте.
Добавляем в закладки тут.
👉 @DataSciencegx
Следим за развитием AI:
• подборки по Agents, Robotics и World Models;
• отслеживание самых быстрорастущих AI-трендов;
• бенчмарки и лидерборды моделей;
• поиск статей по конкретным методам вроде RLVR;
• более 50k исследований на сайте.
Добавляем в закладки тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
«Dive into Deep Learning» — это книга с открытым исходным кодом, которая формирует математическую базу для больших языковых моделей, охватывая линейную алгебру, математический анализ, теорию вероятностей, методы оптимизации, обратное распространение ошибки, механизмы внимания и архитектуры трансформеров.
Книга последовательно переходит от классических нейронных сетей и сверточных нейронных сетей к современным трансформерам и практическим техникам, применяемым в больших языковых моделях.
Объём — более 1000 страниц. Внутри — понятные объяснения, практические примеры и задания, что делает её одним из наиболее полных бесплатных ресурсов для понимания математической структуры современных систем искусственного интеллекта и языковых моделей.
arxiv.org/pdf/2106.11342
👉 @DataSciencegx
Книга последовательно переходит от классических нейронных сетей и сверточных нейронных сетей к современным трансформерам и практическим техникам, применяемым в больших языковых моделях.
Объём — более 1000 страниц. Внутри — понятные объяснения, практические примеры и задания, что делает её одним из наиболее полных бесплатных ресурсов для понимания математической структуры современных систем искусственного интеллекта и языковых моделей.
arxiv.org/pdf/2106.11342
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Проектирование RAG с поиском для 10 млн документов с минимизацией галлюцинаций
1. Ингест и нормализация документов
Удаление дублей, приведение к единому формату, извлечение метаданных, ведение версионности.
2. Гибридный поиск (BM25 + векторные представления)
BM25 закрывает точные совпадения по ключевым словам, векторный поиск — семантическое соответствие. Один подход без второго на таком масштабе обычно проседает по точности.
3. Поиск через приближённые ближайшие соседи + переоценка
Приближённый поиск ближайших соседей быстро достаёт кандидатов из миллионов фрагментов. Дальше ранжирующая модель пересчитывает релевантность через более тяжёлое сравнение запроса и фрагментов.
4. Скоринг доверия к источникам
Каждый фрагмент получает оценку по свежести, надёжности источника, перекрытию и согласованности с другими найденными результатами. Слабые по доверию данные не должны сильно влиять на итоговый ответ.
5. Генерация с жёсткими ограничениями контекста
Модель работает только в рамках извлечённого контекста. Добавление знаний вне контекста запрещается логикой пайплайна.
6. Ответы с привязкой к источникам
Каждое существенное утверждение должно ссылаться на конкретный фрагмент, документ или временную метку.
7. Фолбэк при низкой уверенности поиска
Если суммарная уверенность контекста падает ниже порога, возвращается ответ вида «недостаточно данных».
8. Непрерывная проверка качества
Прогон атакующих запросов, метрики полноты поиска, тесты на галлюцинации, контроль деградации ранжирования.
9. Кэширование и слой памяти
Кэшируются частые запросы и цепочки поиска, чтобы снижать задержки и стоимость вычислений.
10. Наблюдаемость на всех этапах
Трассировка пути запроса, ранжирования фрагментов, влияния токенов и точек отказа.
При масштабе 10 млн документов качество поиска становится определяющим фактором сильнее, чем выбор генеративной модели.
👉 @DataSciencegx
1. Ингест и нормализация документов
Удаление дублей, приведение к единому формату, извлечение метаданных, ведение версионности.
2. Гибридный поиск (BM25 + векторные представления)
BM25 закрывает точные совпадения по ключевым словам, векторный поиск — семантическое соответствие. Один подход без второго на таком масштабе обычно проседает по точности.
3. Поиск через приближённые ближайшие соседи + переоценка
Приближённый поиск ближайших соседей быстро достаёт кандидатов из миллионов фрагментов. Дальше ранжирующая модель пересчитывает релевантность через более тяжёлое сравнение запроса и фрагментов.
4. Скоринг доверия к источникам
Каждый фрагмент получает оценку по свежести, надёжности источника, перекрытию и согласованности с другими найденными результатами. Слабые по доверию данные не должны сильно влиять на итоговый ответ.
5. Генерация с жёсткими ограничениями контекста
Модель работает только в рамках извлечённого контекста. Добавление знаний вне контекста запрещается логикой пайплайна.
6. Ответы с привязкой к источникам
Каждое существенное утверждение должно ссылаться на конкретный фрагмент, документ или временную метку.
7. Фолбэк при низкой уверенности поиска
Если суммарная уверенность контекста падает ниже порога, возвращается ответ вида «недостаточно данных».
8. Непрерывная проверка качества
Прогон атакующих запросов, метрики полноты поиска, тесты на галлюцинации, контроль деградации ранжирования.
9. Кэширование и слой памяти
Кэшируются частые запросы и цепочки поиска, чтобы снижать задержки и стоимость вычислений.
10. Наблюдаемость на всех этапах
Трассировка пути запроса, ранжирования фрагментов, влияния токенов и точек отказа.
При масштабе 10 млн документов качество поиска становится определяющим фактором сильнее, чем выбор генеративной модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак релизнул скилл для claude code, который сам проектирует и пишет синтетические данные, окружение и награды для дообучения меньшей модели , то есть student-а. 🏋️♂️
Он дообучает student-а на реальном датасете, читает трейсы с фейлами, затем пишет синтетические данные, verifier-окружение и функцию награды, чтобы закрыть найденные гэпы. после этого — новый цикл дообучения.
цикл:
-> базовый прогон на реальных данных
-> анализ rollout-ов с низкой наградой
-> генерация синтетического датасета на ~500–1000 строк
-> создание verifier-окружения + рубрики вокруг него
-> продолжение обучения с post-train чекпоинта
-> eval на реальном test split
-> сохраняем то, что помогает, и итеративно дорабатываем остальное
1. результат: qwen3-0.6B-base на gsm8k. 700 синтетических строк подняли результат с 0.7854 -> 0.8158 на полном тестовом наборе.
2. можно запускать с любым лимитом по wall-clock времени или количеству итераций. цикл продолжает работать, пока не закончится бюджет.
3. построено на verifiers от willccbb и PrimeIntellect для обучения. работает с любым окружением, где есть train и eval датасет.
p.s. автор пока не придумал название. autoresearch от karpathy или synthetic envs
https://github.com/vivekvkashyap/synthetic-self-improve-rl/tree/main
👉 @DataSciencegx
Он дообучает student-а на реальном датасете, читает трейсы с фейлами, затем пишет синтетические данные, verifier-окружение и функцию награды, чтобы закрыть найденные гэпы. после этого — новый цикл дообучения.
цикл:
-> базовый прогон на реальных данных
-> анализ rollout-ов с низкой наградой
-> генерация синтетического датасета на ~500–1000 строк
-> создание verifier-окружения + рубрики вокруг него
-> продолжение обучения с post-train чекпоинта
-> eval на реальном test split
-> сохраняем то, что помогает, и итеративно дорабатываем остальное
1. результат: qwen3-0.6B-base на gsm8k. 700 синтетических строк подняли результат с 0.7854 -> 0.8158 на полном тестовом наборе.
2. можно запускать с любым лимитом по wall-clock времени или количеству итераций. цикл продолжает работать, пока не закончится бюджет.
3. построено на verifiers от willccbb и PrimeIntellect для обучения. работает с любым окружением, где есть train и eval датасет.
p.s. автор пока не придумал название. autoresearch от karpathy или synthetic envs
https://github.com/vivekvkashyap/synthetic-self-improve-rl/tree/main
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
“Algorithms for Decision Making” — это бесплатная книга о математических основах искусственного интеллекта, автономных систем принятия решений и современного машинного обучения.
Опубликована MIT Press, книга объединяет вероятности, оптимизацию, планирование, поиск, обучение с подкреплением, марковские процессы принятия решений (MDP), теорию полезности и последовательное принятие решений в строгой, но современной форме.
В книге более 700 страниц, и она даёт очень широкий взгляд на то, как интеллектуальные системы рассуждают, оценивают неопределённость и принимают решения в условиях ограничений.
Одна из самых интересных вещей в интернете — это огромное количество качественных бесплатных знаний. Сложные темы, которые раньше требовали доступа к дорогим университетам или специализированным библиотекам, сегодня доступны любому, кто готов учиться!
Algorithms for Decision Making (PDF)
👉 @DataSciencegx
Опубликована MIT Press, книга объединяет вероятности, оптимизацию, планирование, поиск, обучение с подкреплением, марковские процессы принятия решений (MDP), теорию полезности и последовательное принятие решений в строгой, но современной форме.
В книге более 700 страниц, и она даёт очень широкий взгляд на то, как интеллектуальные системы рассуждают, оценивают неопределённость и принимают решения в условиях ограничений.
Одна из самых интересных вещей в интернете — это огромное количество качественных бесплатных знаний. Сложные темы, которые раньше требовали доступа к дорогим университетам или специализированным библиотекам, сегодня доступны любому, кто готов учиться!
Algorithms for Decision Making (PDF)
Please open Telegram to view this post
VIEW IN TELEGRAM
Перестань угадывать, какие модели поместятся в твою VRAM.
llmfit — CLI-инструмент, который автоматически определяет твоё железо и ранжирует 206 моделей по тому, что реально запустится на системе.
Ты скачиваешь 70B модель и надеешься, что она влезет. Или вручную прикидываешь требования по памяти для разных уровней квантизации — и всё равно получаешь модели, которые падают или работают слишком медленно.
llmfit это меняет. Он определяет CPU, RAM, GPU и VRAM, затем оценивает каждую модель в своей базе под твоё железо.
Вместо того чтобы предполагать один уровень квантизации, он подбирает максимальное качество, которое помещается. Начинает с Q8_0, затем понижает вплоть до Q2_K, если нужно. Если не помещается даже при полном контексте — пробует половину контекста. В итоге ты получаешь модель с максимально возможным качеством, которая реально работает.
Каждая модель получает оценку по Quality, Speed, Context и Capability. Вес этих параметров меняется в зависимости от задачи: для чат-моделей важнее скорость, для reasoning — качество.
Можно запускать как интерактивный TUI для просмотра моделей, через CLI для таблицы или получать JSON для скриптов. Есть REST API для кластерных планировщиков.
Также можно использовать в обратную сторону: указать желаемую модель и целевую производительность — и инструмент скажет, какое железо нужно.
Главная ценность: ты видишь отсортированные варианты до скачивания. Больше не нужно тратить десятки гигабайт на модели, которые не запустятся.
Проект полностью open-source.
👉 @DataSciencegx
llmfit — CLI-инструмент, который автоматически определяет твоё железо и ранжирует 206 моделей по тому, что реально запустится на системе.
Ты скачиваешь 70B модель и надеешься, что она влезет. Или вручную прикидываешь требования по памяти для разных уровней квантизации — и всё равно получаешь модели, которые падают или работают слишком медленно.
llmfit это меняет. Он определяет CPU, RAM, GPU и VRAM, затем оценивает каждую модель в своей базе под твоё железо.
Вместо того чтобы предполагать один уровень квантизации, он подбирает максимальное качество, которое помещается. Начинает с Q8_0, затем понижает вплоть до Q2_K, если нужно. Если не помещается даже при полном контексте — пробует половину контекста. В итоге ты получаешь модель с максимально возможным качеством, которая реально работает.
Каждая модель получает оценку по Quality, Speed, Context и Capability. Вес этих параметров меняется в зависимости от задачи: для чат-моделей важнее скорость, для reasoning — качество.
Можно запускать как интерактивный TUI для просмотра моделей, через CLI для таблицы или получать JSON для скриптов. Есть REST API для кластерных планировщиков.
Также можно использовать в обратную сторону: указать желаемую модель и целевую производительность — и инструмент скажет, какое железо нужно.
Главная ценность: ты видишь отсортированные варианты до скачивания. Больше не нужно тратить десятки гигабайт на модели, которые не запустятся.
Проект полностью open-source.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Эта математика лежит в основе каждой AI-модели, которую сейчас обучают.
Градиент. Якобиан. Гессиан.
Три слова, которые сначала выглядят пугающе.
Но на самом деле это просто три способа измерять изменение.
𝟭. 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 ∇f (градиент)
Берёт скалярную функцию:
f : ℝⁿ → ℝ
Возвращает вектор первых частных производных.
Он отвечает на вопрос:
«В каком направлении функция f растёт быстрее всего?»
Именно поэтому градиенты — основа оптимизации.
Градиентный спуск идёт в противоположную сторону, потому что градиент указывает направление наибольшего роста.
Backpropagation эффективно вычисляет градиенты во время обучения.
𝟮. 𝗝𝗮𝗰𝗼𝗯𝗶𝗮𝗻 J_F (якобиан)
Берёт векторнозначную функцию:
F : ℝⁿ → ℝᵐ
Возвращает матрицу m × n первых частных производных.
Он отвечает:
«Как каждый выход зависит от каждого входа?»
Якобиан — это локальное линейное отображение векторной функции.
Он встречается в:
→ анализе чувствительности
→ замене переменных
→ автоматическом дифференцировании
→ forward-mode AD
→ reverse-mode AD / backpropagation
В простых терминах:
forward-mode AD использует произведения якобиан–вектор.
reverse-mode AD использует произведения вектор–якобиан.
𝟯. 𝗛𝗲𝘀𝘀𝗶𝗮𝗻 H_f (гессиан)
Берёт скалярную функцию:
f : ℝⁿ → ℝ
Возвращает матрицу n × n вторых частных производных.
Он отвечает:
«Как меняется сам градиент?»
То есть гессиан измеряет кривизну.
Когда вторые частные производные непрерывны, гессиан симметричен.
В критической точке:
→ положительно определённый гессиан → строгий локальный минимум
→ отрицательно определённый гессиан → строгий локальный максимум
→ неопределённый гессиан → седловая точка
Чистая ментальная модель
Градиент = первые производные одного выхода
→ показывает направление
Якобиан = первые производные многих выходов
→ показывает чувствительность
Гессиан = вторые производные одного выхода
→ показывает кривизну
И связь между ними проста:
Гессиан — это якобиан градиента.
Для скалярного выхода якобиан содержит те же частные производные, что и градиент, с точностью до соглашения о строках/столбцах.
Одна и та же идея:
измерение изменения.
Разные объекты:
направление, чувствительность, кривизна.
Когда это становится понятным, оптимизация перестаёт выглядеть как набор формул.
Она начинает выглядеть как карта задачи.
👉 @DataSciencegx
Градиент. Якобиан. Гессиан.
Три слова, которые сначала выглядят пугающе.
Но на самом деле это просто три способа измерять изменение.
𝟭. 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 ∇f (градиент)
Берёт скалярную функцию:
f : ℝⁿ → ℝ
Возвращает вектор первых частных производных.
Он отвечает на вопрос:
«В каком направлении функция f растёт быстрее всего?»
Именно поэтому градиенты — основа оптимизации.
Градиентный спуск идёт в противоположную сторону, потому что градиент указывает направление наибольшего роста.
Backpropagation эффективно вычисляет градиенты во время обучения.
𝟮. 𝗝𝗮𝗰𝗼𝗯𝗶𝗮𝗻 J_F (якобиан)
Берёт векторнозначную функцию:
F : ℝⁿ → ℝᵐ
Возвращает матрицу m × n первых частных производных.
Он отвечает:
«Как каждый выход зависит от каждого входа?»
Якобиан — это локальное линейное отображение векторной функции.
Он встречается в:
→ анализе чувствительности
→ замене переменных
→ автоматическом дифференцировании
→ forward-mode AD
→ reverse-mode AD / backpropagation
В простых терминах:
forward-mode AD использует произведения якобиан–вектор.
reverse-mode AD использует произведения вектор–якобиан.
𝟯. 𝗛𝗲𝘀𝘀𝗶𝗮𝗻 H_f (гессиан)
Берёт скалярную функцию:
f : ℝⁿ → ℝ
Возвращает матрицу n × n вторых частных производных.
Он отвечает:
«Как меняется сам градиент?»
То есть гессиан измеряет кривизну.
Когда вторые частные производные непрерывны, гессиан симметричен.
В критической точке:
→ положительно определённый гессиан → строгий локальный минимум
→ отрицательно определённый гессиан → строгий локальный максимум
→ неопределённый гессиан → седловая точка
Чистая ментальная модель
Градиент = первые производные одного выхода
→ показывает направление
Якобиан = первые производные многих выходов
→ показывает чувствительность
Гессиан = вторые производные одного выхода
→ показывает кривизну
И связь между ними проста:
Гессиан — это якобиан градиента.
Для скалярного выхода якобиан содержит те же частные производные, что и градиент, с точностью до соглашения о строках/столбцах.
Одна и та же идея:
измерение изменения.
Разные объекты:
направление, чувствительность, кривизна.
Когда это становится понятным, оптимизация перестаёт выглядеть как набор формул.
Она начинает выглядеть как карта задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥3🤯1
Себастьян Рашка собрал огромный репозиторий, где шаг за шагам показывает, как собрать свой ChatGPT с нуля: https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04/09_dsa
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥1🏆1
38 лет учёные-компьютерщики считали, что алгоритм Дейкстры оптимален для разреженных графов.
Логика казалась железобетонной:
- Дейкстра сортирует вершины по расстоянию
- Сортировка имеет нижнюю границу O(n log n)
- Значит, кратчайшие пути не могут быть найдены быстрее
5 исследователей доказали, что это предположение неверно.
Хитрость => объединить priority queue из Дейкстры с динамическим программированием Беллмана–Форда. Разделяй и властвуй по множествам вершин. Сжимать фронтир.
Результат: O(m log^(2/3) n)
Первое улучшение для ориентированных графов со времён Fibonacci heap в 1987 году.
Tsinghua. Stanford. Max Planck. 17 страниц.
https://arxiv.org/pdf/2504.17033
👉 @DataSciencegx
Логика казалась железобетонной:
- Дейкстра сортирует вершины по расстоянию
- Сортировка имеет нижнюю границу O(n log n)
- Значит, кратчайшие пути не могут быть найдены быстрее
5 исследователей доказали, что это предположение неверно.
Хитрость => объединить priority queue из Дейкстры с динамическим программированием Беллмана–Форда. Разделяй и властвуй по множествам вершин. Сжимать фронтир.
Результат: O(m log^(2/3) n)
Первое улучшение для ориентированных графов со времён Fibonacci heap в 1987 году.
Tsinghua. Stanford. Max Planck. 17 страниц.
https://arxiv.org/pdf/2504.17033
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2
Почему KV-кэш — одна из главных причин высокой скорости работы LLM?
KV-кэш связывает механизм внимания (attention) с этапом генерации в авторегрессионных моделях.
Такие модели генерируют текст токен за токеном, но каждый новый токен всё равно должен учитывать все предыдущие токены.
→ Чтобы ускорить фазу декодирования (decode phase), модели сохраняют ранее вычисленные векторы Key и Value в KV-кэше.
→ Во время генерации вычисляются только новые состояния Q/K/V для последнего токена, после чего выполняется attention по уже закэшированным представлениям прошлых токенов.
Без KV-кэша модели пришлось бы заново вычислять ключи и значения для всей последовательности на каждом шаге (например, при генерации 501-го токена пришлось бы снова пересчитывать токены с 1-го по 500-й), что крайне медленно.
Однако у KV-кэша есть компромисс — потребление памяти. Его размер растёт вместе с длиной контекста, размером батча, количеством слоёв и числом голов внимания (attention heads).
Поэтому сегодня значительная часть исследований сосредоточена на повышении эффективности KV-кэша и оптимизации использования памяти. Например:
Улучшение механизма внимания, поскольку именно он определяет, как формируется KV-кэш. В зависимости от задачи можно использовать более продвинутые варианты attention, такие как CompactAttention, MHA, MLA и другие.
Оптимизация управления памятью. Система должна определять, какие данные хранить долго, какие держать локально, когда выполнять суммаризацию контекста, а когда удалять часть данных.
Подробнее о KV-кэше и механизме внимания можно прочитать здесь:
https://turingpost.com/p/your-ultimate-guide-to-attention-mechanism-qkv-and-kv-cache
А о том, как они вписываются в полный пайплайн инференса LLM — здесь:
https://turingpost.com/p/llm-inference-from-tokens-to-answers
👉 @DataSciencegx
KV-кэш связывает механизм внимания (attention) с этапом генерации в авторегрессионных моделях.
Такие модели генерируют текст токен за токеном, но каждый новый токен всё равно должен учитывать все предыдущие токены.
→ Чтобы ускорить фазу декодирования (decode phase), модели сохраняют ранее вычисленные векторы Key и Value в KV-кэше.
→ Во время генерации вычисляются только новые состояния Q/K/V для последнего токена, после чего выполняется attention по уже закэшированным представлениям прошлых токенов.
Без KV-кэша модели пришлось бы заново вычислять ключи и значения для всей последовательности на каждом шаге (например, при генерации 501-го токена пришлось бы снова пересчитывать токены с 1-го по 500-й), что крайне медленно.
Однако у KV-кэша есть компромисс — потребление памяти. Его размер растёт вместе с длиной контекста, размером батча, количеством слоёв и числом голов внимания (attention heads).
Поэтому сегодня значительная часть исследований сосредоточена на повышении эффективности KV-кэша и оптимизации использования памяти. Например:
Улучшение механизма внимания, поскольку именно он определяет, как формируется KV-кэш. В зависимости от задачи можно использовать более продвинутые варианты attention, такие как CompactAttention, MHA, MLA и другие.
Оптимизация управления памятью. Система должна определять, какие данные хранить долго, какие держать локально, когда выполнять суммаризацию контекста, а когда удалять часть данных.
Подробнее о KV-кэше и механизме внимания можно прочитать здесь:
https://turingpost.com/p/your-ultimate-guide-to-attention-mechanism-qkv-and-kv-cache
А о том, как они вписываются в полный пайплайн инференса LLM — здесь:
https://turingpost.com/p/llm-inference-from-tokens-to-answers
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2
Хватит изучать математику для ML по случайным вкладкам в браузере.
Mathematics for Machine Learning — это курируемая коллекция на GitHub, включающая книги, научные статьи, видеолекции и базовые материалы по математике для изучения и повторения математических основ машинного обучения.
Она помогает выстроить более прочную базу знаний, объединяя проверенные ресурсы вокруг тем, с которыми инженеры машинного обучения сталкиваются постоянно: линейная алгебра, математический анализ, теория вероятностей, статистика, теория информации, матричное исчисление и математика глубокого обучения.
Бесплатный публичный репозиторий на GitHub.
👉 @DataSciencegx
Mathematics for Machine Learning — это курируемая коллекция на GitHub, включающая книги, научные статьи, видеолекции и базовые материалы по математике для изучения и повторения математических основ машинного обучения.
Она помогает выстроить более прочную базу знаний, объединяя проверенные ресурсы вокруг тем, с которыми инженеры машинного обучения сталкиваются постоянно: линейная алгебра, математический анализ, теория вероятностей, статистика, теория информации, матричное исчисление и математика глубокого обучения.
Бесплатный публичный репозиторий на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - dair-ai/Mathematics-for-ML: 🧮 A collection of resources to learn mathematics for machine learning
🧮 A collection of resources to learn mathematics for machine learning - dair-ai/Mathematics-for-ML
❤4🔥2😁1
Не совсем круто изучать system design для LLM по случайным диаграммам.
genai-llm-ml-case-studies — это curated GitHub-коллекция с 500+ реальными case study по GenAI, LLM и ML system design от 130+ компаний.
Она помогает разбирать, как команды проектируют, деплоят и оптимизируют AI-системы, группируя примеры по индустриям, use case’ам, компаниям и архитектурным паттернам.
Ключевые особенности:
• 500+ case study — production-oriented примеры для GenAI, LLM и ML-систем
• Несколько способов навигации — просмотр по индустрии, use case’ам, компаниям или отдельным LLM-кейсам
• LLM-ориентированные темы — разделы по RAG, search, evaluation, fine-tuning, оптимизации inference и multimodal-системам
• Примеры от компаний — включая OpenAI, Anthropic, Microsoft, Google, Meta, Netflix, LinkedIn, GitHub, Spotify и другие
• Архитектурные паттерны — в README показаны схемы direct LLM integration, RAG, multi-agent systems и human-in-the-loop workflow
Проект open-source (лицензия MIT).
👉 @DataSciencegx
genai-llm-ml-case-studies — это curated GitHub-коллекция с 500+ реальными case study по GenAI, LLM и ML system design от 130+ компаний.
Она помогает разбирать, как команды проектируют, деплоят и оптимизируют AI-системы, группируя примеры по индустриям, use case’ам, компаниям и архитектурным паттернам.
Ключевые особенности:
• 500+ case study — production-oriented примеры для GenAI, LLM и ML-систем
• Несколько способов навигации — просмотр по индустрии, use case’ам, компаниям или отдельным LLM-кейсам
• LLM-ориентированные темы — разделы по RAG, search, evaluation, fine-tuning, оптимизации inference и multimodal-системам
• Примеры от компаний — включая OpenAI, Anthropic, Microsoft, Google, Meta, Netflix, LinkedIn, GitHub, Spotify и другие
• Архитектурные паттерны — в README показаны схемы direct LLM integration, RAG, multi-agent systems и human-in-the-loop workflow
Проект open-source (лицензия MIT).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
NVIDIA выпустили: Verified Agent Skills 👊
Verified Skills дают прозрачность в том, что именно делает скилл, откуда он получен, какие риски несёт и был ли он модифицирован.
Каждый verified skill содержит skill card и построен на открытой спецификации Agent Skills, чтобы стабильно работать в Claude Code, OpenAI Codex и Cursor.
👉 @DataSciencegx
Verified Skills дают прозрачность в том, что именно делает скилл, откуда он получен, какие риски несёт и был ли он модифицирован.
Каждый verified skill содержит skill card и построен на открытой спецификации Agent Skills, чтобы стабильно работать в Claude Code, OpenAI Codex и Cursor.
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA Technical Blog
NVIDIA-Verified Agent Skills Provide Capability Governance for AI Agents
Autonomous AI agents are becoming more capable. Open models, Model Context Protocol (MCP)-connected tools, and portable skills are also making agents easier to extend. But scaling agent use with…
Тихо, почти незаметно, AI-инфраструктуру захватывает новая инженерная дисциплина.
И это не prompt engineering. И не выбор модели.
Это harness engineering.
Идея простая: практически любой сбой AI-агента — это проблема scaffolding-а.
Плохой контекст. Плохие инструменты. Отсутствие памяти. Нет верификации.
Этот репозиторий собирает всё необходимое для построения такого scaffolding’а — от статьи про ReAct до гайда Anthropic по context compaction и middleware-паттернов из LangGraph.
Ресурсы от OpenAI, Anthropic, Google, Meta, Microsoft и многих других — в одном месте.
https://github.com/ai-boost/awesome-harness-engineering
👉 @DataSciencegx
И это не prompt engineering. И не выбор модели.
Это harness engineering.
Идея простая: практически любой сбой AI-агента — это проблема scaffolding-а.
Плохой контекст. Плохие инструменты. Отсутствие памяти. Нет верификации.
Этот репозиторий собирает всё необходимое для построения такого scaffolding’а — от статьи про ReAct до гайда Anthropic по context compaction и middleware-паттернов из LangGraph.
Ресурсы от OpenAI, Anthropic, Google, Meta, Microsoft и многих других — в одном месте.
https://github.com/ai-boost/awesome-harness-engineering
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ai-boost/awesome-harness-engineering: Awesome list for AI agent harness engineering: tools, patterns, evals, memory, MCP…
Awesome list for AI agent harness engineering: tools, patterns, evals, memory, MCP, permissions, observability, and orchestration. - ai-boost/awesome-harness-engineering
👍1👎1