Data Portal | DS & ML
8.41K subscribers
418 photos
114 videos
4 files
563 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
Мой пайплайн генерации датасета для fine-tuning:

Codex 5.5 — как оркестратор
DeepSeek v4 Pro — как генератор


Проще говоря, я использую Codex как мозг, а Deepseek как «мускулы», чтобы вручную (handcraft) собирать каждую строку датасета.

Такое «ручное создание» даёт высокое качество. Синтетическая генерация датасета (через Python-скрипты и перефразирование) несложная, но обычно приводит к низкому качеству данных.

Низкое качество данных = низкое качество модели

Но в этом пайплайне Codex проектирует полный workflow для Deepseek. То есть Deepseek не «думает» сам, а просто выполняет каждый batch по спецификации Codex.

После генерации каждый batch проходит через жёсткие quality gates, которые также построены Codex, чтобы отфильтровать слабые строки и оставить только качественные данные.

Самое интересное: с каждым batch Codex улучшает и спецификацию генерации для Deepseek, и quality gates. Этот цикл делает пайплайн быстрее, дешевле и постоянно повышает качество данных.

DeepSeek v4 Pro сейчас очень дешёвый. Я сгенерировал датасет на 100M+ параметров за $80 и потратил около 95% недельной подписки Codex 20x Pro.

Этот пайплайн становится полностью автономным после того, как я утверждаю workflow Codex.
Просто вставь это изображение в Codex и попроси построить pipeline генерации датасета под твой кейс (объясни подробно: какую модель ты будешь дообучать? есть ли у тебя raw dataset или нет и т.д.). Дальше Codex всё сделает сам.

Напиши, какой у тебя опыт.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
3👀3
This media is not supported in your browser
VIEW IN TELEGRAM
Kрутейший интерактивный учебник по теории вероятностей и статистике

Внутри наглядные визуализации, интерактивчики и минимум сухой теории. Можно покрутить распределения, посэмплить выборки, поиграться с доверительными интервалами и наглядно увидеть, как это всё работает

Забираем тут, советую открывать с десктопа

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Бесплатный плейлист из 23 практических туториалов по проектам на Python и Pandas, включая анализ e-commerce, датасеты по фильмам, медицинские данные и создание веб-приложений на Streamlit.

Идеально для формирования сильного портфолио по анализу данных на реальных кейсах.

Плейлист на YouTube

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👎3🔥2
Производительная ветка llama.cpp с интеграцией нескольких оптимизаций для ускорения инференса и увеличения эффективного контекстного окна: https://github.com/Anbeeld/beellama.cpp

BeeLlama.cpp объединяет основную ветку llama.cpp с технологиями TurboQuant (TCQ) и DFlash speculative decoding, а также KV-cache компрессию. В результате добавляются дополнительные оптимизации для работы с LLM-инференсом:

-speculative decoding с адаптивной глубиной
- сжатие KV-cache (TurboQuant / TCQ)
- серверные механизмы адаптивного контроля “draft” генерации
- защита inference loop (защита от зацикливания вычислений)

Заявленные эффекты:
до ~3× ускорение инференса
до ~7.5× увеличение эффективной длины контекста при том же объёме VRAM

Проект по сути представляет собой performance-oriented форк llama.cpp, ориентированный на оптимизацию вывода LLM-моделей и более эффективное использование памяти и вычислительных ресурсов.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Проекты на PyTorch

Плейлист, который помогает изучать PyTorch через работу над продвинутыми проектами.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования

Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production 😇

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Почему это называют «трюком» (kernel trick)

Во многих алгоритмах машинного обучения используются ядра: метод опорных векторов, ядро главных компонент и другие. Их задача — вычислять скалярное произведение в некотором преобразованном пространстве признаков, обычно высокой размерности, без явного перехода в это пространство.

Идея такая: вместо того чтобы явно строить отображение φ(x) в новое пространство и затем считать ⟨φ(X), φ(Y)⟩, используется функция ядра k(X, Y), которая сразу возвращает результат этого скалярного произведения.

Пример с полиномиальным ядром:
k(X, Y) = (1 + XᵀY)²

Пусть:

X = (x1, x2)
Y = (y1, y2)

Если раскрыть выражение, оно превращается в скалярное произведение двух векторов в пространстве большей размерности (в данном случае — 6 измерений). При этом сами координаты в этом пространстве не вычисляются явно.

Отсюда смысл «трюка»: вычисление результата в высокоразмерном пространстве происходит без явного построения самих векторов в этом пространстве.

Гауссово ядро (RBF) усиливает этот эффект: оно соответствует работе в бесконечномерном пространстве признаков, при этом вычисления остаются конечными и компактными за счёт формы функции ядра.

Математика за RBF-ядром → https://www.dailydoseofds.com/p/the-mathematics-behind-rbf-kernel/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
Визуальный разбор недавних изменений в архитектурах LLM — от Gemma 4 до DeepSeek V4.
Основной фокус — оптимизации для длинного контекста: шаринг KV-кэша, эмбеддинги на уровне слоёв, layer-wise attention budgets, сжатое внимание и mHC.
Ссылка: статья

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Преврати любую авторегрессионную языковую модель в диффузионную языковую модель.

dLLM — это Python-библиотека, которая объединяет обучение и оценку диффузионных языковых моделей.

Её также можно использовать, чтобы превратить ЛЮБУЮ авторегрессионную языковую модель в диффузионную языковую модель с минимальными вычислительными затратами.

100% открытый исходный код.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Эта книга на 115 страниц раскрывает детали дообучения больших языковых моделей: https://drive.google.com/file/d/1cS5sWZw9XUDRI4uRh02-28Xq4-PHBqK9/view?usp=drive_link

Полное руководство, которое охватывает:
процесс дообучения больших языковых моделей
сочетание теории и практики

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
«Mathematical Theory of Deep Learning» — отличный бесплатный ресурс для всех, кто интересуется математической структурой современных систем глубокого обучения. Книга вводит теорию глубоких нейросетей через теорию аппроксимации, теорию оптимизации и теорию статистического обучения — три ключевых направления, на которых строится современный диплёрнинг.

Особенно интересна попытка совместить математическую строгость с доступной подачей материала. Автор концентрируется на базовых идеях, необходимых для понимания современных ИИ-систем, при этом не жертвуя глубиной изложения. Несмотря на понятную структуру, книга всё же ориентирована на подготовленную аудиторию.
Это также большой вклад в открытое образовательное сообщество и крайне ценный бесплатный ресурс для студентов, исследователей и всех, кто хочет изучать глубокое обучение на более строгом математическом уровне.

arxiv.org/abs/2407.18384

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Независимый исследователь ML исправил причину, по которой LLM пишут плохо, и у него есть демонстрация, чтобы это доказать.

Анонс: Distribution Fine Tuning (DFT) — пост-тренировочный шаг, который исправляет стиль письма LLM.
Модельные выводы прошли проверку панограмм на 100% тестовых случаев.

Ключевая идея: вместо того чтобы пытаться улучшить «качество письма» (что слишком размыто), он сосредоточился на том, чтобы выводы модели были ближе к распределению данных обучения.

Удивительно, но SFT — это не всё, что нужно. Расстояние распределений между выводами модели и эталонными человеческими текстами оказалось огромным.

С помощью DFT удалось сократить расстояние распределений на 49%, что привело к росту:
креативности на +164%
когерентности на +28%
детальности смысла на +146%

DFT также предотвращает чрезмерное использование «стоп-сигналов» вроде эм-деша или конструкций типа «это не X, это Y».

Планируется выпуск небольшой модели с открытыми весами, обученной с DFT.

Демо: https://dft.rosmine.ai
Технический отчёт: https://rosmine.ai/2026/05/18/fixing-llm-writing-with-distribution-fine-tuning/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Парсинг с использованием искусственного интеллекта

Преобразуйте любую страницу в структурированные данные.

Открытый исходный код. Поддерживает GPT, Gemini, Sonnet…
http://github.com/mishushakov/llm-scraper

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
«Introduction to Algorithms» — выдающийся университетский ресурс для всех, кто изучает алгоритмы и компьютерные науки.

Книга охватывает вычислительную сложность, структуры данных, алгоритмы на графах, динамическое программирование, методы «разделяй и властвуй», жадные алгоритмы, рандомизированные алгоритмы и многие математические основы современной компьютерной науки.

Особенно ценно здесь сочетание математической строгости и практического алгоритмического мышления. Это одна из тех книг, которые сильно меняют подход к анализу задач, эффективности и самим вычислениям.
Обязательный инструмент в библиотеке любого разработчика и инженера, работающего в сфере компьютерных наук.

https://www.cs.mcgill.ca/~akroit/math/compsci/Cormen%20Introduction%20to%20Algorithms.pdf

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👀2
MIT выпустил новый метод RL — Pedagogical RL.

Главный урок: даже корректные трассы рассуждений могут быть плохими данными для обучения.

Идея похожа на обучение кого-то backprop.
Предположим, у вас есть маленький вычислительный граф:

z = w * x + b
a = ReLU(z)
L = (a - y)^2


Если вы уже понимаете backprop, можно сразу записать градиент:
dL/dw = 2 * (a - y) * 1[z > 0] * x


Ответ правильный, но он пропускает процесс рассуждений.
Чтобы дойти до него корректно, нужно разбить вычисление на локальные части:
dL/da = 2 * (a - y)
da/dz = 1[z > 0]
dz/dw = x


Тогда backprop — это просто композиция локальных производных в обратном порядке:
dL/dw = dL/da * da/dz * dz/dw = 2 * (a - y) * 1[z > 0] * x


Показать студенту только конечный градиент не учит их находить градиенты на новых графах.
Даже фраза «просто используй правило цепочки» может быть слишком большим скачком, если студент не умеет разложить вычисление на промежуточные узлы и локальные производные.

Reasoning RL сталкивается с той же проблемой.
Rollout может пройти проверку, но при этом содержать шаг, который студент-модель почти никогда не сделала бы.
Траектория даёт правильный ответ, но сигнал обучения нестабилен, потому что путь слишком далёк от текущей политики студента.

Pedagogical RL:
Тренирует «привилегированного» учителя, который знает ответ.
Вознаграждает его за создание траекторий, которые студент может усвоить.

Хитрость: использовать спайк-ориентированное вознаграждение.
Оно штрафует отдельные резкие «сюрпризы» в траектории, даже если средняя вероятность выглядит нормальной.

Студент учится через surprisal-gated imitation:
Токены учителя, которые всё ещё слишком удивительны, получают пониженный вес.
Учитель учится как обучать на текущем уровне студента.

Эффект Pedagogical RL:
RL становится эффективнее, выбирая траектории, которым студент готов учиться.
Меньше ожидания «удачных» rollouts.
Больше сигнала обучения от примеров, соответствующих текущему уровню студента.

https://noahziems.com/pedagogical-rl

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Вышла статья HRM-Text.

В HRM-Text исследуют другой подход к предобучению языковых моделей:

- иерархические рекуррентные вычисления,
- обучение через завершение задач,
- рассуждение в латентном пространстве.

При размере всего 1 млрд параметров HRM-Text показывает конкурентные результаты с заметно меньшими требованиями к обучению:

- 1 млрд параметров,
- 40 млрд уникальных токенов,
- около одного дня предобучения,
- примерно $1000 стоимости тренировки.

Paper: sapientinc.github.io/HRM-Text/asset
GitHub: github.com/sapientinc/HRM
Hugging Face: huggingface.co/sapientinc/HRM

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
HuggingFace перезапустили легендарную платформу с AI/ML-исследованиями, где можно бесплатно следить за самыми хайповыми papers, бенчмарками и новыми методами.

Следим за развитием AI:

• подборки по Agents, Robotics и World Models;
• отслеживание самых быстрорастущих AI-трендов;
• бенчмарки и лидерборды моделей;
• поиск статей по конкретным методам вроде RLVR;
• более 50k исследований на сайте.

Добавляем в закладки тут.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
7
«Dive into Deep Learning» — это книга с открытым исходным кодом, которая формирует математическую базу для больших языковых моделей, охватывая линейную алгебру, математический анализ, теорию вероятностей, методы оптимизации, обратное распространение ошибки, механизмы внимания и архитектуры трансформеров.

Книга последовательно переходит от классических нейронных сетей и сверточных нейронных сетей к современным трансформерам и практическим техникам, применяемым в больших языковых моделях.

Объём — более 1000 страниц. Внутри — понятные объяснения, практические примеры и задания, что делает её одним из наиболее полных бесплатных ресурсов для понимания математической структуры современных систем искусственного интеллекта и языковых моделей.

arxiv.org/pdf/2106.11342

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Проектирование RAG с поиском для 10 млн документов с минимизацией галлюцинаций

1. Ингест и нормализация документов
Удаление дублей, приведение к единому формату, извлечение метаданных, ведение версионности.

2. Гибридный поиск (BM25 + векторные представления)
BM25 закрывает точные совпадения по ключевым словам, векторный поиск — семантическое соответствие. Один подход без второго на таком масштабе обычно проседает по точности.

3. Поиск через приближённые ближайшие соседи + переоценка
Приближённый поиск ближайших соседей быстро достаёт кандидатов из миллионов фрагментов. Дальше ранжирующая модель пересчитывает релевантность через более тяжёлое сравнение запроса и фрагментов.

4. Скоринг доверия к источникам
Каждый фрагмент получает оценку по свежести, надёжности источника, перекрытию и согласованности с другими найденными результатами. Слабые по доверию данные не должны сильно влиять на итоговый ответ.

5. Генерация с жёсткими ограничениями контекста
Модель работает только в рамках извлечённого контекста. Добавление знаний вне контекста запрещается логикой пайплайна.

6. Ответы с привязкой к источникам
Каждое существенное утверждение должно ссылаться на конкретный фрагмент, документ или временную метку.

7. Фолбэк при низкой уверенности поиска
Если суммарная уверенность контекста падает ниже порога, возвращается ответ вида «недостаточно данных».

8. Непрерывная проверка качества
Прогон атакующих запросов, метрики полноты поиска, тесты на галлюцинации, контроль деградации ранжирования.

9. Кэширование и слой памяти
Кэшируются частые запросы и цепочки поиска, чтобы снижать задержки и стоимость вычислений.

10. Наблюдаемость на всех этапах
Трассировка пути запроса, ранжирования фрагментов, влияния токенов и точек отказа.

При масштабе 10 млн документов качество поиска становится определяющим фактором сильнее, чем выбор генеративной модели.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак релизнул скилл для claude code, который сам проектирует и пишет синтетические данные, окружение и награды для дообучения меньшей модели , то есть student-а. 🏋️‍♂️

Он дообучает student-а на реальном датасете, читает трейсы с фейлами, затем пишет синтетические данные, verifier-окружение и функцию награды, чтобы закрыть найденные гэпы. после этого — новый цикл дообучения.

цикл:
-> базовый прогон на реальных данных
-> анализ rollout-ов с низкой наградой
-> генерация синтетического датасета на ~500–1000 строк
-> создание verifier-окружения + рубрики вокруг него
-> продолжение обучения с post-train чекпоинта
-> eval на реальном test split
-> сохраняем то, что помогает, и итеративно дорабатываем остальное

1. результат: qwen3-0.6B-base на gsm8k. 700 синтетических строк подняли результат с 0.7854 -> 0.8158 на полном тестовом наборе.
2. можно запускать с любым лимитом по wall-clock времени или количеству итераций. цикл продолжает работать, пока не закончится бюджет.
3. построено на verifiers от willccbb и PrimeIntellect для обучения. работает с любым окружением, где есть train и eval датасет.

p.s. автор пока не придумал название. autoresearch от karpathy или synthetic envs

https://github.com/vivekvkashyap/synthetic-self-improve-rl/tree/main

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
1
“Algorithms for Decision Making” — это бесплатная книга о математических основах искусственного интеллекта, автономных систем принятия решений и современного машинного обучения.

Опубликована MIT Press, книга объединяет вероятности, оптимизацию, планирование, поиск, обучение с подкреплением, марковские процессы принятия решений (MDP), теорию полезности и последовательное принятие решений в строгой, но современной форме.

В книге более 700 страниц, и она даёт очень широкий взгляд на то, как интеллектуальные системы рассуждают, оценивают неопределённость и принимают решения в условиях ограничений.

Одна из самых интересных вещей в интернете — это огромное количество качественных бесплатных знаний. Сложные темы, которые раньше требовали доступа к дорогим университетам или специализированным библиотекам, сегодня доступны любому, кто готов учиться!

Algorithms for Decision Making (PDF)

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM