Data Portal | DS & ML

Мой пайплайн генерации датасета для fine-tuning:

Codex 5.5 — как оркестратор
DeepSeek v4 Pro — как генератор

Проще говоря, я использую Codex как мозг, а Deepseek как «мускулы», чтобы вручную (handcraft) собирать каждую строку датасета.

Такое «ручное создание» даёт высокое качество. Синтетическая генерация датасета (через Python-скрипты и перефразирование) несложная, но обычно приводит к низкому качеству данных.

Низкое качество данных = низкое качество модели

Но в этом пайплайне Codex проектирует полный workflow для Deepseek. То есть Deepseek не «думает» сам, а просто выполняет каждый batch по спецификации Codex.

После генерации каждый batch проходит через жёсткие quality gates, которые также построены Codex, чтобы отфильтровать слабые строки и оставить только качественные данные.

Самое интересное: с каждым batch Codex улучшает и спецификацию генерации для Deepseek, и quality gates. Этот цикл делает пайплайн быстрее, дешевле и постоянно повышает качество данных.

DeepSeek v4 Pro сейчас очень дешёвый. Я сгенерировал датасет на 100M+ параметров за $80 и потратил около 95% недельной подписки Codex 20x Pro.

Этот пайплайн становится полностью автономным после того, как я утверждаю workflow Codex.
Просто вставь это изображение в Codex и попроси построить pipeline генерации датасета под твой кейс (объясни подробно: какую модель ты будешь дообучать? есть ли у тебя raw dataset или нет и т.д.). Дальше Codex всё сделает сам.

Напиши, какой у тебя опыт.

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👀2

912 views07:02

Data Portal | DS & ML

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Kрутейший интерактивный учебник по теории вероятностей и статистике

Внутри наглядные визуализации, интерактивчики и минимум сухой теории. Можно покрутить распределения, посэмплить выборки, поиграться с доверительными интервалами и наглядно увидеть, как это всё работает

Забираем тут, советую открывать с десктопа

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

1.15K views16:07

Data Portal | DS & ML

Бесплатный плейлист из 23 практических туториалов по проектам на Python и Pandas, включая анализ e-commerce, датасеты по фильмам, медицинские данные и создание веб-приложений на Streamlit.

Идеально для формирования сильного портфолио по анализу данных на реальных кейсах.

Плейлист на YouTube

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4👎3🔥2

1.05K views06:07

Data Portal | DS & ML

Поздравляем, вы на 1 шаг ближе к работе мечты 🥳

Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉

Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.

Подписывайтесь, чтобы найти ту самую работу ✨

*карьера

❤1

808 views14:21

Data Portal | DS & ML

Производительная ветка llama.cpp с интеграцией нескольких оптимизаций для ускорения инференса и увеличения эффективного контекстного окна: https://github.com/Anbeeld/beellama.cpp

BeeLlama.cpp объединяет основную ветку llama.cpp с технологиями TurboQuant (TCQ) и DFlash speculative decoding, а также KV-cache компрессию. В результате добавляются дополнительные оптимизации для работы с LLM-инференсом:

-speculative decoding с адаптивной глубиной
- сжатие KV-cache (TurboQuant / TCQ)
- серверные механизмы адаптивного контроля “draft” генерации
- защита inference loop (защита от зацикливания вычислений)

Заявленные эффекты:
до ~3× ускорение инференса
до ~7.5× увеличение эффективной длины контекста при том же объёме VRAM

Проект по сути представляет собой performance-oriented форк llama.cpp, ориентированный на оптимизацию вывода LLM-моделей и более эффективное использование памяти и вычислительных ресурсов.

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - Anbeeld/beellama.cpp: DFlash & TurboQuant in llama.cpp with up to 3x faster generation and 7.5x more KV cache in same…

DFlash & TurboQuant in llama.cpp with up to 3x faster generation and 7.5x more KV cache in same VRAM - Anbeeld/beellama.cpp

805 views16:07

Data Portal | DS & ML

Проекты на PyTorch

Плейлист, который помогает изучать PyTorch через работу над продвинутыми проектами.

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

790 views06:07

Data Portal | DS & ML

Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования

Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production

😇

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

754 views16:07

Data Portal | DS & ML

Почему это называют «трюком» (kernel trick)

Во многих алгоритмах машинного обучения используются ядра: метод опорных векторов, ядро главных компонент и другие. Их задача — вычислять скалярное произведение в некотором преобразованном пространстве признаков, обычно высокой размерности, без явного перехода в это пространство.

Идея такая: вместо того чтобы явно строить отображение φ(x) в новое пространство и затем считать ⟨φ(X), φ(Y)⟩, используется функция ядра k(X, Y), которая сразу возвращает результат этого скалярного произведения.

Пример с полиномиальным ядром:
k(X, Y) = (1 + XᵀY)²

Пусть:

X = (x1, x2)
Y = (y1, y2)

Если раскрыть выражение, оно превращается в скалярное произведение двух векторов в пространстве большей размерности (в данном случае — 6 измерений). При этом сами координаты в этом пространстве не вычисляются явно.

Отсюда смысл «трюка»: вычисление результата в высокоразмерном пространстве происходит без явного построения самих векторов в этом пространстве.

Гауссово ядро (RBF) усиливает этот эффект: оно соответствует работе в бесконечномерном пространстве признаков, при этом вычисления остаются конечными и компактными за счёт формы функции ядра.

Математика за RBF-ядром → https://www.dailydoseofds.com/p/the-mathematics-behind-rbf-kernel/

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

709 views06:07

Data Portal | DS & ML

Визуальный разбор недавних изменений в архитектурах LLM — от Gemma 4 до DeepSeek V4.
Основной фокус — оптимизации для длинного контекста: шаринг KV-кэша, эмбеддинги на уровне слоёв, layer-wise attention budgets, сжатое внимание и mHC.
Ссылка: статья

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

661 views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Преврати любую авторегрессионную языковую модель в диффузионную языковую модель.

dLLM — это Python-библиотека, которая объединяет обучение и оценку диффузионных языковых моделей.

Её также можно использовать, чтобы превратить ЛЮБУЮ авторегрессионную языковую модель в диффузионную языковую модель с минимальными вычислительными затратами.

100% открытый исходный код.

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

596 views06:07

Data Portal | DS & ML

Эта книга на 115 страниц раскрывает детали дообучения больших языковых моделей: https://drive.google.com/file/d/1cS5sWZw9XUDRI4uRh02-28Xq4-PHBqK9/view?usp=drive_link

Полное руководство, которое охватывает:
процесс дообучения больших языковых моделей
сочетание теории и практики

👉

@DataSciencegx

Please open Telegram to view this post

VIEW IN TELEGRAM

369 views16:07

About

Blog

Apps

Platform