Data Portal | DS & ML
8.42K subscribers
391 photos
114 videos
4 files
525 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
Рекомендую бесплатную книгу по машинному обучению и ИИ на GitHub: Machine Learning Q and AI.

Вся книга построена вокруг 30 ключевых вопросов по машинному обучению и искусственному интеллекту — от нейросетей до деплоя моделей, с разбором базовых концептов в одном месте.

GitHub: MachineLearning-QandAI-book репозиторий
Онлайн-версия: Machine Learning Q and AI онлайн

Контент структурирован по 5 основным направлениям: нейронные сети, глубокое обучение, компьютерное зрение, обработка естественного языка и деплой моделей. Такой разрез помогает идти по логической траектории и не терять ключевые темы.

Скачивание не требуется — можно читать прямо в браузере. Подходит разработчикам разного уровня: от базового понимания до прикладной реализации.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Обучите небольшую модель на 110M параметров с нуля на архитектуре DeepSeek-V4. Проект позволяет руками поэкспериментировать с такими фичами, как MLA, MoE, Hyper-Connections и MTP.

https://github.com/huggingface/nanowhale

Nanowhale — это небольшая модель на 110M параметров от Hugging Face, в которую перенесли все ключевые архитектурные особенности DeepSeek-V4:

- MLA (8 attention heads + 1 KV-head);
- MoE (4 роутера + 1 shared expert);
- Hyper-Connections (Sinkhorn routing);
- multi-token prediction.

Сначала модель предобучали 5000 шагов на FineWeb-Edu (2.6B токенов, loss около 5.3), затем провели SFT на SmolTalk в течение 3000 шагов. Accuracy выросла с 36.2% до 48.5%.

Из интересных нюансов:

- Hyper-Connections начинают разваливаться в NaN при использовании bf16, поэтому требуется fp32;
- словарь на 129K токенов оказался слишком большим — эмбеддинги занимают около 37% всех параметров модели.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мозг человека невероятно эффективен, потому что активирует только те нейроны, которые нужны для конкретной мысли. Современные большие языковые модели естественно пытаются делать то же самое (более 95% нейронов в полносвязных слоях остаются неактивными для каждого слова), но железо за это наказывает.

Один из самых раздражающих парадоксов в глубоком обучении: чем меньше вычислений делает модель, тем медленнее она может работать. Причина в том, что неструктурированная разреженность создаёт нерегулярные обращения к памяти, а графические процессоры оптимизированы под предсказуемые плотные блоки вычислений.

sakana AI объединились с NVIDIA, чтобы попытаться исправить это несоответствие железа. Вместо того чтобы заставлять графический процессор адаптироваться к разреженности, они сделали «гибридный» формат, который подгоняет разреженность под графический процессор. Их формат разреженности (TwELL) динамически направляет 99% сильно разрежённых токенов через быстрый путь и использует плотную резервную матрицу как защитный механизм для редких тяжёлых токенов.

С помощью TwELL и нового набора кастомных ядер CUDA для инференса и обучения больших языковых моделей они превратили теоретическую разреженность в реальные ускорения по времени: более 20% ускорения обучения и инференса на графических процессорах H100, а также снижение энергопотребления и требований к памяти.

Доклад: https://arxiv.org/abs/2603.23198
Блог: https://pub.sakana.ai/sparser-faster-llms/
Код: https://github.com/SakanaAI/sparser-faster-llms

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Наивный RAG против Blockify!

Появился новый подход для RAG, который:

- уменьшает размер корпуса данных в 40 раз;
- снижает количество токенов на запрос в 3 раза;
- повышает релевантность векторного поиска в 2.3 раза.

И всё это — в open-source.

Посмотреть можно здесь: https://github.com/iternal-technologies-partners/blockify-agentic-data-optimization

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Сегодня в группе обсуждали, как изучать Harness. Для изучения инженерной части Harness я сейчас использую два проекта:

1. walkinglabs/learn-harness-engineering
Использую, чтобы разобраться в каждом базовом механизме Harness.

2. https://github.com/badlogic/pi-mono?utm_source=chatgpt.com
Изучаю архитектуру и реализацию каждого модуля в этом фреймворке. Если что-то непонятно — прошу ИИ разобрать логику реализации.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Обучение полноценной мультимодальной модели на 0.1B параметров с нуля: одна общая модель обрабатывает текст, речь и изображения, а на выходе генерирует текст и потоковую речь.

MiniMind-O — мультимодальная модель всего на 0.1B параметров с двухконтурной архитектурой Thinker-Talker. Поддерживает текстовые, голосовые и визуальные входные данные, а в качестве вывода умеет генерировать текст и потоковую речь.

В проекте полностью открыты:

- исходный код;
- веса модели;
- тренировочные датасеты;
- технические отчёты.

Базовые алгоритмы реализованы с нуля на PyTorch, а обучение на мини-датасете можно завершить примерно за два часа даже на одной RTX 3090.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи нашли способ ускорить большие языковые модели в 8.5 раза? 🤓

Спекулятивное декодирование — довольно эффективный способ решить проблему узкого места одного токена в традиционном инференсе больших языковых моделей.

Сначала маленькая черновая модель генерирует несколько следующих токенов, затем большая модель проверяет их все сразу за один прямой проход.

Если токен на любой позиции оказывается неверным, сохраняется всё до него, после чего генерация продолжается с этой точки. Такой подход никогда не работает хуже обычного декодирования.

Но текущие черновые модели в спекулятивном декодировании всё ещё предсказывают токены по одному. Из-за этого сам этап черновой генерации становится узким местом, ограничивая ускорение в реальных сценариях примерно 2–3 разами.

DFlash — новая техника, которая заменяет авторегрессионную черновую модель на облегчённую блочную диффузионную модель, предсказывающую все токены параллельно за один проход.

Стоимость черновой генерации остаётся постоянной независимо от количества спекулятивно предсказываемых токенов.

Дополнительно черновая модель получает скрытые признаки из нескольких слоёв целевой модели, которые внедряются в каждый слой генерации черновика. Благодаря этому она делает заметно более точные предсказания по сравнению с моделью, работающей без такого контекста.

В демонстрации ниже обычное декодирование работает со скоростью 48.5 токена в секунду. DFlash достигает 415 токенов в секунду на той же модели без какой-либо потери качества.

Техника уже интегрирована в vLLM, SGLang и Transformers, а модели для черновой генерации доступны на HuggingFace для Qwen3, Qwen3.5, Llama 3.1, Kimi-K2.5, gpt-oss и многих других моделей.

- репозиторий на GitHub

KV-кэширование — ещё одна обязательная техника для ускорения инференса больших языковых моделей. Вот об этом статья.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Одна теорема, которую должен знать каждый ML-инженер:

Лемма Джонсона — Линденштрауса.

Она утверждает, что данные высокой размерности можно спроецировать в пространство гораздо меньшей размерности, при этом приблизительно сохранив попарные расстояния между точками.

Почему это важно:

• Объясняет, почему случайные проекции работают
• Делает обучение в пространствах высокой размерности масштабируемым
• Используется в эмбеддингах, сжатом обучении и поиске ближайших соседей
• Помогает бороться с проклятием размерности

Самое неожиданное:

Можно радикально уменьшить размерность, почти не разрушая геометрию данных.

Именно поэтому многие ML-системы способны эффективно работать даже с огромными пространствами признаков.

Современное обучение представлений тесно связано с этой идеей:

Хорошие эмбеддинги сохраняют структуру данных, одновременно сжимая информацию.

В машинном обучении сжатие часто означает не потерю интеллекта, а удаление избыточности.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Сделали скилл для создания сред обучения с подкреплением

Теперь любой может создавать среды обучения с подкреплением : $ npx skills add adithya-s-k/RL_Envs_101

- Можно создавать среды в нескольких фреймворках, таких как OpenEnv, OpenReward, Verifiers, NemoGym и другие
- в репозитории есть живые рабочие примеры сред, на которые может ссылаться ваш кодинг агент
- скилл изначально рассчитан на то, чтобы определить, какой тип модели вы обучаете, и уже с учётом этого создавать среду


ps. В создании RL-сред для обучения есть гораздо больше аспектов. Один из ключевых это данные, которые этот скилл напрямую не решает. Однако скилл помогает реализовывать инструменты, награды и другие компоненты RL-среды, упрощая переход от идеи к реализации и позволяя быстрее собирать решения на разных фреймворках.

Это всё ещё очень ранняя версия работы и, скорее всего, сильно изменится.

Открыт для вклада в проект и предложений по улучшению. 😀

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
Дообучение Google Gemma 4 полностью бесплатно

Нужен только браузер и доступ к более чем 500 моделям на выбор.

Процесс простой:

1. Открыть блокнот Unsloth в Colab
2. Выбрать модель и датасет
3. Запустить обучение

Готово 😂

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5
Мой пайплайн генерации датасета для fine-tuning:

Codex 5.5 — как оркестратор
DeepSeek v4 Pro — как генератор


Проще говоря, я использую Codex как мозг, а Deepseek как «мускулы», чтобы вручную (handcraft) собирать каждую строку датасета.

Такое «ручное создание» даёт высокое качество. Синтетическая генерация датасета (через Python-скрипты и перефразирование) несложная, но обычно приводит к низкому качеству данных.

Низкое качество данных = низкое качество модели

Но в этом пайплайне Codex проектирует полный workflow для Deepseek. То есть Deepseek не «думает» сам, а просто выполняет каждый batch по спецификации Codex.

После генерации каждый batch проходит через жёсткие quality gates, которые также построены Codex, чтобы отфильтровать слабые строки и оставить только качественные данные.

Самое интересное: с каждым batch Codex улучшает и спецификацию генерации для Deepseek, и quality gates. Этот цикл делает пайплайн быстрее, дешевле и постоянно повышает качество данных.

DeepSeek v4 Pro сейчас очень дешёвый. Я сгенерировал датасет на 100M+ параметров за $80 и потратил около 95% недельной подписки Codex 20x Pro.

Этот пайплайн становится полностью автономным после того, как я утверждаю workflow Codex.
Просто вставь это изображение в Codex и попроси построить pipeline генерации датасета под твой кейс (объясни подробно: какую модель ты будешь дообучать? есть ли у тебя raw dataset или нет и т.д.). Дальше Codex всё сделает сам.

Напиши, какой у тебя опыт.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
3👀2
This media is not supported in your browser
VIEW IN TELEGRAM
Kрутейший интерактивный учебник по теории вероятностей и статистике

Внутри наглядные визуализации, интерактивчики и минимум сухой теории. Можно покрутить распределения, посэмплить выборки, поиграться с доверительными интервалами и наглядно увидеть, как это всё работает

Забираем тут, советую открывать с десктопа

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Бесплатный плейлист из 23 практических туториалов по проектам на Python и Pandas, включая анализ e-commerce, датасеты по фильмам, медицинские данные и создание веб-приложений на Streamlit.

Идеально для формирования сильного портфолио по анализу данных на реальных кейсах.

Плейлист на YouTube

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👎3🔥2
Поздравляем, вы на 1 шаг ближе к работе мечты 🥳

Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉

Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.

Подписывайтесь, чтобы найти ту самую работу

*карьера
1
Производительная ветка llama.cpp с интеграцией нескольких оптимизаций для ускорения инференса и увеличения эффективного контекстного окна: https://github.com/Anbeeld/beellama.cpp

BeeLlama.cpp объединяет основную ветку llama.cpp с технологиями TurboQuant (TCQ) и DFlash speculative decoding, а также KV-cache компрессию. В результате добавляются дополнительные оптимизации для работы с LLM-инференсом:

-speculative decoding с адаптивной глубиной
- сжатие KV-cache (TurboQuant / TCQ)
- серверные механизмы адаптивного контроля “draft” генерации
- защита inference loop (защита от зацикливания вычислений)

Заявленные эффекты:
до ~3× ускорение инференса
до ~7.5× увеличение эффективной длины контекста при том же объёме VRAM

Проект по сути представляет собой performance-oriented форк llama.cpp, ориентированный на оптимизацию вывода LLM-моделей и более эффективное использование памяти и вычислительных ресурсов.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Проекты на PyTorch

Плейлист, который помогает изучать PyTorch через работу над продвинутыми проектами.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования

Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production 😇

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Почему это называют «трюком» (kernel trick)

Во многих алгоритмах машинного обучения используются ядра: метод опорных векторов, ядро главных компонент и другие. Их задача — вычислять скалярное произведение в некотором преобразованном пространстве признаков, обычно высокой размерности, без явного перехода в это пространство.

Идея такая: вместо того чтобы явно строить отображение φ(x) в новое пространство и затем считать ⟨φ(X), φ(Y)⟩, используется функция ядра k(X, Y), которая сразу возвращает результат этого скалярного произведения.

Пример с полиномиальным ядром:
k(X, Y) = (1 + XᵀY)²

Пусть:

X = (x1, x2)
Y = (y1, y2)

Если раскрыть выражение, оно превращается в скалярное произведение двух векторов в пространстве большей размерности (в данном случае — 6 измерений). При этом сами координаты в этом пространстве не вычисляются явно.

Отсюда смысл «трюка»: вычисление результата в высокоразмерном пространстве происходит без явного построения самих векторов в этом пространстве.

Гауссово ядро (RBF) усиливает этот эффект: оно соответствует работе в бесконечномерном пространстве признаков, при этом вычисления остаются конечными и компактными за счёт формы функции ядра.

Математика за RBF-ядром → https://www.dailydoseofds.com/p/the-mathematics-behind-rbf-kernel/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2
Визуальный разбор недавних изменений в архитектурах LLM — от Gemma 4 до DeepSeek V4.
Основной фокус — оптимизации для длинного контекста: шаринг KV-кэша, эмбеддинги на уровне слоёв, layer-wise attention budgets, сжатое внимание и mHC.
Ссылка: статья

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Преврати любую авторегрессионную языковую модель в диффузионную языковую модель.

dLLM — это Python-библиотека, которая объединяет обучение и оценку диффузионных языковых моделей.

Её также можно использовать, чтобы превратить ЛЮБУЮ авторегрессионную языковую модель в диффузионную языковую модель с минимальными вычислительными затратами.

100% открытый исходный код.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM