Data Portal | DS & ML – Telegram

Data Portal | DS & ML

8.42K subscribers

391 photos

114 videos

4 files

525 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.42K subscribers

Data Portal | DS & ML

Рекомендую бесплатную книгу по машинному обучению и ИИ на GitHub: Machine Learning Q and AI.

Вся книга построена вокруг 30 ключевых вопросов по машинному обучению и искусственному интеллекту — от нейросетей до деплоя моделей, с разбором базовых концептов в одном месте.

GitHub: MachineLearning-QandAI-book репозиторий
Онлайн-версия: Machine Learning Q and AI онлайн

Контент структурирован по 5 основным направлениям: нейронные сети, глубокое обучение, компьютерное зрение, обработка естественного языка и деплой моделей. Такой разрез помогает идти по логической траектории и не терять ключевые темы.

Скачивание не требуется — можно читать прямо в браузере. Подходит разработчикам разного уровня: от базового понимания до прикладной реализации.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.3K views16:07

Data Portal | DS & ML

Обучите небольшую модель на 110M параметров с нуля на архитектуре DeepSeek-V4. Проект позволяет руками поэкспериментировать с такими фичами, как MLA, MoE, Hyper-Connections и MTP.

https://github.com/huggingface/nanowhale

Nanowhale — это небольшая модель на 110M параметров от Hugging Face, в которую перенесли все ключевые архитектурные особенности DeepSeek-V4:

- MLA (8 attention heads + 1 KV-head);
- MoE (4 роутера + 1 shared expert);
- Hyper-Connections (Sinkhorn routing);
- multi-token prediction.

Сначала модель предобучали 5000 шагов на FineWeb-Edu (2.6B токенов, loss около 5.3), затем провели SFT на SmolTalk в течение 3000 шагов. Accuracy выросла с 36.2% до 48.5%.

Из интересных нюансов:

- Hyper-Connections начинают разваливаться в NaN при использовании bf16, поэтому требуется fp32;
- словарь на 129K токенов оказался слишком большим — эмбеддинги занимают около 37% всех параметров модели.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - huggingface/nanowhale

Contribute to huggingface/nanowhale development by creating an account on GitHub.

1.11K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Мозг человека невероятно эффективен, потому что активирует только те нейроны, которые нужны для конкретной мысли. Современные большие языковые модели естественно пытаются делать то же самое (более 95% нейронов в полносвязных слоях остаются неактивными для каждого слова), но железо за это наказывает.

Один из самых раздражающих парадоксов в глубоком обучении: чем меньше вычислений делает модель, тем медленнее она может работать. Причина в том, что неструктурированная разреженность создаёт нерегулярные обращения к памяти, а графические процессоры оптимизированы под предсказуемые плотные блоки вычислений.

sakana AI объединились с NVIDIA, чтобы попытаться исправить это несоответствие железа. Вместо того чтобы заставлять графический процессор адаптироваться к разреженности, они сделали «гибридный» формат, который подгоняет разреженность под графический процессор. Их формат разреженности (TwELL) динамически направляет 99% сильно разрежённых токенов через быстрый путь и использует плотную резервную матрицу как защитный механизм для редких тяжёлых токенов.

С помощью TwELL и нового набора кастомных ядер CUDA для инференса и обучения больших языковых моделей они превратили теоретическую разреженность в реальные ускорения по времени: более 20% ускорения обучения и инференса на графических процессорах H100, а также снижение энергопотребления и требований к памяти.

Доклад: https://arxiv.org/abs/2603.23198
Блог: https://pub.sakana.ai/sparser-faster-llms/
Код: https://github.com/SakanaAI/sparser-faster-llms

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

1.13K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Наивный RAG против Blockify!

Появился новый подход для RAG, который:

- уменьшает размер корпуса данных в 40 раз;
- снижает количество токенов на запрос в 3 раза;
- повышает релевантность векторного поиска в 2.3 раза.

И всё это — в open-source.

Посмотреть можно здесь: https://github.com/iternal-technologies-partners/blockify-agentic-data-optimization

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.46K views06:07

Data Portal | DS & ML

Сегодня в группе обсуждали, как изучать Harness. Для изучения инженерной части Harness я сейчас использую два проекта:

1. walkinglabs/learn-harness-engineering
Использую, чтобы разобраться в каждом базовом механизме Harness.

2. https://github.com/badlogic/pi-mono?utm_source=chatgpt.com
Изучаю архитектуру и реализацию каждого модуля в этом фреймворке. Если что-то непонятно — прошу ИИ разобрать логику реализации.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - earendil-works/pi: AI agent toolkit: coding agent CLI, unified LLM API, TUI & web UI libraries, Slack bot, vLLM pods

AI agent toolkit: coding agent CLI, unified LLM API, TUI & web UI libraries, Slack bot, vLLM pods - earendil-works/pi

1.14K views16:07

Data Portal | DS & ML

Обучение полноценной мультимодальной модели на 0.1B параметров с нуля: одна общая модель обрабатывает текст, речь и изображения, а на выходе генерирует текст и потоковую речь.

MiniMind-O — мультимодальная модель всего на 0.1B параметров с двухконтурной архитектурой Thinker-Talker. Поддерживает текстовые, голосовые и визуальные входные данные, а в качестве вывода умеет генерировать текст и потоковую речь.

В проекте полностью открыты:

- исходный код;
- веса модели;
- тренировочные датасеты;
- технические отчёты.

Базовые алгоритмы реализованы с нуля на PyTorch, а обучение на мини-датасете можно завершить примерно за два часа даже на одной RTX 3090.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - jingyaogong/minimind-o: 🎙️ 「大模型」从0训练0.1B能听能说能看的全模态Omni模型！A 0.1B Omni model trained from scratch, capable of listening…

🎙️ 「大模型」从0训练0.1B能听能说能看的全模态Omni模型！A 0.1B Omni model trained from scratch, capable of listening, speaking, and seeing! - jingyaogong/minimind-o

❤4

1.14K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Исследователи нашли способ ускорить большие языковые модели в 8.5 раза?

🤓

Спекулятивное декодирование — довольно эффективный способ решить проблему узкого места одного токена в традиционном инференсе больших языковых моделей.

Сначала маленькая черновая модель генерирует несколько следующих токенов, затем большая модель проверяет их все сразу за один прямой проход.

Если токен на любой позиции оказывается неверным, сохраняется всё до него, после чего генерация продолжается с этой точки. Такой подход никогда не работает хуже обычного декодирования.

Но текущие черновые модели в спекулятивном декодировании всё ещё предсказывают токены по одному. Из-за этого сам этап черновой генерации становится узким местом, ограничивая ускорение в реальных сценариях примерно 2–3 разами.

DFlash — новая техника, которая заменяет авторегрессионную черновую модель на облегчённую блочную диффузионную модель, предсказывающую все токены параллельно за один проход.

Стоимость черновой генерации остаётся постоянной независимо от количества спекулятивно предсказываемых токенов.

Дополнительно черновая модель получает скрытые признаки из нескольких слоёв целевой модели, которые внедряются в каждый слой генерации черновика. Благодаря этому она делает заметно более точные предсказания по сравнению с моделью, работающей без такого контекста.

В демонстрации ниже обычное декодирование работает со скоростью 48.5 токена в секунду. DFlash достигает 415 токенов в секунду на той же модели без какой-либо потери качества.

Техника уже интегрирована в vLLM, SGLang и Transformers, а модели для черновой генерации доступны на HuggingFace для Qwen3, Qwen3.5, Llama 3.1, Kimi-K2.5, gpt-oss и многих других моделей.

- репозиторий на GitHub

KV-кэширование — ещё одна обязательная техника для ускорения инференса больших языковых моделей. Вот об этом статья.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

1.05K views16:07

Data Portal | DS & ML

Одна теорема, которую должен знать каждый ML-инженер:

Лемма Джонсона — Линденштрауса.

Она утверждает, что данные высокой размерности можно спроецировать в пространство гораздо меньшей размерности, при этом приблизительно сохранив попарные расстояния между точками.

Почему это важно:

• Объясняет, почему случайные проекции работают
• Делает обучение в пространствах высокой размерности масштабируемым
• Используется в эмбеддингах, сжатом обучении и поиске ближайших соседей
• Помогает бороться с проклятием размерности

Самое неожиданное:

Можно радикально уменьшить размерность, почти не разрушая геометрию данных.

Именно поэтому многие ML-системы способны эффективно работать даже с огромными пространствами признаков.

Современное обучение представлений тесно связано с этой идеей:

Хорошие эмбеддинги сохраняют структуру данных, одновременно сжимая информацию.

В машинном обучении сжатие часто означает не потерю интеллекта, а удаление избыточности.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6

1.08K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Сделали скилл для создания сред обучения с подкреплением

Теперь любой может создавать среды обучения с подкреплением : $ npx skills add adithya-s-k/RL_Envs_101

- Можно создавать среды в нескольких фреймворках, таких как OpenEnv, OpenReward, Verifiers, NemoGym и другие
- в репозитории есть живые рабочие примеры сред, на которые может ссылаться ваш кодинг агент
- скилл изначально рассчитан на то, чтобы определить, какой тип модели вы обучаете, и уже с учётом этого создавать среду

ps. В создании RL-сред для обучения есть гораздо больше аспектов. Один из ключевых это данные, которые этот скилл напрямую не решает. Однако скилл помогает реализовывать инструменты, награды и другие компоненты RL-среды, упрощая переход от идеи к реализации и позволяя быстрее собирать решения на разных фреймворках.

Это всё ещё очень ранняя версия работы и, скорее всего, сильно изменится.

Открыт для вклада в проект и предложений по улучшению.

😀

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

973 views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Дообучение Google Gemma 4 полностью бесплатно

Нужен только браузер и доступ к более чем 500 моделям на выбор.

Процесс простой:

1. Открыть блокнот Unsloth в Colab
2. Выбрать модель и датасет
3. Запустить обучение

Готово 😂

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥5

966 views06:07

Data Portal | DS & ML

Мой пайплайн генерации датасета для fine-tuning:

Codex 5.5 — как оркестратор
DeepSeek v4 Pro — как генератор

Проще говоря, я использую Codex как мозг, а Deepseek как «мускулы», чтобы вручную (handcraft) собирать каждую строку датасета.

Такое «ручное создание» даёт высокое качество. Синтетическая генерация датасета (через Python-скрипты и перефразирование) несложная, но обычно приводит к низкому качеству данных.

Низкое качество данных = низкое качество модели

Но в этом пайплайне Codex проектирует полный workflow для Deepseek. То есть Deepseek не «думает» сам, а просто выполняет каждый batch по спецификации Codex.

После генерации каждый batch проходит через жёсткие quality gates, которые также построены Codex, чтобы отфильтровать слабые строки и оставить только качественные данные.

Самое интересное: с каждым batch Codex улучшает и спецификацию генерации для Deepseek, и quality gates. Этот цикл делает пайплайн быстрее, дешевле и постоянно повышает качество данных.

DeepSeek v4 Pro сейчас очень дешёвый. Я сгенерировал датасет на 100M+ параметров за $80 и потратил около 95% недельной подписки Codex 20x Pro.

Этот пайплайн становится полностью автономным после того, как я утверждаю workflow Codex.
Просто вставь это изображение в Codex и попроси построить pipeline генерации датасета под твой кейс (объясни подробно: какую модель ты будешь дообучать? есть ли у тебя raw dataset или нет и т.д.). Дальше Codex всё сделает сам.

Напиши, какой у тебя опыт.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👀2

890 views07:02

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Kрутейший интерактивный учебник по теории вероятностей и статистике

Внутри наглядные визуализации, интерактивчики и минимум сухой теории. Можно покрутить распределения, посэмплить выборки, поиграться с доверительными интервалами и наглядно увидеть, как это всё работает

Забираем тут, советую открывать с десктопа

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

1.11K views16:07

Data Portal | DS & ML

Бесплатный плейлист из 23 практических туториалов по проектам на Python и Pandas, включая анализ e-commerce, датасеты по фильмам, медицинские данные и создание веб-приложений на Streamlit.

Идеально для формирования сильного портфолио по анализу данных на реальных кейсах.

Плейлист на YouTube

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4👎3🔥2

1K views06:07

Data Portal | DS & ML

Поздравляем, вы на 1 шаг ближе к работе мечты 🥳

Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉

Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.

Подписывайтесь, чтобы найти ту самую работу ✨

*карьера

❤1

764 views14:21

Data Portal | DS & ML

Производительная ветка llama.cpp с интеграцией нескольких оптимизаций для ускорения инференса и увеличения эффективного контекстного окна: https://github.com/Anbeeld/beellama.cpp

BeeLlama.cpp объединяет основную ветку llama.cpp с технологиями TurboQuant (TCQ) и DFlash speculative decoding, а также KV-cache компрессию. В результате добавляются дополнительные оптимизации для работы с LLM-инференсом:

-speculative decoding с адаптивной глубиной
- сжатие KV-cache (TurboQuant / TCQ)
- серверные механизмы адаптивного контроля “draft” генерации
- защита inference loop (защита от зацикливания вычислений)

Заявленные эффекты:
до ~3× ускорение инференса
до ~7.5× увеличение эффективной длины контекста при том же объёме VRAM

Проект по сути представляет собой performance-oriented форк llama.cpp, ориентированный на оптимизацию вывода LLM-моделей и более эффективное использование памяти и вычислительных ресурсов.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - Anbeeld/beellama.cpp: DFlash & TurboQuant in llama.cpp with up to 3x faster generation and 7.5x more KV cache in same…

DFlash & TurboQuant in llama.cpp with up to 3x faster generation and 7.5x more KV cache in same VRAM - Anbeeld/beellama.cpp

782 views16:07

Data Portal | DS & ML

Проекты на PyTorch

Плейлист, который помогает изучать PyTorch через работу над продвинутыми проектами.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

765 views06:07

Data Portal | DS & ML

Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования

Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production

😇

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

715 views16:07

Data Portal | DS & ML

Почему это называют «трюком» (kernel trick)

Во многих алгоритмах машинного обучения используются ядра: метод опорных векторов, ядро главных компонент и другие. Их задача — вычислять скалярное произведение в некотором преобразованном пространстве признаков, обычно высокой размерности, без явного перехода в это пространство.

Идея такая: вместо того чтобы явно строить отображение φ(x) в новое пространство и затем считать ⟨φ(X), φ(Y)⟩, используется функция ядра k(X, Y), которая сразу возвращает результат этого скалярного произведения.

Пример с полиномиальным ядром:
k(X, Y) = (1 + XᵀY)²

Пусть:

X = (x1, x2)
Y = (y1, y2)

Если раскрыть выражение, оно превращается в скалярное произведение двух векторов в пространстве большей размерности (в данном случае — 6 измерений). При этом сами координаты в этом пространстве не вычисляются явно.

Отсюда смысл «трюка»: вычисление результата в высокоразмерном пространстве происходит без явного построения самих векторов в этом пространстве.

Гауссово ядро (RBF) усиливает этот эффект: оно соответствует работе в бесконечномерном пространстве признаков, при этом вычисления остаются конечными и компактными за счёт формы функции ядра.

Математика за RBF-ядром → https://www.dailydoseofds.com/p/the-mathematics-behind-rbf-kernel/

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

640 views06:07

Data Portal | DS & ML

Визуальный разбор недавних изменений в архитектурах LLM — от Gemma 4 до DeepSeek V4.
Основной фокус — оптимизации для длинного контекста: шаринг KV-кэша, эмбеддинги на уровне слоёв, layer-wise attention budgets, сжатое внимание и mHC.
Ссылка: статья

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

577 views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Преврати любую авторегрессионную языковую модель в диффузионную языковую модель.

dLLM — это Python-библиотека, которая объединяет обучение и оценку диффузионных языковых моделей.

Её также можно использовать, чтобы превратить ЛЮБУЮ авторегрессионную языковую модель в диффузионную языковую модель с минимальными вычислительными затратами.

100% открытый исходный код.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

394 views06:07