Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.


Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других
This media is not supported in your browser
VIEW IN TELEGRAM
gpt-oss, Qwen, Gemma — один гайд, чтобы запускать и тюнить всё

Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.

Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face

Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning

Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)

🔗 Ссылка на туториалы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥42
📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3
This media is not supported in your browser
VIEW IN TELEGRAM
📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь
1🔥1
🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:
y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)


💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85
👆 Хочешь стать AI-инженером? Этот репозиторий — настоящая находка

Он уже собрал 60K⭐️ на GitHub и не зря: учит строить и тренировать LLM с нуля. Никакой воды — только практические навыки, которые нужны каждому будущему AI-инженеру.

Что в репозитории:
Как LLM на самом деле работают
Основы работы с текстовыми данными
Реализация attention и GPT с нуля
Предобучение на неразмеченных данных
Финетюнинг для классификации и инструкций
Основы CUDA и PyTorch, пошаговые видео, куча практики.

Для новичков и тех, кто хочет поднять уровень — этот репозиторий реально меняет правила игры.

📌 Репозиторий на GitHub

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🥰2