Работа с многоклассовыми наборами данных, где некоторые классы сильно недопредставлены, может быть сложной, даже при использовании стратифицированных методов.
StratifiedKFold
и StratifiedShuffleSplit
стараются сохранить пропорции классов в каждом сплите, но если у некоторых классов слишком мало примеров, они могут не попасть в некоторые тестовые выборки. Это происходит просто потому, что данных недостаточно, чтобы обеспечить их равномерное распределение.Возможные решения:
Частные случаи:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Пример:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Уже завтра — вебинар про AI-агентов! Мест почти не осталось
На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.
➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений
📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS
👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q
🫢 Для тех, кто дочитал до конца →промокод lucky, он даст −5.000₽ на курс
На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.
➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений
📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS
👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q
🫢 Для тех, кто дочитал до конца →
Понижение размерности (например, с помощью PCA, ICA или автоэнкодеров) сжимает признаки в более компактное представление. Это может
Однако стоит быть осторожным:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему.
В таких случаях лучше использовать
Также помогает
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и
Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же
Таким образом, log-loss —
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🤖 Нейросети для дата-сайентиста: свежий гид по инструментам
Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.
Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.
📊 Что выбрать под вашу задачу — читайте в обзоре!
📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn
Библиотека дата-сайентиста #буст
Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.
Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.
📊 Что выбрать под вашу задачу — читайте в обзоре!
📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn
Библиотека дата-сайентиста #буст
Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует.
Но реальный прорыв начинается, когда этих агентов становится несколько.
Когда они начинают взаимодействовать друг с другом.
Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS).
— Microsoft делает язык DroidSpeak для общения между LLM
— Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются
— компании, включая МТС, уже применяют MAS в боевых задачах
🎓 На курсе мы подходим к этому практично:
Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда.
Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими:
•
•
•
Потенциальные сложности и крайние случаи:
•
•
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Учёт порядка помогает
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯 Мы больше года строим мультиагентные системы
Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.
Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.
Курс тут: https://clc.to/47pgYA
Промокод:datarascals действует до 23:59 29 июня
Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.
Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.
Курс тут: https://clc.to/47pgYA
Промокод:
Аугментация помогает не только в условиях дефицита данных, но и при их
Аугментация (например, случайные повороты изображений, перестановки слов в тексте, добавление шума) помогает модели
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Выбор класса с наибольшей вероятностью даёт одно конкретное решение, но теряет
Вероятностный вывод позволяет:
—
—
—
—
Таким образом, вероятности дают
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM