Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

Свежие новости AI

🚀 Модели и релизы:
— NemoTron-H — новые гибридные Mamba-модели от NVIDIA, обученные на 20T токенов
— Google DeepMind представил Gemini 2.5 Pro Experimental — доступен в Google AI Studio и приложении Gemini
— Google DeepMind опубликовал технический отчёт о Gemma 3 — 27B параметров, оптимизирован для многозадачности и многозначности
— OpenAI добавил генерацию изображений в GPT-4o и Sora — интеграция текстового и визуального AI

📊 Аналитика и исследования:
— Hugging Face Real-Time Endpoint Analytics — теперь с обновлениями в реальном времени для мониторинга AI-инференса
— OpenAI и MIT исследовали эмоциональное влияние ChatGPT — редкие, но глубокие взаимодействия, снижение благополучия у активных пользователей.
— Как дистилляция меняет AI-индустрию — ускорение моделей без потери качества
— Галлюцинации в языковых моделях — причины, типы и способы борьбы

🔒 Безопасность и интеграция:
— NIST выпустил финальное руководство по безопасности AI — рекомендации по защите AI-систем от атак
— OpenAI внедрил Anthropic MCP в Agents SDK — упрощает интеграцию сторонних инструментов

📚 Что почитать:
— Модели машинного обучения: что могут спросить на интервью
— Частые ловушки в ML-экспериментах
— От скриптов к сервисам: 10 книг для Data Science-разработки
— Подборка книг по нейросетям и рекомендательным системам
— Советы по эффективному обучению ML-моделей
— Reinforcement Learning: детальный обзор

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️

Шпаргалка: как генерировать текст с LLM

Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?

Давайте разберём основные методы:

🔵

Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.

🔵

Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.

🔵

Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.

🔵

Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.

💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

1.7K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

158 voters1.7K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔝

Апрель 2025: важные события в мире ИИ и машинного обучения

🔹 Конференции:

• ECIR 2025 — Европейская конференция по информационному поиску
6–10 апреля | Лукка, Италия

• CHI 2025 — Конференция по взаимодействию человека и компьютера
26 апреля — 1 мая | Иокогама, Япония

• ICLR 2025 — Международная конференция по представлениям обучения
24–28 апреля | Сингапур

🔹 Релизы фреймворков для ИИ:

• TensorFlow 2.20.0 — ожидается около 12 апреля

• PyTorch 2.7 — запланирован на апрель

🤔

Какое из этих событий вам наиболее интересно?

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K viewsedited 18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎭 Dev Memes: 1 апреля, а баги всё те же

Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.

👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»

Библиотека дата-сайентиста

1.9K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌯 Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века

На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!

🔬 Методология:
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.

🔗 Подробности исследования — https://clc.to/dKOPyQ

Библиотека дата-сайентиста #буст

2.6K viewsedited 11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование

Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!

Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.

⭐️ Пора сделать отчеты действительно интерактивными!

🔗

Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

15.1K viewsedited 18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯

Промпт дня: улучшаем аналитику и принятие решений

Как быстро разобраться в сложных данных, выделить ключевые закономерности и донести инсайты до команды? Этот промпт поможет вам анализировать данные глубже и принимать обоснованные решения:

💬 Промпт:

Analyze [dataset/feature] and identify key trends, correlations, and anomalies. Summarize the most important insights in a way that can be easily explained to non-technical stakeholders. Suggest potential next steps or hypotheses that should be tested further. If possible, recommend a visualization that best represents the findings.

➡️

Что вы получите:
• Четкое понимание трендов, скрытых закономерностей и аномалий
• Способы объяснить сложные данные простым языком для бизнеса
• Идеи для дальнейшего исследования и проверки гипотез
• Рекомендации по лучшим визуализациям для наглядного представления данных

➡️

Как применять:
• Используйте промпт для первичного анализа данных перед презентацией
• Проверяйте гипотезы перед постановкой экспериментов
• Готовьте краткие и понятные отчеты для команды и руководства
• Экспериментируйте с разными визуализациями, чтобы сделать инсайты еще понятнее

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👋 Дата-сайентисты, нужен ваш совет!

Готовим крутой обзор ноутбуков для кодеров в 2025-м и хотим собрать реальный фидбек от тех, кто в теме.

Какой ноутбук — ваш незаменимый помощник в работе?

Поделитесь:
⭐️ Модель и характеристики вашего ноутбука
⭐️ Что нравится и что не очень в повседневной работе
⭐️ На что обратить внимание при выборе ноутбука для анализа данных
⭐️ Как он вам в целом

Лучшие советы попадут в нашу статью. Давайте создадим полезный гайд для коллег!

Ждем ваших комментариев!

⬇️

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views10:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Давайте будем честны... 😏

Библиотека дата-сайентиста #развлекалово

1.9K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓ How to: как «на самом деле» работает Dropout

Если вы думаете, что Dropout просто обнуляет часть нейронов, это лишь половина правды. Есть ещё один важный шаг, который делает обучение стабильным.

⭐

Разберёмся на примере:
— Представьте, что у нас есть 100 нейронов в предыдущем слое, все с активацией 1.
— Все веса соединений с нейроном A в следующем слое равны 1.
— Dropout = 50% — половина нейронов отключается во время обучения.

⭐

Что происходит:
— Во время обучения: половина нейронов выключена, так что вход нейрона A ≈ 50.
— Во время inference: Dropout не применяется, вход A = 100.

⭐

Проблема:
Во время обучения нейрон получает меньший вход, чем во время inference. Это создаёт дисбаланс и может ухудшить обобщающую способность сети.

⭐

Секретный шаг Dropout:
Чтобы это исправить, Dropout масштабирует оставшиеся активации во время обучения на коэффициент 1/(1-p), где p — доля отключённых нейронов.

— Dropout = 50% (p = 0.5).
— Вход 50 масштабируется: 50 / (1 - 0.5) = 100.

Теперь во время обучения вход нейрона A примерно соответствует тому, что он получит при inference. Это делает поведение сети стабильным.

⭐

Проверим на практике:

import torch
import torch.nn as nn

dropout = nn.Dropout(p=0.5)
tensor = torch.ones(100)

# Обучение (train mode)
print(dropout(tensor).sum())  # ~100 (масштабировано)

# Вывод (eval mode)
dropout.eval()
print(dropout(tensor).sum())  # 100 (без Dropout)

В режиме обучения оставшиеся значения увеличиваются, в режиме inference — нет.

⭐

Вывод:
Dropout не просто отключает нейроны — он ещё масштабирует оставшиеся активации, чтобы модель обучалась корректно.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👊

Холивар: Kaggle или реальные проекты — где настоящий дата-сайенс?

«Kaggle — это песочница для студентов, а реальные проекты — для взрослых дата-сайентистов. Если ты только и делаешь, что гонишься за медальками, ты не профи, а геймер!»

🚶‍♂️

Kaggle:
• Обучение: сотни датасетов и задач — от регрессии до компьютерного зрения.
• Соревновательный дух: топ-1% на лидерборде — это как Олимпийская медаль.
• Сообщество: готовые ноутбуки, идеи и код от лучших умов.
• Но: идеальные датасеты и метрики часто далеки от реальных проблем, а переобучение ради 0.001 — это не про бизнес.

🚶‍♂️

Реальные проекты:
• Практика: данные грязные, требования меняются, а результат нужен вчера.
• Бизнес-ценность: модель не для галочки, а для прибыли или спасения жизней.
• Полный цикл: от сбора данных до деплоя — настоящий опыт.
• Но: рутина, дедлайны и отсутствие чистой «магии ML» могут выгореть.

Давайте спорить в комментариях!

⤵️

Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

👍 Kaggle — лучший тренажёр для мозга
❤️ Реальные проекты — тут рождается настоящий DS

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K viewsedited 18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎

Фишка инструмента: SHAP — интерпретируемость ML-моделей

SHAP (SHapley Additive exPlanations) — это мощный инструмент для объяснения предсказаний моделей машинного обучения. Он основан на значениях Шепли из теории игр и позволяет разобрать вклад каждого признака в итоговый результат модели.

📍

Что делает SHAP:
➖ Объясняет любой ML-модели, от XGBoost и LightGBM до нейросетей и трансформеров
➖ Выявляет ключевые признаки, влияющие на предсказания
➖ Создаёт наглядные визуализации, такие как водопадные графики, force plots, scatter plots и beeswarm-графики
➖ Работает с деревьями решений, нейросетями и линейными моделями

📍

Ключевые приёмы:
➖ Waterfall plot — детальный разбор влияния признаков
➖ Beeswarm plot — топ-важных признаков по всей выборке
➖ Dependence plot — анализ взаимодействий признаков

📍

Пример использования

1⃣ Установка:

pip install shap

2⃣ Простая демонстрация для XGBoost:

import xgboost
import shap

# Обучаем модель
X, y = shap.datasets.california()
model = xgboost.XGBRegressor().fit(X, y)

# Создаём объяснитель SHAP
explainer = shap.Explainer(model)
shap_values = explainer(X)

# Визуализируем вклад признаков в предсказание
shap.plots.waterfall(shap_values[0])
shap.plots.beeswarm(shap_values)

🔗 Подробнее в репозитории: SHAP на GitHub

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠

ИИ не отнимает работу у инженеров — он трансформирует её

По свежему отчёту WEF, к 2030 году произойдёт глобальная перекройка рынка труда:
✅ 22% текущих профессий изменятся
✅ +170 млн новых рабочих мест
✅ -92 млн уйдут в прошлое

И ключевой драйвер этих изменений — ИИ и автоматизация.

🎯 Что это значит для DS-инженеров?

Вместо стандартного «data scientist»/«ML engineer» сейчас появляются:
🔘 AI/ML продуктовые инженеры
🔘 Специалисты по data pipelines для LLM и мультимодальных моделей
🔘 Инженеры по интерпретируемости моделей (XAI)
🔘 Мастера feature engineering под foundation models
🔘 MLOps с уклоном в этику, безопасность и оценку рисков
🔘 Prompt/agent engineers (внезапно, уже инженерная роль)

💼 Интересно, что многие из этих ролей не существовали 3-5 лет назад. И это не предел: растёт спрос на специалистов, которые могут работать на стыке ИИ и бизнеса, ИИ и UX, ИИ и governance.

🧠 Поэтому ключевая компетенция 2025+ — уметь мыслить с ИИ: не просто строить пайплайн, а понимать, как ИИ влияет на продукт, решение, пользователя.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

2.5K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Неловкая ситуация 😂

Библиотека дата-сайентиста #междусобойчик

2.0K views09:03

About

Blog

Apps

Platform