☕ Что посмотреть: Fabric Espresso
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin
☸️ CKAD 2025. Самый свежий гайд по сдаче сертификации Certified Kubernetes Application Developer
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
➡️ Читать статью
🐸 Библиотека devops'a
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня делимся вопросом от нашего подписчика, который уже 3,5 года работает Data Scientist, но хочет выйти на новый уровень и попасть в топовые компании.
Общаясь с опытными DS, я получил важный фидбэк по своему резюме:— У меня недостаточно опыта в NLP, Deep Learning и LLMs.— У меня нет проектов, которые демонстрируют эти навыки.— По оформлению резюме мнения сильно разнятся.
Теперь передо мной стоит вопрос: как эффективно прокачать эти навыки и повысить шансы на новую работу?
🔹 Как развить понимание NLP, DL и LLMs на уровне, достаточном для перехода в новую компанию?
🔹 Из-за разных форматов обучения (курсы, проекты и т. д.) ощущаю перегруз. Как организовать процесс, чтобы не распыляться?
🔹 Как объективно оценить свою подготовку перед собеседованием?
💡 Делитесь своими советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
aiopandas
— асинхронная магия для PandasТеперь обработка данных в Pandas может быть асинхронной!
aiopandas
— это лёгкий monkey-patch, который добавляет поддержку async в map
, apply
, applymap
, aggregate
и transform
. Это позволяет параллельно выполнять асинхронные функции без лишних сложностей. 🔺 Что умеет aiopandas?
— Поддерживает асинхронные функции без изменений в коде
— Управляет количеством параллельных задач через
max_parallel
— Встроенная обработка ошибок: можно прерывать, игнорировать или логировать
— Поддержка
tqdm
для отслеживания прогресса 🔺 Быстрый старт:
import aiopandas as pd # Monkey-патчим Pandas
import asyncio
df = pd.DataFrame({'x': range(10)})
async def f(x):
await asyncio.sleep(0.1 x) # Симуляция асинхронной задачи
return x 2 # Преобразование данных
df['y'] = await df.x.amap(f, max_parallel=5) # Асинхронный map
print(df)
🔺 Кому пригодится aiopandas?
— Запросы к API (LLMs, веб-скрапинг, базы данных)
— Ускорение работы с асинхронными задачами в Pandas
— Минимальные изменения кода:
.map()
→ .amap()
, .apply()
→ .aapply()
Ссылка на репозиторий aiopandas: https://clc.to/Pf_xow
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?
Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.
Готовы визуализировать данные так, чтобы они говорили сами за себя?
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Качество и количество данных — ключ к успеху в машинном обучении. Но что эффективнее, дешевле и «правильнее» для улучшения модели?
• Экономия времени: повороты, отражения, шумы (например, с помощью библиотеки Albumentations) создают тысячи новых примеров за минуты.
• Борется с переобучением: модель учится на разнообразных вариациях данных.
• Доступно даже с маленьким датасетом: из 1000 изображений можно сделать 10 000.
• Аугментация не всегда отражает реальные сценарии, и модель может «выучить» искусственные артефакты.
• Реалистичность: модель видит настоящие данные, а не сгенерированные вариации.
• Лучше для сложных задач: например, в медицинском ML синтетические данные могут быть недостаточно точными.
• Долгосрочная выгода: качественный датасет можно использовать для разных проектов.
• Сбор данных дорогой (например, разметка изображений может стоить $1–5 за пример) и занимает много времени.
• Начало: использование аугментации для быстрого наращивания объёма данных.
• Со временем: добавление реальных данных для улучшения качества модели.
• Баланс: экономия на разметке при сохранении реалистичности.
• Риски: необходимость грамотного балансирования, чтобы избежать перегрузки модели «фальшивыми» данными.
Давайте обсудим в комментариях!
👍 Аугментация — потому что быстро и дёшево
❤️ Сбор данных — реальные данные рулят
🔥 Гибрид — зачем выбирать, если можно всё?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Модели и релизы:
— NemoTron-H — новые гибридные Mamba-модели от NVIDIA, обученные на 20T токенов
— Google DeepMind представил Gemini 2.5 Pro Experimental — доступен в Google AI Studio и приложении Gemini
— Google DeepMind опубликовал технический отчёт о Gemma 3 — 27B параметров, оптимизирован для многозадачности и многозначности
— OpenAI добавил генерацию изображений в GPT-4o и Sora — интеграция текстового и визуального AI
📊 Аналитика и исследования:
— Hugging Face Real-Time Endpoint Analytics — теперь с обновлениями в реальном времени для мониторинга AI-инференса
— OpenAI и MIT исследовали эмоциональное влияние ChatGPT — редкие, но глубокие взаимодействия, снижение благополучия у активных пользователей.
— Как дистилляция меняет AI-индустрию — ускорение моделей без потери качества
— Галлюцинации в языковых моделях — причины, типы и способы борьбы
🔒 Безопасность и интеграция:
— NIST выпустил финальное руководство по безопасности AI — рекомендации по защите AI-систем от атак
— OpenAI внедрил Anthropic MCP в Agents SDK — упрощает интеграцию сторонних инструментов
📚 Что почитать:
— Модели машинного обучения: что могут спросить на интервью
— Частые ловушки в ML-экспериментах
— От скриптов к сервисам: 10 книг для Data Science-разработки
— Подборка книг по нейросетям и рекомендательным системам
— Советы по эффективному обучению ML-моделей
— Reinforcement Learning: детальный обзор
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.
💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🔹 Конференции:
• ECIR 2025 — Европейская конференция по информационному поиску
6–10 апреля | Лукка, Италия
• CHI 2025 — Конференция по взаимодействию человека и компьютера
26 апреля — 1 мая | Иокогама, Япония
• ICLR 2025 — Международная конференция по представлениям обучения
24–28 апреля | Сингапур
🔹 Релизы фреймворков для ИИ:
• TensorFlow 2.20.0 — ожидается около 12 апреля
• PyTorch 2.7 — запланирован на апрель
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🎭 Dev Memes: 1 апреля, а баги всё те же
Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.
👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»
Библиотека дата-сайентиста
Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.
👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»
Библиотека дата-сайентиста
🌯 Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
🔬 Методология:
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
🔗 Подробности исследования — https://clc.to/dKOPyQ
Библиотека дата-сайентиста #буст
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
🔬 Методология:
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
🔗 Подробности исследования — https://clc.to/dKOPyQ
Библиотека дата-сайентиста #буст
🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
⭐️ Пора сделать отчеты действительно интерактивными!
🔗 Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv
Библиотека дата-сайентиста
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
⭐️ Пора сделать отчеты действительно интерактивными!
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM