Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🧠 Промпт дня: для разогрева мозга

Иногда, чтобы быстро прокачать свои аналитические навыки, полезно потренироваться на небольших, но интересных задачах с реальными данными.

Такой «разогрев» помогает:
— быстрее находить инсайты в данных,
— развивать навыки визуализации и очистки данных,
— улучшать понимание структуры и качества датасетов.

Промпт:
Generate 5 challenging data analysis problems based on real-world datasets. 

For each problem, include:
1. A short description of the dataset
2. A clear question or task to solve
3. Optional hints or tips for analysis


Почему это полезно:
— Отлично прокачивает EDA и постановку вопросов к данным
— Помогает развивать критическое мышление и аналитический подход
— Можно использовать как мини-тренажёр утром или перед проектом

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
😶 Истории подписчиков: cамый бесполезный совет от коллеги

Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.

👻 Просто запусти без параметров:
Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.


👻 В SQL всегда используй SELECT *:
Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.


👻 Зачем тесты? У тебя же ноутбук:
Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.


💬 А какой самый «полезный» бесполезный совет вы получали?

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢
🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Фишка инструмента: Google выпустил LangExtract

LangExtract — open-source Python-библиотеку, которая превращает хаос неструктурированного текста в идеально структурированные данные с хирургической точностью.

Применения:
— извлечение транзакций из банковских выписок
— определение дозировок лекарств из клинических записей
— выделение условий контрактов из юридических документов

Ключевые фичи:
😶‍🌫️ Точная привязка к источнику — каждое поле содержит офсеты символов для полной трассировки и визуализации прямо в тексте.
😶‍🌫️ Контролируемая генерация с few-shot — задаёшь схему и пару примеров, и модель строго выдаёт нужный формат, без рандомных «галлюцинаций».
😶‍🌫️ Оптимизация для длинного контекста — умная нарезка, параллельная обработка, многопроходное извлечение.
😶‍🌫️ Гибкость по доменам — медицина, финансы, юриспруденция и многое другое без дообучения.

Достаточно задать промпт и пример, и LangExtract вернёт JSON, где каждое поле можно отследить до исходного текста. Работает с Gemini из коробки и поддерживает локальные LLM через Ollama для приватных задач.

🔗 Подробнее о LangExtract

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
↔️ 8 RAG-архитектур, которые должен знать каждый

Retrieval-Augmented Generation (RAG) — подход, когда LLM дополняется внешними источниками знаний для точных и актуальных ответов.

Ниже — быстрый обзор популярных архитектур:

1️⃣ Naive RAG
Базовый RAG для простых задач. Простейшая реализация без адаптивной логики.

2️⃣ Multimodal RAG
Работает с разными типами данных: текст, изображения, аудио.

3️⃣ HyDE
Генерирует гипотетический документ (Hypothetical Response) для улучшения поиска и контекста.

4️⃣ Corrective RAG
Автоматическая проверка фактов и корректировка ответа с использованием внешних источников.

5️⃣ Graph RAG
Использует графовые базы данных для сложных связей между сущностями.

6️⃣ Hybrid RAG
Гибридный подход: объединяет графовые и векторные хранилища для более точного контекста.

7️⃣ Adaptive RAG
Многоступенчатое рассуждение с адаптивным выбором стратегии поиска и генерации.

8️⃣ Agentic RAG
Многоагентная система с планированием действий, короткой и длинной памятью, распределёнными агентами.

Совет по выбору:
— Простые задачи → Naive RAG
— Мультимодальные данные → Multimodal RAG
— Проверка фактов → Corrective RAG
— Сложные связи → Graph / Hybrid RAG
— Многоступенчатое рассуждение → Adaptive RAG
— Комплексные агентные системы → Agentic RAG

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🤔1😍1
🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
3🔥1🌚1
Какой график показывает город с аномально высокой температурой?
Anonymous Quiz
3%
А
7%
B
86%
C
4%
D
3
🆕 Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
TRIBE от Meta тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
AI research interviews — опыт устройства в OpenAI, советы и инсайты.
Prompt migrator + optimizer для GPT-5 OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍3
🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену
💻 Топ-вакансий для дата-сайентистов за неделю

Data Engineer — от 280 000 до 350 000 ₽, гибрид (Москва, Санкт-Петербург)

ML-разработчик (ML для авторов в VK Видео) — от 350 000 ₽, гибрид (Москва)

GIS Data Engineer / Analyst (Middle+, 25h/w) — от 2100 до 2600 $, удалёнка

Data Engineer — от 250 000 до 300 000 ₽, удалёнка

LLM Engineer \ ML инженер — до 350 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
🫣 Хотите в Data Science, но боитесь высшей математики?

Хорошая новость: вам не нужно становиться математиком. Вам нужно освоить конкретные разделы, которые реально используются в работе и на собеседованиях.

Именно этому учат преподаватели ВМК МГУ на нашем курсе «Математика для Data Science».

Без лишней воды — только то, что нужно для:

успешного поступления в ШАД Яндекса;
прохождения собеседований уровня FAANG;
глубокого понимания ML-алгоритмов.

Это самый прямой путь к математическому фундаменту, на котором строится вся карьера в Data Science.

👉 Начните строить свою карьеру уже сегодня
How to: инициализация весов в нейросетях (Xe vs He)

Как задать правильную стартовую точку обучения, чтобы сеть не «затухла» и не «взорвалась»? Ниже — краткая шпаргалка по двум основным алгоритмам инициализации: Xavier и He.

🔎 Xavier (Glorot)
— Подойдёт, если используете Tanh или Sigmoid

Дисперсия весов:
Var[w_i] = 2 / (n_in + n_out)


— Балансирует входы и выходы слоя
— Хорошо работает с симметричными активациями
— С ReLU часто умирают половина нейронов → обучение замедляется

🔎 He (Kaiming)
— Подойдёт для ReLU / GELU / Leaky ReLU

Дисперсия весов:
Var[w_i] = 2 / n_in


— Учитывает, что часть активаций обнуляется
— Специально заточен под ReLU-подобные функции
— Стал стандартом (ResNet, ViT, GPT-подобные модели)

PyTorch реализация:
nn.init.xavier_uniform_(layer.weight)                      # Xe
nn.init.kaiming_uniform_(layer.weight, nonlinearity='relu') # He


Вывод:
— ReLU и его модификации → берите He.
— Tanh/Sigmoid → выбирайте Xavier.
— Если сомневаетесь — He почти всегда будет безопасным выбором.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🔥1
🌟 Визуализация эмбедингов прямо в браузере

Embedding Atlas — это облако из миллионов векторов, которое не просто красиво двигается, а позволяет кликнуть на любую точку → найти похожие данные → отфильтровать по нужному классу → мгновенно увидеть структуру датасета.

И всё это — локально, прямо в браузере, без отправки данных на сервер, с поддержкой WebGPU.

Основные фичи:
Автоматические кластеры с подписью и контурами плотности.
Четкая визуализация без «каши» из точек (order-independent transparency).
Поиск ближайших соседей и мгновенное выделение похожих данных.
Фильтры по метаданным — выбирайте класс на гистограмме, и визуализация оставит только нужные точки.

Как использовать:
Python-пакет: командная строка, Jupyter виджет, Streamlit компонент.
Npm-пакет: встроенные UI-компоненты для веб-приложений: Table, EmbeddingView, EmbeddingAtlas.

💡 Если вы работаете с ML, LLM, данных или просто любите красивые визуализации — сохраните этот инструмент, он вам точно пригодится.

✔️ Страница проекта
✔️ Документация
📱 GitHub

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍1
⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:
«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».


Подробности рассказываю в гс выше — включай, чтобы не пропустить.
👏1
📄 RAG-ready из любого документа за пару строк

Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.

Что умеет Tensorlake:
👉 Работает с документами, изображениями, CSV, презентациями и др.
👉 Поддержка сложных макетов, рукописных заметок и мультиязычных данных.
👉 Возвращает layout документа, классификацию страниц, bounding boxes и многое другое.
👉 Можно задавать JSON-схему для извлечения нужных данных.

⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!

📱 GitHub

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥32👍2