Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.43K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой график показывает город с аномально высокой температурой?

Anonymous Quiz

86%

❤3

388 voters1.37K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
— OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
— Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
— Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
— Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
— LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
— Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
— Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
— TRIBE от Meta — тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
— AI research interviews — опыт устройства в OpenAI, советы и инсайты.
— Prompt migrator + optimizer для GPT-5 — OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
— DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍3

1.3K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.2K views07:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤1

216 voters1.18K views07:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену

1.17K views15:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻

Топ-вакансий для дата-сайентистов за неделю

Data Engineer — от 280 000 до 350 000 ₽, гибрид (Москва, Санкт-Петербург)

ML-разработчик (ML для авторов в VK Видео) — от 350 000 ₽, гибрид (Москва)

GIS Data Engineer / Analyst (Middle+, 25h/w) — от 2100 до 2600 $, удалёнка

Data Engineer — от 250 000 до 300 000 ₽, удалёнка

LLM Engineer \ ML инженер — до 350 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

1.15K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🫣 Хотите в Data Science, но боитесь высшей математики?

Хорошая новость: вам не нужно становиться математиком. Вам нужно освоить конкретные разделы, которые реально используются в работе и на собеседованиях.

Именно этому учат преподаватели ВМК МГУ на нашем курсе «Математика для Data Science».

Без лишней воды — только то, что нужно для:

✅ успешного поступления в ШАД Яндекса;
✅ прохождения собеседований уровня FAANG;
✅ глубокого понимания ML-алгоритмов.

Это самый прямой путь к математическому фундаменту, на котором строится вся карьера в Data Science.

👉 Начните строить свою карьеру уже сегодня

1.17K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

How to: инициализация весов в нейросетях (Xe vs He)

Как задать правильную стартовую точку обучения, чтобы сеть не «затухла» и не «взорвалась»? Ниже — краткая шпаргалка по двум основным алгоритмам инициализации: Xavier и He.

🔎

Xavier (Glorot)
— Подойдёт, если используете Tanh или Sigmoid

Дисперсия весов:

Var[w_i] = 2 / (n_in + n_out)

— Балансирует входы и выходы слоя
— Хорошо работает с симметричными активациями
— С ReLU часто умирают половина нейронов → обучение замедляется

🔎

He (Kaiming)
— Подойдёт для ReLU / GELU / Leaky ReLU

Дисперсия весов:

Var[w_i] = 2 / n_in

— Учитывает, что часть активаций обнуляется
— Специально заточен под ReLU-подобные функции
— Стал стандартом (ResNet, ViT, GPT-подобные модели)

PyTorch реализация:

nn.init.xavier_uniform_(layer.weight)                      # Xe
nn.init.kaiming_uniform_(layer.weight, nonlinearity='relu') # He

Вывод:
— ReLU и его модификации → берите He.
— Tanh/Sigmoid → выбирайте Xavier.
— Если сомневаетесь — He почти всегда будет безопасным выбором.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1🔥1

1.01K viewsedited 09:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌟 Визуализация эмбедингов прямо в браузере

Embedding Atlas — это облако из миллионов векторов, которое не просто красиво двигается, а позволяет кликнуть на любую точку → найти похожие данные → отфильтровать по нужному классу → мгновенно увидеть структуру датасета.

И всё это — локально, прямо в браузере, без отправки данных на сервер, с поддержкой WebGPU.

Основные фичи:
✅ Автоматические кластеры с подписью и контурами плотности.
✅ Четкая визуализация без «каши» из точек (order-independent transparency).
✅ Поиск ближайших соседей и мгновенное выделение похожих данных.
✅ Фильтры по метаданным — выбирайте класс на гистограмме, и визуализация оставит только нужные точки.

Как использовать:
✅ Python-пакет: командная строка, Jupyter виджет, Streamlit компонент.
✅ Npm-пакет: встроенные UI-компоненты для веб-приложений: Table, EmbeddingView, EmbeddingAtlas.

💡 Если вы работаете с ML, LLM, данных или просто любите красивые визуализации — сохраните этот инструмент, он вам точно пригодится.

✔️

Страница проекта

✔️

Документация

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3👍1

1.09K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:12

⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:

«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».

Подробности рассказываю в гс выше — включай, чтобы не пропустить.

👏1

1.11K viewsedited 19:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄 RAG-ready из любого документа за пару строк

Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.

Что умеет Tensorlake:
👉 Работает с документами, изображениями, CSV, презентациями и др.
👉 Поддержка сложных макетов, рукописных заметок и мультиязычных данных.
👉 Возвращает layout документа, классификацию страниц, bounding boxes и многое другое.
👉 Можно задавать JSON-схему для извлечения нужных данных.

⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7🔥3❤2👍2

1.17K viewsedited 07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.

Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других

941 viewsedited 14:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

⭐

gpt-oss, Qwen, Gemma — один гайд, чтобы запускать и тюнить всё

Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.

Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face

Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning

Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)

🔗

Ссылка на туториалы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥4❤2

1.03K viewsedited 17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3

833 views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

571 views13:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

➖

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:

y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)

💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3

320 views18:03

About

Blog

Apps

Platform