Data Portal | Data Science & Машиннное обучение
8.61K subscribers
100 photos
35 videos
4 files
137 links
Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
PandasAI — это инструмент для анализа данных, позволяющий работать с ними через запросы на естественном языке

Где использовать:
в Jupyter ноутбуках,
Streamlit-приложениях,
в виде REST API.

Как использовать: Просто формулировать вопросы к данным на естественном языке.

🔜 Демо в Google Colab
🔜 Репозиторий проекта

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍51
This media is not supported in your browser
VIEW IN TELEGRAM
Как загружать веса моделей при ограниченных ресурсах?

Если объём памяти на вашем GPU ограничен, но нужно сохранить модель с помощью команды torch.save(model.state_dict(), 'model.pth') и продолжить её обучение в будущем, это вполне решаемая задача.

👉 В этом ноутбуке вы найдёте полезные советы и рекомендации, которые помогут справиться с этой проблемой.

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113
This media is not supported in your browser
VIEW IN TELEGRAM
Шпаргалка по методам кодирования категориальных признаков

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍116🌭1
cookbook.pdf
642.4 KB
Гайд по тензорам

Эта компактная книга на 50 страниц подробно освещает все аспекты, связанные с тензорами

Тензор — это универсальное понятие, обозначающее матрицы с любым числом измерений. К тензорам относятся как скаляры (тензоры нулевого ранга), так и векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).


🔜 Ссылка на сайт The Tensor Cookbook

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
SQL за 6 недель для дата-сайентистов

Опытный дата-сайентист с семилетним стажем создал подробный план изучения SQL, представленный в формате репозитория на GitHub. Каждый этап обучения включает полезные ссылки на обучающие материалы.

Вот как выглядит 6-недельная программа:
🔸 Неделя 1: Основы SQL. Научимся извлекать данные из баз данных.
🔸 Неделя 2: Группировка данных с помощью GROUP BY.
🔸 Неделя 3: Разбираем типы JOIN и их применение.
🔸 Неделя 4: Погружаемся в оконные функции.
🔸 Неделя 5: Изучаем CTE и подзапросы.
🔸 Неделя 6: Создаём собственный проект, чтобы закрепить знания.

👉 Дорожная карта на GitHub

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74
Проектирование систем машинного обучения

Автор: Чип Хьюен
Год: 2023

⬇️ Скачать книгу

👉 @DataSciencegx | #книги
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Советы от эксперта для тех, кто хочет развиваться в области DS и ML

На канале школы MLinside вышел подкаст с Алексеем Толстиковым, руководителем ШАД Яндекса.

Что внутри:

Какие навыки важны для работы в Data Science и Machine Learning
Почему одних технических знаний может не хватить для того, чтобы быть востребованным специалистом
Роль соревнований и междисциплинарности в развитии карьеры
Как поступить в ШАД и совмещать учёбу с работой

🔜 Ссылка: тык

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Scientific Computing with Python — бесплатный интерактивный курс

Это своего рода учебник от Freecodecamp. Его цель — дать обучающимся навыки анализа и обработки данных с помощью Python. Учебник содержит следующие темы:

работа со строками;
List Comprehension;
основы дизайна алгоритмов;
структуры данных;
классы и объекты.

Ссылка: тык

👉 @DataSciencegx | #курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥1
Гайд по техникам RAG

В репозитории собраны материалы по различным способам реализации Retrieval Augmented Generation (RAG). Вот некоторые методы:

🔸Простой RAG с LangChain;
🔸RAG с валидацией данных;
🔸RAG с трансформацией запроса;
🔸Relevant Segment Extraction (RSE);
🔸Сжатие контекста из документов.

👉 Ссылка на репозиторий

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5
Media is too big
VIEW IN TELEGRAM
Gaze-LLE

Это модель позволяющая предсказывать куда направлен взгляд человека на видео.

Метод поддерживает многопользовательскую инференцию, обрабатывая пакеты изображений с указанием ограничивающих рамок на головы людей.

Включены функции визуализации тепловых карт и скрипты для оценки на наборах данных GazeFollow и VideoAttentionTarget, а модели можно легко интегрировать с PyTorch Hub.

👉 https://github.com/fkryan/gazelle

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15
Отличный ресурс для изучения SQL — SQL Squid Game

Вы — новоиспечённый дата-сайентист в загадочной организации. Ваш босс, Фронтмен, требует от вас решения бизнес-задач с помощью SQL. Не справитесь — ☠️


9 уровней, растущая сложность, а заодно — отличная прокачка навыков. Не уверены в силах? На сайте есть 33 урока, чтобы подтянуть SQL перед стартом

Держите ссылку: https://datalemur.com/sql-game

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101
«Комбинаторика для начинающих» — бесплатный курс на «Степике»

Курс предназначен для начинающих, которые хотят освоить основы комбинаторики с нуля, а также для тех, кто когда-то изучал этот раздел математики, но нуждается в обновлении и систематизации знаний.

Включает разделы:

🔸Правило сложения и умножения. Принцип Дирихле
🔸Основные комбинаторные величины и их свойства
🔸Сочетания с повторениями и без
🔸Комбинаторные тождества
🔸Полиномиальные коэффициенты
🔸Формула включений и исключений
🔸Выравнивания

👉 Ссылка на курс

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
bRAG: Серия уроков по RAG

Открытое руководство, которое проведет вас от основ RAG до продвинутых реализаций.

Уроки насыщены практическими примерами, которые помогут вам создавать готовые к продакшену системы RAG с применением новейших технологий, таких как CRAG и многовекторный поиск.

👉 https://github.com/bRAGAI/bRAG-langchain

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4👀1
Почему DeepSeek Janus-7B — это нечто действительно невероятное

В статье рассматриваются ключевые особенности новой мультимодальной модели DeepSeek Janus-7B, которая, по заявлениям, превосходит популярные AI-инструменты, такие как DALL-E 3 и Stable Diffusion.

Подробно анализируются её уникальные технические решения и возможности.

🔜 Читать статью

👉 @DataSciencegx | #cтатья
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91
Ускорьте Python в 50 раз за 4 простых шага

По умолчанию интерпретатор Python, CPython, работает медленно, в основном из-за своей динамичности.

После определения переменной с определённым типом её можно изменить на другой. Эти динамические манипуляции приводят к дополнительным затратам на выполнение и память.

Чтобы ускорить работу, используйте модуль Cython. Он превращает код Python в C, делая его быстрым и эффективным.

Вот как использовать модуль Cython:

1) Загрузите модуль Cython: %load_ext Cython
2) Добавьте магическую команду Cython
3) Указывайте типы данных параметров при использовании функций
4) Определяйте каждую переменную с помощью ключевого слова cdef и указывайте её тип данных

Вот и всё!

Теперь ваш код будет работать с ускорением до скорости нативного машинного кода, как показано на картинке.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍3
11 наиболее важных распределений, используемых в DS

Статистические модели предполагают существование некоторого процесса генерации данных.

Основываясь на предполагаемом процессе генерации данных, мы можем:
— Сформулировать шаг максимального правдоподобия (MLE);
— Определить оценки максимального правдоподобия.

В результате производительность модели полностью зависит от:
— Вашего понимания процесса генерации данных;
— Выбранного распределения для моделирования данных, что, в свою очередь, зависит от знания различных распределений.

Таким образом, крайне важно знать некоторые из наиболее значимых распределений и тип данных, который они могут моделировать.

Ниже приведены 11 наиболее важных распределений в Data Science:

C: Непрерывное (Continuous)
D: Дискретное (Discrete)


1) Нормальное распределение (C)
🔹Наиболее распространённое в Data Science.
🔹Характеризуется симметричной колоколообразной кривой.
🔹Пример: рост людей.

2) Распределение Бернулли (D)
🔹Моделирует исход бинарного события.
🔹Пример: подбрасывание монеты.

3) Биномиальное распределение (D)
🔹Повторение распределения Бернулли несколько раз.
🔹Моделирует количество успехов в независимых испытаниях Бернулли.

4) Распределение Пуассона (D)
🔹Моделирует количество событий, происходящих за фиксированный интервал времени или пространства.
🔹Пример: количество голов, забитых командой.

5) Экспоненциальное распределение (C)
🔹Моделирует время между событиями в процессе Пуассона.
🔹Пример: время между голами, забитыми командой.

6) Гамма-распределение (C)
🔹Вариация экспоненциального распределения.
🔹Моделирует время ожидания для определённого количества событий в процессе Пуассона.
🔹Пример: время, необходимое для забития трёх голов.

7) Бета-распределение (C)
🔹Моделирует вероятности.
🔹В отличие от биномиального распределения, где вероятность является параметром, в бета-распределении вероятность — это случайная величина.

8) Равномерное распределение (C/D)
🔹Все исходы в заданном диапазоне равновероятны.

9) Распределение Стьюдента (C)
🔹Похоже на нормальное распределение, но с более длинными хвостами.
🔹Используется в t-SNE для моделирования парных сходств в низкоразмерном пространстве.

10) Лог-нормальное распределение (C)
🔹Логарифм случайной величины следует нормальному распределению.
🔹Применяется для моделирования распределений с правосторонней асимметрией.

11) Распределение Вейбулла (C)
🔹Моделирует время ожидания до наступления события.
🔹Часто используется для анализа времени до отказа.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥137👍7
Крутой репозиторий с обширным списком статей про LLM-агентов

https://github.com/WooooDyy/LLM-Agent-Paper-List

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Как выглядит эффективная среда для экспериментов в машинном обучении?

Практики MLOps направлены на повышение скорости разработки продуктов машинного обучения, однако серьезные узкие места возникают, когда среда для экспериментов и другие инфраструктурные элементы интегрированы плохо.

Давайте разберем ключевые свойства, которыми должна обладать эффективная среда для экспериментов. Как инженер MLOps, вы должны предоставлять их пользователям, а как Data Scientist – понимать, что именно вам необходимо.

🔸 Доступ к сырым данным
Хотя обработка сырых данных – зона ответственности Data Engineering, Data Scientist'ам важно иметь возможность исследовать и анализировать их, чтобы решать, какие данные необходимо продвигать по Data Value Chain (цепочке ценности данных).

🔸 Доступ к подготовленным (curated) данным
Подготовленные данные могут находиться в Data Warehouse, но при этом не быть доступны через Feature Store. Такие данные не должны использоваться для обучения моделей в продакшн-среде. Data Scientist'ы должны иметь возможность исследовать подготовленные данные и решать, что стоит продвигать дальше.

🔸 Источник данных для обучения моделей
Данные для обучения моделей должны поступать из Feature Store, если ML-тренировочный конвейер готов к переходу в продакшн.

🔸 Гибкость в развертывании вычислительных кластеров
Data Scientist'ы должны легко запускать различные типы вычислительных кластеров (Spark, Dask или другие технологии) для эффективного исследования сырых и подготовленных данных.

🔸 Возможность запуска продакшн-подобного ML-конвейера из ноутбука
Data Scientist'ы должны иметь возможность ад-хок развернуть тренировочный ML-конвейер в среде разработки прямо из Jupyter Notebook. Это значительно ускоряет итерации экспериментов.

🔸 Автоматизированное тестирование и продвижение кода
Должен быть автоматизированный процесс тестирования и деплоя в следующую среду при создании Pull Request в определенные ветки. Например, PR из feature/* в release/* может запускать CI/CD, который протестирует и развернет ML-конвейер в pre-prod.

🔸 Интеграция с Git
Ноутбуки и другой код, связанный с CI/CD, должны быть частью Git-репозитория. Важно четко определить, где должен храниться тот или иной тип кода. Хорошая практика – использование шаблонов репозиториев с понятной документацией.

🔸 Система отслеживания экспериментов и моделей
Она должна быть доступна как для локальных, так и для удаленных ML-конвейеров.

🔸 Соответствие окружения ноутбуков и продакшн-среды
Ноутбуки должны запускаться в том же окружении, что и продакшн-код, чтобы избежать проблем с несовместимыми зависимостями. Это можно реализовать с помощью контейнеризации

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76
Сделайте свое RAG-приложение в 10 раз умнее

ColiVara — это уникальный метод извлечения документов, который не требует разбиения на фрагменты или текстовой обработки. Это все еще похоже на RAG, но без OCR, извлечения текста, сломанных таблиц или отсутствующих изображений.

То, что вы видите, — это то, что вы получаете.

Вот почему это прорыв:

🔸Индексация на основе визуальных данных
🔸 Поддержка более 100 форматов файлов
🔸 Передовое мультимодальное извлечение
🔸 API и SDK для Python/TypeScript
🔸 Нет необходимости в управлении векторной базой данных (pgVector используется "под капотом")

Но это еще не все:

🔸 Подробная документация
🔸 Быстрый запуск локально или в облаке
🔸 Встраивание с поздним взаимодействием для повышенной точности

И самое главное — это 100% open-source!

Ссылка на репозиторий GitHub

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🌭21
Топ репозитории GitHub, которые нельзя пропустить на этой неделе:

1. Бесплатный курс по LLM (2025) — обновленный репозиторий с основами LLM, дообучением и квантизацией.
👉 GitHub

2. Qwen2.5-VL — мультимодальная языковая модель для обработки документов и реальных задач.
👉 GitHub

3. GPT Researcher — бесплатная альтернатива Deep Research для глубоких исследований с отчетами и цитатами.
👉 GitHub

4. Text Generation Web UI — интерфейс для работы с LLM, с простым подключением и поддержкой API.
👉 GitHub

5. Browser-use — агент для автоматизации браузера с командным управлением.
👉 GitHub

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2