Data Portal | Data Science & Машиннное обучение – Telegram

Data Portal | Data Science & Машиннное обучение

8.61K subscribers

100 photos

35 videos

4 files

137 links

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | Data Science & Машиннное обучение

8.61K subscribers

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

PandasAI — это инструмент для анализа данных, позволяющий работать с ними через запросы на естественном языке

Где использовать:
⏩ в Jupyter ноутбуках,
⏩ Streamlit-приложениях,
⏩ в виде REST API.

Как использовать: Просто формулировать вопросы к данным на естественном языке.

🔜

Демо в Google Colab

🔜

Репозиторий проекта

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍5❤1

5.82K views08:20

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Как загружать веса моделей при ограниченных ресурсах?

Если объём памяти на вашем GPU ограничен, но нужно сохранить модель с помощью команды torch.save(model.state_dict(), 'model.pth') и продолжить её обучение в будущем, это вполне решаемая задача.

👉 В этом ноутбуке вы найдёте полезные советы и рекомендации, которые помогут справиться с этой проблемой.

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤3

5.37K views10:20

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Шпаргалка по методам кодирования категориальных признаков

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤6🌭1

6.11K views16:07

Data Portal | Data Science & Машиннное обучение

Гайд по тензорам

Эта компактная книга на 50 страниц подробно освещает все аспекты, связанные с тензорами

Тензор — это универсальное понятие, обозначающее матрицы с любым числом измерений. К тензорам относятся как скаляры (тензоры нулевого ранга), так и векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

🔜

Ссылка на сайт The Tensor Cookbook

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

6.5K views06:07

Data Portal | Data Science & Машиннное обучение

SQL за 6 недель для дата-сайентистов

Опытный дата-сайентист с семилетним стажем создал подробный план изучения SQL, представленный в формате репозитория на GitHub. Каждый этап обучения включает полезные ссылки на обучающие материалы.

Вот как выглядит 6-недельная программа:
🔸 Неделя 1: Основы SQL. Научимся извлекать данные из баз данных.
🔸 Неделя 2: Группировка данных с помощью GROUP BY.
🔸 Неделя 3: Разбираем типы JOIN и их применение.
🔸 Неделя 4: Погружаемся в оконные функции.
🔸 Неделя 5: Изучаем CTE и подзапросы.
🔸 Неделя 6: Создаём собственный проект, чтобы закрепить знания.

👉

Дорожная карта на GitHub

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - andresvourakis/free-6-week-sql-roadmap-data-science: A roadmap to guide you through mastering SQL for Data Science in…

A roadmap to guide you through mastering SQL for Data Science in just 6 weeks for free - andresvourakis/free-6-week-sql-roadmap-data-science

👍7❤4

5.69K views10:45

Data Portal | Data Science & Машиннное обучение

Проектирование систем машинного обучения

Автор: Чип Хьюен
Год: 2023

⬇️

Скачать книгу

👉

@DataSciencegx | #книги

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3

6.07K views15:15

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Советы от эксперта для тех, кто хочет развиваться в области DS и ML

На канале школы MLinside вышел подкаст с Алексеем Толстиковым, руководителем ШАД Яндекса.

Что внутри:

⏩ Какие навыки важны для работы в Data Science и Machine Learning
⏩ Почему одних технических знаний может не хватить для того, чтобы быть востребованным специалистом
⏩ Роль соревнований и междисциплинарности в развитии карьеры
⏩ Как поступить в ШАД и совмещать учёбу с работой

🔜 Ссылка: тык

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11😁4

6.7K views07:07

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Scientific Computing with Python — бесплатный интерактивный курс

Это своего рода учебник от Freecodecamp. Его цель — дать обучающимся навыки анализа и обработки данных с помощью Python. Учебник содержит следующие темы:

⏩работа со строками;
⏩List Comprehension;
⏩основы дизайна алгоритмов;
⏩структуры данных;
⏩классы и объекты.

⛓

Ссылка: тык

👉

@DataSciencegx | #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥1

6.43K views11:54

Data Portal | Data Science & Машиннное обучение

Гайд по техникам RAG

В репозитории собраны материалы по различным способам реализации Retrieval Augmented Generation (RAG). Вот некоторые методы:

🔸

Простой RAG с LangChain;

🔸

RAG с валидацией данных;

🔸

RAG с трансформацией запроса;

🔸

Relevant Segment Extraction (RSE);

🔸

Сжатие контекста из документов.

👉

Ссылка на репозиторий

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5

7.03K views17:10

Data Portal | Data Science & Машиннное обучение

Media is too big

VIEW IN TELEGRAM

Gaze-LLE

Это модель позволяющая предсказывать куда направлен взгляд человека на видео.

Метод поддерживает многопользовательскую инференцию, обрабатывая пакеты изображений с указанием ограничивающих рамок на головы людей.

Включены функции визуализации тепловых карт и скрипты для оценки на наборах данных GazeFollow и VideoAttentionTarget, а модели можно легко интегрировать с PyTorch Hub.

👉

https://github.com/fkryan/gazelle

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15

5.21K viewsedited 08:50

Data Portal | Data Science & Машиннное обучение

Отличный ресурс для изучения SQL — SQL Squid Game

Вы — новоиспечённый дата-сайентист в загадочной организации. Ваш босс, Фронтмен, требует от вас решения бизнес-задач с помощью SQL. Не справитесь — ☠️

9 уровней, растущая сложность, а заодно — отличная прокачка навыков. Не уверены в силах? На сайте есть 33 урока, чтобы подтянуть SQL перед стартом

Держите ссылку: https://datalemur.com/sql-game

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤1

4.2K views07:37

Data Portal | Data Science & Машиннное обучение

«Комбинаторика для начинающих» — бесплатный курс на «Степике»

Курс предназначен для начинающих, которые хотят освоить основы комбинаторики с нуля, а также для тех, кто когда-то изучал этот раздел математики, но нуждается в обновлении и систематизации знаний.

Включает разделы:

🔸Правило сложения и умножения. Принцип Дирихле
🔸Основные комбинаторные величины и их свойства
🔸Сочетания с повторениями и без
🔸Комбинаторные тождества
🔸Полиномиальные коэффициенты
🔸Формула включений и исключений
🔸Выравнивания

👉

Ссылка на курс

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11

4.28K views11:11

Data Portal | Data Science & Машиннное обучение

bRAG: Серия уроков по RAG

Открытое руководство, которое проведет вас от основ RAG до продвинутых реализаций.

Уроки насыщены практическими примерами, которые помогут вам создавать готовые к продакшену системы RAG с применением новейших технологий, таких как CRAG и многовекторный поиск.

👉

https://github.com/bRAGAI/bRAG-langchain

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥4👀1

4.1K views06:29

Data Portal | Data Science & Машиннное обучение

Почему DeepSeek Janus-7B — это нечто действительно невероятное

В статье рассматриваются ключевые особенности новой мультимодальной модели DeepSeek Janus-7B, которая, по заявлениям, превосходит популярные AI-инструменты, такие как DALL-E 3 и Stable Diffusion.

Подробно анализируются её уникальные технические решения и возможности.

🔜

Читать статью

👉

@DataSciencegx | #cтатья

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤1

3.91K views10:40

Data Portal | Data Science & Машиннное обучение

Ускорьте Python в 50 раз за 4 простых шага

По умолчанию интерпретатор Python, CPython, работает медленно, в основном из-за своей динамичности.

После определения переменной с определённым типом её можно изменить на другой. Эти динамические манипуляции приводят к дополнительным затратам на выполнение и память.

Чтобы ускорить работу, используйте модуль Cython. Он превращает код Python в C, делая его быстрым и эффективным.

Вот как использовать модуль Cython:

1) Загрузите модуль Cython: %load_ext Cython
2) Добавьте магическую команду Cython
3) Указывайте типы данных параметров при использовании функций
4) Определяйте каждую переменную с помощью ключевого слова cdef и указывайте её тип данных

Вот и всё!

Теперь ваш код будет работать с ускорением до скорости нативного машинного кода, как показано на картинке.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19👍3

3.5K views11:01

Data Portal | Data Science & Машиннное обучение

11 наиболее важных распределений, используемых в DS

Статистические модели предполагают существование некоторого процесса генерации данных.

Основываясь на предполагаемом процессе генерации данных, мы можем:
— Сформулировать шаг максимального правдоподобия (MLE);
— Определить оценки максимального правдоподобия.

В результате производительность модели полностью зависит от:
— Вашего понимания процесса генерации данных;
— Выбранного распределения для моделирования данных, что, в свою очередь, зависит от знания различных распределений.

Таким образом, крайне важно знать некоторые из наиболее значимых распределений и тип данных, который они могут моделировать.

Ниже приведены 11 наиболее важных распределений в Data Science:

C: Непрерывное (Continuous)
D: Дискретное (Discrete)

1) Нормальное распределение (C)
🔹Наиболее распространённое в Data Science.
🔹Характеризуется симметричной колоколообразной кривой.
🔹Пример: рост людей.

2) Распределение Бернулли (D)
🔹Моделирует исход бинарного события.
🔹Пример: подбрасывание монеты.

3) Биномиальное распределение (D)
🔹Повторение распределения Бернулли несколько раз.
🔹Моделирует количество успехов в независимых испытаниях Бернулли.

4) Распределение Пуассона (D)
🔹Моделирует количество событий, происходящих за фиксированный интервал времени или пространства.
🔹Пример: количество голов, забитых командой.

5) Экспоненциальное распределение (C)
🔹Моделирует время между событиями в процессе Пуассона.
🔹Пример: время между голами, забитыми командой.

6) Гамма-распределение (C)
🔹Вариация экспоненциального распределения.
🔹Моделирует время ожидания для определённого количества событий в процессе Пуассона.
🔹Пример: время, необходимое для забития трёх голов.

7) Бета-распределение (C)
🔹Моделирует вероятности.
🔹В отличие от биномиального распределения, где вероятность является параметром, в бета-распределении вероятность — это случайная величина.

8) Равномерное распределение (C/D)
🔹Все исходы в заданном диапазоне равновероятны.

9) Распределение Стьюдента (C)
🔹Похоже на нормальное распределение, но с более длинными хвостами.
🔹Используется в t-SNE для моделирования парных сходств в низкоразмерном пространстве.

10) Лог-нормальное распределение (C)
🔹Логарифм случайной величины следует нормальному распределению.
🔹Применяется для моделирования распределений с правосторонней асимметрией.

11) Распределение Вейбулла (C)
🔹Моделирует время ожидания до наступления события.
🔹Часто используется для анализа времени до отказа.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤7👍7

3.67K viewsedited 16:07

Data Portal | Data Science & Машиннное обучение

Крутой репозиторий с обширным списком статей про LLM-агентов

https://github.com/WooooDyy/LLM-Agent-Paper-List

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1🌚1

3.34K views07:49

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Как выглядит эффективная среда для экспериментов в машинном обучении?

Практики MLOps направлены на повышение скорости разработки продуктов машинного обучения, однако серьезные узкие места возникают, когда среда для экспериментов и другие инфраструктурные элементы интегрированы плохо.

Давайте разберем ключевые свойства, которыми должна обладать эффективная среда для экспериментов. Как инженер MLOps, вы должны предоставлять их пользователям, а как Data Scientist – понимать, что именно вам необходимо.

🔸

Доступ к сырым данным
Хотя обработка сырых данных – зона ответственности Data Engineering, Data Scientist'ам важно иметь возможность исследовать и анализировать их, чтобы решать, какие данные необходимо продвигать по Data Value Chain (цепочке ценности данных).

🔸

Доступ к подготовленным (curated) данным
Подготовленные данные могут находиться в Data Warehouse, но при этом не быть доступны через Feature Store. Такие данные не должны использоваться для обучения моделей в продакшн-среде. Data Scientist'ы должны иметь возможность исследовать подготовленные данные и решать, что стоит продвигать дальше.

🔸

Источник данных для обучения моделей
Данные для обучения моделей должны поступать из Feature Store, если ML-тренировочный конвейер готов к переходу в продакшн.

🔸

Гибкость в развертывании вычислительных кластеров
Data Scientist'ы должны легко запускать различные типы вычислительных кластеров (Spark, Dask или другие технологии) для эффективного исследования сырых и подготовленных данных.

🔸

Возможность запуска продакшн-подобного ML-конвейера из ноутбука
Data Scientist'ы должны иметь возможность ад-хок развернуть тренировочный ML-конвейер в среде разработки прямо из Jupyter Notebook. Это значительно ускоряет итерации экспериментов.

🔸

Автоматизированное тестирование и продвижение кода
Должен быть автоматизированный процесс тестирования и деплоя в следующую среду при создании Pull Request в определенные ветки. Например, PR из feature/* в release/* может запускать CI/CD, который протестирует и развернет ML-конвейер в pre-prod.

🔸

Интеграция с Git
Ноутбуки и другой код, связанный с CI/CD, должны быть частью Git-репозитория. Важно четко определить, где должен храниться тот или иной тип кода. Хорошая практика – использование шаблонов репозиториев с понятной документацией.

🔸

Система отслеживания экспериментов и моделей
Она должна быть доступна как для локальных, так и для удаленных ML-конвейеров.

🔸

Соответствие окружения ноутбуков и продакшн-среды
Ноутбуки должны запускаться в том же окружении, что и продакшн-код, чтобы избежать проблем с несовместимыми зависимостями. Это можно реализовать с помощью контейнеризации

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤6

3.64K views16:07

Data Portal | Data Science & Машиннное обучение

Сделайте свое RAG-приложение в 10 раз умнее

ColiVara — это уникальный метод извлечения документов, который не требует разбиения на фрагменты или текстовой обработки. Это все еще похоже на RAG, но без OCR, извлечения текста, сломанных таблиц или отсутствующих изображений.

То, что вы видите, — это то, что вы получаете.

Вот почему это прорыв:

🔸Индексация на основе визуальных данных
🔸 Поддержка более 100 форматов файлов
🔸 Передовое мультимодальное извлечение
🔸 API и SDK для Python/TypeScript
🔸 Нет необходимости в управлении векторной базой данных (pgVector используется "под капотом")

Но это еще не все:

🔸 Подробная документация
🔸 Быстрый запуск локально или в облаке
🔸 Встраивание с поздним взаимодействием для повышенной точности

И самое главное — это 100% open-source!

Ссылка на репозиторий GitHub

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🌭2❤1

3.92K views06:21

Data Portal | Data Science & Машиннное обучение

Топ репозитории GitHub, которые нельзя пропустить на этой неделе:

1. Бесплатный курс по LLM (2025) — обновленный репозиторий с основами LLM, дообучением и квантизацией.

👉

GitHub

2. Qwen2.5-VL — мультимодальная языковая модель для обработки документов и реальных задач.

👉

GitHub

3. GPT Researcher — бесплатная альтернатива Deep Research для глубоких исследований с отчетами и цитатами.

👉

GitHub

4. Text Generation Web UI — интерфейс для работы с LLM, с простым подключением и поддержкой API.

👉

GitHub

5. Browser-use — агент для автоматизации браузера с командным управлением.

👉

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥2

3.58K views15:21