latexify — библиотека для красивого вывода формул
Вот основные функции:
⏩ компилирует код Python или AST в формат LaTeX
⏩ предоставляет классы для IPython для красивого отображения формул.
🔜 Ссылка на репозиторий
👉 @DataSciencegx | #ресурсы
Вот основные функции:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍5
Краткий свод концепций Tensor Flow
⏩ архитектуру TensorFlow: устройство и базовые концепты;
⏩ типы данных и форматы тензоров в TensorFlow;
⏩ оптимизацию и обучение моделей;
⏩ обучение и распределённое вычисление: стратегии и параллелизация;
⏩ работу с данными и их подготовку: Dataset API и трансформации данных;
⏩ сохранение и развёртывание моделей.
🔜 Читать статью
👉 @DataSciencegx | #cтатья
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
PandasAI — это инструмент для анализа данных, позволяющий работать с ними через запросы на естественном языке
Где использовать:
⏩ в Jupyter ноутбуках,
⏩ Streamlit-приложениях,
⏩ в виде REST API.
Как использовать: Просто формулировать вопросы к данным на естественном языке.
🔜 Демо в Google Colab
🔜 Репозиторий проекта
👉 @DataSciencegx | #ресурсы
Где использовать:
Как использовать: Просто формулировать вопросы к данным на естественном языке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Как загружать веса моделей при ограниченных ресурсах?
Если объём памяти на вашем GPU ограничен, но нужно сохранить модель с помощью команды torch.save(model.state_dict(), 'model.pth') и продолжить её обучение в будущем, это вполне решаемая задача.
👉 В этом ноутбуке вы найдёте полезные советы и рекомендации, которые помогут справиться с этой проблемой.
👉 @DataSciencegx | #ресурсы
Если объём памяти на вашем GPU ограничен, но нужно сохранить модель с помощью команды torch.save(model.state_dict(), 'model.pth') и продолжить её обучение в будущем, это вполне решаемая задача.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤6🌭1
cookbook.pdf
642.4 KB
Гайд по тензорам
Эта компактная книга на 50 страниц подробно освещает все аспекты, связанные с тензорами
🔜 Ссылка на сайт The Tensor Cookbook
👉 @DataSciencegx | #ресурсы
Эта компактная книга на 50 страниц подробно освещает все аспекты, связанные с тензорами
Тензор — это универсальное понятие, обозначающее матрицы с любым числом измерений. К тензорам относятся как скаляры (тензоры нулевого ранга), так и векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
SQL за 6 недель для дата-сайентистов
Опытный дата-сайентист с семилетним стажем создал подробный план изучения SQL, представленный в формате репозитория на GitHub. Каждый этап обучения включает полезные ссылки на обучающие материалы.
Вот как выглядит 6-недельная программа:
🔸 Неделя 1: Основы SQL. Научимся извлекать данные из баз данных.
🔸 Неделя 2: Группировка данных с помощью GROUP BY.
🔸 Неделя 3: Разбираем типы JOIN и их применение.
🔸 Неделя 4: Погружаемся в оконные функции.
🔸 Неделя 5: Изучаем CTE и подзапросы.
🔸 Неделя 6: Создаём собственный проект, чтобы закрепить знания.
👉 Дорожная карта на GitHub
👉 @DataSciencegx | #ресурсы
Опытный дата-сайентист с семилетним стажем создал подробный план изучения SQL, представленный в формате репозитория на GitHub. Каждый этап обучения включает полезные ссылки на обучающие материалы.
Вот как выглядит 6-недельная программа:
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - andresvourakis/free-6-week-sql-roadmap-data-science: A roadmap to guide you through mastering SQL for Data Science in…
A roadmap to guide you through mastering SQL for Data Science in just 6 weeks for free - andresvourakis/free-6-week-sql-roadmap-data-science
👍7❤4
Проектирование систем машинного обучения
Автор: Чип Хьюен
Год: 2023
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
Автор: Чип Хьюен
Год: 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Советы от эксперта для тех, кто хочет развиваться в области DS и ML
На канале школы MLinside вышел подкаст с Алексеем Толстиковым, руководителем ШАД Яндекса.
Что внутри:
⏩ Какие навыки важны для работы в Data Science и Machine Learning
⏩ Почему одних технических знаний может не хватить для того, чтобы быть востребованным специалистом
⏩ Роль соревнований и междисциплинарности в развитии карьеры
⏩ Как поступить в ШАД и совмещать учёбу с работой
🔜 Ссылка: тык
👉 @DataSciencegx | #ресурсы
На канале школы MLinside вышел подкаст с Алексеем Толстиковым, руководителем ШАД Яндекса.
Что внутри:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Scientific Computing with Python — бесплатный интерактивный курс
Это своего рода учебник от Freecodecamp. Его цель — дать обучающимся навыки анализа и обработки данных с помощью Python. Учебник содержит следующие темы:
⏩ работа со строками;
⏩ List Comprehension;
⏩ основы дизайна алгоритмов;
⏩ структуры данных;
⏩ классы и объекты.
⛓ Ссылка: тык
👉 @DataSciencegx | #курсы
Это своего рода учебник от Freecodecamp. Его цель — дать обучающимся навыки анализа и обработки данных с помощью Python. Учебник содержит следующие темы:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥1
Гайд по техникам RAG
В репозитории собраны материалы по различным способам реализации Retrieval Augmented Generation (RAG). Вот некоторые методы:
🔸 Простой RAG с LangChain;
🔸 RAG с валидацией данных;
🔸 RAG с трансформацией запроса;
🔸 Relevant Segment Extraction (RSE);
🔸 Сжатие контекста из документов.
👉 Ссылка на репозиторий
👉 @DataSciencegx | #ресурсы
В репозитории собраны материалы по различным способам реализации Retrieval Augmented Generation (RAG). Вот некоторые методы:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5
Media is too big
VIEW IN TELEGRAM
Gaze-LLE
Это модель позволяющая предсказывать куда направлен взгляд человека на видео.
Метод поддерживает многопользовательскую инференцию, обрабатывая пакеты изображений с указанием ограничивающих рамок на головы людей.
Включены функции визуализации тепловых карт и скрипты для оценки на наборах данных GazeFollow и VideoAttentionTarget, а модели можно легко интегрировать с PyTorch Hub.
👉 https://github.com/fkryan/gazelle
👉 @DataSciencegx | #ресурсы
Это модель позволяющая предсказывать куда направлен взгляд человека на видео.
Метод поддерживает многопользовательскую инференцию, обрабатывая пакеты изображений с указанием ограничивающих рамок на головы людей.
Включены функции визуализации тепловых карт и скрипты для оценки на наборах данных GazeFollow и VideoAttentionTarget, а модели можно легко интегрировать с PyTorch Hub.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15
Отличный ресурс для изучения SQL — SQL Squid Game
9 уровней, растущая сложность, а заодно — отличная прокачка навыков. Не уверены в силах? На сайте есть 33 урока, чтобы подтянуть SQL перед стартом
Держите ссылку: https://datalemur.com/sql-game
👉 @DataSciencegx | #ресурсы
Вы — новоиспечённый дата-сайентист в загадочной организации. Ваш босс, Фронтмен, требует от вас решения бизнес-задач с помощью SQL. Не справитесь —☠️
9 уровней, растущая сложность, а заодно — отличная прокачка навыков. Не уверены в силах? На сайте есть 33 урока, чтобы подтянуть SQL перед стартом
Держите ссылку: https://datalemur.com/sql-game
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2
«Комбинаторика для начинающих» — бесплатный курс на «Степике»
Курс предназначен для начинающих, которые хотят освоить основы комбинаторики с нуля, а также для тех, кто когда-то изучал этот раздел математики, но нуждается в обновлении и систематизации знаний.
Включает разделы:
🔸 Правило сложения и умножения. Принцип Дирихле
🔸 Основные комбинаторные величины и их свойства
🔸 Сочетания с повторениями и без
🔸 Комбинаторные тождества
🔸 Полиномиальные коэффициенты
🔸 Формула включений и исключений
🔸 Выравнивания
👉 Ссылка на курс
👉 @DataSciencegx | #ресурсы
Курс предназначен для начинающих, которые хотят освоить основы комбинаторики с нуля, а также для тех, кто когда-то изучал этот раздел математики, но нуждается в обновлении и систематизации знаний.
Включает разделы:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
bRAG: Серия уроков по RAG
Открытое руководство, которое проведет вас от основ RAG до продвинутых реализаций.
Уроки насыщены практическими примерами, которые помогут вам создавать готовые к продакшену системы RAG с применением новейших технологий, таких как CRAG и многовекторный поиск.
👉 https://github.com/bRAGAI/bRAG-langchain
👉 @DataSciencegx | #ресурсы
Открытое руководство, которое проведет вас от основ RAG до продвинутых реализаций.
Уроки насыщены практическими примерами, которые помогут вам создавать готовые к продакшену системы RAG с применением новейших технологий, таких как CRAG и многовекторный поиск.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4👀1
Почему DeepSeek Janus-7B — это нечто действительно невероятное
В статье рассматриваются ключевые особенности новой мультимодальной модели DeepSeek Janus-7B, которая, по заявлениям, превосходит популярные AI-инструменты, такие как DALL-E 3 и Stable Diffusion.
Подробно анализируются её уникальные технические решения и возможности.
🔜 Читать статью
👉 @DataSciencegx | #cтатья
В статье рассматриваются ключевые особенности новой мультимодальной модели DeepSeek Janus-7B, которая, по заявлениям, превосходит популярные AI-инструменты, такие как DALL-E 3 и Stable Diffusion.
Подробно анализируются её уникальные технические решения и возможности.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1
Ускорьте Python в 50 раз за 4 простых шага
По умолчанию интерпретатор Python, CPython, работает медленно, в основном из-за своей динамичности.
После определения переменной с определённым типом её можно изменить на другой. Эти динамические манипуляции приводят к дополнительным затратам на выполнение и память.
Чтобы ускорить работу, используйте модуль Cython. Он превращает код Python в C, делая его быстрым и эффективным.
Вот как использовать модуль Cython:
1) Загрузите модуль Cython: %load_ext Cython
2) Добавьте магическую команду Cython
3) Указывайте типы данных параметров при использовании функций
4) Определяйте каждую переменную с помощью ключевого слова cdef и указывайте её тип данных
Вот и всё!
Теперь ваш код будет работать с ускорением до скорости нативного машинного кода, как показано на картинке.
👉 @DataSciencegx
По умолчанию интерпретатор Python, CPython, работает медленно, в основном из-за своей динамичности.
После определения переменной с определённым типом её можно изменить на другой. Эти динамические манипуляции приводят к дополнительным затратам на выполнение и память.
Чтобы ускорить работу, используйте модуль Cython. Он превращает код Python в C, делая его быстрым и эффективным.
Вот как использовать модуль Cython:
1) Загрузите модуль Cython: %load_ext Cython
2) Добавьте магическую команду Cython
3) Указывайте типы данных параметров при использовании функций
4) Определяйте каждую переменную с помощью ключевого слова cdef и указывайте её тип данных
Вот и всё!
Теперь ваш код будет работать с ускорением до скорости нативного машинного кода, как показано на картинке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍3
11 наиболее важных распределений, используемых в DS
Статистические модели предполагают существование некоторого процесса генерации данных.
Основываясь на предполагаемом процессе генерации данных, мы можем:
— Сформулировать шаг максимального правдоподобия (MLE);
— Определить оценки максимального правдоподобия.
В результате производительность модели полностью зависит от:
— Вашего понимания процесса генерации данных;
— Выбранного распределения для моделирования данных, что, в свою очередь, зависит от знания различных распределений.
Таким образом, крайне важно знать некоторые из наиболее значимых распределений и тип данных, который они могут моделировать.
Ниже приведены 11 наиболее важных распределений в Data Science:
1) Нормальное распределение (C)
🔹 Наиболее распространённое в Data Science.
🔹 Характеризуется симметричной колоколообразной кривой.
🔹 Пример: рост людей.
2) Распределение Бернулли (D)
🔹 Моделирует исход бинарного события.
🔹 Пример: подбрасывание монеты.
3) Биномиальное распределение (D)
🔹 Повторение распределения Бернулли несколько раз.
🔹 Моделирует количество успехов в независимых испытаниях Бернулли.
4) Распределение Пуассона (D)
🔹 Моделирует количество событий, происходящих за фиксированный интервал времени или пространства.
🔹 Пример: количество голов, забитых командой.
5) Экспоненциальное распределение (C)
🔹 Моделирует время между событиями в процессе Пуассона.
🔹 Пример: время между голами, забитыми командой.
6) Гамма-распределение (C)
🔹 Вариация экспоненциального распределения.
🔹 Моделирует время ожидания для определённого количества событий в процессе Пуассона.
🔹 Пример: время, необходимое для забития трёх голов.
7) Бета-распределение (C)
🔹 Моделирует вероятности.
🔹 В отличие от биномиального распределения, где вероятность является параметром, в бета-распределении вероятность — это случайная величина.
8) Равномерное распределение (C/D)
🔹 Все исходы в заданном диапазоне равновероятны.
9) Распределение Стьюдента (C)
🔹 Похоже на нормальное распределение, но с более длинными хвостами.
🔹 Используется в t-SNE для моделирования парных сходств в низкоразмерном пространстве.
10) Лог-нормальное распределение (C)
🔹 Логарифм случайной величины следует нормальному распределению.
🔹 Применяется для моделирования распределений с правосторонней асимметрией.
11) Распределение Вейбулла (C)
🔹 Моделирует время ожидания до наступления события.
🔹 Часто используется для анализа времени до отказа.
👉 @DataSciencegx
Статистические модели предполагают существование некоторого процесса генерации данных.
Основываясь на предполагаемом процессе генерации данных, мы можем:
— Сформулировать шаг максимального правдоподобия (MLE);
— Определить оценки максимального правдоподобия.
В результате производительность модели полностью зависит от:
— Вашего понимания процесса генерации данных;
— Выбранного распределения для моделирования данных, что, в свою очередь, зависит от знания различных распределений.
Таким образом, крайне важно знать некоторые из наиболее значимых распределений и тип данных, который они могут моделировать.
Ниже приведены 11 наиболее важных распределений в Data Science:
C: Непрерывное (Continuous)
D: Дискретное (Discrete)
1) Нормальное распределение (C)
2) Распределение Бернулли (D)
3) Биномиальное распределение (D)
4) Распределение Пуассона (D)
5) Экспоненциальное распределение (C)
6) Гамма-распределение (C)
7) Бета-распределение (C)
8) Равномерное распределение (C/D)
9) Распределение Стьюдента (C)
10) Лог-нормальное распределение (C)
11) Распределение Вейбулла (C)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤7👍7
Крутой репозиторий с обширным списком статей про LLM-агентов
https://github.com/WooooDyy/LLM-Agent-Paper-List
👉 @DataSciencegx | #ресурсы
https://github.com/WooooDyy/LLM-Agent-Paper-List
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Как выглядит эффективная среда для экспериментов в машинном обучении?
Практики MLOps направлены на повышение скорости разработки продуктов машинного обучения, однако серьезные узкие места возникают, когда среда для экспериментов и другие инфраструктурные элементы интегрированы плохо.
Давайте разберем ключевые свойства, которыми должна обладать эффективная среда для экспериментов. Как инженер MLOps, вы должны предоставлять их пользователям, а как Data Scientist – понимать, что именно вам необходимо.
🔸 Доступ к сырым данным
Хотя обработка сырых данных – зона ответственности Data Engineering, Data Scientist'ам важно иметь возможность исследовать и анализировать их, чтобы решать, какие данные необходимо продвигать по Data Value Chain (цепочке ценности данных).
🔸 Доступ к подготовленным (curated) данным
Подготовленные данные могут находиться в Data Warehouse, но при этом не быть доступны через Feature Store. Такие данные не должны использоваться для обучения моделей в продакшн-среде. Data Scientist'ы должны иметь возможность исследовать подготовленные данные и решать, что стоит продвигать дальше.
🔸 Источник данных для обучения моделей
Данные для обучения моделей должны поступать из Feature Store, если ML-тренировочный конвейер готов к переходу в продакшн.
🔸 Гибкость в развертывании вычислительных кластеров
Data Scientist'ы должны легко запускать различные типы вычислительных кластеров (Spark, Dask или другие технологии) для эффективного исследования сырых и подготовленных данных.
🔸 Возможность запуска продакшн-подобного ML-конвейера из ноутбука
Data Scientist'ы должны иметь возможность ад-хок развернуть тренировочный ML-конвейер в среде разработки прямо из Jupyter Notebook. Это значительно ускоряет итерации экспериментов.
🔸 Автоматизированное тестирование и продвижение кода
Должен быть автоматизированный процесс тестирования и деплоя в следующую среду при создании Pull Request в определенные ветки. Например, PR из
🔸 Интеграция с Git
Ноутбуки и другой код, связанный с CI/CD, должны быть частью Git-репозитория. Важно четко определить, где должен храниться тот или иной тип кода. Хорошая практика – использование шаблонов репозиториев с понятной документацией.
🔸 Система отслеживания экспериментов и моделей
Она должна быть доступна как для локальных, так и для удаленных ML-конвейеров.
🔸 Соответствие окружения ноутбуков и продакшн-среды
Ноутбуки должны запускаться в том же окружении, что и продакшн-код, чтобы избежать проблем с несовместимыми зависимостями. Это можно реализовать с помощью контейнеризации
👉 @DataSciencegx
Практики MLOps направлены на повышение скорости разработки продуктов машинного обучения, однако серьезные узкие места возникают, когда среда для экспериментов и другие инфраструктурные элементы интегрированы плохо.
Давайте разберем ключевые свойства, которыми должна обладать эффективная среда для экспериментов. Как инженер MLOps, вы должны предоставлять их пользователям, а как Data Scientist – понимать, что именно вам необходимо.
Хотя обработка сырых данных – зона ответственности Data Engineering, Data Scientist'ам важно иметь возможность исследовать и анализировать их, чтобы решать, какие данные необходимо продвигать по Data Value Chain (цепочке ценности данных).
Подготовленные данные могут находиться в Data Warehouse, но при этом не быть доступны через Feature Store. Такие данные не должны использоваться для обучения моделей в продакшн-среде. Data Scientist'ы должны иметь возможность исследовать подготовленные данные и решать, что стоит продвигать дальше.
Данные для обучения моделей должны поступать из Feature Store, если ML-тренировочный конвейер готов к переходу в продакшн.
Data Scientist'ы должны легко запускать различные типы вычислительных кластеров (Spark, Dask или другие технологии) для эффективного исследования сырых и подготовленных данных.
Data Scientist'ы должны иметь возможность ад-хок развернуть тренировочный ML-конвейер в среде разработки прямо из Jupyter Notebook. Это значительно ускоряет итерации экспериментов.
Должен быть автоматизированный процесс тестирования и деплоя в следующую среду при создании Pull Request в определенные ветки. Например, PR из
feature/*
в release/*
может запускать CI/CD, который протестирует и развернет ML-конвейер в pre-prod.Ноутбуки и другой код, связанный с CI/CD, должны быть частью Git-репозитория. Важно четко определить, где должен храниться тот или иной тип кода. Хорошая практика – использование шаблонов репозиториев с понятной документацией.
Она должна быть доступна как для локальных, так и для удаленных ML-конвейеров.
Ноутбуки должны запускаться в том же окружении, что и продакшн-код, чтобы избежать проблем с несовместимыми зависимостями. Это можно реализовать с помощью контейнеризации
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤6