Data Portal | Data Science & Машиннное обучение
8.58K subscribers
108 photos
37 videos
4 files
145 links
Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx
Download Telegram
Только что наткнулся на отличный разбор трансформеров от Брэндона Роэра и не могу не поделиться

Если вам когда-либо было сложно разобраться, как работают эти модели (и при этом не утонуть в формулах), обязательно прочитайте эту статью.

Автор объясняет всё максимально интуитивно — никаких сложных выкладок, только суть. Визуализации и аналогии помогают действительно понять такие концепции, как механизм внимания.

Если вы работаете с LLM, готовитесь к собеседованию или просто хотите лучше понять, как устроены модели вроде ChatGPT, этот материал — один из лучших, что я встречал

👉 https://www.brandonrohrer.com/transformers

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93
This media is not supported in your browser
VIEW IN TELEGRAM
Нашёл мощную альтернативу Jupyter Notebook (с открытым исходным кодом)

marimo объединяет возможности Jupyter, Streamlit, ipywidgets (и не только) в реактивном интерфейсе.

Он также отображает интерактивные таблицы Pandas, и к ним можно выполнять SQL-запросы.

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163
⭐️ Шпаргалка из 40 методов NumPy, которые используются в 95% случаев

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Пользователям Jupyter это точно понравится

Stickyland — это инструмент с открытым исходным кодом, который позволяет выйти за рамки линейного представления ноутбука.

🔸Создавайте плавающие ячейки
🔸Формируйте дашборды из ячеек
🔸Автоматически выполняйте ячейки при изменениях

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123
Используйте box plot с осторожностью. Они могут вводить в заблуждение

В этом примере три разных набора данных дают похожие box plot. Поэтому всегда проверяйте распределение данных с помощью гистограмм, KDE и других методов.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Альтернатива Pandas, работающая в 100 раз быстрее!

(Может даже обойти GPU-библиотеки для работы с DataFrame)

Хотя Pandas — самая популярная библиотека для работы с DataFrame, у нее есть серьезные ограничения:

🔸Использует только одно ядро процессора
🔸Часто создает громоздкие DataFrame.
🔸Немедленное (eager) выполнение мешает глобальной оптимизации.

Представляем FireDucksDev — высокоэффективную замену Pandas, которую можно использовать без изменений кода.

Достаточно просто заменить одну строку:

import fireducks.pandas as pd


На видео показано сравнение FireDucks с cuDF — GPU-библиотекой DataFrame.

В этом случае FireDucks оказался даже быстрее cuDF.

Однако в тесте использовались цепочки операций и все столбцы. После ручной оптимизации (работа только с нужными столбцами) время выполнения изменилось:

🔸Pandas: 14 секунд (было 48 секунд)
🔸FireDucks: 0,8 секунды (без изменений)
🔸cuDF: 0,9 секунды (было 2,6 секунды)

Это доказывает, что компилятор FireDucks автоматически выполняет те же оптимизации, которые в cuDF и Pandas пришлось бы настраивать вручную.

Важно отметить, что оптимизация не влияет на конечный результат

👉 Ссылка на Google Colab

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117
Используйте эти репозитории на GitHub, чтобы прокачать свои навыки в Python и ML:

🔸 Homemade Machine Learning — Репозиторий содержит коллекцию алгоритмов машинного обучения, реализованных с нуля на Python, что помогает понять их внутреннюю работу.

🔸 Awesome Machine Learning — Подборка отличных фреймворков, библиотек и программного обеспечения для машинного обучения

🔸 Machine Learning Tutorial — Собрание обучающих материалов, статей и других ресурсов по машинному и глубокому обучению

🔸 Best Of ML With Python — Ранжированный список лучших библиотек Python для машинного обучения, обновляемый еженедельно

🔸 Machine Learning Interview — Репозиторий предоставляет ресурсы для подготовки к интервью по машинному обучению, включая примеры вопросов и советы

👉 @DataSciencegx | #ресурсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥1
Сегодня стартовала неделя опенсорса от DeepSeek

На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы

Сегодня — первый релиз: FlashMLA
Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.


🔸GitHub: FlashMLA

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117🔥2
Генеративные vs. дискриминативные модели в ML

Генеративные модели:
🔸Изучают распределение данных, чтобы генерировать новые образцы.
🔸Обладают дискриминативными свойствами — их можно использовать для классификации.

Дискриминативные модели не обладают генеративными свойствами

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53
4 способа запустить LLM, такую как DeepSeek-R1, локально на вашем компьютере:

Запуск LLM локально — это как обладание суперспособностью:

🔸Экономия средств
🔸Конфиденциальность: ваши данные остаются на вашем компьютере
🔸К тому же, это безумно интересно

Сегодня мы рассмотрим лучшие способы сделать это. Поехали:

1. Ollama
Самый простой способ — выполнить команду:
ollama run deepseek-r1

А установить Ollama можно одной строкой:
curl -fsSL https://ollama.com/install.sh | sh


2. LMStudio
Устанавливается как приложение и предоставляет интерфейс, похожий на ChatGPT. Вы можете загружать и выгружать модели, как будто работаете с кассетами в магнитофоне

3. vLLM
Быстрая и удобная библиотека для выполнения и развертывания LLM. Всего несколько строк кода — и вы сможете локально запустить DeepSeek как сервер, совместимый с OpenAI, с поддержкой рассуждений

4. LlamaCPP
Минимальная настройка, топовая производительность. На видео DeepSeek-R1 на Mac Studio

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🔥3
Python-библиотека для тонкой настройки Gemma 3

Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).

Полностью с открытым исходным кодом.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Иногда нужно быстро скормить LLM весь репозиторий

Просто меняешь одну букву в URL (github.comuithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой

Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥163
Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.

100% open-source

https://github.com/cleanlab/cleanlab

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Colab + GitHub: мгновенное открытие ноутбуков

Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак

Просто вставляешь "tocolab" в URL после "github" – и ноутбук сразу открывается в Colab

Запоминаем и пользуемся

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍54
«Просто используй RAG», — сказали они. Но КАКОЙ RAG?

Вот 7 различных архитектур RAG, которые стоит знать

1️⃣ Наивный RAG: Классический подход

Наивный RAG — это стандартная реализация с простым процессом:

🔸Пользователь отправляет запрос.
🔸Система извлекает релевантные документы из векторной базы данных.
🔸Извлечённые документы добавляются в контекст запроса.
🔸LLM генерирует ответ на основе запроса и контекста.

Этот метод хорошо работает для простых приложений, таких как базовые системы вопросов-ответов или помощники по документам.

2️⃣ RAG с повторным ранжированием (Retrieve and Rerank RAG)

Добавляет этап повторного ранжирования для повышения качества извлечённых данных:

🔸Изначально извлекается расширенный набор потенциально релевантных документов.
🔸Модель ранжирования оценивает их и присваивает оценки релевантности.
🔸Только документы с наивысшими оценками передаются в LLM.

3️⃣ Мультимодальный RAG

Использует модели, работающие с различными типами данных: текстом, изображениями, аудио, видео и т. д.

4️⃣ Графовый RAG

Использует графовую базу данных для учёта связей между документами:

🔸Документы или их фрагменты представляются узлами графа.
🔸Связи между документами — рёбра графа.
🔸Запрос может следовать по связям, чтобы находить более контекстно релевантную информацию.

5️⃣ Гибридный RAG (Vector DB + Graph DB)

Комбинирует векторный поиск и графовую базу данных:

🔸Векторный поиск находит семантически схожий контент.
🔸Графовая база предоставляет структурированные связи между данными.
🔸Запросы используют как семантическое сходство, так и явные связи.
🔸Ответ может включать информацию, найденную при обходе графа.

6️⃣ Агентный RAG с маршрутизатором (Agentic RAG with Router Agent)

Один агент управляет процессом извлечения знаний:

🔸Анализирует запрос и определяет, какие источники данных использовать.
🔸Принимает стратегические решения о способах извлечения информации.
🔸Координирует процесс извлечения на основе понимания запроса.

7️⃣ Мультиагентный RAG

Использует несколько специализированных агентов:

🔸Главный агент управляет процессом.
🔸Специализированные агенты выполняют разные задачи.
🔸Агенты взаимодействуют, чтобы решать сложные запросы.

Например, один агент отвечает за поиск по источникам, другой за преобразование данных, третий — за персонализацию ответа, а главный агент собирает окончательный результат.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7👍3