Data Portal | Data Science & Машиннное обучение – Telegram

Data Portal | Data Science & Машиннное обучение

8.58K subscribers

108 photos

37 videos

4 files

145 links

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | Data Science & Машиннное обучение

8.58K subscribers

Data Portal | Data Science & Машиннное обучение

Только что наткнулся на отличный разбор трансформеров от Брэндона Роэра и не могу не поделиться

Если вам когда-либо было сложно разобраться, как работают эти модели (и при этом не утонуть в формулах), обязательно прочитайте эту статью.

Автор объясняет всё максимально интуитивно — никаких сложных выкладок, только суть. Визуализации и аналогии помогают действительно понять такие концепции, как механизм внимания.

Если вы работаете с LLM, готовитесь к собеседованию или просто хотите лучше понять, как устроены модели вроде ChatGPT, этот материал — один из лучших, что я встречал

👉

https://www.brandonrohrer.com/transformers

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3

3.65K viewsedited 05:47

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Нашёл мощную альтернативу Jupyter Notebook (с открытым исходным кодом)

marimo объединяет возможности Jupyter, Streamlit, ipywidgets (и не только) в реактивном интерфейсе.

Он также отображает интерактивные таблицы Pandas, и к ним можно выполнять SQL-запросы.

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤3

3.2K views09:17

Data Portal | Data Science & Машиннное обучение

⭐️

Шпаргалка из 40 методов NumPy, которые используются в 95% случаев

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13👍6

3.39K views14:33

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Пользователям Jupyter это точно понравится

Stickyland — это инструмент с открытым исходным кодом, который позволяет выйти за рамки линейного представления ноутбука.

🔸Создавайте плавающие ячейки
🔸Формируйте дашборды из ячеек
🔸Автоматически выполняйте ячейки при изменениях

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3

3.56K views08:59

Data Portal | Data Science & Машиннное обучение

Используйте box plot с осторожностью. Они могут вводить в заблуждение

В этом примере три разных набора данных дают похожие box plot. Поэтому всегда проверяйте распределение данных с помощью гистограмм, KDE и других методов.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤1👀1

3.46K views16:07

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Альтернатива Pandas, работающая в 100 раз быстрее!

(Может даже обойти GPU-библиотеки для работы с DataFrame)

Хотя Pandas — самая популярная библиотека для работы с DataFrame, у нее есть серьезные ограничения:

🔸Использует только одно ядро процессора
🔸Часто создает громоздкие DataFrame.
🔸Немедленное (eager) выполнение мешает глобальной оптимизации.

Представляем FireDucksDev — высокоэффективную замену Pandas, которую можно использовать без изменений кода.

Достаточно просто заменить одну строку:

import fireducks.pandas as pd

На видео показано сравнение FireDucks с cuDF — GPU-библиотекой DataFrame.

В этом случае FireDucks оказался даже быстрее cuDF.

Однако в тесте использовались цепочки операций и все столбцы. После ручной оптимизации (работа только с нужными столбцами) время выполнения изменилось:

🔸

Pandas: 14 секунд (было 48 секунд)

🔸

FireDucks: 0,8 секунды (без изменений)

🔸

cuDF: 0,9 секунды (было 2,6 секунды)

Это доказывает, что компилятор FireDucks автоматически выполняет те же оптимизации, которые в cuDF и Pandas пришлось бы настраивать вручную.

Важно отметить, что оптимизация не влияет на конечный результат

👉

Ссылка на Google Colab

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7

4.13K views09:14

Data Portal | Data Science & Машиннное обучение

Используйте эти репозитории на GitHub, чтобы прокачать свои навыки в Python и ML:

🔸

Homemade Machine Learning — Репозиторий содержит коллекцию алгоритмов машинного обучения, реализованных с нуля на Python, что помогает понять их внутреннюю работу.

🔸

Awesome Machine Learning — Подборка отличных фреймворков, библиотек и программного обеспечения для машинного обучения

🔸

Machine Learning Tutorial — Собрание обучающих материалов, статей и других ресурсов по машинному и глубокому обучению

🔸

Best Of ML With Python — Ранжированный список лучших библиотек Python для машинного обучения, обновляемый еженедельно

🔸

Machine Learning Interview — Репозиторий предоставляет ресурсы для подготовки к интервью по машинному обучению, включая примеры вопросов и советы

👉

@DataSciencegx | #ресурсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5🔥1

4.74K viewsedited 06:57

Data Portal | Data Science & Машиннное обучение

Сегодня стартовала неделя опенсорса от DeepSeek

На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы

Сегодня — первый релиз: FlashMLA

Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.

🔸GitHub: FlashMLA

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7🔥2

4.79K views17:48

Data Portal | Data Science & Машиннное обучение

Генеративные vs. дискриминативные модели в ML

Генеративные модели:
🔸Изучают распределение данных, чтобы генерировать новые образцы.
🔸Обладают дискриминативными свойствами — их можно использовать для классификации.

Дискриминативные модели не обладают генеративными свойствами

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

4.07K views06:53

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

4 способа запустить LLM, такую как DeepSeek-R1, локально на вашем компьютере:

Запуск LLM локально — это как обладание суперспособностью:

🔸Экономия средств
🔸Конфиденциальность: ваши данные остаются на вашем компьютере
🔸К тому же, это безумно интересно

Сегодня мы рассмотрим лучшие способы сделать это. Поехали:

1. Ollama
Самый простой способ — выполнить команду:

ollama run deepseek-r1

А установить Ollama можно одной строкой:

curl -fsSL https://ollama.com/install.sh | sh

2. LMStudio
Устанавливается как приложение и предоставляет интерфейс, похожий на ChatGPT. Вы можете загружать и выгружать модели, как будто работаете с кассетами в магнитофоне

3. vLLM
Быстрая и удобная библиотека для выполнения и развертывания LLM. Всего несколько строк кода — и вы сможете локально запустить DeepSeek как сервер, совместимый с OpenAI, с поддержкой рассуждений

4. LlamaCPP
Минимальная настройка, топовая производительность. На видео DeepSeek-R1 на Mac Studio

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3🔥3

6.23K views13:56

Data Portal | Data Science & Машиннное обучение

Python-библиотека для тонкой настройки Gemma 3

Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).

Полностью с открытым исходным кодом.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3

3.09K views06:36

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Иногда нужно быстро скормить LLM весь репозиторий

Просто меняешь одну букву в URL (github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой

Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16❤3

3.32K views17:07

Data Portal | Data Science & Машиннное обучение

Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.

100% open-source

https://github.com/cleanlab/cleanlab

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤4🔥3

3.15K views09:06

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Colab + GitHub: мгновенное открытие ноутбуков

Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак

Просто вставляешь "tocolab" в URL после "github" – и ноутбук сразу открывается в Colab

Запоминаем и пользуемся

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19👍5❤4

3.22K views12:51

Data Portal | Data Science & Машиннное обучение

«Просто используй RAG», — сказали они. Но КАКОЙ RAG?

Вот 7 различных архитектур RAG, которые стоит знать

1️⃣

Наивный RAG: Классический подход

Наивный RAG — это стандартная реализация с простым процессом:

🔸Пользователь отправляет запрос.
🔸Система извлекает релевантные документы из векторной базы данных.
🔸Извлечённые документы добавляются в контекст запроса.
🔸LLM генерирует ответ на основе запроса и контекста.

Этот метод хорошо работает для простых приложений, таких как базовые системы вопросов-ответов или помощники по документам.

2️⃣

RAG с повторным ранжированием (Retrieve and Rerank RAG)

Добавляет этап повторного ранжирования для повышения качества извлечённых данных:

🔸Изначально извлекается расширенный набор потенциально релевантных документов.
🔸Модель ранжирования оценивает их и присваивает оценки релевантности.
🔸Только документы с наивысшими оценками передаются в LLM.

3️⃣

Мультимодальный RAG

Использует модели, работающие с различными типами данных: текстом, изображениями, аудио, видео и т. д.

4️⃣

Графовый RAG

Использует графовую базу данных для учёта связей между документами:

🔸Документы или их фрагменты представляются узлами графа.
🔸Связи между документами — рёбра графа.
🔸Запрос может следовать по связям, чтобы находить более контекстно релевантную информацию.

5️⃣

Гибридный RAG (Vector DB + Graph DB)

Комбинирует векторный поиск и графовую базу данных:

🔸Векторный поиск находит семантически схожий контент.
🔸Графовая база предоставляет структурированные связи между данными.
🔸Запросы используют как семантическое сходство, так и явные связи.
🔸Ответ может включать информацию, найденную при обходе графа.

6️⃣

Агентный RAG с маршрутизатором (Agentic RAG with Router Agent)

Один агент управляет процессом извлечения знаний:

🔸Анализирует запрос и определяет, какие источники данных использовать.
🔸Принимает стратегические решения о способах извлечения информации.
🔸Координирует процесс извлечения на основе понимания запроса.

7️⃣

Мультиагентный RAG

Использует несколько специализированных агентов:

🔸Главный агент управляет процессом.
🔸Специализированные агенты выполняют разные задачи.
🔸Агенты взаимодействуют, чтобы решать сложные запросы.

Например, один агент отвечает за поиск по источникам, другой за преобразование данных, третий — за персонализацию ответа, а главный агент собирает окончательный результат.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥7👍3

3.43K views08:42