Data Portal | Data Science & Машиннное обучение – Telegram

Data Portal | Data Science & Машиннное обучение

8.61K subscribers

98 photos

34 videos

4 files

134 links

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | Data Science & Машиннное обучение

8.61K subscribers

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

4 способа запустить LLM, такую как DeepSeek-R1, локально на вашем компьютере:

Запуск LLM локально — это как обладание суперспособностью:

🔸Экономия средств
🔸Конфиденциальность: ваши данные остаются на вашем компьютере
🔸К тому же, это безумно интересно

Сегодня мы рассмотрим лучшие способы сделать это. Поехали:

1. Ollama
Самый простой способ — выполнить команду:

ollama run deepseek-r1

А установить Ollama можно одной строкой:

curl -fsSL https://ollama.com/install.sh | sh

2. LMStudio
Устанавливается как приложение и предоставляет интерфейс, похожий на ChatGPT. Вы можете загружать и выгружать модели, как будто работаете с кассетами в магнитофоне

3. vLLM
Быстрая и удобная библиотека для выполнения и развертывания LLM. Всего несколько строк кода — и вы сможете локально запустить DeepSeek как сервер, совместимый с OpenAI, с поддержкой рассуждений

4. LlamaCPP
Минимальная настройка, топовая производительность. На видео DeepSeek-R1 на Mac Studio

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3🔥3

6.2K views13:56

Data Portal | Data Science & Машиннное обучение

Python-библиотека для тонкой настройки Gemma 3

Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).

Полностью с открытым исходным кодом.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3

3.07K views06:36

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Иногда нужно быстро скормить LLM весь репозиторий

Просто меняешь одну букву в URL (github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой

Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16❤3

3.29K views17:07

Data Portal | Data Science & Машиннное обучение

Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.

100% open-source

https://github.com/cleanlab/cleanlab

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤4🔥3

3.11K views09:06

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Colab + GitHub: мгновенное открытие ноутбуков

Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак

Просто вставляешь "tocolab" в URL после "github" – и ноутбук сразу открывается в Colab

Запоминаем и пользуемся

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19❤4👍4

3.19K views12:51

Data Portal | Data Science & Машиннное обучение

«Просто используй RAG», — сказали они. Но КАКОЙ RAG?

Вот 7 различных архитектур RAG, которые стоит знать

1️⃣

Наивный RAG: Классический подход

Наивный RAG — это стандартная реализация с простым процессом:

🔸Пользователь отправляет запрос.
🔸Система извлекает релевантные документы из векторной базы данных.
🔸Извлечённые документы добавляются в контекст запроса.
🔸LLM генерирует ответ на основе запроса и контекста.

Этот метод хорошо работает для простых приложений, таких как базовые системы вопросов-ответов или помощники по документам.

2️⃣

RAG с повторным ранжированием (Retrieve and Rerank RAG)

Добавляет этап повторного ранжирования для повышения качества извлечённых данных:

🔸Изначально извлекается расширенный набор потенциально релевантных документов.
🔸Модель ранжирования оценивает их и присваивает оценки релевантности.
🔸Только документы с наивысшими оценками передаются в LLM.

3️⃣

Мультимодальный RAG

Использует модели, работающие с различными типами данных: текстом, изображениями, аудио, видео и т. д.

4️⃣

Графовый RAG

Использует графовую базу данных для учёта связей между документами:

🔸Документы или их фрагменты представляются узлами графа.
🔸Связи между документами — рёбра графа.
🔸Запрос может следовать по связям, чтобы находить более контекстно релевантную информацию.

5️⃣

Гибридный RAG (Vector DB + Graph DB)

Комбинирует векторный поиск и графовую базу данных:

🔸Векторный поиск находит семантически схожий контент.
🔸Графовая база предоставляет структурированные связи между данными.
🔸Запросы используют как семантическое сходство, так и явные связи.
🔸Ответ может включать информацию, найденную при обходе графа.

6️⃣

Агентный RAG с маршрутизатором (Agentic RAG with Router Agent)

Один агент управляет процессом извлечения знаний:

🔸Анализирует запрос и определяет, какие источники данных использовать.
🔸Принимает стратегические решения о способах извлечения информации.
🔸Координирует процесс извлечения на основе понимания запроса.

7️⃣

Мультиагентный RAG

Использует несколько специализированных агентов:

🔸Главный агент управляет процессом.
🔸Специализированные агенты выполняют разные задачи.
🔸Агенты взаимодействуют, чтобы решать сложные запросы.

Например, один агент отвечает за поиск по источникам, другой за преобразование данных, третий — за персонализацию ответа, а главный агент собирает окончательный результат.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥7👍3

3.4K views08:42

Data Portal | Data Science & Машиннное обучение

Топ 10 YouTube-каналов для изучения ИИ с нуля:

Andrej Karpathy – Глубокие, но доступные лекции по глубокому обучению, языковым моделям и вводный курс по нейронным сетям

3Blue1Brown – Впечатляющие визуализации, которые делают абстрактные математические концепции интуитивно понятными

Lex Fridman – Глубокие интервью с лидерами ИИ, предлагающие широкий взгляд на эту область.

Machine Learning Street Talk – Технические обсуждения и глубокие погружения с ведущими исследователями в области ИИ.

StatQuest с Joshua Starmer PhD – Простые объяснения по машинному обучению и статистике для начинающих

Serrano Academy (Luis Serrano) – Понятный и доступный контент по машинному обучению, глубокому обучению и достижениям в ИИ.

Jeremy Howard – Практические курсы по глубокому обучению и руководства по созданию веб-приложений с использованием ИИ.

Hamel Husain – Практические уроки по языковым моделям, RAG (retrieval-augmented generation), тонкой настройке и оценке ИИ

Jason Liu – Лекции от экспертов по RAG и советы по фрилансу в области машинного обучения

Dave Ebbelaar – Практические руководства по созданию ИИ-систем и их реальным приложениям

Какие еще YouTube-каналы, по вашему мнению, обязательны к просмотру?

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🔥7👍3

4.63K viewsedited 17:38

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Шпаргалки по Transformers и LLMs для курса Stanford CME-295

Охватывают токенизацию, механизм самовнимания, prompting, дообучение, LLM-as-a-judge, RAG, AI-агентов и модели рассуждений.

Полностью бесплатные и с открытым исходным кодом. Забираем здесь

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4

3.63K views16:18

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ-агент для дата-сайентистов, который создает полноценные рабочие процессы в Jupyter Notebook по одному запросу

Data Copilot — это аналог Cursor, но специально для дата-сайентистов.

Я разработал полный ML-ноутбук: импорт данных, их очистка, обучение моделей и тестирование — все в одном процессе

Полностью с открытым исходным кодом

🔸Репо: https://github.com/mito-ds/mito
🔸Документация: https://docs.trymito.io/mito-ai/data-copilot

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤4👍2

4.37K views18:31

Data Portal | Data Science & Машиннное обучение

Pandas → Polars → SQL → PySpark

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍6

3.2K views12:21

Data Portal | Data Science & Машиннное обучение

Docling

Это мощный инструмент для обработки документов, который позволяет легко экспортировать их в форматы, такие как HTML, Markdown и JSON, поддерживая при этом множество популярных файловых форматов на вход (например, PDF, DOCX, PPTX).

Он предлагает глубокое понимание структуры PDF-документов и обеспечивает единый подход к представлению информации.

Инструмент интегрируется с LlamaIndex и LangChain, поддерживает OCR для сканированных документов, а также предоставляет простой интерфейс командной строки.

👉

Cсылка на GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

3.27K views18:52

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

11 графиков в Data Science, которые используются в 90% случаев

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤3

3.43K views07:35

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Плейлист из 30 видео на YouTube для изучения основ машинного обучения с нуля

Если вы не знаете, с чего начать изучение машинного обучения, этот список под названием «Machine Learning: Teach by Doing» — отличный выбор, чтобы освоить как теорию, так и практическое программирование.

1. Введение в машинное обучение — Teach by Doing:
https://lnkd.in/gqN2PMX5

2. Что такое машинное обучение? История машинного обучения:
https://lnkd.in/gvpNSAKh

3. Типы моделей машинного обучения:
https://lnkd.in/gSy2mChM

4. 6 этапов любого ML-проекта:
https://lnkd.in/ggCGchPQ

5. Установка Python и VSCode, запуск первого кода:
https://lnkd.in/gyic7J7b

6. Линейные классификаторы. Часть 1:
https://lnkd.in/gYdfD97D

7. Линейные классификаторы. Часть 2:
https://lnkd.in/gac_z-G8

8. Jupyter Notebook, Numpy и Scikit-Learn:
https://lnkd.in/gWRaC_tB

9. Запуск алгоритма случайного линейного классификатора на Python:
https://lnkd.in/g5HacbFC

10. Самая первая ML-модель — перцептрон:
https://lnkd.in/gpce6uFt

11. Реализация перцептрона на Python:
https://lnkd.in/gmz-XjNK

12. Теорема сходимости перцептрона:
https://lnkd.in/gmz-XjNK

13. Магия признаков в машинном обучении:
https://lnkd.in/gCeDRb3g

14. One-hot encoding (одноразрядное кодирование):
https://lnkd.in/g3WfRQGQ

15. Логистическая регрессия. Часть 1:
https://lnkd.in/gTgZAAZn

16. Функция потерь — кросс-энтропия:
https://lnkd.in/g3Ywg_2p

17. Как работает градиентный спуск:
https://lnkd.in/gKBAsazF

18. Логистическая регрессия с нуля на Python:
https://lnkd.in/g8iZh27P

19. Введение в регуляризацию:
https://lnkd.in/gjM9pVw2

20. Реализация регуляризации на Python:
https://lnkd.in/gRnSK4v4

21. Введение в линейную регрессию:
https://lnkd.in/gPYtSPJ9

22. Пошаговая реализация метода наименьших квадратов (OLS):
https://lnkd.in/gnWQdgNy

23. Основы и интуиция гребневой регрессии (Ridge Regression):
https://lnkd.in/gE5M-CSM

24. Резюме по регрессии для собеседований:
https://lnkd.in/gNBWzzWv

25. Архитектура нейронной сети за 30 минут:
https://lnkd.in/g7qSrkxG

26. Интуиция обратного распространения ошибки (Backpropagation):
https://lnkd.in/gAmBARHm

27. Функции активации в нейронных сетях:
https://lnkd.in/gqrC3zDP

28. Моментум в градиентном спуске:
https://lnkd.in/g3M4qhbP

29. Практическое обучение нейросети на Python:
https://lnkd.in/gz-fTBxs

30. Введение в сверточные нейронные сети (CNN):
https://lnkd.in/gpmuBm3j

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15

4.18K views20:24

Data Portal | Data Science & Машиннное обучение

Отличное приложение на основе ИИ начинается с выбора подходящего типа эмбеддингов.

Вот 6 типов эмбеддингов и случаи, когда стоит их использовать:

• Sparse embeddings: https://weaviate.io/developers/weaviate/search/bm25
• Dense embeddings: https://weaviate.io/developers/weaviate/search/similarity
• Quantized embeddings: https://weaviate.io/developers/weaviate/concepts/vector-quantization
• Binary embeddings: https://weaviate.io/developers/weaviate/concepts/vector-quantization#binary-quantization
• Variable dimensions: https://weaviate.io/blog/openais-matryoshka-embeddings-in-weaviate
• Multi-vector embeddings: https://weaviate.io/developers/weaviate/tutorials/multi-vector-embeddings

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3

3.54K views09:03

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Google представил Agent2Agent (A2A)

Протокол для общения ИИ-агентов между собой, независимо от платформы или фреймворка. Использует технологии HTTP, SSE и JSON-RPC. Подробнее тут

Agent2Agent Protocol vs. Model Context Protocol, четкое объяснение (с визуализацией):

— Протокол Agent2Agent позволяет AI-агентам подключаться к другим агентам.

— Протокол Model Context позволяет AI-агентам подключаться к инструментам и API.

Оба протокола являются open-source и не конкурируют друг с другом

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

3.77K views07:09

Data Portal | Data Science & Машиннное обучение

Forwarded from Python Portal

NVIDIA завезла нативную поддержку Python в CUDA

Теперь можно напрямую использовать ускорение на GPU прямо из Python — что сильно упрощает работу над проектами в сфере ИИ, машинного обучения и научных вычислений. Никаких обёрток, костылей и танцев с C/C++.

— CUDA Core — переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей
— cuPyNumeric — прокачанная версия NumPy, работающая на GPU
— NVMath — поддержка линейной алгебры, совместима с хостом и устройством
— Добавлены инструменты для профилирования и анализа кода
— Новый подход к параллельным вычислениям — CuTile. Абстракция не на уровне потоков, а на уровне массивов и тайлов

Посмотреть презентацию можно тут

✌️

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤5

3.18K views15:30