Анализ данных (Data analysis)

📌

Подборка ноутбуков по Data Science, чтобы освежить самое важное

В этих ноутбуках очень пошагово и наглядно объясняются важнейшие темы Data Science, такие как:
— байесовская статистика
одномерная и двумерная статистика
— доверительные интервалы и проверка гипотез
— метод Монте-Карло
— анализ главных компонент и кластерный анализ
— ML, метрики, параметры модели и настройка гиперпараметров
— очистка и предобработка данных

📎

Jupyter Notebook'и

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

8.2K views10:02

Анализ данных (Data analysis)

🔥

Torch-TensorRT — компилятор PyTorch / TorchScript / FX для GPU от NVIDIA с использованием TensorRT

— python -m pip install torch torch-tensorrt tensorrt

В отличие от JIT-компилятора PyTorch, Torch-TensorRT является компилятором Ahead-of-Time (AOT) — значит перед развертыванием кода TorchScript выполняется явная компиляция для преобразования стандартной программы TorchScript или FX. Torch-TensorRT работает как расширение PyTorch; после компиляции использование оптимизированного графа не должно отличаться от запуска модуля TorchScript.

🖥

GitHub

🟡

Доки

🟡

Примеры использования

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5.6K views17:06

Анализ данных (Data analysis)

Forwarded from Machinelearning

⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.

5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data

4.7K views08:00

Анализ данных (Data analysis)

📌

Большая дорожная карта от William Brown: как и что изучать для развития в сфере генеративных нейросетей и AI

Здесь собраны тонны полезных ссылок по каждому из разделов, некоторые из этих ссылок уже постились в канале, скажем, ссылки на нереально полезные туториалы от Lilian Weng.
Вот основные разделы, которые покрывает этот roadmap:
— анализ временных рядов, марковские модели
— рекуррентные нейронные сети, LSTM и GRU,
— работа с языком: токенизация и т.д.
— методы файнтюнинга для LLM
— оценивание LLM и бенчмарки
— оптимизация LLM: квантование
— масштабирование контекста
— GAN, диффузионные модели
— мультимодальные модели

🟡

Roadmap

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

7.2K views13:04

Анализ данных (Data analysis)

🌟

Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://mendable.ai"
    }'

# { "jobId": "1234-5678-9101" }

🖥

GitHub

🟡

Инструкция по запуску локально

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6.5K views16:03

Анализ данных (Data analysis)

⚡️

Ratchet — кроссплатформенный ML-фреймворк от Hugging Face

Ratchet — это веб-фреймворк для вывода результатов машинного обучения.
Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах.
Ratchet заточен под скорость и простоту использования.

Использование в JavaScript выглядит наподобие:

// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });

🖥

GitHub

🟡

Доки

🟡

Затестить Whisper + Ratchet на HF

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

5.9K views10:03

Анализ данных (Data analysis)

⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты

Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля.

Он разъясняет каждый шаг, начиная с создания пустого файла, при этом подробно описывая архитектуру и оптимизацию.

- сначала создаем GPT-2
- затем мы оптимизируем ее для очень быстрого обучения
- затем мы настраиваем оптимизацию процесса обучения и гиперпараметров, ссылаясь на материалы статьи GPT-2 и GPT-3
- затем мы проводим оценку модели.

* Смотреть
* Github

@data_analysis_ml

6.3K viewsedited 07:44

Анализ данных (Data analysis)

🖥

AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей

apt-get install liblapacke
python3 -m pip install aimet-torch

При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели.

🖥

GitHub

🟡

Доки и юзкейсы

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6.4K views09:17

About

Blog

Apps

Platform