Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌Подборка ноутбуков по Data Science, чтобы освежить самое важное

В этих ноутбуках очень пошагово и наглядно объясняются важнейшие темы Data Science, такие как:
— байесовская статистика
одномерная и двумерная статистика
— доверительные интервалы и проверка гипотез
— метод Монте-Карло
— анализ главных компонент и кластерный анализ
— ML, метрики, параметры модели и настройка гиперпараметров
— очистка и предобработка данных

📎 Jupyter Notebook'и

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Torch-TensorRT — компилятор PyTorch / TorchScript / FX для GPU от NVIDIA с использованием TensorRT

python -m pip install torch torch-tensorrt tensorrt

В отличие от JIT-компилятора PyTorch, Torch-TensorRT является компилятором Ahead-of-Time (AOT) — значит перед развертыванием кода TorchScript выполняется явная компиляция для преобразования стандартной программы TorchScript или FX. Torch-TensorRT работает как расширение PyTorch; после компиляции использование оптимизированного графа не должно отличаться от запуска модуля TorchScript.

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.


5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data
📌Большая дорожная карта от William Brown: как и что изучать для развития в сфере генеративных нейросетей и AI

Здесь собраны тонны полезных ссылок по каждому из разделов, некоторые из этих ссылок уже постились в канале, скажем, ссылки на нереально полезные туториалы от Lilian Weng.
Вот основные разделы, которые покрывает этот roadmap:
— анализ временных рядов, марковские модели
— рекуррентные нейронные сети, LSTM и GRU,
— работа с языком: токенизация и т.д.
— методы файнтюнинга для LLM
— оценивание LLM и бенчмарки
— оптимизация LLM: квантование
— масштабирование контекста
— GAN, диффузионные модели
— мультимодальные модели

🟡 Roadmap

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:
curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'

# { "jobId": "1234-5678-9101" }


🖥 GitHub
🟡 Инструкция по запуску локально

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Ratchet — кроссплатформенный ML-фреймворк от Hugging Face

Ratchet — это веб-фреймворк для вывода результатов машинного обучения.
Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах.
Ratchet заточен под скорость и простоту использования.

Использование в JavaScript выглядит наподобие:
// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });


🖥 GitHub
🟡 Доки
🟡 Затестить Whisper + Ratchet на HF

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты

Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля.

Он разъясняет каждый шаг, начиная с создания пустого файла, при этом подробно описывая архитектуру и оптимизацию.

- сначала создаем GPT-2
- затем мы оптимизируем ее для очень быстрого обучения
- затем мы настраиваем оптимизацию процесса обучения и гиперпараметров, ссылаясь на материалы статьи GPT-2 и GPT-3
- затем мы проводим оценку модели.

* Смотреть
* Github

@data_analysis_ml
🖥 AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей

apt-get install liblapacke
python3 -m pip install aimet-torch


При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели.

🖥 GitHub
🟡 Доки и юзкейсы

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 gsplat — open-source библиотека для ускорения растеризации Gaussian Splatting при помощи CUDA

pip install gsplat

gsplat позволяет очень быстро растеризовать гауссианы на CUDA. Библиотека вдохновлена докладом на SIGGRAPH «3D Gaussian Splatting for Real-Time Rendering of Radiance Fields»

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM