Анализ данных (Data analysis)
46.2K subscribers
2.28K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 Enzyme — высокопроизводительное автоматическое дифференцирование LLVM и MLIR

brew install enzyme

Enzyme — это инструмент, который принимает произвольный код в виде LLVM IR и вычисляет производную (и градиент) этой функции.
Это позволяет использовать Enzyme для автоматического создания градиентов своего исходного кода без лишней работы. Работая на уровне LLVM, Enzyme может дифференцировать программы на разных языках (C, C++, Swift, Julia, Rust, Fortran, TensorFlow и т. д.) с высокой производительностью.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🔥2
🌟 Evidently — фреймворк Python для оценки, тестирования и мониторинга ML-моделей в продакшене

pip install evidently

Evidently помогает оценивать, тестировать и контролировать данные и ML-системы.
Вот некоторые из решаемых Evidently задач:

— прогностические: классификация, регрессия, ранжирование, рекомендации

— генеративные: чат-боты, RAGs, вопросно-ответные системы

— мониторинг данных: качество данных и дрейф данных для текстовых, табличных данных

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134🔥4
⚡️ OlympicArena — бенчмарк для оценки способностей LLM решать олимпийские задачи

OlympicArena — это комплексный бенчмарк со сложным механизмом оценки LLM, предназначенный для определения возможностей AI в широком спектре задач олимпийского уровня.

🖥 GitHub
🟡 Страничка OlympicArena

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2😱1
🌟 DeepSeek-Coder-V2-Instruct-GGUF — квантизованные версии DeepSeek-Coder-V2-Instruct

pip install -U "huggingface_hub[cli]"
huggingface-cli download bartowski/DeepSeek-Coder-V2-Instruct-GGUF --include "DeepSeek-Coder-V2-Instruct-Q4_K_M.gguf" --local-dir ./


Представлены несколько моделей с разным уровнем сжатия, требуют от 142.45 Гб до 52.7 Гб (но последняя не рекомендуется, экстремально низкое качество)

Квантизация выполнена с использованием опции imatrix, с использованием датасета отсюда
Исходная, не квантизованная модель


🤗 Hugging Face

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥2
🌟 Во время GigaConf представили инновационное ПО от Cloud.ru

Модульная облачная платформа Cloud.ru Evolution Stack позволит заказчикам реализовать гибридные сценарии и гибко использовать собственные вычислительные ресурсы, а также ресурсы публичного облака. Ожидается, что ПО позволит улучшить распределение пиковых нагрузок между публичным и частным облаками для оптимизации расходов на IT-инфраструктуру.

До внедрения Evolution Stack, эксперты определят архитектуру и подходящие платформенные сервисы, осуществят установку и пуско-наладочные работы и реализуют необходимые интеграции с существующим корпоративным ПО. Ожидается, что на реализацию проекта уйдет около четырех месяцев.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥2
🌟 Модель gte-Qwen2-7B-instruct от Alibaba

gte-Qwen2-7B-instruct — это новейшая модель из семейства моделей gte (General Text Embedding), которая занимает 1-е место по оценкам на английском и китайском языках в бенчмарке Massive Text Embedding Benchmark MTEB

gte-Qwen2-7B-instruct имеет несколько особенностей:

— механизм двунаправленного внимания, улучшающий её понимание контекста

— модель была обучена на большом многоязычном датасете текстов, охватывающем различные области

🤗 Hugging Face

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥2🤣1
🌟 TorchMetrics — большой набор реализованных метрик для ML-систем

pip install torchmetrics

TorchMetrics — это коллекция из 100+ реализаций метрик PyTorch и простой в использовании API для создания собственных метрик.

Особенности API TorchMetrics:
— стандартизированный интерфейс для воспроизводимости

— можно использовать для распределенных ML-систем

— автоматическая синхронизация между несколькими устройствами

🖥 GitHub
🟡 Доки
🟡 Все метрики

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117🔥4
🌟 Тонкая настройка + RAG с помощью MistralAI

В этом Colab'е детально показывается, как тонко настроить Mistral-7B для соответствия уровня ответов Mistral-Large на RAG-конвейере обработки документов.

Такая тонкая настройка стала возможной благодаря недавно вышедшему MistralAI Finetune Engine

🟡 Google Colab

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4🥰2
🔥Масштабируемое обучение MOE с помощью PyTorch

В новом блоге Pytorch показано, как масштабировать до трех тысяч GPU, используя Distributed и MegaBlocks, эффективную реализацию MoE с открытым исходным кодом в PyTorch.

https://pytorch.org/blog/training-moes/

@data_analysis_ml
👍103🔥2🤯1🏆1
🌟 Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи

Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.

🟡 Страничка Cambrian-1
🖥 GitHub
🤗 Hugging Face

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥3
🌟 OSS Vizier — open-source инструмент для оптимизации, настройки гиперпараметров ML-систем

pip install google-vizier[jax]

OSS Vizier — это инструмент, написанный на Python для оптимизации и исследования нейросетей и т.д.
OSS Vizier основан на Google Vizier, одном из первых сервисов для настройки гиперпараметров, рассчитанных на работу с масштабными ML-системами.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1031🥰1
🌟 Nous Hermes 2 - Mistral 7B - DPO - GGUF

Это квантизованная версия модели Nous Hermes 2 Mistral 7B DPO; работает очень быстро и неплохо умеет в код

Сама исходная модель Nous Hermes 2 показала отличные результаты во всех бенчмарках — AGIEval, BigBench Reasoning, GPT4All и TruthfulQA;
была обучена на 1000000 пар промпт-ответ качества GPT-4 или выше, а также на других высококачественных наборах данных, доступных в teknium/OpenHermes-2.5.

🤗 Hugging Face

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍3