Анализ данных (Data analysis)
45.3K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Большая шпаргалка, которая содержит исчерпывающие руководства по различным инструментам, необходимым для программирования на ассемблере, реверс-инжиниринга и бинарного анализа!

🌟 Каждая шпаргалка содержит инструкции по установке, примеры использования и расширенные советы для различных операционных систем.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 flow_matching — Библиотека PyTorch для реализации алгоритмов сопоставления потоков, включающая непрерывные и дискретные реализации сопоставления потоков!

🔐 Лицензия: CC BY-NC

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 FlashRNN: оптимизация RNN на современном оборудовании.

FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.

В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.

FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.

🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.

🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.

За автоматизацию настройки параметров FlashRNN отвечает библиотека ConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.

Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.

▶️ Локальная установка и пример запуска FlashRNN:

# Install FlashRNN
pip install flashrnn


# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:

import torch
from flashrnn import flashrnn

device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states

Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)

# available functions
# lstm, gru, elman, slstm

# available backend
# cuda_fused, cuda, triton and vanilla

states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")

# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]


📌Лицензирование: NXAI Community License:

🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;

🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #RNN #FlashRNN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉 BERT вернулся. 🔥

ModernBERT пересматривает традиционные модели кодеров, поддерживая последовательности 8K при скорости в 2-3 раза выше, сохраняя при этом практическую простоту BERT.

Основные моменты

→ ModernBERT представляет новое семейство моделей для Кодинга, превосходящих традиционные архитектуры BERT, как в базовом варинате (139 М параметров), так и в large модели (395 М параметров) вариантах

→ Архитектура позволяет обрабатывать последовательности до 8 192 токенови

→ В бенчмарках ModernBERT демонстрирует улучшение хорошие результаты в задачах поиска, NLU и кода, при этом в 2-3 раза быстрее, чем существующие модели.

https://huggingface.co/blog/modernbert

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🔈 Звук на этом видео на 100% сгенерирован с помощью MMAudio!

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
TikTok только что выложил в открытый доступ свой фреймворк для рекомендательных систем (Monolith) - и в нем используется Keras

Это означает, что почти все основные рекомендательные системы в индустрии построены на Keras - YouTube, TikTok, Spotify, Snap, X/Twitter и многие другие.

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Сводка бенчмарков показаной вчера o3 от OpenAI !

SWE-Bench: 71.7%
Codeforces: 2727
Competition Math: 96.7%
PhD level science (GPQA): 87,7%
Frontier Math: 25.2% (previous best was 2%)
ARC-AGI: 87.5%
🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌Топ Python-проектов для ML 2024 года.

Эти проекты были выбраны на основе их актуальности на 2024 год. Каждый из них - смесь практической полезности, новизны и, честно говоря, крутости, будь то смелый и инновационный подход, элегантное решение сложных проблем или просто умная реализация.

🟢BAML - предметно-ориентированный язык для работы с LLM.

BAML превращает текстовые промпты в многократно используемые функции LLM с типизированными переменными и обеспечивают конкретный тип выходных данных. BAML превосходит другие методы получения структурированных данных от LLM и поддерживает VS Code и Cursor.

🟢marimo - Python notebooks геймчейджер.

Новый подход к notebook, который превращает их в мощную, реактивную среду для создания удобных для совместного использования рабочих процессов. Marimo готов заменить Jupyter и Streamlit, устраняя проблемы скрытого состояния и ручного выполнения ячеек.

🟢OpenHands - мощный агент для разработки.

Безопасная изолированная среда, где AI-агенты могут выполнять код, взаимодействовать с веб-браузерами, управлять файлами, отлаживать проблемы, рефакторить код и даже сотрудничать с другими агентами. Среда включает в себя Docker-песочницу с доступом к bash-оболочке, веб-браузингом и IPython-сервером.

🟢Crawl4AI - интеллектуальный веб-скрапинг.

Библиотека, которая обрабатывает динамический контент, обходит механизмы защиты от ботов, извлекает структурированные данные и масштабирует задачи сбора массивов информации. Асинхронная архитектура дает высокую скорость работы даже со сложным JavaScript. На выходе - форматы JSON, markdown и очищенный HTML, готовые для импорта в LLM. Crawl4AI поддерживает Chromium, Firefox и WebKit через Playwright.

🟢LitServe - универсальный движок для развертывания моделей.

Детище LightningAI - мощный инструмент для развертывания моделей и сложных AI-конвейеров. Построен на базе FastAPI, поддерживает PyTorch, TensorFlow, JAX и работает с GenAI, СV, ASR и эмбедингами. LitServe умеет в KV-кэширование для LLM, и подходит как для легких приложений, так и для тяжелых корпоративных нагрузок.

🟢Mirascope - унифицированный интерфейс LLM.

Python-инструмент для упрощения извлечения структурированных данных из LLM. Он предлагает удобный интерфейс, основанный на декораторах и декларативных схемах. Mirascope поддерживает OpenAI, Anthropic и Cohere и имеет свой поисковый агент WebSearchAgent, который может автономно собирать информацию из интернета.

🟢Surya - OCR с высокой точностью.

OCR-система на 90 языках. Surya извлекает текст из сканированных изображений, PDF-файлов и других визуальных форматов с точностью, сравнимой с Google Cloud Vision. Помимо OCR, Surya проводит расширенный анализ документа, определяя заголовки, изображения, таблицы и порядок чтения, что идеально для оцифровки книг, форм и научных документов.

🟢DataChain - конвейер данных для ИИ.

Платформа для управления версиями мультимодальных наборов изображений, видео, текста и PDF-файлов. Библиотека преобразует разрозненные файлы в централизованные датасеты, которые легко запрашивать и манипулировать с помощью Python без использования Spark или SQL. DataChain поддерживает PyTorch, TensorFlow, AI-генерацию метаданных, сериализацию инференса LLM и выполнение пакетных процедур.

🟢Narwhals - универсальный слой совместимости для DataFrame-библиотек.

Легковесный слой, который объединяет pandas, Polars, PyArrow, Modin и cuDF в Python. Он позволяет писать код, не зависящий от используемого бэкенда, используя подмножество API Polars в качестве интерфейса. Поддерживает как eager, так и lazy execution стили, включая Dask. Narwhals не имеет зависимостей и обеспечивает статическую типизацию для автозавершения и подсказок в IDE.

🟢PydanticAI - фреймворк для разработки AI-приложений.

Фреймворк агентов, которые управляют взаимодействием с LLM и проверкой их инференса. Имеет систему внедрения зависимостей, позволяющую динамически получать контекстные данные. PydanticAI поддерживает пользовательские функции Python, вызываемые агентами для доступа к информации и выполнения вычислений.


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Mlxtend (machine learning extensions) — это библиотека Python, предоставляющая полезные инструменты для анализа данных и задач машинного обучения!

🌟 Она включает модули для обработки данных, визуализации, построения моделей, кросс-валидации и других аспектов, упрощая выполнение повседневных задач в сфере Data Science.

🌟 Библиотека предназначена для расширения возможностей популярных инструментов, таких как scikit-learn, pandas и NumPy. Она содержит функции для построения ансамблей моделей, работы с наборами данных, выполнения статистического анализа и визуализации результатов.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

Опубликован новый интересный анализ - сравнение реальных характеристик AMD MI300X и NVIDIA H100+H200 с практическими рекомендациями о том, как стек AMD ROCm может догнать CUDA от NVIDIA.

Производительность обучения, пользовательский опыт, удобство использования, Nvidia, AMD, GEMM, внимание, сетевые технологии, InfiniBand, Spectrum-X Ethernet, RoCEv2 Ethernet, SHARP, стоимость.

Отличное чтиво !

📌 Читать

@data_analysis_ml
🔥 QuantResearch — репозиторий, который содержит материалы, связанные с количественным анализом, стратегиями и тированием гипотез в области финансов!

🌟 Проект включает разнообразные методы, такие как машинное обучение, глубокое обучение, алгоритмическая торговля и оценка рисков.

В нем представлены примеры кода для портфельной оптимизации, алгоритмической торговли , использования машинного обучения и разработки торговых стратегий.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Исследователи Microsoft выпустили лабораторию AIOpsLab: Комплексный ИИ-фреймворк с открытым исходным кодом для агентов AIOps

Исследователи Microsoft совместно с группой ученых из Калифорнийского университета в Беркли, Иллинойского университета в Урбане-Шампейне, Индийского научного института и колледжа Агнес Скотт разработали AIOpsLab - систему оценки, предназначенную для систематического проектирования, разработки и развития агентов AIOps.

Эта платформа с открытым исходным кодом охватывает весь жизненный цикл облачных операций - от обнаружения неисправностей до их устранения.

Предлагая модульную и адаптируемую платформу, AIOpsLab поддерживает исследователей и практиков в повышении надежности облачных систем и снижении зависимости в системах.

Фреймворк AIOpsLab включает в себя несколько ключевых компонентов.

Центральный модуль, обеспечивает взаимодействие между агентами и облачными средами, предоставляя описания задач, API-интерфейсы действий и обратную связь.

Генераторы отказов и рабочих нагрузок воспроизводят реальные условия для испытания тестируемых агентов.

Наблюдаемость, еще один краеугольный камень структуры, обеспечивает всесторонние телеметрические данные, такие как журналы, метрики и трассировки, для помощи в диагностике неисправностей.

$ git clone <CLONE_PATH_TO_THE_REPO>
$ cd AIOpsLab
$ pip install poetry
$ poetry install -vvv
$ poetry shell


Github
Запуск
Статья

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Эта статья объясняет концепцию машин Тьюринга, которая является основополагающей в теории вычислений и была предложена Аланом Тьюрингом в 1936 году!

🌟 В статье описывается, как работает машина Тьюринга, что она может и не может вычислять, а также как она связана с современными компьютерами.

🌟 Автор рассматривает механизмы работы машины Тьюринга, её элементы (лента, головка и состояние), а также обсуждает такие ограничения вычислений, как задача о остановке (Halting problem). Статья включает примеры программ для демонстрации возможностей машины Тьюринга и предоставляет интерактивную среду для экспериментов с программами, работающими на этой модели.

🔗 Ссылка: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
💡 Qwen выпустил QvQ 72B OpenAI o1-мультимодальную модель с ризонингом с возможностями зрения 🔥

TLDR
🏆SoTA мультимодальный с открытым исходным кодом
🧠 Способность к пошаговому рассуждению
💪🏾 Конкурентный балл MMMU с o1, GPT-4o и Sonnet 3.5
🔥 Выигрывает у GPT-4o и Sonnet 3.5 на MathVista и MathVision

> pip install mlx-vlm

https://huggingface.co/collections/mlx-community/qvq-72b-preview-676b345a6f93172ba980c0d5
🔥 agent_tutorials — серия обучающих материалов по созданию и разработке искусственных агентов с использованием различных технологий, таких как LangGraph, CrewAI и AutoGen!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM