Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 PropertyGraphIndex — способ построения графов знаний от LlamaIndex

Граф свойств/знаний — это граф, узлами которого являются отдельные знания/свойства, связанные между собой отношениями.
И ребята из LlamaIndex буквально вчера представили возможность создавать такие графы при помощи PropertyGraphIndex.

▶️ Статья от LlamaIndex
🟡 Доки и примеры использования

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Введение в моделирование на языке зрения — мощная статья от Meta о работе VLM, о том, как их обучать и оценивать

Модели Vision-Language (VLM) — это область исследований, которая обладает большим потенциалом, однако существует множество проблем, связанных с построением моделей такого типа.
Именно поэтому ребята из Meta опубликовали эту статью — чтобы у большего числа людей сформировалось понимание специфики работы с VLMs, понимание, как они работают и как их обучать.
В статье в основном обсуждается работа с изображениями, но также затрагивается возможность расширения этих методов на видео.

📎 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Три статьи, которые победили в конкурсе Технотекст от Хабра в номинации ML

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

Игорь Котенков (Open Data Science) с разбором работы ChatGPT.
Виктор Юрченко (Яндекс) о планировании движения беспилотных автомобилей с помощью нейросетей.
Мурат Апишев о методах позиционного кодирования в Transformer.

📎 Первая
📎 Вторая
📎 Третья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Apache TVM — компиляция ML-моделей для любых аппаратных характеристик

Apache TVM — это фреймворк компилятора ML-приложений с открытым исходным кодом для CPU, GPU и не только.
Цель Apache TVM — дать ML-инженерам возможность оптимизировать и эффективно выполнять вычисления на любом железе.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
💥 Ускорьте работу ваших моделей Трансформеров с
помощью значительно улучшенной библиотеки cuDNN 9 от nvidia, поддерживающей технологию Scaled Dot Product Attention (SDPA)


cuDNN 9 BF16 работает в 2 раза быстрее, чем лучшая из доступных реализаций PyTorch BF16, а так же быстрее cuDNN FP8 в 3 раза.

Более высокая производительность позволяет увеличить длину последовательности и сократить время предварительной подготовки и файнтюнинга моделей.

https://developer.nvidia.com/blog/accelerating-transformers-with-nvidia-cudnn-9/

@data_analysis_ml
⚡️ Распознавание объектов с faster-coco-eval. Разбираемся с библиотекой компьютерного зрения.

https://www.youtube.com/watch?v=5bVG2thY2tA

@data_analysis_ml
🌟 NannyML — библиотека для оценивания производительности ML-моделей

pip install nannyml

NannyML — это open-source библиотека Python, которая позволяет оценивать производительность модели после развертывания, обнаруживать дрейф данных и не только.
NannyML имеет простой в использовании интерфейс, отображает интерактивные графики, абсолютно не зависит от модели и поддерживает все базовые сценарии использования, такие как анализ моделей классификации и регрессии.

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ ЛУЧШИЕ БЕСПЛАТНЫЕ Курсы и Книги для изучения МАШИННОГО ОБУЧЕНИЯ.

https://www.youtube.com/watch?v=j0BrMPgrCuo

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 frigate — open-source NVR с функцией распознавания объектов в реальном времени на видео с IP-камер

frigate может распознавать объекты на видео с камер в реальном времени с помощью OpenCV и Tensorflow.
Для дополнительного ускорения опционально задействует Google Coral Accelerator.
Coral даёт очень солидную скорость работы — до 100+ кадров в секунду с небольшими накладными расходами.

🖥 GitHub
🟡 Инструкция по установке и доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Сравниваем DBSCAN и OPTICS

Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!

https://habr.com/ru/articles/818889/

@data_analysis_ml