Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn

pip install scikit-learn-intelex

Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов.
В зависимости от приложения ускорение может быть от 10 до 100 раз.

🖥 GitHub
🟡 Ноутбук с примерами использования scikit-learn-intelex

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Встречайте Stable Diffusion 3!

Самая лучшая бесплатная модель text-to-image.

Модель с 2 миллиардами параметров работает даже на ноутбуках,

Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!

Анонс
Hugging Face.
ComfyUI

@data_analysis_ml
Smol Vision 🐣

Полезные гайды для запуска, оптимизации и настройки самых современных Edge Vision моделей.

Github

@data_analysis_ml
⚡️ DALI — библиотека с GPU-ускорением, содержащая высокооптимизированные компоненты и движок для обработки данных для ускорения обучения моделей Deep Learning и не только

(для CUDA 12.0)
pip install nvidia-dali-cuda120

NVIDIA Data Loading Library (DALI) — это библиотека для загрузки и предобработки данных с GPU-ускорением для приложений Deep Learning.
DALI может использоваться в качестве замены встроенных загрузчиков данных в популярных фреймворках глубокого обучения.

DALI решает проблему узкого места CPU, перекладывая предобработку данных на GPU.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Merlion — ML-фреймворк для анализа временных рядов

pip install salesforce-merlion[dashboard]

Merlion — это фреймворк Python для интеллектуального анализа временных рядов.
Merlion представляет собой набор ML-алгоритмов, позволяющих загружать и преобразовывать данные, строить и обучать модели, проводить обработку результатов моделирования и оценивать эффективности модели.

Merlion позволяет решать такие задачи как прогнозирование, обнаружение аномалий (как для одномерных, так и для многомерных временных рядов).

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Яндекс
🔴 Разработали библиотеку, чтобы быстрее обучать нейросети

YaFSDP оптимизирует использование ресурсов графических процессоров (GPU). Нейросети обучаются быстрее, а требования к вычислительным ресурсам снижаются. Это особенно важно для небольших компаний и научных проектов.

Библиотека рассчитана в первую очередь на большие языковые модели, но также может ускорять и обучение других типов нейросетей, например, рисующих картинки. Исходный код YaFSDP опубликован на GitHub, а на Хабре можно подробнее узнать о разработке библиотеки.

↗️ А зачем вообще большие компании делятся своими разработками с сообществом? Поговорили об этом в одном из выпусков yet another podcast — смотрите на YouTube.

Подписывайтесь @yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Cognee — open-source фреймворк для работы с LLM, с графами и для векторного поиска

pip install cognee

Cognee поддерживает множество инструментов для различных операций:

— LanceDB или Neo4j для локального хранения графов и не только

— Qdrant и Weaviate для хранения векторных данных

— в качестве LLM можно использовать Anyscale или Ollama

🖥 GitHub
🟡 Доки
🟡 Попробовать в Colab'е
🟡 Обзор на YouTube

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 «R for Data Science» — open-source книга для дата-сайентистов

Здесь описывается практически всё, что только может пригодится среднестатистическому специалисту Data Science;
вот некоторые из раскрываемых тем:
— разведочный анализ данных (EDA)
— преобразование данных, удаление пропущенных значений, выбросов
— веб-скрепинг, сбор данных из открытых источников

📎 Книга «R for Data Science»

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Реализация архитектуры nanoGPT в электронной таблице — для полного понимания, как работает типичный трансформер

Внутренние операции любого трансформера можно свести к простым матричным вычислениям — собственно это и реализовано в этой таблице.

Таблица воспроизводит структуру nanoGPT от Андрея Карпати с ~85000 параметрами.
И эта таблица представляет собой систему предсказания следующих символов на основе предыдущих, то есть для простоты каждый токен — это символ; для уменьшения сложности токенизируются только буквы A/B/C.

На прикреплённых изображениях — механизм самовнимания и полный вид всей таблицы

🖥 GitHub
🟡 Тред в X

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Thread — типо Jupyter Notebook, но не совсем, — позволяет генерировать и редактировать код, коммуницируя при этом с GPT

pip install thread-dev

Thread — это Jupyter Notebook на максималках, в нём можно использовать естественный язык для создания ячеек, редактирования кода, задавать вопросы GPT или исправлять ошибки, при всём этом можно редактировать работать с кодом, как в обычном Jupyter Notebook.
После установки для запуска достаточно прописать thread или jupyter thread

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📚Grog book - это приложение streamlit, которое позволяет создавать книги из промптов с помощью Llama3 в Groq.

Оно неплохо работает с научно-популярными книгами и создает гаввы за считанные секунды.

Github
Приложение

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Depth Anything 2 - новая версия модели для анализа сцен, которая определяет глубину каждого пикселя.

Новая модель 10 раз предыдущая SoTA!


💪 Модели различных размеров (от 25 миллионов до 1,3 миллиарда параметров) доступны на Hugging face Hub

https://huggingface.co/collections/depth-anything/depth-anything-v2-666b22412f18a6dbfde23a93

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM