194K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
New Poll: Which #DataScience / #MachineLearning methods and tools you used? http://bit.ly/2zTjWP9
🐼 Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks 🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd


Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py


FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:

https://fireducks-dev.github.io/docs/benchmarks/

⭐️ Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Data Fusion 2025 – ключевая конференция в сфере искусственного интеллекта и больших данных.

📅 Дата: 16-17 апреля 2025
📍 Место встречи: Москва, технологический кластер «Ломоносов»
🧠 Спикеры: 200+ экспертов от науки, бизнеса и государства

Что вас ждет?

🔹7 треков и 70+ сессий, посвященных передовым исследованиям и разработкам
🔹Кейс-стади и воркшопы о DS в различных сферах бизнеса от финтеха и промышленности до медицины
🔹Нетворкинг: на площадке вы можете задать вопрос напрямую ученым с мировым именем или коллегам из других отраслей.

🔗 Регистрируйтесь прямо сейчас – https://data-fusion.ru/. Участие в конференции — бесплатное.

#AI #ML #DataFusion #Конференция #IT #bigdata #datascience

*AI — искусственный интеллект
*DS — наука о методах анализа данных
*Нетворкинг — полезные связи
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ СuML от NVIDIA: Scikit-learn на скорости GPU – без единой строчки нового кода!

Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!

Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU! 🔥

Как это работает?

Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти.

Теперь, когда вы вызываете, например, KNeighborsClassifier или PCA из sklearn:

▶️Патч проверяет, есть ли у вас GPU NVIDIA.
▶️Проверяет, есть ли в cuml быстрая GPU-версия этого алгоритма.
▶️Если да – запускает ускоренную версию на GPU! 🏎️
▶️Если нет (нет GPU или алгоритм не поддерживается) – спокойно запускает обычную CPU-версию scikit-learn.

Ключевые преимущества:

✔️ Нулевые изменения кода: Ваш scikit-learn код остается прежним. Добавляете только 2 строчки:
import cuml.patch и cuml.patch.apply().
✔️ Колоссальное ускорение: Получите прирост производительности на порядки для поддерживаемых алгоритмов (KNN, PCA, линейные модели, Random Forest (инференс), UMAP, DBSCAN, KMeans и др.) за счет мощи GPU.
✔️Автоматическое переключение между GPU и CPU. Ваш скрипт будет работать в любом случае.

Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.

👇 Как использовать:

Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):


python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend


Добавьте в начало скрипта:


import cuml.patch
cuml.patch.apply()


Используйте scikit-learn как обычно!

Попробуйте и почувствуйте разницу! 😉

Блог-пост
Colab
Github
Ускоряем Pandas

@ai_machinelearning_big_data


#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍 Marimo — это блокнот с реактивным исполнением кода, обеспечивающий автоматическое обновление зависимых ячеек при изменении данных или кода.

По сути это улучшенная альтернатива Jupyter.​

Как работает Marimo?

▪️ При изменении значения переменной или взаимодействии с UI-элементом, Marimo автоматически выполняет все ячейки, зависящие от этой переменной, поддерживая консистентность кода и результатов. ​

Отличия от Jupyter:

▪️ Формат файлов: Marimo сохраняет блокноты как чистые Python-файлы (.py), облегчая интеграцию с системами контроля версий, в отличие от Jupyter, использующего формат JSON (.ipynb). ​

▪️ Реактивность: В Marimo изменение данных автоматически обновляет все связанные ячейки, тогда как в Jupyter это требует ручного выполнения. ​

Основные преимущества Marimo:

▪️ Интерактивность: Встроенные UI-элементы, такие как слайдеры и выпадающие списки, синхронизируются с кодом без необходимости в дополнительных настройках. ​

▪️ Отсутствие скрытых состояний и детерминированный порядок выполнения обеспечивают надежность результатов. ​

▪️ Поддерживает возможность исполнять блокноты как скрипты, импортировать их в другие проекты и разворачивать как веб-приложения. ​

Marimo представляет собой мощный инструмент для разработчиков и исследователей, стремящихся к более эффективной и надежной работе с Python-блокнотами.

В галерее Marimo представлены блокноты на все случае жизни, созданные сообществом, демонстрирующие различные возможности и сценарии использования Marimo.​

🟡Еще примеры
🟡Документация
🟡Канал Marimo
🟡Видеообзор
🟡Урок по работе с Marimo

@ai_machinelearning_big_data


#marimo #ds #ml #tools #opensource #datascience
Please open Telegram to view this post
VIEW IN TELEGRAM