ML Advertising

Сегодня мы поговорим про библиотеки обработки датафреймов. Все мы знаем о широком функционале Pandas, но библиотека часто не подходит, например для тяжеловесных датасетов объемом от 10Гб или для многопоточки. В этих случаях нам на помощь приходят библиотеки…

Numba

Ранее я писал про оптимизацию расчетов датафреймов. Сегодня продолжим тему оптимизации расчетов на Python. Речь пойдет про библиотеку Numba https://numba.pydata.org/.

По сути, Numba это обертка C++ кода на python и один из относительно простых способов ускорить python-код.

1️⃣ Как работает?
Есть два режима, в которых Numba может сократить время исполнения кода:
- Nopython. Здесь Numba компилирует функцию на C++ без интерпретатора, что делает код быстрее
- Object mode. Здесь она оптимизирует только циклы, компилируя их отдельно

По-умолчанию используется Nopython метод, но можно явно указать Object mode. Также можно добавить parallel=True для распараллеливания кода.

2️⃣ Как использовать?
Устанавливаем numba с помощью pip install numba. Затем импортируем декораторы @njit и @jit c from numba import njit, jit. После этого прописываем декораторы над функцией, которую хотим оптимизировтаь и получаем ускорение из коробки в несколько раз.


from numba import njit
import random

@njit
def monte_carlo_pi(nsamples):
    acc = 0
    for i in prange(nsamples):
        x = random.random()
        y = random.random()
        if (x ** 2 + y ** 2) < 1.0:
            acc += 1
    return 4.0 * acc / nsamples

3️⃣ Когда использовать?
Если в коде есть много математических расчетов и циклов, то Numba вам сильно поможет. Но прописывать ее везде и всюду не получится по нескольким причинам:

- во-первых, для компиляции кода на плюсах Numba должна знать функции, которые вы хотите оптимизировать. Хотя большинство стандартных питонячих функций уже реализовано в Numba, методы из scipy и openCV там отсутствуют

- во-вторых, Numba тяжело дебажить, например, когда в нее вы обернули высокоуровневую функцию из opencv. Сообщения при отладке не особо явные

#mlops

👍2🔥1

505 viewsedited 19:53